このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231105となっている論文です。

PDF登録状況(公開日: 20231105)

TitleAuthorsAbstract論文公表日・翻訳日
# SparseLock:ディープラーニングアクセラレータにおけるニューラルネットワークモデルのセキュア化

SparseLock: Securing Neural Network Models in Deep Learning Accelerators ( http://arxiv.org/abs/2311.02628v1 )

ライセンス: Link先を確認
Nivedita Shrivastava, Smruti R. Sarangi, (参考訳) モデル抽出とパラメータ抽出攻撃に対するニューラルネットワーク(NN)のセキュア化は、主に、現代的なNNの構築とトレーニングに多くの時間とリソースを要するため、重要な問題である。 我々は,近年提案されているスパースNNに対する攻撃に対する対策(CM)は存在せず,スパースと高密度NNに対するすべての既知の攻撃に対して効果的に防御する単一のCMも存在しないことを観察した。 本稿では,近年提案されているCMが存在しないものを含め,あらゆる種類の攻撃から保護する総合的なCMであるSparseLockを提案する。 我々は新しい圧縮アルゴリズムとビンニング戦略に依存している。 我々のセキュリティ保証は、ビンパッキングと逆ビンパッキングの問題の本質的な難しさに基づいている。 また、統計的および情報理論に基づくテストを行い、アーキテクチャ内のサイドチャネルがランダムなソースに類似していることを示しました。 さらに、最も近い競合するセキュアアーキテクチャよりも47.13%の性能上の利点を示す。

Securing neural networks (NNs) against model extraction and parameter exfiltration attacks is an important problem primarily because modern NNs take a lot of time and resources to build and train. We observe that there are no countermeasures (CMs) against recently proposed attacks on sparse NNs and there is no single CM that effectively protects against all types of known attacks for both sparse as well as dense NNs. In this paper, we propose SparseLock, a comprehensive CM that protects against all types of attacks including some of the very recently proposed ones for which no CM exists as of today. We rely on a novel compression algorithm and binning strategy. Our security guarantees are based on the inherent hardness of bin packing and inverse bin packing problems. We also perform a battery of statistical and information theory based tests to successfully show that we leak very little information and side channels in our architecture are akin to random sources. In addition, we show a performance benefit of 47.13% over the nearest competing secure architecture.
翻訳日:2024-03-25 13:45:54 公開日:2023-11-05
# SinClave: TEEのためのハードウェア支援シングルトン

SinClave: Hardware-assisted Singletons for TEEs ( http://arxiv.org/abs/2311.02697v1 )

ライセンス: Link先を確認
Franz Gregor, Robert Krahn, Do Le Quoc, Christof Fetzer, (参考訳) 信頼された実行環境(TEE)では、リモートホスト上で実行されるソフトウェアに対する信頼を確立することができる。 私たちはアプリケーションの振る舞いを決定する可能性のあるすべての側面を計測する必要があります。 TEEの開始時にのみ測定を実行することは、証明を単純化するが、エンクレーブの"再利用"攻撃を可能にする。 我々は、異なるTEEフレームワークに対して、このような再利用攻撃を実行する方法を実証する。 また、シングルトンエンクレーブの概念と測定の完全性を通じて、鮮度を強制することで、この問題にどのように対処するかを示す。 エンクレーブに提供された秘密とファイルシステムの内容の両方がソフトウェアの動作に影響を与えるため、すなわち再利用攻撃のマウントに使用できるため、測定の完全性は自明ではない。 遠隔検診におけるこれらの2つの成分の測定を含むメカニズムについて述べる。 実世界のアプリケーションに基づく評価では、我々のアプローチは1.03%から13.2%の範囲で無視可能なオーバーヘッドしか発生しない。

For trusted execution environments (TEEs), remote attestation permits establishing trust in software executed on a remote host. It requires that the measurement of a remote TEE is both complete and fresh: We need to measure all aspects that might determine the behavior of an application, and this measurement has to be reasonably fresh. Performing measurements only at the start of a TEE simplifies the attestation but enables "reuse" attacks of enclaves. We demonstrate how to perform such reuse attacks for different TEE frameworks. We also show how to address this issue by enforcing freshness - through the concept of a singleton enclave - and completeness of the measurements. Completeness of measurements is not trivial since the secrets provisioned to an enclave and the content of the filesystem can both affect the behavior of the software, i.e., can be used to mount reuse attacks. We present mechanisms to include measurements of these two components in the remote attestation. Our evaluation based on real-world applications shows that our approach incurs only negligible overhead ranging from 1.03% to 13.2%.
翻訳日:2024-03-25 13:45:54 公開日:2023-11-05
# PermutEx: 画像暗号化アルゴリズムのための新しい拡散スキーム

PermutEx: Feature-Extraction-Based Permutation -- A New Diffusion Scheme for Image Encryption Algorithms ( http://arxiv.org/abs/2311.02795v1 )

ライセンス: Link先を確認
Muhammad Shahbaz Khan, Jawad Ahmad, Ahmed Al-Dubai, Zakwan Jaroucheh, Nikolaos Pitropakis, William J. Buchanan, (参考訳) 従来の置換方式は主に画素のランダムスクランブルに焦点を合わせ、しばしば画像暗号化アルゴリズムの拡散を増大させる固有の画像情報を無視した。 本稿では,ピクセルのスクランブルに固有の特徴を利用する特徴抽出型置換法PermutExを紹介する。 ランダムな置換方式とは異なり、PermutExは画像の空間周波数と局所コントラストの特徴を抽出し、この情報に基づいて各ピクセルをランク付けする。 さらに、カオス的振る舞いに基づいてロジスティック・シンマップを用いて、ユニークな置換キーを生成する。 ランク付けされたピクセルは、このユニークなキーと共に置換され、元のイメージをスクランブルバージョンに効果的に置換する。 実験結果から,提案手法は画像内の情報量の多い領域の相関を効果的に破壊し,相関値が0.000062であることが確認された。 画素の効率的なスクランブルは、ほぼ相関関係を保ち、この手法は画像暗号化アルゴリズムの拡散として用いるのに適している。

Traditional permutation schemes mostly focus on random scrambling of pixels, often neglecting the intrinsic image information that could enhance diffusion in image encryption algorithms. This paper introduces PermutEx, a feature-extraction-based permutation method that utilizes inherent image features to scramble pixels effectively. Unlike random permutation schemes, PermutEx extracts the spatial frequency and local contrast features of the image and ranks each pixel based on this information, identifying which pixels are more important or information-rich based on texture and edge information. In addition, a unique permutation key is generated using the Logistic-Sine Map based on chaotic behavior. The ranked pixels are permuted in conjunction with this unique key, effectively permuting the original image into a scrambled version. Experimental results indicate that the proposed method effectively disrupts the correlation in information-rich areas within the image resulting in a correlation value of 0.000062. The effective scrambling of pixels, resulting in nearly zero correlation, makes this method suitable to be used as diffusion in image encryption algorithms.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-05
# 自動オーサリング難読化のための指導基準としてのUID

UID as a Guiding Metric for Automated Authorship Obfuscation ( http://arxiv.org/abs/2312.03709v1 )

ライセンス: Link先を確認
Nicholas Abegg(参考訳) 著者の匿名性を保護することは、自動著作者の増加に伴い難しい課題となっている。 これらの属性は、著者のプールにテキストの著者を非常に正確に帰属させることができる。 これらの自動化アトリビュータの台頭に対抗するために、自動化されたオブフューシレータも増えている。 これらの難読者は、あるテキストを受け取り、何らかの方法でテキストを摂動し、成功すれば、自動化された属性を欺いて間違った著者を誤帰させる。 我々は,一様情報密度(uid)理論として知られる心理言語理論を用いた3つの新しい著者難読化手法を考案した。 この理論では、人間は効率を最大化するために、音声やテキスト間で情報を均等に分配する。 この理論を3つの難読化法で活用し, 2つの分離アトリビュータを欺くことに成功した。 また,TuringBenchデータセットから得られた50人の人間と50人のGPT-3生成記事から,各手法が属性の認識にどの程度効果があったかを調べた。 意味的保存や感覚的変化の点で難読化の質は高かったが,UIDが難読化の有効な指標であることを示す証拠は見つからなかった。 しかし、時間的制約のため、大量の記事のサンプルをテストできなかったり、属性のパラメータを調整できなかったり、難読化でUIDに決定的にコメントすることができなかった。

Protecting the anonymity of authors has become a difficult task given the rise of automated authorship attributors. These attributors are capable of attributing the author of a text amongst a pool of authors with great accuracy. In order to counter the rise of these automated attributors, there has also been a rise of automated obfuscators. These obfuscators are capable of taking some text, perturbing the text in some manner, and, if successful, deceive an automated attributor in misattributing the wrong author. We devised three novel authorship obfuscation methods that utilized a Psycho-linguistic theory known as Uniform Information Density (UID) theory. This theory states that humans evenly distribute information amongst speech or text so as to maximize efficiency. Utilizing this theory in our three obfuscation methods, we attempted to see how successfully we could deceive two separate attributors. Obfuscating 50 human and 50 GPT-3 generated articles from the TuringBench dataset, we observed how well each method did on deceiving the attributors. While the quality of the obfuscation in terms of semantic preservation and sensical changes was high, we were not able to find any evidence to indicate UID was a viable guiding metric for obfuscation. However, due to restrictions in time we were unable to test a large enough sample of article or tune the parameters for our attributors to comment conclusively on UID in obfuscation.
翻訳日:2023-12-11 03:20:14 公開日:2023-11-05
# Vehicular Ad-hoc NETworks (VANETs)上での低レイテンシ多重記述ビデオストリーミングのためのクロスレイヤ方式

Cross-layer scheme for low latency multiple description video streaming over Vehicular Ad-hoc NETworks (VANETs) ( http://arxiv.org/abs/2311.13603v1 )

ライセンス: Link先を確認
Mohamed Aymen Labiod, Mohamed Gharbi, Francois-Xavier Coudoux, Patrick Corlay, Noureddine Doghmane(参考訳) 近年,ビデオ支援を必要とするリアルタイムアプリケーションに対する車両通信の需要が高まっている。 新しい最先端の高効率ビデオ符号化(HEVC)標準は、リアルタイムビデオストリーミングに非常に有望である。 高い符号化効率と、専用の低遅延符号化構造を提供する。 これらのうち、すべての内部(AI)符号化構造は、高いビデオビットレートを犠牲にして最小の符号化時間を保証し、したがって伝送性能をペナルティ化する。 本研究では,車両間通信における受信映像品質を向上させるために,オリジナルのクロスレイヤーシステムを提案する。 システムは低複雑さであり、多重記述符号化(MDC)アプローチに依存している。 これはIEEE 802.11p標準媒体アクセス制御(MAC)層に適用される適応マッピング機構に基づいている。 実環境下でのシミュレーション結果から,低遅延ビデオ通信においては,提案手法が受信機側の映像品質を著しく改善することを示す。

There is nowadays a growing demand in vehicular communications for real-time applications requiring video assistance. The new state-of-the-art high-efficiency video coding (HEVC) standard is very promising for real-time video streaming. It offers high coding efficiency, as well as dedicated low delay coding structures. Among these, the all intra (AI) coding structure guarantees minimal coding time at the expense of higher video bitrates, which therefore penalizes transmission performances. In this work, we propose an original cross-layer system in order to enhance received video quality in vehicular communications. The system is low complex and relies on a multiple description coding (MDC) approach. It is based on an adaptive mapping mechanism applied at the IEEE 802.11p standard medium access control (MAC) layer. Simulation results in a realistic vehicular environment demonstrate that for low delay video communications, the proposed method provides significant video quality improvements on the receiver side.
翻訳日:2023-12-03 14:12:28 公開日:2023-11-05
# 対象データ生成部品の分離による手続き的公正性

Procedural Fairness Through Decoupling Objectionable Data Generating Components ( http://arxiv.org/abs/2311.14688v1 )

ライセンス: Link先を確認
Zeyu Tang, Jialu Wang, Yang Liu, Peter Spirtes, Kun Zhang(参考訳) 我々は,データ生成プロセスの中立的側面(すなわち,問題ではない)の行動に対する潜在的不注意な変更や,最下位の個人による最大利益の手続的保証の欠如といった,偽の手続き的不公平性がしばしば見過ごされ,しばしば見過ごされがちな問題を明らかにし,対処する。 ジョン・ロールズによる純粋手続き的正義の擁護に触発され、我々は自動意思決定を社会機関のマイクロコズムとみなし、データ生成プロセス自体が手続き的公正性の要件を満たすことができるかを考える。 本稿では、参照点と関連する値インスタンス化ルールを利用して、中立なデータ生成コンポーネントを分離するフレームワークを提案する。 本研究は,偽装した手続き不公平を防止することの必要性を浮き彫りにして,我々が緩和しようとする不利なデータ生成コンポーネントだけでなく,影響のない中立コンポーネントにも注意を向けるものである。

We reveal and address the frequently overlooked yet important issue of disguised procedural unfairness, namely, the potentially inadvertent alterations on the behavior of neutral (i.e., not problematic) aspects of data generating process, and/or the lack of procedural assurance of the greatest benefit of the least advantaged individuals. Inspired by John Rawls's advocacy for pure procedural justice, we view automated decision-making as a microcosm of social institutions, and consider how the data generating process itself can satisfy the requirements of procedural fairness. We propose a framework that decouples the objectionable data generating components from the neutral ones by utilizing reference points and the associated value instantiation rule. Our findings highlight the necessity of preventing disguised procedural unfairness, drawing attention not only to the objectionable data generating components that we aim to mitigate, but also more importantly, to the neutral components that we intend to keep unaffected.
翻訳日:2023-12-03 14:07:20 公開日:2023-11-05
# 説明可能なaiは道徳的価値を持つか?

Does Explainable AI Have Moral Value? ( http://arxiv.org/abs/2311.14687v1 )

ライセンス: Link先を確認
Joshua L.M. Brand, Luca Nannini(参考訳) 説明可能なAI(XAI)は、複雑なアルゴリズムシステムと人間の利害関係者のギャップを埋めることを目的としている。 現在の談話では、XAIを技術ツール、ユーザインターフェース、あるいはポリシーメカニズムとして独立して検討することが多い。 本稿では,道徳的義務と相互性の概念に基づく統一的倫理的枠組みを提案する。 我々は、XAIは権利としてだけでなく、AIシステムに影響を受ける人間同士の相互関係を維持するための道徳的義務の一部として評価されるべきであると主張する。 これは、AIによる意思決定プロセスにおいて、説明が構成対称性とエージェンシーを維持するのに役立ちます。 そして,XAIコミュニティを指導し,相互性の理想と実践的実現可能性のギャップを明らかにする。 機械学習は有用なテクニックを提供するが、評価と採用の課題を見落としている。 ヒューマンコンピュータインタラクションは予備的な洞察を提供するが、組織のコンテキストを単純化する。 政策は説明責任を侵害するが、技術的ニュアンスを欠いている。 これらのビューを合成すると、実装可能な倫理的XAIへの障壁が明らかになる。 それでも、XAIを道徳的義務として位置づけることは、より堅牢で完全な道徳的イメージを捉える権利に基づく言説を超越している。 本稿では,説明可能性の道徳的価値を解明し,詳細な分析を行う。

Explainable AI (XAI) aims to bridge the gap between complex algorithmic systems and human stakeholders. Current discourse often examines XAI in isolation as either a technological tool, user interface, or policy mechanism. This paper proposes a unifying ethical framework grounded in moral duties and the concept of reciprocity. We argue that XAI should be appreciated not merely as a right, but as part of our moral duties that helps sustain a reciprocal relationship between humans affected by AI systems. This is because, we argue, explanations help sustain constitutive symmetry and agency in AI-led decision-making processes. We then assess leading XAI communities and reveal gaps between the ideal of reciprocity and practical feasibility. Machine learning offers useful techniques but overlooks evaluation and adoption challenges. Human-computer interaction provides preliminary insights but oversimplifies organizational contexts. Policies espouse accountability but lack technical nuance. Synthesizing these views exposes barriers to implementable, ethical XAI. Still, positioning XAI as a moral duty transcends rights-based discourse to capture a more robust and complete moral picture. This paper provides an accessible, detailed analysis elucidating the moral value of explainability.
翻訳日:2023-12-03 14:07:02 公開日:2023-11-05
# 機械学習を用いたランサムウェアの検出と分類

Ransomware Detection and Classification using Machine Learning ( http://arxiv.org/abs/2311.16143v1 )

ライセンス: Link先を確認
Kavitha Kunku, ANK Zaman, Kaushik Roy(参考訳) 悪質な攻撃、マルウェア、様々なランサムウェアはサイバーセキュリティの脅威となり、様々な産業や企業にわたってコンピュータ構造、サーバー、モバイルおよびウェブアプリに大きなダメージを与える。 これらの安全上の懸念は重要であり、直ちに対処する必要がある。 ランサムウェアの検出と分類は、迅速な反応と予防を保証するために重要である。 本研究ではXGBoost分類器とランダムフォレスト(RF)アルゴリズムを用いてランサムウェア攻撃を検出し分類する。 このアプローチでは、ランサムウェアの動作を分析し、異なるランサムウェアファミリーの区別に役立つ関連する特徴を抽出する。 モデルはランサムウェア攻撃のデータセットに基づいて評価され、ランサムウェアの正確な検出と分類の有効性を示す。 その結果,XGBoost分類器であるランダムフォレスト分類器は,異なるランサムウェア攻撃を高い精度で効果的に検出・分類し,サイバーセキュリティを強化する貴重なツールを提供することができた。

Vicious assaults, malware, and various ransomware pose a cybersecurity threat, causing considerable damage to computer structures, servers, and mobile and web apps across various industries and businesses. These safety concerns are important and must be addressed immediately. Ransomware detection and classification are critical for guaranteeing rapid reaction and prevention. This study uses the XGBoost classifier and Random Forest (RF) algorithms to detect and classify ransomware attacks. This approach involves analyzing the behaviour of ransomware and extracting relevant features that can help distinguish between different ransomware families. The models are evaluated on a dataset of ransomware attacks and demonstrate their effectiveness in accurately detecting and classifying ransomware. The results show that the XGBoost classifier, Random Forest Classifiers, can effectively detect and classify different ransomware attacks with high accuracy, thereby providing a valuable tool for enhancing cybersecurity.
翻訳日:2023-12-03 13:18:25 公開日:2023-11-05
# 脳にインスパイアされた効率的なプルーニング:スパイクニューラルネットワークにおける臨界点の爆発

Brain-Inspired Efficient Pruning: Exploiting Criticality in Spiking Neural Networks ( http://arxiv.org/abs/2311.16141v1 )

ライセンス: Link先を確認
Shuo Chen, Boxiao Liu, Haihang You(参考訳) Spiking Neural Networks(SNN)は、イベント駆動型コンピューティング特性のため、限られたコンピューティングリソースと消費電力の少ないデバイスにデプロイする上で、魅力的な選択肢である。 このようなデバイスはコンピュータとストレージのリソースが限られているため、SNNのプルーニングは近年広く注目されている。 しかし、スパイク信号のバイナリおよび非微分可能な性質は、プルーニング深いSNNを困難にするため、既存の手法ではプルーニング決定に高い時間的オーバーヘッドを必要とする。 本稿では,神経科学における臨界脳仮説に着想を得て,臨界性に基づく再生機構を考案し,臨界プラニングネットワークを効率的に獲得する。 まず,刈り込み構造の臨界度に対する低コストな計量法を提案する。 次いで, 刈り込み後の刈り込み構造を再現し, 高い臨界度で再現した。 VGG-16とResNet-19を用いて非構造化プルーニングと構造化プルーニングの両方について評価を行った。 提案手法は, 現状技術(SOTA)法と比較して, 同じ時間オーバーヘッドで高い性能を実現する。 また、11.3xと15.5xの加速を持つSOTA法と比較して、同等の性能(VGG-16よりも優れている)を達成する。 さらに,本手法の基盤となるメカニズムを調査し,ポテンシャル構造を効率的に選択し,一貫した特徴表現を学習し,リカバリフェーズにおける過剰フィッティングを低減できることを見出した。

Spiking Neural Networks (SNNs) have been an attractive option for deployment on devices with limited computing resources and lower power consumption because of the event-driven computing characteristic. As such devices have limited computing and storage resources, pruning for SNNs has been widely focused recently. However, the binary and non-differentiable property of spike signals make pruning deep SNNs challenging, so existing methods require high time overhead to make pruning decisions. In this paper, inspired by critical brain hypothesis in neuroscience, we design a regeneration mechanism based on criticality to efficiently obtain the critical pruned networks. Firstly, we propose a low-cost metric for the criticality of pruning structures. Then we re-rank the pruned structures after pruning and regenerate those with higher criticality. We evaluate our method using VGG-16 and ResNet-19 for both unstructured pruning and structured pruning. Our method achieves higher performance compared to current state-of-the-art (SOTA) method with the same time overhead. We also achieve comparable performances (even better on VGG-16) compared to the SOTA method with 11.3x and 15.5x acceleration. Moreover, we investigate underlying mechanism of our method and find that it efficiently selects potential structures, learns the consistent feature representations and reduces the overfitting during the recovery phase.
翻訳日:2023-12-03 13:18:01 公開日:2023-11-05
# 教室におけるソースコードリファクタリングの自動化

Automating Source Code Refactoring in the Classroom ( http://arxiv.org/abs/2311.10753v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar and Mohamed Wiem Mkaouer and Ali Ouni(参考訳) リファクタリングは、ソフトウェア品質を外部の振る舞いを変えることなく改善するプラクティスである。 開発者は直感的に、プログラムの理解を改善し、コードの複雑さを減らし、技術的負債に対処し、コードの臭いを取り除くなど、複数の目的のためにコードをリファクタリングする。 しかし、アンチパターンの検出とリファクタリングのプロセスの経験を学生に公開し、実践するためのツールセットを学生に提供する以前の研究はない。 本稿では,リファクタリング概念の認識を高めるために,リファクタリング教育の経験と,悪いプログラミング実践に対する学生の認識の向上,リファクタリングによる修正の重要性について考察する。 本稿では,アンチパターン検出とリファクタリングをサポートするEclipseプラグインであるJDeodorantを用いて,アンチパターンの除去を目的とした様々なリファクタリング活動を教室で実施する実験の結果について述べる。 171人の学生による定量的・質的分析の結果, 学生はリファクタリングの考え方を高く評価し, JDeodorant プラグインの動作の様々な側面に満足する傾向にあることがわかった。 この実験を通じて、リファクタリングはコンピューティング教育計画の重要な部分になる可能性がある。 より安全で信頼性の高いリファクタリングを目標としたリファクタリングツールを学生に提供可能な,教育者支援の成果を期待する。

Refactoring is the practice of improving software quality without altering its external behavior. Developers intuitively refactor their code for multiple purposes, such as improving program comprehension, reducing code complexity, dealing with technical debt, and removing code smells. However, no prior studies have exposed the students to an experience of the process of antipatterns detection and refactoring correction, and provided students with toolset to practice it. To understand and increase the awareness of refactoring concepts, in this paper, we aim to reflect on our experience with teaching refactoring and how it helps students become more aware of bad programming practices and the importance of correcting them via refactoring. This paper discusses the results of an experiment in the classroom that involved carrying out various refactoring activities for the purpose of removing antipatterns using JDeodorant, an Eclipse plugin that supports antipatterns detection and refactoring. The results of the quantitative and qualitative analysis with 171 students show that students tend to appreciate the idea of learning refactoring and are satisfied with various aspects of the JDeodorant plugin's operation. Through this experiment, refactoring can turn into a vital part of the computing educational plan. We envision our findings enabling educators to support students with refactoring tools tuned towards safer and trustworthy refactoring.
翻訳日:2023-11-27 00:47:05 公開日:2023-11-05
# 横断的文変換:英国英語への文適応のための言語モデルの比較分析

Cross-Dialect Sentence Transformation: A Comparative Analysis of Language Models for Adapting Sentences to British English ( http://arxiv.org/abs/2311.07583v1 )

ライセンス: Link先を確認
Shruti Dutta, Shashwat Mookherjee(参考訳) 本研究は、アメリカ、インド、アイルランドの英語方言の言語的区別を調査し、これらの方言から英英翻訳を生成する能力において、様々な言語モデル(LLM)を評価する。 この研究は、コサイン類似度分析を用いて、英語の原文翻訳と各方言のllms翻訳の言語的近接度を測定した。 この結果から、インド英語とアイルランド英語の翻訳は特に類似度が高く、イギリス英語との強い言語的連携が示唆された。 対照的に、アメリカ英語の類似性はやや低く、独特の言語的特徴を反映している。 加えて、LLMの選択は翻訳品質に大きな影響を及ぼし、Llama-2-70bは一貫して優れた性能を示した。 この研究は、正確な翻訳を達成するための言語的専門知識と文脈理解の役割を強調し、方言翻訳の正しいモデルを選択することの重要性を強調している。

This study explores linguistic distinctions among American, Indian, and Irish English dialects and assesses various Language Models (LLMs) in their ability to generate British English translations from these dialects. Using cosine similarity analysis, the study measures the linguistic proximity between original British English translations and those produced by LLMs for each dialect. The findings reveal that Indian and Irish English translations maintain notably high similarity scores, suggesting strong linguistic alignment with British English. In contrast, American English exhibits slightly lower similarity, reflecting its distinct linguistic traits. Additionally, the choice of LLM significantly impacts translation quality, with Llama-2-70b consistently demonstrating superior performance. The study underscores the importance of selecting the right model for dialect translation, emphasizing the role of linguistic expertise and contextual understanding in achieving accurate translations.
翻訳日:2023-11-19 14:17:23 公開日:2023-11-05
# 推論生物学における大規模言語モデルの可能性評価

Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions ( http://arxiv.org/abs/2311.07582v1 )

ライセンス: Link先を確認
Xinyu Gong, Jason Holmes, Yiwei Li, Zhengliang Liu, Qi Gan, Zihao Wu, Jianli Zhang, Yusong Zou, Yuxi Teng, Tian Jiang, Hongtu Zhu, Wei Liu, Tianming Liu, Yajun Yan(参考訳) 近年のLarge Language Models(LLMs)の進歩は、人工知能(AGI)を生物学的研究と教育に統合する新たな機会を提示している。 本研究は, GPT-4, GPT-3.5, PaLM2, Claude2, SenseNovaなどのLLMを概念生物学的疑問に答える能力について検討した。 モデルは、分子生物学、生物学技術、代謝工学、合成生物学の生物学のトピックをカバーする108問のマルチチョイス試験でテストされた。 モデルの中でgpt-4は平均スコアが90で、異なるプロンプトを持つ試験で最大の一貫性を示した。 結果は,gpt-4の論理的推論能力と,データ分析,仮説生成,知識統合などを通じて生物学研究を支援する可能性を示した。 しかし、生物学的発見の加速におけるllmの約束が実現する前に、さらなる開発と検証が必要である。

Recent advances in Large Language Models (LLMs) have presented new opportunities for integrating Artificial General Intelligence (AGI) into biological research and education. This study evaluated the capabilities of leading LLMs, including GPT-4, GPT-3.5, PaLM2, Claude2, and SenseNova, in answering conceptual biology questions. The models were tested on a 108-question multiple-choice exam covering biology topics in molecular biology, biological techniques, metabolic engineering, and synthetic biology. Among the models, GPT-4 achieved the highest average score of 90 and demonstrated the greatest consistency across trials with different prompts. The results indicated GPT-4's proficiency in logical reasoning and its potential to aid biology research through capabilities like data analysis, hypothesis generation, and knowledge integration. However, further development and validation are still required before the promise of LLMs in accelerating biological discovery can be realized.
翻訳日:2023-11-19 14:17:08 公開日:2023-11-05
# コンフォメーションエネルギー最小化のための段階的最適化学習

Gradual Optimization Learning for Conformational Energy Minimization ( http://arxiv.org/abs/2311.06295v1 )

ライセンス: Link先を確認
Artem Tsypin, Leonid Ugadiarov, Kuzma Khrabrov, Manvel Avetisian, Alexander Telepov, Egor Rumiantsev, Alexey Skrynnik, Aleksandr I. Panov, Dmitry Vetrov, Elena Tutubalina and Artur Kadurin(参考訳) 分子コンフォメーション最適化は、コンピュータによる創薬と材料設計に不可欠である。 従来のエネルギー最小化技術は、物理シミュレータ(オークル)によって計算された分子力を反勾配として利用する反復最適化手法に依存している。 しかし、これは物理シミュレータと多くのインタラクションを必要とする計算コストの高いアプローチである。 この手順を加速する1つの方法は、物理シミュレータをニューラルネットワークに置き換えることである。 分子コンフォメーションエネルギー予測のためのニューラルネットワークの最近の進歩にもかかわらず、そのようなモデルは分布シフトを起こしやすいため、不正確なエネルギー最小化につながる。 トレーニングデータとして最適化トラジェクトリを提供することにより、ニューラルネットワークによるエネルギー最小化の質を向上させることができる。 それでも、物理シミュレータの最適化品質に合わせるために、追加のコンフォーメーションを5 \times 10^5$程度必要です。 本研究では,ニューラルネットワークを用いたエネルギー最小化のためのGradual Optimization Learning Framework(GOLF)を提案する。 このフレームワークは効率的なデータ収集スキームと外部オプティマイザで構成されている。 外部オプティマイザは、エネルギー予測モデルからの勾配を利用して最適化軌道を生成し、データ収集スキームは物理シミュレータで処理する追加のトレーニングデータを選択する。 その結果、ゴルフで訓練されたニューラルネットワークは、50ドル以下の追加データを用いて、様々な薬物様分子のベンチマークで、oracleと同等の性能を発揮することがわかった。

Molecular conformation optimization is crucial to computer-aided drug discovery and materials design. Traditional energy minimization techniques rely on iterative optimization methods that use molecular forces calculated by a physical simulator (oracle) as anti-gradients. However, this is a computationally expensive approach that requires many interactions with a physical simulator. One way to accelerate this procedure is to replace the physical simulator with a neural network. Despite recent progress in neural networks for molecular conformation energy prediction, such models are prone to distribution shift, leading to inaccurate energy minimization. We find that the quality of energy minimization with neural networks can be improved by providing optimization trajectories as additional training data. Still, it takes around $5 \times 10^5$ additional conformations to match the physical simulator's optimization quality. In this work, we present the Gradual Optimization Learning Framework (GOLF) for energy minimization with neural networks that significantly reduces the required additional data. The framework consists of an efficient data-collecting scheme and an external optimizer. The external optimizer utilizes gradients from the energy prediction model to generate optimization trajectories, and the data-collecting scheme selects additional training data to be processed by the physical simulator. Our results demonstrate that the neural network trained with GOLF performs on par with the oracle on a benchmark of diverse drug-like molecules using $50$x less additional data.
翻訳日:2023-11-19 14:15:11 公開日:2023-11-05
# 大きな言語モデルは、自然言語の予測表現を構築するために、暗黙的に神経文軌跡の直線化を学ぶ

Large language models implicitly learn to straighten neural sentence trajectories to construct a predictive representation of natural language ( http://arxiv.org/abs/2311.04930v1 )

ライセンス: Link先を確認
Eghbal A. Hosseini, Evelina Fedorenko(参考訳) 今後のイベントを予測することは、環境と対話する能力にとって重要です。 次単語予測に基づいて訓練されたトランスフォーマーモデルは、様々な下流タスクをサポートする言語入力の表現を構成するように見える。 しかし、そのような表現はどのように予測対象を形作るのか? 近年の視覚研究 (Henaff et al., 2019) に触発されて, 自己回帰変換器の予測表現に関する仮説を検証した。 特に,ネットワーク層を通過すると,文の神経軌道が徐々に直線になるかどうかを検証した。 重要な洞察は、直線的な軌道は線形外挿による予測を促進するべきであるということである。 1次元曲率計を用いて直線性を定量化し、軌道直線化仮説を支持する4つの結果を示す。 i) トレーニングされたモデルでは,ネットワークの初期層からより深い層まで曲率が減少する。 二 次単語予測目標により良い結果をもたらすモデルが曲率の低下を示し、この改良された文軌道の整列能力が言語モデリング性能の向上の原動力となる可能性があることを示唆する。 三 同一の言語文脈により、モデルにより生成されたシーケンスは、言語コーパスで観測された実際の継続よりも曲率が低く、予測を行うためのより直線的な軌道を好むことを示唆する。 四 平均曲率と深層モデルにおける文の平均下限との間に一貫した関係があり、また、より直線的な軌跡を持つ文も下限となる。 重要なことに、訓練されていないモデルはこれらの振る舞いを示さない。 タンデムでは、これらの結果は軌道の直線化仮説をサポートし、自己回帰モデルの内部表現の幾何学が次の単語予測をどのようにサポートするかのメカニズムを提供する。

Predicting upcoming events is critical to our ability to interact with our environment. Transformer models, trained on next-word prediction, appear to construct representations of linguistic input that can support diverse downstream tasks. But how does a predictive objective shape such representations? Inspired by recent work in vision (Henaff et al., 2019), we test a hypothesis about predictive representations of autoregressive transformers. In particular, we test whether the neural trajectory of a sentence becomes progressively straighter as it passes through the network layers. The key insight is that straighter trajectories should facilitate prediction via linear extrapolation. We quantify straightness using a 1-dimensional curvature metric, and present four findings in support of the trajectory straightening hypothesis: i) In trained models, the curvature decreases from the early to the deeper layers of the network. ii) Models that perform better on the next-word prediction objective exhibit greater decreases in curvature, suggesting that this improved ability to straighten sentence trajectories may be the driver of better language modeling performance. iii) Given the same linguistic context, the sequences that are generated by the model have lower curvature than the actual continuations observed in a language corpus, suggesting that the model favors straighter trajectories for making predictions. iv) A consistent relationship holds between the average curvature and the average surprisal of sentences in the deep model layers, such that sentences with straighter trajectories also have lower surprisal. Importantly, untrained models do not exhibit these behaviors. In tandem, these results support the trajectory straightening hypothesis and provide a possible mechanism for how the geometry of the internal representations of autoregressive models supports next word prediction.
翻訳日:2023-11-10 17:24:40 公開日:2023-11-05
# 量子力学の確率論的解釈に関する小特集号によせて

A Short Report on the Probability-Based Interpretation of Quantum Mechanics ( http://arxiv.org/abs/2311.04233v1 )

ライセンス: Link先を確認
Paolo Rocchi(参考訳) 本稿では,確率(P)領域の悲惨な状態に注意を払っており,これは数学レベルでも,さらに応用レベルでも顕著な弱点を呈している。 量子力学(QM)における重要な問題が、未解決の確率的問題を直接反映していることに気づいた。 無限に哲学的な議論が解よりも多くの問題を生じさせるので、著者は問題の根本へ直接行き、Pの多重フォールドの性質を定式化する確率論を探求することを提案する。 研究全体は論文の限界を超えており、これらのページはこの理論的調査のいくつかの側面を要約している。 二重スリット実験は、ここで示される定理の腐食に使用される。

This paper calls attention to the sad state of the probability (P) domain which presents significant weak points at the mathematical level and even more at the application level. It is noticed how significant issues raised in quantum mechanics (QM) directly mirror unresolved probabilistic questions. Endless philosophical debates create more problems than solutions, so the author suggests going directly to the root of the issues and searching for the probability theory which formalizes the multifold nature of P. This paper offers a brief overview of the structural theory of probability that has been recently published in a book, and that underpins a probability-based interpretation of QM. The entire work goes beyond the limits of a paper and these pages condense a few aspects of this theoretical inquiry. The double slit experiment is used to corroborate the theorems presented here.
翻訳日:2023-11-09 18:19:00 公開日:2023-11-05
# 進化戦略に基づくコミュニケーション効率・プライバシ保護フェデレーション学習

Communication Efficient and Privacy-Preserving Federated Learning Based on Evolution Strategies ( http://arxiv.org/abs/2311.03405v1 )

ライセンス: Link先を確認
Guangchen Lan(参考訳) Federated Learning(FL)は、ディープニューラルネットワーク(DNN)を分散的にトレーニングするための新興パラダイムである。 現在のFLアプローチは、すべて高い通信オーバーヘッドと情報漏洩に悩まされている。 本研究では,ゼロオーダー学習法である進化戦略(FedES)に基づくフェデレーション学習アルゴリズムを提案する。 モデルパラメータを送信する代わりに、FedESは損失値のみを通信し、通信オーバーヘッドが非常に低い。 さらに、サードパーティは、データプライバシを保護する事前共有されたシードを知ることなく、勾配を見積もることができない。 実験の結果,fedesは逆伝播法と同様に収束性能を維持しつつ,上記の利点を享受できることがわかった。

Federated learning (FL) is an emerging paradigm for training deep neural networks (DNNs) in distributed manners. Current FL approaches all suffer from high communication overhead and information leakage. In this work, we present a federated learning algorithm based on evolution strategies (FedES), a zeroth-order training method. Instead of transmitting model parameters, FedES only communicates loss values, and thus has very low communication overhead. Moreover, a third party is unable to estimate gradients without knowing the pre-shared seed, which protects data privacy. Experimental results demonstrate FedES can achieve the above benefits while keeping convergence performance the same as that with back propagation methods.
翻訳日:2023-11-08 18:30:31 公開日:2023-11-05
# ガウス井戸の弱境界状態から重陽子結合エネルギーへ

From the Weakly Bound States in Gaussian Wells to the Binding Energy of Deuteron ( http://arxiv.org/abs/2311.03404v1 )

ライセンス: Link先を確認
G. Rodriguez-Espejo, J. Ortiz-Monfil and D. J. Nader(参考訳) 球対称ガウス井戸に閉じ込められた粒子からなる量子系の研究を行い,弱結合状態に着目した。 2次元および3次元において,ラグランジュメッシュ法を用いて,スペクトルの最低状態 (n < 4) に対する高精度な数値計算を行う。 最低状態が連続状態を通過する臨界パラメータは最大6桁まで推定される。 しきい値付近のエネルギーの挙動についても検討した。 特に、臨界パラメータの周りのエネルギー膨張の先頭項の係数を推定する。 さらに,放射座標の全領域において局所的に正確である数パラメトリックアンザッツを動機付けるために,微小・大距離の正確な波動関数の漸近挙動を解析する。 このアンサッツを用いて核物理学の現実的なモデルにおいて重陽子の結合エネルギーを推定し、核子間の短距離相互作用をガウス井戸によって記述する。 我々は項数の関数としてエネルギーの超高速収束を観測する。

We study the quantum system made of a particle trapped in a spherically symmetric Gaussian well with special emphasis on the weakly bound regime. In two and three dimensions, we perform highly accurate numerical calculations for the lowest states of the spectrum (n < 4) using the Lagrange Mesh Method. The critical parameters, for which the lowest states pass to the continuum regime, are estimated up to six decimal digits. The behavior of the energy near the threshold is also investigated. In particular, we estimate the coefficients of the leading terms of the energy expansion around the critical parameter. Additionally, we analyse the asymptotic behavior of the exact wave function at small and large distances to motivate a few-parametric Ansatz which is locally accurate in the whole domain of the radial coordinate. We use this Ansatz to build a basis set and estimate the binding energy of deuteron in a realistic model of nuclear physics, where the short range interaction between nucleons is described by the Gaussian well. We observe an extremely fast convergence of the energy as a function of the number of terms.
翻訳日:2023-11-08 18:30:19 公開日:2023-11-05
# CycleCL: 周期ビデオのための自己教師型学習

CycleCL: Self-supervised Learning for Periodic Videos ( http://arxiv.org/abs/2311.03402v1 )

ライセンス: Link先を確認
Matteo Destro, Michael Gygli(参考訳) 定期的なビデオシーケンスの分析は、自動生産システム、リモートセンシング、医療アプリケーション、物理トレーニングなどのアプリケーションにおいて重要なトピックである。 例えば、身体運動の繰り返しを数えることである。 周期データの特徴から、標準画像データセット用に設計された自己教師あり法は、周期の進行に関連する変化を捉えず、無関係なノイズを無視できない。 したがって、周期データではうまく動作しない。 本稿では,周期データを扱うための自己教師型学習手法であるCycleCLを提案する。 まず、周期データのよい視覚表現はサイクルの位相に敏感であるべきであるが、正確な反復に不変である、すなわち全ての繰り返しを通して特定の位相に対して同一の表現を生成するべきであるという洞察から始める。 ビデオの繰り返しを利用して,これらの特性を最適化した三重項損失に基づく新しいコントラスト学習法を設計する。 本手法では,事前学習した特徴を用いて,ほぼ同相のフレーム対と異なる相のフレームの負のペアをサンプリングする。 次に、機能エンコーダの最適化とトリプレットの再サンプリングを収束するまで繰り返す。 このようにモデルを最適化することで、前述の望ましい特性を持つ機能を学ぶことができます。 我々はcycleclを産業用および複数のヒューマンアクションデータセットで評価し、全てのタスクにおいて従来のビデオベースの自己教師付き学習方法を大幅に上回る評価を行った。

Analyzing periodic video sequences is a key topic in applications such as automatic production systems, remote sensing, medical applications, or physical training. An example is counting repetitions of a physical exercise. Due to the distinct characteristics of periodic data, self-supervised methods designed for standard image datasets do not capture changes relevant to the progression of the cycle and fail to ignore unrelated noise. They thus do not work well on periodic data. In this paper, we propose CycleCL, a self-supervised learning method specifically designed to work with periodic data. We start from the insight that a good visual representation for periodic data should be sensitive to the phase of a cycle, but be invariant to the exact repetition, i.e. it should generate identical representations for a specific phase throughout all repetitions. We exploit the repetitions in videos to design a novel contrastive learning method based on a triplet loss that optimizes for these desired properties. Our method uses pre-trained features to sample pairs of frames from approximately the same phase and negative pairs of frames from different phases. Then, we iterate between optimizing a feature encoder and resampling triplets, until convergence. By optimizing a model this way, we are able to learn features that have the mentioned desired properties. We evaluate CycleCL on an industrial and multiple human actions datasets, where it significantly outperforms previous video-based self-supervised learning methods on all tasks.
翻訳日:2023-11-08 18:30:02 公開日:2023-11-05
# ai研究論文分析の強化:ファクタードトランスフォーマティブに基づくシーケンスモデリングアプローチによる方法論成分抽出

Enhancing AI Research Paper Analysis: Methodology Component Extraction using Factored Transformer-based Sequence Modeling Approach ( http://arxiv.org/abs/2311.03401v1 )

ライセンス: Link先を確認
Madhusudan Ghosh, Debasis Ganguly, Partha Basuchowdhuri, Sudip Kumar Naskar(参考訳) 科学分野の研究は、新しい方法論とその関連する用語の出現とともに、しばしば急速に進化する。 本稿では, 方法論自体が概念的であり, 自動抽出や特徴付けが困難である一方で, 方法論の様々な構成成分を自動抽出するための教師付きモデル, 例えば 'R-CNN' や 'ELMo' などの開発を試みている。 このタスクの主な研究課題は、これらの方法論のコンポーネント名に関するコンテキストを、数ショットまたはゼロショットの設定で効果的にモデル化することである。 新たな科学的方法論を効果的に同定するための主な貢献は次のとおりである。 i) シークエンス・モデリングへの因子的アプローチを提案し, 方法論領域の幅広いカテゴリ情報(例えば 'NLP' や `RL' など)を活用する。 ; 二 高速進化型AI文献の実践的な設定の下で方法論的コンポーネント名を特定するための提案手法の実現可能性を示すため、模擬時系列設定(トレーニング過程では見られない新しい手法)に従って実験を行う。 iii) 提案手法は, 手法抽出作業において最大9.257\%のマージンで最先端のベースラインを上回ることを実証する。

Research in scientific disciplines evolves, often rapidly, over time with the emergence of novel methodologies and their associated terminologies. While methodologies themselves being conceptual in nature and rather difficult to automatically extract and characterise, in this paper, we seek to develop supervised models for automatic extraction of the names of the various constituents of a methodology, e.g., `R-CNN', `ELMo' etc. The main research challenge for this task is effectively modeling the contexts around these methodology component names in a few-shot or even a zero-shot setting. The main contributions of this paper towards effectively identifying new evolving scientific methodology names are as follows: i) we propose a factored approach to sequence modeling, which leverages a broad-level category information of methodology domains, e.g., `NLP', `RL' etc.; ii) to demonstrate the feasibility of our proposed approach of identifying methodology component names under a practical setting of fast evolving AI literature, we conduct experiments following a simulated chronological setup (newer methodologies not seen during the training process); iii) our experiments demonstrate that the factored approach outperforms state-of-the-art baselines by margins of up to 9.257\% for the methodology extraction task with the few-shot setup.
翻訳日:2023-11-08 18:29:38 公開日:2023-11-05
# QOMIC:モチーフ同定のための量子最適化

QOMIC: Quantum optimization for motif identification ( http://arxiv.org/abs/2311.03400v1 )

ライセンス: Link先を確認
Hoang M. Ngo, Tamim Khatib, My T. Thai, Tamer Kahveci(参考訳) ネットワークモチーフ識別問題は,生物ネットワークにおけるトポロジ的パターンの発見を目的としている。 非重複モチーフの同定は、古典的なコンピュータを用いた計算上難しい問題である。 量子コンピュータは、古典的コンピュータではスケールしない高複雑性問題を解決することができる。 本稿では,モチーフ同定問題に対するQOMIC (Quantum Optimization for Motif IdentifiCation) と呼ばれる最初の量子解を開発した。 QOMICは整数モデルを用いてモチーフ同定問題を変換し、量子解の開発の基礎となる。 このモデルを用いて、所定のネットワーク内のモチーフ位置を求める量子回路を開発し実装する。 実験により、QOMICはモチーフ数の観点から、従来のコンピュータで開発されたソリューションよりも優れていることが示された。 また, アルツハイマー病, パーキンソン病, ハンティントン病, 筋萎縮性側索硬化症 (ALS) , 運動ニューロン病 (MND) の5つの神経変性疾患に関連するヒトの調節ネットワークにおいて, QOMIC のモチーフを効率よく発見できることを示した。

Network motif identification problem aims to find topological patterns in biological networks. Identifying non-overlapping motifs is a computationally challenging problem using classical computers. Quantum computers enable solving high complexity problems which do not scale using classical computers. In this paper, we develop the first quantum solution, called QOMIC (Quantum Optimization for Motif IdentifiCation), to the motif identification problem. QOMIC transforms the motif identification problem using a integer model, which serves as the foundation to develop our quantum solution. We develop and implement the quantum circuit to find motif locations in the given network using this model. Our experiments demonstrate that QOMIC outperforms the existing solutions developed for the classical computer, in term of motif counts. We also observe that QOMIC can efficiently find motifs in human regulatory networks associated with five neurodegenerative diseases: Alzheimers, Parkinsons, Huntingtons, Amyotrophic Lateral Sclerosis (ALS), and Motor Neurone Disease (MND).
翻訳日:2023-11-08 18:29:15 公開日:2023-11-05
# 局所短時間加速誘起スペクトル線拡大と宇宙論における可能性

Local Short-Time Acceleration induced Spectral Line Broadening and Possible Implications in Cosmology ( http://arxiv.org/abs/2311.03397v1 )

ライセンス: Link先を確認
M.J.Luo(参考訳) 本論文は,局所短時間加速度がスペクトル線にさらに拡大し,線の中心値に影響を受けないような加速度効果を提案する。 この効果はunruh効果の局所的かつ非一様一般化と見なすことができる。 加速度誘起線拡大効果は通常の実験室で測定するには小さすぎるが、宇宙のエネルギーや物質を欠くことなく、宇宙の加速と回転銀河の半径加速度差について単純かつ統一的な視点を得るための重要な概念を提供するかもしれない。 距離-赤方偏移関係を適合させることによる宇宙膨張の加速の測定は、本質的には直線あるいは赤方偏移拡大の測定であり、宇宙加速誘起直線の拡幅は、回転銀河の外側での加速差において重要な役割を果たす。 この効果の予測についても論じる。

The paper proposes an acceleration effect that a local short-time acceleration produces an additional broadening to spectral line, while the central value of the line remains unaffected. The effect can be considered as a local and non-uniform generalization of Unruh effect. Although the acceleration-induced line broadening effect is too small to be measured in ordinary lab setup, it may offer us a key concept to gain a simple and unified perspective on the cosmic acceleration and the radial acceleration discrepancy of rotation galaxies without introducing any missing energy and matter in the universe. We find that the measurement of the acceleration of the cosmic expansion by fitting the distance-redshift relation is essentially the measurement of the line or redshift broadening, and the cosmic acceleration induced line broadening also plays a crucial role in the acceleration discrepancy at the outskirt of rotating galaxies. Possible predictions of the effect are also discussed.
翻訳日:2023-11-08 18:28:55 公開日:2023-11-05
# 分散フェデレートグラフマッチングを用いた微分プライベート事前学習モデル融合

Differentially Private Pre-Trained Model Fusion using Decentralized Federated Graph Matching ( http://arxiv.org/abs/2311.03396v1 )

ライセンス: Link先を確認
Qian Chen, Yiqiang Chen, Xinlong Jiang, Teng Zhang, Weiwei Dai, Wuliang Huang, Zhen Yan and Bo Ye(参考訳) model fusionは、model-as-a-serviceシナリオのコンテキストにおいて重要なコンポーネントになりつつある。 しかし、このアプローチはプライバシのリスクを導入し、アプリケーションに一定の制限を課します。 ユーザ間の安全なモデル交換と知識融合を保証することは、この設定において重要な課題となる。 そこで本稿では,プライバシを保ちながら,局所的微分プライバシーの制約下でのモデル融合を容易にする新しいアーキテクチャであるprivfusionを提案する。 PrivFusionはグラフベースの構造を利用して、再トレーニングを必要とせずに、複数のパーティからのモデルの融合を可能にする。 ランダム化メカニズムを使用することで、PrivFusionはフュージョンプロセス全体でプライバシーを保証する。 モデルプライバシを強化するため,本手法では,局所的微分プライベート機構と分散フェデレーショングラフマッチングを併用し,アクティベーション値と重み付けの両方を効果的に保護する。 また,無作為化ノイズの影響を緩和する摂動フィルタアダプタを導入することにより,融合モデルの実用性が保たれる。 多様な画像データセットと実世界の医療応用に関する広範な実験を通じて、プライバシを保ちながらモデル性能を維持するPrivFusionの有効性を示す実証的な証拠を提供する。 当社のコントリビューションは、プライバシ保護モデル融合の領域における、セキュアでコラボレーティブなデータ分析のための貴重な洞察と実践的なソリューションを提供します。

Model fusion is becoming a crucial component in the context of model-as-a-service scenarios, enabling the delivery of high-quality model services to local users. However, this approach introduces privacy risks and imposes certain limitations on its applications. Ensuring secure model exchange and knowledge fusion among users becomes a significant challenge in this setting. To tackle this issue, we propose PrivFusion, a novel architecture that preserves privacy while facilitating model fusion under the constraints of local differential privacy. PrivFusion leverages a graph-based structure, enabling the fusion of models from multiple parties without necessitating retraining. By employing randomized mechanisms, PrivFusion ensures privacy guarantees throughout the fusion process. To enhance model privacy, our approach incorporates a hybrid local differentially private mechanism and decentralized federated graph matching, effectively protecting both activation values and weights. Additionally, we introduce a perturbation filter adapter to alleviate the impact of randomized noise, thereby preserving the utility of the fused model. Through extensive experiments conducted on diverse image datasets and real-world healthcare applications, we provide empirical evidence showcasing the effectiveness of PrivFusion in maintaining model performance while preserving privacy. Our contributions offer valuable insights and practical solutions for secure and collaborative data analysis within the domain of privacy-preserving model fusion.
翻訳日:2023-11-08 18:28:39 公開日:2023-11-05
# newvision: ディープラーニングを使って盲目の人を助けるアプリケーション

Newvision: application for helping blind people using deep learning ( http://arxiv.org/abs/2311.03395v1 )

ライセンス: Link先を確認
Kumar Srinivas Bobba, Kartheeban K, Vamsi Krishna Sai Boddu, Vijaya Mani Surendra Bolla, Dinesh Bugga(参考訳) 有能な身体を持つ人々として、私たちはしばしば自分のビジョンを当然と捉えます。 しかし、視覚障害者にとっては、その障害が日常生活に大きな影響を与える可能性がある。 私たちは、視覚障害者が周囲をナビゲートし、オブジェクトや人物を特定し、テキストを読み、障害物を避けるのに役立つプロプライエタリなヘッドギアを開発している。 ヘッドギアはコンピュータビジョン、超音波センサーによる距離推定、音声認識、音声アシスタントを組み合わせて、ユーザーの環境に関するリアルタイム情報を提供する。 ユーザーは、音声コマンドでヘッドギアと対話でき、オブジェクトを識別したり、'navigate to the front door'を検索したりすることができる。 ヘッドギアは、オブジェクトの言葉による説明や、音声によるナビゲーション命令をユーザに提供します。 我々は、このヘッドギアが視覚障害者の生活に大きな変化をもたらす可能性があり、より独立して生活し、社会に完全に参加できると考えている。

As able-bodied people, we often take our vision for granted. For people who are visually impaired, however, their disability can have a significant impact on their daily lives. We are developing proprietary headgear that will help visually impaired people navigate their surroundings, identify objects and people, read text, and avoid obstacles. The headgear will use a combination of computer vision, distance estimation with ultrasonic sensors, voice recognition, and voice assistants to provide users with real-time information about their environment. Users will be able to interact with the headgear through voice commands, such as ''What is that?'' to identify an object or ''Navigate to the front door'' to find their way around. The headgear will then provide the user with a verbal description of the object or spoken navigation instructions. We believe that this headgear has the potential to make a significant difference in the lives of visually impaired people, allowing them to live more independently and participate more fully in society.
翻訳日:2023-11-08 18:28:14 公開日:2023-11-05
# 高速ディスクマイニングのためのマルチ次元時系列のスケッチ

Sketching Multidimensional Time Series for Fast Discord Mining ( http://arxiv.org/abs/2311.03393v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yan Zheng, Menghai Pan, Huiyuan Chen, Zhongfang Zhuang, Junpeng Wang, Liang Wang, Wei Zhang, Jeff M. Phillips, Eamonn Keogh(参考訳) 時系列ディスコードは時系列異常検出に有用なプリミティブであり、マトリックスプロファイルは効果的にディスコードを取り込むことができる。 時系列の長さに関して、ディスコード発見のスケーラビリティを向上させるための研究が数多く存在する。 しかし、多次元時系列の次元に付随する行列プロファイル計算の時間的複雑さの低減に焦点を当てる作業は驚くほど少ない。 本研究では,多次元時系列間の不協和音マイニングのためのスケッチを提案する。 データを読み取るのと同じくらい早くスケッチを初期処理した後、ディスコードマイニングは元のデータの次元に依存しない実行時間を持つ。 水処理と輸送から得られたいくつかの実世界の例では、提案アルゴリズムは少なくとも1桁(50倍)のスループットを向上し、近似解の品質への影響は最小限である。 さらに,提案手法は,非連続的オーバーヘッドによる次元の動的付加や削除を処理できる。 これにより、データアナリストは、データを探索しながらリアルタイムに"What-if"シナリオを検討できる。

Time series discords are a useful primitive for time series anomaly detection, and the matrix profile is capable of capturing discord effectively. There exist many research efforts to improve the scalability of discord discovery with respect to the length of time series. However, there is surprisingly little work focused on reducing the time complexity of matrix profile computation associated with dimensionality of a multidimensional time series. In this work, we propose a sketch for discord mining among multi-dimensional time series. After an initial pre-processing of the sketch as fast as reading the data, the discord mining has runtime independent of the dimensionality of the original data. On several real world examples from water treatment and transportation, the proposed algorithm improves the throughput by at least an order of magnitude (50X) and only has minimal impact on the quality of the approximated solution. Additionally, the proposed method can handle the dynamic addition or deletion of dimensions inconsequential overhead. This allows a data analyst to consider "what-if" scenarios in real time while exploring the data.
翻訳日:2023-11-08 18:27:58 公開日:2023-11-05
# 状態進化と腐敗した文脈からの情報バランスをとる新しいバンディット設定

A New Bandit Setting Balancing Information from State Evolution and Corrupted Context ( http://arxiv.org/abs/2011.07989v4 )

ライセンス: Link先を確認
Alexander Galozy, Slawomir Nowaczyk, Mattias Ohlsson(参考訳) そこで本研究では,確立されたオンライン学習問題とバンディットフィードバックの2つの重要な側面を組み合わせた,新たな逐次意思決定設定を提案する。 任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。 各状態はコンテキスト分布と関連付けられ、おそらくは破損し、エージェントは状態を特定することができる。 さらに、状態はマルコフ様式で進化し、状態履歴を通じて現在の状態を推定するための有用な情報を提供する。 提案する問題設定では,エージェントがアーム選択の基盤となる2つの情報源のどちらを決定するかという課題に取り組む。 本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。 我々は、行動回帰遷移モデルを繰り返し学習することで、状態の時間相関を捉え、行動の効率的な探索を可能にする。 私たちの設定はadaptive mobile health (mhealth) の介入によって動機づけられています。 ユーザーは異なる時間に関連があるが、部分的に観察可能な内部状態に移行し、現在のニーズを決定する。 各内部状態に関連するサイド情報は必ずしも信頼できるものではないかもしれないし、標準的なアプローチは、後悔を招くコンテキストリスクのみに依存している。 同様に、一部のユーザーはその後の状態間でより弱い相関関係を示し、同じリスクを負う状態遷移のみに依存するアプローチへと導かれる。 本手法は,従来のアルゴリズムに比べて経験的性能が向上することを示すとともに,その設定とアルゴリズムを後悔の下限と上限の観点で分析し,薬剤服用介入データと実世界データセットのシミュレーションによる評価を行った。

We propose a new sequential decision-making setting, combining key aspects of two established online learning problems with bandit feedback. The optimal action to play at any given moment is contingent on an underlying changing state which is not directly observable by the agent. Each state is associated with a context distribution, possibly corrupted, allowing the agent to identify the state. Furthermore, states evolve in a Markovian fashion, providing useful information to estimate the current state via state history. In the proposed problem setting, we tackle the challenge of deciding on which of the two sources of information the agent should base its arm selection. We present an algorithm that uses a referee to dynamically combine the policies of a contextual bandit and a multi-armed bandit. We capture the time-correlation of states through iteratively learning the action-reward transition model, allowing for efficient exploration of actions. Our setting is motivated by adaptive mobile health (mHealth) interventions. Users transition through different, time-correlated, but only partially observable internal states, determining their current needs. The side information associated with each internal state might not always be reliable, and standard approaches solely rely on the context risk of incurring high regret. Similarly, some users might exhibit weaker correlations between subsequent states, leading to approaches that solely rely on state transitions risking the same. We analyze our setting and algorithm in terms of regret lower bound and upper bounds and evaluate our method on simulated medication adherence intervention data and several real-world data sets, showing improved empirical performance compared to several popular algorithms.
翻訳日:2023-11-08 02:14:43 公開日:2023-11-05
# ベイズ非パラメトリック推論に対する独立有限近似

Independent finite approximations for Bayesian nonparametric inference ( http://arxiv.org/abs/2009.10780v4 )

ライセンス: Link先を確認
Tin D. Nguyen, Jonathan Huggins, Lorenzo Masoero, Lester Mackey, Tamara Broderick(参考訳) 完全にランダムな測度(CRM)とその正規化(NCRM)はベイズ非パラメトリックの柔軟なモデルを提供する。 しかし、その無限次元性は推論の挑戦をもたらす。 2つの一般的な有限近似は、有限近似 (TFAs) と独立有限近似 (IFAs) である。 前者はよく研究されているが、IFAも同様に近似誤差の一般的な境界に欠けており、2つの選択肢の体系的な比較は行われていない。 本研究は、電力法の有無にかかわらず、同質CRMとNCRMの実用的な有限次元近似を構築するための一般的なレシピを提案する。 我々はこの構成を自動独立有限近似 (aifa) と呼ぶ。 TFAとは対照的に、AIFAはより直接的な導出と近似推論における並列コンピューティングの利用を促進する。 我々は,AIFAの近似誤差を,一般的なCRMとNCRMの幅広いクラスに上限付けし,近似レベルを選択するためのガイドラインを策定する。 キーケースにおける我々の下限は、上限がきついことを示唆している。 最悪の場合、TFAはAIFAよりも効率的であることを示す。 逆に、標準的な可能性を持つ実データ実験では、AIFAとTFAも同様に機能する。 さらに、AIFAは、他の潜在的なIFAオプションが困難な場合や適用されない場合であっても、ハイパーパラメータ推定に使用できることを示した。

Completely random measures (CRMs) and their normalizations (NCRMs) offer flexible models in Bayesian nonparametrics. But their infinite dimensionality presents challenges for inference. Two popular finite approximations are truncated finite approximations (TFAs) and independent finite approximations (IFAs). While the former have been well-studied, IFAs lack similarly general bounds on approximation error, and there has been no systematic comparison between the two options. In the present work, we propose a general recipe to construct practical finite-dimensional approximations for homogeneous CRMs and NCRMs, in the presence or absence of power laws. We call our construction the automated independent finite approximation (AIFA). Relative to TFAs, we show that AIFAs facilitate more straightforward derivations and use of parallel computing in approximate inference. We upper bound the approximation error of AIFAs for a wide class of common CRMs and NCRMs -- and thereby develop guidelines for choosing the approximation level. Our lower bounds in key cases suggest that our upper bounds are tight. We prove that, for worst-case choices of observation likelihoods, TFAs are more efficient than AIFAs. Conversely, we find that in real-data experiments with standard likelihoods, AIFAs and TFAs perform similarly. Moreover, we demonstrate that AIFAs can be used for hyperparameter estimation even when other potential IFA options struggle or do not apply.
翻訳日:2023-11-08 02:14:17 公開日:2023-11-05
# 時系列のコンパクト辞書表現を用いた誤差有界近似時系列接合

Error-bounded Approximate Time Series Joins Using Compact Dictionary Representations of Time Series ( http://arxiv.org/abs/2112.12965v2 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yan Zheng, Junpeng Wang, Huiyuan Chen, Zhongfang Zhuang, Wei Zhang, Eamonn Keogh(参考訳) matrix profileは、時系列データの類似性結合機能を提供する効果的なデータマイニングツールである。 行列プロファイルのユーザは、相似性結合(自己結合)を用いて自身で時系列を結合するか、相似性結合を用いて別の時系列と結合することができる。 いずれかのタイプの結合を呼び出すことで、マトリクスプロファイルはデータの保存された構造と異常な構造の両方を発見するのに役立つ。 5年前の行列プロファイルの導入以来、近似結合による計算の高速化に複数の取り組みがなされてきたが、これらの取り組みの大部分は自己結合にのみ焦点をあてている。 本研究では,時系列のコンパクトな"ディクショナリ"表現を作成することにより,誤差有界保証を伴う近似時系列間類似性結合を効率的に実行可能であることを示す。 元の時系列ではなく辞書表現を用いることで、異常マイニングシステムのスループットを少なくとも20倍向上させることができるが、基本的に精度は低下しない。 副次的な効果として、辞書は時系列を意味的に意味のある方法で要約し、直感的で実行可能な洞察を提供する。 医学や交通の分野における辞書に基づく時系列間類似性の有用性を実証する。

The matrix profile is an effective data mining tool that provides similarity join functionality for time series data. Users of the matrix profile can either join a time series with itself using intra-similarity join (i.e., self-join) or join a time series with another time series using inter-similarity join. By invoking either or both types of joins, the matrix profile can help users discover both conserved and anomalous structures in the data. Since the introduction of the matrix profile five years ago, multiple efforts have been made to speed up the computation with approximate joins; however, the majority of these efforts only focus on self-joins. In this work, we show that it is possible to efficiently perform approximate inter-time series similarity joins with error bounded guarantees by creating a compact "dictionary" representation of time series. Using the dictionary representation instead of the original time series, we are able to improve the throughput of an anomaly mining system by at least 20X, with essentially no decrease in accuracy. As a side effect, the dictionaries also summarize the time series in a semantically meaningful way and can provide intuitive and actionable insights. We demonstrate the utility of our dictionary-based inter-time series similarity joins on domains as diverse as medicine and transportation.
翻訳日:2023-11-08 02:06:22 公開日:2023-11-05
# モンテカルロ・ドロップアウトを用いた深層学習に基づく定量的MRIの精度向上と不確実性定量化

Improving accuracy and uncertainty quantification of deep learning based quantitative MRI using Monte Carlo dropout ( http://arxiv.org/abs/2112.01587v2 )

ライセンス: Link先を確認
Mehmet Yigit Avci, Ziyu Li, Qiuyun Fan, Susie Huang, Berkin Bilgic, Qiyuan Tian(参考訳) ドロップアウトは、通常、トレーニングフェーズで正規化法とディープラーニングの不確かさを定量化するために使用される。 我々は,トレーニング中のドロップアウトと推論ステップ,および平均複数の予測を用いて精度を向上し,不確かさを低減・定量化することを提案する。 その結果, 3方向スキャンで得られた分画異方性 (FA) と平均拡散率 (MD) マップについて検討した。 本手法では,特にトレーニングデータセットが小さい場合,ドロップアウトのないネットワーク出力と比較して精度が大幅に向上する。 さらに、未発見の病理学やアーティファクトの診断に役立つ信頼度マップが生成される。

Dropout is conventionally used during the training phase as regularization method and for quantifying uncertainty in deep learning. We propose to use dropout during training as well as inference steps, and average multiple predictions to improve the accuracy, while reducing and quantifying the uncertainty. The results are evaluated for fractional anisotropy (FA) and mean diffusivity (MD) maps which are obtained from only 3 direction scans. With our method, accuracy can be improved significantly compared to network outputs without dropout, especially when the training dataset is small. Moreover, confidence maps are generated which may aid in diagnosis of unseen pathology or artifacts.
翻訳日:2023-11-08 02:06:02 公開日:2023-11-05
# スマートマニュファクチャリングにおけるビジネス分析の分類と古型

A Taxonomy and Archetypes of Business Analytics in Smart Manufacturing ( http://arxiv.org/abs/2110.06124v3 )

ライセンス: Link先を確認
Jonas Wanner, Christopher Wissuchek, Giacomo Welsch, Christian Janiesch(参考訳) データ可用性の向上とデータ処理と通信の技術的進歩により、ビジネス分析はスマート製造の重要な原動力となっている。 しかし、多くの局地的な進歩と多分野の複雑さのため、研究者と実践者は、総合的な概念化が欠如しているため、その進歩を追跡し、分野内で新しい知識を得るのに苦労している。 この問題に対処するため,我々は大規模に構造化された文献レビューを行い,904件のヒットを出し,四分節分類を開発し,スマート製造におけるビジネス分析の古型を導出した。 分類学は、アプリケーションドメイン、分析の目的としての向き、データ起源、分析技術といったメタ特性を含む。 集合的に8次元で構成され、52個の異なる特徴を持つ。 クラスタ分析を用いて、計画、保守(反応性、オフライン、オンライン予測)、モニタリング、品質管理に関する既存の知識の合成を表す6つのアーチタイプを見つけました。 時間的分析では、予測アプローチを超えて、ディープラーニングが新しいアプリケーションを支配していることを確認する。 本研究は,フィールドへのエントリポイントを構成するとともに,自身の楽器の適合性を評価するための参考資料やガイドとしても機能する。

Fueled by increasing data availability and the rise of technological advances for data processing and communication, business analytics is a key driver for smart manufacturing. However, due to the multitude of different local advances as well as its multidisciplinary complexity, both researchers and practitioners struggle to keep track of the progress and acquire new knowledge within the field, as there is a lack of a holistic conceptualization. To address this issue, we performed an extensive structured literature review, yielding 904 relevant hits, to develop a quadripartite taxonomy as well as to derive archetypes of business analytics in smart manufacturing. The taxonomy comprises the following meta-characteristics: application domain, orientation as the objective of the analysis, data origins, and analysis techniques. Collectively, they comprise eight dimensions with a total of 52 distinct characteristics. Using a cluster analysis, we found six archetypes that represent a synthesis of existing knowledge on planning, maintenance (reactive, offline, and online predictive), monitoring, and quality management. A temporal analysis highlights the push beyond predictive approaches and confirms that deep learning already dominates novel applications. Our results constitute an entry point to the field but can also serve as a reference work and a guide with which to assess the adequacy of one's own instruments.
翻訳日:2023-11-08 02:05:32 公開日:2023-11-05
# 量子測定の量子ノイズの検出と除去

Detecting and Eliminating Quantum Noise of Quantum Measurements ( http://arxiv.org/abs/2206.13743v2 )

ライセンス: Link先を確認
Shuanghong Tang, Congcong Zheng, and Kun Wang(参考訳) 本研究では,量子計測に固有の量子ノイズを体系的に対処する2段階手法を提案する。 その背後にあるアイデアは直感的であり、まず量子ノイズを検出して取り除き、古典的ノイズ仮定を満たし、測定誤差の軽減が機能するようにします。 第1段階では、量子コヒーレンス資源理論におけるコヒーレンス証人に触発され、効率的な量子ノイズ検出法を設計する。 2つの測度統計学の差をフーリエ級数に当てはめ、その統計学は相対位相を持つ最大コヒーレント状態と最大混合状態を用いて入力として得られる。 適合係数は量子ノイズを定量的にベンチマークする。 第2段階では、Pauli twirling技術に触発された量子ノイズを除去する様々な手法を設計する。 測定装置の前にランダムにサンプリングされたポーリゲートを実行し、有効測定装置が古典的ノイズのみを含むように、測定結果を条件的に反転させる。 Baidu Quantum Platform上での2段階手順の実現可能性を示す。 その結果, 測定装置の量子ノイズが著しく抑制され, 量子計算精度が大幅に向上した。 この2段階の手順は既存の測定誤差軽減手法を補完するもので, 短期量子デバイスにおける測定誤差を操作するための標準ツールボックスを構成する。

In this work, we propose a two-stage procedure to systematically address quantum noise inherent in quantum measurements. The idea behind it is intuitive: we first detect and then eliminate quantum noise so that the classical noise assumption is satisfied and measurement error mitigation works. In the first stage, inspired by coherence witness in the resource theory of quantum coherence, we design an efficient method to detect quantum noise. It works by fitting the difference between two measurement statistics to the Fourier series, where the statistics are obtained using maximally coherent states with relative phase and maximally mixed states as inputs. The fitting coefficients quantitatively benchmark quantum noise. In the second stage, we design various methods to eliminate quantum noise, inspired by the Pauli twirling technique. They work by executing randomly sampled Pauli gates before the measurement device and conditionally flipping the measurement outcomes in such a way that the effective measurement device contains only classical noise. We demonstrate the feasibility of the two-stage procedure numerically on Baidu Quantum Platform. Remarkably, the results show that quantum noise in measurement devices is significantly suppressed, and the quantum computation accuracy is substantially improved. We highlight that the two-stage procedure complements existing measurement error mitigation techniques, and they together form a standard toolbox for manipulating measurement errors in near-term quantum devices.
翻訳日:2023-11-08 01:56:29 公開日:2023-11-05
# Rayleigh-Ritz変分法について

On the Rayleigh-Ritz variational method ( http://arxiv.org/abs/2206.05122v4 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) レイリー・リッツ変分法によって提供される近似固有値が、より正確な値に対するより正確な上限であることを示す。 この目的のために、量子化学の多くの教科書で言及されている変分原理と、よく知られた射影作用素のセットを用いる。 我々は、このアプローチは量子力学や量子化学の高度なコースに適していると考える。

We give a simple proof of the well known fact that the approximate eigenvalues provided by the Rayleigh-Ritz variational method are increasingly accurate upper bounds to the exact ones. To this end, we resort to the variational principle, mentioned in most textbooks on quantum chemistry, and to a well known set of projection operators. We think that present approach may be suitable for an advanced course on quantum mechanics or quantum chemistry.
翻訳日:2023-11-08 01:55:09 公開日:2023-11-05
# 画像のロバストなバックプロパゲーションフリーフレームワーク

A Robust Backpropagation-Free Framework for Images ( http://arxiv.org/abs/2206.01820v2 )

ライセンス: Link先を確認
Timothy Zee, Alexander G. Ororbia, Ankur Mali, Ifeoma Nwogu(参考訳) 現在のディープラーニングアルゴリズムは、構造化画像データを含むさまざまな人工知能(AI)タスクで成功しているが、それらは、エラーのバックプロパゲーション(backprop)によって計算される勾配に依存するため、深い神経生理学的概念の問題を提示している。 勾配はシナプスの重量調整を得るために必要であるが、生物学的に有望なプロセスである後方伝播を行うためにフィードフォワード活性の知識を必要とする。 これは「重量輸送問題」として知られている。 そこで本研究では,画像データの重量輸送問題に対する生物学的に妥当なアプローチを提案する。 提案手法は,エラーカーネル駆動型アクティベーションアライメントアライメント(EKDAA)アルゴリズムと呼ばれ,局所的に派生したエラー伝送カーネルとエラーマップの導入によって実現される。 標準的なディープラーニングネットワークと同様に、EKDAAは重み付けとアクティベーション機能を通じて標準的なフォワード処理を実行するが、その後方エラー計算は、ネットワークを介してローカルエラー信号を伝播する適応エラーカーネルを含む。 EKDAAの有効性は、Fashion MNIST、CIFAR-10、SVHNベンチマークで視覚認識タスクを実行し、自然色画像から視覚的特徴を抽出する能力を示すことで実証される。 さらに、勾配計算の非依存性を示すために、非微分アクティベーション関数を用いたEKDAA訓練CNNについて結果を示す。

While current deep learning algorithms have been successful for a wide variety of artificial intelligence (AI) tasks, including those involving structured image data, they present deep neurophysiological conceptual issues due to their reliance on the gradients that are computed by backpropagation of errors (backprop). Gradients are required to obtain synaptic weight adjustments but require knowledge of feed-forward activities in order to conduct backward propagation, a biologically implausible process. This is known as the "weight transport problem". Therefore, in this work, we present a more biologically plausible approach towards solving the weight transport problem for image data. This approach, which we name the error kernel driven activation alignment (EKDAA) algorithm, accomplishes through the introduction of locally derived error transmission kernels and error maps. Like standard deep learning networks, EKDAA performs the standard forward process via weights and activation functions; however, its backward error computation involves adaptive error kernels that propagate local error signals through the network. The efficacy of EKDAA is demonstrated by performing visual-recognition tasks on the Fashion MNIST, CIFAR-10 and SVHN benchmarks, along with demonstrating its ability to extract visual features from natural color images. Furthermore, in order to demonstrate its non-reliance on gradient computations, results are presented for an EKDAA trained CNN that employs a non-differentiable activation function.
翻訳日:2023-11-08 01:54:18 公開日:2023-11-05
# Gacs-Korner共通情報変分オートエンコーダ

Gacs-Korner Common Information Variational Autoencoder ( http://arxiv.org/abs/2205.12239v2 )

ライセンス: Link先を確認
Michael Kleinman, Alessandro Achille, Stefano Soatto, Jonathan Kao(参考訳) 本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を,それぞれに固有の情報から提案する。 我々の共通情報の概念は関数群に対する最適化問題によって定義され、特別なケースとしてG'acs-K\orner共通情報を復元する。 重要なことに、我々の概念は基礎となるデータ分布のサンプルを用いて経験的に近似することができる。 次に,従来の変分オートエンコーダの簡単な修正を用いて,共通情報と一意情報を分割,定量化する手法を提案する。 画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証的に実証した。 さらに,接地潜伏要因が知られているデータセットについて,確率変数間の共通情報を正確に定量化できることを示す。

We propose a notion of common information that allows one to quantify and separate the information that is shared between two random variables from the information that is unique to each. Our notion of common information is defined by an optimization problem over a family of functions and recovers the G\'acs-K\"orner common information as a special case. Importantly, our notion can be approximated empirically using samples from the underlying data distribution. We then provide a method to partition and quantify the common and unique information using a simple modification of a traditional variational auto-encoder. Empirically, we demonstrate that our formulation allows us to learn semantically meaningful common and unique factors of variation even on high-dimensional data such as images and videos. Moreover, on datasets where ground-truth latent factors are known, we show that we can accurately quantify the common information between the random variables.
翻訳日:2023-11-08 01:53:25 公開日:2023-11-05
# 意思決定における人間とmlの強みの分類法 : ヒト-ml相補性の検討

A Taxonomy of Human and ML Strengths in Decision-Making to Investigate Human-ML Complementarity ( http://arxiv.org/abs/2204.10806v3 )

ライセンス: Link先を確認
Charvi Rastogi, Liu Leqi, Kenneth Holstein, Hoda Heidari(参考訳) ハイブリッドなヒューマンMLシステムは、広範囲のドメインで連続的な決定をする傾向にある。 これらのシステムはしばしば、統合された人間-MLシステムが相補的な性能を達成することを期待して導入され、つまり、統合された意思決定システムは、分離された意思決定エージェントと比較して改善される。 しかし、実験結果が混ざり合っており、既存の研究では相補的な性能が期待される源泉や機構が明確化されることは稀である。 この研究の目標は、研究者が人間-MLの相補性について推論しコミュニケーションする方法を進めるための概念的なツールを提供することです。 本稿では,人間の心理学,機械学習,人間とコンピュータの相互作用に関する先行研究に基づいて,人間とMLによる意思決定の相違を特徴付ける分類法を提案する。 そこで我々は,人間と機械学習の意思決定の組み合わせが相補的な性能をもたらす可能性のメカニズムを概念的にマッピングし,あらゆる意思決定領域におけるハイブリッドシステムの設計を推論する言語を開発する。 相補性を調べるために我々の分類学をどのように利用できるかを説明するために,相補性を実現するための数学的集約フレームワークを提供する。 合成シミュレーションにより, この枠組みを用いて分類学の特定の側面を探索し, 人間の-ml判断を組み合わせるための最適メカニズムを明らかにした。

Hybrid human-ML systems increasingly make consequential decisions in a wide range of domains. These systems are often introduced with the expectation that the combined human-ML system will achieve complementary performance, that is, the combined decision-making system will be an improvement compared with either decision-making agent in isolation. However, empirical results have been mixed, and existing research rarely articulates the sources and mechanisms by which complementary performance is expected to arise. Our goal in this work is to provide conceptual tools to advance the way researchers reason and communicate about human-ML complementarity. Drawing upon prior literature in human psychology, machine learning, and human-computer interaction, we propose a taxonomy characterizing distinct ways in which human and ML-based decision-making can differ. In doing so, we conceptually map potential mechanisms by which combining human and ML decision-making may yield complementary performance, developing a language for the research community to reason about design of hybrid systems in any decision-making domain. To illustrate how our taxonomy can be used to investigate complementarity, we provide a mathematical aggregation framework to examine enabling conditions for complementarity. Through synthetic simulations, we demonstrate how this framework can be used to explore specific aspects of our taxonomy and shed light on the optimal mechanisms for combining human-ML judgments
翻訳日:2023-11-08 01:53:13 公開日:2023-11-05
# ディープラーニングのための画像データ拡張:調査

Image Data Augmentation for Deep Learning: A Survey ( http://arxiv.org/abs/2204.08610v2 )

ライセンス: Link先を確認
Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao and Furao Shen(参考訳) 深層学習は多くのコンピュータビジョンタスクにおいて顕著な成果を上げている。 ディープニューラルネットワークは通常、過度な適合を避けるために大量のトレーニングデータに依存する。 しかし、実際のアプリケーション用のラベル付きデータは制限される可能性がある。 トレーニングデータの量と多様性を改善することにより、画像データを用いたディープラーニングモデルのトレーニングでは、データ拡張が避けられない部分となっている。 訓練データの満足度と多様性を向上させる効果的な方法として,深層学習モデルを画像データに適用するためには,データ拡張が不可欠である。 本稿では,異なる画像データ拡張手法を体系的に検討する。 レビュー手法の分類法を提案し,これらの手法の強みと限界を示す。 また,セマンティクスセグメンテーション,画像分類,オブジェクト検出といった3つの典型的なコンピュータビジョンタスクにおいて,様々なデータ拡張手法を用いて広範な実験を行った。 最後に,データ拡張が直面する現在の課題と今後の研究指針について検討し,有用な研究指導を行う。

Deep learning has achieved remarkable results in many computer vision tasks. Deep neural networks typically rely on large amounts of training data to avoid overfitting. However, labeled data for real-world applications may be limited. By improving the quantity and diversity of training data, data augmentation has become an inevitable part of deep learning model training with image data. As an effective way to improve the sufficiency and diversity of training data, data augmentation has become a necessary part of successful application of deep learning models on image data. In this paper, we systematically review different image data augmentation methods. We propose a taxonomy of reviewed methods and present the strengths and limitations of these methods. We also conduct extensive experiments with various data augmentation methods on three typical computer vision tasks, including semantic segmentation, image classification and object detection. Finally, we discuss current challenges faced by data augmentation and future research directions to put forward some useful research guidance.
翻訳日:2023-11-08 01:52:49 公開日:2023-11-05
# 相互情報正規化オフライン強化学習

Mutual Information Regularized Offline Reinforcement Learning ( http://arxiv.org/abs/2210.07484v2 )

ライセンス: Link先を確認
Xiao Ma, Bingyi Kang, Zhongwen Xu, Min Lin, Shuicheng Yan(参考訳) オフラインRLの最大の課題は、アウト・オブ・ディストリビューション・アクションがクエリーされたときに現れる分布シフトである。 既存の手法の多くは、政策改善や評価中に行動方針から逸脱する政策や価値を罰することでこの問題に対処している。 本研究では,政策改善の方向性を直接拘束することで,データセット内の状態と行動間の相互情報の観点から,オフラインRLにアプローチする新しいMISAフレームワークを提案する。 MISAはポリシーとQ値によってパラメータ化された相互情報の下位境界を構成する。 この下限を最適化することは、オフラインデータセット上のワンステップ改善ポリシーの可能性を最大化するのと同値である。 したがって、我々は政策改善の方向性をデータ多様体に限定する。 得られたアルゴリズムは、相互情報正規化を追加することにより、政策評価と改善を同時に強化する。 MISAは保守的なQ-ラーニング(CQL)と行動規則化(TD3+BC)を特別なケースとして統合する一般的なフレームワークである。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。 さらに、我々の広範な実験により、MISAはD4RLベンチマークの様々なタスクにおける幅広いベースライン、例えば体育運動タスクで742.9ポイントを達成している。 私たちのコードはhttps://github.com/sail-sg/MISAで利用可能です。

The major challenge of offline RL is the distribution shift that appears when out-of-distribution actions are queried, which makes the policy improvement direction biased by extrapolation errors. Most existing methods address this problem by penalizing the policy or value for deviating from the behavior policy during policy improvement or evaluation. In this work, we propose a novel MISA framework to approach offline RL from the perspective of Mutual Information between States and Actions in the dataset by directly constraining the policy improvement direction. MISA constructs lower bounds of mutual information parameterized by the policy and Q-values. We show that optimizing this lower bound is equivalent to maximizing the likelihood of a one-step improved policy on the offline dataset. Hence, we constrain the policy improvement direction to lie in the data manifold. The resulting algorithm simultaneously augments the policy evaluation and improvement by adding mutual information regularizations. MISA is a general framework that unifies conservative Q-learning (CQL) and behavior regularization methods (e.g., TD3+BC) as special cases. We introduce 3 different variants of MISA, and empirically demonstrate that tighter mutual information lower bound gives better offline RL performance. In addition, our extensive experiments show MISA significantly outperforms a wide range of baselines on various tasks of the D4RL benchmark,e.g., achieving 742.9 total points on gym-locomotion tasks. Our code is available at https://github.com/sail-sg/MISA.
翻訳日:2023-11-08 01:43:53 公開日:2023-11-05
# 変分量子アルゴリズムの反復複雑性

Iteration Complexity of Variational Quantum Algorithms ( http://arxiv.org/abs/2209.10615v2 )

ライセンス: Link先を確認
Vyacheslav Kungurtsev and Georgios Korpas and Jakub Marecek and Elton Yechao Zhu(参考訳) 量子コンピュータの短期的応用、すなわちハードウェアの限界によりデコヒーレンス時間が短い量子回路の利用に、近年は関心が寄せられている。 古典的コンピュータに実装された最適化アルゴリズムがパラメータ化された量子回路を目的関数として評価する変分量子アルゴリズム(vqa)は、この分野において主要な枠組みである。 このフレームワークにおける膨大なアルゴリズムは、機械学習、予測、応用物理学、組合せ最適化などの様々な問題を解決するために提案されている。 本稿では、vqaの反復複雑性、すなわち、反復が最適性の代理的な尺度を満たすまで、vqaが必要とするステップの数を分析する。 VQAプロシージャは、最適化文献において古典的なプロシージャとしてモデル化できるアルゴリズムを組み込んでいるが、短期デバイスにおけるノイズの特定の性質は、これらのアルゴリズムの既製の解析の適用性の主張を無効にする。 具体的には、雑音は量子回路による目的関数の評価を行う。 したがって、spsaやパラメータシフト規則のような一般的な最適化手順は、偏りのある関数評価を持つ微分自由最適化アルゴリズムと見なすことができる。 我々は、欠落した保証を導き、収束率が影響を受けないことを見出す。 しかし、バイアスのレベルは定数と定常性への漸近距離の両方に好ましくなく寄与し、すなわち、バイアスがより多くなるほど、VQA目標の定常点に達することが保証される。

There has been much recent interest in near-term applications of quantum computers, i.e., using quantum circuits that have short decoherence times due to hardware limitations. Variational quantum algorithms (VQA), wherein an optimization algorithm implemented on a classical computer evaluates a parametrized quantum circuit as an objective function, are a leading framework in this space. An enormous breadth of algorithms in this framework have been proposed for solving a range of problems in machine learning, forecasting, applied physics, and combinatorial optimization, among others. In this paper, we analyze the iteration complexity of VQA, that is, the number of steps that VQA requires until its iterates satisfy a surrogate measure of optimality. We argue that although VQA procedures incorporate algorithms that can, in the idealized case, be modeled as classic procedures in the optimization literature, the particular nature of noise in near-term devices invalidates the claim of applicability of off-the-shelf analyses of these algorithms. Specifically, noise makes the evaluations of the objective function via quantum circuits biased. Commonly used optimization procedures, such as SPSA and the parameter shift rule, can thus be seen as derivative-free optimization algorithms with biased function evaluations, for which there are currently no iteration complexity guarantees in the literature. We derive the missing guarantees and find that the rate of convergence is unaffected. However, the level of bias contributes unfavorably to both the constant therein, and the asymptotic distance to stationarity, i.e., the more bias, the farther one is guaranteed, at best, to reach a stationary point of the VQA objective.
翻訳日:2023-11-08 01:43:08 公開日:2023-11-05
# モンテカルロは高次元多項式近似のよいサンプリング戦略である

Monte Carlo is a good sampling strategy for polynomial approximation in high dimensions ( http://arxiv.org/abs/2208.09045v3 )

ライセンス: Link先を確認
Ben Adcock and Simone Brugiapaglia(参考訳) 本稿では,多項式を用いた限定標本からの滑らかな高次元関数の近似について述べる。 このタスクは、計算科学と工学における多くの応用の中心であり、特にパラメトリックモデリングと計算の不確実性定量化から生じるものの一部である。 このような応用ではモンテカルロサンプリングを用いるのが一般的であり、次元の呪いに屈しない。 しかし、そのような戦略が理論的に最適でないことはよく知られている。 特に、サンプル複雑性が対数的にスケールする次元 $n$ の多項式空間、すなわち $c \cdot n^2 \cdot \log が存在する。 (n)$ as $n \rightarrow \infty$。 この十分に文書化された現象は、過去10年間にわたって改良された設計に尽力し、さらに、サンプルの複雑さが対数的に、あるいは直線的にn$でスケールする、最適化に近い戦略を生み出した。 この研究で、モンテカルロは明らかな準最適性にもかかわらず、実際には高次元において完全に良い戦略であることを示した。 この現象を系統的な数値実験を通して経験的に記述した。 次に、無限多変数の正則函数の場合、この事実を厳密に正当化する理論解析を提案する。 誤差が$m/\logで代数的に高速に崩壊するモンテカルロサンプルをベースとした最小二乗近似が存在することを示す。 (m)$, 最高の$n$項多項式近似の値と同じレートである。 この結果は非構成的であり、近似を実行する適切な多項式部分空間の知識を前提としている。 次に、より大きい多対数因子を除いて、同じ速度を達成する圧縮センシングに基づくスキームを提案する。 このスキームは実用的であり、数値的にはよく知られた適応最小二乗スキームよりも優れている。

This paper concerns the approximation of smooth, high-dimensional functions from limited samples using polynomials. This task lies at the heart of many applications in computational science and engineering - notably, some of those arising from parametric modelling and computational uncertainty quantification. It is common to use Monte Carlo sampling in such applications, so as not to succumb to the curse of dimensionality. However, it is well known that such a strategy is theoretically suboptimal. Specifically, there are many polynomial spaces of dimension $n$ for which the sample complexity scales log-quadratically, i.e., like $c \cdot n^2 \cdot \log(n)$ as $n \rightarrow \infty$. This well-documented phenomenon has led to a concerted effort over the last decade to design improved, and moreover, near-optimal strategies, whose sample complexities scale log-linearly, or even linearly in $n$. In this work we demonstrate that Monte Carlo is actually a perfectly good strategy in high dimensions, despite its apparent suboptimality. We first document this phenomenon empirically via a systematic set of numerical experiments. Next, we present a theoretical analysis that rigorously justifies this fact in the case of holomorphic functions of infinitely-many variables. We show that there is a least-squares approximation based on $m$ Monte Carlo samples whose error decays algebraically fast in $m/\log(m)$, with a rate that is the same as that of the best $n$-term polynomial approximation. This result is non-constructive, since it assumes knowledge of a suitable polynomial subspace in which to perform the approximation. We next present a compressed sensing-based scheme that achieves the same rate, except for a larger polylogarithmic factor. This scheme is practical, and numerically it performs as well as or better than well-known adaptive least-squares schemes.
翻訳日:2023-11-08 01:41:40 公開日:2023-11-05
# テストログライクティフィケーションを正しく使用していますか?

Are you using test log-likelihood correctly? ( http://arxiv.org/abs/2212.00219v3 )

ライセンス: Link先を確認
Sameer K. Deshpande and Soumya Ghosh and Tin D. Nguyen and Tamara Broderick(参考訳) テストログは、同じデータの異なるモデルや、同じ確率モデルに適合するための異なる近似推論アルゴリズムを比較するために一般的に使用される。 本稿では,テストログ類似度に基づく比較が,他の目的による比較と矛盾することを示す単純な例を示す。 特に我々の例では (i)より高い試験対数となるベイズ近似アルゴリズムは、より正確な後部近似をもたらさなくてもよい。 (ii)試験ログ類似比較に基づく予測精度に関する結論は,根平均二乗誤差に基づく結論と一致しない可能性がある。

Test log-likelihood is commonly used to compare different models of the same data or different approximate inference algorithms for fitting the same probabilistic model. We present simple examples demonstrating how comparisons based on test log-likelihood can contradict comparisons according to other objectives. Specifically, our examples show that (i) approximate Bayesian inference algorithms that attain higher test log-likelihoods need not also yield more accurate posterior approximations and (ii) conclusions about forecast accuracy based on test log-likelihood comparisons may not agree with conclusions based on root mean squared error.
翻訳日:2023-11-08 01:30:48 公開日:2023-11-05
# AtMan: メモリ効率の良いアテンション操作によるトランスフォーマー予測の理解

AtMan: Understanding Transformer Predictions Through Memory Efficient Attention Manipulation ( http://arxiv.org/abs/2301.08110v5 )

ライセンス: Link先を確認
Bj\"orn Deiseroth, Mayukh Deb, Samuel Weinbach, Manuel Brack, Patrick Schramowski, Kristian Kersting(参考訳) 生成トランスモデルは、多数のパラメータと複数の入力モダリティを処理する能力によって、ますます複雑になっている。 現在の予測手法はリソース集約型である。 最も重要なのは、フォワードパスの約2倍のGPUメモリを割り当てるバックプロパゲーションに依存するため、極めて大量の余分なメモリを必要とすることだ。 そのため、プロダクションで使用するのは不可能ではないにせよ、難しい。 AtManは、生成トランスモデルの説明を、ほとんど余分なコストで提供します。 特に、AtManは、変換器の注意機構を制御し、出力予測に対する入力の関連マップを生成するモーダル非依存摂動法である。 バックプロパゲーションを使う代わりに、atmanは埋め込み空間内のコサイン類似性近傍に基づく並列化可能なトークンベースの検索手法を適用する。 テキストと画像テキストのベンチマークを徹底的に実験した結果、atmanは計算効率を保ちつつ、いくつかのメトリクスで現在の最先端のグラデーションベース手法よりも優れています。 そのため、AtManは大規模なモデル推論デプロイメントでの使用に適している。

Generative transformer models have become increasingly complex, with large numbers of parameters and the ability to process multiple input modalities. Current methods for explaining their predictions are resource-intensive. Most crucially, they require prohibitively large amounts of extra memory, since they rely on backpropagation which allocates almost twice as much GPU memory as the forward pass. This makes it difficult, if not impossible, to use them in production. We present AtMan that provides explanations of generative transformer models at almost no extra cost. Specifically, AtMan is a modality-agnostic perturbation method that manipulates the attention mechanisms of transformers to produce relevance maps for the input with respect to the output prediction. Instead of using backpropagation, AtMan applies a parallelizable token-based search method based on cosine similarity neighborhood in the embedding space. Our exhaustive experiments on text and image-text benchmarks demonstrate that AtMan outperforms current state-of-the-art gradient-based methods on several metrics while being computationally efficient. As such, AtMan is suitable for use in large model inference deployments.
翻訳日:2023-11-08 01:19:02 公開日:2023-11-05
# 視覚変換器を用いた医用画像解析の進歩 : 総合的考察

Advances in Medical Image Analysis with Vision Transformers: A Comprehensive Review ( http://arxiv.org/abs/2301.03505v3 )

ライセンス: Link先を確認
Reza Azad, Amirhossein Kazerouni, Moein Heidari, Ehsan Khodapanah Aghdam, Amirali Molaei, Yiwei Jia, Abin Jose, Rijo Roy, Dorit Merhof(参考訳) 自然言語処理におけるTransformerアーキテクチャの顕著な性能は、最近コンピュータビジョンへの幅広い関心を呼び起こしている。 その他のメリットの中で、トランスフォーマーは長距離の依存関係と空間的相関を学習できると見られ、これはコンピュータビジョン問題のデファクトスタンダードとなっている畳み込みニューラルネットワーク(CNN)に対して明らかな優位性である。 このように、トランスフォーマーは現代の医療画像解析の不可欠な部分となっている。 本稿では,医療画像におけるトランスフォーマーの応用に関する百科事典レビューを行う。 具体的には, 分類, セグメンテーション, 検出, 登録, 合成, 臨床報告書生成など, 様々な医用画像解析課題に対して, 関連する最近のトランスフォーマー文献を体系的かつ徹底的に検討する。 それぞれの応用について,提案した戦略の新規性,強み,弱点について検討し,重要な特性と貢献を強調した分類学を開発する。 さらに、適用可能な場合は、異なるデータセットに関する現在のベンチマークを概説する。 最後に,重要な課題を要約し,今後の研究の方向性について考察する。 さらに、https://github.com/mindflow-institue/awesome-transformerで対応する実装に関する引用論文も提供しています。

The remarkable performance of the Transformer architecture in natural language processing has recently also triggered broad interest in Computer Vision. Among other merits, Transformers are witnessed as capable of learning long-range dependencies and spatial correlations, which is a clear advantage over convolutional neural networks (CNNs), which have been the de facto standard in Computer Vision problems so far. Thus, Transformers have become an integral part of modern medical image analysis. In this review, we provide an encyclopedic review of the applications of Transformers in medical imaging. Specifically, we present a systematic and thorough review of relevant recent Transformer literature for different medical image analysis tasks, including classification, segmentation, detection, registration, synthesis, and clinical report generation. For each of these applications, we investigate the novelty, strengths and weaknesses of the different proposed strategies and develop taxonomies highlighting key properties and contributions. Further, if applicable, we outline current benchmarks on different datasets. Finally, we summarize key challenges and discuss different future research directions. In addition, we have provided cited papers with their corresponding implementations in https://github.com/mindflow-institue/Awesome-Transformer.
翻訳日:2023-11-08 01:18:04 公開日:2023-11-05
# グローバルラベル推論と分類によるロバストなメタ表現学習

Robust Meta-Representation Learning via Global Label Inference and Classification ( http://arxiv.org/abs/2212.11702v2 )

ライセンス: Link先を確認
Ruohan Wang, Isak Falk, Massimiliano Pontil, Carlo Ciliberto(参考訳) FSL(Few-shot Learning)はメタラーニングにおいて中心的な問題であり、学習者はラベル付き例から効率的に学習しなければならない。 FSL内では、最近、機能事前学習が、一般化性能を大幅に改善するために人気が高まっている。 しかし、事前学習の貢献はしばしば見落とされ、メタラーニングのパフォーマンスに対するその影響についての理論的理解が限られている。 さらに、事前トレーニングには、トレーニングタスク間で共有される一貫したグローバルラベルセットが必要である。 本稿では,まず,事前学習とメタ学習の関連性を示すことで,上記の課題に対処する。 事前学習がより強固なメタ表現をもたらす理由を議論し、理論解析を既存の作品や経験的結果に結びつける。 第二にメタラベル学習(Meta Label Learning, MeLa)は,タスク間でグローバルラベルを推定することによってタスク関係を学習するメタ学習アルゴリズムである。 これにより、グローバルラベルが利用できない、あるいは未定義の場合でも、FSLの事前トレーニングを活用できます。 最後に、学習したメタ表現をさらに改善する強化事前学習手順を導入する。 経験上、melaはさまざまなベンチマーク、特にトレーニングタスクの数を制限し、ラベルがタスクに固有の、より困難な設定において、既存のメソッドよりも優れています。 また,その重要な特性を強調するために,広範なアブレーション研究も行なっている。

Few-shot learning (FSL) is a central problem in meta-learning, where learners must efficiently learn from few labeled examples. Within FSL, feature pre-training has recently become an increasingly popular strategy to significantly improve generalization performance. However, the contribution of pre-training is often overlooked and understudied, with limited theoretical understanding of its impact on meta-learning performance. Further, pre-training requires a consistent set of global labels shared across training tasks, which may be unavailable in practice. In this work, we address the above issues by first showing the connection between pre-training and meta-learning. We discuss why pre-training yields more robust meta-representation and connect the theoretical analysis to existing works and empirical results. Secondly, we introduce Meta Label Learning (MeLa), a novel meta-learning algorithm that learns task relations by inferring global labels across tasks. This allows us to exploit pre-training for FSL even when global labels are unavailable or ill-defined. Lastly, we introduce an augmented pre-training procedure that further improves the learned meta-representation. Empirically, MeLa outperforms existing methods across a diverse range of benchmarks, in particular under a more challenging setting where the number of training tasks is limited and labels are task-specific. We also provide extensive ablation study to highlight its key properties.
翻訳日:2023-11-08 01:17:09 公開日:2023-11-05
# 大規模車両軌道データの自動再構成

Automatic vehicle trajectory data reconstruction at scale ( http://arxiv.org/abs/2212.07907v2 )

ライセンス: Link先を確認
Yanbing Wang, Derek Gloudemans, Junyi Ji, Zi Nean Teoh, Lisa Liu, Gergely Zach\'ar, William Barbour, Daniel Work(参考訳) 本稿では,視覚に基づく車両軌道データに共通する誤差を補正する自動軌道データ照合手法を提案する。 自動ビデオ処理アルゴリズムの「生」車両検出と追跡情報を考慮し,パイプラインを含むパイプラインを提案する。 (a)グラフのミンコストネットワーク循環問題として定式化された同一対象(車両)を記述した断片をマッチングするオンラインデータアソシエーションアルゴリズム b)二次プログラムとして定式化された1段階の軌道修正手順により、生検データを強化する。 このパイプラインは、車両の動力学と物理的制約を利用して、追跡対象が断片化されると関連付け、測定ノイズや異常値の除去、フラグメンテーションによるデータ欠落を誘発する。 本研究では,(1)上流の誤差を再現するために人工的にダウングレードしたマイクロシミュレーションデータセット,(2)手動で摂動する15分のngsimデータ,(3)i-24モーションシステムの一部の16~17台のカメラから記録された映像データから得られた3シーンからなる追跡データ,およびそれに対応する手作業でラベル付けされた地上真理車両バウンディングボックスと比較した。 実験の結果, 整合軌道は, 広い範囲で試験された全ての入力データの精度を向上させることがわかった。 最後に、現在i-24の4.2マイルをカバーする276台のカメラからなるフルスケールのi-24モーションシステム上にデプロイされているソフトウェアアーキテクチャの設計を示す。 本稿では,高容量データを日々処理するために,提案する調整パイプラインのスケーラビリティを実証する。

In this paper we propose an automatic trajectory data reconciliation to correct common errors in vision-based vehicle trajectory data. Given "raw" vehicle detection and tracking information from automatic video processing algorithms, we propose a pipeline including (a) an online data association algorithm to match fragments that describe the same object (vehicle), which is formulated as a min-cost network circulation problem of a graph, and (b) a one-step trajectory rectification procedure formulated as a quadratic program to enhance raw detection data. The pipeline leverages vehicle dynamics and physical constraints to associate tracked objects when they become fragmented, remove measurement noises and outliers and impute missing data due to fragmentations. We assess the capability of the proposed two-step pipeline to reconstruct three benchmarking datasets: (1) a microsimulation dataset that is artificially downgraded to replicate upstream errors, (2) a 15-min NGSIM data that is manually perturbed, and (3) tracking data consists of 3 scenes from collections of video data recorded from 16-17 cameras on a section of the I-24 MOTION system, and compare with the corresponding manually-labeled ground truth vehicle bounding boxes. All of the experiments show that the reconciled trajectories improve the accuracy on all the tested input data for a wide range of measures. Lastly, we show the design of a software architecture that is currently deployed on the full-scale I-24 MOTION system consisting of 276 cameras that covers 4.2 miles of I-24. We demonstrate the scalability of the proposed reconciliation pipeline to process high-volume data on a daily basis.
翻訳日:2023-11-08 01:15:53 公開日:2023-11-05
# ClaPIM: 処理・イン・メモリを用いたスケーラブルシーケンスCLAシフィケーション

ClaPIM: Scalable Sequence CLAssification using Processing-In-Memory ( http://arxiv.org/abs/2302.08284v2 )

ライセンス: Link先を確認
Marcel Khalifa, Barak Hoffer, Orian Leitersdorf, Robert Hanhan, Ben Perach, Leonid Yavits, and Shahar Kvatinsky(参考訳) DNA配列分類は、疾患予防や薬物設計などの応用に多大な影響を及ぼす計算生物学の基本的な課題である。 したがって、高速な高品質なシーケンス分類器が重要である。 本稿では,ハイブリッド・イン・クロスバーとニア・クロスバー・メムリシティブ・イン・メモリ(PIM)の概念に基づく,スケーラブルなDNA配列分類アーキテクチャであるClaPIMを紹介する。 1つのアルゴリズムでフィルタと検索ステージを組み合わせることで、効率的で高品質な分類を可能にする。 具体的には,探索空間を大幅に狭める独自のフィルタリング手法と,距離関数による近似文字列マッチングを容易にする探索手法を提案する。 ClaPIMは、拡張性のある近似文字列マッチングのための最初のPIMアーキテクチャであり、高い密度の旋律クロスバーアレイと、PIMの大規模計算並列性から恩恵を受けている。 ClaPIMは最先端のソフトウェア分類器であるKraken2と比較して、かなり高い分類品質(F1スコアの最大20倍)を提供し、1.8倍のスループット向上を示す。 最近発表されたSRAMベースのアクセラレータであるEDAMと比較して、領域ごとの正規化スループットが30.4倍改善し、分類精度が7%向上した。

DNA sequence classification is a fundamental task in computational biology with vast implications for applications such as disease prevention and drug design. Therefore, fast high-quality sequence classifiers are significantly important. This paper introduces ClaPIM, a scalable DNA sequence classification architecture based on the emerging concept of hybrid in-crossbar and near-crossbar memristive processing-in-memory (PIM). We enable efficient and high-quality classification by uniting the filter and search stages within a single algorithm. Specifically, we propose a custom filtering technique that drastically narrows the search space and a search approach that facilitates approximate string matching through a distance function. ClaPIM is the first PIM architecture for scalable approximate string matching that benefits from the high density of memristive crossbar arrays and the massive computational parallelism of PIM. Compared with Kraken2, a state-of-the-art software classifier, ClaPIM provides significantly higher classification quality (up to 20x improvement in F1 score) and also demonstrates a 1.8x throughput improvement. Compared with EDAM, a recently-proposed SRAM-based accelerator that is restricted to small datasets, we observe both a 30.4x improvement in normalized throughput per area and a 7% increase in classification precision.
翻訳日:2023-11-08 01:04:56 公開日:2023-11-05
# NLPモデルのニューロン解釈法の評価

Evaluating Neuron Interpretation Methods of NLP Models ( http://arxiv.org/abs/2301.12608v2 )

ライセンス: Link先を確認
Yimin Fan, Fahim Dalvi, Nadir Durrani, Hassan Sajjad(参考訳) ニューロン解釈は、解釈可能性の分野で牽引力を得ており、モデルがどのように学習し、言語知識が様々な構成要素にどのように分配されるかに関する詳細な洞察を提供している。 しかし、評価ベンチマークとメトリクスの欠如は、これらの様々な手法の進歩をサイロ化させ、それらを比較し、その強みと弱点を強調している。 この違いの理由は、例えば、与えられたモデル内の多くのニューロンが同じ現象を学習し、従って1つの正しい答えが存在しないような、基底真理データセットを作成することの難しさにある。 さらに、学習された現象は複数のニューロンにまたがって一緒に作用する可能性がある。 本研究では,ニューロン解析法と他の方法との互換性を評価するための評価フレームワークを提案する。 私たちは、メソッドがほとんどのメソッドとより互換性があるほど、そのパフォーマンスについてより自信を持つことができると仮定します。 提案手法を体系的に評価し,多数のニューロン解釈法の比較分析を行った。 評価フレームワークをコミュニティに公開しています。 20のコンセプトと3つの事前学習されたモデルを使って、新しいメソッドを評価することができる。

Neuron Interpretation has gained traction in the field of interpretability, and have provided fine-grained insights into what a model learns and how language knowledge is distributed amongst its different components. However, the lack of evaluation benchmark and metrics have led to siloed progress within these various methods, with very little work comparing them and highlighting their strengths and weaknesses. The reason for this discrepancy is the difficulty of creating ground truth datasets, for example, many neurons within a given model may learn the same phenomena, and hence there may not be one correct answer. Moreover, a learned phenomenon may spread across several neurons that work together -- surfacing these to create a gold standard challenging. In this work, we propose an evaluation framework that measures the compatibility of a neuron analysis method with other methods. We hypothesize that the more compatible a method is with the majority of the methods, the more confident one can be about its performance. We systematically evaluate our proposed framework and present a comparative analysis of a large set of neuron interpretation methods. We make the evaluation framework available to the community. It enables the evaluation of any new method using 20 concepts and across three pre-trained models.The code is released at https://github.com/fdalvi/neuron-comparative-analysis
翻訳日:2023-11-08 01:01:56 公開日:2023-11-05
# PhysGraph: グラフニューラルネットワークを用いた物理ベースの統合

PhysGraph: Physics-Based Integration Using Graph Neural Networks ( http://arxiv.org/abs/2301.11841v2 )

ライセンス: Link先を確認
Oshri Halimi, Egor Larionov, Zohar Barzelay, Philipp Herholz, Tuur Stuyck(参考訳) メッシュベースのドメインの物理に基づくシミュレーションは依然として難しい課題である。 最先端の技術は現実的な結果を生み出すが、専門知識を必要とする。 多くのアプローチにおける大きなボトルネックは、速度や変位を計算するためにポテンシャルエネルギーを統合するステップである。 近年、物理学に基づくシミュレーションのための学習ベースの手法が、有望な研究方向であるグラフベースのアプローチへの関心を喚起している。 これらの手法の課題の1つは、メッシュに依存しないモデルを生成し、異なる材料特性に一般化することである。 さらにモデルでは、ユビキタス衝突のような予期せぬ外部力に反応することも可能だ。 我々の貢献は単純な観察に基づいている:力の評価は従来のシミュレーション手法では計算的に比較的安価であり、それらの積分とは対照的に並列に計算できる。 系が一般の力に対してどのように反応するかを、その起源に関係なく学習すれば、高一般化力の総力による状態変化を予測できる積分器を学習できる。 不透明な力モジュールを頼りにすることで、結果の力の背後にある物理モデルを効果的に分解する。 このアイデアは、小さなメッシュパッチの基本的な内部力に基づいてトレーニングし、異なるメッシュタイプ、解像度、材料パラメータ、および推論時の衝突のような目に見えない力に一般化できる学習可能なモジュールにつながることを実証する。 提案するパラダイムは一般的であり,様々な物理現象のモデル化に利用できる。 我々は,コンピュータゲーム,バーチャルリアリティ,仮想トライオンなど,多くの応用がある粗い衣服形状の詳細な拡張に着目する。

Physics-based simulation of mesh based domains remains a challenging task. State-of-the-art techniques can produce realistic results but require expert knowledge. A major bottleneck in many approaches is the step of integrating a potential energy in order to compute velocities or displacements. Recently, learning based method for physics-based simulation have sparked interest with graph based approaches being a promising research direction. One of the challenges for these methods is to generate models that are mesh independent and generalize to different material properties. Moreover, the model should also be able to react to unforeseen external forces like ubiquitous collisions. Our contribution is based on a simple observation: evaluating forces is computationally relatively cheap for traditional simulation methods and can be computed in parallel in contrast to their integration. If we learn how a system reacts to forces in general, irrespective of their origin, we can learn an integrator that can predict state changes due to the total forces with high generalization power. We effectively factor out the physical model behind resulting forces by relying on an opaque force module. We demonstrate that this idea leads to a learnable module that can be trained on basic internal forces of small mesh patches and generalizes to different mesh typologies, resolutions, material parameters and unseen forces like collisions at inference time. Our proposed paradigm is general and can be used to model a variety of physical phenomena. We focus our exposition on the detail enhancement of coarse clothing geometry which has many applications including computer games, virtual reality and virtual try-on.
翻訳日:2023-11-08 01:01:35 公開日:2023-11-05
# PBScaler: マイクロサービスベースのアプリケーションのためのBottleneck対応オートスケーリングフレームワーク

PBScaler: A Bottleneck-aware Autoscaling Framework for Microservice-based Applications ( http://arxiv.org/abs/2303.14620v2 )

ライセンス: Link先を確認
Shuaiyu Xie, Jian Wang, Bing Li, Zekun Zhang, Duantengchuan Li, Patrick C. K. H(参考訳) 動的ワークロードを持つクラウドアプリケーションの最適なパフォーマンスとリソース利用を確保するには、自動スケーリングが不可欠である。 しかしながら、従来の自動スケーリング技術は、さまざまなワークロードパターンとマイクロサービス間の複雑なインタラクションのため、マイクロサービスベースのアプリケーションではもはや適用できない。 具体的には、インタラクションによるパフォーマンス異常の伝播は、多数の異常なマイクロサービスにつながるため、ルートパフォーマンスボトルネック(PB)を特定し、適切なスケーリング戦略を定式化するのは難しい。 さらに、リソース消費とパフォーマンスのバランスをとるために、オンライン最適化アルゴリズムに基づく既存の主流のアプローチは、複数のイテレーションを必要とするため、振動を引き起こし、パフォーマンス低下の可能性を高める。 これらの問題に対処するため,我々は,マイクロサービスベースのアプリケーションのパフォーマンス低下を防止するために設計されたボトルネック対応自動スケーリングフレームワークpbscalerを提案する。 PBScalerの重要な洞察はPBを見つけることである。 そこで本稿では,不要なスケーリングを低減すべく,位相ポテンシャルに基づく新しいランダムウォークアルゴリズムであるtoporankを提案する。 toporankとオフラインのパフォーマンスアウェア最適化アルゴリズムを統合することで、pbscalerはオンラインアプリケーションを混乱させることなくレプリカ管理を最適化する。 PBScalerは、リソースを効率的に保存しながら、パフォーマンス上の問題を軽減し、既存の最先端のアプローチよりも優れていることを示す総合的な実験である。

Autoscaling is critical for ensuring optimal performance and resource utilization in cloud applications with dynamic workloads. However, traditional autoscaling technologies are typically no longer applicable in microservice-based applications due to the diverse workload patterns and complex interactions between microservices. Specifically, the propagation of performance anomalies through interactions leads to a high number of abnormal microservices, making it difficult to identify the root performance bottlenecks (PBs) and formulate appropriate scaling strategies. In addition, to balance resource consumption and performance, the existing mainstream approaches based on online optimization algorithms require multiple iterations, leading to oscillation and elevating the likelihood of performance degradation. To tackle these issues, we propose PBScaler, a bottleneck-aware autoscaling framework designed to prevent performance degradation in a microservice-based application. The key insight of PBScaler is to locate the PBs. Thus, we propose TopoRank, a novel random walk algorithm based on the topological potential to reduce unnecessary scaling. By integrating TopoRank with an offline performance-aware optimization algorithm, PBScaler optimizes replica management without disrupting the online application. Comprehensive experiments demonstrate that PBScaler outperforms existing state-of-the-art approaches in mitigating performance issues while conserving resources efficiently.
翻訳日:2023-11-07 23:21:34 公開日:2023-11-05
# キャット型マグカップ」発見は可能か?(動画あり) ゼロショット物体ナビゲーションのためのllm誘導探索

Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation ( http://arxiv.org/abs/2303.03480v2 )

ライセンス: Link先を確認
Vishnu Sashank Dorbala, James F. Mullen Jr., Dinesh Manocha(参考訳) 本稿では、L-ZSON(Language-Guided Exploration)という言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムについて述べる。 当社のアプローチでは,シーケンシャルなナビゲーション決定にllmのcommonsense推論機能を活用することで,このタスクに大規模言語モデル(llm)を使用する。 同時に,事前学習した視覚言語接地モデルを用いて一般化された対象物体検出を行う。 OWL-ViT CLIP on Wheels (OWL CoW) の現在のベースラインよりも27%以上向上したRoboTHOR上での最先端のゼロショットオブジェクトナビゲーション結果が得られた。 さらに,ロボットナビゲーションにおけるLLMの使用状況について検討し,モデル出力に影響を与える様々なプロンプト戦略の分析を行った。 最後に,LGXの視覚的にユニークな物体の検出とナビゲートにおける優れた性能を示す,textit{real-world} 実験によるアプローチの利点を紹介する。

We present LGX (Language-guided Exploration), a novel algorithm for Language-Driven Zero-Shot Object Goal Navigation (L-ZSON), where an embodied agent navigates to a uniquely described target object in a previously unseen environment. Our approach makes use of Large Language Models (LLMs) for this task by leveraging the LLM's commonsense reasoning capabilities for making sequential navigational decisions. Simultaneously, we perform generalized target object detection using a pre-trained Vision-Language grounding model. We achieve state-of-the-art zero-shot object navigation results on RoboTHOR with a success rate (SR) improvement of over 27% over the current baseline of the OWL-ViT CLIP on Wheels (OWL CoW). Furthermore, we study the usage of LLMs for robot navigation and present an analysis of various prompting strategies affecting the model output. Finally, we showcase the benefits of our approach via \textit{real-world} experiments that indicate the superior performance of LGX in detecting and navigating to visually unique objects.
翻訳日:2023-11-07 23:16:22 公開日:2023-11-05
# 量子クエンチ後の安定化エントロピーダイナミクス

Stabilizer entropy dynamics after a quantum quench ( http://arxiv.org/abs/2304.13768v4 )

ライセンス: Link先を確認
Davide Rattacaso, Lorenzo Leone, Salvatore F.E. Oliviero, Alioscia Hamma(参考訳) 安定化器エントロピー(SE)は安定化器資源からの偏差を測定し、量子的優位性の基礎となる要素である。 特に、SEと絡み合いの相互作用は、古典的にシミュレートされた量子多体系の複雑さの根底にある。 本稿では,可積分系における量子クエンチ後の平衡から離れた量子多体系におけるseのダイナミクスについて検討する。 主な結果が2つあります (i)SEは,L-過大量であるにもかかわらず,サブシステムサイズとほぼ線形にスケールする時間に平衡することを示す。 (ii)時間的に線形に増加するse長が相関や絡み合いに類似していることを示す。

Stabilizer entropies (SE) measure deviations from stabilizer resources and as such are a fundamental ingredient for quantum advantage. In particular, the interplay of SE and entanglement is at the root of the complexity of classically simulating quantum many-body systems. In this paper, we study the dynamics of SE in a quantum many-body system away from the equilibrium after a quantum quench in an integrable system. We obtain two main results: (i) we show that SE, despite being an L-extensive quantity, equilibrates in a time that scales at most linearly with the subsystem size; and (ii) we show that there is a SE length increasing linearly in time, akin to correlations and entanglement spreading.
翻訳日:2023-11-07 23:09:27 公開日:2023-11-05
# 誰でも、どこでも、どんなポーズでも、合成する

Synthesizing Anyone, Anywhere, in Any Pose ( http://arxiv.org/abs/2304.03164v2 )

ライセンス: Link先を確認
H{\aa}kon Hukkel{\aa}s, Frank Lindseth(参考訳) 画像中の任意の領域が与えられたときの全身の合成を主目的とする人物合成の課題に対処する。 in-the-wild ヒトのフィギュア合成は長い間、難解で未熟な作業であり、現在の手法では極端なポーズや物体のゆるみ、複雑な背景を扱うのに苦労している。 私たちの主な貢献は、任意のポーズでAnyone、Anywhereを合成できるキーポイント誘導型GANであるTriA-GANです。 提案手法の鍵となるのは,GANを十分に構築されたトレーニング戦略と組み合わせることである。 また,TriA-GANは,従来の全体合成法に比べて,条件情報の少ない合成法である(keypoints \vs DensePose)。 最後に,TriA-GANの潜在空間が標準的な非条件編集技術と互換性があることを示し,生成した人物のテキスト誘導編集を可能にする。

We address the task of in-the-wild human figure synthesis, where the primary goal is to synthesize a full body given any region in any image. In-the-wild human figure synthesis has long been a challenging and under-explored task, where current methods struggle to handle extreme poses, occluding objects, and complex backgrounds. Our main contribution is TriA-GAN, a keypoint-guided GAN that can synthesize Anyone, Anywhere, in Any given pose. Key to our method is projected GANs combined with a well-crafted training strategy, where our simple generator architecture can successfully handle the challenges of in-the-wild full-body synthesis. We show that TriA-GAN significantly improves over previous in-the-wild full-body synthesis methods, all while requiring less conditional information for synthesis (keypoints \vs DensePose). Finally, we show that the latent space of TriA-GAN is compatible with standard unconditional editing techniques, enabling text-guided editing of generated human figures.
翻訳日:2023-11-07 23:05:28 公開日:2023-11-05
# 大規模言語モデルにおける安全性分析:ChatGPTを用いたSTPAの事例

Safety Analysis in the Era of Large Language Models: A Case Study of STPA using ChatGPT ( http://arxiv.org/abs/2304.01246v2 )

ライセンス: Link先を確認
Yi Qi, Xingyu Zhao, Siddartha Khastgir, Xiaowei Huang(参考訳) 安全性分析は大規模言語モデル(llm)を活用できるか? 自動緊急ブレーキ(AEB)と電力需要側管理(DSM)システムに適用されたシステム理論プロセス分析(STPA)をChatGPTを用いて検討する。 協調スキーム,入力意味複雑性,ガイドラインがSTPAの結果に与える影響について検討する。 比較の結果,人間の介入を伴わないChatGPTの使用は信頼性に問題があるため不十分である可能性が示唆された。 入力意味複雑性の変化や共通プロンプトガイドラインの使用には統計的に有意な違いはなく、ドメイン固有のプロンプトエンジニアリングの開発の必要性が示唆されている。 LLMの信頼性に関する懸念や、この領域における標準化と規制の必要性など、今後の課題も強調する。

Can safety analysis make use of Large Language Models (LLMs)? A case study explores Systems Theoretic Process Analysis (STPA) applied to Automatic Emergency Brake (AEB) and Electricity Demand Side Management (DSM) systems using ChatGPT. We investigate how collaboration schemes, input semantic complexity, and prompt guidelines influence STPA results. Comparative results show that using ChatGPT without human intervention may be inadequate due to reliability related issues, but with careful design, it may outperform human experts. No statistically significant differences are found when varying the input semantic complexity or using common prompt guidelines, which suggests the necessity for developing domain-specific prompt engineering. We also highlight future challenges, including concerns about LLM trustworthiness and the necessity for standardisation and regulation in this domain.
翻訳日:2023-11-07 23:05:09 公開日:2023-11-05
# テキストプロンプト学習による合成画像検索のための双方向学習

Bi-directional Training for Composed Image Retrieval via Text Prompt Learning ( http://arxiv.org/abs/2303.16604v2 )

ライセンス: Link先を確認
Zheyuan Liu, Weixuan Sun, Yicong Hong, Damien Teney, Stephen Gould(参考訳) 合成画像検索は、参照画像と所望の変化を記述した修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。 この困難なタスクを解決する既存のアプローチは、(参照画像、変更テキスト)ペアから大きなイメージコーパスにマッチする画像埋め込みへのマッピングを学ぶ。 まだ調査されていない領域の1つは、逆方向であり、テキストによって記述されたように修正されたときの参照画像が与えられたターゲット画像を生成するのか? 本研究では,このような逆クエリを活用し,最小限の変更を伴って既存の合成画像検索アーキテクチャに適用可能な双方向学習手法を提案する。 双方向クエリをエンコードするには、クエリの方向を指定する修正テキストに学習可能なトークンを必須として、テキスト埋め込みモジュールのパラメータを微調整します。 ネットワークアーキテクチャに他の変更は行いません。 2つの標準データセットに対する実験により、我々の新しいアプローチは、すでに競合性能を達成しているベースラインBLIPベースのモデルよりも性能を向上できることが示されている。 私たちのコードはhttps://github.com/Cuberick-Orion/Bi-Blip4CIRで公開されています。

Composed image retrieval searches for a target image based on a multi-modal user query comprised of a reference image and modification text describing the desired changes. Existing approaches to solving this challenging task learn a mapping from the (reference image, modification text)-pair to an image embedding that is then matched against a large image corpus. One area that has not yet been explored is the reverse direction, which asks the question, what reference image when modified as described by the text would produce the given target image? In this work we propose a bi-directional training scheme that leverages such reversed queries and can be applied to existing composed image retrieval architectures with minimum changes, which improves the performance of the model. To encode the bi-directional query we prepend a learnable token to the modification text that designates the direction of the query and then finetune the parameters of the text embedding module. We make no other changes to the network architecture. Experiments on two standard datasets show that our novel approach achieves improved performance over a baseline BLIP-based model that itself already achieves competitive performance. Our code is released at https://github.com/Cuberick-Orion/Bi-Blip4CIR.
翻訳日:2023-11-07 23:04:54 公開日:2023-11-05
# 因果文書による対話の事前学習

Causal Document-Grounded Dialogue Pre-training ( http://arxiv.org/abs/2305.10927v3 )

ライセンス: Link先を確認
Yingxiu Zhao, Bowen Yu, Haiyang Yu, Bowen Li, Jinyang Li, Chao Wang, Fei Huang, Yongbin Li, Nevin L. Zhang(参考訳) 文書地上対話(DocGD)の目標は,その対話コンテキストに応じて,その証拠を支援文書に接地することで応答を生成することである。 このプロセスには因果関係を持つ4つの変数が含まれる。 近年,タスク固有の事前学習によって下流タスクのパフォーマンスが大幅に向上している。 しかし、既存のDocGD手法は、因果関係を明示的にキャプチャする特定の調整済み事前学習アプローチを使わずに、一般的な事前学習言語モデルに依存し続けている。 この問題に対処するために、100万レベルのDocGD事前学習コーパスを構築するための因果完全データセット構築戦略を最初に提示する。 因果関係をよりよく把握するために,変数に対する因果摂動を導入し,全体の因果効果を最適化する因果摂動前学習戦略を提案する。 3つのベンチマークデータセットの実験により、我々の因果前トレーニングは、完全な教師付き、低リソース、少数ショット、ゼロショット設定の下で、かなり、一貫した改善を達成している。

The goal of document-grounded dialogue (DocGD) is to generate a response by grounding the evidence in a supporting document in accordance with the dialogue context. This process involves four variables that are causally connected. Recently, task-specific pre-training has greatly boosted performances on many downstream tasks. Existing DocGD methods, however, continue to rely on general pre-trained language models without a specifically tailored pre-training approach that explicitly captures the causal relationships. To tackle this issue, we are the first to present a causally-complete dataset construction strategy for building million-level DocGD pre-training corpora. To better capture causality, we further propose a causally-perturbed pre-training strategy, which introduces causal perturbations on the variables and optimizes the overall causal effect. Experiments on three benchmark datasets demonstrate that our causal pre-training achieves considerable and consistent improvements under fully-supervised, low-resource, few-shot, and zero-shot settings.
翻訳日:2023-11-07 22:57:00 公開日:2023-11-05
# 実世界の超解像に先立つ爆発拡散

Exploiting Diffusion Prior for Real-World Image Super-Resolution ( http://arxiv.org/abs/2305.07015v3 )

ライセンス: Link先を確認
Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C.K. Chan, Chen Change Loy(参考訳) 本稿では,事前学習されたテキストから画像への拡散モデルにカプセル化された先行知識をブラインド超解像(sr)に活用する新しい手法を提案する。 具体的には、時間認識エンコーダを用いることで、事前学習した合成モデルを変更せずに有望な復元結果が得られ、生成前の保存とトレーニングコストの最小化が可能となる。 拡散モデルの固有確率性に起因する忠実度低下を解消するために, 推定過程中にスカラー値を調整するだけで, ユーザが品質と忠実度をバランスできる制御可能な機能ラッピングモジュールを用いる。 さらに,事前学習された拡散モデルの固定サイズの制約を克服し,任意のサイズの解像度に適応できるように,漸進的アグリゲーションサンプリング戦略を開発した。 合成および実世界のベンチマークを用いて,本手法の総合評価を行い,現在の最先端手法よりも優れていることを示す。 コードとモデルはhttps://github.com/iceclear/stablesrで入手できる。

We present a novel approach to leverage prior knowledge encapsulated in pre-trained text-to-image diffusion models for blind super-resolution (SR). Specifically, by employing our time-aware encoder, we can achieve promising restoration results without altering the pre-trained synthesis model, thereby preserving the generative prior and minimizing training cost. To remedy the loss of fidelity caused by the inherent stochasticity of diffusion models, we employ a controllable feature wrapping module that allows users to balance quality and fidelity by simply adjusting a scalar value during the inference process. Moreover, we develop a progressive aggregation sampling strategy to overcome the fixed-size constraints of pre-trained diffusion models, enabling adaptation to resolutions of any size. A comprehensive evaluation of our method using both synthetic and real-world benchmarks demonstrates its superiority over current state-of-the-art approaches. Code and models are available at https://github.com/IceClear/StableSR.
翻訳日:2023-11-07 22:55:08 公開日:2023-11-05
# Reckoning: 動的知識エンコーディングによる推論

RECKONING: Reasoning through Dynamic Knowledge Encoding ( http://arxiv.org/abs/2305.06349v3 )

ライセンス: Link先を確認
Zeming Chen, Gail Weiss, Eric Mitchell, Asli Celikyilmaz, Antoine Bosselut(参考訳) トランスフォーマティブ言語モデルに関する最近の研究は、文脈(すなわち、文脈内推論)の一部として提供される知識を推論することで、疑問に答えることができることを示している。 しかし、利用可能な知識は特定の質問に対してフィルタされないことが多いので、文脈内推論は、質問と無関係であるが、別の質問(つまり、必ずしもランダムなノイズではない)に関係のある追加のコンテンツに敏感である。 このような状況では、モデルが質問に答えるために必要な知識を区別できないため、散発的な推論とパフォーマンスの低下に繋がる。 この推論の失敗は、事前トレーニング中に記憶したすべての知識と文脈知識を区別するモデルの明らかな能力とは対照的である。 そこで本研究では,与えられた文脈知識をモデルのパラメータに折り畳むことによって,より頑健な推論をモデルに教えることを提案する。 我々の手法であるRECKONINGは、バックプロパゲーションによってパラメトリック知識を更新することで、言語モデルに推論を教える二段階学習アルゴリズムである。 トレーニング中、内部ループはモデル重みのコピーを迅速に適応させ、コンテキスト知識をパラメータにエンコードする。 外ループでは、モデルが更新された重みを使って記憶された知識に関する推論質問を再現し、答えることを学ぶ。 2つのマルチホップ推論データセットに対する実験により、RECKONINGのパフォーマンスは、コンテキスト内推論ベースライン(最大4.5%)よりも向上していることが示された。 また,コンテクスト内推論と比較すると,学習中に認識されない長大な推論チェーンを一般化し,コンテクスト内の邪魔者に対して頑健であり,同じ知識について複数の質問をした場合に計算効率が向上することがわかった。

Recent studies on transformer-based language models show that they can answer questions by reasoning over knowledge provided as part of the context (i.e., in-context reasoning). However, since the available knowledge is often not filtered for a particular question, in-context reasoning can be sensitive to distractor facts, additional content that is irrelevant to a question but that may be relevant for a different question (i.e., not necessarily random noise). In these situations, the model fails to distinguish the knowledge that is necessary to answer the question, leading to spurious reasoning and degraded performance. This reasoning failure contrasts with the model's apparent ability to distinguish its contextual knowledge from all the knowledge it has memorized during pre-training. Following this observation, we propose teaching the model to reason more robustly by folding the provided contextual knowledge into the model's parameters before presenting it with a question. Our method, RECKONING, is a bi-level learning algorithm that teaches language models to reason by updating their parametric knowledge through back-propagation, allowing them to then answer questions using the updated parameters. During training, the inner loop rapidly adapts a copy of the model weights to encode contextual knowledge into its parameters. In the outer loop, the model learns to use the updated weights to reproduce and answer reasoning questions about the memorized knowledge. Our experiments on two multi-hop reasoning datasets show that RECKONING's performance improves over the in-context reasoning baseline (by up to 4.5%). We also find that compared to in-context reasoning, RECKONING generalizes better to longer reasoning chains unseen during training, is more robust to distractors in the context, and is more computationally efficient when multiple questions are asked about the same knowledge.
翻訳日:2023-11-07 22:54:52 公開日:2023-11-05
# HACMan: 6次元非定常マニピュレーションのためのハイブリッドアクタクリティカルマップの学習

HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation ( http://arxiv.org/abs/2305.03942v4 )

ライセンス: Link先を確認
Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton, David Held(参考訳) 物を握らずに操作することは、人間の器用さに欠かせない要素であり、非理解的な操作と呼ばれる。 非包括的操作は、オブジェクトとのより複雑な相互作用を可能にするだけでなく、グリップとオブジェクトの相互作用を推論する際の課題も提示する。 本研究では,物体の6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。 HACManは、オブジェクトポイントクラウドから接触位置を選択することと、ロボットが接触した後どのように動くかを記述した一連の動きパラメータからなる、時間的に制限された空間的空間的なオブジェクト中心のアクション表現を提案する。 我々は、このハイブリッド離散連続アクション表現で学習するために、既存のオフポリチィRLアルゴリズムを変更した。 シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。 ランダム化された初期ポーズ,ランダム化された6d目標,多様なオブジェクトカテゴリを備えた最難のタスクでは,性能低下を伴わないオブジェクトカテゴリに対する強力な一般化が実証され,実世界でのゼロショット転送で89%の成功率と50%の成功率を達成した。 代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。 ゼロショットのsim2realトランスファーでは、動的かつ接触に富んだ非包括的スキルを用いて、現実の未確認物体をうまく操作できる。 ビデオはプロジェクトのwebサイト(https://hacman-2023.github.io)で見ることができる。

Manipulating objects without grasping them is an essential component of human dexterity, referred to as non-prehensile manipulation. Non-prehensile manipulation may enable more complex interactions with the objects, but also presents challenges in reasoning about gripper-object interactions. In this work, we introduce Hybrid Actor-Critic Maps for Manipulation (HACMan), a reinforcement learning approach for 6D non-prehensile manipulation of objects using point cloud observations. HACMan proposes a temporally-abstracted and spatially-grounded object-centric action representation that consists of selecting a contact location from the object point cloud and a set of motion parameters describing how the robot will move after making contact. We modify an existing off-policy RL algorithm to learn in this hybrid discrete-continuous action representation. We evaluate HACMan on a 6D object pose alignment task in both simulation and in the real world. On the hardest version of our task, with randomized initial poses, randomized 6D goals, and diverse object categories, our policy demonstrates strong generalization to unseen object categories without a performance drop, achieving an 89% success rate on unseen objects in simulation and 50% success rate with zero-shot transfer in the real world. Compared to alternative action representations, HACMan achieves a success rate more than three times higher than the best baseline. With zero-shot sim2real transfer, our policy can successfully manipulate unseen objects in the real world for challenging non-planar goals, using dynamic and contact-rich non-prehensile skills. Videos can be found on the project website: https://hacman-2023.github.io.
翻訳日:2023-11-07 22:53:37 公開日:2023-11-05
# 多属性制御可能な対話生成のための意味空間接地重み付き復号

Semantic Space Grounded Weighted Decoding for Multi-Attribute Controllable Dialogue Generation ( http://arxiv.org/abs/2305.02820v2 )

ライセンス: Link先を確認
Zhiling Zhang and Mengyue Wu and Kenny Q. Zhu(参考訳) パーソナリティー、感情、対話行為など、複数の属性によるチャットボット発話生成の制御は、実質的には有用だが未熟な問題である。 我々は,属性セマンティクス空間におけるグルーディングによる生成品質の向上を図りながら,重み付きデコードパラダイムで強力な制御性を有するdascと呼ばれる新しいフレームワークを提案する。 複数の属性を持つ生成は直感的に複数の属性埋め込みの補間によって実装され、結果としてモデルサイズが大幅に削減される。 実験により,dascは3つの側面を同時に制御しつつ,分散ロバスト性テストにおいても興味深く,合理的な応答を生成することにより,生成タスクにおいて高い制御精度を達成できることを示した。

Controlling chatbot utterance generation with multiple attributes such as personalities, emotions and dialogue acts is a practically useful but under-studied problem. We propose a novel framework called DASC that possesses strong controllability with a weighted decoding paradigm, while improving generation quality with the grounding in an attribute semantics space. Generation with multiple attributes is then intuitively implemented with an interpolation of multiple attribute embeddings, which results in substantial reduction in the model sizes. Experiments show that DASC can achieve high control accuracy in generation task with the simultaneous control of 3 aspects while also producing interesting and reasonably sensible responses, even in an out-of-distribution robustness test.
翻訳日:2023-11-07 22:52:39 公開日:2023-11-05
# 変圧器によるCKYの近似

Approximating CKY with Transformers ( http://arxiv.org/abs/2305.02386v2 )

ライセンス: Link先を確認
Ghazal Khalighinejad, Ollie Liu, Sam Wiseman(参考訳) 本研究では, ckyアルゴリズムを近似するトランスフォーマーモデルの能力について検討し, 文のパースを直接予測する手法を用いて, ckyアルゴリズムの文長に対する立方依存を回避した。 標準選挙区解析ベンチマークでは, CKYを高速に使用した同等のパーサよりも, 競争力や性能が向上することがわかった。 また,この解析手法の有効性を<textit{random} pcfgsで評価した。 ここで、文法が曖昧になるにつれて性能が低下し、トランスフォーマーがcky計算を完全に捉えていないことを示唆する。 しかし、さらに帰納的バイアスを組み込むことは有用であり、また、チャートに対する分割関数の亜次関数であるCKYアルゴリズムと類似して、解析文の予測においてグラフ表現に関する勾配を利用する新しいアプローチを提案する。

We investigate the ability of transformer models to approximate the CKY algorithm, using them to directly predict a sentence's parse and thus avoid the CKY algorithm's cubic dependence on sentence length. We find that on standard constituency parsing benchmarks this approach achieves competitive or better performance than comparable parsers that make use of CKY, while being faster. We also evaluate the viability of this approach for parsing under \textit{random} PCFGs. Here we find that performance declines as the grammar becomes more ambiguous, suggesting that the transformer is not fully capturing the CKY computation. However, we also find that incorporating additional inductive bias is helpful, and we propose a novel approach that makes use of gradients with respect to chart representations in predicting the parse, in analogy with the CKY algorithm being a subgradient of a partition function variant with respect to the chart.
翻訳日:2023-11-07 22:52:03 公開日:2023-11-05
# 連続空間と離散空間の橋渡し:合成操作による解釈可能な文表現学習

Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations ( http://arxiv.org/abs/2305.14599v2 )

ライセンス: Link先を確認
James Y. Huang, Wenlin Yao, Kaiqiang Song, Hongming Zhang, Muhao Chen, Dong Yu(参考訳) 従来の文埋め込みモデルは、文をベクトル表現にエンコードし、文間の意味的類似性などの有用な特性をキャプチャする。 しかし、類似性に加えて、文のセマンティクスは文の融合や差分といった構成操作によっても解釈できる。 文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。 連続的な埋め込みや離散的なテキスト空間をより効果的に橋渡しするために、文埋め込み空間に様々な構成特性を組み込むことにより、組込み変換を合成文操作として解釈できる可能性を探る。 埋め込み空間における合成文操作をサポートする解釈可能な文埋め込みを学習するためのエンドツーエンドフレームワークであるInterSentを提案する。 演算子ネットワークとボトルネックエンコーダデコーダモデルを最適化し,意味のある文の埋め込みを生成する。 実験の結果,従来の意味的類似性タスクに対して強い性能を維持しつつ,既存の手法よりも4つのテキスト生成タスクにおける文埋め込みの解釈性が大幅に向上した。

Traditional sentence embedding models encode sentences into vector representations to capture useful properties such as the semantic similarity between sentences. However, in addition to similarity, sentence semantics can also be interpreted via compositional operations such as sentence fusion or difference. It is unclear whether the compositional semantics of sentences can be directly reflected as compositional operations in the embedding space. To more effectively bridge the continuous embedding and discrete text spaces, we explore the plausibility of incorporating various compositional properties into the sentence embedding space that allows us to interpret embedding transformations as compositional sentence operations. We propose InterSent, an end-to-end framework for learning interpretable sentence embeddings that supports compositional sentence operations in the embedding space. Our method optimizes operator networks and a bottleneck encoder-decoder model to produce meaningful and interpretable sentence embeddings. Experimental results demonstrate that our method significantly improves the interpretability of sentence embeddings on four textual generation tasks over existing approaches while maintaining strong performance on traditional semantic similarity tasks.
翻訳日:2023-11-07 22:43:47 公開日:2023-11-05
# Wikidata上でのFew-Shot Sequence-to-Semantic ParsingによるLLMの理解

Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata ( http://arxiv.org/abs/2305.14202v2 )

ライセンス: Link先を確認
Silei Xu, Shicheng Liu, Theo Culhane, Elizaveta Pertseva, Meng-Hsi Wu, Sina J. Semnani, Monica S. Lam(参考訳) 大きな言語モデル(LLM)は多くの質問に正しく答えることができるが、幻覚を与え、間違った答えを与えることもできる。 Wikidataは120億件以上の事実を持ち、LCMを根拠にして彼らの事実を改善することができる。 本稿では,Wikidataの質の高い質問応答ベンチマークであるWikiWebQuestionsを提案する。 WebQuestions for Freebaseから移植され、SPARQLアノテーションを備えた現実世界のデータで構成されている。 本稿ではウィキデータのための数発のシーケンスからシーケンスへの意味パーサを提案する。 IDの代わりにユニークなドメイン名とプロパティ名を使用するように、SPARQLを修正します。 パーサにエンティティリンカの結果を使用するようにトレーニングしたり、クエリに言及したりします。 アルパカを微調整するために、数ショットのトレーニングデータを追加することでLLaMAを微調整する。 本手法の有効性を実験的に実証し,ウィキwebquestionの開発チームとテストセットにおいて,回答精度76%,回答精度65%の強いベースラインをそれぞれ確立した。 セマンティックパーサをGPT-3と組み合わせることで、検証結果と適格なGPT-3推定値を組み合わせ、開発における96%の質問に対して有用な回答を提供する。 また,本手法は,QALD-7 Wikidataデータセットの精度をF1スコアで3.6%向上させることを示した。

While large language models (LLMs) can answer many questions correctly, they can also hallucinate and give wrong answers. Wikidata, with its over 12 billion facts, can be used to ground LLMs to improve their factuality. This paper presents WikiWebQuestions, a high-quality question answering benchmark for Wikidata. Ported over from WebQuestions for Freebase, it consists of real-world data with SPARQL annotation. This paper presents a few-shot sequence-to-sequence semantic parser for Wikidata. We modify SPARQL to use the unique domain and property names instead of their IDs. We train the parser to use either the results from an entity linker or mentions in the query. We fine-tune LLaMA by adding the few-shot training data to that used to fine-tune Alpaca. Our experimental results demonstrate the effectiveness of this methodology, establishing a strong baseline of 76% and 65% answer accuracy in the dev and test sets of WikiWebQuestions, respectively. By pairing our semantic parser with GPT-3, we combine verifiable results with qualified GPT-3 guesses to provide useful answers to 96% of the questions in dev. We also show that our method outperforms the state-of-the-art for the QALD-7 Wikidata dataset by 3.6% in F1 score.
翻訳日:2023-11-07 22:42:12 公開日:2023-11-05
# グラフセグメントトレーニングによる大規模グラフ特性予測の学習

Learning Large Graph Property Prediction via Graph Segment Training ( http://arxiv.org/abs/2305.12322v3 )

ライセンス: Link先を確認
Kaidi Cao, Phitchaya Mangpo Phothilimthana, Sami Abu-El-Haija, Dustin Zelle, Yanqi Zhou, Charith Mendis, Jure Leskovec, Bryan Perozzi(参考訳) 各予測にはグラフ全体の知識が必要であり、トレーニング中に利用可能なメモリ量は制限されているため、大きなグラフの特性を予測するための学習は困難である。 本稿では,大きなグラフ特性の予測を一定メモリフットプリントで学習するために,分割・コンカレントアプローチを利用する一般的なフレームワークであるグラフセグメントトレーニング(GST)を提案する。 GSTは、まず大きなグラフをセグメントに分割し、トレーニングイテレーション毎にサンプリングされた少数のセグメントをバックプロパゲートする。 バックプロパゲーションのためにサンプリングされていないセグメントに対する埋め込みを効率的に得るために,歴史的埋め込みテーブルを導入することにより,GSTパラダイムを洗練する。 歴史的埋め込みの安定性を軽減するため,2つの新しい手法を設計する。 まず,入力分布シフトを補正するために予測ヘッドを微調整する。 第2に,トレーニング中に古い埋め込みをドロップしてバイアスを減らすために,stale embedded dropoutを導入する。 我々は、MalNetとTpuGraphsという2つの大きなグラフ特性予測ベンチマーク上で、GST-EFD(すべての手法を併用)の完全な手法を評価する。 実験の結果,GST-EFDはメモリ効率が良く,高速でありながら,通常の全グラフ学習システムよりもテスト精度が若干向上していることがわかった。

Learning to predict properties of large graphs is challenging because each prediction requires the knowledge of an entire graph, while the amount of memory available during training is bounded. Here we propose Graph Segment Training (GST), a general framework that utilizes a divide-and-conquer approach to allow learning large graph property prediction with a constant memory footprint. GST first divides a large graph into segments and then backpropagates through only a few segments sampled per training iteration. We refine the GST paradigm by introducing a historical embedding table to efficiently obtain embeddings for segments not sampled for backpropagation. To mitigate the staleness of historical embeddings, we design two novel techniques. First, we finetune the prediction head to fix the input distribution shift. Second, we introduce Stale Embedding Dropout to drop some stale embeddings during training to reduce bias. We evaluate our complete method GST-EFD (with all the techniques together) on two large graph property prediction benchmarks: MalNet and TpuGraphs. Our experiments show that GST-EFD is both memory-efficient and fast, while offering a slight boost on test accuracy over a typical full graph training regime.
翻訳日:2023-11-07 22:40:05 公開日:2023-11-05
# PlaNeRF: SVD非教師型3次元平面規則化による大規模シーン再構成

PlaNeRF: SVD Unsupervised 3D Plane Regularization for NeRF Large-Scale Scene Reconstruction ( http://arxiv.org/abs/2305.16914v4 )

ライセンス: Link先を確認
Fusang Wang, Arnaud Louys, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou(参考訳) neural radiance fields (nerf) は2次元画像からの3次元シーン再構成を可能にする。 NeRFはフォトリアリスティックな結果を生み出すことができるが、しばしばトレーニングビューに過度に適合し、特に低テクスチュア領域において幾何再構成が不十分になる。 この制限は、外挿されたnvs、hdマッピング、シーン編集など、正確な幾何を必要とする多くの重要なアプリケーションを制限する。 そこで本研究では,RGB画像とセマンティックマップのみを用いて,NeRFの3次元構造を改善する手法を提案する。 本手法では,幾何的事前に依存しない特異値分解(SVD)に基づく新しい平面正規化を導入する。 さらに、損失設計における構造類似度指標(SSIM)を利用して、NeRFの体積表現を適切に初期化する。 KITTI-360 NVSベンチマークにおいて,大規模屋外シーンの正確な形状再構成において,本手法が一般的な正規化手法より優れ,SoTAレンダリング品質が向上していることを示す。

Neural Radiance Fields (NeRF) enable 3D scene reconstruction from 2D images and camera poses for Novel View Synthesis (NVS). Although NeRF can produce photorealistic results, it often suffers from overfitting to training views, leading to poor geometry reconstruction, especially in low-texture areas. This limitation restricts many important applications which require accurate geometry, such as extrapolated NVS, HD mapping and scene editing. To address this limitation, we propose a new method to improve NeRF's 3D structure using only RGB images and semantic maps. Our approach introduces a novel plane regularization based on Singular Value Decomposition (SVD), that does not rely on any geometric prior. In addition, we leverage the Structural Similarity Index Measure (SSIM) in our loss design to properly initialize the volumetric representation of NeRF. Quantitative and qualitative results show that our method outperforms popular regularization approaches in accurate geometry reconstruction for large-scale outdoor scenes and achieves SoTA rendering quality on the KITTI-360 NVS benchmark.
翻訳日:2023-11-07 22:31:16 公開日:2023-11-05
# 思考連鎖の背後にある謎の解明に向けて--理論的展望

Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective ( http://arxiv.org/abs/2305.15408v4 )

ライセンス: Link先を確認
Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang(参考訳) 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。 実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。 本稿では,これらの疑問に理論的に答える第一歩を踏み出す。 具体的には,基本的な数学的および意思決定問題の解法において,LLMとCoTとの表現性について検討する。 まず, 回路複雑性理論を用いて, モデルサイズが入力長に対して超多項的に増大しない限り, 有界深層トランスフォーマーは基本演算/方程式タスクに対して正解を直接生成できないことを示す。 それとは対照的に, 定サイズの自己回帰トランスフォーマーが, 一般的な数学言語形式を用いてcot導出を生成することにより, 両タスクの解決に十分であることを示す。 さらに,cotを用いたllmは動的プログラミングと呼ばれる一般的な意思決定問題を扱うことができ,複雑な実世界のタスクに取り組む際にその力を正当化できることを示した。 最後に、広範囲にわたる実験の結果、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。

Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the expressivity of LLMs with CoT in solving fundamental mathematical and decision-making problems. By using circuit complexity theory, we first give impossibility results showing that bounded-depth Transformers are unable to directly produce correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of constant size suffice to solve both tasks by generating CoT derivations using a commonly used math language format. Moreover, we show LLMs with CoT can handle a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, an extensive set of experiments show that, while Transformers always fail to directly predict the answers, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.
翻訳日:2023-11-07 22:29:30 公開日:2023-11-05
# FedZero:フェデレーションラーニングで再生可能エネルギーを活用する

FedZero: Leveraging Renewable Excess Energy in Federated Learning ( http://arxiv.org/abs/2305.15092v2 )

ライセンス: Link先を確認
Philipp Wiesner, Ramin Khalili, Dennis Grinwald, Pratik Agrawal, Lauritz Thamsen, Odej Kao(参考訳) Federated Learning(FL)は、データ共有なしでデータサイロやエッジデバイス間での分散モデルトレーニングを可能にする、新興の機械学習技術である。 しかし、FLは集中型モデルトレーニングと比較して必然的に非効率を導入し、将来的には、既に高いエネルギー使用量と関連する機械学習の炭素排出量をさらに増加させます。 flのカーボンフットプリントを削減する一つのアイデアは、特定の時間やグリッド内で発生する再生可能余剰エネルギーの可用性に基づいてトレーニングジョブをスケジュールすることである。 しかし、このような不安定で信頼性の低いリソースが存在する場合、既存のFLスケジューラは常に高速で効率的で公正なトレーニングを保証できない。 本研究では,再生可能余剰エネルギーと計算インフラの予備容量のみを運用するflシステムであるfeedzeroを提案する。 エネルギーと負荷予測を使用することで、feedzeroは、迅速な収束と公平な参加のためにクライアントを選択することで、余剰リソースの時空間的可用性を活用できる。 実測値と負荷トレースに基づいて評価した結果,FedZeroは前述の制約の下での既存手法よりもはるかに高速に収束し,エネルギー消費は少ないことがわかった。 さらに、エラーを予測し、数万のクライアントにスケーラブルにすることができます。

Federated Learning (FL) is an emerging machine learning technique that enables distributed model training across data silos or edge devices without data sharing. Yet, FL inevitably introduces inefficiencies compared to centralized model training, which will further increase the already high energy usage and associated carbon emissions of machine learning in the future. One idea to reduce FL's carbon footprint is to schedule training jobs based on the availability of renewable excess energy that can occur at certain times and places in the grid. However, in the presence of such volatile and unreliable resources, existing FL schedulers cannot always ensure fast, efficient, and fair trainings. We propose FedZero, an FL system that operates exclusively on renewable excess energy and spare capacity of compute infrastructure to effectively reduce a training's operational carbon emissions to zero. Using energy and load forecasts, FedZero leverages the spatio-temporal availability of excess resources by selecting clients for fast convergence and fair participation. Our evaluation, based on real solar and load traces, shows that FedZero converges significantly faster than existing approaches under the mentioned constraints while consuming less energy. Furthermore, it is robust to forecasting errors and scalable to tens of thousands of clients.
翻訳日:2023-11-07 22:28:19 公開日:2023-11-05
# 対話モデルのためのフルーガルプロンプト

Frugal Prompting for Dialog Models ( http://arxiv.org/abs/2305.14919v2 )

ライセンス: Link先を確認
Bishal Santra, Sakya Basak, Abhinandan De, Manish Gupta, Pawan Goyal(参考訳) 自然言語処理(nlp)タスクにおける大規模言語モデル(llms)の使用は急速に増加しており、研究者がこの分野の課題にアプローチする方法が変化している。 これらのモデルの能力を十分に活用するには、異なる入力プロトコルに対するそれらの振る舞いをよりよく理解する必要がある。 LLMでは、ユーザーはテキストベースのインターフェイスを通じてモデルと直接対話し、様々なタスクを定義し、解決することができる。 したがって,対話モデルでは特に訓練を受けていなかったが,これらのLLMの会話能力の理解も重要である。 本研究では,LLMを用いた対話システム構築のための様々な手法について検討する。 プロンプトチューニングの一環として、命令、exemplars、現在のクエリ、追加コンテキストを提供するさまざまな方法を実験します。 この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。 そこで本研究では,よりコンパクトな対話履歴情報提供方法を提案するとともに,優れた性能と推論APIコストの低減を図った。 この研究は、LLMをインタラクティブシステム構築に効果的に利用する方法の理解に寄与する。

The use of large language models (LLMs) in natural language processing (NLP) tasks is rapidly increasing, leading to changes in how researchers approach problems in the field. To fully utilize these models' abilities, a better understanding of their behavior for different input protocols is required. With LLMs, users can directly interact with the models through a text-based interface to define and solve various tasks. Hence, understanding the conversational abilities of these LLMs, which may not have been specifically trained for dialog modeling, is also important. This study examines different approaches for building dialog systems using LLMs by considering various aspects of the prompt. As part of prompt tuning, we experiment with various ways of providing instructions, exemplars, current query and additional context. The research also analyzes the representations of dialog history that have the optimal usable-information density. Based on the findings, the paper suggests more compact ways of providing dialog history information while ensuring good performance and reducing model's inference-API costs. The research contributes to a better understanding of how LLMs can be effectively used for building interactive systems.
翻訳日:2023-11-07 22:27:56 公開日:2023-11-05
# SALE:Deep Reinforcement Learningのためのステートアクション表現学習

For SALE: State-Action Representation Learning for Deep Reinforcement Learning ( http://arxiv.org/abs/2306.02451v2 )

ライセンス: Link先を確認
Scott Fujimoto, Wei-Di Chang, Edward J. Smith, Shixiang Shane Gu, Doina Precup, David Meger(参考訳) 強化学習(RL)の分野では、表現学習は複雑な画像に基づくタスクのための証明済みのツールであるが、物理制御問題などの低レベル状態の環境では見過ごされがちである。 本稿では,状態と動作の相互作用をモデル化し,低レベル状態からの効果的な表現学習を可能にする,埋め込み学習の新しいアプローチであるSALEを紹介する。 我々はこれらの埋め込みの設計空間を広く研究し、重要な設計上の考察を強調した。 我々は、SALEとRLのチェックポイントをTD3に組み込んでTD7アルゴリズムを作り、既存の連続制御アルゴリズムを著しく上回っている。 openai gymベンチマークタスクでは、td7は平均パフォーマンスが276.7%、td3が3kと5mのタイムステップで50.7%向上し、オンラインとオフラインの両方で動作します。

In the field of reinforcement learning (RL), representation learning is a proven tool for complex image-based tasks, but is often overlooked for environments with low-level states, such as physical control problems. This paper introduces SALE, a novel approach for learning embeddings that model the nuanced interaction between state and action, enabling effective representation learning from low-level states. We extensively study the design space of these embeddings and highlight important design considerations. We integrate SALE and an adaptation of checkpoints for RL into TD3 to form the TD7 algorithm, which significantly outperforms existing continuous control algorithms. On OpenAI gym benchmark tasks, TD7 has an average performance gain of 276.7% and 50.7% over TD3 at 300k and 5M time steps, respectively, and works in both the online and offline settings.
翻訳日:2023-11-07 22:17:17 公開日:2023-11-05
# 相互作用による数学用言語モデルの評価

Evaluating Language Models for Mathematics through Interactions ( http://arxiv.org/abs/2306.01694v2 )

ライセンス: Link先を確認
Katherine M. Collins and Albert Q. Jiang and Simon Frieder and Lionel Wong and Miri Zilka and Umang Bhatt and Thomas Lukasiewicz and Yuhuai Wu and Joshua B. Tenenbaum and William Hart and Timothy Gowers and Wenda Li and Adrian Weller and Mateja Jamnik(参考訳) 問題解決アシスタントを構築する際に、大きな言語モデル(LLM)のパワーを利用する機会に多くの興奮がある。 しかし LLM の評価手法は静的な入力と出力のペアに依存しており、どの LLM をどの下方で、どの補助設定を適宜利用できるかという情報的決定を下すには不十分である。 静的アセスメントは、LLMデプロイメントにおいて不可欠な対話的要素を考慮せず、言語モデルの能力を理解する方法を制限する。 我々は,LLMの操作と評価を行うための適応型プロトタイププラットフォームであるCheckMateを紹介する。 大学生と数学の教授の混合コホートを用いて,3つの言語モデル(instructgpt,chatgpt,gpt-4)を学部レベルの数学の証明助手として評価する。 結果のインタラクションとレーティングデータセットであるmathconverseをリリースします。 MathConverseを解析することにより、人間の行動の分類が導き出され、概して正の相関にもかかわらず、LLM世代における正確性と知覚的有用性の相違が顕著であることが明らかとなった。 さらに、専門家数学者による一連のケーススタディを通じて、GPT-4の数学的問題解決に関するより詳細な理解を深める。 我々は,機械学習の実践者や数学者に対して,不確実性を伝えるモデルはユーザの修正によく反応し,より解釈可能で簡潔なモデルは,より良いアシスタントを構成する可能性がある,と結論付けた。 対話的評価(interactive evaluation)は、これらのモデルの能力をナビゲートするための有望な方法である。

There is much excitement about the opportunity to harness the power of large language models (LLMs) when building problem-solving assistants. However, the standard methodology of evaluating LLMs relies on static pairs of inputs and outputs, and is insufficient for making an informed decision about which LLMs and under which assistive settings can they be sensibly used. Static assessment fails to account for the essential interactive element in LLM deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models (InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we garner a more granular understanding of GPT-4 mathematical problem-solving through a series of case studies, contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models that communicate uncertainty respond well to user corrections, and are more interpretable and concise may constitute better assistants. Interactive evaluation is a promising way to navigate the capability of these models; humans should be aware of language models' algebraic fallibility and discern where they are appropriate to use.
翻訳日:2023-11-07 22:16:11 公開日:2023-11-05
# GNNとカーネル平均埋め込みを用いた原子シミュレーションのための伝達学習

Transfer learning for atomistic simulations using GNNs and kernel mean embeddings ( http://arxiv.org/abs/2306.01589v4 )

ライセンス: Link先を確認
John Falk, Luigi Bonati, Pietro Novelli, Michele Parrinello, Massimiliano Pontil(参考訳) 機械学習を用いて学習した原子間ポテンシャルは原子論シミュレーションにうまく応用されている。 しかし、正確なモデルは大規模なトレーニングデータセットを必要とし、参照計算の生成は計算的に要求される。 この難しさを回避すべく,グラフニューラルネットワーク(gnns)のケミカル環境をカーネル平均埋め込みと共に表現する能力を活用する転送学習アルゴリズムを提案する。 OC20データセット上で事前学習したGNNの特徴マップを抽出し,それを用いて触媒プロセスのシステム固有のデータセットからポテンシャルエネルギー面を学習する。 本手法は, カーネルに化学種情報を組み込むことにより, 性能の向上と解釈性の向上を図っている。 我々は,GNNやリッジレグレッションのみに依存する手法,および類似の微調整手法を改良し,複雑性を増大させ,優れた一般化と転送可能性性能を示す一連の現実的なデータセットを検証した。

Interatomic potentials learned using machine learning methods have been successfully applied to atomistic simulations. However, accurate models require large training datasets, while generating reference calculations is computationally demanding. To bypass this difficulty, we propose a transfer learning algorithm that leverages the ability of graph neural networks (GNNs) to represent chemical environments together with kernel mean embeddings. We extract a feature map from GNNs pre-trained on the OC20 dataset and use it to learn the potential energy surface from system-specific datasets of catalytic processes. Our method is further enhanced by incorporating into the kernel the chemical species information, resulting in improved performance and interpretability. We test our approach on a series of realistic datasets of increasing complexity, showing excellent generalization and transferability performance, and improving on methods that rely on GNNs or ridge regression alone, as well as similar fine-tuning approaches.
翻訳日:2023-11-07 22:15:39 公開日:2023-11-05
# DiffLoad: 拡散モデルによる負荷予測の不確実性定量化

DiffLoad: Uncertainty Quantification in Load Forecasting with Diffusion Model ( http://arxiv.org/abs/2306.01001v2 )

ライセンス: Link先を確認
Zhixian Wang, Qingsong Wen, Chaoli Zhang, Liang Sun, and Yi Wang(参考訳) 電力需要予測は、単位コミットメントや経済派遣を含む電力システムの意思決定において重要な役割を担っている。 再生可能エネルギー源の統合と、新型コロナウイルスのパンデミックなどの外部イベントの発生により、負荷予測の不確実性が急速に高まっている。 負荷予測の不確実性は、認識的不確実性とアレエータ的不確実性という2つのタイプに分けられる。 このような不確実性を分離することで、意思決定者は、その不確実性がどの程度あるかをよりよく理解し、次の意思決定に対する信頼を高めることができる。 本稿では, エピステミック不確かさを推定するための拡散型Seq2Seq構造を提案し, 強靭性付加コーシー分布を用いてアレタリック不確かさを推定する。 本手法は,負荷予測の精度を確保するだけでなく,2種類の不確実性を分離し,異なる負荷レベルに適用できることを示す。 関連するコードは \url{https://anonymous.4open.science/r/DiffLoad-4714/} にある。

Electrical load forecasting plays a crucial role in decision-making for power systems, including unit commitment and economic dispatch. The integration of renewable energy sources and the occurrence of external events, such as the COVID-19 pandemic, have rapidly increased uncertainties in load forecasting. The uncertainties in load forecasting can be divided into two types: epistemic uncertainty and aleatoric uncertainty. Separating these types of uncertainties can help decision-makers better understand where and to what extent the uncertainty is, thereby enhancing their confidence in the following decision-making. This paper proposes a diffusion-based Seq2Seq structure to estimate epistemic uncertainty and employs the robust additive Cauchy distribution to estimate aleatoric uncertainty. Our method not only ensures the accuracy of load forecasting but also demonstrates the ability to separate the two types of uncertainties and be applicable to different levels of loads. The relevant code can be found at \url{https://anonymous.4open.science/r/DiffLoad-4714/}.
翻訳日:2023-11-07 22:15:07 公開日:2023-11-05
# 関係条件付きニューラルプロセスによる実用的等分散

Practical Equivariances via Relational Conditional Neural Processes ( http://arxiv.org/abs/2306.10915v2 )

ライセンス: Link先を確認
Daolang Huang, Manuel Haussmann, Ulpu Remes, ST John, Gr\'egoire Clart\'e, Kevin Sebastian Luck, Samuel Kaski, Luigi Acerbi(参考訳) 条件付きニューラル・プロセス(CNP)は、償却推論の実行効率と確実な不確実性定量化を組み合わせたメタラーニングモデルである。 時空間モデリング、ベイズ最適化、連続制御など、関連する多くの機械学習タスクは、本質的に、モデルが最大限のパフォーマンスを活用できる同分散(翻訳など)を含んでいる。 しかし、CNPに等価性を含む以前の試みは、2つの入力次元を超えて効果的にスケールしない。 本研究では,任意のニューラルプロセスモデルに等価性を導入するための効果的な手法であるrelational conditional neural process (rcnps)を提案する。 提案手法は、同変ニューラルプロセスの適用性と影響を高次元に拡張する。 本研究では,自然に同値を含むタスク列上でのRCNPの競合性能を実証的に実証する。

Conditional Neural Processes (CNPs) are a class of metalearning models popular for combining the runtime efficiency of amortized inference with reliable uncertainty quantification. Many relevant machine learning tasks, such as in spatio-temporal modeling, Bayesian Optimization and continuous control, inherently contain equivariances -- for example to translation -- which the model can exploit for maximal performance. However, prior attempts to include equivariances in CNPs do not scale effectively beyond two input dimensions. In this work, we propose Relational Conditional Neural Processes (RCNPs), an effective approach to incorporate equivariances into any neural process model. Our proposed method extends the applicability and impact of equivariant neural processes to higher dimensions. We empirically demonstrate the competitive performance of RCNPs on a large array of tasks naturally containing equivariances.
翻訳日:2023-11-07 22:06:13 公開日:2023-11-05
# テキスト・画像生成のためのノルム誘導潜時空間探索

Norm-guided latent space exploration for text-to-image generation ( http://arxiv.org/abs/2306.08687v3 )

ライセンス: Link先を確認
Dvir Samuel, Rami Ben-Ari, Nir Darshan, Haggai Maron, Gal Chechik(参考訳) テキストから画像への拡散モデルは、新しい構成やシナリオにおいて様々な概念を合成する大きな可能性を示している。 しかし、初期種子の潜伏空間はまだよく理解されておらず、その構造が様々な概念の生成に影響を与えることが示されている。 特に、補間や種子集合のセンチロイドの発見のような単純な操作は、潜在空間で標準ユークリッドや球面計量を使用する場合、うまく機能しない。 本稿では,現行の訓練手順において,標準値の幅が狭い入力を拡散モデルで観測する。 これは、画像生成のためのシード操作に依存するメソッドに強く影響し、少数ショットおよびロングテール学習タスクへの応用がある。 この問題に対処するために, 2つの種子間を補間する新しい方法を提案し, 種子に先行するノルムを考慮した新しい非ユークリッド計量を定義することを実証する。 我々は,この補間手順を近似する単純かつ効率的なアルゴリズムを記述し,それを用いて潜在種空間におけるセントロイドをさらに定義する。 新たな補間法と遠心法により,レアコンセプト画像の生成が著しく向上することを示す。 これにより、少数ショットとロングテールのベンチマークにおける最先端のパフォーマンスが向上し、生成速度、画像品質、セマンティックコンテンツといった従来のアプローチが改善される。

Text-to-image diffusion models show great potential in synthesizing a large variety of concepts in new compositions and scenarios. However, the latent space of initial seeds is still not well understood and its structure was shown to impact the generation of various concepts. Specifically, simple operations like interpolation and finding the centroid of a set of seeds perform poorly when using standard Euclidean or spherical metrics in the latent space. This paper makes the observation that, in current training procedures, diffusion models observed inputs with a narrow range of norm values. This has strong implications for methods that rely on seed manipulation for image generation, with applications to few-shot and long-tail learning tasks. To address this issue, we propose a novel method for interpolating between two seeds and demonstrate that it defines a new non-Euclidean metric that takes into account a norm-based prior on seeds. We describe a simple yet efficient algorithm for approximating this interpolation procedure and use it to further define centroids in the latent seed space. We show that our new interpolation and centroid techniques significantly enhance the generation of rare concept images. This further leads to state-of-the-art performance on few-shot and long-tail benchmarks, improving prior approaches in terms of generation speed, image quality, and semantic content.
翻訳日:2023-11-07 22:05:40 公開日:2023-11-05
# 適応線形推定方程式

Adaptive Linear Estimating Equations ( http://arxiv.org/abs/2307.07320v2 )

ライセンス: Link先を確認
Mufang Ying, Koulik Khamaru, Cun-Hui Zhang(参考訳) シークエンシャルデータ収集は,データ収集プロセスの効率を高める手法として広く採用されている。 その利点にもかかわらず、このようなデータ収集メカニズムは、しばしば統計的推論手順に複雑性をもたらす。 例えば、適応線形回帰モデルにおける通常の最小二乗(ols)推定器は非正規漸近的振る舞いを示し、正確な推論と解釈に挑戦する。 本稿では,この問題を修復する脱バイアス推定器の汎用的構築法を提案する。 適応線形推定方程式の考え方を利用し、近似的漸近分散を達成するための議論によって補足される漸近正規性の理論的保証を確立する。 我々の推定器の健全な特徴は、マルチアームバンディットの文脈では、最小二乗推定器の非漸近性能を保ちつつ、漸近正規性が得られることである。 この研究は、適応推論の2つの実りあるパラダイムを結びつけるのに役立つ。 a)濃度不等式を用いた非漸近的推論 b) 漸近的正常性による漸近的推論

Sequential data collection has emerged as a widely adopted technique for enhancing the efficiency of data gathering processes. Despite its advantages, such data collection mechanism often introduces complexities to the statistical inference procedure. For instance, the ordinary least squares (OLS) estimator in an adaptive linear regression model can exhibit non-normal asymptotic behavior, posing challenges for accurate inference and interpretation. In this paper, we propose a general method for constructing debiased estimator which remedies this issue. It makes use of the idea of adaptive linear estimating equations, and we establish theoretical guarantees of asymptotic normality, supplemented by discussions on achieving near-optimal asymptotic variance. A salient feature of our estimator is that in the context of multi-armed bandits, our estimator retains the non-asymptotic performance of the least square estimator while obtaining asymptotic normality property. Consequently, this work helps connect two fruitful paradigms of adaptive inference: a) non-asymptotic inference using concentration inequalities and b) asymptotic inference via asymptotic normality.
翻訳日:2023-11-07 21:53:55 公開日:2023-11-05
# ソーシャルメディア上の摂食障害コンテンツの同定のためのサイト非依存型マルチモーダル深層学習モデル

A Novel Site-Agnostic Multimodal Deep Learning Model to Identify Pro-Eating Disorder Content on Social Media ( http://arxiv.org/abs/2307.06775v4 )

ライセンス: Link先を確認
Jonathan Feldman(参考訳) 過去10年間で、摂食障害の診断や摂食障害による死亡が急増し、新型コロナウイルス(covid-19)のパンデミックで絶頂期を迎えた。 この大きな成長は、パンデミックのストレス要因だけでなく、摂食障害を促進するコンテンツに溢れるソーシャルメディアへの露出の増加にも起因している。 本研究の目的は、ソーシャルメディア投稿が視覚データとテキストデータの組み合わせに基づいて摂食障害を促進するかどうかを判断できるマルチモーダル深層学習モデルを構築することである。 ツイートのラベル付きデータセットがtwitterから収集され、その上で12のディープラーニングモデルをトレーニングし、評価した。 モデル性能に基づいて、最も効果的なディープラーニングモデルは、RoBERTa自然言語処理モデルとMaxViT画像分類モデルのマルチモーダル融合であり、それぞれ95.9%と0.959のF1スコアを得た。 roberta and maxvit fusion modelは、ソーシャルメディアサイトtumblrとredditの投稿のラベルのないデータセットを分類するためにデプロイされ、人工知能ベースの技術を使用しない以前の研究結果と類似した結果を生み出した。 さらに、このモデルは8つのtwitterハッシュタグからの未発見ツイートの時系列分析に利用され、2014年以降、摂食障害を促進するコンテンツの相対的豊富さは、それらのコミュニティで劇的に減少していることが判明した。 この減少にもかかわらず、2018年までに、摂食障害を助長するコンテンツは、これらのハッシュタグで新たに減少または増加していた。

Over the last decade, there has been a vast increase in eating disorder diagnoses and eating disorder-attributed deaths, reaching their zenith during the Covid-19 pandemic. This immense growth derived in part from the stressors of the pandemic but also from increased exposure to social media, which is rife with content that promotes eating disorders. This study aimed to create a multimodal deep learning model that can determine if a given social media post promotes eating disorders based on a combination of visual and textual data. A labeled dataset of Tweets was collected from Twitter, recently rebranded as X, upon which twelve deep learning models were trained and evaluated. Based on model performance, the most effective deep learning model was the multimodal fusion of the RoBERTa natural language processing model and the MaxViT image classification model, attaining accuracy and F1 scores of 95.9% and 0.959, respectively. The RoBERTa and MaxViT fusion model, deployed to classify an unlabeled dataset of posts from the social media sites Tumblr and Reddit, generated results akin to those of previous research studies that did not employ artificial intelligence-based techniques, indicating that deep learning models can develop insights congruent to those of researchers. Additionally, the model was used to conduct a time-series analysis of yet unseen Tweets from eight Twitter hashtags, uncovering that, since 2014, the relative abundance of content that promotes eating disorders has decreased drastically within those communities. Despite this reduction, by 2018, content that promotes eating disorders had either stopped declining or increased in ampleness anew on those hashtags.
翻訳日:2023-11-07 21:53:22 公開日:2023-11-05
# 対称性を考慮した周期材料の創製に向けて

Towards Symmetry-Aware Generation of Periodic Materials ( http://arxiv.org/abs/2307.02707v2 )

ライセンス: Link先を確認
Youzhi Luo, Chengkai Liu, Shuiwang Ji(参考訳) 深部モデルを用いた周期材料生成の問題を考える。 対称性を感知する分子生成は広く研究されているが、周期的物質は異なる対称性を持ち、既存の方法では完全には捉えられていない。 本稿では,周期的物質構造の物理的対称性を捉える新しい材料生成手法であるsymatを提案する。 SyMatは、変分オートエンコーダモデルを用いて、原子タイプセット、格子長、格子角を生成することによって、材料の原子タイプと格子を生成する。 さらに、symatはスコアベースの拡散モデルを用いて材料の原子座標を生成し、座標拡散過程において新しい対称性を認識できる確率モデルを用いる。 我々は,SyMatが材料上のすべての対称性変換に理論的に不変であることを示し,SyMatがランダム生成および特性最適化タスクにおいて有望な性能を達成することを示す。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS)の一部として公開されています。

We consider the problem of generating periodic materials with deep models. While symmetry-aware molecule generation has been studied extensively, periodic materials possess different symmetries, which have not been completely captured by existing methods. In this work, we propose SyMat, a novel material generation approach that can capture physical symmetries of periodic material structures. SyMat generates atom types and lattices of materials through generating atom type sets, lattice lengths and lattice angles with a variational auto-encoder model. In addition, SyMat employs a score-based diffusion model to generate atom coordinates of materials, in which a novel symmetry-aware probabilistic model is used in the coordinate diffusion process. We show that SyMat is theoretically invariant to all symmetry transformations on materials and demonstrate that SyMat achieves promising performance on random generation and property optimization tasks. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS).
翻訳日:2023-11-07 21:51:40 公開日:2023-11-05
# 零点スキップによる畳み込み層の計算複雑性の低減

Reduce Computational Complexity for Convolutional Layers by Skipping Zeros ( http://arxiv.org/abs/2306.15951v3 )

ライセンス: Link先を確認
Zhiyi Zhang, Pengfei Zhang, Zhuopin Xu, Qi Wang(参考訳) 畳み込みニューラルネットワークは、複雑性を減らし、アクセラレーションに並列プロセッサを十分に活用するために優れたアルゴリズムを必要とする。 畳み込み層内には、3種類の演算子がある: 畳み込みは前方伝播、デ畳み込み、拡張畳み込みに用いられる。 これらの演算子の実行中、ゼロは典型的にはテンソルに追加され、冗長な計算とハードウェアへの不要な負荷をもたらす。 これらの非効率を回避するために,効率的なGPU実装を伴うC-K-Sアルゴリズムを提案する。 C-K-S はゼロパディングを除外するためにフィルタをトリムする。 デコンボリューションと拡張畳み込みでは、C-K-Sはスパーステンソルを高密度テンソルに変換し、局所的な計算規則を標準化してハードウェア制御を単純化する。 実験により,C-K-SはPyTorchとcuDNNの能力を上回る速度と収束性で優れた性能を示すことが示された。

Convolutional neural networks necessitate good algorithms to reduce complexity, and sufficient utilization of parallel processors for acceleration. Within convolutional layers, there are three types of operators: convolution used in forward propagation, deconvolution and dilated-convolution utilized in backward propagation. During the execution of these operators, zeros are typically added to tensors, leading to redundant calculations and unnecessary strain on hardware. To circumvent these inefficiencies, we propose the C-K-S algorithm, accompanied by efficient GPU implementations. C-K-S trims filters to exclude zero-padding. For deconvolution and dilated-convolution, C-K-S transforms sparse tensors into dense tensors, and standardizes the local computational rules to simplify the hardware control. The experimental results demonstrate that C-K-S offers good performance in terms of speed and convergence, surpassing the capabilities of PyTorch and cuDNN in certain scenarios.
翻訳日:2023-11-07 21:51:25 公開日:2023-11-05
# 離散ニューラルネットと多形学習

Discrete neural nets and polymorphic learning ( http://arxiv.org/abs/2308.00677v2 )

ライセンス: Link先を確認
Charlotte Aten(参考訳) 1970年代のMurski\u{i} のような普遍代数からの定理は、1980年代のシベンコの線に沿ったニューラルネットに対する普遍近似結果と著しく類似している。 ここでは、これらの結果を統一した設定に配置するニューラルネットワークの古典的な概念の離散的類似性を考える。 関係構造の多型に基づく学習アルゴリズムを導入し、古典的な学習課題にどのように使用するかを示す。

Theorems from universal algebra such as that of Murski\u{i} from the 1970s have a striking similarity to universal approximation results for neural nets along the lines of Cybenko's from the 1980s. We consider here a discrete analogue of the classical notion of a neural net which places these results in a unified setting. We introduce a learning algorithm based on polymorphisms of relational structures and show how to use it for a classical learning task.
翻訳日:2023-11-07 21:41:10 公開日:2023-11-05
# Android Phoneとタブレット間のGUI変換と検索のためのペアワイズデータセット

A Pairwise Dataset for GUI Conversion and Retrieval between Android Phones and Tablets ( http://arxiv.org/abs/2307.13225v3 )

ライセンス: Link先を確認
Han Hu, Haolan Zhan, Yujin Huang, Di Liu(参考訳) スマートフォンやタブレットの普及に伴い、ユーザーはスマートフォンを使ってゲームやタブレットで映画を見るなど、さまざまなタスクにさまざまなデバイスを使うことに慣れるようになった。 市場を征服するためには、スマートフォンとタブレットの両方で1つのアプリが利用できる。 しかし、あるアプリには、似たようなグラフィックユーザーインターフェイス(GUI)と電話やタブレットの機能があるが、現在のアプリ開発者は、タブレット互換バージョンのアプリを開発するときにスクラッチから始めるのが普通だ。 研究者は開発者の生産性を高めるために、GUI自動開発にディープラーニングを導入しようとしている。 ディープラーニングモデルは高品質なデータセットに大きく依存する。 現在、携帯電話向けに公開されているGUIページデータセットはいくつかあるが、携帯電話とタブレット間のGUIのペアは存在しない。 これは、GUI自動開発におけるディープラーニングの活用に大きな障壁となる。 本稿では,Android端末とタブレット間のGUI変換と検索のためのペアワイズデータセットであるPaptデータセットの収集と公開を行う。 データセットには5,593の電話タブレットアプリペアから10,035の電話タブレットGUIページペアが含まれている。 本稿では,ペアワイズデータ収集のアプローチと,このデータセットの統計解析について述べる。 また、現在のデータセットと比較して、データセットの利点も説明します。 このデータセットの予備的な実験を通じて、自動GUI開発におけるディープラーニングの利用に関する現在の課題を分析し、私たちのデータセットが、いくつかのディープラーニングモデルを自動GUI開発を含むタスクに適用するのに役立つことを確かめる。

With the popularity of smartphones and tablets, users have become accustomed to using different devices for different tasks, such as using their phones to play games and tablets to watch movies. To conquer the market, one app is often available on both smartphones and tablets. However, although one app has similar graphic user interfaces (GUIs) and functionalities on phone and tablet, current app developers typically start from scratch when developing a tablet-compatible version of their app, which drives up development costs and wastes existing design resources. Researchers are attempting to employ deep learning in automated GUIs development to enhance developers' productivity. Deep learning models rely heavily on high-quality datasets. There are currently several publicly accessible GUI page datasets for phones, but none for pairwise GUIs between phones and tablets. This poses a significant barrier to the employment of deep learning in automated GUI development. In this paper, we collect and make public the Papt dataset, which is a pairwise dataset for GUI conversion and retrieval between Android phones and tablets. The dataset contains 10,035 phone-tablet GUI page pairs from 5,593 phone-tablet app pairs. We illustrate the approaches of collecting pairwise data and statistical analysis of this dataset. We also illustrate the advantages of our dataset compared to other current datasets. Through preliminary experiments on this dataset, we analyse the present challenges of utilising deep learning in automated GUI development and find that our dataset can assist the application of some deep learning models to tasks involving automatic GUI development.
翻訳日:2023-11-07 21:39:31 公開日:2023-11-05
# 携帯電話からテレビへの適応型アプリGUIの自動マッピング

Automated Mapping of Adaptive App GUIs from Phones to TVs ( http://arxiv.org/abs/2307.12522v2 )

ライセンス: Link先を確認
Han Hu, Ruiqi Dong, John Grundy, Thai Minh Nguyen, Huaxiao Liu, Chunyang Chen(参考訳) スマートデバイスの相互接続が増加する中、ユーザーはスマートフォンとテレビの両方で同じ映画を見るなど、全く異なるデバイスで同じアプリを同じタスクに採用したいと考えることが多い。 しかし、画面サイズ、アスペクト比、インタラクションスタイルが著しく異なるため、これらのデバイス間でグラフィカルユーザインターフェース(gui)を適合させることは困難である。 google playには何百万ものアプリがあるが、スマートtvディスプレイをサポートするのはほんの数千だ。 既存のモバイルアプリのGUIをテレビにマップする技術は、応答性のあるデザインを採用するか、電話とテレビの間に大きなギャップを埋めるのに苦労する。 携帯電話のGUIを入力として考慮し、テレビをサポートするアプリを開発する代わりに、対応する適応型テレビGUIを生成するための半自動アプローチを提案する。 既存アプリにおけるテレビと携帯電話のGUIペアに関する実証的研究に基づいて,携帯電話のGUIをグループ化し分類し,テレビGUIに変換し,動的テレビレイアウトとTVディスプレイのソースコードを生成するためのルールのリストを合成する。 当社のツールは、開発者だけでなく、テレビアプリ開発のために生成されたGUIをさらにカスタマイズできるGUIデザイナにとっても有益です。 評価とユーザスタディは、生成したGUIの精度とツールの有用性を実証する。

With the increasing interconnection of smart devices, users often desire to adopt the same app on quite different devices for identical tasks, such as watching the same movies on both their smartphones and TVs. However, the significant differences in screen size, aspect ratio, and interaction styles make it challenging to adapt Graphical User Interfaces (GUIs) across these devices. Although there are millions of apps available on Google Play, only a few thousand are designed to support smart TV displays. Existing techniques to map a mobile app GUI to a TV either adopt a responsive design, which struggles to bridge the substantial gap between phone and TV or use mirror apps for improved video display, which requires hardware support and extra engineering efforts. Instead of developing another app for supporting TVs, we propose a semi-automated approach to generate corresponding adaptive TV GUIs, given the phone GUIs as the input. Based on our empirical study of GUI pairs for TVs and phones in existing apps, we synthesize a list of rules for grouping and classifying phone GUIs, converting them to TV GUIs, and generating dynamic TV layouts and source code for the TV display. Our tool is not only beneficial to developers but also to GUI designers, who can further customize the generated GUIs for their TV app development. An evaluation and user study demonstrate the accuracy of our generated GUIs and the usefulness of our tool.
翻訳日:2023-11-07 21:39:09 公開日:2023-11-05
# 類似性 Min-Max: ゼロショットデイナイトドメイン適応

Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation ( http://arxiv.org/abs/2307.08779v3 )

ライセンス: Link先を確認
Rundong Luo, Wenjing Wang, Wenhan Yang, Jiaying Liu(参考訳) 低照度条件は人間の視覚経験を妨げるだけでなく、下流の視覚タスクにおけるモデルの性能を低下させる。 既存の作業は昼夜のドメイン適応において著しく進歩するが、それらはタスク固有の夜間データセットから派生したドメイン知識に大きく依存する。 本稿では、夜間データに依存しないゼロショットの昼夜領域適応という、境界適用性を伴うより複雑なシナリオに挑戦する。 画像レベルの翻訳やモデルレベルの適応を強調する以前のゼロショット適応アプローチとは異なり、これらを統一されたフレームワークで考慮した類似性min-maxパラダイムを提案する。 画像レベルでは、最小限の機能の類似性に向かって画像を暗くして、ドメインギャップを拡大します。 そして、モデルレベルでは、暗い画像と通常の光との特徴の類似性を最大化し、より良いモデル適応を行う。 私たちの知る限りでは、この研究は両方の側面を共同で最適化する先駆的な取り組みであり、結果としてモデルの一般化性が大幅に向上します。 提案手法は,分類,意味セグメンテーション,視覚位置認識,映像行動認識など,様々な夜間視覚タスクにおいて有効性と幅広い適用性を示す。 コードと事前トレーニングされたモデルは、https://red-fairy.github.io/zeroshotdaynightda-webpage/で入手できる。

Low-light conditions not only hamper human visual experience but also degrade the model's performance on downstream vision tasks. While existing works make remarkable progress on day-night domain adaptation, they rely heavily on domain knowledge derived from the task-specific nighttime dataset. This paper challenges a more complicated scenario with border applicability, i.e., zero-shot day-night domain adaptation, which eliminates reliance on any nighttime data. Unlike prior zero-shot adaptation approaches emphasizing either image-level translation or model-level adaptation, we propose a similarity min-max paradigm that considers them under a unified framework. On the image level, we darken images towards minimum feature similarity to enlarge the domain gap. Then on the model level, we maximize the feature similarity between the darkened images and their normal-light counterparts for better model adaptation. To the best of our knowledge, this work represents the pioneering effort in jointly optimizing both aspects, resulting in a significant improvement of model generalizability. Extensive experiments demonstrate our method's effectiveness and broad applicability on various nighttime vision tasks, including classification, semantic segmentation, visual place recognition, and video action recognition. Code and pre-trained models are available at https://red-fairy.github.io/ZeroShotDayNightDA-Webpage/.
翻訳日:2023-11-07 21:37:27 公開日:2023-11-05
# 基本特徴の深い知識蒸留を用いた複雑な顔表情認識

Complex Facial Expression Recognition Using Deep Knowledge Distillation of Basic Features ( http://arxiv.org/abs/2308.06197v2 )

ライセンス: Link先を確認
Angus Maiden (1), Bahareh Nakisa (1) ((1) Deakin University)(参考訳) 複雑な感情認識(complex emotion recognition)は、人間の認識のレベル以上にある他のタスクと同じ優れたパフォーマンスをこれまで明らかにしてきた認知タスクである。 表情による感情認識は、人間の顔によって表現される感情の複雑さのために特に困難である。 機械が人間と同じレベルの複雑な表情認識性能に近づくためには、知識を合成し、人間と同じように、新しい概念をリアルタイムで理解する必要があるかもしれない。 人間は記憶から重要な情報を蒸留することで、わずかな例だけで新しい概念を学ぶことができる。 本稿では,人間の認知と学習に着想を得て,新しい複合表現クラスを少ない訓練サンプルで正確に認識し,基本表現クラス知識を構築・保持できる,複雑な表情認識のための連続学習手法を提案する。 本研究では,GradCAMの視覚的特徴を利用して,表情の基本的特徴と複合的表現の関係を示す。 本手法は, 知識蒸留と新しい予測的ソートメモリリプレイを用いて, 複雑な表情認識のための連続学習における現在の最先端を, 74.28%の精度で達成する。 また、複雑な表情認識に連続学習を用いることで、非連続学習法よりもはるかに優れた性能が得られることを実証し、最先端の非連続学習法を13.95%改善した。 私たちの研究は、複雑な表情認識に数発の学習を適用し、クラスごとに1つのトレーニングサンプルのみを使用して100%の精度で最先端を達成しました。

Complex emotion recognition is a cognitive task that has so far eluded the same excellent performance of other tasks that are at or above the level of human cognition. Emotion recognition through facial expressions is particularly difficult due to the complexity of emotions expressed by the human face. For a machine to approach the same level of performance in complex facial expression recognition as a human, it may need to synthesise knowledge and understand new concepts in real-time, as humans do. Humans are able to learn new concepts using only few examples by distilling important information from memories. Inspired by human cognition and learning, we propose a novel continual learning method for complex facial expression recognition that can accurately recognise new compound expression classes using few training samples, by building on and retaining its knowledge of basic expression classes. In this work, we also use GradCAM visualisations to demonstrate the relationship between basic and compound facial expressions. Our method leverages this relationship through knowledge distillation and a novel Predictive Sorting Memory Replay, to achieve the current state-of-the-art in continual learning for complex facial expression recognition, with 74.28% Overall Accuracy on new classes. We also demonstrate that using continual learning for complex facial expression recognition achieves far better performance than non-continual learning methods, improving on state-of-the-art non-continual learning methods by 13.95%. Our work is also the first to apply few-shot learning to complex facial expression recognition, achieving the state-of-the-art with 100% accuracy using only a single training sample per class.
翻訳日:2023-11-07 21:27:39 公開日:2023-11-05
# マルコフサンプリングによる確率勾配勾配のオンライン共分散推定

Online covariance estimation for stochastic gradient descent under Markovian sampling ( http://arxiv.org/abs/2308.01481v2 )

ライセンス: Link先を確認
Abhishek Roy, Krishnakumar Balasubramanian(参考訳) マルコビアンサンプリングによる確率勾配Descent (SGD) のオンライン重なり合うバッチ平均共分散推定器について検討した。 位数$O\big(\sqrt{d}\,n^{-1/8}(\log n)^{1/4}\big)$と$O\big(\sqrt{d}\,n^{-1/8}\big)$の収束率は、それぞれ状態依存および状態非依存マルコフサンプリングの下で確立される。 これらのレートは、独立かつ同一分散(i.i.d)データの最もよく知られた収束率に合致する。 我々の分析はマルコフサンプリングによって生じる重要な課題を克服し、バッチ平均共分散推定器のブロック間に追加のエラー項と複雑な依存関係を導入する。 さらに、状態依存マルコフデータの下でSGDダイナミックスの誤差の$\ell_2$ノルムの最初の4つのモーメントに対する収束率を確立し、独立な結果として潜在的関心を持つ。 数値挿絵はマルコフサンプリングの下で線形およびロジスティック回帰モデルにおいてsgdの信頼区間を与える。 さらに,本手法をロジスティック回帰を用いた戦略分類に適用し,対象クラス分類に影響を及ぼすために,学習中の特徴を適応的に修正する。

We investigate the online overlapping batch-means covariance estimator for Stochastic Gradient Descent (SGD) under Markovian sampling. Convergence rates of order $O\big(\sqrt{d}\,n^{-1/8}(\log n)^{1/4}\big)$ and $O\big(\sqrt{d}\,n^{-1/8}\big)$ are established under state-dependent and state-independent Markovian sampling, respectively, where $d$ is the dimensionality and $n$ denotes observations or SGD iterations. These rates match the best-known convergence rate for independent and identically distributed (i.i.d) data. Our analysis overcomes significant challenges that arise due to Markovian sampling, leading to the introduction of additional error terms and complex dependencies between the blocks of the batch-means covariance estimator. Moreover, we establish the convergence rate for the first four moments of the $\ell_2$ norm of the error of SGD dynamics under state-dependent Markovian data, which holds potential interest as an independent result. Numerical illustrations provide confidence intervals for SGD in linear and logistic regression models under Markovian sampling. Additionally, our method is applied to the strategic classification with logistic regression, where adversaries adaptively modify features during training to affect target class classification.
翻訳日:2023-11-07 21:24:53 公開日:2023-11-05
# 大規模言語モデルにおけるエンティティレベルの記憶の定量化と解析

Quantifying and Analyzing Entity-level Memorization in Large Language Models ( http://arxiv.org/abs/2308.15727v2 )

ライセンス: Link先を確認
Zhenhong Zhou, Jiuyang Xiang, Chaomeng Chen, Sen Su(参考訳) 大規模言語モデル(LLM)は、特定の設計のプロンプトを通して抽出できる訓練データを記憶できることが証明されている。 データセットの規模が拡大するにつれて、記憶から生じるプライバシーリスクが注目されている。 言語モデル記憶の定量化は潜在的なプライバシーリスクの評価に役立つ。 しかし、記憶の定量化に関する以前の研究では、正確な元のデータにアクセスするか、かなりの計算オーバーヘッドを負う必要があり、現実世界の言語モデルのアプリケーションでは困難である。 この目的のために,実世界のシナリオに近い条件やメトリクスで記憶を定量化する,詳細なエンティティレベルの定義を提案する。 さらに,自己回帰型言語モデルからセンシティブなエンティティを効率的に抽出する手法を提案する。 提案する言語モデルに基づく広範囲な実験を行い,異なる環境下でセンシティブな実体を再構築する能力について検討した。 言語モデルはエンティティレベルで強く記憶され,部分的なリークがあってもトレーニングデータを再現できることがわかった。 その結果、LLMはトレーニングデータを記憶するだけでなく、エンティティ間の関連も理解していることがわかった。 これらの知見は, LLMのトレーナーが, プライバシー侵害を防止するため, モデル記憶に関するより慎重な訓練を行う必要がある。

Large language models (LLMs) have been proven capable of memorizing their training data, which can be extracted through specifically designed prompts. As the scale of datasets continues to grow, privacy risks arising from memorization have attracted increasing attention. Quantifying language model memorization helps evaluate potential privacy risks. However, prior works on quantifying memorization require access to the precise original data or incur substantial computational overhead, making it difficult for applications in real-world language models. To this end, we propose a fine-grained, entity-level definition to quantify memorization with conditions and metrics closer to real-world scenarios. In addition, we also present an approach for efficiently extracting sensitive entities from autoregressive language models. We conduct extensive experiments based on the proposed, probing language models' ability to reconstruct sensitive entities under different settings. We find that language models have strong memorization at the entity level and are able to reproduce the training data even with partial leakages. The results demonstrate that LLMs not only memorize their training data but also understand associations between entities. These findings necessitate that trainers of LLMs exercise greater prudence regarding model memorization, adopting memorization mitigation techniques to preclude privacy violations.
翻訳日:2023-11-07 21:15:15 公開日:2023-11-05
# パープレキシティによる言語モデル攻撃の検出

Detecting Language Model Attacks with Perplexity ( http://arxiv.org/abs/2308.14132v2 )

ライセンス: Link先を確認
Gabriel Alon, Michael Kamfonas(参考訳) 大規模言語モデル(LLM)に関わる新たなハックが出現し、敵の接尾辞を利用してモデルを騙して危険な応答を生成する。 この手法はNew York TimesやWiredなどの信頼できるメディアからかなりの注目を集めており、LLMの安全性と安全性に関する大衆の認識に影響を与えている。 本研究では,このような攻撃を認識できる方法の1つとして,パープレキシティの利用を提唱する。 これらのハックの背後にある概念は、異常に構築された文字列を有害なクエリに付加する、というものである。 この操作は保護機構を混乱させ、モデルを騙して禁止された応答を生成する。 このようなシナリオは、爆発物を構築したり銀行強盗を編成する悪意のあるユーザーに詳細な指示を与える可能性がある。 本研究は,自然言語処理指標であるパープレキシティ(perplexity)を禁止応答を生成する前に,これらの敵対的戦術を検出する可能性を示す。 オープンソースのLCMを用いて,このような逆数接尾辞のないクエリの難易度を評価することで,約90%が1000以上の難易度であったことがわかった。 このコントラストは、この種のエクスプロイトを検出するためのパープレキシティの有効性を裏付けるものである。

A novel hack involving Large Language Models (LLMs) has emerged, leveraging adversarial suffixes to trick models into generating perilous responses. This method has garnered considerable attention from reputable media outlets such as the New York Times and Wired, thereby influencing public perception regarding the security and safety of LLMs. In this study, we advocate the utilization of perplexity as one of the means to recognize such potential attacks. The underlying concept behind these hacks revolves around appending an unusually constructed string of text to a harmful query that would otherwise be blocked. This maneuver confuses the protective mechanisms and tricks the model into generating a forbidden response. Such scenarios could result in providing detailed instructions to a malicious user for constructing explosives or orchestrating a bank heist. Our investigation demonstrates the feasibility of employing perplexity, a prevalent natural language processing metric, to detect these adversarial tactics before generating a forbidden response. By evaluating the perplexity of queries with and without such adversarial suffixes using an open-source LLM, we discovered that nearly 90 percent were above a perplexity of 1000. This contrast underscores the efficacy of perplexity for detecting this type of exploit.
翻訳日:2023-11-07 21:14:53 公開日:2023-11-05
# リニア振動:視覚トランスフォーマのための新しい活性化機能

Linear Oscillation: A Novel Activation Function for Vision Transformer ( http://arxiv.org/abs/2308.13670v3 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 活性化関数はディープラーニングのリンチピンであり、ニューラルネットワークの表現能力とトレーニングダイナミクスの両方に大きな影響を及ぼす。 それらは表現の性質だけでなく、収束率を最適化し、一般化ポテンシャルを高める。 この重要な役割を評価し、$f(x) = x \times \sin(\alpha x + \beta)$と定義される線形振動(LoC)活性化関数を示す。 非線型性を主に導入する従来の活性化関数とは異なり、LoCは線形軌道と振動偏差をシームレスにブレンドする。 形容詞「線形振動」は、線形活性化と調和振動を融合させ、「混乱の親和性」の本質を捉えたユニークな特徴である。 ネットワークアクティベーション内の"制御された混乱"というこの概念は、より強固な学習、特に微妙なパターンを識別する必要のある文脈を促進することを実証している。 実験の結果,様々なニューラルアーキテクチャに統合された場合,locアクティベーション関数は,reluやsgmoidといった確立されたものよりも一貫して優れていることが明らかとなった。 LoCを用いたアバンギャルドビジョントランスモデルで示された恒星の性能は、その有効性をさらに検証する。 本研究は、他の顕著な活性化機能に対するLoCの顕著な利点を照らす。 トレーニング中に意図的な複雑さや「融合」を断続的に導入することで、より深く、ニュアンスのある学習を促すという考えを擁護する。 これは、ニューラルネットワークトレーニングの未来を形作る上で、公平に選択されたアクティベーション関数の重要な役割を強調する。

Activation functions are the linchpins of deep learning, profoundly influencing both the representational capacity and training dynamics of neural networks. They shape not only the nature of representations but also optimize convergence rates and enhance generalization potential. Appreciating this critical role, we present the Linear Oscillation (LoC) activation function, defined as $f(x) = x \times \sin(\alpha x + \beta)$. Distinct from conventional activation functions which primarily introduce non-linearity, LoC seamlessly blends linear trajectories with oscillatory deviations. The nomenclature "Linear Oscillation" is a nod to its unique attribute of infusing linear activations with harmonious oscillations, capturing the essence of the "Importance of Confusion". This concept of "controlled confusion" within network activations is posited to foster more robust learning, particularly in contexts that necessitate discerning subtle patterns. Our empirical studies reveal that, when integrated into diverse neural architectures, the LoC activation function consistently outperforms established counterparts like ReLU and Sigmoid. The stellar performance exhibited by the avant-garde Vision Transformer model using LoC further validates its efficacy. This study illuminates the remarkable benefits of the LoC over other prominent activation functions. It champions the notion that intermittently introducing deliberate complexity or "confusion" during training can spur more profound and nuanced learning. This accentuates the pivotal role of judiciously selected activation functions in shaping the future of neural network training.
翻訳日:2023-11-07 21:14:34 公開日:2023-11-05
# ClusterFusion: 自律走行車におけるレーダーカメラ3次元物体検出のためのレーダ空間特性の活用

ClusterFusion: Leveraging Radar Spatial Features for Radar-Camera 3D Object Detection in Autonomous Vehicles ( http://arxiv.org/abs/2309.03734v2 )

ライセンス: Link先を確認
Irfan Tito Kurniawan and Bambang Riyanto Trilaksono(参考訳) ミリ波レーダとカメラの相補的な性質により、深層学習に基づくレーダーカメラによる3Dオブジェクト検出法は、低視認性条件でも確実に正確な検出を行うことができる。 これにより、両センサーの合計コストはライダーのコストよりも安価であるため、自動運転車の知覚システムでの使用が好まれる。 最近のレーダーカメラの手法では、画像の特徴と同じ平面にレーダーポイントを投影し、両方のモダリティから抽出した特徴を融合させる機能レベルの融合が一般的である。 イメージプレーン上での融合は一般的に簡単で高速であるが、レーダーをイメージプレーンに投影すると、情報損失につながるポイントクラウドの深さ次元が平坦になり、ポイントクラウドの空間的特徴の抽出が難しくなる。 本研究では,ポイントクラウドをクラスタリングし,ポイントクラウドクラスタ上で直接特徴抽出を行い,その特徴をイメージプレーンに投影することで,レーダーポイントクラウドの局所的空間的特徴を活用するアーキテクチャであるclusterfusionを提案する。 ClusterFusion は、NDS (48.7% nuScenes detection score) による nuScenes データセットのテストスライスにおいて、すべてのレーダー-眼カメラ手法の最先端性能を達成した。 また, ポイントクラウドクラスタ上での各種レーダ特徴抽出戦略の性能について検討し, ハンドクラフト戦略, ラーニングベース戦略, 両者の組み合わせを検討した結果, ハンドクラフト戦略が最高の性能を示した。 本研究の主な目的は,レーダ点群から直接抽出し,画像平面上でクロスモーダルな特徴融合を行うレーダ-モンカメラ3Dオブジェクト検出法について,レーダの局所的空間的特徴と点的特徴の利用を検討することである。

Thanks to the complementary nature of millimeter wave radar and camera, deep learning-based radar-camera 3D object detection methods may reliably produce accurate detections even in low-visibility conditions. This makes them preferable to use in autonomous vehicles' perception systems, especially as the combined cost of both sensors is cheaper than the cost of a lidar. Recent radar-camera methods commonly perform feature-level fusion which often involves projecting the radar points onto the same plane as the image features and fusing the extracted features from both modalities. While performing fusion on the image plane is generally simpler and faster, projecting radar points onto the image plane flattens the depth dimension of the point cloud which might lead to information loss and makes extracting the spatial features of the point cloud harder. We proposed ClusterFusion, an architecture that leverages the local spatial features of the radar point cloud by clustering the point cloud and performing feature extraction directly on the point cloud clusters before projecting the features onto the image plane. ClusterFusion achieved the state-of-the-art performance among all radar-monocular camera methods on the test slice of the nuScenes dataset with 48.7% nuScenes detection score (NDS). We also investigated the performance of different radar feature extraction strategies on point cloud clusters: a handcrafted strategy, a learning-based strategy, and a combination of both, and found that the handcrafted strategy yielded the best performance. The main goal of this work is to explore the use of radar's local spatial and point-wise features by extracting them directly from radar point cloud clusters for a radar-monocular camera 3D object detection method that performs cross-modal feature fusion on the image plane.
翻訳日:2023-11-07 21:01:56 公開日:2023-11-05
# 1次元位相導波路における巨大原子間の相互作用

Interaction between giant atoms in a one-dimensional topological waveguide ( http://arxiv.org/abs/2309.03663v2 )

ライセンス: Link先を確認
Da-Wei Wang, Chengsong Zhao, Junya Yang, Ye-Ting Yan, Zhihai-Wang Ling Zhou(参考訳) 本稿では,1次元トポロジカル導波路貯留層に結合した巨大原子について考察する。 以下の2例について検討した。 バンドギャップの周波数がバンドの外側にあるバンドギャップ系では、巨大原子-光子結合状態の生成と分布と、トポロジカルおよび自明な位相におけるトポロジカル導波路の差について検討する。 2つの部分格子点に結合した巨大原子の強さが等しい場合、光子分布は対称であり、カップリングが異なる場合にキラル光子分布を示す。 巨大原子間のコヒーレント相互作用は仮想光子によって引き起こされるか、あるいは光子境界状態波動関数の重なりとして理解され、巨大原子間の距離が増加するにつれて指数関数的に崩壊する。 また,位相位相によるコヒーレント相互作用は,同じバンドギャップ幅に対する自明位相によるコヒーレント相互作用よりも大きいことがわかった。 バンド構造では, 巨大原子の周波数はバンド内にあり, ボルン・マルコフ近似の下では, 巨大原子結合ノードに依存するトポロジカル導波路貯留層を介する巨大原子間の効果的なコヒーレンスと相関的な散逸相互作用が得られた。 巨原子結合点の形状が崩壊およびそれに伴う散逸に及ぼす影響を解析した。 その結果, 結合形態と巨大原子の周波数を設計して, ゼロ崩壊, 相関散逸, 非ゼロコヒーレント相互作用を実現することができた。 最後に、このスキームを用いて巨大原子の励起移動を実現する。 我々の研究は、巨大原子と結合したトポロジカル物質の研究を促進する。

In this paper, we consider giant atoms coupled to a one-dimensional topological waveguide reservoir. We studied the following two cases. In the bandgap regime, where the giant-atom frequency lies outside the band, we study the generation and distribution of giant atom-photon bound states and the difference between the topological waveguide in topological and trivial phases. When the strengths of the giant atoms coupled to the two sub-lattice points are equal, the photons distribution is symmetrical and the chiral photon distribution is exhibited when the coupling is different. The coherent interactions between giant atoms are induced by virtual photons, or can be understood as an overlap of photon bound-state wave functions, and decay exponentially with increasing distance between the giant atoms. We also find that the coherent interactions induced by the topological phase are larger than those induced by the trivial phase for the same bandgap width. In the band regime, the giant-atom frequency lies in the band, under the Born-Markov approximation, we obtained effective coherence and correlated dissipative interactions between the giant atoms mediated by topological waveguide reservoirs, which depend on the giant-atom coupling nodes. We analyze the effect of the form of the giant-atom coupling point on the decay, and on the associated dissipation. The results show that we can design the coupling form as well as the frequency of the giant atoms to achieve zero decay and correlation dissipation and non-zero coherent interactions. Finally we used this scheme to realize the excitation transfer of giant atoms. Our work will promote the study of topological matter coupled to giant atoms.
翻訳日:2023-11-07 21:01:24 公開日:2023-11-05
# base to conversational:日本語命令データセットと大規模言語モデルのチューニング

From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models ( http://arxiv.org/abs/2309.03412v2 )

ライセンス: Link先を確認
Masahiro Suzuki, Masanori Hirano, Hiroki Sakaji(参考訳) インストラクションチューニングは、大規模言語モデル(LLM)が対話的になるために不可欠である。 多くの命令チューニングデータセットが英語に存在しているが、他の言語には顕著に欠けている。 また、その効果は英語以外の言語ではよく確認されていない。 既存のデータセットを拡張・フィルタリングして日本語指導データセットを構築し,そのデータセットを日本語事前学習ベースモデルに適用する。 日本語と英語の既存モデルに対して,命令データセットを用いてローランド適応(LoRA)チューニングを行った。 定量的および定性的な観点からこれらのモデルを評価した。 その結果,日本語指導データセットの有効性が確認された。 また,LLMが比較的小さい場合でも,インストラクションチューニングによって下流タスクのパフォーマンスが向上することが示唆された。 我々の指導データセット、チューニングモデル、実装はオンラインで公開されている。

Instruction tuning is essential for large language models (LLMs) to become interactive. While many instruction tuning datasets exist in English, there is a noticeable lack in other languages. Also, their effectiveness has not been well verified in non-English languages. We construct a Japanese instruction dataset by expanding and filtering existing datasets and apply the dataset to a Japanese pre-trained base model. We performed Low-Rank Adaptation (LoRA) tuning on both Japanese and English existing models using our instruction dataset. We evaluated these models from both quantitative and qualitative perspectives. As a result, the effectiveness of Japanese instruction datasets is confirmed. The results also indicate that even with relatively small LLMs, performances in downstream tasks would be improved through instruction tuning. Our instruction dataset, tuned models, and implementation are publicly available online.
翻訳日:2023-11-07 21:00:55 公開日:2023-11-05
# MEGANet: 弱境界ポリプセグメンテーションのためのマルチスケールエッジガイドアテンションネットワーク

MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp Segmentation ( http://arxiv.org/abs/2309.03329v3 )

ライセンス: Link先を確認
Nhat-Tan Bui and Dinh-Hieu Hoang and Quang-Thuc Nguyen and Minh-Triet Tran and Ngan Le(参考訳) 大腸癌の早期診断には,効率的なポリープ分画が重要な役割を担っている。 しかし、ポリプのセグメンテーションには、背景の複雑な分布、ポリプのサイズや形状の変化、不連続の境界など、多くの課題がある。 前景(すなわちポリープ自体)と背景(輪郭組織)の境界を定義することは困難である。 これらの課題を軽減するために,大腸内視鏡画像内のポリプセグメンテーションに適したマルチスケールエッジガイド注意ネットワーク(MEGANet)を提案する。 このネットワークは、注目機構を備えた古典的エッジ検出技術の融合からインスピレーションを得ている。 これらの技術を組み合わせることで、MEGANetは、特にエッジとバウンダリの高周波情報を効果的に保存する。 MEGANetはエンドツーエンドのフレームワークとして設計されており、入力画像から機能をキャプチャして抽象化するエンコーダ、有能な機能に焦点を当てるデコーダ、ポリプバウンダリをアクセントするLaplacian Operatorを使用するEdge-Guided Attention Module(EGA)の3つの主要なモジュールを含んでいる。 5つのベンチマークデータセットにおける定性的かつ定量的な実験は、我々のMEGANetが6つの評価基準の下で既存のSOTAメソッドよりも優れていることを示した。 私たちのコードはhttps://github.com/uark-aicv/meganetで利用可能です。

Efficient polyp segmentation in healthcare plays a critical role in enabling early diagnosis of colorectal cancer. However, the segmentation of polyps presents numerous challenges, including the intricate distribution of backgrounds, variations in polyp sizes and shapes, and indistinct boundaries. Defining the boundary between the foreground (i.e. polyp itself) and the background (surrounding tissue) is difficult. To mitigate these challenges, we propose Multi-Scale Edge-Guided Attention Network (MEGANet) tailored specifically for polyp segmentation within colonoscopy images. This network draws inspiration from the fusion of a classical edge detection technique with an attention mechanism. By combining these techniques, MEGANet effectively preserves high-frequency information, notably edges and boundaries, which tend to erode as neural networks deepen. MEGANet is designed as an end-to-end framework, encompassing three key modules: an encoder, which is responsible for capturing and abstracting the features from the input image, a decoder, which focuses on salient features, and the Edge-Guided Attention module (EGA) that employs the Laplacian Operator to accentuate polyp boundaries. Extensive experiments, both qualitative and quantitative, on five benchmark datasets, demonstrate that our MEGANet outperforms other existing SOTA methods under six evaluation metrics. Our code is available at https://github.com/UARK-AICV/MEGANet.
翻訳日:2023-11-07 21:00:45 公開日:2023-11-05
# GInX-Eval: グラフニューラルネットワーク説明の分布内評価に向けて

GInX-Eval: Towards In-Distribution Evaluation of Graph Neural Network Explanations ( http://arxiv.org/abs/2309.16223v2 )

ライセンス: Link先を確認
Kenza Amara and Mennatallah El-Assady and Rex Ying(参考訳) グラフニューラルネットワーク(gnn)の多様な説明可能性手法が最近開発され、モデルの予測に最も寄与するグラフのエッジとノードを強調している。 しかし、それが人間かモデルかに関わらず、これらの説明の正確性を評価する方法はまだ明確ではない。 現在の評価手順における非対応ボトルネックの1つは、分布がトレーニングデータと異なる分散説明の問題である。 この重要な問題は、人気のある忠実度や忠実度スコアなど、既存の評価指標に影響する。 本稿では,忠実度指標の限界について述べる。 GInX-Eval (Graph In-Distribution eXplanation Evaluation) は,忠実性の落とし穴を克服し,説明可能性に関する新たな知見を提供するグラフ説明の評価手法である。 微調整戦略を用いて、ginxスコアはモデルの有益なエッジ数を測定し、edgerankスコアはその重要度によって説明エッジが正しく順序付けされているかどうかを評価する。 GInX-Eval は、GNN モデルに接地真実の説明が指示されるかどうかを検証する。 さらに,グラデーションに基づく手法を含む多くの一般的な手法が,エッジのランダムな指定よりも優れた説明を重要な部分グラフとして生成し,現在の研究成果に異議を唱えることを示した。 GInX-Evalの結果は複数のデータセット間で一致しており、人間の評価と一致している。

Diverse explainability methods of graph neural networks (GNN) have recently been developed to highlight the edges and nodes in the graph that contribute the most to the model predictions. However, it is not clear yet how to evaluate the correctness of those explanations, whether it is from a human or a model perspective. One unaddressed bottleneck in the current evaluation procedure is the problem of out-of-distribution explanations, whose distribution differs from those of the training data. This important issue affects existing evaluation metrics such as the popular faithfulness or fidelity score. In this paper, we show the limitations of faithfulness metrics. We propose GInX-Eval (Graph In-distribution eXplanation Evaluation), an evaluation procedure of graph explanations that overcomes the pitfalls of faithfulness and offers new insights on explainability methods. Using a fine-tuning strategy, the GInX score measures how informative removed edges are for the model and the EdgeRank score evaluates if explanatory edges are correctly ordered by their importance. GInX-Eval verifies if ground-truth explanations are instructive to the GNN model. In addition, it shows that many popular methods, including gradient-based methods, produce explanations that are not better than a random designation of edges as important subgraphs, challenging the findings of current works in the area. Results with GInX-Eval are consistent across multiple datasets and align with human evaluation.
翻訳日:2023-11-07 20:52:21 公開日:2023-11-05
# 敵対的機械学習における遠方特徴の計算的絡み合いについて

On the Computational Entanglement of Distant Features in Adversarial Machine Learning ( http://arxiv.org/abs/2309.15669v3 )

ライセンス: Link先を確認
YenLung Lai, Xingbo Dong, Zhe Jin(参考訳) 機械学習の敵対的な例は、一見不明瞭な入力摂動を伴うモデルを欺く顕著な能力から研究の焦点として現れており、深刻な結果をもたらす可能性がある。 本研究では,敵対的機械学習モデルを包括的に探索し,本質的な複雑性と解釈可能性に光を当てる。 本研究は,機械学習モデルの複雑性とアインシュタインの特殊相対性理論との関係を,絡み合いレンズを通して明らかにする。 我々の研究は、主に量子の絡み合いに焦点を絞っているわけではないが、代わりに、私たちが発見したエンタングルメント相関を計算として定義し、遠方の特徴サンプルが量子領域におけるエンタングルメント相関に強く似ていることを実証する。 この啓示は、現代の機械学習における創発的な敵の例の現象を理解するための新たな洞察を与え、この急速に進化する分野でより堅牢で解釈可能なモデルへの道を開く可能性がある。

Adversarial examples in machine learning has emerged as a focal point of research due to their remarkable ability to deceive models with seemingly inconspicuous input perturbations, potentially resulting in severe consequences. In this study, we embark on a comprehensive exploration of adversarial machine learning models, shedding light on their intrinsic complexity and interpretability. Our investigation reveals intriguing links between machine learning model complexity and Einstein's theory of special relativity, all through the lens of entanglement. While our work does not primarily center on quantum entanglement, we instead define the entanglement correlations we have discovered to be computational, and demonstrate that distant feature samples can be entangled, strongly resembling entanglement correlation in the quantum realm. This revelation bestows fresh insights for understanding the phenomenon of emergent adversarial examples in modern machine learning, potentially paving the way for more robust and interpretable models in this rapidly evolving field.
翻訳日:2023-11-07 20:51:12 公開日:2023-11-05
# 空間周波数チャネル, 形状バイアス, 対向ロバスト性

Spatial-frequency channels, shape bias, and adversarial robustness ( http://arxiv.org/abs/2309.13190v2 )

ライセンス: Link先を確認
Ajay Subramanian, Elena Sizikova, Najib J. Majaj, Denis G. Pelli(参考訳) 人間とニューラルネットワークは物体を認識するのにどんな空間周波数情報を使うのか? 神経科学において、クリティカルバンドマスキングは、物体認識に使用される周波数選択フィルタを明らかにする確立されたツールである。 臨界帯域マスキングは、空間周波数毎に付加される雑音に対する認識性能の感度を測定する。 既存の臨界帯域マスキング研究では、人間が1オクターブの周波数帯域を持つ空間周波数フィルタ(または「チャネル」)によって周期パターン(格子)と文字を認識することが示されている。 本稿では,ネットワーク・ヒューマン比較のための課題として臨界帯域マスキングを導入し,狭帯域雑音下での16方向イメージネット分類において,14人と76人のニューラルネットワークをテストした。 人間は文字やグレーティングに使用する1オクターブ幅のチャネルを使って自然画像中の物体を認識することがわかり、人間の物体認識の標準的特徴となっている。 ヒトと異なり、ニューラルネットワークチャネルは非常に広く、ヒトチャネルの2-4倍幅がある。 したがって、特定の高周波数と低周波数のノイズはネットワーク性能を損なうし、人間のパフォーマンスを損なう。 adversarial と augmented-image トレーニングは、ネットワークの堅牢性と形状バイアスを高めるために一般的に使用される。 このトレーニングは、ネットワークと人間のオブジェクト認識チャネルを調整するか? 3つのネットワークチャネル特性 (帯域幅, 中心周波数, ピークノイズ感度) は, 形状バイアス (51%分散説明) と逆トレーニングネットワークの堅牢性(66%分散説明) と強く相関する。 対人訓練は堅牢性を高めるが、チャネル帯域幅は人間の帯域幅を超えて拡大する。 したがって、クリティカルバンドマスキングは、ネットワークチャネルが人間のチャネルの2倍以上の幅であり、敵のトレーニングが悪くなるだけであることを示す。 チャネルが狭いネットワークの方が堅牢かもしれない。

What spatial frequency information do humans and neural networks use to recognize objects? In neuroscience, critical band masking is an established tool that can reveal the frequency-selective filters used for object recognition. Critical band masking measures the sensitivity of recognition performance to noise added at each spatial frequency. Existing critical band masking studies show that humans recognize periodic patterns (gratings) and letters by means of a spatial-frequency filter (or "channel") that has a frequency bandwidth of one octave (doubling of frequency). Here, we introduce critical band masking as a task for network-human comparison and test 14 humans and 76 neural networks on 16-way ImageNet categorization in the presence of narrowband noise. We find that humans recognize objects in natural images using the same one-octave-wide channel that they use for letters and gratings, making it a canonical feature of human object recognition. Unlike humans, the neural network channel is very broad, 2-4 times wider than the human channel. Thus, noise at certain high and low frequencies will impair network performance and spare human performance. Adversarial and augmented-image training are commonly used to increase network robustness and shape bias. Does this training align network and human object recognition channels? Three network channel properties (bandwidth, center frequency, peak noise sensitivity) correlate strongly with shape bias (51% variance explained) and robustness of adversarially-trained networks (66% variance explained). Adversarial training increases robustness but expands the channel bandwidth even further beyond the human bandwidth. Thus, critical band masking reveals that the network channel is more than twice as wide as the human channel, and that adversarial training only makes it worse. Networks with narrower channels might be more robust.
翻訳日:2023-11-07 20:49:22 公開日:2023-11-05
# R2GenGPT:凍結LDMを用いた放射線診断レポート

R2GenGPT: Radiology Report Generation with Frozen LLMs ( http://arxiv.org/abs/2309.09812v2 )

ライセンス: Link先を確認
Zhanyu Wang, Lingqiao Liu, Lei Wang and Luping Zhou(参考訳) 大きな言語モデル(LLM)は、様々な言語タスクに適用する際、目覚ましい一般化機能を示し続けている。 それでも、LLMs for Radiology Report Generation (R2Gen) の潜在能力を最大限に活用することは、LLMsとR2Genタスクの相違に起因する課題である。 このギャップを効果的に埋めるために,効率的な視覚アライメントモジュールを用いて視覚特徴とLLMの単語埋め込み空間を整合させる新しいソリューションR2GenGPTを提案する。 この革新的なアプローチにより、以前の静的LLMは画像情報をシームレスに統合し、処理することができ、R2Genのパフォーマンスを最適化する一歩を踏み出した。 R2GenGPTは以下の利点を提供する。 まず、軽量な視覚アライメントモジュールのみをトレーニングし、LCMの全パラメータを凍結することで、最先端(SOTA)のパフォーマンスを実現する。 第二に、非常に最小限のパラメータのトレーニングが必要であり、迅速な収束を実現するため、高いトレーニング効率を示す。 デルタチューニングを用いることで、我々のモデルは、SOTAレベルに近い性能を達成するために、5Mパラメータ(総パラメータ数の0.07倍)のみを訓練する。 私たちのコードはhttps://github.com/wang-zhanyu/r2gengptで利用可能です。

Large Language Models (LLMs) have consistently showcased remarkable generalization capabilities when applied to various language tasks. Nonetheless, harnessing the full potential of LLMs for Radiology Report Generation (R2Gen) still presents a challenge, stemming from the inherent disparity in modality between LLMs and the R2Gen task. To bridge this gap effectively, we propose R2GenGPT, which is a novel solution that aligns visual features with the word embedding space of LLMs using an efficient visual alignment module. This innovative approach empowers the previously static LLM to seamlessly integrate and process image information, marking a step forward in optimizing R2Gen performance. R2GenGPT offers the following benefits. First, it attains state-of-the-art (SOTA) performance by training only the lightweight visual alignment module while freezing all the parameters of LLM. Second, it exhibits high training efficiency, as it requires the training of an exceptionally minimal number of parameters while achieving rapid convergence. By employing delta tuning, our model only trains 5M parameters (which constitute just 0.07\% of the total parameter count) to achieve performance close to the SOTA levels. Our code is available at https://github.com/wang-zhanyu/R2GenGPT.
翻訳日:2023-11-07 20:47:48 公開日:2023-11-05
# DeepZero: 深層モデルトレーニングにおけるゼロ階最適化のスケールアップ

DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training ( http://arxiv.org/abs/2310.02025v2 )

ライセンス: Link先を確認
Aochuan Chen, Yimeng Zhang, Jinghan Jia, James Diffenderfer, Jiancheng Liu, Konstantinos Parasyris, Yihua Zhang, Zheng Zhang, Bhavya Kailkhura, Sijia Liu(参考訳) zeroth-order(zo)最適化は、一階(fo)情報が取得困難あるいは不可能である場合、機械学習(ml)問題を解決する一般的なテクニックとなっている。 しかし、ZO最適化のスケーラビリティは未解決の問題であり、主にサンプルワイドの敵攻撃生成のような比較的小規模なML問題に限られている。 我々の知る限り、ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性は、性能を著しく低下させることなく実証されていない。 この障害を克服するために,ZO最適化をDNNトレーニングにスクラッチから3つの主要なイノベーションまで拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。 まず, 学習精度と計算効率において, ランダム化ベクトル偏差推定に対する座標次勾配推定(CGE)の利点を示す。 第2に, CGE 以前のスパースDL を探索・活用するために, 有限差分のみを用いてモデルプルーニング手法を拡張したスポーシティ誘導型ZOトレーニングプロトコルを提案する。 第3に,ZO訓練の実践的実装を進めるために,機能再利用法と前方並列化法を開発した。 CIFAR-10でトレーニングしたResNet-20では,DeepZeroがSOTA(State-of-the-art)の精度を実現し,FOトレーニング性能に初めて接近した。 さらに,認証された対角防御とDLに基づく偏微分方程式誤差補正の適用においてDeepZeroの実用性を示し,SOTAよりも10~20%向上した。 我々は,拡張性のあるZO最適化に関する今後の研究を刺激し,ブラックボックスによるDLの進展に寄与すると考えている。

Zeroth-order (ZO) optimization has become a popular technique for solving machine learning (ML) problems when first-order (FO) information is difficult or impossible to obtain. However, the scalability of ZO optimization remains an open problem: Its use has primarily been limited to relatively small-scale ML problems, such as sample-wise adversarial attack generation. To our best knowledge, no prior work has demonstrated the effectiveness of ZO optimization in training deep neural networks (DNNs) without a significant decrease in performance. To overcome this roadblock, we develop DeepZero, a principled ZO deep learning (DL) framework that can scale ZO optimization to DNN training from scratch through three primary innovations. First, we demonstrate the advantages of coordinate-wise gradient estimation (CGE) over randomized vector-wise gradient estimation in training accuracy and computational efficiency. Second, we propose a sparsity-induced ZO training protocol that extends the model pruning methodology using only finite differences to explore and exploit the sparse DL prior in CGE. Third, we develop the methods of feature reuse and forward parallelization to advance the practical implementations of ZO training. Our extensive experiments show that DeepZero achieves state-of-the-art (SOTA) accuracy on ResNet-20 trained on CIFAR-10, approaching FO training performance for the first time. Furthermore, we show the practical utility of DeepZero in applications of certified adversarial defense and DL-based partial differential equation error correction, achieving 10-20% improvement over SOTA. We believe our results will inspire future research on scalable ZO optimization and contribute to advancing DL with black box.
翻訳日:2023-11-07 20:38:56 公開日:2023-11-05
# stamp:stein変分勾配降下による微分可能タスクと動作計画

STAMP: Differentiable Task and Motion Planning via Stein Variational Gradient Descent ( http://arxiv.org/abs/2310.01775v2 )

ライセンス: Link先を確認
Yewon Lee (1), Philip Huang (2), Krishna Murthy Jatavallabhula (3), Andrew Z. Li (1), Fabian Damken (1 and 4), Eric Heiden (5), Kevin Smith (3), Derek Nowrouzezahrai (6), Fabio Ramos (5 and 7), Florian Shkurti (1) ((1) University of Toronto, (2) Carnegie Mellon University, (3) Massachusetts Institute of Technology, (4) Technische Universitat Darmstadt, (5) NVIDIA, (6) McGill University, (7) University of Sydney)(参考訳) ツールの使用や部品の組み立てなど、多くの操作タスクの計画には、しばしば象徴的および幾何学的推論が必要である。 タスク・アンド・モーション・プランニング (tamp) アルゴリズムは通常、高レベルなタスクシーケンス上で木探索を行い、キネマティックかつダイナミックな実行可能性をチェックすることでこれらの問題を解決する。 ツリーの幅は、可能なアクションやオブジェクトの数で指数関数的に増加するので、これは非効率である。 本稿では,連続領域における離散・連続的タンプ問題を推論問題に緩和する新しいアプローチを提案する。 提案手法であるstein task and motion planning (stamp) は,並列微分可能な物理シミュレータから勾配を得ることにより,stein変分勾配と呼ばれる勾配に基づく変分推定アルゴリズムを用いてこの問題を解く。 離散変数に緩和を導入し、並列化を活用し、ベイジアン推論問題としてTAMPにアプローチすることにより、1つの最適化ランで複数の多様なプランを効率的に見つけることができる。 2つのTAMP問題に対して本手法を実証し,既存のTAMPベースラインと比較した。

Planning for many manipulation tasks, such as using tools or assembling parts, often requires both symbolic and geometric reasoning. Task and Motion Planning (TAMP) algorithms typically solve these problems by conducting a tree search over high-level task sequences while checking for kinematic and dynamic feasibility. This can be inefficient as the width of the tree can grow exponentially with the number of possible actions and objects. In this paper, we propose a novel approach to TAMP that relaxes discrete-and-continuous TAMP problems into inference problems on a continuous domain. Our method, Stein Task and Motion Planning (STAMP) subsequently solves this new problem using a gradient-based variational inference algorithm called Stein Variational Gradient Descent, by obtaining gradients from a parallelized differentiable physics simulator. By introducing relaxations to the discrete variables, leveraging parallelization, and approaching TAMP as an Bayesian inference problem, our method is able to efficiently find multiple diverse plans in a single optimization run. We demonstrate our method on two TAMP problems and benchmark them against existing TAMP baselines.
翻訳日:2023-11-07 20:37:49 公開日:2023-11-05
# RA-DIT:検索拡張デュアルインストラクションチューニング

RA-DIT: Retrieval-Augmented Dual Instruction Tuning ( http://arxiv.org/abs/2310.01352v3 )

ライセンス: Link先を確認
Xi Victoria Lin, Xilun Chen, Mingda Chen, Weijia Shi, Maria Lomeli, Rich James, Pedro Rodriguez, Jacob Kahn, Gergely Szilvasy, Mike Lewis, Luke Zettlemoyer, Scott Yih(参考訳) Retrieval-augmented Language Model (RALMs)は、外部データストアから長いテールと最新の知識にアクセスすることでパフォーマンスを向上させるが、構築は困難である。 既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。 本稿では,LLMに検索機能を持たせることで第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning(RA-DIT)を紹介する。 提案手法は,(1)事前学習したLMを更新して,検索した情報をよりよく活用する方法,(2)検索者がより関連性の高い結果を返す方法,の2つのステップで動作する。 知識利用と文脈認識の両方を必要とするタスクを微調整することで、各ステージが大きなパフォーマンス向上をもたらし、両方を使用することでさらなる利益をもたらすことを示す。 我々の最良のモデルであるRA-DIT 65Bは、知識集約型のゼロショットと少数ショットの学習ベンチマークで最先端のパフォーマンスを達成し、0ショット設定では最大8.9%、平均5ショット設定では+1.4%という、既存のコンテキスト内RALMアプローチを著しく上回っている。

Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.
翻訳日:2023-11-07 20:37:10 公開日:2023-11-05
# VMD-GARCH-LSTMモデルを用いた時系列予測の非線形手法

A Nonlinear Method for time series forecasting using VMD-GARCH-LSTM model ( http://arxiv.org/abs/2310.08812v2 )

ライセンス: Link先を確認
Zhengtao Gui, Haoyuan Li, Sijie Xu, Yu Chen(参考訳) 時系列予測は様々な分野において重要かつ困難なタスクである。 近年,局所的な特徴を捉え,データから固有モードを抽出するという利点から,モード分解に基づく手法が複雑な時系列予測を優位に立たしている。 残念なことに、ほとんどのモデルは重要な情報を含む暗黙のボラティリティを捉えていない。 そこで我々は,現在,急速に進化し,揮発する時系列の予測性を高めるために,新しい分解・感覚パラダイムであるvmd-lstm-garchモデルを提案する。 変動モード分解アルゴリズムを用いて時系列をKサブモードに分解する。 その後、GARCHモデルはこれらのサブモードからボラティリティ情報を抽出し、LSTMの入力として機能する。 各サブモードの数値およびボラティリティ情報は、Long Short-Term Memory Networkのトレーニングに使用される。 このネットワークはサブモードを予測し、すべてのサブモードから予測を集約して出力を生成します。 econometric and artificial intelligence (econometric and artificial intelligence) 法を統合し, 時系列の数値的および変動性情報の両方を考慮して, 実験結果におけるmse, rmse, mapeの有意な減少が示すように, 時系列予測における優れた性能を示す。

Time series forecasting represents a significant and challenging task across various fields. Recently, methods based on mode decomposition have dominated the forecasting of complex time series because of the advantages of capturing local characteristics and extracting intrinsic modes from data. Unfortunately, most models fail to capture the implied volatilities that contain significant information. To enhance the forecasting of current, rapidly evolving, and volatile time series, we propose a novel decomposition-ensemble paradigm, the VMD-LSTM-GARCH model. The Variational Mode Decomposition algorithm is employed to decompose the time series into K sub-modes. Subsequently, the GARCH model extracts the volatility information from these sub-modes, which serve as the input for the LSTM. The numerical and volatility information of each sub-mode is utilized to train a Long Short-Term Memory network. This network predicts the sub-mode, and then we aggregate the predictions from all sub-modes to produce the output. By integrating econometric and artificial intelligence methods, and taking into account both the numerical and volatility information of the time series, our proposed model demonstrates superior performance in time series forecasting, as evidenced by the significant decrease in MSE, RMSE, and MAPE in our comparative experimental results.
翻訳日:2023-11-07 20:27:12 公開日:2023-11-05
# 壊れたネットに魚をタグ付けする: オンラインのプライバシーと著作権を保護する責任あるウェブフレームワーク

Tag Your Fish in the Broken Net: A Responsible Web Framework for Protecting Online Privacy and Copyright ( http://arxiv.org/abs/2310.07915v2 )

ライセンス: Link先を確認
Dawen Zhang, Boming Xia, Yue Liu, Xiwei Xu, Thong Hoang, Zhenchang Xing, Mark Staples, Qinghua Lu, Liming Zhu(参考訳) ユビキタスな情報ソースであるWorld Wide Webは、無数の個人にとって主要なリソースであり、世界中のインターネットユーザーから大量のデータを収集している。 しかし、このオンラインデータは、ウェブクローリング、検索エンジンインデックス、特にAIモデルトレーニングなどのアクティビティにスクラップされ、インデックス付けされ、利用され、しばしば、コントリビュータの本来の意図から逸脱する。 Generative AIの台頭は、データのプライバシーと著作権侵害に関する懸念を浮き彫りにした。 ウェブの現在のフレームワークは、同意の撤回やデータ著作権請求といった重要な行動を促進するには不十分です。 クローラーアクセス制限のような自発的な手段を提供している企業もあるが、個々のユーザーにはアクセスできないことが多い。 オンライン利用者に権利行使の権限を与え、企業が規制に従えるようにするために、オンラインデータに対するユーザ制御の同意タグ付けフレームワークを導入する。 HTTPとHTMLの拡張性と分散台帳技術の分散化された性質を活用する。 このフレームワークでは、ユーザーは送信時にオンラインデータをタグ付けすることができ、その後、データホルダーからデータに対する同意の取り下げを追跡し、要求することができる。 概念実証システムを実装し、フレームワークの実現可能性を示す。 この研究は、現代のインターネットにおけるユーザの同意、プライバシー、著作権の強化に寄与する大きな可能性を秘めており、より責任があり、ユーザー中心のwebエコシステムを構築するための将来の洞察の土台を築いている。

The World Wide Web, a ubiquitous source of information, serves as a primary resource for countless individuals, amassing a vast amount of data from global internet users. However, this online data, when scraped, indexed, and utilized for activities like web crawling, search engine indexing, and, notably, AI model training, often diverges from the original intent of its contributors. The ascent of Generative AI has accentuated concerns surrounding data privacy and copyright infringement. Regrettably, the web's current framework falls short in facilitating pivotal actions like consent withdrawal or data copyright claims. While some companies offer voluntary measures, such as crawler access restrictions, these often remain inaccessible to individual users. To empower online users to exercise their rights and enable companies to adhere to regulations, this paper introduces a user-controlled consent tagging framework for online data. It leverages the extensibility of HTTP and HTML in conjunction with the decentralized nature of distributed ledger technology. With this framework, users have the ability to tag their online data at the time of transmission, and subsequently, they can track and request the withdrawal of consent for their data from the data holders. A proof-of-concept system is implemented, demonstrating the feasibility of the framework. This work holds significant potential for contributing to the reinforcement of user consent, privacy, and copyright on the modern internet and lays the groundwork for future insights into creating a more responsible and user-centric web ecosystem.
翻訳日:2023-11-07 20:26:15 公開日:2023-11-05
# トークンは残っていない:dynamic token idlingによる効率的な視覚トランスフォーマー

No Token Left Behind: Efficient Vision Transformer via Dynamic Token Idling ( http://arxiv.org/abs/2310.05654v2 )

ライセンス: Link先を確認
Xuwei Xu, Changlin Li, Yudong Chen, Xiaojun Chang, Jiajun Liu, Sen Wang(参考訳) ビジョントランスフォーマー (vits) はコンピュータビジョンタスクにおいて優れた性能を示しているが、その高い計算複雑性はリソース制約のある環境への展開を妨げている。 画像トークンを動的に落としてvitsの計算負荷を軽減するために,様々なトークンプルーニング技術が導入された。 しかし、初期の望ましくないプルーニングによって、後続の層で画像情報が永久に失われ、結果としてモデルの性能が損なわれる可能性がある。 この問題に対処するために,性能と効率の優れたトレードオフを実現する動的トークンアイドルベースのIdleViTを提案する。 具体的には、各レイヤにおいて、IdleViTは画像トークンのサブセットを選択して、残りのトークンをアイドル状態にして、直接このレイヤの出力に渡す。 アイドルトークンを次の層で再選択可能にすることで、IdleViTは初期において不適切なプルーニングによる負の影響を緩和する。 さらに,正規化グラフカットに触発されて,アテンションマップのトークンカット損失を正規化として考案し,idlevitのトークン選択能力を向上させる。 提案手法は単純だが有効であり,トークンを完全に落とさないため,ピラミッド型ViTにも拡張可能である。 各種ViTアーキテクチャの大規模な実験結果から,30時間で微調整した後のImageNetにおいて,IdleViTは事前学習したViTの複雑さを最大33\%まで低減できることがわかった。 特に、保留比が0.5の場合、IdleViTはDeiT-S上の最先端のEViTよりも0.5倍高い精度で高速な推論速度で性能を向上する。 ソースコードは補足資料で入手できる。

Vision Transformers (ViTs) have demonstrated outstanding performance in computer vision tasks, yet their high computational complexity prevents their deployment in computing resource-constrained environments. Various token pruning techniques have been introduced to alleviate the high computational burden of ViTs by dynamically dropping image tokens. However, some undesirable pruning at early stages may result in permanent loss of image information in subsequent layers, consequently hindering model performance. To address this problem, we propose IdleViT, a dynamic token-idle-based method that achieves an excellent trade-off between performance and efficiency. Specifically, in each layer, IdleViT selects a subset of the image tokens to participate in computations while keeping the rest of the tokens idle and directly passing them to this layer's output. By allowing the idle tokens to be re-selected in the following layers, IdleViT mitigates the negative impact of improper pruning in the early stages. Furthermore, inspired by the normalized graph cut, we devise a token cut loss on the attention map as regularization to improve IdleViT's token selection ability. Our method is simple yet effective and can be extended to pyramid ViTs since no token is completely dropped. Extensive experimental results on various ViT architectures have shown that IdleViT can diminish the complexity of pretrained ViTs by up to 33\% with no more than 0.2\% accuracy decrease on ImageNet, after finetuning for only 30 epochs. Notably, when the keep ratio is 0.5, IdleViT outperforms the state-of-the-art EViT on DeiT-S by 0.5\% higher accuracy and even faster inference speed. The source code is available in the supplementary material.
翻訳日:2023-11-07 20:24:44 公開日:2023-11-05
# LLM4V: コンパイラ検証のためのLCM駆動テストスーツの開発

LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation ( http://arxiv.org/abs/2310.04963v2 )

ライセンス: Link先を確認
Christian Munley, Aaron Jarmusch and Sunita Chandrasekaran(参考訳) 大きな言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための新しく強力なツールであり、印象的なコード生成能力を示している。 本稿では,OpenAI GPT-4のようなオープンソースオプションやMeta AI Codellamaのようなオープンソースオプションなど,最先端のLLMのキャパビリティについて検討し,自動テストを生成して,これらのテストを使用してディレクティブベースのプログラミングパラダイムであるOpenACCのコンパイラ実装の検証と検証を行う。 提案手法では,コードテンプレートによる検索拡張生成(RAG),コードテンプレートによるRAGを用いた表現的プロンプト,ワンショット例によるRAG,ワンショット例によるRAGなど,さまざまなプロンプトエンジニアリング手法を探索する。 本論文は焦点をあてる (a)コード生成のための最新のLLMの機能を探る。 (b)プロンプト法及び微調整法の調査、及び c) llms生成試験の結果を分析する

Large language models (LLMs) are a new and powerful tool for a wide span of applications involving natural language and demonstrate impressive code generation abilities. In this paper, we explore the capabilitity of state-of-the-art LLMs, including closed-source options like OpenAI GPT-4 and open-source alternatives like Meta AI Codellama, to automatically generate tests and use these tests to validate and verify compiler implementations of a directive-based programming paradigm, OpenACC. Our approach entails exploring various prompt engineering techniques including a code template, retrieval-augmented generation (RAG) with code template, expressive prompt using RAG with code template, one-shot example, and RAG with one-shot example. This paper focuses on (a) exploring the capabilities of the latest LLMs for code generation, (b) investigating prompt and fine tuning methods, and (c) analyzing the outcome of LLMs generated tests
翻訳日:2023-11-07 20:23:51 公開日:2023-11-05
# Android Phoneとタブレット間のペアワイズGUIデータセット構築

Pairwise GUI Dataset Construction Between Android Phones and Tablets ( http://arxiv.org/abs/2310.04755v3 )

ライセンス: Link先を確認
Han Hu, Haolan Zhan, Yujin Huang, Di Liu(参考訳) 現在の普及型スマートフォンやタブレットでは、アプリは両プラットフォームにまたがって頻繁に存在する。 アプリは、ほとんどのグラフィックユーザーインターフェース(GUI)と、携帯電話やタブレットで機能を共有しているが、開発者はタブレットバージョンのためにスクラッチから再構築し、コストを増大させ、既存のデザインリソースを浪費することが多い。 研究者はデータを収集し、開発者の生産性を高めるために、自動gui開発にディープラーニングを採用しようとしている。 現在、携帯電話向けに公開されているGUIページデータセットはいくつかあるが、携帯電話とタブレット間のGUIのペアは存在しない。 これは、GUI自動開発におけるディープラーニングの活用に大きな障壁となる。 本稿では,Android端末とタブレット向けに開発されたペアワイズGUIデータセットであるPaptデータセットを紹介し,5,593個のユニークなアプリペアをソースとする10,035個の電話テーブルGUIページペアを包含する。 本稿では、このデータセットを構築するための新しいペアワイズGUIコレクション手法を提案し、その利点をこの分野で現在普及しているデータセットよりも明確にする。 本データセットの予備実験を通じて,GUI自動開発におけるディープラーニング活用の課題を分析した。

In the current landscape of pervasive smartphones and tablets, apps frequently exist across both platforms. Although apps share most graphic user interfaces (GUIs) and functionalities across phones and tablets, developers often rebuild from scratch for tablet versions, escalating costs and squandering existing design resources. Researchers are attempting to collect data and employ deep learning in automated GUIs development to enhance developers' productivity. There are currently several publicly accessible GUI page datasets for phones, but none for pairwise GUIs between phones and tablets. This poses a significant barrier to the employment of deep learning in automated GUI development. In this paper, we introduce the Papt dataset, a pioneering pairwise GUI dataset tailored for Android phones and tablets, encompassing 10,035 phone-tablet GUI page pairs sourced from 5,593 unique app pairs. We propose novel pairwise GUI collection approaches for constructing this dataset and delineate its advantages over currently prevailing datasets in the field. Through preliminary experiments on this dataset, we analyze the present challenges of utilizing deep learning in automated GUI development.
翻訳日:2023-11-07 20:23:34 公開日:2023-11-05
# トークン除去による検索型読み出しモデルの最適化

Optimizing Retrieval-augmented Reader Models via Token Elimination ( http://arxiv.org/abs/2310.13682v2 )

ライセンス: Link先を確認
Moshe Berchansky, Peter Izsak, Avi Caciularu, Ido Dagan, Moshe Wasserblat(参考訳) Fusion-in-Decoder (FiD) は、質問応答や事実チェックなど、様々なオープンドメインタスクに適用される効果的な検索強化言語モデルである。 FiDでは、サポートパスが最初に検索され、生成モデル(Reader)を使用して処理される。 本研究では,検索した全てのパスが読者モデルの性能に寄与するかどうかを解析し,トークンレベルでは,回答生成プロセスに不可欠な情報を提供しないような,検索した情報のいくつかを除去することを提案する。 提案手法では,実行時間を最大62.2%削減できるが,性能は2%程度に抑えられ,場合によっては性能が向上する場合もある。

Fusion-in-Decoder (FiD) is an effective retrieval-augmented language model applied across a variety of open-domain tasks, such as question answering, fact checking, etc. In FiD, supporting passages are first retrieved and then processed using a generative model (Reader), which can cause a significant bottleneck in decoding time, particularly with long outputs. In this work, we analyze the contribution and necessity of all the retrieved passages to the performance of reader models, and propose eliminating some of the retrieved information, at the token level, that might not contribute essential information to the answer generation process. We demonstrate that our method can reduce run-time by up to 62.2%, with only a 2% reduction in performance, and in some cases, even improve the performance results.
翻訳日:2023-11-07 20:15:12 公開日:2023-11-05
# VQ-NeRF:ベクトル量子化によるニューラルリフレクタンス分解と編集

VQ-NeRF: Neural Reflectance Decomposition and Editing with Vector Quantization ( http://arxiv.org/abs/2310.11864v2 )

ライセンス: Link先を確認
Hongliang Zhong, Jingbo Zhang, Jing Liao(参考訳) 本研究では,ベクトル量子化(vector quantization, vq)を組み込んだ2分岐ニューラルネットワークモデルであるvq-nerfを提案する。 従来のニューラル・リフレクタンス・フィールドは、3Dシーンをモデル化するためにのみ連続表現を使用する。 この離散化の欠如は、ノイズのある材料分解と複雑な材料編集をもたらす。 これらの制限に対処するため、我々のモデルは連続枝と離散枝からなる。 連続枝は従来のパイプラインに従って分解物を予測し、離散枝はVQ機構を用いて連続物質を個別に定量化する。 材料を離散化することにより,分解過程におけるノイズを低減し,離散材料のセグメンテーションマップを生成する。 セグメンテーション結果の対応する領域をクリックして、さらに編集するための特定材料を容易に選択することができる。 さらに,シーン内の材料数を予測するために,ドロップアウトに基づくVQコードワードランキング手法を提案する。 ユーザビリティを向上させるために,素材編集を支援するインタラクティブインタフェースも開発している。 我々は,コンピュータ生成シーンと実世界のシーンの両方でモデルを評価し,その優れた性能を示す。 我々の知る限り、我々のモデルは3Dシーンで個別の素材編集を可能にする最初のモデルである。

We propose VQ-NeRF, a two-branch neural network model that incorporates Vector Quantization (VQ) to decompose and edit reflectance fields in 3D scenes. Conventional neural reflectance fields use only continuous representations to model 3D scenes, despite the fact that objects are typically composed of discrete materials in reality. This lack of discretization can result in noisy material decomposition and complicated material editing. To address these limitations, our model consists of a continuous branch and a discrete branch. The continuous branch follows the conventional pipeline to predict decomposed materials, while the discrete branch uses the VQ mechanism to quantize continuous materials into individual ones. By discretizing the materials, our model can reduce noise in the decomposition process and generate a segmentation map of discrete materials. Specific materials can be easily selected for further editing by clicking on the corresponding area of the segmentation outcomes. Additionally, we propose a dropout-based VQ codeword ranking strategy to predict the number of materials in a scene, which reduces redundancy in the material segmentation process. To improve usability, we also develop an interactive interface to further assist material editing. We evaluate our model on both computer-generated and real-world scenes, demonstrating its superior performance. To the best of our knowledge, our model is the first to enable discrete material editing in 3D scenes.
翻訳日:2023-11-07 20:13:49 公開日:2023-11-05
# 混合連続類型変数に対する非パラメトリック条件独立性テスト:新しい手法と数値評価

Non-parametric Conditional Independence Testing for Mixed Continuous-Categorical Variables: A Novel Method and Numerical Evaluation ( http://arxiv.org/abs/2310.11132v2 )

ライセンス: Link先を確認
Oana-Iuliana Popescu, Andreas Gerhardus, Jakob Runge(参考訳) 条件独立テスト(CIT)は、例えば変数選択のための機械学習において一般的なタスクであり、制約ベースの因果探索の主要なコンポーネントである。 現在のほとんどのCITアプローチでは、全ての変数は数値的であるか、あるいは全ての変数は分類型であると仮定しているが、現実の多くのアプリケーションは数値と分類型を含む混合型データセットを含んでいる。 非パラメトリックCITは、条件付き相互情報(CMI)推定器と局所的な置換スキームを組み合わせて行うことができる。 近年,k-nearest-neighbors(k-NN)に基づく混合型データセットに対する2つの新しいCMI推定器が提案されている。 任意のk-NN法と同様に、これらの推定子は距離計量の定義に依存する。 あるアプローチはカテゴリ変数の1ホット符号化によって距離を計算し、本質的にはカテゴリ変数を離散数値として扱い、もう一方はカテゴリ変数が条件のみとして現れるエントロピー項でCMIを表現する。 本研究では,これらの推定器について検討し,分類変数を数値として扱わない前者のアプローチのバリエーションを提案する。 数値実験により,異なるデータ分布と前処理型にまたがる依存性をより頑健に検出できることを示した。

Conditional independence testing (CIT) is a common task in machine learning, e.g., for variable selection, and a main component of constraint-based causal discovery. While most current CIT approaches assume that all variables are numerical or all variables are categorical, many real-world applications involve mixed-type datasets that include numerical and categorical variables. Non-parametric CIT can be conducted using conditional mutual information (CMI) estimators combined with a local permutation scheme. Recently, two novel CMI estimators for mixed-type datasets based on k-nearest-neighbors (k-NN) have been proposed. As with any k-NN method, these estimators rely on the definition of a distance metric. One approach computes distances by a one-hot encoding of the categorical variables, essentially treating categorical variables as discrete-numerical, while the other expresses CMI by entropy terms where the categorical variables appear as conditions only. In this work, we study these estimators and propose a variation of the former approach that does not treat categorical variables as numeric. Our numerical experiments show that our variant detects dependencies more robustly across different data distributions and preprocessing types.
翻訳日:2023-11-07 20:13:10 公開日:2023-11-05
# AMAGO: 適応エージェントのためのスケーラブルなインコンテキスト強化学習

AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents ( http://arxiv.org/abs/2310.09971v2 )

ライセンス: Link先を確認
Jake Grigsby, Linxi Fan, Yuke Zhu(参考訳) 汎用化,長期記憶,メタラーニングといった課題に取り組むために,シーケンスモデルを用いたインコンテキスト強化学習(rl)エージェントであるamagoを紹介する。 近年の研究では、非政治的な学習によって、反復的なポリシーでコンテキスト内RLが実現可能であることが示されている。 それでもこれらのアプローチは、エージェントのメモリ容量、計画的地平線、モデルサイズに重要なボトルネックを生じさせることによって、広範なチューニングとスケーラビリティの制限を必要とする。 AMAGOは、エンド・ツー・エンドのRLと並行して、ロングシーケンス・トランスフォーマーをロールアウト全体にわたってトレーニングする、オフ・ポリシー・イン・コンテクストのアプローチを再検討し、再設計する。 私たちのエージェントはユニークにスケーラブルで、幅広い問題に適用できます。 メタRLと長期記憶領域において,その性能を実証的に示す。 AMAGOはスパース報酬や政治外のデータに重点を置いているため、コンテキスト内学習は探索に挑戦しながらゴール条件付き問題にまで拡張することができる。 アマゴは、新しい後見リラベリングスキームと組み合わせることで、従来困難だったオープンワールドドメインのカテゴリを解決し、エージェントは手続き的に生成された環境で多くの可能な命令を完了できる。 我々は,3つの目標条件ドメインについてエージェントを評価し,その個々の改善がいかにコネクトしてジェネラリスト政策を創りだすかを検討する。

We introduce AMAGO, an in-context Reinforcement Learning (RL) agent that uses sequence models to tackle the challenges of generalization, long-term memory, and meta-learning. Recent works have shown that off-policy learning can make in-context RL with recurrent policies viable. Nonetheless, these approaches require extensive tuning and limit scalability by creating key bottlenecks in agents' memory capacity, planning horizon, and model size. AMAGO revisits and redesigns the off-policy in-context approach to successfully train long-sequence Transformers over entire rollouts in parallel with end-to-end RL. Our agent is uniquely scalable and applicable to a wide range of problems. We demonstrate its strong performance empirically in meta-RL and long-term memory domains. AMAGO's focus on sparse rewards and off-policy data also allows in-context learning to extend to goal-conditioned problems with challenging exploration. When combined with a novel hindsight relabeling scheme, AMAGO can solve a previously difficult category of open-world domains, where agents complete many possible instructions in procedurally generated environments. We evaluate our agent on three goal-conditioned domains and study how its individual improvements connect to create a generalist policy.
翻訳日:2023-11-07 20:11:08 公開日:2023-11-05
# バイアスノード分類における因果性と独立性向上

Causality and Independence Enhancement for Biased Node Classification ( http://arxiv.org/abs/2310.09586v2 )

ライセンス: Link先を確認
Guoxin Chen, Yongqing Wang, Fangda Guo, Qinglang Guo, Jiangli Shao, Huawei Shen and Xueqi Cheng(参考訳) グラフ上のノード分類のアウト・オブ・ディストリビューション(ood)一般化に対処する既存の手法のほとんどは、主にラベル選択バイアスや構造バイアスといった特定の種類のデータバイアスに焦点を当てている。 しかし、事前にバイアスの種類を予測することは極めて困難であり、特定の型のみを対象としたモデルの設計は必ずしも全体的な一般化性能を改善するとは限らない。 さらに、限定的な研究は、現実世界のシナリオでより普及し要求される混合バイアスの影響に焦点を当てている。 これらの制約に対処するために,様々なグラフニューラルネットワーク(GNN)に適用可能な,Causality and Independence Enhancement(CIE)フレームワークを提案する。 提案手法は,ノード表現レベルにおける因果的特徴とスプリアス的特徴を推定し,バックドア調整によるスプリアス相関の影響を緩和する。 一方、複雑なバイアス環境下での因果的特徴と刺激的特徴の識別性と安定性を改善するために独立制約が導入されている。 本質的にcieは、バイアスごとに別々のメソッドを設計する必要なしに、統一的な観点から異なる種類のデータバイアスを取り除きます。 特定の種類のデータバイアス、混合バイアス、低リソースシナリオでの性能を評価するため、5つの公開データセットで包括的な実験を行った。 実験の結果,提案手法はGNNの性能を著しく向上させるだけでなく,最先端のデバイアスノード分類法よりも優れていた。

Most existing methods that address out-of-distribution (OOD) generalization for node classification on graphs primarily focus on a specific type of data biases, such as label selection bias or structural bias. However, anticipating the type of bias in advance is extremely challenging, and designing models solely for one specific type may not necessarily improve overall generalization performance. Moreover, limited research has focused on the impact of mixed biases, which are more prevalent and demanding in real-world scenarios. To address these limitations, we propose a novel Causality and Independence Enhancement (CIE) framework, applicable to various graph neural networks (GNNs). Our approach estimates causal and spurious features at the node representation level and mitigates the influence of spurious correlations through the backdoor adjustment. Meanwhile, independence constraint is introduced to improve the discriminability and stability of causal and spurious features in complex biased environments. Essentially, CIE eliminates different types of data biases from a unified perspective, without the need to design separate methods for each bias as before. To evaluate the performance under specific types of data biases, mixed biases, and low-resource scenarios, we conducted comprehensive experiments on five publicly available datasets. Experimental results demonstrate that our approach CIE not only significantly enhances the performance of GNNs but outperforms state-of-the-art debiased node classification methods.
翻訳日:2023-11-07 20:10:24 公開日:2023-11-05
# TRAMS:長距離言語モデリングのためのトレーニング不要メモリ選択

TRAMS: Training-free Memory Selection for Long-range Language Modeling ( http://arxiv.org/abs/2310.15494v2 )

ライセンス: Link先を確認
Haofei Yu, Cunxiang Wang, Yue Zhang, Wei Bi(参考訳) トランスフォーマーアーキテクチャは多くのaiモデルにとって不可欠であるが、長距離言語モデリングの課題に直面している。 いくつかの特定のトランスフォーマーアーキテクチャは、長距離依存の問題に対処するために設計されているが、Transformer-XLのような既存のメソッドは、高頻度で非効率なメモリに悩まされている。 本研究では、1つの単純なメトリクスに基づいて注意計算に参加するトークンを選択できる「トレーニングフリーメモリ選択(tram)」と呼ばれるプラグ・アンド・プレイ戦略を提案する。 この戦略により、現在のクエリに高い注意点を持つ可能性のあるトークンを保持し、他のトークンを無視します。 我々は、単語レベルのベンチマーク(wikitext-103)と文字レベルのベンチマーク(enwik8)で、このアプローチをテストしました。

The Transformer architecture is crucial for numerous AI models, but it still faces challenges in long-range language modeling. Though several specific transformer architectures have been designed to tackle issues of long-range dependencies, existing methods like Transformer-XL are plagued by a high percentage of ineffective memories. In this study, we present a plug-and-play strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens participating in attention calculation based on one simple metric. This strategy allows us to keep tokens that are likely to have a high attention score with the current queries and ignore the other ones. We have tested our approach on the word-level benchmark (WikiText-103) and the character-level benchmark (enwik8), and the results indicate an improvement without having additional training or adding additional parameters.
翻訳日:2023-11-07 20:00:19 公開日:2023-11-05
# ドメインウォーターマーク: 有効かつ無害なデータセットの著作権保護が手元に閉鎖される

Domain Watermark: Effective and Harmless Dataset Copyright Protection is Closed at Hand ( http://arxiv.org/abs/2310.14942v2 )

ライセンス: Link先を確認
Junfeng Guo, Yiming Li, Lixu Wang, Shu-Tao Xia, Heng Huang, Cong Liu, Bo Li(参考訳) ディープニューラルネットワーク(DNN)の繁栄は、ユーザがメソッドを評価し改善できるオープンソースデータセットから大きく恩恵を受けている。 本稿では,オープンソースデータセットの著作権を保護するための唯一の有効なアプローチである,バックドアベースのデータセット所有権検証(dov)を再検討する。 これらの手法は,悪質な誤分類行為を敵のDNNにもたらしうるため,基本的に有害であることが明らかとなった。 本稿では,防犯データセット上でトレーニングされた)透かし付きモデルを用いて,良性モデルによって誤分類される「ハード」サンプルを正しく分類することにより,別の視点からdovを設計する。 この手法はdnnsの一般化特性に触発され、元のデータセットに対して \emph{hardly-generalized domain} を見つける( \emph{domain watermark} として)。 修正されたサンプルを含む保護データセットで簡単に学習できる。 具体的には、二段階最適化としてドメイン生成を定式化し、不一般化ドメインのドメイン透かしサンプルと類似した効果を持つ視覚的に区別できないクリーンラベル修正データのセットを最適化し、透かしのステルス性を確保することを提案する。 また,仮説テストによる所有権検証をドメイン透かしで設計し,その理論的解析を行う。 提案手法の有効性と潜在的な適応手法に対する耐性を検証した3つのベンチマークデータセットの大規模な実験を行った。 主な実験を再現するコードは \url{https://github.com/junfenggo/domain-watermark} で入手できる。

The prosperity of deep neural networks (DNNs) is largely benefited from open-source datasets, based on which users can evaluate and improve their methods. In this paper, we revisit backdoor-based dataset ownership verification (DOV), which is currently the only feasible approach to protect the copyright of open-source datasets. We reveal that these methods are fundamentally harmful given that they could introduce malicious misclassification behaviors to watermarked DNNs by the adversaries. In this paper, we design DOV from another perspective by making watermarked models (trained on the protected dataset) correctly classify some `hard' samples that will be misclassified by the benign model. Our method is inspired by the generalization property of DNNs, where we find a \emph{hardly-generalized domain} for the original dataset (as its \emph{domain watermark}). It can be easily learned with the protected dataset containing modified samples. Specifically, we formulate the domain generation as a bi-level optimization and propose to optimize a set of visually-indistinguishable clean-label modified data with similar effects to domain-watermarked samples from the hardly-generalized domain to ensure watermark stealthiness. We also design a hypothesis-test-guided ownership verification via our domain watermark and provide the theoretical analyses of our method. Extensive experiments on three benchmark datasets are conducted, which verify the effectiveness of our method and its resistance to potential adaptive methods. The code for reproducing main experiments is available at \url{https://github.com/JunfengGo/Domain-Watermark}.
翻訳日:2023-11-07 19:59:25 公開日:2023-11-05
# CT-GAT:トランスファービリティに基づくクロスタスク生成逆アタック

CT-GAT: Cross-Task Generative Adversarial Attack based on Transferability ( http://arxiv.org/abs/2310.14265v2 )

ライセンス: Link先を確認
Minxuan Lv, Chengwei Dai, Kun Li, Wei Zhou, Songlin Hu(参考訳) ニューラルネットワークモデルは敵の例に対して脆弱であり、敵の移動可能性はさらに敵の攻撃のリスクを高める。 移動可能性に基づく現在の手法は、しばしば代替モデルに依存しており、訓練データの有効性や犠牲者モデルの構造的詳細のため、現実のシナリオでは非現実的でコストがかかる。 本稿では,様々なタスクにまたがる移動可能な特徴を抽出し,逆行例を直接構築する新しい手法を提案する。 我々の重要な洞察は、敵の移動性は異なるタスクにまたがって拡張できるということです。 具体的には、複数のタスクから収集した逆サンプルデータを用いて、CT-GATというシーケンス対シーケンス生成モデルを訓練し、様々なタスクに対する逆例を生成する。 10個の異なるデータセットに対して実験を行い,本手法が低コストで優れた攻撃性能を実現することを示す。

Neural network models are vulnerable to adversarial examples, and adversarial transferability further increases the risk of adversarial attacks. Current methods based on transferability often rely on substitute models, which can be impractical and costly in real-world scenarios due to the unavailability of training data and the victim model's structural details. In this paper, we propose a novel approach that directly constructs adversarial examples by extracting transferable features across various tasks. Our key insight is that adversarial transferability can extend across different tasks. Specifically, we train a sequence-to-sequence generative model named CT-GAT using adversarial sample data collected from multiple tasks to acquire universal adversarial features and generate adversarial examples for different tasks. We conduct experiments on ten distinct datasets, and the results demonstrate that our method achieves superior attack performance with small cost.
翻訳日:2023-11-07 19:57:46 公開日:2023-11-05
# 大規模言語モデルを用いた実世界会議要約システムの構築:実践的視点

Building Real-World Meeting Summarization Systems using Large Language Models: A Practical Perspective ( http://arxiv.org/abs/2310.19233v2 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN(参考訳) 本稿では,大規模言語モデル (LLM) を用いた実世界利用のための会議要約システムを効果的に構築する方法を検討する。 本研究では, GPT-4, GPT-3.5, PaLM-2, LLaMA-2 など,様々なオープンソース LLM の評価と比較を行う。 以上の結果から,ほとんどのクローズドソース LLM は性能的に優れていることがわかった。 しかし、LLaMA-2 (7Bと13B) のようなより小さなオープンソースモデルは、ゼロショットシナリオでも大きなクローズドソースモデルに匹敵するパフォーマンスを実現できた。 API経由でのみアクセス可能なクローズドソースモデルのプライバシ上の懸念と、クローズドソースモデルの微調整バージョンの使用に伴う高コストを考えると、競合的なパフォーマンスを実現するオープンソースモデルは、工業的利用においてより有利である。 LLaMA-2-7Bモデルは、関連するコストとプライバシの懸念とパフォーマンスのバランスをとることで、産業利用に期待できる。 要約すると、本論文は、実世界のビジネスミーティングの要約にLLMを使うことに関する実践的な洞察を提供し、パフォーマンスとコストのトレードオフに光を当てる。

This paper studies how to effectively build meeting summarization systems for real-world usage using large language models (LLMs). For this purpose, we conduct an extensive evaluation and comparison of various closed-source and open-source LLMs, namely, GPT-4, GPT- 3.5, PaLM-2, and LLaMA-2. Our findings reveal that most closed-source LLMs are generally better in terms of performance. However, much smaller open-source models like LLaMA- 2 (7B and 13B) could still achieve performance comparable to the large closed-source models even in zero-shot scenarios. Considering the privacy concerns of closed-source models for only being accessible via API, alongside the high cost associated with using fine-tuned versions of the closed-source models, the opensource models that can achieve competitive performance are more advantageous for industrial use. Balancing performance with associated costs and privacy concerns, the LLaMA-2-7B model looks more promising for industrial usage. In sum, this paper offers practical insights on using LLMs for real-world business meeting summarization, shedding light on the trade-offs between performance and cost.
翻訳日:2023-11-07 19:49:21 公開日:2023-11-05
# 高速かつ高精度な教師なし物体発見のためのリワードファインタニング

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery ( http://arxiv.org/abs/2310.19080v2 )

ライセンス: Link先を確認
Katie Z Luo, Zhenzhen Liu, Xiangyu Chen, Yurong You, Sagie Benaim, Cheng Perng Phoo, Mark Campbell, Wen Sun, Bharath Hariharan, Kilian Q. Weinberger(参考訳) 最近の機械学習の進歩により、人間フィードバック(rlhf)からの強化学習は、機械学習モデルを改善し、人間の好みに合わせることができる。 大型言語モデル(llm)では非常に成功したが、これらの進歩は自動運転車の研究に匹敵する影響を与えていない。 本稿では,LLをベースとした類似手法を非教師対象発見,すなわちLiDAR点からの物体検出学習に適用することを提案する。 ラベルの代わりに、単純なヒューリスティックを使って人間のフィードバックを模倣します。 より具体的には、複数のヒューリスティックを単純な報酬関数に組み合わせ、そのスコアを有界箱の精度と正に相関させる。 我々は検出器自身の予測から始まり、勾配の更新を通じて宇宙を探索し、高い報酬で箱を補強する。 経験的に、我々のアプローチはより正確であるだけでなく、オブジェクト発見の以前の作業よりもトレーニングに要する桁数も速いことが示されています。

Recent advances in machine learning have shown that Reinforcement Learning from Human Feedback (RLHF) can improve machine learning models and align them with human preferences. Although very successful for Large Language Models (LLMs), these advancements have not had a comparable impact in research for autonomous vehicles -- where alignment with human expectations can be imperative. In this paper, we propose to adapt similar RL-based methods to unsupervised object discovery, i.e. learning to detect objects from LiDAR points without any training labels. Instead of labels, we use simple heuristics to mimic human feedback. More explicitly, we combine multiple heuristics into a simple reward function that positively correlates its score with bounding box accuracy, i.e., boxes containing objects are scored higher than those without. We start from the detector's own predictions to explore the space and reinforce boxes with high rewards through gradient updates. Empirically, we demonstrate that our approach is not only more accurate, but also orders of magnitudes faster to train compared to prior works on object discovery.
翻訳日:2023-11-07 19:49:00 公開日:2023-11-05
# PsyCoT:パーソナリティ検出のための強力なチェーンとしての心理学的アンケート

PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection ( http://arxiv.org/abs/2310.20256v2 )

ライセンス: Link先を確認
Tao Yang, Tianyuan Shi, Fanqi Wan, Xiaojun Quan, Qifan Wang, Bingzhe Wu, Jiaxiang Wu(参考訳) ChatGPTのような大規模言語モデル(LLM)の最近の進歩は、様々なNLPタスクで顕著なゼロショット性能を示した。 しかし、個性検出におけるllmの可能性は、個人のパーソナリティを書かれたテキストから識別することを含むが、ほとんど解明されていない。 心理学者が一連の対象項目を通じて個性特性を評価するために慎重に設計した心理学的アンケートからインスピレーションを得て、これらの項目はよく構造化されたCoTプロセスの集合と見なすことができると論じる。 これらのプロセスを組み込むことで、llmはテキスト入力からパーソナリティをより合理的に推論する能力を高めることができる。 そこで本研究では,マルチターン対話方式で個人が心理的質問紙を完結する方法を模倣した,新たなパーソナリティ検出手法であるpsycotを提案する。 特に,テキスト分析を専門とするAIアシスタントとしてLLMを採用している。 我々は,各ターンに個々の項目を評価させ,過去の評価結果を利用して決定的な人格選好を導出するように促す。 実験の結果、PsyCoTは人格検出におけるGPT-3.5の性能と堅牢性を大幅に向上し、2つのベンチマークデータセットの平均F1スコアは4.23/10.63ポイント向上した。 私たちのコードはhttps://github.com/TaoYang225/PsyCoT.comで利用可能です。

Recent advances in large language models (LLMs), such as ChatGPT, have showcased remarkable zero-shot performance across various NLP tasks. However, the potential of LLMs in personality detection, which involves identifying an individual's personality from their written texts, remains largely unexplored. Drawing inspiration from Psychological Questionnaires, which are carefully designed by psychologists to evaluate individual personality traits through a series of targeted items, we argue that these items can be regarded as a collection of well-structured chain-of-thought (CoT) processes. By incorporating these processes, LLMs can enhance their capabilities to make more reasonable inferences on personality from textual input. In light of this, we propose a novel personality detection method, called PsyCoT, which mimics the way individuals complete psychological questionnaires in a multi-turn dialogue manner. In particular, we employ a LLM as an AI assistant with a specialization in text analysis. We prompt the assistant to rate individual items at each turn and leverage the historical rating results to derive a conclusive personality preference. Our experiments demonstrate that PsyCoT significantly improves the performance and robustness of GPT-3.5 in personality detection, achieving an average F1 score improvement of 4.23/10.63 points on two benchmark datasets compared to the standard prompting method. Our code is available at https://github.com/TaoYang225/PsyCoT.
翻訳日:2023-11-07 19:34:10 公開日:2023-11-05
# ランダム量子状態の非特異性に対する厳密指数

Exact Exponent for Atypicality of Random Quantum States ( http://arxiv.org/abs/2311.02534v1 )

ライセンス: Link先を確認
Eyuri Wakakuwa(参考訳) 両部量子系上の一様ランダムな純状態から誘導されるランダムな量子状態の特性を,より大きな部分系上の部分的トレースを用いて検討する。 これまでの研究の多くは「測度の集中」という視点を採用しており、平均に近い状態の行動に焦点を当てている。 対照的に、州が平均から遠く離れている可能性がある大規模な偏差体制を調査する。 第一に、誘導ランダム状態が与えられた集合内にある確率は、追跡されたサブシステムの次元において指数関数よりも遅くも速くも減少しない。 第二に、指数は最大混合状態と与えられた集合の量子相対エントロピーに等しく、残りの部分系の次元に乗じる。 第三に、与えられた集合の全体確率は、条件濃度と呼ばれる性質である最大混合状態に最も近い要素の周りに強く集中する。 同じ線に沿って、大きな次元を持つ単一系におけるランダム純粋状態のコヒーレンスの漸近挙動についても検討する。

We study the properties of the random quantum states induced from the uniformly random pure states on a bipartite quantum system by taking the partial trace over the larger subsystem. Most of the previous studies have adopted a viewpoint of "concentration of measure" and have focused on the behavior of the states close to the average. In contrast, we investigate the large deviation regime, where the states may be far from the average. We prove the following results: First, the probability that the induced random state is within a given set decreases no slower or faster than exponential in the dimension of the subsystem traced out. Second, the exponent is equal to the quantum relative entropy of the maximally mixed state and the given set, multiplied by the dimension of the remaining subsystem. Third, the total probability of a given set strongly concentrates around the element closest to the maximally mixed state, a property that we call conditional concentration. Along the same line, we also investigate an asymptotic behavior of coherence of random pure states in a single system with large dimensions.
翻訳日:2023-11-07 17:21:12 公開日:2023-11-05
# 超伝導量子プロセッサにおける水分子の精密基底状態エネルギー計算

Precision ground-state energy calculation for the water molecule on a superconducting quantum processor ( http://arxiv.org/abs/2311.02533v1 )

ライセンス: Link先を確認
Michael A. Jones, Harish J. Vallury, Lloyd C. L. Hollenberg(参考訳) 大規模分子系の特性の正確な計算は古典的には実現不可能であり、量子コンピュータが古典的デバイスに対して優位性を示すことを期待する応用の1つである。 しかし、今日の量子ハードウェアの限界により、これらの問題に取り組むために導入された変分ハイブリッドアルゴリズムは、化学応用の精度と精度の要求を満たすのに苦労している。 本稿では,量子計算モーメント (QCM) 法と様々なノイズ緩和法を組み合わせて,水分子 (H$_2$O) の8量子ビット/スピン軌道表現に適用する。 4励振試験状態(回路深度25,22CNOTs)の変動に対するノイズ安定的改善を行い,14スピン軌道ベースでの正確な対角化の1.4\pm1.2$ mHa以内の基底状態エネルギーを計算した。 したがって、qcmアプローチは、測定数の増加とノイズ量子ハードウェア(20次試行状態回路の期待誤差率に対応するcnotエラー率c.1%)にもかかわらず、必要な精度で非自明な分子系の基底状態エネルギーを決定することができる(c.0.1%)。 我々の知る限りでは、これらの結果は物理量子コンピュータ上で、化学的に関連した精度を持つ個々のスピン軌道をエンコードする点でこれまでで最大の計算であり、量子コンピュータが発展するにつれて、低エラー/フォールト耐性の領域において、これらのハイブリッドアプローチがどのようにスケールするかを示す有望な指標である。

The accurate computation of properties of large molecular systems is classically infeasible and is one of the applications in which it is hoped that quantum computers will demonstrate an advantage over classical devices. However, due to the limitations of present-day quantum hardware, variational-hybrid algorithms introduced to tackle these problems struggle to meet the accuracy and precision requirements of chemical applications. Here, we apply the Quantum Computed Moments (QCM) approach combined with a variety of noise-mitigation techniques to an 8 qubit/spin-orbital representation of the water molecule (H$_2$O). A noise-stable improvement on the variational result for a 4-excitation trial-state (circuit depth 25, 22 CNOTs) was obtained, with the ground-state energy computed to be within $1.4\pm1.2$ mHa of exact diagonalisation in the 14 spin-orbital basis. Thus, the QCM approach, despite an increased number of measurements and noisy quantum hardware (CNOT error rates c.1% corresponding to expected error rates on the trial-state circuit of order 20%), is able to determine the ground-state energy of a non-trivial molecular system at the required accuracy (c.0.1%). To the best of our knowledge, these results are the largest calculations performed on a physical quantum computer to date in terms of encoding individual spin-orbitals producing chemically relevant accuracy, and a promising indicator of how such hybrid approaches might scale to problems of interest in the low-error/fault-tolerant regimes as quantum computers develop.
翻訳日:2023-11-07 17:20:56 公開日:2023-11-05
# 1対1同時セキュア量子情報伝送

One-to-Many Simultaneous Secure Quantum Information Transmission ( http://arxiv.org/abs/2311.02530v1 )

ライセンス: Link先を確認
Theodore Andronikos and Alla Sirokofskich(参考訳) 本稿では,ある情報源から多くの受信者へ情報を同時に送信するための新しい量子プロトコルを提案する。 提案プロトコルは, 絡み合い現象に基づくもので, 完全に分散しており, 情報理論的に安全である。 既存の多くの量子プロトコルは、2つの当事者間のセキュアな情報通信を保証するが、ソースが2つ以上の当事者に情報を送信する必要がある状況では、一般化には適さない。 新しいプロトコルの主な新規性は、その拡張性と、一つのパーティが同時に通信しなければならない状況への一般化であり、一般に、任意の数の空間分散パーティへのメッセージである。 これは、送信された情報をシステムの絡み合った状態でエンコードするために使われる特別な方法によって達成される。 このプロトコルは、情報ブローカー、例えばAliceがエージェントにそれぞれ異なる地理的な場所にある異なる秘密のメッセージを1回に分けて伝える必要がある場合、適切に証明できる。 類似の暗号プロトコルと比較して、比較的複雑さがあるため、n$パーティ間の通信を含み、$ghz_{n}$タプルに依存しているため、情報理論上安全であることを証明するために、広範囲で詳細なセキュリティ分析を提供する。 最後に、実装の観点から言えば、提案プロトコルの一般的な特徴は、cnotとハダマールゲートのみを必要とするため、その均一性と単純さであり、局所量子回路は全ての情報受信者に対して同一である。

This paper presents a new quantum protocol designed to simultaneously transmit information from one source to many recipients. The proposed protocol, which is based on the phenomenon of entanglement, is completely distributed and is provably information-theoretically secure. Numerous existing quantum protocols guarantee secure information communication between two parties but are not amenable to generalization in situations where the source must transmit information to two or more parties, so they must be applied sequentially two or more times in such a setting. The main novelty of the new protocol is its extensibility and generality to situations involving one party that must simultaneously communicate different, in general, messages to an arbitrary number of spatially distributed parties. This is achieved by the special way employed to encode the transmitted information in the entangled state of the system, one of the distinguishing features compared to previous protocols. This protocol can prove expedient whenever an information broker, say, Alice, must communicate distinct secret messages to her agents, all in different geographical locations, in one go. Due to its relative complexity, compared to similar cryptographic protocols, as it involves communication among $n$ parties, and relies on $GHZ_{n}$ tuples, we provide an extensive and detailed security analysis so as to prove that it is information-theoretically secure. Finally, in terms of its implementation, the prevalent characteristic of the proposed protocol is its uniformity and simplicity because it only requires CNOT and Hadamard gates, and the local quantum circuits are identical for all information recipients.
翻訳日:2023-11-07 17:20:28 公開日:2023-11-05
# 精度・効率的近傍探索のためのグループテスト : 適応二分法アプローチ

Group Testing for Accurate and Efficient Range-Based Near Neighbor Search : An Adaptive Binary Splitting Approach ( http://arxiv.org/abs/2311.02573v1 )

ライセンス: Link先を確認
Kashish Mittal, Harsh Shah, Ajit Rajwade(参考訳) 本稿では,レンジベース高次元近傍探索問題に対する適応型グループテストフレームワークを提案する。 提案手法では,各ベクトルが画像記述子を表す高次元ベクトルの集合から高相似性ベクトルを検出する。 本手法は,収集中の各項目を,余分な探索をすることなく,コサイン距離閾値に基づいて,隣接または非ニアボーとして効率的にマークする。 大規模検索の分野における他の方法と同様に、我々の手法は、コレクションのほとんどの項目がクエリとは無関係であるという仮定を利用する。 他の方法とは異なり、クエリベクトルのコサイン類似性は、最も関係の低い隣人と、非隣人でない隣人との間に大きな違いを仮定しない。 多段階適応型グループテストアルゴリズムであるbinary splitの手順に従い、各ステップで検索すべき項目のセットを半分に分割し、より小さく小さなサブセットでドット製品テストを行い、その多くが回避できるようになりました。 提案手法は,様々な大規模データセットにおいて,徹底探索と同等の精度で10倍以上の速度アップを達成できることを実験的に証明した。 本稿では,クエリ毎に期待される距離演算数と,一定数のメンバを持つプールがプルーンされる確率に関する理論的解析を行う。 この方法では,他の手法と異なり,非常に有用で実用的な分布特性を活用できる。 我々の方法では、必要なデータ構造はすべて純粋にオフラインで作成されます。 さらに,本手法は,近傍の真の数に対して強い仮定を課さず,データベースに新しいベクトルを動的に追加するストリーミング設定に適応し,パラメータチューニングを必要としない。

This work presents an adaptive group testing framework for the range-based high dimensional near neighbor search problem. The proposed method detects high-similarity vectors from an extensive collection of high dimensional vectors, where each vector represents an image descriptor. Our method efficiently marks each item in the collection as neighbor or non-neighbor on the basis of a cosine distance threshold without exhaustive search. Like other methods in the domain of large scale retrieval, our approach exploits the assumption that most of the items in the collection are unrelated to the query. Unlike other methods, it does not assume a large difference between the cosine similarity of the query vector with the least related neighbor and that with the least unrelated non-neighbor. Following the procedure of binary splitting, a multi-stage adaptive group testing algorithm, we split the set of items to be searched into half at each step, and perform dot product tests on smaller and smaller subsets, many of which we are able to prune away. We experimentally show that our method achieves a speed-up over exhaustive search by a factor of more than ten with an accuracy same as that of exhaustive search, on a variety of large datasets. We present a theoretical analysis of the expected number of distance computations per query and the probability that a pool with a certain number of members will be pruned. In this way, our method exploits very useful and practical distributional properties unlike other methods. In our method, all required data structures are created purely offline. Moreover, our method does not impose any strong assumptions on the number of true near neighbors, is adaptible to streaming settings where new vectors are dynamically added to the database, and does not require any parameter tuning.
翻訳日:2023-11-07 17:08:30 公開日:2023-11-05
# 時系列データのサブシーケンス分類のためのEgo-Network Transformer

Ego-Network Transformer for Subsequence Classification in Time Series Data ( http://arxiv.org/abs/2311.02561v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Huiyuan Chen, Yujie Fan, Xin Dai, Yan Zheng, Vivian Lai, Junpeng Wang, Zhongfang Zhuang, Liang Wang, Wei Zhang, Eamonn Keogh(参考訳) 時系列分類は時系列データマイニングの分野で広く研究されている問題である。 これまでの研究は主に、関連するサブシーケンスまたは前景のサブシーケンスが既に抽出されているシナリオに焦点を当ててきた。 しかしながら、現実世界の時系列データは、しばしば背景のサブシーケンスと絡み合う前景のサブシーケンスを含む。 これらの関連するサブシーケンスをうまく分類するには、異なるクラスを区別するだけでなく、背景の前のサブシーケンスを正確に識別する必要がある。 この課題に対処するために、各サブシーケンスをエゴネットワークとして表現し、モデルに最も近い情報を提供する新しいサブシーケンス分類手法を提案する。 各サブシーケンスのego-networksは時系列サブシーケンスグラフをまとめて作成し、このグラフを効率的に構築するアルゴリズムを導入する。 さらに,サブシーケンス分類問題に対する隣接サブシーケンスの予測において,時間的一貫性を強制することの重要性を実証した。 提案手法の有効性を評価するため、128の単変量と30の多変量時系列データセットを用いて実験を行った。 実験の結果,提案手法は代替手法に比べて優れた性能を示した。 具体的には、158のデータセットのうち104のベースラインよりも優れている。

Time series classification is a widely studied problem in the field of time series data mining. Previous research has predominantly focused on scenarios where relevant or foreground subsequences have already been extracted, with each subsequence corresponding to a single label. However, real-world time series data often contain foreground subsequences that are intertwined with background subsequences. Successfully classifying these relevant subsequences requires not only distinguishing between different classes but also accurately identifying the foreground subsequences amidst the background. To address this challenge, we propose a novel subsequence classification method that represents each subsequence as an ego-network, providing crucial nearest neighbor information to the model. The ego-networks of all subsequences collectively form a time series subsequence graph, and we introduce an algorithm to efficiently construct this graph. Furthermore, we have demonstrated the significance of enforcing temporal consistency in the prediction of adjacent subsequences for the subsequence classification problem. To evaluate the effectiveness of our approach, we conducted experiments using 128 univariate and 30 multivariate time series datasets. The experimental results demonstrate the superior performance of our method compared to alternative approaches. Specifically, our method outperforms the baseline on 104 out of 158 datasets.
翻訳日:2023-11-07 17:07:53 公開日:2023-11-05
# 時間宝探し:洞察発見のための時系列時系列検索システム

Temporal Treasure Hunt: Content-based Time Series Retrieval System for Discovering Insights ( http://arxiv.org/abs/2311.02560v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Huiyuan Chen, Xin Dai, Yan Zheng, Yujie Fan, Vivian Lai, Junpeng Wang, Audrey Der, Zhongfang Zhuang, Liang Wang, Wei Zhang(参考訳) 時系列データは金融、医療、製造業など様々な分野にまたがっているが、それらの特性は、その起源のドメインによって大きく異なる。 Content-based Time Series Retrieval(CTSR)を実行する能力は、未知の時系列例を特定する上で重要である。 しかし、既存のCTSRは通常、単一のドメインデータベースから時系列を取得することに重点を置いている。 この制限は、データベースが複数のドメインからの時系列を含むシナリオにおいて、CTSR問題を調査する動機となる。 そこで本研究では,動き,電力需要,トラヒックといった様々な領域の時系列データを含むctsrベンチマークデータセットを提案する。 このデータセットは、公開の時系列分類データセットアーカイブから入手でき、この分野の研究者が容易にアクセスできる。 本稿では,このベンチマークデータセットを用いて時系列データのモデリングと検索を行う一般的な手法について比較する。 さらに,既存の手法よりも優れた距離学習モデルを提案する。 本研究は,複数の領域にわたるCTSR問題に対処することの重要性を強調し,今後の研究に有用なベンチマークデータセットを提供する。

Time series data is ubiquitous across various domains such as finance, healthcare, and manufacturing, but their properties can vary significantly depending on the domain they originate from. The ability to perform Content-based Time Series Retrieval (CTSR) is crucial for identifying unknown time series examples. However, existing CTSR works typically focus on retrieving time series from a single domain database, which can be inadequate if the user does not know the source of the query time series. This limitation motivates us to investigate the CTSR problem in a scenario where the database contains time series from multiple domains. To facilitate this investigation, we introduce a CTSR benchmark dataset that comprises time series data from a variety of domains, such as motion, power demand, and traffic. This dataset is sourced from a publicly available time series classification dataset archive, making it easily accessible to researchers in the field. We compare several popular methods for modeling and retrieving time series data using this benchmark dataset. Additionally, we propose a novel distance learning model that outperforms the existing methods. Overall, our study highlights the importance of addressing the CTSR problem across multiple domains and provides a useful benchmark dataset for future research.
翻訳日:2023-11-07 17:07:34 公開日:2023-11-05
# UAVにおける物体認識のための回転不変変圧器

Rotation Invariant Transformer for Recognizing Object in UAVs ( http://arxiv.org/abs/2311.02559v1 )

ライセンス: Link先を確認
Shuoyi Chen, Mang Ye, Bo Du(参考訳) UAVからの関心のターゲットを認識することは、既存の複数の都市カメラにおけるオブジェクトの再識別タスクよりもはるかに難しい。 uavで撮影された画像は、通常、オブジェクトバウンディングボックスと不確定な回転変動を生成する際に大きなサイズ差を被る。 既存の方法は通常、都市カメラ用に設計されており、UAVのシナリオで回転問題を処理できない。 簡単な解決策は、画像レベルの回転増強を実行することであるが、強力な視覚変換器をパッチとして入力する際に有用な情報が失われてしまう。 これにより、パッチ特徴レベルでの回転操作をシミュレートし、新しい回転不変視覚変換器(RotTrans)を提案する。 この戦略は、視覚変換器構造の特異性を利用して高レベルな特徴の上に構築され、大きな回転差に対するロバスト性を高める。 さらに,原特徴と回転特徴の関係性を確立するために分散制約を設計し,より強い回転不変性を実現する。 提案するトランスフォーマーは,最新のuavデータセットでテストした結果,最高値の5.9\%,最高値の4.8\%を大きく上回っている。 また,従来の都市カメラの人物識別タスクに対して,本モデルが競争力を発揮することも注目に値する。 特にICCV 2021で開催されているマルチモーダルビデオ推論・アナライジングコンペティションにおいて,UAVベースの人物認識トラックにおいて,本ソリューションが初となる。 コードはhttps://github.com/whucsy/RotTransで入手できる。

Recognizing a target of interest from the UAVs is much more challenging than the existing object re-identification tasks across multiple city cameras. The images taken by the UAVs usually suffer from significant size difference when generating the object bounding boxes and uncertain rotation variations. Existing methods are usually designed for city cameras, incapable of handing the rotation issue in UAV scenarios. A straightforward solution is to perform the image-level rotation augmentation, but it would cause loss of useful information when inputting the powerful vision transformer as patches. This motivates us to simulate the rotation operation at the patch feature level, proposing a novel rotation invariant vision transformer (RotTrans). This strategy builds on high-level features with the help of the specificity of the vision transformer structure, which enhances the robustness against large rotation differences. In addition, we design invariance constraint to establish the relationship between the original feature and the rotated features, achieving stronger rotation invariance. Our proposed transformer tested on the latest UAV datasets greatly outperforms the current state-of-the-arts, which is 5.9\% and 4.8\% higher than the highest mAP and Rank1. Notably, our model also performs competitively for the person re-identification task on traditional city cameras. In particular, our solution wins the first place in the UAV-based person re-recognition track in the Multi-Modal Video Reasoning and Analyzing Competition held in ICCV 2021. Code is available at https://github.com/whucsy/RotTrans.
翻訳日:2023-11-07 17:07:17 公開日:2023-11-05
# 自由飛行ロボットによる微小重力におけるマルチエージェント3次元マップ再構成と変化検出

Multi-Agent 3D Map Reconstruction and Change Detection in Microgravity with Free-Flying Robots ( http://arxiv.org/abs/2311.02558v1 )

ライセンス: Link先を確認
Holly Dinkel, Julia Di, Jamie Santos, Keenan Albee, Paulo Borges, Marina Moreira, Oleg Alexandrov, Brian Coltin, Trey Smith(参考訳) 国際宇宙ステーション(iss)のアストロビー(astrobee)ロボットなど、将来の有人宇宙基地を自律的に支援する無人飛行ロボットは、日々の内部変化を検出して在庫を追跡し、故障を検出して診断し、基地の状況を監視する必要がある。 本研究は,宇宙基地のロボット保守を実現するための多エージェント協調マッピングと変更検出のためのフレームワークを提案する。 1つのエージェントを用いて、画像のシーケンスと対応する深度情報から環境の3次元モデルを再構築する。 別のエージェントは、定期的に3Dモデルに対する不整合をスキャンするために使用される。 実際の画像を用いて調査を完了し、地上テスト環境およびISS内の微小重力下でアストローブロボットが収集したデータを合成した後、変更検出を検証する。 本研究は, マルチエージェント再構築システムにおける目的, 要件, アルゴリズムモジュールについて概説する。

Assistive free-flyer robots autonomously caring for future crewed outposts -- such as NASA's Astrobee robots on the International Space Station (ISS) -- must be able to detect day-to-day interior changes to track inventory, detect and diagnose faults, and monitor the outpost status. This work presents a framework for multi-agent cooperative mapping and change detection to enable robotic maintenance of space outposts. One agent is used to reconstruct a 3D model of the environment from sequences of images and corresponding depth information. Another agent is used to periodically scan the environment for inconsistencies against the 3D model. Change detection is validated after completing the surveys using real image and pose data collected by Astrobee robots in a ground testing environment and from microgravity aboard the ISS. This work outlines the objectives, requirements, and algorithmic modules for the multi-agent reconstruction system, including recommendations for its use by assistive free-flyers aboard future microgravity outposts.
翻訳日:2023-11-07 17:06:51 公開日:2023-11-05
# 確率的双対平均化による対数損失の高速最小化

Fast Minimization of Expected Logarithmic Loss via Stochastic Dual Averaging ( http://arxiv.org/abs/2311.02557v1 )

ライセンス: Link先を確認
Chung-En Tsai and Hao-Chung Cheng and Yen-Huan Li(参考訳) 確率的単純性または量子密度行列の集合よりも期待される対数損失を最小化する問題を考える。 この問題は、ポアソン逆問題の解法、量子状態トモグラフィーの最大様推定値の計算、正の半定値行列の近似、現在最も厳密な近似比などのタスクを含む。 最適化問題は凸であるが、一階法の標準的な反復複雑性は、損失関数のリプシッツ連続性や滑らかさの欠如により直接適用されない。 本研究では,対数障壁を持つ確率的一階アルゴリズムである$b$-sample確率的双対平均法を提案する。 ポアソン逆問題に対して、我々のアルゴリズムは、芸術の状態を一致させて、$\tilde{O} (d^2/\varepsilon^2) の最適解を得る。 量子状態トモグラフィーの最大線量推定を計算するとき、我々のアルゴリズムは$\tilde{O} (d^3/\varepsilon^2)$時間で$\varepsilon$-optimal Solutionを得る。 これにより、既存の確率的一階法の時間的複雑さを、$d^{\omega-2}$で、バッチ法を$d^2$で、$\omega$は行列の乗法指数を表す。 数値実験により,提案手法は従来の手法よりも明示的な複雑性を保証できることを示した。

Consider the problem of minimizing an expected logarithmic loss over either the probability simplex or the set of quantum density matrices. This problem encompasses tasks such as solving the Poisson inverse problem, computing the maximum-likelihood estimate for quantum state tomography, and approximating positive semi-definite matrix permanents with the currently tightest approximation ratio. Although the optimization problem is convex, standard iteration complexity guarantees for first-order methods do not directly apply due to the absence of Lipschitz continuity and smoothness in the loss function. In this work, we propose a stochastic first-order algorithm named $B$-sample stochastic dual averaging with the logarithmic barrier. For the Poisson inverse problem, our algorithm attains an $\varepsilon$-optimal solution in $\tilde{O} (d^2/\varepsilon^2)$ time, matching the state of the art. When computing the maximum-likelihood estimate for quantum state tomography, our algorithm yields an $\varepsilon$-optimal solution in $\tilde{O} (d^3/\varepsilon^2)$ time, where $d$ denotes the dimension. This improves on the time complexities of existing stochastic first-order methods by a factor of $d^{\omega-2}$ and those of batch methods by a factor of $d^2$, where $\omega$ denotes the matrix multiplication exponent. Numerical experiments demonstrate that empirically, our algorithm outperforms existing methods with explicit complexity guarantees.
翻訳日:2023-11-07 17:06:30 公開日:2023-11-05
# IPVNet:オープンサーフェス3次元再構成のためのインシシシトポイント-ボクセル特徴の学習

IPVNet: Learning Implicit Point-Voxel Features for Open-Surface 3D Reconstruction ( http://arxiv.org/abs/2311.02552v1 )

ライセンス: Link先を確認
Mohammad Samiul Arshad, William J. Beksi(参考訳) 3次元開放面(例えば、非水密メッシュ)の再構成はコンピュータビジョンの未発見領域である。 最近の学習に基づく暗黙的手法は、任意の解像度で再構築を可能にすることによって、以前の障壁を取り除いた。 しかし、そのようなアプローチは、目標を再構築する際にゼロレベル集合を抽出するために、しばしば表面の内部と外部の区別に依存する。 開表面の場合、この区別はしばしば、表面ギャップの人工閉鎖のような人工的な成果物につながる。 しかし、現実世界のデータには、表面の粗い隙間によって定義される複雑な詳細が含まれているかもしれない。 符号のない距離場を回帰する帰納関数は、そのような開曲面を再構成する際の約束を示す。 それでも、現在の符号なしの暗黙のメソッドは、生データの離散化された表現に依存している。 これは、学習プロセスを表現の解決に限定するだけでなく、再構築において異常値も導入する。 開放面の正確な復元を実現するために,学習に基づく暗黙的点ボクセルモデル(IPVNet)を提案する。 IPVNetは、原点クラウドデータとその離散化されたボクセルデータの両方を活用することにより、3次元空間における表面とクエリポイントの間の符号のない距離を予測する。 人工的および実世界の公開データセットの実験は、ITVNetが芸術の状態を上回り、その結果の再構築においてはるかに少ないアウトリーチを生み出すことを示した。

Reconstruction of 3D open surfaces (e.g., non-watertight meshes) is an underexplored area of computer vision. Recent learning-based implicit techniques have removed previous barriers by enabling reconstruction in arbitrary resolutions. Yet, such approaches often rely on distinguishing between the inside and outside of a surface in order to extract a zero level set when reconstructing the target. In the case of open surfaces, this distinction often leads to artifacts such as the artificial closing of surface gaps. However, real-world data may contain intricate details defined by salient surface gaps. Implicit functions that regress an unsigned distance field have shown promise in reconstructing such open surfaces. Nonetheless, current unsigned implicit methods rely on a discretized representation of the raw data. This not only bounds the learning process to the representation's resolution, but it also introduces outliers in the reconstruction. To enable accurate reconstruction of open surfaces without introducing outliers, we propose a learning-based implicit point-voxel model (IPVNet). IPVNet predicts the unsigned distance between a surface and a query point in 3D space by leveraging both raw point cloud data and its discretized voxel counterpart. Experiments on synthetic and real-world public datasets demonstrates that IPVNet outperforms the state of the art while producing far fewer outliers in the resulting reconstruction.
翻訳日:2023-11-07 17:06:02 公開日:2023-11-05
# エネルギー市場におけるエネルギー貯蔵入札のための高次元バイドラーニング

High-dimensional Bid Learning for Energy Storage Bidding in Energy Markets ( http://arxiv.org/abs/2311.02551v1 )

ライセンス: Link先を確認
Jinyu Liu, Hongye Guo, Qinghu Tang, En Lu, Qiuna Cai, Qixin Chen(参考訳) 再生可能エネルギー資源の普及に伴い、電力市場価格のボラティリティは高まっている。 したがって、エネルギー貯蔵システム(ESS)は、エネルギー市場入札の多次元的性質を活用して利益を最大化することが重要である。 しかし、現在の学習方法は、エネルギー市場における高次元価格の入札を十分に活用できない。 この課題に対処するために,ニューラルネットワーク組込み入札(nnebs)と呼ばれる新しい入札表現手法を提案することで,共通強化学習(rl)プロセスを変更する。 NNEBは、離散出力を持つ単調ニューラルネットワークで表される市場入札を指す。 NNEBを効果的に学習するために、まず、市場価格からRLによるESS電力出力への戦略的マッピングとしてニューラルネットワークを学習する。 次に、ネットワークを2つのトレーニング修正で再訓練し、ネットワーク出力を単調かつ離散的にする。 最後に、ニューラルネットワークは等価に入札のための高次元入札に変換される。 実世界の市場データセットを用いて実験を行った。 本研究は,提案手法がベースラインよりも18%高い利益を達成し,最適市場入札者の78%の利益を得ることを示す。

With the growing penetration of renewable energy resource, electricity market prices have exhibited greater volatility. Therefore, it is important for Energy Storage Systems(ESSs) to leverage the multidimensional nature of energy market bids to maximize profitability. However, current learning methods cannot fully utilize the high-dimensional price-quantity bids in the energy markets. To address this challenge, we modify the common reinforcement learning(RL) process by proposing a new bid representation method called Neural Network Embedded Bids (NNEBs). NNEBs refer to market bids that are represented by monotonic neural networks with discrete outputs. To achieve effective learning of NNEBs, we first learn a neural network as a strategic mapping from the market price to ESS power output with RL. Then, we re-train the network with two training modifications to make the network output monotonic and discrete. Finally, the neural network is equivalently converted into a high-dimensional bid for bidding. We conducted experiments over real-world market datasets. Our studies show that the proposed method achieves 18% higher profit than the baseline and up to 78% profit of the optimal market bidder.
翻訳日:2023-11-07 17:05:41 公開日:2023-11-05
# 3D-Aware Talking-Head Video Motion Transfer

3D-Aware Talking-Head Video Motion Transfer ( http://arxiv.org/abs/2311.02549v1 )

ライセンス: Link先を確認
Haomiao Ni, Jiachen Liu, Yuan Xue, Sharon X. Huang(参考訳) 対話型ビデオの移動移動には、被写体ビデオの出現と駆動ビデオの動作パターンを伴う新しいビデオを生成することが含まれる。 現在の方法論は、主に限られた数の主題画像と2d表現に依存するため、主題ビデオに固有のマルチビューの外観特徴を十分に活用することを無視している。 本稿では,2次元の被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドをリカレントネットワークで生成することにより,被験者の外観情報を完全に活用する3D対応ビデオモーション転送ネットワークであるHead3Dを提案する。 提案手法の重要な構成要素は,2次元映像フレームからの頭部ポーズと深度マップの予測を目的とした,自己教師付き3次元頭部形状学習モジュールである。 このモジュールは3Dヘッドを標準空間で推定しやすくし、動画フレームの駆動に合わせて変換することができる。 また,被写体フレームの背景と他の詳細を3d被写体ヘッドと組み合わせ,合成対象映像を作成するために注意に基づく融合ネットワークを用いる。 2つのトーキングヘッドビデオデータセットに関する広範囲な実験により,ヘッド3dが2dと3dの先行技術に勝ることを示し,ポーズ制御可能な新規視点合成タスクに容易に適応できることを示す。

Motion transfer of talking-head videos involves generating a new video with the appearance of a subject video and the motion pattern of a driving video. Current methodologies primarily depend on a limited number of subject images and 2D representations, thereby neglecting to fully utilize the multi-view appearance features inherent in the subject video. In this paper, we propose a novel 3D-aware talking-head video motion transfer network, Head3D, which fully exploits the subject appearance information by generating a visually-interpretable 3D canonical head from the 2D subject frames with a recurrent network. A key component of our approach is a self-supervised 3D head geometry learning module, designed to predict head poses and depth maps from 2D subject video frames. This module facilitates the estimation of a 3D head in canonical space, which can then be transformed to align with driving video frames. Additionally, we employ an attention-based fusion network to combine the background and other details from subject frames with the 3D subject head to produce the synthetic target video. Our extensive experiments on two public talking-head video datasets demonstrate that Head3D outperforms both 2D and 3D prior arts in the practical cross-identity setting, with evidence showing it can be readily adapted to the pose-controllable novel view synthesis task.
翻訳日:2023-11-07 17:05:23 公開日:2023-11-05
# Biased Policy Gradient Methodの2次収束に関する予備的検討

Preliminary Analysis on Second-Order Convergence for Biased Policy Gradient Methods ( http://arxiv.org/abs/2311.02546v1 )

ライセンス: Link先を確認
Siqiao Mu and Diego Klabjan(参考訳) 一階定常点への方針勾配アルゴリズムの収束は十分に確立されているが、強化学習問題の目的関数は一般に非常に非凸である。 したがって、最近の研究は2つの拡張に焦点を当てている: ‘global' convergence guarantees under regularity assumptions on the function structure, and second-order guarantees for savedle points and convergence to true local minima。 我々の研究は後者のアプローチで拡大し、一般目的関数には適用できない前者の制限的な仮定を避けます。 バニラ政策勾配の既存の結果は偏りのない勾配推定子のみを考えるが、モンテカルロ法とアクタ-クリティック法の両方を含む無限ホリゾンディスカウント設定の下での実用的な実装には、偏り勾配推定子による勾配降下更新が含まれる。 本稿では,非凸最適化による証明手法を活用した2次定常点へのバイアスド・ポリシー勾配アルゴリズムの収束に関する予備結果を示す。 次のステップでは,アクター批判アルゴリズムに対する第1次有限時間2次収束解析を提案する。

Although the convergence of policy gradient algorithms to first-order stationary points is well-established, the objective functions of reinforcement learning problems are typically highly nonconvex. Therefore, recent work has focused on two extensions: ``global" convergence guarantees under regularity assumptions on the function structure, and second-order guarantees for escaping saddle points and convergence to true local minima. Our work expands on the latter approach, avoiding the restrictive assumptions of the former that may not apply to general objective functions. Existing results on vanilla policy gradient only consider an unbiased gradient estimator, but practical implementations under the infinite-horizon discounted setting, including both Monte-Carlo methods and actor-critic methods, involve gradient descent updates with a biased gradient estimator. We present preliminary results on the convergence of biased policy gradient algorithms to second-order stationary points, leveraging proof techniques from nonconvex optimization. In our next steps we aim to provide the first finite-time second-order convergence analysis for actor-critic algorithms.
翻訳日:2023-11-07 17:04:55 公開日:2023-11-05
# 証明可能な保証による非線形多目的強化学習

Nonlinear Multi-objective Reinforcement Learning with Provable Guarantees ( http://arxiv.org/abs/2311.02544v1 )

ライセンス: Link先を確認
Nianli Peng and Brandon Fain(参考訳) RA-E3 (Reward-Aware Explicit Explore or Exploit) は単目的または多目的のマルコフ決定過程(MDP)を解くための証明可能な保証を持つアルゴリズムで、累積報酬よりも非線形関数の期待値を最大化する。 これにより,多目的強化学習のための公平性を考慮した福祉最適化や,非線形フォン・ノイマン・モーゲンステルンユーティリティ関数を用いたリスク対応強化学習を単一目的設定でモデル化することができる。 RA-E3は、スカラー報酬と線形選好でMDPを解決する古典的なE3アルゴリズムを拡張している。 まず、与えられた環境のモデルにほぼ最適である非定常ポリシーを計算する、価値反復の報酬認識バージョンを示す。 このサブプロデューサは、時間と現在の累積報酬を明示的に考慮した非線形最適化のためのベルマン最適化の拡張形式に基づいている。 次に、この最適化手順を、環境のモデルを同時に学習しなければならない大きなアルゴリズムで使う方法について述べる。 このアルゴリズムは、MDPのサイズ、所望の近似、非線形関数の滑らかさに多項式的に依存し、指数関数的に目的数に依存する、ほぼ最適なポリシーを時間内に学習する。

We describe RA-E3 (Reward-Aware Explicit Explore or Exploit), an algorithm with provable guarantees for solving a single or multi-objective Markov Decision Process (MDP) where we want to maximize the expected value of a nonlinear function over accumulated rewards. This allows us to model fairness-aware welfare optimization for multi-objective reinforcement learning as well as risk-aware reinforcement learning with nonlinear Von Neumann-Morgenstern utility functions in the single objective setting. RA-E3 extends the classic E3 algorithm that solves MDPs with scalar rewards and linear preferences. We first state a distinct reward-aware version of value iteration that calculates a non-stationary policy that is approximately optimal for a given model of the environment. This sub-procedure is based on an extended form of Bellman optimality for nonlinear optimization that explicitly considers time and current accumulated reward. We then describe how to use this optimization procedure in a larger algorithm that must simultaneously learn a model of the environment. The algorithm learns an approximately optimal policy in time that depends polynomially on the MDP size, desired approximation, and smoothness of the nonlinear function, and exponentially on the number of objectives.
翻訳日:2023-11-07 17:04:33 公開日:2023-11-05
# vr-nerf:高忠実度バーチャルウォーク可能な空間

VR-NeRF: High-Fidelity Virtualized Walkable Spaces ( http://arxiv.org/abs/2311.02542v1 )

ライセンス: Link先を確認
Linning Xu, Vasu Agrawal, William Laney, Tony Garcia, Aayush Bansal, Changil Kim, Samuel Rota Bul\`o, Lorenzo Porzi, Peter Kontschieder, Alja\v{z} Bo\v{z}i\v{c}, Dahua Lin, Michael Zollh\"ofer, Christian Richardt(参考訳) 本稿では,ニューラルネットワークを用いた仮想現実における歩行可能空間の高忠実度キャプチャ,モデル再構成,リアルタイムレンダリングのためのエンド・ツー・エンドシステムを提案する。 そこで我々は,高忠実度かつ多視点高ダイナミックレンジ画像を前代未聞の品質と密度で高精細にキャプチャする,カスタムなマルチカメラリグを設計・構築した。 HDRの正確な外観を学習するための新しい知覚色空間と、アンチエイリアスによるレベル・オブ・ディーテールレンダリングのための効率的なミップ・マッピング機構を、品質とスピードのトレードオフを慎重に最適化しながら拡張する。 我々のマルチGPUレンダラは、私たちのカスタムデモマシンで2K$\times$2KのフルVR解像度で、私たちのニューラルラディアンスフィールドモデルの高忠実なボリュームレンダリングを可能にします。 課題のある高忠実度データセットで結果の品質を実証し、メソッドとデータセットを既存のベースラインと比較する。 当社のプロジェクトwebサイトでデータセットをリリースします。

We present an end-to-end system for the high-fidelity capture, model reconstruction, and real-time rendering of walkable spaces in virtual reality using neural radiance fields. To this end, we designed and built a custom multi-camera rig to densely capture walkable spaces in high fidelity and with multi-view high dynamic range images in unprecedented quality and density. We extend instant neural graphics primitives with a novel perceptual color space for learning accurate HDR appearance, and an efficient mip-mapping mechanism for level-of-detail rendering with anti-aliasing, while carefully optimizing the trade-off between quality and speed. Our multi-GPU renderer enables high-fidelity volume rendering of our neural radiance field model at the full VR resolution of dual 2K$\times$2K at 36 Hz on our custom demo machine. We demonstrate the quality of our results on our challenging high-fidelity datasets, and compare our method and datasets to existing baselines. We release our dataset on our project website.
翻訳日:2023-11-07 17:04:12 公開日:2023-11-05
# 高密度ビデオキャプション:技術,データセット,評価プロトコルに関する調査

Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols ( http://arxiv.org/abs/2311.02538v1 )

ライセンス: Link先を確認
Iqra Qasim, Alexander Horsch, Dilip K. Prasad(参考訳) 非トリミングビデオには、相互関連イベント、依存関係、コンテキスト、重なり合ったイベント、オブジェクトとオブジェクトのインタラクション、ドメイン固有性、その他の意味論があり、自然言語でビデオを記述しながら強調する価値がある。 このような膨大な多様性のため、単一文はビデオの一部を正確に記述できるだけである。 Dense Video Captioning (DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。 DVCという用語は2017年のActivityNetチャレンジに端を発しており、その後この課題に対処するためにかなりの努力がなされている。 Dense Video Captioningは、(1)ビデオ特徴抽出(VFE)、(2)時間事象局所化(TEL)、(3)Dense Caption Generation(DCG)の3つのサブタスクに分けられる。 本総説は,DVCの実施を主張するすべての研究とそのサブタスクについて論じ,その結果を要約することを目的とする。 また、DVCで使われているすべてのデータセットについても論じる。 最後に、この分野の新たな課題と今後のトレンドを紹介します。

Untrimmed videos have interrelated events, dependencies, context, overlapping events, object-object interactions, domain specificity, and other semantics that are worth highlighting while describing a video in natural language. Owing to such a vast diversity, a single sentence can only correctly describe a portion of the video. Dense Video Captioning (DVC) aims at detecting and describing different events in a given video. The term DVC originated in the 2017 ActivityNet challenge, after which considerable effort has been made to address the challenge. Dense Video Captioning is divided into three sub-tasks: (1) Video Feature Extraction (VFE), (2) Temporal Event Localization (TEL), and (3) Dense Caption Generation (DCG). This review aims to discuss all the studies that claim to perform DVC along with its sub-tasks and summarize their results. We also discuss all the datasets that have been used for DVC. Lastly, we highlight some emerging challenges and future trends in the field.
翻訳日:2023-11-07 17:03:53 公開日:2023-11-05
# 接地に基づく視覚と言語モデルのためのセマンティクス保存型イメージキャプチャペア拡張

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models ( http://arxiv.org/abs/2311.02536v1 )

ライセンス: Link先を確認
Jingru Yi, Burak Uzkent, Oana Ignat, Zili Li, Amanmeet Garg, Xiang Yu, Linda Liu(参考訳) グラウンディングベースのビジョンと言語モデルが低レベルの視覚タスクにうまく適用され、キャプションで言及されるオブジェクトを正確に見つけることを目的としている。 接地表現学習の有効性は、トレーニングデータセットの規模に大きく依存する。 有用なデータエンリッチメント戦略であるにもかかわらず、画像キャプチャペアの強化は自明ではないため、既存のビジョンと言語タスクにおいて、データ拡張は最小限の注目を集めている。 本研究では,テキストコンディショニングとテキストアンコンディショニングを併用したロバストなフレーズグラウンドモデルを提案する。 具体的には,画像とキャプション間の意味的一貫性を確保するために,テキスト条件付きカラージッタリングと水平反転を適用した。 トレーニングサンプルにおける画像キャプチャ対応を保証するため,水平方向のフリップを行う際に,予め定義されたキーワードに従ってキャプションを変更する。 また,近年のマスク信号再構成に触発されて,新たなデータ拡張形式としてピクセルレベルのマスキングを提案する。 MDETRフレームワークを用いたデータ拡張手法を実証するが、提案手法は他のフレームワークとの共通基盤に基づくビジョンや言語タスクに適用できる。 最後に、大規模画像および言語データセット(CLIPなど)で事前訓練された画像エンコーダにより、結果をさらに改善できることを示す。 Flickr30k, 表現参照, GQAの3つの一般的なデータセットに対する広範な実験により, 各種メトリクスを用いた最先端の性能を示す。 コードはhttps://github.com/amzn/augment-the-pairs-wacv2024にある。

Grounding-based vision and language models have been successfully applied to low-level vision tasks, aiming to precisely locate objects referred in captions. The effectiveness of grounding representation learning heavily relies on the scale of the training dataset. Despite being a useful data enrichment strategy, data augmentation has received minimal attention in existing vision and language tasks as augmentation for image-caption pairs is non-trivial. In this study, we propose a robust phrase grounding model trained with text-conditioned and text-unconditioned data augmentations. Specifically, we apply text-conditioned color jittering and horizontal flipping to ensure semantic consistency between images and captions. To guarantee image-caption correspondence in the training samples, we modify the captions according to pre-defined keywords when applying horizontal flipping. Additionally, inspired by recent masked signal reconstruction, we propose to use pixel-level masking as a novel form of data augmentation. While we demonstrate our data augmentation method with MDETR framework, the proposed approach is applicable to common grounding-based vision and language tasks with other frameworks. Finally, we show that image encoder pretrained on large-scale image and language datasets (such as CLIP) can further improve the results. Through extensive experiments on three commonly applied datasets: Flickr30k, referring expressions and GQA, our method demonstrates advanced performance over the state-of-the-arts with various metrics. Code can be found in https://github.com/amzn/augment-the-pairs-wacv2024.
翻訳日:2023-11-07 17:03:33 公開日:2023-11-05
# tokenmotion: 学習可能なトークン選択によるビデオカモフラージュ物体検出のためのモーションガイド視覚トランスフォーマー

TokenMotion: Motion-Guided Vision Transformer for Video Camouflaged Object Detection Via Learnable Token Selection ( http://arxiv.org/abs/2311.02535v1 )

ライセンス: Link先を確認
Zifan Yu and Erfan Bank Tavakoli and Meida Chen and Suya You and Raghuveer Rao and Sanjeev Agarwal and Fengbo Ren(参考訳) Video Camouflaged Object Detection (VCOD) の領域は、対象物とその周囲のテクスチャの類似性や、物体とカメラの動きの両方によって生じる不規則な動きパターンによって、コンピュータビジョンの分野におけるユニークな課題を呈している。 本稿では,学習可能なトークン選択を用いて動作誘導特徴を抽出することによりVCODを強化するトランスフォーマーモデルを用いたTokenMotion(TMNet)を提案する。 挑戦的なMoCA-Maskデータセットに基づいて、TMNetはVCODの最先端のパフォーマンスを達成する。 12.8%の重み付きF尺度の改善、8.4%のS尺度の強化、平均IoUの10.7%のアップにより、既存の最先端手法よりも優れている。 本研究は,vcodの複雑な課題に取り組むために,トランスフォーマフレームワーク内で学習可能なトークン選択によるモーションガイド機能を活用することの利点を示す。

The area of Video Camouflaged Object Detection (VCOD) presents unique challenges in the field of computer vision due to texture similarities between target objects and their surroundings, as well as irregular motion patterns caused by both objects and camera movement. In this paper, we introduce TokenMotion (TMNet), which employs a transformer-based model to enhance VCOD by extracting motion-guided features using a learnable token selection. Evaluated on the challenging MoCA-Mask dataset, TMNet achieves state-of-the-art performance in VCOD. It outperforms the existing state-of-the-art method by a 12.8% improvement in weighted F-measure, an 8.4% enhancement in S-measure, and a 10.7% boost in mean IoU. The results demonstrate the benefits of utilizing motion-guided features via learnable token selection within a transformer-based framework to tackle the intricate task of VCOD.
翻訳日:2023-11-07 17:03:07 公開日:2023-11-05
# FloodBrain: LLMによるWebベースの検索Augmented Generationによる洪水災害報告

FloodBrain: Flood Disaster Reporting by Web-based Retrieval Augmented Generation with an LLM ( http://arxiv.org/abs/2311.02597v1 )

ライセンス: Link先を確認
Grace Colverd, Paul Darm, Leonard Silverberg, and Noah Kasmanoff(参考訳) 人道支援の計画には,迅速な災害影響報告が不可欠である。 大規模言語モデル(llm)は、コヒーレントなテキストを書き、質問応答やテキスト要約など、インパクトレポートに関連するさまざまなタスクをこなす能力でよく知られている。 しかし、LSMはトレーニングデータ内の知識によって制約され、不正確な、あるいは「ハロシン化」情報を生成する傾向にある。 そこで本研究では,web から情報抽出・収集し,洪水災害影響レポートの作成に特化する,当社のツールfloodbrain (floodbrain.com) に具体化された洗練されたパイプラインを紹介する。 当社のパイプラインは,web検索結果からの情報を同一化し,洪水イベントに関する詳細な正確なレポートを生成する。 ツールのバックボーンとして異なるLSMをテストし、生成されたレポートと異なるメトリクスに関する人によるレポートを比較します。 他の研究と同様に、GPT-4で割り当てられたスコアと人間の評価者によるスコアとの間には顕著な相関関係がみられた。 さらに,最終報告に対する単一パイプラインコンポーネントとその関連性をテストするためのアブレーション調査を実施している。 本ツールでは,災害被害報告におけるLLMの利用を推進し,洪水災害時の人道的努力の調整に要する時間を短縮することを目的としている。

Fast disaster impact reporting is crucial in planning humanitarian assistance. Large Language Models (LLMs) are well known for their ability to write coherent text and fulfill a variety of tasks relevant to impact reporting, such as question answering or text summarization. However, LLMs are constrained by the knowledge within their training data and are prone to generating inaccurate, or "hallucinated", information. To address this, we introduce a sophisticated pipeline embodied in our tool FloodBrain (floodbrain.com), specialized in generating flood disaster impact reports by extracting and curating information from the web. Our pipeline assimilates information from web search results to produce detailed and accurate reports on flood events. We test different LLMs as backbones in our tool and compare their generated reports to human-written reports on different metrics. Similar to other studies, we find a notable correlation between the scores assigned by GPT-4 and the scores given by human evaluators when comparing our generated reports to human-authored ones. Additionally, we conduct an ablation study to test our single pipeline components and their relevancy for the final reports. With our tool, we aim to advance the use of LLMs for disaster impact reporting and reduce the time for coordination of humanitarian efforts in the wake of flood disasters.
翻訳日:2023-11-07 16:55:06 公開日:2023-11-05
# scbeacon: 対照的なシアムネットワークを用いた生物条件にまたがる対細胞クラスターの同定による単細胞バイオマーカーの抽出

scBeacon: single-cell biomarker extraction via identifying paired cell clusters across biological conditions with contrastive siamese networks ( http://arxiv.org/abs/2311.02594v1 )

ライセンス: Link先を確認
Chenyu Liu, Kweon Yong Jin and Jun Ding(参考訳) 微分遺伝子解析によるバイオマーカーの発見のブレークスルーにもかかわらず、特に単細胞レベルでの課題は残る。 従来の手法では、個々の表現されたデータに注目し、健康状態と病気状態のような生物学的状態の間の重要な相互作用を無視する。 これに応えて、ScBeaconを紹介します。これは、深いコントラストのあるシアムネットワーク上に構築された革新的なフレームワークです。 scBeaconは、様々な条件で一致した細胞集団を十分に同定し、洗練された差分遺伝子解析を可能にする、教師なしのアプローチを開拓した。 VQ-VAEフレームワーク、対照的なシアムネットワーク、および欲求反復戦略を利用することで、skBeaconは、ポテンシャルをキーバイオマーカーとして持つ差分遺伝子を効果的に特定する。 多様なデータセットの包括的な評価は、既存の単細胞差分遺伝子解析ツールよりも scBeacon が優れていることを検証する。 その精度と適応性は、バイオマーカー発見の診断精度を高める上で重要な役割を担っている。 診断におけるバイオマーカーの重要性を強調して、 scBeaconはパーソナライズされた医療と標的治療の進化において重要な要素である。

Despite the breakthroughs in biomarker discovery facilitated by differential gene analysis, challenges remain, particularly at the single-cell level. Traditional methodologies heavily rely on user-supplied cell annotations, focusing on individually expressed data, often neglecting the critical interactions between biological conditions, such as healthy versus diseased states. In response, here we introduce scBeacon, an innovative framework built upon a deep contrastive siamese network. scBeacon pioneers an unsupervised approach, adeptly identifying matched cell populations across varied conditions, enabling a refined differential gene analysis. By utilizing a VQ-VAE framework, a contrastive siamese network, and a greedy iterative strategy, scBeacon effectively pinpoints differential genes that hold potential as key biomarkers. Comprehensive evaluations on a diverse array of datasets validate scBeacon's superiority over existing single-cell differential gene analysis tools. Its precision and adaptability underscore its significant role in enhancing diagnostic accuracy in biomarker discovery. With the emphasis on the importance of biomarkers in diagnosis, scBeacon is positioned to be a pivotal asset in the evolution of personalized medicine and targeted treatments.
翻訳日:2023-11-07 16:54:43 公開日:2023-11-05
# 有限サイズSu-Schrieffer-Heegerモデルによる原子結合に基づく制御可能な励起転移の実現

Realizing the controllable excitation transfer based on the atom coupling the finite-size Su-Schrieffer-Heeger model ( http://arxiv.org/abs/2311.02592v1 )

ライセンス: Link先を確認
Da-Wei Wang, Chengsong Zhao, Junya Yang, Ye-Ting Yan, Ling Zhou(参考訳) 本稿では,原子と有限サイズSu-Schrieffer-Heegerモデルとの相互作用について検討する。 自明な位相における有限SSHモデルでは、導波路と有限帯域と非線形分散関係とを結合した原子と見なすことができる。 しかし、位相相におけるSSHモデルでは、SSHモデルのエッジモードと原子の周波数が共鳴していると考えると、原子状態が2つのエッジ状態に結合していることが分かる。 この場合、断熱処理を用いてSSHモデルの端に原子励起を伝達するために使用できる特別なチャネルが存在することが分かる。 原子が異なるサブ格子に結合すると、原子の励起は鎖の最左端または最右端に移され、量子情報処理への潜在的な応用を提供する。 さらに、鎖の端への原子の励起状態の励起移動は、断熱的なプロセスなしでも実現できる。 本研究は,原子結合位相情報に基づく制御可能な量子情報伝達を実現する経路を提供する。

In this paper, we study the interaction between atom and the finite-size Su-Schrieffer-Heeger (SSH) model. We find that when the finite SSH model in the trivial phase, it can be viewed as the atom coupling with the waveguide with the finite bandwidths and non-linear dispersion relation. However, for the SSH model in the topological phase, when we consider the frequency of the atom is resonant with the edge mode of the SSH model, we find that the atom state couples to the two edge states. In this case, we find that there exists a special channel that can be utilized to transfer the atomic excitation to the ends of the SSH model using adiabatic processes. When the atom couples to the different sub-lattice, the excitation of the atom can be transferred to the leftmost or rightmost end of the chain, which provides the potential application toward quantum information processing. Furthermore, The excitation transfer of excited states of atoms to the ends of the chain can also be realized without the adiabatic process. Our work provides a pathway for realizing controllable quantum information transfer based on the atom couples topological matter.
翻訳日:2023-11-07 16:54:21 公開日:2023-11-05
# 合成腫瘍マニピュレーション : 放射線学的特徴

Synthetic Tumor Manipulation: With Radiomics Features ( http://arxiv.org/abs/2311.02586v1 )

ライセンス: Link先を確認
Inye Na, Jonghun Kim, Hyunjin Park(参考訳) 放射線学的特徴を前提とした人工腫瘍発生装置であるRadiomicsFillを導入し,腫瘍部分領域の詳細な制御と個別の操作を可能にする。 このコンディショニングは、従来の腫瘍の高次元的特徴(すなわち、放射線学的特徴)を活用し、生物学的に良好な位置にある。 本モデルでは,生成型adversarial network,radiomics-feature conditioning,マルチタスク学習を組み合わせる。 グリオーマ患者の実験を通じて、RadiomicsFillは多様な現実的な腫瘍を発生させる能力と、「Pixel Surface」や「Shape Sphericity」のような特定の放射能の特徴を微調整する能力を示した。 RadiomicsFillが無数のリアルな合成腫瘍を生成できる能力は、医療画像研究の進歩と臨床応用の可能性の両方に注目に値する。

We introduce RadiomicsFill, a synthetic tumor generator conditioned on radiomics features, enabling detailed control and individual manipulation of tumor subregions. This conditioning leverages conventional high-dimensional features of the tumor (i.e., radiomics features) and thus is biologically well-grounded. Our model combines generative adversarial networks, radiomics-feature conditioning, and multi-task learning. Through experiments with glioma patients, RadiomicsFill demonstrated its capability to generate diverse, realistic tumors and its fine-tuning ability for specific radiomics features like 'Pixel Surface' and 'Shape Sphericity'. The ability of RadiomicsFill to generate an unlimited number of realistic synthetic tumors offers notable prospects for both advancing medical imaging research and potential clinical applications.
翻訳日:2023-11-07 16:54:03 公開日:2023-11-05
# SSL-DG:医療画像セグメンテーションにおける半教師付き学習と領域一般化の再考と活用

SSL-DG: Rethinking and Fusing Semi-supervised Learning and Domain Generalization in Medical Image Segmentation ( http://arxiv.org/abs/2311.02583v1 )

ライセンス: Link先を確認
Zanting Ye(参考訳) 深層学習に基づく医用画像のセグメンテーションは、ドメインシフトの発生に伴う注釈付きデータへのアクセス制限から生じる、臨床実践において不可欠な課題である。 以前の試みは、相互接続性を無視しながら、孤立したソリューションに焦点を当ててきた。 本稿では、注釈付きデータ駆動制約とドメインシフト問題に対処する最先端アプローチである半教師付き学習(SSL)とドメイン一般化(DG)の関係を再考する。 クラスレベルの表現に着想を得て,対象とする非対象データを,単純なデータ拡張によって達成可能なソースデータの線形結合で表現できることを示した。 拡張されたデータは、一貫性に基づくSSLの原則に従って、セマンティックな一貫性を持ちながら、ドメイン分散を豊かにする。 そこで本研究では,DGとSSLを融合したSSL-DGを提案する。 具体的には、グローバル領域および焦点領域拡張と拡張スケール分散機構を併用して、マスクベースのドメイン拡散増強モジュールを構築し、ドメイン多様性を著しく高める。 異なるネットワークで同じソースデータに対する一貫した予測を得るために、不確実性推定と深い相互学習戦略を用いて一貫性のある制約を強制する。 提案するssl-dgを検証するため,アブレーション研究を含む広範な実験を行った。 その結果,SSL-DGはアノテーションを限定した2つの課題DGタスクにおいて,最先端のソリューションよりも大幅に優れていた。 コードはhttps://github.com/yezanting/SSL-DGで入手できる。

Deep learning-based medical image segmentation is an essential yet challenging task in clinical practice, which arises from restricted access to annotated data coupled with the occurrence of domain shifts. Previous attempts have focused on isolated solutions, while disregarding their inter-connectedness. In this paper, we rethink the relationship between semi-supervised learning (SSL) and domain generalization (DG), which are the cutting-edge approaches to address the annotated data-driven constraints and the domain shift issues. Inspired by class-level representation, we show that unseen target data can be represented by a linear combination of source data, which can be achieved by simple data augmentation. The augmented data enrich domain distributions while having semantic consistency, aligning with the principles of consistency-based SSL. Accordingly, we propose SSL-DG, fusing DG and SSL, to achieve cross-domain generalization with limited annotations. Specifically, the global and focal region augmentation, together with an augmentation scale-balancing mechanism, are used to construct a mask-based domain diffusion augmentation module to significantly enrich domain diversity. In order to obtain consistent predictions for the same source data in different networks, we use uncertainty estimation and a deep mutual learning strategy to enforce the consistent constraint. Extensive experiments including ablation studies are designed to validate the proposed SSL-DG. The results demonstrate that our SSL-DG significantly outperforms state-of-the-art solutions in two challenging DG tasks with limited annotations. Code is available at https://github.com/yezanting/SSL-DG.
翻訳日:2023-11-07 16:53:48 公開日:2023-11-05
# mahaNLP: マラウイの自然言語処理ライブラリ

mahaNLP: A Marathi Natural Language Processing Library ( http://arxiv.org/abs/2311.02579v1 )

ライセンス: Link先を確認
Vidula Magdum, Omkar Dhekane, Sharayu Hiwarkhedkar, Saloni Mittal, Raviraj Joshi(参考訳) 本稿では,オープンソースの自然言語処理(NLP)ライブラリであるmahaNLPについて述べる。 NLPの分野では、低リソースのインドの言語であるMarathiのサポートを強化することを目指している。 これは、最先端のMahaBERTベースのトランスフォーマーモデル上に構築されたMarathiテキスト解析のための、使いやすく、拡張性があり、モジュラーなツールキットである。 我々の作業は、既存のIndic NLPライブラリが基本的なMarathi処理サポートを提供し、性能が制限された古いモデルに依存しているため、非常に重要である。 我々のツールキットは、基本的な前処理タスクと、感情分析、NER、ヘイトスピーチ検出、文補完といった高度なNLPタスクの両方を含む、包括的なNLPタスクの配列を提供することで際立っている。 本稿では,mahaNLPフレームワークの概要,特徴,使用法について述べる。 この作業はL3Cube MahaNLPイニシアチブの一部であり、詳細はhttps://github.com/l3cube-pune/MarathiNLPで確認できる。

We present mahaNLP, an open-source natural language processing (NLP) library specifically built for the Marathi language. It aims to enhance the support for the low-resource Indian language Marathi in the field of NLP. It is an easy-to-use, extensible, and modular toolkit for Marathi text analysis built on state-of-the-art MahaBERT-based transformer models. Our work holds significant importance as other existing Indic NLP libraries provide basic Marathi processing support and rely on older models with restricted performance. Our toolkit stands out by offering a comprehensive array of NLP tasks, encompassing both fundamental preprocessing tasks and advanced NLP tasks like sentiment analysis, NER, hate speech detection, and sentence completion. This paper focuses on an overview of the mahaNLP framework, its features, and its usage. This work is a part of the L3Cube MahaNLP initiative, more information about it can be found at https://github.com/l3cube-pune/MarathiNLP .
翻訳日:2023-11-07 16:53:24 公開日:2023-11-05
# 文書の時間的シークエンシング

Temporal Sequencing of Documents ( http://arxiv.org/abs/2311.02578v1 )

ライセンス: Link先を確認
Michael Gervers and Gelila Tilahun(参考訳) 我々は、中世イングランドの資産移転文書のコーパスである「アメリカ連邦演説」と「DEEDS」という、歴史的文書の集合を時間順に並べる、教師なしの方法の概要を述べる。 本手法は,非パラメトリック一般化線形モデル(Fan, Heckman, Wand, 1995)の帯域幅推定により,単語使用量の漸進的変化を効果的に把握することに依存する。 帯域幅に関連する可能性のあるコスト関数を検索するために必要とされるランク命令の数は、わずかな文書セットであっても非常に大きい可能性がある。 そこで本研究では,シミュレーションアニーリングアルゴリズムを用いて組合せ最適化の問題に対処し,最適な文書の時間順序を求める。 本手法は,ランダムに配列されたベースラインと比較して,コーパスの時間的シークエンシングを著しく改善した。 この教師なしのアプローチは、乱れた文書集合の一時的な順序付けを可能にする。

We outline an unsupervised method for temporal rank ordering of sets of historical documents, namely American State of the Union Addresses and DEEDS, a corpus of medieval English property transfer documents. Our method relies upon effectively capturing the gradual change in word usage via a bandwidth estimate for the non-parametric Generalized Linear Models (Fan, Heckman, and Wand, 1995). The number of possible rank orders needed to search through possible cost functions related to the bandwidth can be quite large, even for a small set of documents. We tackle this problem of combinatorial optimization using the Simulated Annealing algorithm, which allows us to obtain the optimal document temporal orders. Our rank ordering method significantly improved the temporal sequencing of both corpora compared to a randomly sequenced baseline. This unsupervised approach should enable the temporal ordering of undated document sets.
翻訳日:2023-11-07 16:53:05 公開日:2023-11-05
# ホークス到着待ち行列の定常解析とホークス待ち行列のオンライン学習への応用

Steady-State Analysis of Queues with Hawkes Arrival and Its Application to Online Learning for Hawkes Queues ( http://arxiv.org/abs/2311.02577v1 )

ライセンス: Link先を確認
Xinyun Chen and Guiyu Hong(参考訳) 我々は,ホークス到着によるシングルサーバキューの長時間動作と一般サービス分布および関連する最適化問題について検討する。 本稿では, 新たな結合技術を用いて, 作業負荷および多忙なプロセスの定常分布に対する有限モーメント境界を確立する。 さらに,これらの待ち行列プロセスが定常分布に指数関数的に収束することを示すことができる。 これらの理論的な結果に基づいて,ホークスキューの最適スタッフング問題をデータ駆動方式で解く効率的な数値アルゴリズムを開発した。 従来のGI/GI/1モデルと比較して,特に重交通系では,ホークスキューの人員配置が著しく異なることが示唆された。

We investigate the long-run behavior of single-server queues with Hawkes arrivals and general service distributions and related optimization problems. In detail, utilizing novel coupling techniques, we establish finite moment bounds for the stationary distribution of the workload and busy period processes. In addition, we are able to show that, those queueing processes converge exponentially fast to their stationary distribution. Based on these theoretic results, we develop an efficient numerical algorithm to solve the optimal staffing problem for the Hawkes queues in a data-driven manner. Numerical results indicate a sharp difference in staffing for Hawkes queues, compared to the classic GI/GI/1 model, especially in the heavy-traffic regime.
翻訳日:2023-11-07 16:52:51 公開日:2023-11-05
# オクルージョン・アウェア埋め込み一貫性学習に基づく複数物体追跡

Multiple Object Tracking based on Occlusion-Aware Embedding Consistency Learning ( http://arxiv.org/abs/2311.02572v1 )

ライセンス: Link先を確認
Yaoqi Hu, Axi Niu, Yu Zhu, Qingsen Yan, Jinqiu Sun, Yanning Zhang(参考訳) jde(joint detection and embedded)フレームワークは、複数のオブジェクト追跡において著しく進歩した。 既存の手法では、しばしば抽出された埋め込みを用いて、新しい検出と以前破壊されていたトラックの関連を再確立する。 しかし、密閉物体の領域に隣接する物体や乱れが頻繁に含まれている場合、特に重篤な閉塞を伴う場合、埋め込みの信頼性は低下する。 この問題を軽減するために,視覚的埋め込みの整合性に基づく新しい複数物体追跡手法を提案する。 1)閉塞予測モジュール(OPM)と 2)オクルージョン・アウェア・アソシエーション・モジュール(oaam) OPMは、真の検出毎に閉塞情報を予測し、トラックの視覚埋め込みの一貫性学習のための有効なサンプルの選択を容易にする。 OAAMはオクルージョンキューと視覚埋め込みを利用して、各トラックに2つの別々の埋め込みを生成する。 これら2つのモジュールを統合することで,オンライントラッキングシナリオにおける閉塞によるトラック割り込みに対処することができる。 広範囲な実験結果から,提案手法は非オクルードとオクルードの両方の追跡シナリオにおいて有望な性能レベルを達成できることが示された。

The Joint Detection and Embedding (JDE) framework has achieved remarkable progress for multiple object tracking. Existing methods often employ extracted embeddings to re-establish associations between new detections and previously disrupted tracks. However, the reliability of embeddings diminishes when the region of the occluded object frequently contains adjacent objects or clutters, especially in scenarios with severe occlusion. To alleviate this problem, we propose a novel multiple object tracking method based on visual embedding consistency, mainly including: 1) Occlusion Prediction Module (OPM) and 2) Occlusion-Aware Association Module (OAAM). The OPM predicts occlusion information for each true detection, facilitating the selection of valid samples for consistency learning of the track's visual embedding. The OAAM leverages occlusion cues and visual embeddings to generate two separate embeddings for each track, guaranteeing consistency in both unoccluded and occluded detections. By integrating these two modules, our method is capable of addressing track interruptions caused by occlusion in online tracking scenarios. Extensive experimental results demonstrate that our approach achieves promising performance levels in both unoccluded and occluded tracking scenarios.
翻訳日:2023-11-07 16:52:38 公開日:2023-11-05
# Banmani:バングラで操作されたソーシャルメディアニュースを識別するデータセット

BanMANI: A Dataset to Identify Manipulated Social Media News in Bangla ( http://arxiv.org/abs/2311.02570v1 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Md. Minul Islam Shovon, Gene Louis Kim(参考訳) ベンガル語で偽ニュースの検出と誤表現に対処するために最初の作業が行われた。 しかし、ベンガルではまだ、関連するニュース記事を誤って操作するソーシャルメディアニュースの特定のクレームの特定に対処していない。 この時点でこの問題は英語や他の言語で取り組まれているが、ベンガル語では解決されていない。 本稿では,参照記事に対する情報操作をラベル付けしたソーシャルメディアコンテンツのデータセットであるbanmaniを収集する。 私たちが説明するデータセット収集方法は、Banglaで利用可能なNLPツールの制限に関するものです。 これらの技術は、他の低リソース言語で同様のデータセットを構築することに続くと期待しています。 BanMANIは、既存のNLPシステムの能力の評価と、このタスクに特化してトレーニングや微調整を行う新しいモデルの両方の基礎を形成している。 分析の結果、このタスクはゼロショットと微調整の両方で現在のLLMに挑戦することがわかった。

Initial work has been done to address fake news detection and misrepresentation of news in the Bengali language. However, no work in Bengali yet addresses the identification of specific claims in social media news that falsely manipulates a related news article. At this point, this problem has been tackled in English and a few other languages, but not in the Bengali language. In this paper, we curate a dataset of social media content labeled with information manipulation relative to reference articles, called BanMANI. The dataset collection method we describe works around the limitations of the available NLP tools in Bangla. We expect these techniques will carry over to building similar datasets in other low-resource languages. BanMANI forms the basis both for evaluating the capabilities of existing NLP systems and for training or fine-tuning new models specifically on this task. In our analysis, we find that this task challenges current LLMs both under zero-shot and fine-tuned settings.
翻訳日:2023-11-07 16:52:17 公開日:2023-11-05
# 非バランス短文データセットのための共起語ネットワークに基づくトピックモデル

Topic model based on co-occurrence word networks for unbalanced short text datasets ( http://arxiv.org/abs/2311.02566v1 )

ライセンス: Link先を確認
Chengjie Ma, Junping Du, Meiyu Liang, Zeli Guan(参考訳) 非バランスなショートテキストデータセットにおいて,不足するトピックを検出するための簡単なソリューションを提案する。 cwutm(co-occurrence word networks for unbalanced short text datasetsに基づくトピックモデル)と名づけたこのアプローチは,付随する単語共起の効果を緩和することにより,スパースかつアンバランスなショートテキストトピックの課題に対処する。 これにより、我々のモデルは不足するトピック(低頻度トピック)の識別を優先順位付けできる。 従来の手法とは異なり、cwutmは共起語ネットワークを利用して各単語の話題分布を捉え、ノード活動の計算を再定義し、希少なトピックと豊富なトピックの両方の表現をある程度正規化することにより、希少なトピックを識別する感度を高めた。 さらに、CWUTMは、LDAと同様のGibbsサンプリングを採用しており、様々なアプリケーションシナリオに容易に適応できる。 非バランスな短文データセットに対する大規模な実験的検証は、不足するトピックの発見におけるベースラインアプローチと比較してCWUTMの優位性を示している。 実験結果によると,提案モデルは,ソーシャルプラットフォーム上での話題や予期せぬ事象の早期かつ正確な検出に有効である。

We propose a straightforward solution for detecting scarce topics in unbalanced short-text datasets. Our approach, named CWUTM (Topic model based on co-occurrence word networks for unbalanced short text datasets), Our approach addresses the challenge of sparse and unbalanced short text topics by mitigating the effects of incidental word co-occurrence. This allows our model to prioritize the identification of scarce topics (Low-frequency topics). Unlike previous methods, CWUTM leverages co-occurrence word networks to capture the topic distribution of each word, and we enhanced the sensitivity in identifying scarce topics by redefining the calculation of node activity and normalizing the representation of both scarce and abundant topics to some extent. Moreover, CWUTM adopts Gibbs sampling, similar to LDA, making it easily adaptable to various application scenarios. Our extensive experimental validation on unbalanced short-text datasets demonstrates the superiority of CWUTM compared to baseline approaches in discovering scarce topics. According to the experimental results the proposed model is effective in early and accurate detection of emerging topics or unexpected events on social platforms.
翻訳日:2023-11-07 16:52:03 公開日:2023-11-05
# kits:インクリメンタルトレーニング戦略を用いたインダクティブ時空間クリグ

KITS: Inductive Spatio-Temporal Kriging with Increment Training Strategy ( http://arxiv.org/abs/2311.02565v1 )

ライセンス: Link先を確認
Qianxiong Xu, Cheng Long, Ziyue Li, Sijie Ruan, Rui Zhao, Zhishuai Li(参考訳) センサーは通常、環境を感知するために配置される。 しかし、高コストのため、センサーは通常わずかに展開される。 Krigingは、観測されたソースノード(センサー付き)を使用して、観測されていないノード(センサーなし)を推論するための調整されたタスクである。 クリグタスクの本質は転送性である。 近年,グラフニューラルネットワークに基づいて,ノードのマスキングや再構成などのプリテキストタスクを通じて観測ノード上に構築したグラフに基づいて,複数のインダクティブ時空間クリギング手法が提案されている。 しかしながら、トレーニングのグラフは、観測された全てのノードと観測されていないノードを含む推論のグラフよりも、必然的にはるかに小さい。 学習したパターンは、グラフギャップとして表される推論に対して十分に一般化することはできない。 この問題に対処するために,我々はまず,ノードをマスキングする代わりに仮想ノードをトレーニンググラフに追加し,グラフギャップ問題を自然に緩和する,新しいインクリメントトレーニング戦略を提案する。 それでも、ラベルのない空のシェル仮想ノードは、悪い学習機能を持ち、監視信号がない可能性がある。 これらの問題を解決するために、各仮想ノードを最もよく似た観測ノードと組み合わせ、それらの特徴を融合させ、監視信号を強化するために、仮想ノードの信頼性の高い擬似ラベルを構築する。 その結果、仮想ノードの学習されたパターンは、信頼性の高いkrigingのために、実際に観測されていないノードに安全に転送できる。 我々は、インクリメントトレーニング戦略をKITSと命名した。 広範囲にわたる実験により、KITSは既存のリグ法を大きなマージンで一貫して上回り、例えば、MAEスコアの改善は18.33%にも達することを示した。

Sensors are commonly deployed to perceive the environment. However, due to the high cost, sensors are usually sparsely deployed. Kriging is the tailored task to infer the unobserved nodes (without sensors) using the observed source nodes (with sensors). The essence of kriging task is transferability. Recently, several inductive spatio-temporal kriging methods have been proposed based on graph neural networks, being trained based on a graph built on top of observed nodes via pretext tasks such as masking nodes out and reconstructing them. However, the graph in training is inevitably much sparser than the graph in inference that includes all the observed and unobserved nodes. The learned pattern cannot be well generalized for inference, denoted as graph gap. To address this issue, we first present a novel Increment training strategy: instead of masking nodes (and reconstructing them), we add virtual nodes into the training graph so as to mitigate the graph gap issue naturally. Nevertheless, the empty-shell virtual nodes without labels could have bad-learned features and lack supervision signals. To solve these issues, we pair each virtual node with its most similar observed node and fuse their features together; to enhance the supervision signal, we construct reliable pseudo labels for virtual nodes. As a result, the learned pattern of virtual nodes could be safely transferred to real unobserved nodes for reliable kriging. We name our new Kriging model with Increment Training Strategy as KITS. Extensive experiments demonstrate that KITS consistently outperforms existing kriging methods by large margins, e.g., the improvement over MAE score could be as high as 18.33%.
翻訳日:2023-11-07 16:51:42 公開日:2023-11-05
# 意味的拡張メカニズムに基づく関係抽出モデル

Relation Extraction Model Based on Semantic Enhancement Mechanism ( http://arxiv.org/abs/2311.02564v1 )

ライセンス: Link先を確認
Peiyu Liu, Junping Du, Yingxia Shao, and Zeli Guan(参考訳) 関係抽出は、自然言語処理分野における情報抽出に関する基本課題の1つであり、情報抽出、自然言語理解、情報検索の分野で重要なリンクおよびコアタスクである。 既存の関係抽出手法では、3重重重なりの問題を効果的に解決できない。 本論文で提案するcasaugモデルと意味強調機構を組み合わせることで,この問題をある程度解決することができる。 casaugモデルは、まず、可能な対象のセマンティックコーディングに基づいて意味的拡張機構を追加し、可能な対象を事前に分類し、その後、その意味的類似度を計算して、可能な対象の類似語彙を得ることにより、特定可能な対象のセマンティクスを強化する。 得られた類似語彙に基づき、注目機構を介して、異なる関係にある各単語を算出する。 対象のコントリビューションのために、最後に関係事前分類結果を組み合わせて、各関係の強化意味論を重み付け、対象の強化意味論を見つけ、対象と関係抽出モジュールに可能な対象と組み合わせて強化意味論を送信する。 最後の関係のトリプルト抽出を完了します。 実験結果から,本論文で提案するCasAugモデルは,ベースラインモデルと比較して,関係抽出の効果が向上し,重複問題に対処し,複数の関係を抽出する能力もベースラインモデルよりも優れていることが示唆された。

Relational extraction is one of the basic tasks related to information extraction in the field of natural language processing, and is an important link and core task in the fields of information extraction, natural language understanding, and information retrieval. None of the existing relation extraction methods can effectively solve the problem of triple overlap. The CasAug model proposed in this paper based on the CasRel framework combined with the semantic enhancement mechanism can solve this problem to a certain extent. The CasAug model enhances the semantics of the identified possible subjects by adding a semantic enhancement mechanism, First, based on the semantic coding of possible subjects, pre-classify the possible subjects, and then combine the subject lexicon to calculate the semantic similarity to obtain the similar vocabulary of possible subjects. According to the similar vocabulary obtained, each word in different relations is calculated through the attention mechanism. For the contribution of the possible subject, finally combine the relationship pre-classification results to weight the enhanced semantics of each relationship to find the enhanced semantics of the possible subject, and send the enhanced semantics combined with the possible subject to the object and relationship extraction module. Complete the final relation triplet extraction. The experimental results show that, compared with the baseline model, the CasAug model proposed in this paper has improved the effect of relation extraction, and CasAug's ability to deal with overlapping problems and extract multiple relations is also better than the baseline model, indicating that the semantic enhancement mechanism proposed in this paper It can further reduce the judgment of redundant relations and alleviate the problem of triple overlap.
翻訳日:2023-11-07 16:51:15 公開日:2023-11-05
# 匿名化のための行列プロファイルを用いた時系列合成

Time Series Synthesis Using the Matrix Profile for Anonymization ( http://arxiv.org/abs/2311.02563v1 )

ライセンス: Link先を確認
Audrey Der, Chin-Chia Michael Yeh, Yan Zheng, Junpeng Wang, Huiyuan Chen, Zhongfang Zhuang, Liang Wang, Wei Zhang, Eamonn Keogh(参考訳) データマイニングコミュニティにとってデータの公開と共有は不可欠であり、コラボレーションとオープンイノベーションの推進を可能にする。 しかし、多くの研究者はプライバシー規制や秘密のビジネス情報漏洩を恐れてデータを公開できない。 このような問題を緩和するために,行列プロファイル(TSSUMP)法を用いた時系列合成を提案する。 TSSUMP法は、類似結合情報(行列プロファイル)を保存することにより時系列を合成し、合成された時系列と元の時系列との相関を小さくする。 結果として、個々のタイムステップの値も、元のデータからのローカルパターン(または形状)も回収できないが、結果として得られたデータは、データアナリストが興味を持っている下流タスクに使用できる。 類似性結合は、様々なデータマイニングタスクにまたがる最も広く適用されている時系列データマイニングルーチンの1つである。 我々は,ECGとジェンダーマスキング予測のケーススタディにおいて,本手法を検証した。 このケーススタディでは、性別情報は合成された時系列から削除されるだけでなく、合成された時系列は元の時系列から十分な情報を保存する。 その結果、修正されていないデータマイニングツールは、元の時系列と同様に合成された時系列でほぼ同一の性能を得ることができる。

Publishing and sharing data is crucial for the data mining community, allowing collaboration and driving open innovation. However, many researchers cannot release their data due to privacy regulations or fear of leaking confidential business information. To alleviate such issues, we propose the Time Series Synthesis Using the Matrix Profile (TSSUMP) method, where synthesized time series can be released in lieu of the original data. The TSSUMP method synthesizes time series by preserving similarity join information (i.e., Matrix Profile) while reducing the correlation between the synthesized and the original time series. As a result, neither the values for the individual time steps nor the local patterns (or shapes) from the original data can be recovered, yet the resulting data can be used for downstream tasks that data analysts are interested in. We concentrate on similarity joins because they are one of the most widely applied time series data mining routines across different data mining tasks. We test our method on a case study of ECG and gender masking prediction. In this case study, the gender information is not only removed from the synthesized time series, but the synthesized time series also preserves enough information from the original time series. As a result, unmodified data mining tools can obtain near-identical performance on the synthesized time series as on the original time series.
翻訳日:2023-11-07 16:50:30 公開日:2023-11-05
# サイバーセキュリティの新たなフロンティア:新たな脅威とイノベーション

The New Frontier of Cybersecurity: Emerging Threats and Innovations ( http://arxiv.org/abs/2311.02630v1 )

ライセンス: Link先を確認
Daksh Dave, Gauransh Sawhney, Pushkar Aggarwal, Nitish Silswal, Dhruv Khut(参考訳) 今日のデジタル接続された世界では、サイバーセキュリティの脅威は前例のないレベルに達し、個人、組織、政府に対する懸念が強まっている。 本研究は,サイバーセキュリティの多様な脅威とその影響を総合的に検証するために,質的研究手法を採用している。 マルウェア攻撃、ソーシャルエンジニアリング攻撃、ネットワーク脆弱性、データ漏洩の4つの主要なカテゴリが特定および分析されている。 この研究は、個人、組織、社会全体に対するこれらの脅威の結果を掘り下げている。 サイバーセキュリティの重要な脅威として、高度な永続的脅威、ランサムウェア攻撃、iot(internet of things)脆弱性、社会工学のエクスプロイトなどがある。 したがって、サイバーセキュリティの脅威が組織と個人の両方に重大なリスクをもたらすことは明らかである。 これらの新興脅威の洗練と多様性は、サイバーセキュリティに対する多層アプローチを必要とする。 このアプローチには、堅牢なセキュリティ対策、包括的従業員トレーニング、定期的なセキュリティ監査が含まれるべきである。 これらの新興脅威の影響は広範囲に及んでおり、金融損失、評判の被害、個人情報の侵害などの潜在的な影響がある。 本研究は、これらの脅威を軽減する効果的な対策を実施することの重要性を強調する。 強力なパスワード、暗号化方法、およびサイバー防御を強化するソフトウェアを定期的に更新することの重要性を強調している。

In today's digitally interconnected world, cybersecurity threats have reached unprecedented levels, presenting a pressing concern for individuals, organizations, and governments. This study employs a qualitative research approach to comprehensively examine the diverse threats of cybersecurity and their impacts across various sectors. Four primary categories of threats are identified and analyzed, encompassing malware attacks, social engineering attacks, network vulnerabilities, and data breaches. The research delves into the consequences of these threats on individuals, organizations, and society at large. The findings reveal a range of key emerging threats in cybersecurity, including advanced persistent threats, ransomware attacks, Internet of Things (IoT) vulnerabilities, and social engineering exploits. Consequently, it is evident that emerging cybersecurity threats pose substantial risks to both organizations and individuals. The sophistication and diversity of these emerging threats necessitate a multi-layered approach to cybersecurity. This approach should include robust security measures, comprehensive employee training, and regular security audits. The implications of these emerging threats are extensive, with potential consequences such as financial loss, reputational damage, and compromised personal information. This study emphasizes the importance of implementing effective measures to mitigate these threats. It highlights the significance of using strong passwords, encryption methods, and regularly updating software to bolster cyber defenses.
翻訳日:2023-11-07 16:42:42 公開日:2023-11-05
# OP Combinatorial OptimizationのためのQ-Learning付きポインタネットワーク

Pointer Networks with Q-Learning for OP Combinatorial Optimization ( http://arxiv.org/abs/2311.02629v1 )

ライセンス: Link先を確認
Alessandro Barro(参考訳) オリエンテーリング問題(OP)は、ロジスティクス、配送、輸送計画において広く使われていることを強調する組合せ最適化において、ユニークな課題を提示している。 OPのNPハードの性質を考えると、最適解を得るのは本質的に複雑である。 Pointer Networks (Ptr-Nets) は様々な組合せタスクに長けているが、OPの文脈でのパフォーマンスは改善の余地を残している。 この研究は、特に深層神経構造と組み合わせた場合、Q-ラーニングの有用性を認識し、Pointer Q-Network(PQN)を公表する。 この革新的な手法は、Ptr-NetsとQ-learningを組み合わせて、OPが提示する特定の課題に効果的に対処する。 PQNのアーキテクチャと効率を深く探求し、OP状況を管理する上で優れた能力を示している。

The Orienteering Problem (OP) presents a unique challenge in combinatorial optimization, emphasized by its widespread use in logistics, delivery, and transportation planning. Given the NP-hard nature of OP, obtaining optimal solutions is inherently complex. While Pointer Networks (Ptr-Nets) have exhibited prowess in various combinatorial tasks, their performance in the context of OP leaves room for improvement. Recognizing the potency of Q-learning, especially when paired with deep neural structures, this research unveils the Pointer Q-Network (PQN). This innovative method combines Ptr-Nets and Q-learning, effectively addressing the specific challenges presented by OP. We deeply explore the architecture and efficiency of PQN, showcasing its superior capability in managing OP situations.
翻訳日:2023-11-07 16:42:07 公開日:2023-11-05
# 高出力集積量子技術のための固体量子エミッタの超分解スナップショットハイパースペクトルイメージング

Super-resolved snapshot hyperspectral imaging of solid-state quantum emitters for high-throughput integrated quantum technologies ( http://arxiv.org/abs/2311.02626v1 )

ライセンス: Link先を確認
Shunfa Liu, Xueshi Li, Hanqing Liu, Guixin Qiu, Jiantao Ma, Liang Nie, Haiqiao Ni, Zhichuan Niu, Cheng-Wei Qiu, Xuehua Wang and Jin Liu(参考訳) 集積フォトニックナノ構造に結合した固体量子エミッタは、空洞量子電磁力学における基本的な現象を探求するために必須であり、非古典光源、量子リピータ、量子トランスデューサなどのフォトニック量子技術で広く使われている。 集積量子フォトニクスの最もエキサイティングな約束の1つは、単一チップ上の小型デバイスの大量生産を可能にするスケーラビリティの可能性である。 実際、効率的で再現可能な光-物質カップリングの収率は、単一固体量子エミッタ間のスペクトル的及び空間的ミスマッチとフォトニックナノ構造が支持する光モードの閉じ込めまたは伝播によって大きく妨げられ、より高度な量子情報処理タスクのために大規模集積量子フォトニック回路が高スループットで実現されることを防いでいる。 本稿では,量子光学におけるハイパースペクトルイメージングの概念を初めて紹介し,このような長期的課題に対処した。 1次元平面キャビティにおける特異な分散を伴う拡張モードを利用することで、単一広視野フォトルミネッセンス画像から、アンサンブル内の個々の量子ドットのスペクトル及び空間情報を正確かつ確実に抽出することができる。 抽出された量子ドット位置と放射波長により、面発光量子光源および面内フォトニック回路は、1次元閉じ込め平面空洞を3次元閉じ込めマイクロピラーおよび2次元閉じ込め導波路にエッチングすることにより、高スループットで決定論的に作製することができる。 オープンプラナーキャビティを用いたこの技術のさらなる拡張は、大規模統合のための機能拡張を備えた様々なコンパクト量子フォトニックデバイスの追求に利用することができる。 我々の研究は、統合量子フォトニクス技術の展望を変えることが期待されている。

Solid-state quantum emitters coupled to integrated photonic nanostructures are quintessential for exploring fundamental phenomena in cavity quantum electrodynamics and widely employed in photonic quantum technologies such as non-classical light sources, quantum repeaters, and quantum transducers, etc. One of the most exciting promises from integrated quantum photonics is the potential of scalability that enables massive productions of miniaturized devices on a single chip. In reality, the yield of efficient and reproducible light-matter couplings is greatly hindered by the spectral and spatial mismatches between the single solid-state quantum emitters and confined or propagating optical modes supported by the photonic nanostructures, preventing the high-throughput realization of large-scale integrated quantum photonic circuits for more advanced quantum information processing tasks. In this work, we introduce the concept of hyperspectral imaging in quantum optics, for the first time, to address such a long-standing issue. By exploiting the extended mode with a unique dispersion in a 1D planar cavity, the spectral and spatial information of each individual quantum dot in an ensemble can be accurately and reliably extracted from a single wide-field photoluminescence image with super-resolutions. With the extracted quantum dot positions and emission wavelengths, surface-emitting quantum light sources and in-plane photonic circuits can be deterministically fabricated with a high-throughput by etching the 1D confined planar cavity into 3D confined micropillars and 2D confined waveguides. Further extension of this technique by employing an open planar cavity could be exploited for pursuing a variety of compact quantum photonic devices with expanded functionalities for large-scale integration. Our work is expected to change the landscape of integrated quantum photonic technology.
翻訳日:2023-11-07 16:41:43 公開日:2023-11-05
# ニューラルネットワークは複雑な決定木:階層的単純性バイアス

Neural Networks Are Implicit Decision Trees: The Hierarchical Simplicity Bias ( http://arxiv.org/abs/2311.02622v1 )

ライセンス: Link先を確認
Zhehang Du(参考訳) ニューラルネットワークは単純さのバイアスを示し、より単純な特徴に依存しながら、等しく予測的だがより複雑な特徴を無視している。 本研究では, 単純かつ複雑な特徴が予測能力の異なるレベルを示すシナリオを考察するために, 不均衡ラベル結合という新しい手法を提案する。 このような場合、複雑な特徴が予測に寄与する。 トレーニングされたネットワークは、基礎となる予測能力に関係なく、トレーニングセットのラベルとどのように相関するかに応じて、入力機能の上昇する複雑性に合わせて予測を行う。 例えば、CIFAR-10の単純な突発的特徴が歪曲する予測であっても、ほとんどの猫は犬であると予測され、ほとんどのトラックは自動車であると予測されます! この観察は、ニューラルネットワークがスプリアス特徴の存在下でコア特徴を学ぶという直接的な証拠を提供する。 目的とするデータ分布による最終層再トレーニングは有効であるが, 合成データセットのターゲットラベルと完全相関している場合, コア機能の完全回復には不十分であることを示す。 私たちの研究が、ニューラルネットワークの暗黙の偏見をより深く理解してくれることを願っています。

Neural networks exhibit simplicity bias; they rely on simpler features while ignoring equally predictive but more complex features. In this work, we introduce a novel approach termed imbalanced label coupling to investigate scenarios where simple and complex features exhibit different levels of predictive power. In these cases, complex features still contribute to predictions. The trained networks make predictions in alignment with the ascending complexity of input features according to how they correlate with the label in the training set, irrespective of the underlying predictive power. For instance, even when simple spurious features distort predictions in CIFAR-10, most cats are predicted to be dogs, and most trucks are predicted to be automobiles! This observation provides direct evidence that the neural network learns core features in the presence of spurious features. We empirically show that last-layer retraining with target data distribution is effective, yet insufficient to fully recover core features when spurious features are perfectly correlated with the target labels in our synthetic dataset. We hope our research contributes to a deeper understanding of the implicit bias of neural networks.
翻訳日:2023-11-07 16:40:36 公開日:2023-11-05
# 教師なしシナリオにおけるAIOpsによるログ異常検出の強化

AIOps-Driven Enhancement of Log Anomaly Detection in Unsupervised Scenarios ( http://arxiv.org/abs/2311.02621v1 )

ライセンス: Link先を確認
Daksh Dave, Gauransh Sawhney, Dhruv Khut, Sahil Nawale, Pushkar Aggrawal, Prasenjit Bhavathankar(参考訳) 人工知能操作(AIOps)は、異常なシステム行動や警告を特定し、緩和し、分析する上で重要な役割を果たす。 しかし、この分野の研究環境は限定的であり、大きなギャップは未調査のままである。 本研究では,教師なし戦略を組み込んだ革新的なアルゴリズムによる新しいハイブリッドフレームワークを提案する。 この戦略は主成分分析(pca)と人工ニューラルネットワーク(anns)を統合し、カスタム損失関数を使用してログ異常検出の有効性を大幅に向上させる。 提案したアプローチは、SockShopとHadoop Distributed File System(HDFS)のログを含む、シミュレーションと実世界の両方のデータセットの利用を含んでいる。 実験結果は有望であり, 偽陽性例は有意に減少した。 さらに、この戦略には、生の未処理形式でログを処理する機能や、さらなる拡張の可能性など、注目すべきメリットがある。 このアプローチの実装が成功したことにより,異常なログが著しく減少し,提案手法の有効性が明らかとなった。 最終的に、この研究はAIOpsプラットフォーム内でのログ異常検出の進歩に大きく貢献し、現代および複雑なシステムにおける効率的かつ効率的なログ分析のクリティカルなニーズに対処する。

Artificial intelligence operations (AIOps) play a pivotal role in identifying, mitigating, and analyzing anomalous system behaviors and alerts. However, the research landscape in this field remains limited, leaving significant gaps unexplored. This study introduces a novel hybrid framework through an innovative algorithm that incorporates an unsupervised strategy. This strategy integrates Principal Component Analysis (PCA) and Artificial Neural Networks (ANNs) and uses a custom loss function to substantially enhance the effectiveness of log anomaly detection. The proposed approach encompasses the utilization of both simulated and real-world datasets, including logs from SockShop and Hadoop Distributed File System (HDFS). The experimental results are highly promising, demonstrating significant reductions in pseudo-positives. Moreover, this strategy offers notable advantages, such as the ability to process logs in their raw, unprocessed form, and the potential for further enhancements. The successful implementation of this approach showcases a remarkable reduction in anomalous logs, thus unequivocally establishing the efficacy of the proposed methodology. Ultimately, this study makes a substantial contribution to the advancement of log anomaly detection within AIOps platforms, addressing the critical need for effective and efficient log analysis in modern and complex systems.
翻訳日:2023-11-07 16:40:14 公開日:2023-11-05
# TFNet: 建物の足跡抽出改善のための隣接画素集合を用いたチューニングフォークネットワーク

TFNet: Tuning Fork Network with Neighborhood Pixel Aggregation for Improved Building Footprint Extraction ( http://arxiv.org/abs/2311.02617v1 )

ライセンス: Link先を確認
Muhammad Ahmad Waseem, Muhammad Tahir, Zubair Khalid, and Momin Uppal(参考訳) 本稿では,衛星画像からビルの足跡を抽出するという課題について考察する。 ディープラーニングの最近の進歩は、建物の足跡の自動検出において大きな進歩を遂げているが、既存の文献で利用可能な最先端の手法は、密集した建物のある地域では誤った結果を生み出すことが多い。 さらに、これらの手法は訓練中に近傍画像のコンテキストを組み込まないため、画像境界における性能が低下する。 これらのギャップを考慮し,広範に配置された建物だけでなく,密集した建物にも優れた性能を有する,深層セマンティックセグメンテーションのための新しいチューニングフォークネットワーク(TFNet)の設計を提案する。 TFNetアーキテクチャの斬新さは、1つのエンコーダと2つの並列デコーダに続き、ビルのフットプリントとビルディングエッジを別々に再構築する。 さらに、tfnetの設計には、トレーニングプロセス中にタイル境界に周辺情報を組み込む新しい手法が組み合わされている。 この手法は、特にタイル境界におけるパフォーマンスをさらに向上させる。 パフォーマンス比較では、SpaceNet2とWHUのデータセットと、密接な接続された建物をキャプチャするパキスタンのラホールのエリアからのデータセットを使用します。 これら3つのデータセットに対して,提案手法はベンチマーク手法よりも優れていた。

This paper considers the problem of extracting building footprints from satellite imagery -- a task that is critical for many urban planning and decision-making applications. While recent advancements in deep learning have made great strides in automated detection of building footprints, state-of-the-art methods available in existing literature often generate erroneous results for areas with densely connected buildings. Moreover, these methods do not incorporate the context of neighborhood images during training thus generally resulting in poor performance at image boundaries. In light of these gaps, we propose a novel Tuning Fork Network (TFNet) design for deep semantic segmentation that not only performs well for widely-spaced building but also has good performance for buildings that are closely packed together. The novelty of TFNet architecture lies in a a single encoder followed by two parallel decoders to separately reconstruct the building footprint and the building edge. In addition, the TFNet design is coupled with a novel methodology of incorporating neighborhood information at the tile boundaries during the training process. This methodology further improves performance, especially at the tile boundaries. For performance comparisons, we utilize the SpaceNet2 and WHU datasets, as well as a dataset from an area in Lahore, Pakistan that captures closely connected buildings. For all three datasets, the proposed methodology is found to significantly outperform benchmark methods.
翻訳日:2023-11-07 16:39:47 公開日:2023-11-05
# 包括型マルチホップエビデンス検索のためのディバイド・コンバータ

Divide & Conquer for Entailment-aware Multi-hop Evidence Retrieval ( http://arxiv.org/abs/2311.02616v1 )

ライセンス: Link先を確認
Fan Luo, Mihai Surdeanu(参考訳) 語彙と意味の一致は、情報検索の関連測度として一般的に用いられる。 共に、クエリと候補の間の意味的等価性を見積もる。 しかし、マルチホップ質問の証拠を検索する際に考慮する必要があるのは、意味同値だけではない。 本研究は,テキストの包含関係が,考慮すべき重要な関連性次元であることを示す。 質問と意味的に等価な証拠を同時に検索するために、マルチホップ質問応答(qa)の証拠検索タスクを2つのサブタスク、すなわち意味テキストの類似性と推論の類似性検索に分割する。 そこで本研究では,各サブタスクに個別に対処し,多様な関連信号を考慮した文を並べ替える2つのアンサンブルモデル EAR と EARnest を提案する。 hotpotqaの実験結果は、我々のモデルがベースとなる1つの検索モデルすべてよりも著しく優れるだけでなく、2つの直感的なアンサンブルベースラインモデルよりも効果的であることを検証している。

Lexical and semantic matches are commonly used as relevance measurements for information retrieval. Together they estimate the semantic equivalence between the query and the candidates. However, semantic equivalence is not the only relevance signal that needs to be considered when retrieving evidences for multi-hop questions. In this work, we demonstrate that textual entailment relation is another important relevance dimension that should be considered. To retrieve evidences that are either semantically equivalent to or entailed by the question simultaneously, we divide the task of evidence retrieval for multi-hop question answering (QA) into two sub-tasks, i.e., semantic textual similarity and inference similarity retrieval. We propose two ensemble models, EAR and EARnest, which tackle each of the sub-tasks separately and then jointly re-rank sentences with the consideration of the diverse relevance signals. Experimental results on HotpotQA verify that our models not only significantly outperform all the single retrieval models it is based on, but is also more effective than two intuitive ensemble baseline models.
翻訳日:2023-11-07 16:39:24 公開日:2023-11-05
# ゼロショット異常検出のためのVQA指向GPT-4Vの接地電位探索

Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2311.02612v1 )

ライセンス: Link先を確認
Jiangning Zhang, Xuhai Chen, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu(参考訳) 大規模マルチモーダルモデル (lmm) gpt-4v (ision) endows gpt-4 は視覚接地機能を備えており、視覚質問応答 (vqa) パラダイムを通じて特定のタスクを処理できる。 本稿では,最近普及している視覚異常検出(AD)におけるVQA指向のGPT-4Vの可能性について検討し,MVTec ADとVisAデータセットの質的,定量的な評価を行った。 このタスクは画像/ピクセルレベルの評価を必要とするため,提案したGPT-4V-ADフレームワークには3つのコンポーネントが含まれている。 1)粒状地域区分 2)プロンプト設計 3) 簡易な定量的評価のためのtext2セグメンテーションと, 比較分析のためのいくつかの異なる試みを行った。 その結果,MVTec AD と VisA のデータセット上で,画像レベル 77.1/88.0 と画素レベル 68.0/76.6 AU-ROC をそれぞれ達成するなど,VQA パラダイムによるゼロショット AD タスクにおいて,GPT-4V が一定の結果を得ることができた。 しかし、その性能は、WinCLIP ann CLIP-ADのような最先端のゼロショット法と比較しても一定の差があり、さらなる研究が必要である。 本研究は, ゼロショットADタスクにおけるVQA指向LMMの研究の基準となる基準を提供するとともに, いくつかの今後の課題も提示する。 コードは \url{https://github.com/zhangzjn/gpt-4v-ad} で入手できる。

Large Multimodal Model (LMM) GPT-4V(ision) endows GPT-4 with visual grounding capabilities, making it possible to handle certain tasks through the Visual Question Answering (VQA) paradigm. This paper explores the potential of VQA-oriented GPT-4V in the recently popular visual Anomaly Detection (AD) and is the first to conduct qualitative and quantitative evaluations on the popular MVTec AD and VisA datasets. Considering that this task requires both image-/pixel-level evaluations, the proposed GPT-4V-AD framework contains three components: 1) Granular Region Division, 2) Prompt Designing, 3) Text2Segmentation for easy quantitative evaluation, and have made some different attempts for comparative analysis. The results show that GPT-4V can achieve certain results in the zero-shot AD task through a VQA paradigm, such as achieving image-level 77.1/88.0 and pixel-level 68.0/76.6 AU-ROCs on MVTec AD and VisA datasets, respectively. However, its performance still has a certain gap compared to the state-of-the-art zero-shot method, e.g., WinCLIP ann CLIP-AD, and further research is needed. This study provides a baseline reference for the research of VQA-oriented LMM in the zero-shot AD task, and we also post several possible future works. Code is available at \url{https://github.com/zhangzjn/GPT-4V-AD}.
翻訳日:2023-11-07 16:39:05 公開日:2023-11-05
# 箱内の量子力学的粒子に対する$\delta$分布電位の影響

The effect of a $\delta$ distribution potential on a quantum mechanical particle in a box ( http://arxiv.org/abs/2311.02611v1 )

ライセンス: Link先を確認
Pedro Martins Gir\~ao and Jo\~ao Pedro Nunes(参考訳) 我々は、$\delta$分布ポテンシャルが$x_0\geq 0$に置かれ、パラメータ$\alpha$が、セグメント$\left[-\,\frac{L}{2},\frac{L}{2}\right]$の上の無限の正方形の量子力学粒子に乗じる影響を調べた。 時間独立なSchr\"{o}dinger方程式の固有関数の極限を$\alpha\nearrow+\infty$、$\alpha\searrow-\infty$として得る。 シュル「{o}dinger} 方程式の各解が $\alpha=0$ に一致するのを見て、$\alpha$ が実数直線を通る。 x_0$ が$L$ の有理倍であるとき、Schr\"{o}dinger 方程式の解が存在し、$x_0$ で消え、$\alpha$ の値に影響されない。 それぞれが、$|\alpha|\to\infty$ を取ることによって得られるある極限固有関数のエネルギーと一致するエネルギーを持つことを示す。 制限固有関数に等しい波動関数を持つ粒子の位置の期待値は、$x_0$である。

We study the effect of a $\delta$ distribution potential placed at $x_0\geq 0$ and multiplied by a parameter $\alpha$ on a quantum mechanical particle in an infinite square well over the segment $\left[-\,\frac{L}{2},\frac{L}{2}\right]$. We obtain the limit of the eigenfunctions of the time independent Schr\"{o}dinger equation as $\alpha\nearrow+\infty$ and as $\alpha\searrow-\infty$. We see how each solution of the Schr\"{o}dinger equation corresponding to $\alpha=0$ changes as $\alpha$ runs through the real line. When $x_0$ is a rational multiple of $L$, there exist solutions of the Schr\"{o}dinger equation which vanish at $x_0$ and are unaffected by the value of $\alpha$. We show that each one of these has an energy that coincides with the energy of a certain limiting eigenfunction obtained by taking $|\alpha|\to\infty$. The expectation value of the position of a particle with wave function equal to the limiting eigenfunction is $x_0$.
翻訳日:2023-11-07 16:38:34 公開日:2023-11-05
# 日頭電力価格予測のための適応的標準化モデル

An adaptive standardisation model for Day-Ahead electricity price forecasting ( http://arxiv.org/abs/2311.02610v1 )

ライセンス: Link先を確認
Carlos Sebasti\'an, Carlos E. Gonz\'alez-Guill\'en, Jes\'us Juan(参考訳) 電力市場における日頭価格の研究は、時系列予測における最も一般的な問題の一つである。 これまでの研究は、市場の高度なダイナミクスを捉えるために、ますます複雑な学習アルゴリズムを採用することに重点を置いてきた。 しかし、複雑さが増大しても大幅な改善が得られないしきい値が存在する。 本研究では,市場において一般的に発生するデータセットシフトの影響を軽減するための適応標準化を導入することで,代替手法を提案する。 これにより、学習アルゴリズムは、対象変数と説明変数の真の関係を明らかにすることを優先することができる。 文献で未検討の2つの新しいデータセットを含む4つの異なる市場を調査した。 これらのデータセットは、従来のデータセットが示さない現在の市場コンテキストをより現実的な表現を提供する。 その結果,4つの市場において,より複雑で広く受け入れられている学習アルゴリズムを用いることで,大幅な改善が示された。 この大きな進歩は、予測モデルの性能を高めるための適応変換の可能性を強調し、この分野の新しい研究ラインを開く。

The study of Day-Ahead prices in the electricity market is one of the most popular problems in time series forecasting. Previous research has focused on employing increasingly complex learning algorithms to capture the sophisticated dynamics of the market. However, there is a threshold where increased complexity fails to yield substantial improvements. In this work, we propose an alternative approach by introducing an adaptive standardisation to mitigate the effects of dataset shifts that commonly occur in the market. By doing so, learning algorithms can prioritize uncovering the true relationship between the target variable and the explanatory variables. We investigate four distinct markets, including two novel datasets, previously unexplored in the literature. These datasets provide a more realistic representation of the current market context, that conventional datasets do not show. The results demonstrate a significant improvement across all four markets, using learning algorithms that are less complex yet widely accepted in the literature. This significant advancement unveils opens up new lines of research in this field, highlighting the potential of adaptive transformations in enhancing the performance of forecasting models.
翻訳日:2023-11-07 16:38:09 公開日:2023-11-05
# ディープラーニングに基づく3Dポイントクラウド分類:システム調査と展望

Deep Learning-based 3D Point Cloud Classification: A Systematic Survey and Outlook ( http://arxiv.org/abs/2311.02608v1 )

ライセンス: Link先を確認
Huang Zhang, Changshuo Wang, Shengwei Tian, Baoli Lu, Liping Zhang, Xin Ning, Xiao Bai(参考訳) 近年、ポイントクラウドの表現はコンピュータビジョンの分野での研究ホットスポットの1つとなり、自律運転、仮想現実、ロボット工学など多くの分野で広く利用されている。 ディープラーニング技術は、通常の2Dグリッド画像データの処理において大きな成功を収めてきたが、不規則で非構造化のクラウドデータの処理には依然として大きな課題がある。 ポイントクラウド分類はポイントクラウド分析の基礎であり、多くのディープラーニングベースの手法がこのタスクで広く使われている。 そこで本稿の目的は,この分野の研究者に最新の研究動向と今後の動向を提供することである。 まず,ポイントクラウドの獲得,特性,課題について紹介する。 第2に,ポイントクラウド分類のための3次元データ表現,ストレージフォーマット,一般的なデータセットについて検討する。 次に,ポイントクラウド分類のための深層学習に基づく手法を要約し,最近の研究成果を補完する。 次に,本手法の性能を比較し,解析する。 最後に,ポイントクラウド分類の課題と今後の方向性について述べる。

In recent years, point cloud representation has become one of the research hotspots in the field of computer vision, and has been widely used in many fields, such as autonomous driving, virtual reality, robotics, etc. Although deep learning techniques have achieved great success in processing regular structured 2D grid image data, there are still great challenges in processing irregular, unstructured point cloud data. Point cloud classification is the basis of point cloud analysis, and many deep learning-based methods have been widely used in this task. Therefore, the purpose of this paper is to provide researchers in this field with the latest research progress and future trends. First, we introduce point cloud acquisition, characteristics, and challenges. Second, we review 3D data representations, storage formats, and commonly used datasets for point cloud classification. We then summarize deep learning-based methods for point cloud classification and complement recent research work. Next, we compare and analyze the performance of the main methods. Finally, we discuss some challenges and future directions for point cloud classification.
翻訳日:2023-11-07 16:37:55 公開日:2023-11-05
# 自律型ロボットがヘルスケアのループを閉じるのに役立てる「Get the Ball Rolling」

Get the Ball Rolling: Alerting Autonomous Robots When to Help to Close the Healthcare Loop ( http://arxiv.org/abs/2311.02602v1 )

ライセンス: Link先を確認
Jiaxin Shen, Yanyao Liu, Ziming Wang, Ziyuan Jiao, Yufeng Chen, Wenjuan Han(参考訳) 人間の介入や指示なしに医療ロボットの研究を促進するため,我々は大規模データセットをクラウドソーシングした自律ヘルプチャレンジを紹介した。 目標は、支援が必要なタイミングを判断する能力を持つヘルスケアロボットを作成し、計画を支援する有用なサブタスクを生成し、物理的ロボットを通じてこれらの計画を実行し、新しいタスクを生成し、プロセスを継続するために環境からのフィードバックを受け取ることである。 オープンなシナリオにおける一般的な課題の他に、autonomous helpは、自律的なタスク生成、現在の状況と静的コモンセンスのギャップ、言語インストラクションと現実世界のギャップという3つの特定の課題に焦点を当てている。 さらに,学習フリー環境において,医療ループを閉じる潜在的アプローチである helpy を提案する。

To facilitate the advancement of research in healthcare robots without human intervention or commands, we introduce the Autonomous Helping Challenge, along with a crowd-sourcing large-scale dataset. The goal is to create healthcare robots that possess the ability to determine when assistance is necessary, generate useful sub-tasks to aid in planning, carry out these plans through a physical robot, and receive feedback from the environment in order to generate new tasks and continue the process. Besides the general challenge in open-ended scenarios, Autonomous Helping focuses on three specific challenges: autonomous task generation, the gap between the current scene and static commonsense, and the gap between language instruction and the real world. Additionally, we propose Helpy, a potential approach to close the healthcare loop in the learning-free setting.
翻訳日:2023-11-07 16:37:40 公開日:2023-11-05
# エネルギーモデルによる点雲からの暗黙的神経表現の最適化

Optimizing Implicit Neural Representations from Point Clouds via Energy-Based Models ( http://arxiv.org/abs/2311.02601v1 )

ライセンス: Link先を確認
Ryutaro Yamauchi, Jinya Sakurai, Ryo Furukawa, Tatsushi Matsubayashi(参考訳) 未熟な3dポイントクラウドから連続した表面を再構築することは、3d形状処理の基本的なタスクである。 近年,暗黙的神経表現(INR)を用いてこの問題に対処する手法が提案されている。 本研究では,エネルギーモデル(EBM)を用いたINRの最適化手法を提案する。 座標ベースニューラルネットワークの絶対値をエネルギー関数として利用することにより、ESMによる点雲分布の推定によりINRを最適化することができる。 さらに、ESMの適切なパラメータ設定により、モデルは点雲のノイズの大きさを考慮できる。 実験により,提案手法は従来の表面再構成法よりも点雲ノイズに対して頑健であることが確認された。

Reconstructing a continuous surface from an unoritented 3D point cloud is a fundamental task in 3D shape processing. In recent years, several methods have been proposed to address this problem using implicit neural representations (INRs). In this study, we propose a method to optimize INRs using energy-based models (EBMs). By employing the absolute value of the coordinate-based neural networks as the energy function, the INR can be optimized through the estimation of the point cloud distribution by the EBM. In addition, appropriate parameter settings of the EBM enable the model to consider the magnitude of point cloud noise. Our experiments confirmed that the proposed method is more robust against point cloud noise than conventional surface reconstruction methods.
翻訳日:2023-11-07 16:37:26 公開日:2023-11-05
# 単元オープンドメイン一般化のための学習クラスとドメイン拡張

Learning Class and Domain Augmentations for Single-Source Open-Domain Generalization ( http://arxiv.org/abs/2311.02599v1 )

ライセンス: Link先を確認
Prathmesh Bele, Valay Bundele, Avigyan Bhattacharya, Ankit Jha, Gemma Roig, Biplab Banerjee(参考訳) single-source open-domain generalization (ss-odg)は、トレーニング中にラベル付きソースドメイン、テスト中にラベルなしの新しいターゲットドメインの課題に対処する。 ターゲットドメインは、ソースドメインからの既知のクラスと、以前に見つからなかったクラスからのサンプルの両方を含む。 SS-ODGの既存の技術は主にソースドメイン分類器を校正し、ターゲットドメイン内のオープンサンプルを識別することに焦点を当てている。 しかし、これらのメソッドは視覚的にきめ細かいオープンクローズドデータに苦労し、しばしばオープンサンプルをクローズドセットクラスとして誤分類する。 さらに、単一のソースドメインのみに依存することは、モデルを一般化する能力を制限する。 これらの制約を克服するため,本論文でよく見られるアドホック混合戦略とは対照的に,新しいドメインを同時に合成し,学習目的を用いて擬似オープンサンプルを生成するSODG-Netという新しいフレームワークを提案する。 提案手法は,新しい計量基準を用いて既知のクラスサンプルのスタイルを多様化し,多様な擬似オープンサンプルを生成し,オープン・アンド・クローズド・セットデータの両方を扱える統一かつ確実なマルチクラス分類器を訓練することにより,一般化を促進する。 複数のベンチマークで実施した大規模な実験により,SODG-Netの性能は文献と比較して一貫して向上した。

Single-source open-domain generalization (SS-ODG) addresses the challenge of labeled source domains with supervision during training and unlabeled novel target domains during testing. The target domain includes both known classes from the source domain and samples from previously unseen classes. Existing techniques for SS-ODG primarily focus on calibrating source-domain classifiers to identify open samples in the target domain. However, these methods struggle with visually fine-grained open-closed data, often misclassifying open samples as closed-set classes. Moreover, relying solely on a single source domain restricts the model's ability to generalize. To overcome these limitations, we propose a novel framework called SODG-Net that simultaneously synthesizes novel domains and generates pseudo-open samples using a learning-based objective, in contrast to the ad-hoc mixing strategies commonly found in the literature. Our approach enhances generalization by diversifying the styles of known class samples using a novel metric criterion and generates diverse pseudo-open samples to train a unified and confident multi-class classifier capable of handling both open and closed-set data. Extensive experimental evaluations conducted on multiple benchmarks consistently demonstrate the superior performance of SODG-Net compared to the literature.
翻訳日:2023-11-07 16:37:14 公開日:2023-11-05
# GNNを用いたホログラフィー推定による自動カメラ校正

Automated Camera Calibration via Homography Estimation with GNNs ( http://arxiv.org/abs/2311.02598v1 )

ライセンス: Link先を確認
Giacomo D'Amicantonio, Egor Bondarev, Peter H.N. De With(参考訳) 過去数十年で、交通監視のためのカメラベースのアプリケーションが大幅に増加した。 政府や地方自治体は、これらのカメラから収集したデータを利用して道路の安全性を高め、交通条件を最適化している。 しかし、効果的なデータ利用には、関連するカメラの正確な自動キャリブレーションが不可欠である。 本稿では,交差点のトポロジ的構造を利用して,この課題に対処する新しい手法を提案する。 本稿では,鳥眼視画像から合成交叉視点画像の集合を生成するための仮想カメラのグラフとしてフレーム化されたフレームワークを提案する。 グラフニューラルネットワークの能力を用いて,このグラフ内の関係を効果的に学習し,ホモグラフィ行列の推定を容易にする。 この推定は実世界のカメラの近傍表現を活用し、単一のマッチングではなく複数の画像を活用することで拡張される。 逆に、ホモグラフィ行列は外因性キャリブレーションパラメータの検索を可能にする。 その結果、提案フレームワークは、合成データセットと実世界のカメラの両方で優れた性能を示し、新しい最先端のベンチマークを設定できる。

Over the past few decades, a significant rise of camera-based applications for traffic monitoring has occurred. Governments and local administrations are increasingly relying on the data collected from these cameras to enhance road safety and optimize traffic conditions. However, for effective data utilization, it is imperative to ensure accurate and automated calibration of the involved cameras. This paper proposes a novel approach to address this challenge by leveraging the topological structure of intersections. We propose a framework involving the generation of a set of synthetic intersection viewpoint images from a bird's-eye-view image, framed as a graph of virtual cameras to model these images. Using the capabilities of Graph Neural Networks, we effectively learn the relationships within this graph, thereby facilitating the estimation of a homography matrix. This estimation leverages the neighbourhood representation for any real-world camera and is enhanced by exploiting multiple images instead of a single match. In turn, the homography matrix allows the retrieval of extrinsic calibration parameters. As a result, the proposed framework demonstrates superior performance on both synthetic datasets and real-world cameras, setting a new state-of-the-art benchmark.
翻訳日:2023-11-07 16:36:51 公開日:2023-11-05
# 回転波近似と再正規化摂動理論

Rotating wave approximation and renormalized perturbation theory ( http://arxiv.org/abs/2311.02670v1 )

ライセンス: Link先を確認
Peng Wang, Erik Hiltunen, John C Schotland(参考訳) 回転波近似(RWA)は、2レベル系の量子力学において中心的な役割を果たす。 漸近解析に対する再正規化群アプローチを用いてrwaの補正を導出する。 我々はrabiモデルとjaynes-cummingsモデルの両方を調査し,解析結果を数値計算と比較した。

The rotating wave approximation (RWA) plays a central role in the quantum dynamics of two-level systems. We derive corrections to the RWA using the renormalization group approach to asymptotic analysis. We study both the Rabi and Jaynes-Cummings models and compare our analytical results with numerical calculations.
翻訳日:2023-11-07 16:29:37 公開日:2023-11-05
# ディジタル台風:熱帯サイクロンの時空間モデリングのための長期衛星画像データセット

Digital Typhoon: Long-term Satellite Image Dataset for the Spatio-Temporal Modeling of Tropical Cyclones ( http://arxiv.org/abs/2311.02665v1 )

ライセンス: Link先を確認
Asanobu Kitamoto and Jared Hwang and Bastien Vuillod and Lucas Gautier and Yingtao Tian and Tarin Clanuwat(参考訳) 本稿では,長期時空間データを対象とした機械学習モデルのベンチマークを目的とした,40年以上にわたる台風衛星画像データセットであるDigital Typhoonデータセットの公式リリースについて述べる。 このデータセットを構築するために,最良トラックデータを参照して,ランベルト・アジミュタール等領域投影を用いた赤外台風中心のクロッピング画像を作成するワークフローを開発した。 また、同種データセットを作成するために、衛星間キャリブレーションなどのデータ品質の問題にも対処する。 データセットを活用するために、推論のタイプとターゲットによる機械学習タスクと、気象分析、社会への影響、気候変動のための他のタスクを編成しました。 分析,予測,再解析の結果から,近年のディープラーニングモデルでは,さまざまなモデルのパフォーマンスに影響を与える選択肢が多いため,データセットが困難であることが示唆された。 このデータセットは、機械学習研究者が熱帯サイクロンと呼ばれる大規模な現実世界のイベントに遭遇する障壁を減らし、熱帯サイクロンに関する科学的知識の進歩に寄与し、災害の低減や気候変動といった社会的および持続可能性の問題を解決する機械学習モデルを開発する。 データセットはhttp://agora.ex.nii.ac.jp/digital-typhoon/dataset/とhttps://github.com/kitamoto-lab/digital-typhoon/で公開されている。

This paper presents the official release of the Digital Typhoon dataset, the longest typhoon satellite image dataset for 40+ years aimed at benchmarking machine learning models for long-term spatio-temporal data. To build the dataset, we developed a workflow to create an infrared typhoon-centered image for cropping using Lambert azimuthal equal-area projection referring to the best track data. We also address data quality issues such as inter-satellite calibration to create a homogeneous dataset. To take advantage of the dataset, we organized machine learning tasks by the types and targets of inference, with other tasks for meteorological analysis, societal impact, and climate change. The benchmarking results on the analysis, forecasting, and reanalysis for the intensity suggest that the dataset is challenging for recent deep learning models, due to many choices that affect the performance of various models. This dataset reduces the barrier for machine learning researchers to meet large-scale real-world events called tropical cyclones and develop machine learning models that may contribute to advancing scientific knowledge on tropical cyclones as well as solving societal and sustainability issues such as disaster reduction and climate change. The dataset is publicly available at http://agora.ex.nii.ac.jp/digital-typhoon/dataset/ and https://github.com/kitamoto-lab/digital-typhoon/.
翻訳日:2023-11-07 16:29:34 公開日:2023-11-05
# Vehicular Ad-hoc Networks (VANETs) を用いた低レイテンシHEVCストリーミングのための適応型クロスレイヤー方式

Enhanced adaptive cross-layer scheme for low latency HEVC streaming over Vehicular Ad-hoc Networks (VANETs) ( http://arxiv.org/abs/2311.02664v1 )

ライセンス: Link先を確認
Mohamed Aymen Labiod, Mohamed Gharbi, Fran\c{c}ois-Xavier Coudoux, Patrick Corlay and Noureddine Doghmane(参考訳) 車両通信は様々な応用によって導かれる現実となった。 中でもリアルタイムアプリケーションに必要なレイテンシの制約が低いビデオ品質のデリバリは非常に難しい作業です。 未達成の圧縮レベルを下げることで、新しい高効率ビデオ符号化(HEVC)はVehicular Ad-hoc Networks(VANET)によるリアルタイムビデオストリーミングに非常に有望である。 しかし、これらのネットワークはチャンネル品質と帯域幅の制限がある。 したがって、そのようなネットワーク上で十分なビデオ品質を確保することは大きな課題である。 本研究では,低遅延制約下でのVANETにおけるHEVCビデオストリーミングのエンドツーエンド性能を改善するために,低複雑性層間機構を提案する。 その考え方は、ビデオ符号化プロセスの時間的予測構造、フレームの重要性、ネットワークトラフィック負荷の状況を考慮して、送信されたビデオの各パケットに、メディアアクセス制御(MAC)層上で最も適切なアクセスカテゴリ(AC)キューを割り当てることである。 シミュレーションの結果,802.11p で採用されている分散チャネルアクセス (EDCA) と比較して,様々な低遅延ビデオ通信シナリオに対して,受信時の映像品質とエンドツーエンド遅延に関する大幅な改善が見られた。 QoS(Quality of Service)とQoE(Quality of Experience)の評価も提案手法を検証するために実施されている。

Vehicular communication has become a reality guided by various applications. Among those, high video quality delivery with low latency constraints required by real-time applications constitutes a very challenging task. By dint of its never-before-achieved compression level, the new High-Efficiency Video Coding (HEVC) is very promising for real-time video streaming through Vehicular Ad-hoc Networks (VANET). However, these networks have variable channel quality and limited bandwidth. Therefore, ensuring satisfactory video quality on such networks is a major challenge. In this work, a low complexity cross-layer mechanism is proposed to improve end-to-end performances of HEVC video streaming in VANET under low delay constraints. The idea is to assign to each packet of the transmitted video the most appropriate Access Category (AC) queue on the Medium Access Control (MAC) layer, considering the temporal prediction structure of the video encoding process, the importance of the frame and the state of the network traffic load. Simulation results demonstrate that for different targeted low-delay video communication scenarios, the proposed mechanism offers significant improvements regarding video quality at the reception and end-to-end delay compared to the Enhanced Distributed Channel Access (EDCA) adopted in the 802.11p. Both Quality of Service (QoS) and Quality of Experience (QoE) evaluations have been also carried out to validate the proposed approach.
翻訳日:2023-11-07 16:29:08 公開日:2023-11-05
# ccmr: 粗視から微視への動き推論による高分解能光フロー推定

CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine Context-Guided Motion Reasoning ( http://arxiv.org/abs/2311.02661v1 )

ライセンス: Link先を確認
Azin Jahedi, Maximilian Luz, Marc Rivinius, Andr\'es Bruhn(参考訳) 注意に基づくモーションアグリゲーションの概念は、特に閉塞領域の処理において、光学的フロー推定に有用であることを示した。 しかし、その複雑さのため、そのような概念は主に、高解像度のマルチスケールネットワークの詳細な結果を提供するのに失敗する粗大な単一スケールのアプローチに限られている。 そこで本稿では,注目に基づく動きのグルーピングの概念を応用した高分解能粗度アプローチであるCCMRを提案する。 CCMRは階層的な2段階の注意に基づくコンテキスト・モーション・グルーピング戦略に依存しており、まずグローバルなマルチスケールのコンテキスト特徴を計算し、それから実際のモーション・グルーピングを導く。 すべての粗いスケールから細いスケールへのステップを繰り返すと、クロス共分散画像変換器を適応させ、スケール依存特性を維持しながら効率的な実現を可能にします。 実験と改善は、マルチスケールとアテンションに基づく概念を組み合わせる努力が報われることを示している。 閉塞領域と非閉塞領域の両方で強い改善を施した高精細な流れ場を提供することで、CCMRアプローチは、対応するシングルスケールの注意ベースベースとマルチスケールの注意ベースの両方を最大23.0%、21.6%上回るだけでなく、最先端の結果も達成し、KITTI 2015とMPIシンテルクリーンとファイナルで第2位にランクインした。 コードとトレーニングされたモデルはhttps://github.com/cv-stuttgart/ccmrで利用可能である。

Attention-based motion aggregation concepts have recently shown their usefulness in optical flow estimation, in particular when it comes to handling occluded regions. However, due to their complexity, such concepts have been mainly restricted to coarse-resolution single-scale approaches that fail to provide the detailed outcome of high-resolution multi-scale networks. In this paper, we hence propose CCMR: a high-resolution coarse-to-fine approach that leverages attention-based motion grouping concepts to multi-scale optical flow estimation. CCMR relies on a hierarchical two-step attention-based context-motion grouping strategy that first computes global multi-scale context features and then uses them to guide the actual motion grouping. As we iterate both steps over all coarse-to-fine scales, we adapt cross covariance image transformers to allow for an efficient realization while maintaining scale-dependent properties. Experiments and ablations demonstrate that our efforts of combining multi-scale and attention-based concepts pay off. By providing highly detailed flow fields with strong improvements in both occluded and non-occluded regions, our CCMR approach not only outperforms both the corresponding single-scale attention-based and multi-scale attention-free baselines by up to 23.0% and 21.6%, respectively, it also achieves state-of-the-art results, ranking first on KITTI 2015 and second on MPI Sintel Clean and Final. Code and trained models are available at https://github.com/cv-stuttgart /CCMR.
翻訳日:2023-11-07 16:28:44 公開日:2023-11-05
# LLMによるクロスドメイン領域の自己学習

LLM-enhanced Self-training for Cross-domain Constituency Parsing ( http://arxiv.org/abs/2311.02660v1 )

ライセンス: Link先を確認
Jianling Li, Meishan Zhang, Peiming Guo, Min Zhang, Yue Zhang(参考訳) 自己学習はクロスドメインタスクに効果的なアプローチであることが証明されており,本研究はクロスドメイン構成構文解析への応用を検討する。 従来のセルフトレーニング手法は、限定的で潜在的に低品質な生コーパスに依存している。 この制限を克服するため、我々は大規模言語モデル(LLM)による自己学習の強化を提案し、ドメイン固有の生コーパスを反復的に生成する。 選挙区構文解析では,LLMが生コーパスを生成する際の文法規則を導入し,擬似インスタンスの選択基準を確立する。 実験結果から, LLMを内蔵した選挙区構文解析のための自己学習は, LLMの性能に関わらず従来の手法よりも優れていることが示された。 さらに、疑似データ選択における文法規則と信頼基準の組み合わせは、クロスドメイン選挙区解析における最高の性能をもたらす。

Self-training has proven to be an effective approach for cross-domain tasks, and in this study, we explore its application to cross-domain constituency parsing. Traditional self-training methods rely on limited and potentially low-quality raw corpora. To overcome this limitation, we propose enhancing self-training with the large language model (LLM) to generate domain-specific raw corpora iteratively. For the constituency parsing, we introduce grammar rules that guide the LLM in generating raw corpora and establish criteria for selecting pseudo instances. Our experimental results demonstrate that self-training for constituency parsing, equipped with an LLM, outperforms traditional methods regardless of the LLM's performance. Moreover, the combination of grammar rules and confidence criteria for pseudo-data selection yields the highest performance in the cross-domain constituency parsing.
翻訳日:2023-11-07 16:28:11 公開日:2023-11-05
# Vehicular Ad-hoc NETworks (VANETs)上のリアルタイムビデオストリーミングのためのROIに基づく適応型クロスレイヤーシステム

Region of Interest (ROI) based adaptive cross-layer system for real-time video streaming over Vehicular Ad-hoc NETworks (VANETs) ( http://arxiv.org/abs/2311.02656v1 )

ライセンス: Link先を確認
Mohamed Aymen Labiod, Mohamed Gharbi, Fran\c{c}ois-Xavier Coudoux, and Patrick Corlay(参考訳) 現在、リアルタイム車両アプリケーションは、運転環境における車両や障害物の検出や識別のために、ビデオ取得や処理に依存するようになっている。 本稿では,車載環境下での映像伝送品質の向上により,これらの操作の強化を可能にするアルゴリズムを提案する。 提案する低複雑性ソリューションは,運転環境の認識に基づく関心領域(roi)に対して,最も優先度の高い優先度を与える。 これは、IEEE 802.11p MAC層におけるROI視覚データパケットの適応的な層間マッピングを適用することで実現される。 現実的なVANETシミュレーションの結果、HEVC圧縮ビデオ通信では、提案システムはROI部に最大11dBのPSNRゲインを提供する。

Nowadays, real-time vehicle applications increasingly rely on video acquisition and processing to detect or even identify vehicles and obstacles in the driving environment. In this letter, we propose an algorithm that allows reinforcing these operations by improving end-to-end video transmission quality in a vehicular context. The proposed low complexity solution gives highest priority to the scene regions of interest (ROI) on which the perception of the driving environment is based on. This is done by applying an adaptive cross-layer mapping of the ROI visual data packets at the IEEE 802.11p MAC layer. Realistic VANET simulation results demonstrate that for HEVC compressed video communications, the proposed system offers PSNR gains up to 11dB on the ROI part.
翻訳日:2023-11-07 16:27:58 公開日:2023-11-05
# Compute at Scale - データセンター産業の広範な調査

Compute at Scale -- A Broad Investigation into the Data Center Industry ( http://arxiv.org/abs/2311.02651v1 )

ライセンス: Link先を確認
Konstantin Pilz and Lennart Heim(参考訳) このレポートは、データセンター産業とそのAI開発における重要性を特徴づけるものである。 データセンターは大規模に効率的に計算を提供し、今日のデジタル経済のエンジンルームを構成する産業施設である。 大規模AIトレーニングと推論がますます計算コストが高くなるにつれて、これらのインフラストラクチャは、主にこの指定されたインフラストラクチャから実行されます。 データセンターの重要な機能には、大規模な冷却と大量の電力消費を必要とする大規模な計算クラスタ、データセンターとインターネットの両方で高速接続の必要性、セキュリティと信頼性の重視が含まれる。 世界の産業価値は約250億ドルで、今後7年間で倍増すると予想されている。 米国、ヨーロッパ、中国が最も重要な市場を構成しているため、全世界に約500カ所(約10MW)のデータセンターがある可能性が高い。 このレポートはさらに、重要なアクター、ビジネスモデル、主要なインプット、およびデータセンターの典型的な場所を取り上げている。

This report characterizes the data center industry and its importance for AI development. Data centers are industrial facilities that efficiently provide compute at scale and thus constitute the engine rooms of today's digital economy. As large-scale AI training and inference become increasingly computationally expensive, they are dominantly executed from this designated infrastructure. Key features of data centers include large-scale compute clusters that require extensive cooling and consume large amounts of power, the need for fast connectivity both within the data center and to the internet, and an emphasis on security and reliability. The global industry is valued at approximately $250B and is expected to double over the next seven years. There are likely about 500 large (above 10 MW) data centers globally, with the US, Europe, and China constituting the most important markets. The report further covers important actors, business models, main inputs, and typical locations of data centers.
翻訳日:2023-11-07 16:27:43 公開日:2023-11-05
# 生成的顔映像符号化技術と標準化の取り組み : レビュー

Generative Face Video Coding Techniques and Standardization Efforts: A Review ( http://arxiv.org/abs/2311.02649v1 )

ライセンス: Link先を確認
Bolin Chen, Jie Chen, Shiqi Wang, Yan Ye(参考訳) GFVC(Generative Face Video Coding)技術は、顔先行のコンパクトな表現と、深層生成モデルの強力な推論能力を利用して、超低帯域幅シナリオにおける高品質な顔ビデオ通信を実現する。 本稿では,GFVC技術の最近の進歩と標準化の取り組みを包括的に調査し,超低ビットレート通信,ユーザ指定アニメーション/フィルタ,メタバース関連機能に適用できることを示す。 特に、GFVCシステムを1つの符号化フレームワーク内で一般化し、異なるGFVCアルゴリズムを対応する視覚表現で要約する。 また,追加の強化情報メッセージで指定したGFVC標準化活動について概観する。 最後に,GFVC技術とその標準化の可能性に関する基礎的課題と幅広い応用について論じ,今後の動向を考察する。 プロジェクトページはhttps://github.com/Berlin0610/Awesome-Generative-Face-Video-Codingで見ることができる。

Generative Face Video Coding (GFVC) techniques can exploit the compact representation of facial priors and the strong inference capability of deep generative models, achieving high-quality face video communication in ultra-low bandwidth scenarios. This paper conducts a comprehensive survey on the recent advances of the GFVC techniques and standardization efforts, which could be applicable to ultra low bitrate communication, user-specified animation/filtering and metaverse-related functionalities. In particular, we generalize GFVC systems within one coding framework and summarize different GFVC algorithms with their corresponding visual representations. Moreover, we review the GFVC standardization activities that are specified with supplemental enhancement information messages. Finally, we discuss fundamental challenges and broad applications on GFVC techniques and their standardization potentials, as well as envision their future trends. The project page can be found at https://github.com/Berlin0610/Awesome-Generative-Face-Video-Coding.
翻訳日:2023-11-07 16:27:29 公開日:2023-11-05
# 次世代小型太陽電池通信最適化における小型太陽電池ネットワークのドローン利用負荷管理

Drone-Enabled Load Management for Solar Small Cell Networks in Next-Gen Communications Optimization for Solar Small Cells ( http://arxiv.org/abs/2311.02648v1 )

ライセンス: Link先を確認
Daksh Dave, Dhruv Khut, Sahil Nawale, Pushkar Aggrawal, Disha Rastogi and Kailas Devadkar(参考訳) 近年、携帯電話産業は通信技術の大きな進化を目撃している。 次世代のセルネットワーク(NGN)が、高いデータレート、より良いQuality of Service(QoS)、低いレイテンシをサポートする新興IoTアプリケーションの受け入れにおいて、重要な役割を果たすことは明らかです。 しかし、ngnの配備は通信インフラに電力オーバーヘッドをもたらすだろう。 5g以降における臨界エネルギー制約に対処し,グリーンマイクログリッドネットワーク内の安定かつセキュアな電力再配置を実現するために,ドローン搭載空中基地局(bss)を用いた革新的な負荷伝達手法を提案する。 高エネルギーセルから低エネルギーセルへ空のBSを転送することで、ユーザ密度や空のBSの可利用性に応じてエネルギー損失を効果的に管理し、先進セルネットワークにおける電力分布を最適化する。 提案方式の複雑さは、bssの電源として現在使用されている既存の電力ケーブル伝送システムに比べて著しく低い。 さらに,提案アルゴリズムは,最小数のドローン交換を必要としながら,BSの停電を低減する。 我々は,高負荷時にbsをサポートするための提案手法の有効性を証明するために,実世界のデータセットの徹底的なレビューを行った。

In recent years, the cellular industry has witnessed a major evolution in communication technologies. It is evident that the Next Generation of cellular networks(NGN) will play a pivotal role in the acceptance of emerging IoT applications supporting high data rates, better Quality of Service(QoS), and reduced latency. However, the deployment of NGN will introduce a power overhead on the communication infrastructure. Addressing the critical energy constraints in 5G and beyond, this study introduces an innovative load transfer method using drone-carried airborne base stations (BSs) for stable and secure power reallocation within a green micro-grid network. This method effectively manages energy deficit by transferring aerial BSs from high to low-energy cells, depending on user density and the availability of aerial BSs, optimizing power distribution in advanced cellular networks. The complexity of the proposed system is significantly lower as compared to existing power cable transmission systems currently employed in powering the BSs. Furthermore, our proposed algorithm has been shown to reduce BS power outages while requiring a minimum number of drone exchanges. We have conducted a thorough review on real-world dataset to prove the efficacy of our proposed approach to support BS during high load demand times
翻訳日:2023-11-07 16:27:14 公開日:2023-11-05
# QoE(Affective Computing-Driven Quality of Experience)予測の新しいアプローチ

New Approach for an Affective Computing-Driven Quality of Experience (QoE) Prediction ( http://arxiv.org/abs/2311.02647v1 )

ライセンス: Link先を確認
Joshua B\`egue, Mohamed Aymen Labiod and Abdelhamid Melloulk(参考訳) 人間の相互作用において、感情認識は不可欠である。 このため、自動感情認識のためのコンピュータビジョンアプローチの話題が広く研究されている。 マルチチャネル脳波(EEG)情報を処理することは、自動感情認識の最も研究されている方法の1つである。 本稿では,感情型コンピュータ駆動のQuality of Experience(QoE)予測の新しいモデルを提案する。 提案モデルを検証するために、公開されているデータセットが使用される。 データセットは脳波、心電図、呼吸データを含み、マルチメディアqoe評価コンテキストに焦点を当てている。 差分エントロピーとパワースペクトル密度を3秒の観測窓で算出した脳波データを保持する。 これら2つの特徴を抽出し,様々なディープラーニングモデルを訓練し,5つの要因でQoEを予測する可能性を検討した。 これらのモデルの性能を比較し、最良のモデルは結果を改善するために最適化される。 結果はlstmモデルで得られ,f1-scoreは68%から78%であった。 モデルとその特徴の分析により、デルタ周波数帯は必要最小であり、2つの電極はより重要であり、他の2つの電極はモデルの性能に非常に低い影響を持つことが示された。

In human interactions, emotion recognition is crucial. For this reason, the topic of computer-vision approaches for automatic emotion recognition is currently being extensively researched. Processing multi-channel electroencephalogram (EEG) information is one of the most researched methods for automatic emotion recognition. This paper presents a new model for an affective computing-driven Quality of Experience (QoE) prediction. In order to validate the proposed model, a publicly available dataset is used. The dataset contains EEG, ECG, and respiratory data and is focused on a multimedia QoE assessment context. The EEG data are retained on which the differential entropy and the power spectral density are calculated with an observation window of three seconds. These two features were extracted to train several deep-learning models to investigate the possibility of predicting QoE with five different factors. The performance of these models is compared, and the best model is optimized to improve the results. The best results were obtained with an LSTM-based model, presenting an F1-score from 68% to 78%. An analysis of the model and its features shows that the Delta frequency band is the least necessary, that two electrodes have a higher importance, and that two other electrodes have a very low impact on the model's performances.
翻訳日:2023-11-07 16:26:52 公開日:2023-11-05
# 2段ミンコストフローを用いたマルチオブジェクトトラッキングの一手法

An Approach for Multi-Object Tracking with Two-Stage Min-Cost Flow ( http://arxiv.org/abs/2311.02642v1 )

ライセンス: Link先を確認
Huining Li, Yalong Jiang, Xianlin Zeng, Feng Li, Zhipeng Wang(参考訳) ネットワークフロー最小アルゴリズムはマルチターゲット追跡に広く使われている。 しかし, 本手法の大部分は, 咬合下での正確な解を示さないコスト関数の最小化に特化している。 本稿では,トラックレットの交差点特性と低信頼検出を生かして,第2段で補正された不正確なトラックレットを正確に特定できる交差点マスクを備えた2段追跡パイプラインを開発した。 具体的には,第1段の入力として信頼度検出を行う最小のネットワークフローアルゴリズムを用い,補正を必要とする候補トラックレットを得る。 次に、交差マスクを利用して、候補トラックレットの不正確な部分を正確に特定する。 第2段階では、不正確なトラックレットを修正するために、オクルージョンに起因する可能性のある低信頼度検出を利用する。 このプロセスは、不正確なトラックレットと低信頼ノードのノードのグラフを構築し、最小ネットワークフロー計算の第2ラウンドに使用する。 一般的なMOTベンチマークデータセットに対して十分な実験を行い,MOT17では78.4 MOTA,MOT17では79.2,MOT20では76.4を,提案手法が有効であることを示す。

The minimum network flow algorithm is widely used in multi-target tracking. However, the majority of the present methods concentrate exclusively on minimizing cost functions whose values may not indicate accurate solutions under occlusions. In this paper, by exploiting the properties of tracklets intersections and low-confidence detections, we develop a two-stage tracking pipeline with an intersection mask that can accurately locate inaccurate tracklets which are corrected in the second stage. Specifically, we employ the minimum network flow algorithm with high-confidence detections as input in the first stage to obtain the candidate tracklets that need correction. Then we leverage the intersection mask to accurately locate the inaccurate parts of candidate tracklets. The second stage utilizes low-confidence detections that may be attributed to occlusions for correcting inaccurate tracklets. This process constructs a graph of nodes in inaccurate tracklets and low-confidence nodes and uses it for the second round of minimum network flow calculation. We perform sufficient experiments on popular MOT benchmark datasets and achieve 78.4 MOTA on the test set of MOT16, 79.2 on MOT17, and 76.4 on MOT20, which shows that the proposed method is effective.
翻訳日:2023-11-07 16:26:34 公開日:2023-11-05
# PotholeGuard:Point Cloud Semantic SegmentationによるPothole検出アプローチ

PotholeGuard: A Pothole Detection Approach by Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2311.02641v1 )

ライセンス: Link先を確認
Sahil Nawale, Dhruv Khut, Daksh Dave, Gauransh Sawhney, Pushkar Aggrawal, Dr. Kailas Devadakar(参考訳) ポトホール検出は道路の安全とメンテナンスに不可欠であり、伝統的に2次元画像セグメンテーションに依存している。 しかし、既存の3Dセマンティック・ポトホール・セグメンテーションの研究は、しばしば点雲の空間性を見落とし、最適な局所的な特徴のキャプチャとセグメンテーションの精度をもたらす。 本研究は,革新的なポイントクラウドベースのポットホールセグメンテーションアーキテクチャを提案する。 モデルでは,隠れた特徴を効率よく識別し,フィードバック機構を用いて局所特性を向上し,特徴提示を改善する。 我々は,局所的形状関係を理解するための局所的関係学習モジュールを導入し,構造的洞察を高める。 さらに,k近傍アルゴリズムを用いて局所点特徴を洗練し,点雲密度差と領域選択に対応する軽量適応構造を提案する。 共有MLPプールは、深い集約機能を学ぶために統合され、セマンティックデータ探索とセグメンテーションガイダンスを容易にする。 3つの公開データセットに対する大規模な実験により、PotholeGuardの最先端メソッドよりも優れたパフォーマンスが確認された。 提案手法は,道路整備や安全性に応用可能な,堅牢で高精度な3dポットホールセグメンテーションのための有望なソリューションを提供する。

Pothole detection is crucial for road safety and maintenance, traditionally relying on 2D image segmentation. However, existing 3D Semantic Pothole Segmentation research often overlooks point cloud sparsity, leading to suboptimal local feature capture and segmentation accuracy. Our research presents an innovative point cloud-based pothole segmentation architecture. Our model efficiently identifies hidden features and uses a feedback mechanism to enhance local characteristics, improving feature presentation. We introduce a local relationship learning module to understand local shape relationships, enhancing structural insights. Additionally, we propose a lightweight adaptive structure for refining local point features using the K nearest neighbor algorithm, addressing point cloud density differences and domain selection. Shared MLP Pooling is integrated to learn deep aggregation features, facilitating semantic data exploration and segmentation guidance. Extensive experiments on three public datasets confirm PotholeGuard's superior performance over state-of-the-art methods. Our approach offers a promising solution for robust and accurate 3D pothole segmentation, with applications in road maintenance and safety.
翻訳日:2023-11-07 16:26:15 公開日:2023-11-05
# 自動コード生成のためのChatGPTの約束と落とし穴の評価

Assessing the Promise and Pitfalls of ChatGPT for Automated Code Generation ( http://arxiv.org/abs/2311.02640v1 )

ライセンス: Link先を確認
Muhammad Fawad Akbar Khan, Max Ramsdell, Erik Falor, Hamid Karimi(参考訳) 本稿では,人間のプログラマと比較して,大きな言語モデルであるChatGPTのコード生成能力を総合的に評価する。 5つのカテゴリにまたがる131のコード生成プロンプトのデータセットを、堅牢な分析を可能にするためにキュレートした。 コードソリューションはChatGPTと人間によってすべてのプロンプトで生成され、262のコードサンプルが得られた。 厳密な手作業による評価手法は、14の確立されたコード品質メトリクスを使用して、正確性、理解性、セキュリティを評価した。 重要な発見は、chatgptの簡潔で効率的なコード作成における強み、高度な構成、データ分析タスクの強み(93.1%の正確さ)を示しているが、ビジュアルグラフィックの課題には限界がある。 ヒューマンコードとの比較分析は、モジュール設計と優れたエラー処理へのchatgptの傾きを強調している。 さらに、機械学習モデルは、最大88%の精度で人間のコードからchatgptを効果的に区別し、検出可能なコーディングスタイルの違いを示唆している。 chatgptのコード生成能力と量的メトリクスと質的分析による限界に関する深い洞察を提供することで、本研究はaiベースのプログラミングアシスタントの発展に重要な貢献をする。 キュレートされたデータセットと方法論は、この初期段階の領域における将来の研究の堅牢な基盤を提供する。 すべてのデータとコードはhttps://github.com/DSAatUSU/ChatGPT-promises-and-pitfallsで入手できる。

This paper presents a comprehensive evaluation of the code generation capabilities of ChatGPT, a prominent large language model, compared to human programmers. A novel dataset of 131 code-generation prompts across 5 categories was curated to enable robust analysis. Code solutions were generated by both ChatGPT and humans for all prompts, resulting in 262 code samples. A meticulous manual assessment methodology prioritized evaluating correctness, comprehensibility, and security using 14 established code quality metrics. The key findings reveal ChatGPT's strengths in crafting concise, efficient code with advanced constructs, showcasing strengths in data analysis tasks (93.1% accuracy) but limitations in visual-graphical challenges. Comparative analysis with human code highlights ChatGPT's inclination towards modular design and superior error handling. Additionally, machine learning models effectively distinguished ChatGPT from human code with up to 88% accuracy, suggesting detectable coding style disparities. By providing profound insights into ChatGPT's code generation capabilities and limitations through quantitative metrics and qualitative analysis, this study makes valuable contributions toward advancing AI-based programming assistants. The curated dataset and methodology offer a robust foundation for future research in this nascent domain. All data and codes are available on https://github.com/DSAatUSU/ChatGPT-promises-and-pitfalls.
翻訳日:2023-11-07 16:25:52 公開日:2023-11-05
# 背景も重要:背景認識型モーションガイドオブジェクト発見

The Background Also Matters: Background-Aware Motion-Guided Objects Discovery ( http://arxiv.org/abs/2311.02633v1 )

ライセンス: Link先を確認
Sandra Kara, Hejer Ammar, Florian Chabot, Quoc-Cuong Pham(参考訳) 近年の研究では、オブジェクト発見はビデオデータの固有動作情報から大きく恩恵を受けることが示されている。 しかし、これらの手法は適切なバックグラウンド処理を欠き、非対象領域をランダムなセグメントに過剰に分割する。 これは、オブジェクトセグメントとノイズが区別できない教師なし設定を考えると、重要な制限である。 この制限に対処するため,背景認識型動き誘導物体探索法であるBMODを提案する。 具体的には,光学フローから抽出された移動物体のマスクを活用し,移動物体と静的物体の両方からなる真の前景まで拡張する学習機構を設計する。 学習した前景クラスの補完的な概念である背景は、オブジェクト発見プロセスの中で分離される。 これにより、オブジェクト発見タスクとオブジェクト/非オブジェクト分離の共同学習が可能になる。 合成および実世界のデータセットに関する実験では、様々な最先端メソッドとバックグラウンドハンドリングを統合することで、毎回かなりの改善が得られています。 具体的には、オブジェクト/オブジェクト分離のための強力なベースラインを確立しながら、大きなマージンでオブジェクト発見性能を向上する。

Recent works have shown that objects discovery can largely benefit from the inherent motion information in video data. However, these methods lack a proper background processing, resulting in an over-segmentation of the non-object regions into random segments. This is a critical limitation given the unsupervised setting, where object segments and noise are not distinguishable. To address this limitation we propose BMOD, a Background-aware Motion-guided Objects Discovery method. Concretely, we leverage masks of moving objects extracted from optical flow and design a learning mechanism to extend them to the true foreground composed of both moving and static objects. The background, a complementary concept of the learned foreground class, is then isolated in the object discovery process. This enables a joint learning of the objects discovery task and the object/non-object separation. The conducted experiments on synthetic and real-world datasets show that integrating our background handling with various cutting-edge methods brings each time a considerable improvement. Specifically, we improve the objects discovery performance with a large margin, while establishing a strong baseline for object/non-object separation.
翻訳日:2023-11-07 16:25:28 公開日:2023-11-05
# 複合軌道復元のための臨界知覚事前学習モデル

A Critical Perceptual Pre-trained Model for Complex Trajectory Recovery ( http://arxiv.org/abs/2311.02631v1 )

ライセンス: Link先を確認
Dedong Li, Ziyue Li, Zhishuai Li, Lei Bai, Qingyuan Gong, Lijun Sun, Wolfgang Ketter, Rui Zhao(参考訳) 道路交通の軌跡は, 低サンプリング率で収集されることが一般的であり, 軌跡回復は, スパースおよび離散入力から完全かつ連続的な軌跡を復元することを目的としている。 近年,下流タスクで使用される道路セグメント表現ベクトルを学習する,事前学習による軌道回復のための逐次言語モデルが革新的に採用されている。 しかし、既存の手法では、軌跡が遠隔の道路セグメントを横切る場合や、複数の旋回を行う場合、重要なノードと呼ばれる場合、学習された表現の質が低下し、回収された軌跡は臨界ノードをスキップする。 この研究は、複雑な軌道に対するより堅牢な軌道回復を提供することを目的としている。 まず,detourスコアとエントロピースコアに基づいて軌道複雑性を定義し,それに対応する複雑性対応意味グラフを構築する。 そこで本研究では,マルチビューグラフと複雑性認識トランスフォーマ (mgcat) モデルを提案する。 1)軌道パターンを考慮した多視点グラフの特徴の適応集計 2) 複雑軌道における臨界ノードへの注目度が高い。 このように、MGCATは複雑な軌道の臨界シナリオを扱う場合に知覚される。 大規模なデータセットで大規模な実験を行う。 以上の結果から, トラクタではf1-scoreが5.22%, f1-scoreが8.16%向上した。 コードはhttps://github.com/bonaldli/complextrajで入手できる。

The trajectory on the road traffic is commonly collected at a low sampling rate, and trajectory recovery aims to recover a complete and continuous trajectory from the sparse and discrete inputs. Recently, sequential language models have been innovatively adopted for trajectory recovery in a pre-trained manner: it learns road segment representation vectors, which will be used in the downstream tasks. However, existing methods are incapable of handling complex trajectories: when the trajectory crosses remote road segments or makes several turns, which we call critical nodes, the quality of learned representations deteriorates, and the recovered trajectories skip the critical nodes. This work is dedicated to offering a more robust trajectory recovery for complex trajectories. Firstly, we define the trajectory complexity based on the detour score and entropy score and construct the complexity-aware semantic graphs correspondingly. Then, we propose a Multi-view Graph and Complexity Aware Transformer (MGCAT) model to encode these semantics in trajectory pre-training from two aspects: 1) adaptively aggregate the multi-view graph features considering trajectory pattern, and 2) higher attention to critical nodes in a complex trajectory. Such that, our MGCAT is perceptual when handling the critical scenario of complex trajectories. Extensive experiments are conducted on large-scale datasets. The results prove that our method learns better representations for trajectory recovery, with 5.22% higher F1-score overall and 8.16% higher F1-score for complex trajectories particularly. The code is available at https://github.com/bonaldli/ComplexTraj.
翻訳日:2023-11-07 16:25:12 公開日:2023-11-05
# AV-Lip-Sync+:AV-HuBERTを利用したビデオディープフェイク検出のためのマルチモーダル不整合の爆発

AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency for Video Deepfake Detection ( http://arxiv.org/abs/2311.02733v1 )

ライセンス: Link先を確認
Sahibzada Adil Shahzad, Ammarah Hashmi, Yan-Tsung Peng, Yu Tsao, Hsin-Min Wang(参考訳) マルチモーダル操作(オーディオ・ビジュアルディープフェイクとも呼ばれる)は、マルチメディアコンテンツ中の偽造物を検出するのが困難である。 偽プロパガンダや偽ニュースの拡散を避けるため、タイムリー検出が重要である。 モダリティ(視覚的またはオーディオ的)の損傷は、両方の情報を同時に活用できるマルチモーダルモデルによってのみ発見できる。 従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。 本研究では,マルチモーダルビデオ偽造検出における音声と視覚の整合性を利用したマルチモーダル自己教師学習(SSL)機能抽出手法を提案する。 本研究では,トランスフォーマーをベースとした音響・音響特徴抽出システムAV-HuBERT(Audio-Visual HuBERT)モデルとマルチスケールの時間畳み込みニューラルネットワークを用いて,音声と視覚の時間的相関を捉える。 AV-HuBERTは唇領域からのみ視覚的特徴を抽出するので、別のトランスフォーマーベースビデオモデルを用いて顔の特徴を活用し、ディープフェイク生成過程で発生する空間的・時間的アーティファクトをキャプチャする。 実験結果から,FakeAVCelebおよびDeepfakeTIMITデータセットにおいて,既存のモデルよりも優れた性能を示し,新しい最先端性能を実現する。

Multimodal manipulations (also known as audio-visual deepfakes) make it difficult for unimodal deepfake detectors to detect forgeries in multimedia content. To avoid the spread of false propaganda and fake news, timely detection is crucial. The damage to either modality (i.e., visual or audio) can only be discovered through multi-modal models that can exploit both pieces of information simultaneously. Previous methods mainly adopt uni-modal video forensics and use supervised pre-training for forgery detection. This study proposes a new method based on a multi-modal self-supervised-learning (SSL) feature extractor to exploit inconsistency between audio and visual modalities for multi-modal video forgery detection. We use the transformer-based SSL pre-trained Audio-Visual HuBERT (AV-HuBERT) model as a visual and acoustic feature extractor and a multi-scale temporal convolutional neural network to capture the temporal correlation between the audio and visual modalities. Since AV-HuBERT only extracts visual features from the lip region, we also adopt another transformer-based video model to exploit facial features and capture spatial and temporal artifacts caused during the deepfake generation process. Experimental results show that our model outperforms all existing models and achieves new state-of-the-art performance on the FakeAVCeleb and DeepfakeTIMIT datasets.
翻訳日:2023-11-07 16:18:41 公開日:2023-11-05
# 微細リワード最大化による安全クリティカルシーンセグメンテーションの不確かさ推定

Uncertainty Estimation for Safety-critical Scene Segmentation via Fine-grained Reward Maximization ( http://arxiv.org/abs/2311.02719v1 )

ライセンス: Link先を確認
Hongzheng Yang, Cheng Chen, Yueyao Chen, Markus Scheppach, Hon Chi Yip, Qi Dou(参考訳) 不確実性推定は、医療応用などの安全クリティカルなシナリオにおける深部セグメンテーションモデルの今後の信頼性向上に重要な役割を果たす。 しかし,既存の不確実性推定手法は,予測リスクの校正とモデル信頼度に対する明確なガイダンスの欠如によって制限されている。 本研究では,不確実性量関連報酬関数を強化学習に基づくモデルチューニングアルゴリズムで直接利用することにより,不確実性評価に対処する,新しい微粒化報酬最大化(FGRM)フレームワークを提案する。 これはモデルキャリブレーションの直接最適化ガイダンスによるモデル不確実性推定に有効である。 具体的には, 予測リスクを校正するための実証学習事前学習セグメンテーションモデルに最適化された校正指標を用いて, 新たな不確実性推定報酬関数を設計する。 さらに,fisher情報行列によって定量化されたパラメータ重要度に応じて,各ネットワークパラメータの細粒度報酬重み付けを課す効果的な細粒度パラメータ更新スキームを革新する。 我々の知る限り、安全クリティカルな視覚タスクにおけるモデル不確実性推定のための報酬最適化を探求する最初の研究である。 本手法の有効性は,2つの異なる不確実性推定条件下での安全クリティカルな手術シーンセグメンテーションデータセットを用いて検証した。 提案手法は, 不確実性推定のキャリブレーション指標すべてにおいて, 精度の高いセグメンテーション結果を維持しつつ, 実時間1回のフォワードパスで最先端手法を明確なマージンで上回っている。 コードは \url{https://github.com/med-air/FGRM} で入手できる。

Uncertainty estimation plays an important role for future reliable deployment of deep segmentation models in safety-critical scenarios such as medical applications. However, existing methods for uncertainty estimation have been limited by the lack of explicit guidance for calibrating the prediction risk and model confidence. In this work, we propose a novel fine-grained reward maximization (FGRM) framework, to address uncertainty estimation by directly utilizing an uncertainty metric related reward function with a reinforcement learning based model tuning algorithm. This would benefit the model uncertainty estimation through direct optimization guidance for model calibration. Specifically, our method designs a new uncertainty estimation reward function using the calibration metric, which is maximized to fine-tune an evidential learning pre-trained segmentation model for calibrating prediction risk. Importantly, we innovate an effective fine-grained parameter update scheme, which imposes fine-grained reward-weighting of each network parameter according to the parameter importance quantified by the fisher information matrix. To the best of our knowledge, this is the first work exploring reward optimization for model uncertainty estimation in safety-critical vision tasks. The effectiveness of our method is demonstrated on two large safety-critical surgical scene segmentation datasets under two different uncertainty estimation settings. With real-time one forward pass at inference, our method outperforms state-of-the-art methods by a clear margin on all the calibration metrics of uncertainty estimation, while maintaining a high task accuracy for the segmentation results. Code is available at \url{https://github.com/med-air/FGRM}.
翻訳日:2023-11-07 16:18:16 公開日:2023-11-05
# パラメータ化帯域における爆発関連補助フィードバック

Exploiting Correlated Auxiliary Feedback in Parameterized Bandits ( http://arxiv.org/abs/2311.02715v1 )

ライセンス: Link先を確認
Arun Verma, Zhongxiang Dai, Yao Shu, Bryan Kian Hsiang Low(参考訳) そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。 補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を集めることができるように、ユーザに最高の評価サービスを推奨したいというオンラインプラットフォームなど、現実の多くのアプリケーションで容易に利用できる。 本稿では,まず,信頼度が強い報酬推定器を構築するための補助的フィードバックを利用する手法を開発し,より少ない後悔をもたらす。 次に,報酬と補助フィードバックの相関係数の観点から,後悔の軽減を特徴付ける。 異なる設定における実験結果は,提案手法による性能向上も検証する。

We study a novel variant of the parameterized bandits problem in which the learner can observe additional auxiliary feedback that is correlated with the observed reward. The auxiliary feedback is readily available in many real-life applications, e.g., an online platform that wants to recommend the best-rated services to its users can observe the user's rating of service (rewards) and collect additional information like service delivery time (auxiliary feedback). In this paper, we first develop a method that exploits auxiliary feedback to build a reward estimator with tight confidence bounds, leading to a smaller regret. We then characterize the regret reduction in terms of the correlation coefficient between reward and its auxiliary feedback. Experimental results in different settings also verify the performance gain achieved by our proposed method.
翻訳日:2023-11-07 16:17:49 公開日:2023-11-05
# ベンチマーク:ms-cocoはどの程度信頼できるのか?

Benchmarking a Benchmark: How Reliable is MS-COCO? ( http://arxiv.org/abs/2311.02709v1 )

ライセンス: Link先を確認
Eric Zimmermann, Justin Szeto, Jerome Pasquero, Frederic Ratle(参考訳) ベンチマークデータセットは、画像分類からセグメンテーションまで、さまざまなタスクにわたるアルゴリズムのプロファイルと比較に使用され、画像事前トレーニングアルゴリズムにおいて大きな役割を果たす。 データセット内の実際の内容にはほとんど関係のない結果に強調される。 これらのデータセットから学習される情報の種類や、その中のニュアンスやバイアスについて疑問を呈することは重要です。 以下の研究で、MS-COCOの再注釈であるSama-COCOは、形状解析パイプラインを利用して潜在的なバイアスを発見するために使用される。 モデルは、異なるアノテーション条件の影響を調べるために、両方のデータセットでトレーニングされ、評価される。 結果は、アノテーションスタイルが重要であり、アノテーションパイプラインが関心のあるタスクを深く検討すべきであることを示す。 データセットはhttps://www.sama.com/sama-coco-dataset/で公開されている。

Benchmark datasets are used to profile and compare algorithms across a variety of tasks, ranging from image classification to segmentation, and also play a large role in image pretraining algorithms. Emphasis is placed on results with little regard to the actual content within the dataset. It is important to question what kind of information is being learned from these datasets and what are the nuances and biases within them. In the following work, Sama-COCO, a re-annotation of MS-COCO, is used to discover potential biases by leveraging a shape analysis pipeline. A model is trained and evaluated on both datasets to examine the impact of different annotation conditions. Results demonstrate that annotation styles are important and that annotation pipelines should closely consider the task of interest. The dataset is made publicly available at https://www.sama.com/sama-coco-dataset/ .
翻訳日:2023-11-07 16:17:36 公開日:2023-11-05
# ポリゴンアノテーションの不確実性と品質保証の影響に関する実証的研究

An Empirical Study of Uncertainty in Polygon Annotation and the Impact of Quality Assurance ( http://arxiv.org/abs/2311.02707v1 )

ライセンス: Link先を確認
Eric Zimmermann, Justin Szeto, Frederic Ratle(参考訳) ポリゴンは、インスタンスセグメンテーションタスクでオブジェクトをすばやくアノテートするために使われる一般的なアノテーションフォーマットである。 しかし、実世界の多くのアノテーションプロジェクトはピクセル完全に近いラベルを要求する。 厳格なピクセルガイドラインが成功したプロジェクトの解決策であるように見えるが、実践者は要求された作業の実現可能性を評価することができず、品質の概念に挑戦する共通の要因を見落としていることが多い。 本稿では,ポリゴンアノテーションの本質的不確かさと,その効果を最小化する上で品質保証が果たす役割について検討し,定量化する。 この目的のために、MS-COCOデータセットから複数のオブジェクトに対するマルチラタポリゴンアノテーションの解析を行う。 その結果,ポリゴンアノテーションの信頼性は,シーンや形状の複雑さだけでなく,レビュー手順にも依存することがわかった。

Polygons are a common annotation format used for quickly annotating objects in instance segmentation tasks. However, many real-world annotation projects request near pixel-perfect labels. While strict pixel guidelines may appear to be the solution to a successful project, practitioners often fail to assess the feasibility of the work requested, and overlook common factors that may challenge the notion of quality. This paper aims to examine and quantify the inherent uncertainty for polygon annotations and the role that quality assurance plays in minimizing its effect. To this end, we conduct an analysis on multi-rater polygon annotations for several objects from the MS-COCO dataset. The results demonstrate that the reliability of a polygon annotation is dependent on a reviewing procedure, as well as the scene and shape complexity.
翻訳日:2023-11-07 16:17:21 公開日:2023-11-05
# システム神経科学へのゴール駆動アプローチ

A Goal-Driven Approach to Systems Neuroscience ( http://arxiv.org/abs/2311.02704v1 )

ライセンス: Link先を確認
Aran Nayebi(参考訳) 人間と動物は動的環境において様々な興味深い行動を示しており、私たちの脳がこれらの行動を可能にするためにこの密集した感覚情報を積極的に再構成しているかは定かではない。 実験的な神経科学は、動物が複雑な行動をしている間に数百から数千のニューロンを記録・操作する能力に革命を起こしている。 これらのパラダイムが前例のない脳へのアクセスを可能にしているため、自然に生じる疑問は、これらのデータをどのようにして神経回路がインテリジェントな行動を引き起こすかに関する解釈可能な洞察に絞り込むかである。 システム神経科学における古典的なアプローチは、個々のニューロンに明確に定義された操作を割り当て、これらの操作がどのように結合して神経計算の回路レベル理論を生成するかを記述することである。 このアプローチは、単純な刺激による小さな記録に成功し、特定の回路計算を探索するために設計されたが、多くの場合、刺激を通して同じシステムが異なる記述に繋がる。 おそらく驚くべきことに、ニューロンの多くの応答プロファイルは言葉で簡潔に記述することは困難であり、これらの実験的な観察に照らして新しいアプローチが必要であることを示唆している。 この論文では、ニューラルネットワークの統一構造モデルと機能モデルの生成に期待できる解釈可能性の異なる定義を提供し、これまで個別に記述することが困難であったものを含む、ニューラルネットワークの応答特性を引き起こす進化的制約について述べる。 複数の脳領域や種にまたがるこの枠組みの有用性を実証し, 霊長類腹側視覚路における反復的処理, マウス視覚処理, 歯根内側皮質における不均一性, 生物学的学習の促進について検討した。

Humans and animals exhibit a range of interesting behaviors in dynamic environments, and it is unclear how our brains actively reformat this dense sensory information to enable these behaviors. Experimental neuroscience is undergoing a revolution in its ability to record and manipulate hundreds to thousands of neurons while an animal is performing a complex behavior. As these paradigms enable unprecedented access to the brain, a natural question that arises is how to distill these data into interpretable insights about how neural circuits give rise to intelligent behaviors. The classical approach in systems neuroscience has been to ascribe well-defined operations to individual neurons and provide a description of how these operations combine to produce a circuit-level theory of neural computations. While this approach has had some success for small-scale recordings with simple stimuli, designed to probe a particular circuit computation, often times these ultimately lead to disparate descriptions of the same system across stimuli. Perhaps more strikingly, many response profiles of neurons are difficult to succinctly describe in words, suggesting that new approaches are needed in light of these experimental observations. In this thesis, we offer a different definition of interpretability that we show has promise in yielding unified structural and functional models of neural circuits, and describes the evolutionary constraints that give rise to the response properties of the neural population, including those that have previously been difficult to describe individually. We demonstrate the utility of this framework across multiple brain areas and species to study the roles of recurrent processing in the primate ventral visual pathway; mouse visual processing; heterogeneity in rodent medial entorhinal cortex; and facilitating biological learning.
翻訳日:2023-11-07 16:17:09 公開日:2023-11-05
# 顧客レビューから非典型的側面の抽出:データセットと言語モデルによる実験

Extraction of Atypical Aspects from Customer Reviews: Datasets and Experiments with Language Models ( http://arxiv.org/abs/2311.02702v1 )

ライセンス: Link先を確認
Smita Nannaware and Erfan Al-Hossami and Razvan Bunescu(参考訳) 待合所の折り紙駅など、客の予想外な面から、レストランのディナーは記憶に残る体験になるかもしれない。 レストランの体験に非典型的な側面が事前に知られていた場合、セレンディピティーな体験を育む可能性のあるレコメンデーションに活用でき、さらにユーザー満足度を高めることができる。 比較的稀だが、遭遇する度に非定型的な側面は、記憶に残る品質のため、しばしばレビューで言及される。 本稿では,顧客レビューにおける非定型的側面を検出するタスクを紹介する。 抽出モデルの開発を容易にするため,3つのドメインレスタラント,ホテル,ヘアサロンでレビューのベンチマークデータセットを手動でアノテートし,命令ベースのテキスト・テキスト・トランスフォーマーFlan-T5の微調整から,GPT-3.5のゼロショットプロンプトや少数ショットプロンプトまで,多数の言語モデルを評価する。

A restaurant dinner may become a memorable experience due to an unexpected aspect enjoyed by the customer, such as an origami-making station in the waiting area. If aspects that are atypical for a restaurant experience were known in advance, they could be leveraged to make recommendations that have the potential to engender serendipitous experiences, further increasing user satisfaction. Although relatively rare, whenever encountered, atypical aspects often end up being mentioned in reviews due to their memorable quality. Correspondingly, in this paper we introduce the task of detecting atypical aspects in customer reviews. To facilitate the development of extraction models, we manually annotate benchmark datasets of reviews in three domains - restaurants, hotels, and hair salons, which we use to evaluate a number of language models, ranging from fine-tuning the instruction-based text-to-text transformer Flan-T5 to zero-shot and few-shot prompting of GPT-3.5.
翻訳日:2023-11-07 16:16:39 公開日:2023-11-05
# 生成型マルチレゾリューションピラミッドと正常条件付き3d布ドローピング

A Generative Multi-Resolution Pyramid and Normal-Conditioning 3D Cloth Draping ( http://arxiv.org/abs/2311.02700v1 )

ライセンス: Link先を確認
Hunor Laczk\'o, Meysam Madadi, Sergio Escalera, Jordi Gonzalez(参考訳) 関連文献ではRGB布の生成が深く研究されているが、3D衣料生成は未解決の問題である。 本稿では,3次元衣服生成とドローイングのための条件付き変分オートエンコーダを構築する。 本研究では,正準空間において衣服の詳細を段階的に付加するピラミッドネットワークを提案する。 本研究では3次元座標よりも容易に最適化できる中間表現として,通常のUVマップ上でのネットワークの条件付けについて検討する。 CLOTH3D と CAPE の2つの公開データセットによる結果から,我々のモデルは高解像度ピラミッドによる細部生成の観点から頑健で制御可能であること,また,少ないデータでトレーニングしても,目立たない衣服やポーズ,形状に高度に一般化できる最先端の結果が得られた。

RGB cloth generation has been deeply studied in the related literature, however, 3D garment generation remains an open problem. In this paper, we build a conditional variational autoencoder for 3D garment generation and draping. We propose a pyramid network to add garment details progressively in a canonical space, i.e. unposing and unshaping the garments w.r.t. the body. We study conditioning the network on surface normal UV maps, as an intermediate representation, which is an easier problem to optimize than 3D coordinates. Our results on two public datasets, CLOTH3D and CAPE, show that our model is robust, controllable in terms of detail generation by the use of multi-resolution pyramids, and achieves state-of-the-art results that can highly generalize to unseen garments, poses, and shapes even when training with small amounts of data.
翻訳日:2023-11-07 16:16:09 公開日:2023-11-05
# CNN-RNNアーキテクチャによるネパールの動画キャプション

Nepali Video Captioning using CNN-RNN Architecture ( http://arxiv.org/abs/2311.02699v1 )

ライセンス: Link先を確認
Bipesh Subedi, Saugat Singh, Bal Krishna Bal(参考訳) 本稿では,ディープニューラルネットワークを用いたネパール語ビデオキャプションについて述べる。 事前訓練されたcnnとrnnの統合を通じて、この研究はネパールの動画に正確かつ文脈的に関連するキャプションを生成することに焦点を当てている。 このアプローチにはデータセット収集、データ前処理、モデル実装、評価が含まれる。 この研究は、MSVDデータセットとネパール語の字幕をGoogle Translate経由で強化することで、さまざまなCNN-RNNアーキテクチャをトレーニングする。 この研究では、LSTM、GRU、BiLSTMといった異なるRNNデコーダと組み合わせたCNN(例えば、EfficientNetB0、ResNet101、VGG16)の有効性について検討している。 評価にはBLEUとMETEORのメトリクスが含まれており、最良のモデルは1024の隠れ次元を持つ効率的なNetB0 + BiLSTMであり、BLEU-4スコアは17、METEORスコアは46である。 この記事はまた、ネパールの動画キャプションの進歩に関する課題と今後の方向性を概説し、この分野におけるさらなる研究のための重要なリソースを提供している。

This article presents a study on Nepali video captioning using deep neural networks. Through the integration of pre-trained CNNs and RNNs, the research focuses on generating precise and contextually relevant captions for Nepali videos. The approach involves dataset collection, data preprocessing, model implementation, and evaluation. By enriching the MSVD dataset with Nepali captions via Google Translate, the study trains various CNN-RNN architectures. The research explores the effectiveness of CNNs (e.g., EfficientNetB0, ResNet101, VGG16) paired with different RNN decoders like LSTM, GRU, and BiLSTM. Evaluation involves BLEU and METEOR metrics, with the best model being EfficientNetB0 + BiLSTM with 1024 hidden dimensions, achieving a BLEU-4 score of 17 and METEOR score of 46. The article also outlines challenges and future directions for advancing Nepali video captioning, offering a crucial resource for further research in this area.
翻訳日:2023-11-07 16:15:42 公開日:2023-11-05
# 多ノード介入による線形混合因果表現の同定

Identifying Linearly-Mixed Causal Representations from Multi-Node Interventions ( http://arxiv.org/abs/2311.02695v1 )

ライセンス: Link先を確認
Simon Bing, Urmi Ninad, Jonas Wahl, Jakob Runge(参考訳) 低レベルの観測から高レベルの因果変数を推定するタスク(一般に因果表現学習と呼ばれる)は、基本的に過小評価されている。 このように、この問題に対処する最近の研究は、基礎となる潜在因果変数の識別可能性につながる様々な仮定に焦点を当てている。 これらのアプローチの大規模なコーパスは、因果モデルに対する異なる介入の下で収集されたマルチ環境データを考える。 これらの作業のほとんどすべてに共通しているのは、各環境において、1つの変数だけが介入されるという制限的な仮定である。 本研究では,この仮定を緩和し,1つの環境内の介入によって複数の変数を対象とする因果表現学習において,最初の識別可能性結果を提供する。 このアプローチは,前回の作業における単一ノード介入の共有仮定を含む,環境横断的介入のカバレッジと多様性に関する一般的な仮定にかかっている。 我々のアプローチの背後にある主要なアイデアは、介入が基礎的真理因果変数の分散に委ねられ、このトレースに関してスパーシティの特定の概念を定式化するトレースを活用することである。 理論的な貢献に加えて,多ノード干渉データから因果表現を学習し,その妥当性を実証する実証的証拠を提供するための実践的アルゴリズムを提案する。

The task of inferring high-level causal variables from low-level observations, commonly referred to as causal representation learning, is fundamentally underconstrained. As such, recent works to address this problem focus on various assumptions that lead to identifiability of the underlying latent causal variables. A large corpus of these preceding approaches consider multi-environment data collected under different interventions on the causal model. What is common to virtually all of these works is the restrictive assumption that in each environment, only a single variable is intervened on. In this work, we relax this assumption and provide the first identifiability result for causal representation learning that allows for multiple variables to be targeted by an intervention within one environment. Our approach hinges on a general assumption on the coverage and diversity of interventions across environments, which also includes the shared assumption of single-node interventions of previous works. The main idea behind our approach is to exploit the trace that interventions leave on the variance of the ground truth causal variables and regularizing for a specific notion of sparsity with respect to this trace. In addition to and inspired by our theoretical contributions, we present a practical algorithm to learn causal representations from multi-node interventional data and provide empirical evidence that validates our identifiability results.
翻訳日:2023-11-07 16:15:14 公開日:2023-11-05
# クラッツァー型ポテンシャルを持つ2次元シュル'{o}ディンガー方程式の境界状態解

Bound state solutions of the two--dimensional Schr\"{o}dinger equation with Kratzer--type potentials ( http://arxiv.org/abs/2311.02694v1 )

ライセンス: Link先を確認
Roman Ya. Kezerashvili, Jianning Luo, and Claudio R. Malvino(参考訳) 実際に解けるモデルは、多くの量子物理学の分野において非常に重要な役割を果たす。 本研究では,クラッツァーを用いて相互作用する2つの粒子の2次元(2次元)問題の解と,クラッツァーポテンシャルを修正したクラッツァーポテンシャルの解に対して,schr\"{o}dinger方程式を適用し,クラッツァー型ポテンシャルを持つ2次元schr\"{o}dinger方程式の厳密な境界状態解を求め,固有値と固有関数の解析式を提案する。 固有函数は関連するラゲール多項式の項で与えられる。

Exactly solvable models play an extremely important role in many fields of quantum physics. In this study, the Schr\"{o}dinger equation is applied for a solution of a two--dimensional (2D) problem for two particles interacting via Kratzer, and modified Kratzer potentials. We found the exact bound state solutions of the two--dimensional Schr\"{o}dinger equation with Kratzer--type potentials and present analytical expressions for the eigenvalues and eigenfunctions. The eigenfunctions are given in terms of the associated Laguerre polynomials.
翻訳日:2023-11-07 16:14:37 公開日:2023-11-05
# ChEF: マルチモーダル大言語モデルの標準化評価のための総合的評価フレームワーク

ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models ( http://arxiv.org/abs/2311.02692v1 )

ライセンス: Link先を確認
Zhelun Shi, Zhipin Wang, Hongxing Fan, Zhenfei Yin, Lu Sheng, Yu Qiao, Jing Shao(参考訳) MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。 しかしながら、ベンチマークのリストが提案されているにもかかわらず、MLLMの機能と制限は、標準化された全体評価フレームワークが欠如しているため、まだ包括的に理解されていない。 この目的のために,各MLLMを一意にプロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。 まず、ChEFをスケーラブルなマルチモーダルデータセットとしてのシナリオ、フレキシブルな命令検索公式としてのインストラクション、信頼性の高い質問応答戦略としての推論、指示型タスク固有スコア関数としてのメトリックの4つのモジュラーコンポーネントとして構成する。 それらに基づいて、ChEFは標準化されたフレームワークでの汎用的な評価を促進し、新しいレシピ(これら4つのコンポーネントの体系的な選択)を設計することで、新しい評価を構築することができる。 現在のMLLMベンチマークはChEFのレシピとして簡単に要約できる。 第2に,実世界のマルチモーダルインタラクションを実現するための信頼性のあるエージェントとして,MLLMの求める能力(デシラタ,キャリブレーション,インコンテキスト学習,命令追従,言語パフォーマンス,幻覚,堅牢性)を定量化する新しいレシピを6つ導入する。 第3に,9つのシナリオと6つのデシラタにおいて,MLLMを大規模に評価する。 本評価では,MLLMの一般化可能性および多モード相互作用に必要なMLLMの複合能力について,20以上の貴重な知見を要約した。 我々は、さらなる分析のための詳細な実装と、新しいレシピやモデルを統合するための使い易いモジュールツールキットを公開し、ChEFがMLLMコミュニティのさらなる評価フレームワークになるようにします。

Multimodal Large Language Models (MLLMs) have shown impressive abilities in interacting with visual content with myriad potential downstream tasks. However, even though a list of benchmarks has been proposed, the capabilities and limitations of MLLMs are still not comprehensively understood, due to a lack of a standardized and holistic evaluation framework. To this end, we present the first Comprehensive Evaluation Framework (ChEF) that can holistically profile each MLLM and fairly compare different MLLMs. First, we structure ChEF as four modular components, i.e., Scenario as scalable multimodal datasets, Instruction as flexible instruction retrieving formulae, Inferencer as reliable question answering strategies, and Metric as indicative task-specific score functions. Based on them, ChEF facilitates versatile evaluations in a standardized framework, and new evaluations can be built by designing new Recipes (systematic selection of these four components). Notably, current MLLM benchmarks can be readily summarized as recipes of ChEF. Second, we introduce 6 new recipes to quantify competent MLLMs' desired capabilities (or called desiderata, i.e., calibration, in-context learning, instruction following, language performance, hallucination, and robustness) as reliable agents that can perform real-world multimodal interactions. Third, we conduct a large-scale evaluation of 9 prominent MLLMs on 9 scenarios and 6 desiderata. Our evaluation summarized over 20 valuable observations concerning the generalizability of MLLMs across various scenarios and the composite capability of MLLMs required for multimodal interactions. We will publicly release all the detailed implementations for further analysis, as well as an easy-to-use modular toolkit for the integration of new recipes and models, so that ChEF can be a growing evaluation framework for the MLLM community.
翻訳日:2023-11-07 16:14:20 公開日:2023-11-05
# アーキテクチャの問題:グラフコントラスト学習における暗黙のメカニズムを明らかにする

Architecture Matters: Uncovering Implicit Mechanisms in Graph Contrastive Learning ( http://arxiv.org/abs/2311.02687v1 )

ライセンス: Link先を確認
Xiaojun Guo, Yifei Wang, Zeming Wei, Yisen Wang(参考訳) 視覚表現学習(VCL)のためのコントラスト学習の繁栄により、グラフ領域にも適応し、有望な性能が得られる。 しかし,様々なグラフコントラスト学習法(GCL)の体系的研究により,従来のVCL法とは全く異なる既存のGCL法に共通する現象がみられた。 1) 陽性サンプルはgclの必須条件ではない。 2) グラフ分類には負のサンプルは不要であり, 特定の正規化モジュールを採用する場合, ノード分類にも必要ではない。 3)データ拡張は、単純なドメインに依存しない拡張(例えばガウスノイズ)もかなり良い性能が得られるため、GCLにはるかに影響しない。 GNNの暗黙的帰納バイアスが対照的な学習にどのように作用するかを明らかにすることによって、理論上はGCLの興味深い性質に関する洞察を提供する。 既存のVCLメソッドを直接GCLに移植するのではなく,グラフ学習のユニークなアーキテクチャに注目し,GCLメソッドの設計におけるその暗黙の影響を考察する。 コードはhttps: //github.com/PKU-ML/ArchitectureMattersGCLで入手できる。

With the prosperity of contrastive learning for visual representation learning (VCL), it is also adapted to the graph domain and yields promising performance. However, through a systematic study of various graph contrastive learning (GCL) methods, we observe that some common phenomena among existing GCL methods that are quite different from the original VCL methods, including 1) positive samples are not a must for GCL; 2) negative samples are not necessary for graph classification, neither for node classification when adopting specific normalization modules; 3) data augmentations have much less influence on GCL, as simple domain-agnostic augmentations (e.g., Gaussian noise) can also attain fairly good performance. By uncovering how the implicit inductive bias of GNNs works in contrastive learning, we theoretically provide insights into the above intriguing properties of GCL. Rather than directly porting existing VCL methods to GCL, we advocate for more attention toward the unique architecture of graph learning and consider its implicit influence when designing GCL methods. Code is available at https: //github.com/PKU-ML/ArchitectureMattersGCL.
翻訳日:2023-11-07 16:13:38 公開日:2023-11-05
# Octavius: MoEによるMLLMのタスク干渉の軽減

Octavius: Mitigating Task Interference in MLLMs via MoE ( http://arxiv.org/abs/2311.02684v1 )

ライセンス: Link先を確認
Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin, Si Liu, Lu Sheng, Wanli Ouyang, Yu Qiao, Jing Shao(参考訳) 近年,Large Language Models (LLMs) はゼロショットの一般化能力を,命令チューニングによるマルチモーダル学習に拡張できることが実証されている。 より多くのモダリティと下流タスクが導入されると、負の衝突と干渉はパフォーマンスに悪影響を及ぼす可能性がある。 この現象は,従来の研究で見過ごされてきたが,多モーダル大規模言語モデル(MLLM)を用いた多モーダル学習の包括的研究と実験のための,新しい拡張可能なフレームワークである \mname を提案する。 具体的には、よく知られたMixture-of-Experts (MoE) と代表的PEFT技術の1つである \emph{i.e.} LoRA を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダLoRA-MoEを設計する。 実験結果(約20-%改善)は,様々な2次元および3次元下流タスクにおける設計の有効性と汎用性を示した。 コードと対応するデータセットが近く提供される。

Recent studies have demonstrated Large Language Models (LLMs) can extend their zero-shot generalization capabilities to multimodal learning through instruction tuning. As more modalities and downstream tasks are introduced, negative conflicts and interference may have a worse impact on performance. While this phenomenon has been overlooked in previous work, we propose a novel and extensible framework, called \mname, for comprehensive studies and experimentation on multimodal learning with Multimodal Large Language Models (MLLMs). Specifically, we combine the well-known Mixture-of-Experts (MoE) and one of the representative PEFT techniques, \emph{i.e.,} LoRA, designing a novel LLM-based decoder, called LoRA-MoE, for multimodal learning. The experimental results (about 20\% improvement) have shown the effectiveness and versatility of our design in various 2D and 3D downstream tasks. Code and corresponding dataset will be available soon.
翻訳日:2023-11-07 16:12:59 公開日:2023-11-05
# 付加探索による学習ベース線形二次ガウス制御の回帰解析

Regret Analysis of Learning-Based Linear Quadratic Gaussian Control with Additive Exploration ( http://arxiv.org/abs/2311.02679v1 )

ライセンス: Link先を確認
Archith Athrey, Othmane Mazhar, Meichen Guo, Bart De Schutter and Shengling Shi(参考訳) 本稿では,LQG(Linear Quadratic Gaussian)フレームワーク内の未知の部分観測可能なシステムを制御するために,計算効率のよい探索戦略であるNuive Exploringによって得られた後悔を解析する。 lqg-naiveと呼ばれる二相制御アルゴリズムを導入し、ガウス入力信号を注入してシステムモデルを得る初期フェーズと、エピソディックな方法でのナイーブ探索と制御の相互作用の第2フェーズを紹介する。 我々は,LQG-NAIVE が $\tilde{\mathcal{O}}(\sqrt{T})$,すなわち $\mathcal{O}(\sqrt{T})$,$T$ の時間ステップの後に対数因子まで到達し,その性能を数値シミュレーションにより検証することを示す。 また,FIM(Fisher Information Matrix)を組み込んだ「クローズドループ」設定に探索信号を拡張したLQG-IF2Eを提案する。 我々は,LQG-IF2EとLQG-NAIVEの競合性能を比較検討した。

In this paper, we analyze the regret incurred by a computationally efficient exploration strategy, known as naive exploration, for controlling unknown partially observable systems within the Linear Quadratic Gaussian (LQG) framework. We introduce a two-phase control algorithm called LQG-NAIVE, which involves an initial phase of injecting Gaussian input signals to obtain a system model, followed by a second phase of an interplay between naive exploration and control in an episodic fashion. We show that LQG-NAIVE achieves a regret growth rate of $\tilde{\mathcal{O}}(\sqrt{T})$, i.e., $\mathcal{O}(\sqrt{T})$ up to logarithmic factors after $T$ time steps, and we validate its performance through numerical simulations. Additionally, we propose LQG-IF2E, which extends the exploration signal to a `closed-loop' setting by incorporating the Fisher Information Matrix (FIM). We provide compelling numerical evidence of the competitive performance of LQG-IF2E compared to LQG-NAIVE.
翻訳日:2023-11-07 16:12:41 公開日:2023-11-05
# フィッシャー計量を用いたリーマンラプラス近似

Riemannian Laplace Approximation with the Fisher Metric ( http://arxiv.org/abs/2311.02766v1 )

ライセンス: Link先を確認
Hanlin Yu, Marcelo Hartmann, Bernardo Williams, Mark Girolami, Arto Klami(参考訳) ラプラス法は、そのモードにおけるガウス分布のターゲット密度を近似する。 ベルンシュタイン・ヴォン・ミセスの定理によるベイズ推論は計算効率が高く漸近的に正確であるが、複素対象や有限データ後方に対しては、しばしば粗すぎる近似である。 ラプラス近似の最近の一般化は、計算効率を維持しながら、よりリッチな近似族を提供するリーマン幾何学の選択に従ってガウス近似を変換する。 しかし、上述の通り、その性質は選択された計量に大きく依存するが、実際には以前の研究で採用された計量は、過度に狭く、無限のデータにも偏りがある近似をもたらす。 近似系を更に発展させ、無限データの極限に完全に存在する2つの代替変種を導出し、その方法の理論的解析を延長し、様々な実験で実際的な改善を示すことにより、この欠点を正す。

The Laplace's method approximates a target density with a Gaussian distribution at its mode. It is computationally efficient and asymptotically exact for Bayesian inference due to the Bernstein-von Mises theorem, but for complex targets and finite-data posteriors it is often too crude an approximation. A recent generalization of the Laplace Approximation transforms the Gaussian approximation according to a chosen Riemannian geometry providing a richer approximation family, while still retaining computational efficiency. However, as shown here, its properties heavily depend on the chosen metric, indeed the metric adopted in previous work results in approximations that are overly narrow as well as being biased even at the limit of infinite data. We correct this shortcoming by developing the approximation family further, deriving two alternative variants that are exact at the limit of infinite data, extending the theoretical analysis of the method, and demonstrating practical improvements in a range of experiments.
翻訳日:2023-11-07 16:04:31 公開日:2023-11-05
# 原子知識バンクを用いた機械翻訳としてのルール学習

Rule Learning as Machine Translation using the Atomic Knowledge Bank ( http://arxiv.org/abs/2311.02765v1 )

ライセンス: Link先を確認
Kristoffer {\AE}s{\o}y and Ana Ozaki(参考訳) 機械学習モデル、特に言語モデルは、推論を必要とする様々なタスクに適用されている。 このようなモデルはパターンを捉えるのに長けているが、信頼できる制御された方法で推論する能力は、しばしば疑問視される。 一方、論理ベースのルールシステムでは、制御された検査とすでに確立された検証方法が可能である。 しかし、手動でシステムを作成するのは時間がかかり、エラーが発生しやすいことはよく知られている。 自然言語で規則を表現する文を論理規則に翻訳するトランスフォーマーの能力について検討する。 推論は論理的な推論を行う上で最も信頼できるツールであり、そのようなツールが期待する形式への言語翻訳にフォーカスしています。 文献からdketデータセットを用いて実験を行い,アトミック知識バンクに基づく言語から論理への翻訳のためのデータセットを作成する。

Machine learning models, and in particular language models, are being applied to various tasks that require reasoning. While such models are good at capturing patterns their ability to reason in a trustable and controlled manner is frequently questioned. On the other hand, logic-based rule systems allow for controlled inspection and already established verification methods. However it is well-known that creating such systems manually is time-consuming and prone to errors. We explore the capability of transformers to translate sentences expressing rules in natural language into logical rules. We see reasoners as the most reliable tools for performing logical reasoning and focus on translating language into the format expected by such tools. We perform experiments using the DKET dataset from the literature and create a dataset for language to logic translation based on the Atomic knowledge bank.
翻訳日:2023-11-07 16:04:14 公開日:2023-11-05
# 周波数及び部分和の時間的制限による多項類似関数の対数密度

Log-Concavity of Multinomial Likelihood Functions Under Interval Censoring Constraints on Frequencies or Their Partial Sums ( http://arxiv.org/abs/2311.02763v1 )

ライセンス: Link先を確認
Bruce Levin and Erik Learned-Miller(参考訳) 任意の区間制限の下で観測される多重項ベクトルの確率関数は、制約されたサンプル空間が離散単純体のM-凸部分集合からなることを証明し、完全に対数対数であることを示す。

We show that the likelihood function for a multinomial vector observed under arbitrary interval censoring constraints on the frequencies or their partial sums is completely log-concave by proving that the constrained sample spaces comprise M-convex subsets of the discrete simplex.
翻訳日:2023-11-07 16:04:00 公開日:2023-11-05
# VDBを用いた高速スパース3次元畳み込みネットワーク

Fast Sparse 3D Convolution Network with VDB ( http://arxiv.org/abs/2311.02762v1 )

ライセンス: Link先を確認
Fangjun Zhou, Anyong Mao, Eftychios Sifakis(参考訳) スパース3次元データ推論に最適化された新しい畳み込みニューラルネットワークの実装を提案する。 この実装では、データ構造としてNanoVDBを使用してスパーステンソルを格納する。 パフォーマンスを維持しながら、メモリフットプリントが比較的小さい。 このアーキテクチャは高分解能3dオブジェクト分類ネットワーク上の最先端のcnnモデルよりも約20倍高速であることを示す。

We proposed a new Convolution Neural Network implementation optimized for sparse 3D data inference. This implementation uses NanoVDB as the data structure to store the sparse tensor. It leaves a relatively small memory footprint while maintaining high performance. We demonstrate that this architecture is around 20 times faster than the state-of-the-art dense CNN model on a high-resolution 3D object classification network.
翻訳日:2023-11-07 16:03:53 公開日:2023-11-05
# 未知のコストによるワンショット戦略分類

One-Shot Strategic Classification Under Unknown Costs ( http://arxiv.org/abs/2311.02761v1 )

ライセンス: Link先を確認
Elan Rosenfeld, Nir Rosenfeld(参考訳) 戦略的分類の主要な目標は、戦略的な入力操作にロバストな決定ルールを学ぶことである。 いくつかの最近の研究は未知の応答の重要な課題に対処しているが、彼らは時間とともに複数のモデル展開を可能にするシーケンシャルな設定のみを研究している。 しかし、パブリックポリシーでは、多くのドメインがある:$\unicode{x2014}$ 特に、共通のモチベーションのユースケース$\unicode{x2014}$複数のデプロイメントが非現実的である、あるいは単一の悪いラウンドでさえ望ましくない。 このギャップに対処するため,我々は,単一分類子に一度コミットする必要がある一発設定において,未知の応答下での戦略的分類の研究を開始する。 不確実性の発生源としてのユーザのコスト関数に着目して、幅広いコストクラスにおいて、たとえ真コストの小さな誤評価であっても、最悪の場合、任意に低い精度が伴うことを証明し始める。 これを踏まえて、一発タスクを最小限の問題とみなし、可能なコストの不確実性セットに対して最小の最悪のリスクを持つ分類器を特定することを目的としている。 我々の主な貢献は、全バッチおよび確率的設定の両方に対する効率的なアルゴリズムであり、これは、$\tilde{\mathcal{O}}(T^{-\frac{1}{2}})$の次元非依存速度でミニマックス最適解に収束する(オフライン)ことを証明している。 分析の結果,ユーザ応答の戦略的性質,特にコスト関数に対する二重規範正規化の重要性に起因する重要な構造が明らかになった。

A primary goal in strategic classification is to learn decision rules which are robust to strategic input manipulation. Earlier works assume that strategic responses are known; while some recent works address the important challenge of unknown responses, they exclusively study sequential settings which allow multiple model deployments over time. But there are many domains$\unicode{x2014}$particularly in public policy, a common motivating use-case$\unicode{x2014}$where multiple deployments are unrealistic, or where even a single bad round is undesirable. To address this gap, we initiate the study of strategic classification under unknown responses in the one-shot setting, which requires committing to a single classifier once. Focusing on the users' cost function as the source of uncertainty, we begin by proving that for a broad class of costs, even a small mis-estimation of the true cost can entail arbitrarily low accuracy in the worst case. In light of this, we frame the one-shot task as a minimax problem, with the goal of identifying the classifier with the smallest worst-case risk over an uncertainty set of possible costs. Our main contribution is efficient algorithms for both the full-batch and stochastic settings, which we prove converge (offline) to the minimax optimal solution at the dimension-independent rate of $\tilde{\mathcal{O}}(T^{-\frac{1}{2}})$. Our analysis reveals important structure stemming from the strategic nature of user responses, particularly the importance of dual norm regularization with respect to the cost function.
翻訳日:2023-11-07 16:03:48 公開日:2023-11-05
# 強化学習による因果質問応答

Causal Question Answering with Reinforcement Learning ( http://arxiv.org/abs/2311.02760v1 )

ライセンス: Link先を確認
Lukas Bl\"ubaum, Stefan Heindorf(参考訳) 因果問題 異なる出来事や現象の間の因果関係について問う。 具体的には、2つの現象の間に関係があるかどうかを判断することや、現象のすべての原因や影響を特定することを目的としている。 因果質問は、仮想アシスタントや検索エンジンなど、さまざまなユースケースにおいて重要である。 しかし、因果質問応答に対する現在の多くのアプローチでは、その答えの説明や証拠は提供できない。 そこで,本稿では,因果関係の大規模データセットである causenet を用いて,因果関係とその起因関係データの解答を試みる。 近年,リンク予測やファクトチェックといった知識グラフタスクへの強化学習の応用に着想を得て,因果質問応答における強化学習の適用について検討した。 因果関係の質問に答えるために,グラフを検索することを学ぶアクタ・クリティック・ベースのエージェントを提案する。 我々はエージェントを教師付き学習手順でブートストラップし、大きなアクションスペースとスパース報酬を扱う。 評価の結果,各質問に30個未満のノードを訪問することで,探索空間を突破し,二分的因果質問に答えることに成功した。 我々のアブレーション研究は,強化学習エージェントが改善する強固な基盤を,教師付き学習戦略が与えていることを示している。 エージェントが返した経路は、原因が効果をもたらすメカニズムを説明します。 さらに、パス上の各エッジに対して、CouchNetは元のソースをWebに保存し、パスの検証を容易にする。

Causal questions inquire about causal relationships between different events or phenomena. Specifically, they often aim to determine whether there is a relationship between two phenomena, or to identify all causes/effects of a phenomenon. Causal questions are important for a variety of use cases, including virtual assistants and search engines. However, many current approaches to causal question answering cannot provide explanations or evidence for their answers. Hence, in this paper, we aim to answer causal questions with CauseNet, a large-scale dataset of causal relations and their provenance data. Inspired by recent, successful applications of reinforcement learning to knowledge graph tasks, such as link prediction and fact-checking, we explore the application of reinforcement learning on CauseNet for causal question answering. We introduce an Actor-Critic based agent which learns to search through the graph to answer causal questions. We bootstrap the agent with a supervised learning procedure to deal with large action spaces and sparse rewards. Our evaluation shows that the agent successfully prunes the search space to answer binary causal questions by visiting less than 30 nodes per question compared to over 3,000 nodes by a naive breadth-first search. Our ablation study indicates that our supervised learning strategy provides a strong foundation upon which our reinforcement learning agent improves. The paths returned by our agent explain the mechanisms by which a cause produces an effect. Moreover, for each edge on a path, CauseNet stores its original source on the web allowing for easy verification of paths.
翻訳日:2023-11-07 16:03:16 公開日:2023-11-05
# ELEGANT: グラフニューラルネットワークの公正性に関する認証された防御

ELEGANT: Certified Defense on the Fairness of Graph Neural Networks ( http://arxiv.org/abs/2311.02757v1 )

ライセンス: Link先を確認
Yushun Dong, Binchi Zhang, Hanghang Tong, Jundong Li(参考訳) グラフニューラルネットワーク(GNN)は、グラフベースのタスクにおいて、長年にわたって顕著なグラフ学習モデルとして現れてきた。 しかしながら、GNNの脆弱性のため、悪意のある攻撃者が入力グラフデータに摂動を加えることで、予測の公平度を容易に損なうことが実証されている。 本稿では,gnnの公平性レベルを検証可能な防御の新たな問題を検討するために,重要なステップを踏み出す。 具体的には、ELEGANTという原理的なフレームワークを提案し、GNNの公正性に関する詳細な理論的証明分析を行う。 ELEGANTは任意のGNNをバックボーンとしており、そのようなバックボーンの公平度は、攻撃者に対する特定の摂動予算の下では理論的に破壊できない。 特に、ELEGANTはGNNの構造やパラメータに関する仮定を持っておらず、認証を実現するためにGNNを再訓練する必要はない。 従って、デプロイ可能な最適化GNNのプラグイン・アンド・プレイフレームワークとして機能することが可能になる。 GNNのさまざまなバックボーンにまたがる実世界のデータセットに関する広範な実験を通じて,実際にELEGANTの有効性を検証する。 オープンソースのコードはhttps://github.com/yushundong/elegantにある。

Graph Neural Networks (GNNs) have emerged as a prominent graph learning model in various graph-based tasks over the years. Nevertheless, due to the vulnerabilities of GNNs, it has been empirically proved that malicious attackers could easily corrupt the fairness level of their predictions by adding perturbations to the input graph data. In this paper, we take crucial steps to study a novel problem of certifiable defense on the fairness level of GNNs. Specifically, we propose a principled framework named ELEGANT and present a detailed theoretical certification analysis for the fairness of GNNs. ELEGANT takes any GNNs as its backbone, and the fairness level of such a backbone is theoretically impossible to be corrupted under certain perturbation budgets for attackers. Notably, ELEGANT does not have any assumption over the GNN structure or parameters, and does not require re-training the GNNs to realize certification. Hence it can serve as a plug-and-play framework for any optimized GNNs ready to be deployed. We verify the satisfactory effectiveness of ELEGANT in practice through extensive experiments on real-world datasets across different backbones of GNNs, where ELEGANT is also demonstrated to be beneficial for GNN debiasing. Open-source code can be found at https://github.com/yushundong/ELEGANT.
翻訳日:2023-11-07 16:02:52 公開日:2023-11-05
# 変形性物体追跡のための高速ポイントクラウド・メッシュ再構成

Fast Point-cloud to Mesh Reconstruction for Deformable Object Tracking ( http://arxiv.org/abs/2311.02749v1 )

ライセンス: Link先を確認
Elham Amin Mansour, Hehui Zheng, Robert K. Katzschmann(参考訳) 私たちの周りの世界はソフトな物体でいっぱいで、人間が若いころからデクスタースな手の動きで知覚し変形することを学びます。 ロボットハンドがソフトオブジェクトを制御できるようにするには、変形したオブジェクトのオンライン状態フィードバックを取得する必要がある。 rgb-dカメラは30hzの速度でオクルード情報を収集できるが、後者は連続追跡可能な物体表面を表すものではない。 そこで本研究では,異なるカテゴリの物体に対して50hz以上の速度で変形点雲の変形メッシュを作製する手法を開発した。 点雲からのメッシュの再構成は、3次元再構成と4次元再構成の下でコンピュータグラフィックスの分野で長い間研究されてきたが、ロボット工学アプリケーションに必要な速度と一般化性は欠如している。 我々のモデルはポイントクラウドオートエンコーダとReal-NVPアーキテクチャを用いて設計されている。 後者は、多様体保存特性を持つ連続流れニューラルネットワークである。 私たちのモデルは、標準的な状態にあるオブジェクトのメッシュであるテンプレートメッシュを取り、テンプレートメッシュを変形させて、オブジェクトの変形したポイントクラウドにマッチさせます。 本手法は6種類のycbの変形に対して58Hzの速度でメッシュ再構成と追跡を行う。 ダウンストリームアプリケーションの例としては、操作されたオブジェクトの状態からオンラインフィードバックを必要とするロボットハンドの制御アルゴリズムがある。 さらに,提案手法が提供する追跡能力は,マーカーフリーアプローチによる変形物体のシステム同定に有用である。 今後の作業では、メソッドをより多くのカテゴリのオブジェクトと現実のデフォーミングポイントクラウドに拡張します。

The world around us is full of soft objects that we as humans learn to perceive and deform with dexterous hand movements from a young age. In order for a Robotic hand to be able to control soft objects, it needs to acquire online state feedback of the deforming object. While RGB-D cameras can collect occluded information at a rate of 30 Hz, the latter does not represent a continuously trackable object surface. Hence, in this work, we developed a method that can create deforming meshes of deforming point clouds at a speed of above 50 Hz for different categories of objects. The reconstruction of meshes from point clouds has been long studied in the field of Computer graphics under 3D reconstruction and 4D reconstruction, however both lack the speed and generalizability needed for robotics applications. Our model is designed using a point cloud auto-encoder and a Real-NVP architecture. The latter is a continuous flow neural network with manifold-preservation properties. Our model takes a template mesh which is the mesh of an object in its canonical state and then deforms the template mesh to match a deformed point cloud of the object. Our method can perform mesh reconstruction and tracking at a rate of 58 Hz for deformations of six different ycb categories. An instance of a downstream application can be the control algorithm for a robotic hand that requires online feedback from the state of a manipulated object which would allow online grasp adaptation in a closed-loop manner. Furthermore, the tracking capacity that our method provides can help in the system identification of deforming objects in a marker-free approach. In future work, we will extend our method to more categories of objects and real world deforming point clouds
翻訳日:2023-11-07 16:02:31 公開日:2023-11-05
# フリーテキスト臨床ノートの同定のためのライブラリPyclipse

Pyclipse, a library for deidentification of free-text clinical notes ( http://arxiv.org/abs/2311.02748v1 )

ライセンス: Link先を確認
Callandra Moore, Jonathan Ranisau, Walter Nelson, Jeremy Petch, Alistair Johnson(参考訳) 臨床テキストの共有と臨床自然言語処理の進歩の障壁となっている手作業による識別コストの高まりから,臨床テキストデータの自動識別が重要である。 しかしながら、テキスト処理の違いによる再現性の問題、評価方法の相違、臨床領域や機関間の一貫性の欠如など、効果的な自動識別ツールの作成にはいくつかの課題がある。 これらの課題に対処するため,我々は,識別アルゴリズムの比較を合理化するための統一的かつ構成可能な評価手順であるpyclipseフレームワークを提案する。 Pyclipseは、ローカル臨床データ上でオープンソースの識別アルゴリズムを実行するための単一のインターフェースとして機能し、コンテキスト固有の評価を可能にする。 pyclipseの有用性を実証するため、4つのパブリックおよび2つのプライベート臨床テキストデータセット間で6つの識別アルゴリズムを比較した。 同じベンチマークデータセットで評価しても、アルゴリズムのパフォーマンスは元の論文で報告された結果に一貫して及ばないことがわかった。 これらの相違は、識別アルゴリズムを正確に評価し比較する複雑さを強調し、再現可能で調整可能なpyclipseのような拡張可能なフレームワークの必要性を強調している。 本フレームワークは, 診断ツールの評価と改善のための統一的アプローチの基礎を築き, 最終的に臨床自然言語処理における患者保護を増強する。

Automated deidentification of clinical text data is crucial due to the high cost of manual deidentification, which has been a barrier to sharing clinical text and the advancement of clinical natural language processing. However, creating effective automated deidentification tools faces several challenges, including issues in reproducibility due to differences in text processing, evaluation methods, and a lack of consistency across clinical domains and institutions. To address these challenges, we propose the pyclipse framework, a unified and configurable evaluation procedure to streamline the comparison of deidentification algorithms. Pyclipse serves as a single interface for running open-source deidentification algorithms on local clinical data, allowing for context-specific evaluation. To demonstrate the utility of pyclipse, we compare six deidentification algorithms across four public and two private clinical text datasets. We find that algorithm performance consistently falls short of the results reported in the original papers, even when evaluated on the same benchmark dataset. These discrepancies highlight the complexity of accurately assessing and comparing deidentification algorithms, emphasizing the need for a reproducible, adjustable, and extensible framework like pyclipse. Our framework lays the foundation for a unified approach to evaluate and improve deidentification tools, ultimately enhancing patient protection in clinical natural language processing.
翻訳日:2023-11-07 16:02:07 公開日:2023-11-05
# 注意モジュールによる産業検査における画像レベル異常検出の改善:DifferNetケーススタディ

Attention Modules Improve Image-Level Anomaly Detection for Industrial Inspection: A DifferNet Case Study ( http://arxiv.org/abs/2311.02747v1 )

ライセンス: Link先を確認
Andr\'e Luiz Buarque Vieira e Silva, Francisco Sim\~oes, Danny Kowerko, Tobias Schlosser, Felipe Battisti, Veronica Teichrieb(参考訳) 半自動化された視覚産業検査の中で、ディープラーニングを含む視覚的欠陥を評価する学習ベースのアプローチは、高解像度画像上のピクセルサイズの小さな欠陥パターンの処理を可能にする。 これらまれに発生する欠陥パターンの出現は、ラベル付きデータコーパスの一般的な必要性を説明する。 この問題を緩和し、教師なし視覚検査における技術の現状を前進させるため、この研究は注意モジュールで強化されたDifferNetベースのソリューションを提案する。 産業検査用の3つの視覚異常検出データセット、InsPLAD-fault, MVTec AD, Semiconductor Waferの画像レベルの検出と分類機能を改善する。 attentdiffernetは、最先端の技術と比較して、改良された結果を達成しています。 我々の定量的評価は,3つのデータセットすべてを考慮すると,AUROC全体のDifferNetof 1.77 +/- 0.25ポイントに対して平均的な改善を示している。 attentdiffernetに対する我々の変異が現在研究されているアプローチの文脈で大きな展望を示しているため、ベースラインが定式化されており、野生および制御された環境での産業的異常検出における注意の重要性を強調している。

Within (semi-)automated visual industrial inspection, learning-based approaches for assessing visual defects, including deep neural networks, enable the processing of otherwise small defect patterns in pixel size on high-resolution imagery. The emergence of these often rarely occurring defect patterns explains the general need for labeled data corpora. To alleviate this issue and advance the current state of the art in unsupervised visual inspection, this work proposes a DifferNet-based solution enhanced with attention modules: AttentDifferNet. It improves image-level detection and classification capabilities on three visual anomaly detection datasets for industrial inspection: InsPLAD-fault, MVTec AD, and Semiconductor Wafer. In comparison to the state of the art, AttentDifferNet achieves improved results, which are, in turn, highlighted throughout our quali-quantitative study. Our quantitative evaluation shows an average improvement - compared to DifferNet - of 1.77 +/- 0.25 percentage points in overall AUROC considering all three datasets, reaching SOTA results in InsPLAD-fault, an industrial inspection in-the-wild dataset. As our variants to AttentDifferNet show great prospects in the context of currently investigated approaches, a baseline is formulated, emphasizing the importance of attention for industrial anomaly detection both in the wild and in controlled environments.
翻訳日:2023-11-07 16:01:44 公開日:2023-11-05
# 複合作業環境における段階的強化学習

Staged Reinforcement Learning for Complex Tasks through Decomposed Environments ( http://arxiv.org/abs/2311.02746v1 )

ライセンス: Link先を確認
Rafael Pina, Corentin Artaud, Xiaolan Liu and Varuna De Silva(参考訳) 強化学習(英: reinforcement learning、rl)は、人工知能の分野への関心が高まっている分野である。 特にインテリジェントな車両制御の文脈では、RLは目覚ましい進歩を遂げている。 しかし、現在はまだRLが完全な超人的ポテンシャルを達成できる模擬制御環境にある。 シミュレーションを実際のシナリオに適用する方法は研究されているが、シミュレーション問題を実際の動的問題に近似する方法は依然として課題である。 本稿では,RL問題を実問題に近似する2つの方法について議論する。 交通ジャンクションシミュレーションの文脈では、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くことは、複雑なタスクにおける破滅的な事象の発生を最小化するのに役立つ。 マルチエージェントの観点からは,集中型トレーニング分散実行(ctde)と呼ばれる,一般的なパラダイムの下で学んだ経験を活用したトレーニング構築機構を提案する。 この経験は、概念的には実際の設定に近い完全に分散した設定で活用でき、エージェントは中央のオラクルにアクセスできず、独立した独立したユニットとして扱われることが多い。 提案手法は,交通ジャンクションに関連する複雑なタスクにおけるエージェント性能を改善し,これらのシナリオで起こりうる潜在的な安全クリティカルな問題を最小化する。 シミュレーション中ではあるが, 研究状況は概念的には現実のシナリオに近づき, これらの結果から, さらなる研究の動機付けを目指す。

Reinforcement Learning (RL) is an area of growing interest in the field of artificial intelligence due to its many notable applications in diverse fields. Particularly within the context of intelligent vehicle control, RL has made impressive progress. However, currently it is still in simulated controlled environments where RL can achieve its full super-human potential. Although how to apply simulation experience in real scenarios has been studied, how to approximate simulated problems to the real dynamic problems is still a challenge. In this paper, we discuss two methods that approximate RL problems to real problems. In the context of traffic junction simulations, we demonstrate that, if we can decompose a complex task into multiple sub-tasks, solving these tasks first can be advantageous to help minimising possible occurrences of catastrophic events in the complex task. From a multi-agent perspective, we introduce a training structuring mechanism that exploits the use of experience learned under the popular paradigm called Centralised Training Decentralised Execution (CTDE). This experience can then be leveraged in fully decentralised settings that are conceptually closer to real settings, where agents often do not have access to a central oracle and must be treated as isolated independent units. The results show that the proposed approaches improve agents performance in complex tasks related to traffic junctions, minimising potential safety-critical problems that might happen in these scenarios. Although still in simulation, the investigated situations are conceptually closer to real scenarios and thus, with these results, we intend to motivate further research in the subject.
翻訳日:2023-11-07 16:01:20 公開日:2023-11-05
# マルチエージェント環境における因果関係から独立して学ぶ

Learning Independently from Causality in Multi-Agent Environments ( http://arxiv.org/abs/2311.02741v1 )

ライセンス: Link先を確認
Rafael Pina, Varuna De Silva and Corentin Artaud(参考訳) マルチエージェント強化学習(MARL)は、機械学習分野への関心が高まっている分野である。 目立った進歩にもかかわらず、調査を必要とする問題がまだ残っている。 遅延エージェントの病理学(lazy agent pathology)は、marlチームのエージェントの一部が共通の目標に寄与せず、チームメイトがすべての仕事をさせるイベントを表す、marlの有名な問題である。 本研究は,因果関係の観点からこの問題を考察することを目的とする。 我々は、MARLの分野と因果関係の橋渡しを行い、このリンクの有用性について議論する。 エージェントが協力戦略を学習し、個々の観察とチーム報酬の間に因果関係があることを示す、完全に分散したmarl設定について検討した。 実験は、この関係がmarlの独立したエージェントを改善するのにどのように役立つかを示し、結果としてチームとしてのパフォーマンス向上だけでなく、個々のエージェントに対するよりインテリジェントな行動の高まりにつながった。

Multi-Agent Reinforcement Learning (MARL) comprises an area of growing interest in the field of machine learning. Despite notable advances, there are still problems that require investigation. The lazy agent pathology is a famous problem in MARL that denotes the event when some of the agents in a MARL team do not contribute to the common goal, letting the teammates do all the work. In this work, we aim to investigate this problem from a causality-based perspective. We intend to create the bridge between the fields of MARL and causality and argue about the usefulness of this link. We study a fully decentralised MARL setup where agents need to learn cooperation strategies and show that there is a causal relation between individual observations and the team reward. The experiments carried show how this relation can be used to improve independent agents in MARL, resulting not only on better performances as a team but also on the rise of more intelligent behaviours on individual agents.
翻訳日:2023-11-07 16:00:55 公開日:2023-11-05
# シナリオ拡散:拡散を伴う制御可能なシナリオ生成

Scenario Diffusion: Controllable Driving Scenario Generation With Diffusion ( http://arxiv.org/abs/2311.02738v1 )

ライセンス: Link先を確認
Ethan Pronovost, Meghana Reddy Ganesina, Noureldin Hendy, Zeyu Wang, Andres Morales, Kai Wang, Nicholas Roy(参考訳) 合成交通シナリオの自動作成は、自動運転車(AV)の安全性を検証する重要な部分である。 本稿では,制御可能なシナリオ生成を実現するための,新しい拡散型アーキテクチャであるScenario Diffusionを提案する。 本研究では, 潜在拡散, 物体検出, 軌道回帰を組み合わせることで, 合成剤のポーズ, 方向, 軌跡の分布を同時に生成する。 生成されたシナリオを制御し、この分布を所望のシナリオを記述するトークンの集合とマップに条件付けする。 本手法は,多様な交通パターンをモデル化し,異なる地理的領域に一般化するのに十分な表現能力を有することを示す。

Automated creation of synthetic traffic scenarios is a key part of validating the safety of autonomous vehicles (AVs). In this paper, we propose Scenario Diffusion, a novel diffusion-based architecture for generating traffic scenarios that enables controllable scenario generation. We combine latent diffusion, object detection and trajectory regression to generate distributions of synthetic agent poses, orientations and trajectories simultaneously. To provide additional control over the generated scenario, this distribution is conditioned on a map and sets of tokens describing the desired scenario. We show that our approach has sufficient expressive capacity to model diverse traffic patterns and generalizes to different geographical regions.
翻訳日:2023-11-07 16:00:40 公開日:2023-11-05
# JRDB-Traj: 群衆の軌道予測のためのデータセットとベンチマーク

JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds ( http://arxiv.org/abs/2311.02736v1 )

ライセンス: Link先を確認
Saeed Saadatnejad, Yang Gao, Hamid Rezatofighi, Alexandre Alahi(参考訳) 将来の軌道予測は、自律航行、特に人による事故の防止において不可欠であり、予測エージェントが事前に予測する能力は極めて重要である。 ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、しばしばモデルコンポーネントの分離のために現実のシナリオで課題に直面している。 そこで,本研究では,追跡などの非理想的先行モジュールを含むシナリオにおけるモデルの評価を容易にする,エンドツーエンドの軌道予測のための新しいデータセットを提案する。 jrdbデータセットの拡張であるこのデータセットは、ロボットの視点から、すべてのエージェント、シーンイメージ、ポイントクラウドの場所を含む包括的なデータを提供する。 その目的は、生の感覚入力データを用いて、ロボットに対するエージェントの将来の位置を予測することである。 分離されたモデルと実践的なアプリケーションの間のギャップを埋め、ナビゲーションダイナミクスのより深い理解を促進する。 さらに, 未検出エージェントや過検出エージェントに関連する問題に対処するため, 実世界シナリオにおいて, 軌道予測モデルを評価するための新しい指標を提案する。 モデル評価とベンチマークにベンチマークを使用することが推奨されています。

Predicting future trajectories is critical in autonomous navigation, especially in preventing accidents involving humans, where a predictive agent's ability to anticipate in advance is of utmost importance. Trajectory forecasting models, employed in fields such as robotics, autonomous vehicles, and navigation, face challenges in real-world scenarios, often due to the isolation of model components. To address this, we introduce a novel dataset for end-to-end trajectory forecasting, facilitating the evaluation of models in scenarios involving less-than-ideal preceding modules such as tracking. This dataset, an extension of the JRDB dataset, provides comprehensive data, including the locations of all agents, scene images, and point clouds, all from the robot's perspective. The objective is to predict the future positions of agents relative to the robot using raw sensory input data. It bridges the gap between isolated models and practical applications, promoting a deeper understanding of navigation dynamics. Additionally, we introduce a novel metric for assessing trajectory forecasting models in real-world scenarios where ground-truth identities are inaccessible, addressing issues related to undetected or over-detected agents. Researchers are encouraged to use our benchmark for model evaluation and benchmarking.
翻訳日:2023-11-07 16:00:30 公開日:2023-11-05
# ISAR: シングルショットとFewショットオブジェクトインスタンスのセグメンテーションと再同定のためのベンチマーク

ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation and Re-Identification ( http://arxiv.org/abs/2311.02734v1 )

ライセンス: Link先を確認
Nicolas Gorlo, Kenneth Blomqvist, Francesco Milano and Roland Siegwart(参考訳) 現在使われているほとんどのオブジェクトレベルのマッピングシステムは、上流で学んだオブジェクトインスタンスのセグメンテーションモデルを利用している。 新しいオブジェクトやセグメンテーションクラスについて教えたい場合は、大規模なデータセットを構築し、システムを再トレーニングする必要があります。 新しい物体について素早く教えられる空間AIシステムを構築するためには、単発物体の検出、インスタンスのセグメンテーション、再同定といった問題を効果的に解決する必要がある。 これまでのところ、これらの要件をすべて一斉に満たすメソッドも、そのようなメソッドをテストするのに使えるベンチマークもない。 これに対応するために,単発および少数発のオブジェクトのインスタンス分割と再識別のためのベンチマークおよびベースライン手法であるISARを提案する。 地上意味アノテーションを用いたビデオシーケンスの半合成データセット、標準化された評価パイプライン、およびベースライン方法を提供する。 我々のベンチマークは、マルチオブジェクトトラッキング、ビデオオブジェクトセグメンテーション、再識別の新たな研究動向と一致している。

Most object-level mapping systems in use today make use of an upstream learned object instance segmentation model. If we want to teach them about a new object or segmentation class, we need to build a large dataset and retrain the system. To build spatial AI systems that can quickly be taught about new objects, we need to effectively solve the problem of single-shot object detection, instance segmentation and re-identification. So far there is neither a method fulfilling all of these requirements in unison nor a benchmark that could be used to test such a method. Addressing this, we propose ISAR, a benchmark and baseline method for single- and few-shot object Instance Segmentation And Re-identification, in an effort to accelerate the development of algorithms that can robustly detect, segment, and re-identify objects from a single or a few sparse training examples. We provide a semi-synthetic dataset of video sequences with ground-truth semantic annotations, a standardized evaluation pipeline, and a baseline method. Our benchmark aligns with the emerging research trend of unifying Multi-Object Tracking, Video Object Segmentation, and Re-identification.
翻訳日:2023-11-07 16:00:12 公開日:2023-11-05
# 分子から足場から機能群へ:マルチチャネル学習による文脈依存的分子表現の構築

From molecules to scaffolds to functional groups: building context-dependent molecular representation via multi-channel learning ( http://arxiv.org/abs/2311.02798v1 )

ライセンス: Link先を確認
Yue Wan and Jialu Wu and Tingjun Hou and Chang-Yu Hsieh and Xiaowei Jia(参考訳) 信頼性の高い分子特性予測は、様々な科学的取り組みや薬物発見などの工業的応用に不可欠である。 しかし、物理化学的・生物学的性質と従来の分子破砕法の間の非線型因果関係と組み合わさったデータ不足は、堅牢な分子機械学習モデルの開発を複雑にしている。 自己教師付き学習(SSL)は、ダウンストリームタスクに有利な化学空間の基本的な表現を学ぶために、大規模で無注釈の分子データを活用する一般的なソリューションとして登場した。 しかし、既存の分子SSL法は、分子の類似性や足場の重要性といったドメイン固有の知識や、大規模化学空間上での操作時のターゲット応用の文脈を概ね見落としている。 本稿では,分子構造における構造的階層の知識を活用し,異なるチャネル上の個別の事前学習タスクを組み込んで,コンテキスト依存の表現を構成するためのタスク固有のチャネル選択を利用する,新しい学習フレームワークを提案する。 提案手法は,様々な分子特性ベンチマークにおける競合性能を示し,最先端の成果を導出する。 さらに、他のベースラインと比較して堅牢性と一般化性が向上したアクティビティクリフのような、特に挑戦的でユビキタスなシナリオにおいて、前例のない利点を提供します。

Reliable molecular property prediction is essential for various scientific endeavors and industrial applications, such as drug discovery. However, the scarcity of data, combined with the highly non-linear causal relationships between physicochemical and biological properties and conventional molecular featurization schemes, complicates the development of robust molecular machine learning models. Self-supervised learning (SSL) has emerged as a popular solution, utilizing large-scale, unannotated molecular data to learn a foundational representation of chemical space that might be advantageous for downstream tasks. Yet, existing molecular SSL methods largely overlook domain-specific knowledge, such as molecular similarity and scaffold importance, as well as the context of the target application when operating over the large chemical space. This paper introduces a novel learning framework that leverages the knowledge of structural hierarchies within molecular structures, embeds them through separate pre-training tasks over distinct channels, and employs a task-specific channel selection to compose a context-dependent representation. Our approach demonstrates competitive performance across various molecular property benchmarks and establishes some state-of-the-art results. It further offers unprecedented advantages in particularly challenging yet ubiquitous scenarios like activity cliffs with enhanced robustness and generalizability compared to other baselines.
翻訳日:2023-11-07 15:52:03 公開日:2023-11-05
# スパース付加機構シフト可変オートエンコーダによる細胞摂動のモデル化

Modelling Cellular Perturbations with the Sparse Additive Mechanism Shift Variational Autoencoder ( http://arxiv.org/abs/2311.02794v1 )

ライセンス: Link先を確認
Michael Bereket, Theofanis Karaletsos(参考訳) 介入による観察の生成モデルは、近年、機械学習と科学の間で活発な関心事となっている。 例えば、薬物発見では、未知の生物学的作用のメカニズムを特徴付けるために、細胞に対する多様な介入の効果をモデル化する必要がある。 摂動モデルに対する合成性, 絡み合い, 解釈性を組み合わせたスパース加算機構シフト変分自動符号化器SAMS-VAEを提案する。 sams-vaeは、摂動したサンプルの潜在状態を、サンプル固有の変動をキャプチャする局所潜在変数と、潜在介入効果のスパースグローバル変数の和としてモデル化する。 重要なことに、SAMS-VAEは個々の摂動に対してこれらのグローバル潜伏変数を分散させ、柔軟に構成可能な摂動特異的潜伏部分空間を識別する。 2つの一般的な単一セルシークエンシングデータセットを用いて,SAMS-VAEを定量的および定性的に評価した。 また,摂動特異的モデルプロペラティを測定するために,後発予測チェックと関連づけた平均治療効果に基づく摂動モデル評価の枠組みを提案する。 SAMS-VAEは、資源疎結合性の下での組合せ推論タスクを含む、分布内および分布外タスクの一般化という観点で比較モデルより優れ、既知の生物学的機構と強く相関する解釈可能な潜在構造が得られる。 この結果から,SAMS-VAEは機械学習による科学的発見のためのモデリングツールキットとして興味深いものとなった。

Generative models of observations under interventions have been a vibrant topic of interest across machine learning and the sciences in recent years. For example, in drug discovery, there is a need to model the effects of diverse interventions on cells in order to characterize unknown biological mechanisms of action. We propose the Sparse Additive Mechanism Shift Variational Autoencoder, SAMS-VAE, to combine compositionality, disentanglement, and interpretability for perturbation models. SAMS-VAE models the latent state of a perturbed sample as the sum of a local latent variable capturing sample-specific variation and sparse global variables of latent intervention effects. Crucially, SAMS-VAE sparsifies these global latent variables for individual perturbations to identify disentangled, perturbation-specific latent subspaces that are flexibly composable. We evaluate SAMS-VAE both quantitatively and qualitatively on a range of tasks using two popular single cell sequencing datasets. In order to measure perturbation-specific model-properties, we also introduce a framework for evaluation of perturbation models based on average treatment effects with links to posterior predictive checks. SAMS-VAE outperforms comparable models in terms of generalization across in-distribution and out-of-distribution tasks, including a combinatorial reasoning task under resource paucity, and yields interpretable latent structures which correlate strongly to known biological mechanisms. Our results suggest SAMS-VAE is an interesting addition to the modeling toolkit for machine learning-driven scientific discovery.
翻訳日:2023-11-07 15:51:41 公開日:2023-11-05
# mirrorcalib: 仮想カメラのキャリブレーションに人間のポーズ情報を利用する

MirrorCalib: Utilizing Human Pose Information for Mirror-based Virtual Camera Calibration ( http://arxiv.org/abs/2311.02791v1 )

ライセンス: Link先を確認
Longyun Liao, Andrew Mitchell, Rong Zheng(参考訳) 本稿では,1枚の固定平面ミラーを有する実カメラに対して,仮想カメラの余剰パラメータを推定する新しいタスクを提案する。 このタスクは、撮影されたオブジェクトが実際のカメラとミラー付きカメラの両方からのオーバーラップビューを欠いた場合に大きな課題となる。 この問題に対処するために、人物が鏡の前にいるとき、人体と2次元関節位置の事前知識を利用して、カメラの外部パラメータを推定する。 2次元ジョイント位置から初期推定を得るために修正8点アルゴリズムを考案する。 2dジョイントの位置は、人体の制約により洗練される。 最後に、そのエピポーラ距離を所定のしきい値と比較することにより、外れ値を除去するためにransacアルゴリズムを用いる。 MirrorCalib は合成データセットと実データセットの両方で評価され、回転誤差は 0.62{\deg}/1.82{\deg} 、翻訳誤差は 37.33/69.51 mm である。

In this paper, we present the novel task of estimating the extrinsic parameters of a virtual camera with respect to a real camera with one single fixed planar mirror. This task poses a significant challenge in cases where objects captured lack overlapping views from both real and mirrored cameras. To address this issue, prior knowledge of a human body and 2D joint locations are utilized to estimate the camera extrinsic parameters when a person is in front of a mirror. We devise a modified eight-point algorithm to obtain an initial estimation from 2D joint locations. The 2D joint locations are then refined subject to human body constraints. Finally, a RANSAC algorithm is employed to remove outliers by comparing their epipolar distances to a predetermined threshold. MirrorCalib is evaluated on both synthetic and real datasets and achieves a rotation error of 0.62{\deg}/1.82{\deg} and a translation error of 37.33/69.51 mm on the synthetic/real dataset, which outperforms the state-of-art method.
翻訳日:2023-11-07 15:51:15 公開日:2023-11-05
# CausalCite:紙巻物の因果的な定式化

CausalCite: A Causal Formulation of Paper Citations ( http://arxiv.org/abs/2311.02790v1 )

ライセンス: Link先を確認
Ishan Kumar, Zhijing Jin, Ehsan Mokhtarian, Siyuan Guo, Yuen Chen, Negar Kiyavash, Mrinmaya Sachan, Bernhard Schoelkopf(参考訳) 論文の重要性を評価することは、科学界にとって非常に難しい。 引用数はこの目的のために最もよく使われるプロキシであるが、紙の本当の影響を正確に反映していないと広く批判されている。 本研究では,従来のマッチングフレームワークを高次元テキスト埋め込みに適用する因果推論手法であるTextMatchを提案する。 具体的には,大規模言語モデル (LLM) によるテキスト埋め込みを用いて各論文をエンコードし,コサイン類似性により類似サンプルを抽出し,類似論文の重み付き平均値に基づいて対実サンプルを合成する。 論文引用の因果的定式化として、CausalCiteと呼ばれる結果の計量を適用した。 1k論文の過去のデータセットで科学者が報告した紙インパクトと高い相関性、過去の論文に対する(テスト・オブ・タイム)賞、aiのさまざまなサブフィールドにおける安定性など、さまざまな基準での有効性を示す。 我々はまた、将来の研究者が論文の品質をよりよく理解するために我々の指標を使用するための提案された方法として役立つ一連の発見を提供する。 コードとデータはhttps://github.com/causalNLP/causal-citeにある。

Evaluating the significance of a paper is pivotal yet challenging for the scientific community. While the citation count is the most commonly used proxy for this purpose, they are widely criticized for failing to accurately reflect a paper's true impact. In this work, we propose a causal inference method, TextMatch, which adapts the traditional matching framework to high-dimensional text embeddings. Specifically, we encode each paper using the text embeddings by large language models (LLMs), extract similar samples by cosine similarity, and synthesize a counterfactual sample by the weighted average of similar papers according to their similarity values. We apply the resulting metric, called CausalCite, as a causal formulation of paper citations. We show its effectiveness on various criteria, such as high correlation with paper impact as reported by scientific experts on a previous dataset of 1K papers, (test-of-time) awards for past papers, and its stability across various sub-fields of AI. We also provide a set of findings that can serve as suggested ways for future researchers to use our metric for a better understanding of a paper's quality. Our code and data are at https://github.com/causalNLP/causal-cite.
翻訳日:2023-11-07 15:50:56 公開日:2023-11-05
# Make a Donut:Zero-shot Deformable Object Manipulationのための言語誘導階層型EMD空間計画

Make a Donut: Language-Guided Hierarchical EMD-Space Planning for Zero-shot Deformable Object Manipulation ( http://arxiv.org/abs/2311.02787v1 )

ライセンス: Link先を確認
Yang You, Bokui Shen, Congyue Deng, Haoran Geng, He Wang, Leonidas Guibas(参考訳) 変形可能な物体の操作は、ロボティクスにおける最も魅力的な課題の1つだ。 従来の手法は、典型的には粒子または画像として表されるデモンストレーションを通じて潜在力学を学ぶことに大きく依存してきたが、適切なデモンストレーション、特に長いホリゾンタスクの獲得には、意味のある制限がある。 さらに、デモンストレーションに完全に基づく学習は、実証されたタスクを超えてモデルを一般化する能力を妨げます。 本研究では,複雑な長期タスクにトレーニングを必要とせずに対処できる実演自由階層型計画手法を提案する。 我々は,大規模言語モデル(LLM)を用いて,特定のタスクに対応する高レベルな段階別計画を記述する。 個々のステージ毎に、LLMはツールの名前とPythonコードの両方を提供して、中間のサブゴールポイントクラウドを作成できる。 このツールとサブゴールを特定のステージに使用することで、粒度のクローズドループモデル予測制御戦略を提案する。 これは、地球移動距離(EMD)空間における点-点対応(DiffPhysics-P2P)損失を反復的に適用した微分可能な物理を利用する。 実験結果から,本手法は短地平線と長地の両方にまたがる生地操作において,複数のベンチマークを上回ることが確認された。 注目すべきことに,本モデルでは,前例のない複雑なタスクに対して,事前のデモンストレーションなしに堅牢な一般化能力を示す。 実世界のロボットプラットフォームの実験的な実験で、我々のアプローチをさらに裏付ける。

Deformable object manipulation stands as one of the most captivating yet formidable challenges in robotics. While previous techniques have predominantly relied on learning latent dynamics through demonstrations, typically represented as either particles or images, there exists a pertinent limitation: acquiring suitable demonstrations, especially for long-horizon tasks, can be elusive. Moreover, basing learning entirely on demonstrations can hamper the model's ability to generalize beyond the demonstrated tasks. In this work, we introduce a demonstration-free hierarchical planning approach capable of tackling intricate long-horizon tasks without necessitating any training. We employ large language models (LLMs) to articulate a high-level, stage-by-stage plan corresponding to a specified task. For every individual stage, the LLM provides both the tool's name and the Python code to craft intermediate subgoal point clouds. With the tool and subgoal for a particular stage at our disposal, we present a granular closed-loop model predictive control strategy. This leverages Differentiable Physics with Point-to-Point correspondence (DiffPhysics-P2P) loss in the earth mover distance (EMD) space, applied iteratively. Experimental findings affirm that our technique surpasses multiple benchmarks in dough manipulation, spanning both short and long horizons. Remarkably, our model demonstrates robust generalization capabilities to novel and previously unencountered complex tasks without any preliminary demonstrations. We further substantiate our approach with experimental trials on real-world robotic platforms.
翻訳日:2023-11-07 15:50:36 公開日:2023-11-05
# 汎用的異常検出と理解に向けて:大規模視覚言語モデル(gpt-4v)がリード

Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V) Takes the Lead ( http://arxiv.org/abs/2311.02782v1 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Chen Sun, Xiaonan Huang, and Weiming Shen(参考訳) 異常検出は、さまざまなドメインとデータタイプにまたがる重要なタスクである。 しかし、既存の異常検出モデルは、しばしば特定の領域とモダリティのために設計される。 本研究では,視覚言語モデルであるgpt-4v(ision)を用いて,異常検出タスクを汎用的に処理する。 gpt-4vのマルチモダリティ,画像,ビデオ,ポイントクラウド,時系列データを含むマルチドメイン異常検出タスクにおいて,産業,医療,論理,ビデオ,3次元異常検出,ローカライズタスクなど,複数のアプリケーション領域にまたがる適用について検討した。 GPT-4Vの性能を高めるために,クラス情報や人的専門知識,参照画像など,さまざまな種類の付加的手がかりをプロンプトとして組み込んで,GPT-4Vは,ゼロ・ワンショット異常検出において,グローバルおよび微粒なセマンティックパターンの検出と説明に極めて有効であることが実証された。 これにより、正常例と異常例を正確に区別することができる。 本研究では広範な評価を行ったが,GPT-4Vの汎用異常検出能力のさらなる活用には今後の評価が必要である。 定量的指標の探索、評価ベンチマークの拡張、マルチラウンドインタラクションの導入、ヒューマンフィードバックループの導入などだ。 それにもかかわらず、gpt-4vは一般的な異常検出と理解において有望な性能を示し、異常検出のための新しい道を開く。

Anomaly detection is a crucial task across different domains and data types. However, existing anomaly detection models are often designed for specific domains and modalities. This study explores the use of GPT-4V(ision), a powerful visual-linguistic model, to address anomaly detection tasks in a generic manner. We investigate the application of GPT-4V in multi-modality, multi-domain anomaly detection tasks, including image, video, point cloud, and time series data, across multiple application areas, such as industrial, medical, logical, video, 3D anomaly detection, and localization tasks. To enhance GPT-4V's performance, we incorporate different kinds of additional cues such as class information, human expertise, and reference images as prompts.Based on our experiments, GPT-4V proves to be highly effective in detecting and explaining global and fine-grained semantic patterns in zero/one-shot anomaly detection. This enables accurate differentiation between normal and abnormal instances. Although we conducted extensive evaluations in this study, there is still room for future evaluation to further exploit GPT-4V's generic anomaly detection capacity from different aspects. These include exploring quantitative metrics, expanding evaluation benchmarks, incorporating multi-round interactions, and incorporating human feedback loops. Nevertheless, GPT-4V exhibits promising performance in generic anomaly detection and understanding, thus opening up a new avenue for anomaly detection.
翻訳日:2023-11-07 15:50:09 公開日:2023-11-05
# MuSHRoom:ジョイント3次元再構成と新しいビュー合成のためのマルチセンサハイブリッドルームデータセット

MuSHRoom: Multi-Sensor Hybrid Room Dataset for Joint 3D Reconstruction and Novel View Synthesis ( http://arxiv.org/abs/2311.02778v1 )

ライセンス: Link先を確認
Xuqian Ren, Wenjia Wang, Dingding Cai, Tuuli Tuominen, Juho Kannala, Esa Rahtu(参考訳) メタバース技術は、非人間の知覚(例えば、ドローン/ロボット/自律走行車)とAR/VRのような没入型技術の両方のために、消費者階級のハードウェアの精度、リアルタイム、没入型モデリングを必要とする。 しかし、幾何再構成とフォトリアリズムモデリング(ノーベルビュー合成)を統一されたフレームワークに適用する方法には、知識ギャップが存在する。 このギャップに対処し,消費者グレードデバイスを用いたロバストで没入的なモデリングとレンダリングの開発を促進するために,まず,実世界のマルチセンサーハイブリッドルームデータセット(mushroom)を提案する。 われわれのデータセットは、エキサイティングな課題を示し、最先端の手法はコスト効率が高く、ノイズの多いデータやデバイスに頑健であり、3D再構成と新しいビュー合成を共同で学習することができる。 第2に,3dメッシュ再構成と新たなビュー合成のための,いくつかの有名なパイプラインをデータセットにベンチマークします。 最後に、全体的なパフォーマンスをさらに向上させるため、2つのタスク間の良好なトレードオフを実現する新しい方法を提案する。 我々のデータセットとベンチマークは、堅牢で計算効率のよいエンドツーエンド方式で、3D再構成と高品質なレンダリングを融合させる改善を促進する大きな可能性を示している。

Metaverse technologies demand accurate, real-time, and immersive modeling on consumer-grade hardware for both non-human perception (e.g., drone/robot/autonomous car navigation) and immersive technologies like AR/VR, requiring both structural accuracy and photorealism. However, there exists a knowledge gap in how to apply geometric reconstruction and photorealism modeling (novel view synthesis) in a unified framework. To address this gap and promote the development of robust and immersive modeling and rendering with consumer-grade devices, first, we propose a real-world Multi-Sensor Hybrid Room Dataset (MuSHRoom). Our dataset presents exciting challenges and requires state-of-the-art methods to be cost-effective, robust to noisy data and devices, and can jointly learn 3D reconstruction and novel view synthesis, instead of treating them as separate tasks, making them ideal for real-world applications. Second, we benchmark several famous pipelines on our dataset for joint 3D mesh reconstruction and novel view synthesis. Finally, in order to further improve the overall performance, we propose a new method that achieves a good trade-off between the two tasks. Our dataset and benchmark show great potential in promoting the improvements for fusing 3D reconstruction and high-quality rendering in a robust and computationally efficient end-to-end fashion.
翻訳日:2023-11-07 15:49:39 公開日:2023-11-05
# 絶滅危惧言語文書文脈におけるモーフェムグロースのためのロバスト一般化戦略

Robust Generalization Strategies for Morpheme Glossing in an Endangered Language Documentation Context ( http://arxiv.org/abs/2311.02777v1 )

ライセンス: Link先を確認
Michael Ginn and Alexis Palmer(参考訳) 一般化はリソース制約された設定において特に重要であり、利用可能なトレーニングデータは可能なテキストの分布のごく一部しか表現できない。 形態素ラベリングモデルの性能をテキストの非知覚ジャンルにおける性能評価によって一般化する能力について検討し,分布データと分布データとの差を閉じる手法を試す。 具体的には,重み劣化の最適化,出力分節化,反復的擬似ラベル化を行い,未熟なジャンルのテキストを含むテストセットにおいて2%の改善を実現する。 全ての実験はマヤ語のウスパンテコで書かれたテキストを用いて行われる。

Generalization is of particular importance in resource-constrained settings, where the available training data may represent only a small fraction of the distribution of possible texts. We investigate the ability of morpheme labeling models to generalize by evaluating their performance on unseen genres of text, and we experiment with strategies for closing the gap between performance on in-distribution and out-of-distribution data. Specifically, we use weight decay optimization, output denoising, and iterative pseudo-labeling, and achieve a 2% improvement on a test set containing texts from unseen genres. All experiments are performed using texts written in the Mayan language Uspanteko.
翻訳日:2023-11-07 15:49:01 公開日:2023-11-05
# ChaTA:オープンソースLLMを用いた知的質問応答アシスタントを目指して

ChaTA: Towards an Intelligent Question-Answer Teaching Assistant using Open-Source LLMs ( http://arxiv.org/abs/2311.02775v1 )

ライセンス: Link先を確認
Yann Hicke, Anmol Agarwal, Qianou Ma, Paul Denny(参考訳) スケーラブルでインテリジェントな質問応答(QA)の課題に対処するために,オープンソースのLarge Language Models(LLM)を活用してデータのプライバシを確保する革新的なソリューションを導入する。 我々は、llama-2ファミリーのモデルと検索拡張生成(rag)、教師付き微調整(sft)、人間フィードバックによる強化学習(rlhf)の代替といった拡張モデルを用いている。 我々は,10kQAペアと1.5kペアの選好データを備えたCSコースのPazzaデータセット上で実験を行い,人間の評価とLLMの自動評価の両方を小さなサブセットで行う。 モデリング手法が回答の質を33%向上させるという予備的証拠が得られ,RAGは影響が大きい。 この作業は、オンラインQAプラットフォームでコースをカスタマイズ可能なインテリジェントQAアシスタントであるChaTAの開発の道を開くものだ。

To address the challenges of scalable and intelligent question-answering (QA), we introduce an innovative solution that leverages open-source Large Language Models (LLMs) to ensure data privacy. We use models from the LLaMA-2 family and augmentations including retrieval augmented generation (RAG), supervised fine-tuning (SFT), and an alternative to reinforcement learning with human feedback (RLHF). We perform our experiments on a Piazza dataset from an introductory CS course with 10k QA pairs and 1.5k pairs of preferences data and conduct both human evaluations and automatic LLM evaluations on a small subset. We find preliminary evidence that modeling techniques collectively enhance the quality of answers by 33%, and RAG is an impactful addition. This work paves the way for the development of ChaTA, an intelligent QA assistant customizable for courses with an online QA platform.
翻訳日:2023-11-07 15:48:42 公開日:2023-11-05
# アテンション・コンボリューション:推論効率向上のための音声言語モデルにおけるトランスフォーマーエンコーダ

Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency ( http://arxiv.org/abs/2311.02772v1 )

ライセンス: Link先を確認
Sungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta, Yashar Mehdad, Daniel Bikel(参考訳) 本稿では,単純な自己教師付き事前学習音声モデルが,音声トランスフォーマエンコーダを用いたより複雑な事前学習モデルと同等の推論効率を実現できることを示す。 これらの音声変換器は、自己アテンションモジュールと畳み込みモジュールの混合に依存している。 ASRの最先端性能を最高効率で達成する。 まず,これらの変換器をエンコーダとして用いることで,事前学習した音声モデルの効率も向上することを示す。 しかし,本研究では,高度自己注意だけで同等の効率が得られることを示す。 この単純なアプローチは、ニューラルネットワークの低ビット量量子化技術により、効率を向上する上で特に有益であることを示す。 我々は、量子化畳み込みと量子化自己保持モジュールを混合した最近の音声変換器と比較して、異なる量子化モジュール間の誤差の伝播を防止することを仮定する。

In this paper, we show that a simple self-supervised pre-trained audio model can achieve comparable inference efficiency to more complicated pre-trained models with speech transformer encoders. These speech transformers rely on mixing convolutional modules with self-attention modules. They achieve state-of-the-art performance on ASR with top efficiency. We first show that employing these speech transformers as an encoder significantly improves the efficiency of pre-trained audio models as well. However, our study shows that we can achieve comparable efficiency with advanced self-attention solely. We demonstrate that this simpler approach is particularly beneficial with a low-bit weight quantization technique of a neural network to improve efficiency. We hypothesize that it prevents propagating the errors between different quantized modules compared to recent speech transformers mixing quantized convolution and the quantized self-attention modules.
翻訳日:2023-11-07 15:48:15 公開日:2023-11-05
# 短パルス・小誤差:パラメータ化パルスによる量子回路最適化

Shorter Pulses, Smaller Errors: Quantum Circuit Optimization via Parameterized Pulses ( http://arxiv.org/abs/2311.02769v1 )

ライセンス: Link先を確認
Finn Voichick, Leonidas Lampropoulos, Robert Rand(参考訳) 本稿では,事前調整パルスを時間的伸長することで量子プログラムを最適化する手法を提案する。 例えば、オフザシェルフ数値最適化アルゴリズムを用いて3量子トフォリゲートの実装を修正し、シーケンス内の共振パルスを短縮する。 予備的な量子プロセストモグラフィーの結果は、我々の戦略がトフォリゲートの誤差を実際に抱え、プロセスの忠実度を約60%から約80%に増加させることを示唆している。 既存の量子制御技術とは異なり、我々の計算は数秒で収束し、汎用コンパイラパスに組み込むと量子プログラムの時間と精度が向上する可能性を示す。

We propose a technique for optimizing quantum programs by temporally stretching pre-calibrated pulses. As an example, we modify a three-qubit Toffoli gate implementation by using an off-the-shelf numerical optimization algorithm to shorten the cross-resonance pulses in the sequence. Preliminary quantum process tomography results suggest that our strategy sometimes halves a Toffoli gate's error in practice, increasing process fidelity from around 60% to around 80%. Unlike existing quantum control techniques, ours takes seconds to converge, demonstrating its potential utility when incorporated into a general-purpose compiler pass that improves both the time and the accuracy of quantum programs.
翻訳日:2023-11-07 15:47:28 公開日:2023-11-05