このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240222となっている論文です。

PDF登録状況(公開日: 20240222)

TitleAuthorsAbstract論文公表日・翻訳日
# 特徴選択の最適化のためのグローバルサーチを継続する対数探索により駆動されるバイオメディカルスネーク最適化システムとその障害認識への応用

A Bio-Medical Snake Optimizer System Driven by Logarithmic Surviving Global Search for Optimizing Feature Selection and its application for Disorder Recognition ( http://arxiv.org/abs/2404.07216v1 )

ライセンス: Link先を確認
Ruba Abu Khurma, Esraa Alhenawi, Malik Braik, Fatma A. Hashim, Amit Chhabra, Pedro A. Castillo, (参考訳) 人間の生命を守ることがいかに重要かを考えると、医療実践を強化することが最重要となる。 機械学習技術を用いて患者の予測を自動化することで、医療療法を加速することができる。 分類器の効率を2倍にするためには、この分野における重要な任務のためにいくつかの前処理戦略を採用する必要がある。 特徴選択(FS)は、データセットの次元を低くすることで、データの修正や分類結果の強化に頻繁に使用されるツールである。 排他的特徴はラベルクラスとの相関係数が低く、分類と有意な相関関係がなく、インスタンスがどこに属しているかを示さないものである。 繰り返し現れる特徴とともに、残りの特徴と強く結びついている。 対照的に、訓練中に生産されるモデルは害を受け、分類器はその存在によって誤解される。 これによりアルゴリズムの複雑化と処理時間が増大する。 これらは、ランダムな解よりも、より徹底的に、そして選択された解に関連して解を見つけるために、探索に使用される。 TLSO,PLSO,LLSOはそれぞれTournament Logarithmic Snake Optimizer,Proportional Logarithmic Snake Optimizer,Linear Order Logarithmic Snake Optimizerの略である。 実験には22の基準医療データセットが使用された。 その結果,データセットの86%ではTLSOが最も精度が高く,データセットの82%では機能低下が最も高かった。 標準偏差に関しては、TLSOも注目すべき信頼性と安定性を得た。 実行期間に基づくと、それでも非常に効果的である。

It is of paramount importance to enhance medical practices, given how important it is to protect human life. Medical therapy can be accelerated by automating patient prediction using machine learning techniques. To double the efficiency of classifiers, several preprocessing strategies must be adopted for their crucial duty in this field. Feature selection (FS) is one tool that has been used frequently to modify data and enhance classification outcomes by lowering the dimensionality of datasets. Excluded features are those that have a poor correlation coefficient with the label class, that is, they have no meaningful correlation with classification and do not indicate where the instance belongs. Along with the recurring features, which show a strong association with the remainder of the features. Contrarily, the model being produced during training is harmed, and the classifier is misled by their presence. This causes overfitting and increases algorithm complexity and processing time. These are used in exploration to allow solutions to be found more thoroughly and in relation to a chosen solution than at random. TLSO, PLSO, and LLSO stand for Tournament Logarithmic Snake Optimizer, Proportional Logarithmic Snake Optimizer, and Linear Order Logarithmic Snake Optimizer, respectively. A number of 22 reference medical datasets were used in experiments. The findings indicate that, among 86 % of the datasets, TLSO attained the best accuracy, and among 82 % of the datasets, the best feature reduction. In terms of the standard deviation, the TLSO also attained noteworthy reliability and stability. On the basis of running duration, it is, nonetheless, quite effective.
翻訳日:2024-07-01 11:58:46 公開日:2024-02-22
# SynthBrainGrow: 若年者における経時的MRIデータ生成のための合成拡散脳老化

SynthBrainGrow: Synthetic Diffusion Brain Aging for Longitudinal MRI Data Generation in Young People ( http://arxiv.org/abs/2405.00682v1 )

ライセンス: Link先を確認
Anna Zapaishchykova, Benjamin H. Kann, Divyanshu Tak, Zezhong Ye, Daphne A. Haas-Kogan, Hugo J. W. L. Aerts, (参考訳) 合成長手脳MRIは、脳の老化をシミュレートし、神経発達と神経変性の条件についてより効率的な研究を可能にする。 合成生成された、年齢調整された脳画像は、コストのかかる縦方向画像取得の代替手段として有用であり、環境や治療修飾薬が脳の発達に与える影響を研究するための内部制御として機能し、多様な個体に対するデータ拡張を可能にする。 本稿では,SynthBrainGrowとよばれる2年段階の脳老化のための拡散型アプローチを提案する。 下流作業における合成データの有用性を検証するため, 2歳児脳の構造容積と合成脳MRIとの比較を行った。 以上の結果から,SynthBrainGrowは心室拡張や大脳皮質の微細化などの構造変化を正確に捉えることができることがわかった。 本手法は,横断的データから経時的脳データセットを生成する新しい方法を提供し,ライフスパントラジェクトリを解析するための計算ツールの強化トレーニングとベンチマークを可能にする。 この研究は、生涯にわたるMRIスキャンで現実的な時系列データを合成する生成モデリングの重要な進歩を示すものである。 コードはXXXで入手できる。

Synthetic longitudinal brain MRI simulates brain aging and would enable more efficient research on neurodevelopmental and neurodegenerative conditions. Synthetically generated, age-adjusted brain images could serve as valuable alternatives to costly longitudinal imaging acquisitions, serve as internal controls for studies looking at the effects of environmental or therapeutic modifiers on brain development, and allow data augmentation for diverse populations. In this paper, we present a diffusion-based approach called SynthBrainGrow for synthetic brain aging with a two-year step. To validate the feasibility of using synthetically-generated data on downstream tasks, we compared structural volumetrics of two-year-aged brains against synthetically-aged brain MRI. Results show that SynthBrainGrow can accurately capture substructure volumetrics and simulate structural changes such as ventricle enlargement and cortical thinning. Our approach provides a novel way to generate longitudinal brain datasets from cross-sectional data to enable augmented training and benchmarking of computational tools for analyzing lifespan trajectories. This work signifies an important advance in generative modeling to synthesize realistic longitudinal data with limited lifelong MRI scans. The code is available at XXX.
翻訳日:2024-07-01 11:19:45 公開日:2024-02-22
# Rydberg-Superconducting Qubit Hybridによる非局所位相推定

Performing Non-Local Phase Estimation with a Rydberg-Superconducting Qubit Hybrid ( http://arxiv.org/abs/2403.14647v1 )

ライセンス: Link先を確認
Juan Carlos Boschero, (参考訳) NISQ時代の大容量計算の鍵は分散量子計算である。 本研究は, 超伝導-共振器-原子ハイブリッドシステムにおいて, 分散位相推定アルゴリズムの実行を数値シミュレーションすることにより, 量子ネットワーク構築に必要な重要な側面について検討する。 位相推定アルゴリズムは与えられたユニタリ作用素の位相あるいは固有値を推定するために使用され、ショアのアルゴリズムや量子カウントアルゴリズムのような多くの既知の量子アルゴリズムのサブプロセスである。 2つの量子ビット間の絡み合うゲートは、E2ゲートと呼ばれる分散位相推定アルゴリズムで利用され、ある量子コンピュータから別の量子コンピュータへ量子情報を転送することができる。 この研究は、ハミルトン力学と各系のノイズ源を解析的に導き、量子最適制御(QOC)、すなわち勾配上昇パルス工学(GRAPE)アルゴリズムを用いて、対応するシステムゲートの構成における忠実度誤差を最小化する。 GRAPEアルゴリズムは、Rydberg atom と Multi-qubit gate を90%以上で高精度に設計し、フラックスキュービットは90%未満のマルチキュービットゲートのノイズに大きく悩まされた。 C-シュート係数はフラックス量子ビットのノイズを減少させ、4つのカウント量子ビットを用いて位相を正確に推定する確率を増大させることを示した。 降下・上昇時の時間ステップ数とGRAPE反復回数との間には, 低いC-シュート因子を0<\zeta<1000$で最適化し, トレードオフが認められた。 The GRAPE algorithm showed effective for many many time steps and many amount of GRAPE iterations by reach Estimation accuracies more than 90%。

Distributed quantum computation is the key to high volume computation in the NISQ era. This investigation explores the key aspects necessary for the construction of a quantum network by numerically simulating the execution of the distributed phase estimation algorithm in a proposed novel superconducting-resonator-atom hybrid system. The phase estimation algorithm is used to estimate the phase or eigenvalue of a given unitary operator and is a sub-process of many other known quantum algorithms such as Shor's algorithm and the quantum counting algorithm . An entangling gate between two qubits is utilised in the distributed phase estimation algorithm, called an E2 gate which provides the possibility to transfer quantum information from one quantum computer to another, which was numerically shown to have a construction time of 17ns at a fidelity of 93%. This investigation analytically derives the Hamiltonian dynamics as well as the noise sources of each system and utilizes quantum optimal control (QOC), namely the gradient ascent pulse engineering (GRAPE) algorithm, to minimize fidelity error in the corresponding systems gate construction. The GRAPE algorithm showed very accurate engineering of Rydberg atom single and multi-qubit gates with fidelities higher than 90% while the flux qubit suffered greatly from noise with multi-qubit gate fidelities lower than 90%. The C-shunt factor was shown to decrease the noise of the flux qubit which in turn increased the probability of accurately estimating the phase using 4 counting qubits. A trade off was observed between the number of time steps in the descent/ascent and the number of GRAPE iterations ran on the optimisation for low C-shunt factors $0<\zeta<1000$. For $\zeta = 1000$, the GRAPE algorithm showed effectiveness for a large number of time steps and large amount of GRAPE iterations by reaching estimation accuracies greater than 90%.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-22
# 音楽における音声に基づく感性分析の探索と適用

Exploring and Applying Audio-Based Sentiment Analysis in Music ( http://arxiv.org/abs/2403.17379v1 )

ライセンス: Link先を確認
Etash Jhanji, (参考訳) 感性分析は、意見、感情、主観性の計算分析を扱うテキスト処理の継続的な研究領域である。 しかし、この考え方はテキストや音声に限ったものではなく、実際には他のモダリティにも適用できる。 実際には、人間は音楽のように、文章で自分自身を表現していない。 音楽的感情を解釈する計算モデルの能力は、ほとんど解明されておらず、治療や音楽的なキューイングに意味を持ちうる。 本稿では,2つのタスクに対処する。 本研究は,(1)音楽クリップの感情を時間とともに予測し,(2)時系列の次の感情値を決定し,シームレスな遷移を保証することを目的とする。 フリー・ミュージック・アーカイブから選択された楽曲のクリップを、複数のボランティアによる影響に関するラッセルの概略モデルに報告されているように、ヴァレンスと覚醒のレベルで注釈付けされたクリップを含む音楽データベースの感情からのデータを利用して、モデルが両方のタスクのために訓練される。 全体として、これらのモデルの性能は、彼らが設計したタスクを効果的かつ正確に実行できることを反映している。

Sentiment analysis is a continuously explored area of text processing that deals with the computational analysis of opinions, sentiments, and subjectivity of text. However, this idea is not limited to text and speech, in fact, it could be applied to other modalities. In reality, humans do not express themselves in text as deeply as they do in music. The ability of a computational model to interpret musical emotions is largely unexplored and could have implications and uses in therapy and musical queuing. In this paper, two individual tasks are addressed. This study seeks to (1) predict the emotion of a musical clip over time and (2) determine the next emotion value after the music in a time series to ensure seamless transitions. Utilizing data from the Emotions in Music Database, which contains clips of songs selected from the Free Music Archive annotated with levels of valence and arousal as reported on Russel's circumplex model of affect by multiple volunteers, models are trained for both tasks. Overall, the performance of these models reflected that they were able to perform the tasks they were designed for effectively and accurately.
翻訳日:2024-04-01 02:44:33 公開日:2024-02-22
# AIのパワーを解放する AI強化サイエントメトリックス、Webメトリックス、ビブリオメトリックスにおけるカットエッジ技術の体系的レビュー

Unleashing the Power of AI. A Systematic Review of Cutting-Edge Techniques in AI-Enhanced Scientometrics, Webometrics, and Bibliometrics ( http://arxiv.org/abs/2403.18838v1 )

ライセンス: Link先を確認
Hamid Reza Saeidnia, Elaheh Hosseini, Shadi Abdoli, Marcel Ausloos, (参考訳) 目的: この研究は人工知能(AI)のシナジーを分析することを目的としており、これらの分野におけるAIアルゴリズムの応用と利益の可能性を強調している。 デザイン/方法論/アプローチ: 体系的な文献レビューを行うことで、学術的なコミュニケーションを計測・分析するための方法に革命をもたらすAIの可能性を探究し、新たな研究動向を特定し、科学出版の影響を評価することを目的とする。 そこで我々は, ProQuest, IEEE Explore, EBSCO, Web of Science, Scopusなどの信頼できるデータベースを対象とした総合的な検索戦略を実装した。 調査対象は2000年1月1日から2022年9月までの項目で,61項目を網羅的に調査した。 発見 一 サイエントメトリックスに関して、より客観的で信頼性の高い枠組みで、出版物、引用物、研究影響予測、コラボレーション、研究トレンド分析、知識マッピングなど、AIの適用には様々な利点がある。 二 ウェブメトリックスにおいて、AIアルゴリズムは、ウェブクローリングとデータ収集、ウェブリンク分析、ウェブコンテンツ分析、ソーシャルメディア分析、ウェブインパクト分析、レコメンデーターシステムを強化することができる。 さらに,データ収集の自動化,引用の分析,著者の曖昧さ,共著者ネットワークの分析,研究効果の評価,テキストマイニング,レコメンダシステムなどが,バイオロメトリの分野におけるAI統合の可能性と見なされている。 原点/価値: この研究は、AIによるこの統合のシナジーの顕著な可能性を強調するために、AIに強化されたサイエントメトリックス、Webメトリックス、およびビブリオメトリックスの特に新しい利点とポテンシャルをカバーしている。

Purpose: The study aims to analyze the synergy of Artificial Intelligence (AI), with scientometrics, webometrics, and bibliometrics to unlock and to emphasize the potential of the applications and benefits of AI algorithms in these fields. Design/methodology/approach: By conducting a systematic literature review, our aim is to explore the potential of AI in revolutionizing the methods used to measure and analyze scholarly communication, identify emerging research trends, and evaluate the impact of scientific publications. To achieve this, we implemented a comprehensive search strategy across reputable databases such as ProQuest, IEEE Explore, EBSCO, Web of Science, and Scopus. Our search encompassed articles published from January 1, 2000, to September 2022, resulting in a thorough review of 61 relevant articles. Findings: (i) Regarding scientometrics, the application of AI yields various distinct advantages, such as conducting analyses of publications, citations, research impact prediction, collaboration, research trend analysis, and knowledge mapping, in a more objective and reliable framework. (ii) In terms of webometrics, AI algorithms are able to enhance web crawling and data collection, web link analysis, web content analysis, social media analysis, web impact analysis, and recommender systems. (iii) Moreover, automation of data collection, analysis of citations, disambiguation of authors, analysis of co-authorship networks, assessment of research impact, text mining, and recommender systems are considered as the potential of AI integration in the field of bibliometrics. Originality/value: This study covers the particularly new benefits and potential of AI-enhanced scientometrics, webometrics, and bibliometrics to highlight the significant prospects of the synergy of this integration through AI.
翻訳日:2024-04-01 02:34:48 公開日:2024-02-22
# Dynamic IFC Theorems for Free!

Dynamic IFC Theorems for Free! ( http://arxiv.org/abs/2005.04722v3 )

ライセンス: Link先を確認
Maximilian Algehed, Jean-Philippe Bernardy, Catalin Hritcu, (参考訳) 我々は、動的IFCライブラリーの鍵となる健全性定理である非干渉と透明性が、型抽象のより一般的なパラメトリック性定理の直接的な結果として「自由」に得られることを示した。 これにより、顔付き値やLOOのような動的IFCライブラリに対して、非常に短い音質証明を行うことができる。 私たちの証明は、型抽象化の観点から、ライブラリのAgda実装を完全に機械化しても、短いままです。

We show that noninterference and transparency, the key soundness theorems for dynamic IFC libraries, can be obtained "for free", as direct consequences of the more general parametricity theorem of type abstraction. This allows us to give very short soundness proofs for dynamic IFC libraries such as faceted values and LIO. Our proofs stay short even when fully mechanized for Agda implementations of the libraries in terms of type abstraction.
翻訳日:2024-03-26 00:17:07 公開日:2024-02-22
# Pseudorandom Statesから$\bot$-PRFsによる署名

Signatures From Pseudorandom States via $\bot$-PRFs ( http://arxiv.org/abs/2311.00847v3 )

ライセンス: Link先を確認
Mohammed Barhoush, Amit Behera, Lior Ozer, Louis Salvail, Or Sattath, (参考訳) 量子擬似ランダム性の異なるフレーバーは、様々な暗号アプリケーションに有用であることが証明されており、これらのプリミティブは量子後片道関数よりも弱い可能性がある。 Ananth, Lin, and Yuen (2023) は、対数擬似ランダム状態が擬決定論的PRGを構成するのに使えることを示した。 本研究では, $\bot$-PRG と $\bot$-PRF の新たな定義を導入する。 正当性保証は、固定種の場合、無視可能な確率を除いて、出力が同一(確率1-1/poly$)または認識可能な中止($\bot$)である。 当社のアプローチは、PRFの適応セキュリティと同様に、マルチタイムPRGセキュリティの自然な定義を認めている。 疑似決定論的PRGから$\bot$-PRGを構築し、そこから$\bot$-PRFを得る。 対称鍵暗号、コミットメント、MAC、長さ制限されたワンタイムデジタルシグネチャなど、ほとんどのミニ暗号化プリミティブは、様々な量子擬似ランダム性の仮定に基づいて示されているが、デジタルシグネチャは解明されていない。 本研究の主な応用は,古典的な公開鍵と署名を備えた(量子)デジタル署名方式であり,森前と山川の作品(クリプト,2022年)に提示された未解決問題に対処するものである。 さらに, タンパーレジリエントな量子公開鍵を用いたセキュアな公開鍵暗号を構築する。

Different flavors of quantum pseudorandomness have proven useful for various cryptographic applications, with the compelling feature that these primitives are potentially weaker than post-quantum one-way functions. Ananth, Lin, and Yuen (2023) have shown that logarithmic pseudorandom states can be used to construct a pseudo-deterministic PRG: informally, for a fixed seed, the output is the same with $1-1/poly$ probability. In this work, we introduce new definitions for $\bot$-PRG and $\bot$-PRF. The correctness guarantees are that, for a fixed seed, except with negligible probability, the output is either the same (with probability $1-1/poly$) or recognizable abort, denoted $\bot$. Our approach admits a natural definition of multi-time PRG security, as well as the adaptive security of a PRF. We construct a $\bot$-PRG from any pseudo-deterministic PRG and, from that, a $\bot$-PRF. Even though most mini-crypt primitives, such as symmetric key encryption, commitments, MAC, and length-restricted one-time digital signatures, have been shown based on various quantum pseudorandomness assumptions, digital signatures remained elusive. Our main application is a (quantum) digital signature scheme with classical public keys and signatures, thereby addressing a previously unresolved question posed in Morimae and Yamakawa's work (Crypto, 2022). Additionally, we construct CPA secure public-key encryption with tamper-resilient quantum public keys.
翻訳日:2024-03-25 13:55:39 公開日:2024-02-22
# 量子後暗号に基づく同相暗号

Homomorphic Encryption Based on Post-Quantum Cryptography ( http://arxiv.org/abs/2402.14193v1 )

ライセンス: Link先を確認
Abel C. H. Chen, (参考訳) Shor のアルゴリズムの開発により、いくつかの非決定論的多項式(NP)時間問題(例えば素因数分解問題と離散対数問題)を多項式時間で解くことができる。 近年, 素因数分解問題に基づく準同型暗号アルゴリズムが提案されているが, 量子コンピューティング攻撃によって解読される可能性がある。 そこで本研究では,量子コンピューティング攻撃を回避するためのコードベース暗号法に基づく同型暗号関数を含む,量子後暗号(PQC)に基づく同型暗号法を提案する。 第3条2項では,提案手法の有効性を証明する数学的モデルを提案し,第3条3項では,提案手法の詳細なステップを示す計算例を提示する。 実験環境では、RSA暗号と楕円曲線暗号(ECC)の主流暗号法を比較し、提案手法の暗号時間と復号時間が他の暗号法よりも短いことを示す。 さらに、提案手法は、非負行列分解問題(NP問題)に基づいて、量子コンピューティング攻撃に抵抗するように設計されている。

With the development of Shor's algorithm, some nondeterministic polynomial (NP) time problems (e.g. prime factorization problems and discrete logarithm problems) may be solved in polynomial time. In recent years, although some homomorphic encryption algorithms have been proposed based on prime factorization problems, the algorithms may be cracked by quantum computing attacks. Therefore, this study proposes a post-quantum cryptography (PQC)-based homomorphic encryption method which includes the homomorphic encryption function based on a code-based cryptography method for avoiding quantum computing attacks. Subsection 3.2 proposes mathematical models to prove the feasibility of the proposed method, and Subsection 3.3 gives calculation examples to present the detailed steps of the proposed method. In experimental environments, the mainstream cryptography methods (i.e. RSA cryptography and elliptic curve cryptography (ECC)) have been compared, and the results show that the encryption time and decryption time of the proposed method are shorter than other cryptography methods. Furthermore, the proposed method is designed based on a non-negative matrix factorization problem (i.e. a NP problem) for resisting quantum computing attacks.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-22
# 5G悪意のある交通分析とインクリメンタル学習侵入検知手法の新たな展開

Exploring Emerging Trends in 5G Malicious Traffic Analysis and Incremental Learning Intrusion Detection Strategies ( http://arxiv.org/abs/2402.14353v1 )

ライセンス: Link先を確認
Zihao Wang, Kar Wai Fok, Vrizlynn L. L. Thing, (参考訳) 5Gネットワークの人気は、悪意のあるトラフィック検出技術にとって大きな課題となっている。 その理由は、5G技術の利用が増えるにつれて、5Gネットワーク上の悪意あるトラフィック活動のリスクも高まるからだ。 5Gネットワークにおける悪意あるトラフィック活動は、通信サービスを妨害するだけでなく、機密データを侵害する可能性がある。 これは個人や組織に深刻な影響を与える可能性がある。 本稿では,まず,5G技術と5Gセキュリティの詳細な研究について述べる。 次に、AIによる最新の悪意のあるトラフィック検出と5Gネットワークへの適用性を分析し、SOTAが対処する様々なトラフィック検出の側面を比較した。 また、5Gトラフィック検出におけるSOTAも分析する。 次に,交通監視データセットに対する7つの基準を提案し,今後の交通検知研究への適合性を確認した。 最後に,5G環境における交通検知に対処する必要がある3つの課題について述べる。 インクリメンタルな学習技術の概念が実験に提案され,実験結果から,この3つの問題をある程度解決できることが証明された。

The popularity of 5G networks poses a huge challenge for malicious traffic detection technology. The reason for this is that as the use of 5G technology increases, so does the risk of malicious traffic activity on 5G networks. Malicious traffic activity in 5G networks not only has the potential to disrupt communication services, but also to compromise sensitive data. This can have serious consequences for individuals and organizations. In this paper, we first provide an in-depth study of 5G technology and 5G security. Next we analyze and discuss the latest malicious traffic detection under AI and their applicability to 5G networks, and compare the various traffic detection aspects addressed by SOTA. The SOTA in 5G traffic detection is also analyzed. Next, we propose seven criteria for traffic monitoring datasets to confirm their suitability for future traffic detection studies. Finally, we present three major issues that need to be addressed for traffic detection in 5G environment. The concept of incremental learning techniques is proposed and applied in the experiments, and the experimental results prove to be able to solve the three problems to some extent.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-22
# SCADAセキュリティの強化:サイバー攻撃対策のためのホストベースの侵入検知システムの開発

Enhancing SCADA Security: Developing a Host-Based Intrusion Detection System to Safeguard Against Cyberattacks ( http://arxiv.org/abs/2402.14599v1 )

ライセンス: Link先を確認
Omer Sen, Tarek Hassan, Andreas Ulbig, Martin Henze, (参考訳) スマートグリッドが正しく機能するSCADAシステムへの依存度の増加とサイバー攻撃に対する脆弱性により、効果的なセキュリティ対策の必要性が高まっている。 SCADAシステムはサイバー攻撃を受けやすく、重要なインフラにリスクを及ぼす。 本研究の目的は,SCADAシステムの安定性に特化して設計されたホストベースの侵入検知システムがないため,スマートグリッドにおけるSCADAシステムに適したホストベースの侵入検知システムを提案することである。 提案システムでは,USB デバイス識別,フラグング,プロセスメモリスキャンを用いて,SCADA システムの異常を監視・検出し,セキュリティ対策を強化している。 3つの異なるシナリオにおける評価は、マルウェアの検出と無効化におけるツールの有効性を示している。 提案手法は、潜在的な脅威を効果的に識別し、スマートグリッドにおけるSCADAシステムのセキュリティを強化し、サイバー攻撃から保護するための有望な解決策を提供する。

With the increasing reliance of smart grids on correctly functioning SCADA systems and their vulnerability to cyberattacks, there is a pressing need for effective security measures. SCADA systems are prone to cyberattacks, posing risks to critical infrastructure. As there is a lack of host-based intrusion detection systems specifically designed for the stable nature of SCADA systems, the objective of this work is to propose a host-based intrusion detection system tailored for SCADA systems in smart grids. The proposed system utilizes USB device identification, flagging, and process memory scanning to monitor and detect anomalies in SCADA systems, providing enhanced security measures. Evaluation in three different scenarios demonstrates the tool's effectiveness in detecting and disabling malware. The proposed approach effectively identifies potential threats and enhances the security of SCADA systems in smart grids, providing a promising solution to protect against cyberattacks.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-22
# BIONIB: ブリッジヘルスモニタリングにおけるノベルティインデックスを用いたブロックチェーンベースのIoT

BIONIB: Blockchain-based IoT using Novelty Index in Bridge Health Monitoring ( http://arxiv.org/abs/2402.14902v1 )

ライセンス: Link先を確認
Divija Swetha Gadiraju, Ryan McMaster, Saeed Eftekhar Azam, Deepak Khazanchi, (参考訳) IoTセンサーのデプロイでは、ブリッジの健康監視が重要になる。 この課題は、大量のデータを安全に保存し、不健康な橋の状態を素早く特定するための有用な情報を抽出することにある。 この課題に対処するために、ブロックチェーン上にリアルタイムIoTデータを格納してブリッジを監視するBIONIBを提案する。 新興ブロックチェーンの1つであるEOSIOは、ブリッジの健全性を監視するための異常なスケーリング機能のために使用されている。 このアプローチでは、IoTセンサからデータを収集し、Noverety Index(NI)と呼ばれる教師なしの機械学習ベースのテクニックを使用して、データに意味のあるパターンを観察する。 EOSIOのスマートコントラクトは、その効率性、セキュリティ、プログラマビリティのために実装で使用され、複雑なトランザクションの処理や分散化されたアプリケーション内のプロセスの自動化に適しています。 BIONIBは、ブロックチェーンのセキュアなストレージメリットと、NIに基づいた有用な予測を提供する。 パフォーマンス分析は、健康状態と不健康な状態のブリッジでIoTセンサから収集されたリアルタイムデータを使用する。 データは、異なる負荷、気候条件、橋の健康に関する広範な実験によって収集される。 センサ数や参加するブロックチェーンノード数が異なる場合のBIONIBの性能を観察する。 スループット、レイテンシ、計算リソースのトレードオフを観察します。 保存効率は、NI計算による遅延がわずかに増加する多様体によって向上することができる。 レイテンシは、ブリッジヘルスアプリケーションにおいて重要な問題ではないため、BIONIBは、効率よくスケールしながら、高いスループット、並列処理、高いセキュリティを有することを示した。

Bridge health monitoring becomes crucial with the deployment of IoT sensors. The challenge lies in securely storing vast amounts of data and extracting useful information to promptly identify unhealthy bridge conditions. To address this challenge, we propose BIONIB, wherein real-time IoT data is stored on the blockchain for monitoring bridges. One of the emerging blockchains, EOSIO is used because of its exceptional scaling capabilities for monitoring the health of bridges. The approach involves collecting data from IoT sensors and using an unsupervised machine learning-based technique called the Novelty Index (NI) to observe meaningful patterns in the data. Smart contracts of EOSIO are used in implementation because of their efficiency, security, and programmability, making them well-suited for handling complex transactions and automating processes within decentralized applications. BIONIB provides secure storage benefits of blockchain, as well as useful predictions based on the NI. Performance analysis uses real-time data collected from IoT sensors at the bridge in healthy and unhealthy states. The data is collected with extensive experimentation with different loads, climatic conditions, and the health of the bridge. The performance of BIONIB under varying numbers of sensors and various numbers of participating blockchain nodes is observed. We observe a tradeoff between throughput, latency, and computational resources. Storage efficiency can be increased by manifolds with a slight increase in latency caused by NI calculation. As latency is not a significant concern in bridge health applications, the results demonstrate that BIONIB has high throughput, parallel processing, and high security while efficiently scaled.
翻訳日:2024-03-25 08:46:38 公開日:2024-02-22
# 拘束拡散モデルを用いた効率的かつ保証された非凸軌道最適化

Efficient and Guaranteed-Safe Non-Convex Trajectory Optimization with Constrained Diffusion Model ( http://arxiv.org/abs/2403.05571v1 )

ライセンス: Link先を確認
Anjian Li, Zihan Ding, Adji Bousso Dieng, Ryne Beeson, (参考訳) ロボット工学における軌道最適化は、複雑な力学と環境設定のために非凸問題を引き起こす。 従来の数値最適化手法は実現可能な解を見つけるのに時間を要するが、データ駆動方式では出力軌跡の安全保証が欠如している。 本稿では,非凸軌道最適化のための拡散モデルと数値解法を組み合わせ,計算効率と制約満足度を両立させる汎用かつ完全並列化可能なフレームワークを提案する。 新たな制約付き拡散モデルを提案する。 サンプリング時の制約違反を最小限に抑えつつ,局所最適解の分布を近似することを目的とする。 サンプルは数値解法の初期推定として使われ、実現可能性と最適性の形式的検証を伴う最終解を洗練・導出する。 異なるロボット領域に対する3つのタスクの実験的評価により, トラジェクトリ最適化問題を一般化し, 問題複雑性によく対応できる4$\times$から22$\times$Accelerrationによる制約満足度と計算効率の改善が検証された。

Trajectory optimization in robotics poses a challenging non-convex problem due to complex dynamics and environmental settings. Traditional numerical optimization methods are time-consuming in finding feasible solutions, whereas data-driven approaches lack safety guarantees for the output trajectories. In this paper, we introduce a general and fully parallelizable framework that combines diffusion models and numerical solvers for non-convex trajectory optimization, ensuring both computational efficiency and constraint satisfaction. A novel constrained diffusion model is proposed with an additional constraint violation loss for training. It aims to approximate the distribution of locally optimal solutions while minimizing constraint violations during sampling. The samples are then used as initial guesses for a numerical solver to refine and derive final solutions with formal verification of feasibility and optimality. Experimental evaluations on three tasks over different robotics domains verify the improved constraint satisfaction and computational efficiency with 4$\times$ to 22$\times$ acceleration using our proposed method, which generalizes across trajectory optimization problems and scales well with problem complexity.
翻訳日:2024-03-25 08:27:08 公開日:2024-02-22
# ChatGPTは人間よりも共感的か?

Is ChatGPT More Empathetic than Humans? ( http://arxiv.org/abs/2403.05572v1 )

ライセンス: Link先を確認
Anuradha Welivita, Pearl Pu, (参考訳) 本稿では,ChatGPTの共感応答能力,特に最新の反復であるGPT-4について,肯定的・否定的な幅広い情動シナリオに対する人為的反応と比較して検討する。 ヒトとChatGPTの反応に対する共感のレベルを評価するために,600人の参加者によるグループ間研究を含む厳密な評価手法を採用した。 ChatGPTは、標準的なアプローチと、共感の認知的、感情的、思いやりのある相手を明確に詳述するアプローチの2つの異なる方法によって引き起こされる。 以上の結果から,ChatGPTが生成した反応の平均共感率は,ヒトが生成した反応よりも約10%高いことが示唆された。 さらに、ChatGPTに、その反応に共感の明確な理解を組み込むよう指示すると、反応は人間の反応と比較して、高い共感を持っている個人の期待にほぼ5倍の精度で一致する。 提案した評価フレームワークは,大規模言語モデルの新たなバージョンと更新バージョンの共感能力を評価するための,スケーラブルで適応可能なフレームワークとして機能する。

This paper investigates the empathetic responding capabilities of ChatGPT, particularly its latest iteration, GPT-4, in comparison to human-generated responses to a wide range of emotional scenarios, both positive and negative. We employ a rigorous evaluation methodology, involving a between-groups study with 600 participants, to evaluate the level of empathy in responses generated by humans and ChatGPT. ChatGPT is prompted in two distinct ways: a standard approach and one explicitly detailing empathy's cognitive, affective, and compassionate counterparts. Our findings indicate that the average empathy rating of responses generated by ChatGPT exceeds those crafted by humans by approximately 10%. Additionally, instructing ChatGPT to incorporate a clear understanding of empathy in its responses makes the responses align approximately 5 times more closely with the expectations of individuals possessing a high degree of empathy, compared to human responses. The proposed evaluation framework serves as a scalable and adaptable framework to assess the empathetic capabilities of newer and updated versions of large language models, eliminating the need to replicate the current study's results in future research.
翻訳日:2024-03-25 08:27:08 公開日:2024-02-22
# 深層学習に基づく睡眠ステージングにおける長距離相関の重要性評価

Assessing the importance of long-range correlations for deep-learning-based sleep staging ( http://arxiv.org/abs/2402.17779v1 )

ライセンス: Link先を確認
Tiezhi Wang and Nils Strodthoff(参考訳) 本研究の目的は,深層学習に基づく睡眠ステージングにおける長距離相関の重要性を明らかにすることである。 S4Sleep(TS)は、最近提案された自動睡眠ステージングモデルである。 このモデルは、脳波(eeg)を生の時系列入力として、構造化状態空間シーケンス(s4)モデルを本質的なモデル成分として利用する。 このモデルはすでに15の入力エポックを適度に上回っているが、最近の研究結果は数百の入力エポックにまたがる非常に長い相関を組み込むことによる潜在的な利点を示唆している。 本稿では,モデル入力サイズを体系的にスケールアップし,予測精度の向上を期待することで,さらなる拡張を実現する可能性を検討する。 その結果,S4Sleep(TS) の性能は,S4Sleep(TS) の性能が著しく向上しないことが明らかとなった。 これらの知見は,S4モデルの時系列データにおける長距離依存性を捉える能力と相まって,睡眠段階における超長距離相互作用の診断的関連性に疑問を投げかけた。

This study aims to elucidate the significance of long-range correlations for deep-learning-based sleep staging. It is centered around S4Sleep(TS), a recently proposed model for automated sleep staging. This model utilizes electroencephalography (EEG) as raw time series input and relies on structured state space sequence (S4) models as essential model component. Although the model already surpasses state-of-the-art methods for a moderate number of 15 input epochs, recent literature results suggest potential benefits from incorporating very long correlations spanning hundreds of input epochs. In this submission, we explore the possibility of achieving further enhancements by systematically scaling up the model's input size, anticipating potential improvements in prediction accuracy. In contrast to findings in literature, our results demonstrate that augmenting the input size does not yield a significant enhancement in the performance of S4Sleep(TS). These findings, coupled with the distinctive ability of S4 models to capture long-range dependencies in time series data, cast doubt on the diagnostic relevance of very long-range interactions for sleep staging.
翻訳日:2024-03-11 00:17:48 公開日:2024-02-22
# 崩壊と絡み合った世界での広告レコメンデーション

Ad Recommendation in a Collapsed and Entangled World ( http://arxiv.org/abs/2403.00793v1 )

ライセンス: Link先を確認
Junwei Pan, Wei Xue, Ximei Wang, Haibin Yu, Xun Liu, Shijie Quan, Xueming Qiu, Dapeng Liu, Lei Xiao, Jie Jiang(参考訳) 本稿では,適切な表現を学習する上での課題と実践に注意を払って,業界広告レコメンデーションシステムを提案する。 本研究は,多様な型の特徴を組込み表現にエンコードする場合の優先度保存へのアプローチを示すことから開始する。 具体的には、シーケンス機能、数値機能、事前訓練された埋め込み機能、スパースID機能に対処する。 さらに,特徴表現に関連する2つの重要な課題を探索する。埋め込みの次元的崩壊と,様々なタスクやシナリオにおける関心の絡み合いである。 次に,これら2つの課題を効果的に解決するための実践的アプローチを提案する。 次に,モデル最適化の促進,バイアス低減,探索の促進を目的として,いくつかのトレーニング手法を検討した。 さらに,特徴相関,次元崩壊,興味の絡み合いを包括的に研究できる3つの解析ツールを提案する。 この作業は、Tencentの広告レコメンデーションチームの過去10年間の継続的な取り組みに基づいている。 一般的な設計原則を要約するだけでなく、既製のソリューションや分析ツールのシリーズも提示する。 報告されたパフォーマンスは、当社のオンライン広告プラットフォームに基づいており、毎日数十億のリクエストを処理し、何百万もの広告を数十億のユーザーに提供する。

In this paper, we present an industry ad recommendation system, paying attention to the challenges and practices of learning appropriate representations. Our study begins by showcasing our approaches to preserving priors when encoding features of diverse types into embedding representations. Specifically, we address sequence features, numeric features, pre-trained embedding features, as well as sparse ID features. Moreover, we delve into two pivotal challenges associated with feature representation: the dimensional collapse of embeddings and the interest entanglement across various tasks or scenarios. Subsequently, we propose several practical approaches to effectively tackle these two challenges. We then explore several training techniques to facilitate model optimization, reduce bias, and enhance exploration. Furthermore, we introduce three analysis tools that enable us to comprehensively study feature correlation, dimensional collapse, and interest entanglement. This work builds upon the continuous efforts of Tencent's ads recommendation team in the last decade. It not only summarizes general design principles but also presents a series of off-the-shelf solutions and analysis tools. The reported performance is based on our online advertising platform, which handles hundreds of billions of requests daily, serving millions of ads to billions of users.
翻訳日:2024-03-11 00:10:58 公開日:2024-02-22
# $\textit{L+M-24}$: Building a Dataset for Language + Molecules @ ACL 2024

$\textit{L+M-24}$: Building a Dataset for Language + Molecules @ ACL 2024 ( http://arxiv.org/abs/2403.00791v1 )

ライセンス: Link先を確認
Carl Edwards and Qingyun Wang and Lawrence Zhao and Heng Ji(参考訳) 言語分子モデルは、分子の発見と理解のエキサイティングな方向として登場した。 しかし、分子言語対のデータセットが不足しているため、これらのモデルのトレーニングは困難である。 現時点では、データセットがリリースされている。 1) 既存のデータベースから小さく、取り除かれたもの。 2 大きくて騒々しく、科学文献にリンクした実体を営むことによる構成、及び 3) プロパティ予測データセットをテンプレートを使って自然言語に変換する。 この文書では、ACL 2024で共有されたLanguage + Molecules Workshopのために作成された$\textit{L+M-24}$データセットについて詳述する。 特に$\textit{l+m-24}$は、分子設計における自然言語の3つの重要な利点に焦点を当てるように設計されている。

Language-molecule models have emerged as an exciting direction for molecular discovery and understanding. However, training these models is challenging due to the scarcity of molecule-language pair datasets. At this point, datasets have been released which are 1) small and scraped from existing databases, 2) large but noisy and constructed by performing entity linking on the scientific literature, and 3) built by converting property prediction datasets to natural language using templates. In this document, we detail the $\textit{L+M-24}$ dataset, which has been created for the Language + Molecules Workshop shared task at ACL 2024. In particular, $\textit{L+M-24}$ is designed to focus on three key benefits of natural language in molecule design: compositionality, functionality, and abstraction.
翻訳日:2024-03-11 00:10:39 公開日:2024-02-22
# 音楽文法に基づくアクティベーションを利用した五つの音楽サークルによる概念空間の構築

Structuring Concept Space with the Musical Circle of Fifths by Utilizing Music Grammar Based Activations ( http://arxiv.org/abs/2403.00790v1 )

ライセンス: Link先を確認
Tofara Moyo(参考訳) 本稿では,スパイキングネットワークなどの離散ニューラルネットワークの構造とピアノ曲の構成との間に興味深い類似性について検討する。 どちらも順次または並行に活性化されるノードや音符を含むが、後者は音楽理論の豊富な体系から有意義な組み合わせを導くことができる。 本稿では,楽音文法を利用してスパイクニューラルネットワークのアクティベーションを制御し,記号をアトラクタとして表現する手法を提案する。 音楽理論からコード進行の規則を適用することで、特定のアクティベーションが自然に他者に従うかを示す。 さらに,ネットワーク内のアトラクションの異なる流域をナビゲートするための変調キーの概念も紹介する。 最終的に、我々のモデルにおける概念マップは5番目の音楽サークルによって構成され、深層学習アルゴリズムで音楽理論の原理を活用する可能性を強調していることを示した。

In this paper, we explore the intriguing similarities between the structure of a discrete neural network, such as a spiking network, and the composition of a piano piece. While both involve nodes or notes that are activated sequentially or in parallel, the latter benefits from the rich body of music theory to guide meaningful combinations. We propose a novel approach that leverages musical grammar to regulate activations in a spiking neural network, allowing for the representation of symbols as attractors. By applying rules for chord progressions from music theory, we demonstrate how certain activations naturally follow others, akin to the concept of attraction. Furthermore, we introduce the concept of modulating keys to navigate different basins of attraction within the network. Ultimately, we show that the map of concepts in our model is structured by the musical circle of fifths, highlighting the potential for leveraging music theory principles in deep learning algorithms.
翻訳日:2024-03-11 00:10:27 公開日:2024-02-22
# 超広帯域タグレスゲートの動的アンカー選択とリアルタイムポース予測

Dynamic Anchor Selection and Real-Time Pose Prediction for Ultra-wideband Tagless Gate ( http://arxiv.org/abs/2402.17778v1 )

ライセンス: Link先を確認
Junyoung Choi, Sagnik Bhattacharya, Joohyun Lee(参考訳) UWB(Ultra-wideband)は、ダウンリンク時間差(DL-TDoA)と双方向距離(DS-TWR)という2つの異なる範囲の手法に基づいて、UWBタグレスゲート(UTG)のような近接サービスを実現できる有望なソリューションとして浮上している。 UTGはUWBベースの近接サービスで、リアルタイムモバイルデバイス(MD)タッピングを必要としないシームレスなゲートパスシステムを提供する。 MDの位置はDL-TDoAを用いて計算され、MDは最も近いUTGとDS-TWRを使って通信してゲートを開く。 したがって、MDの正確な位置に関する知識はUTGの主な課題であり、DL-TDoAとDS-TWRの双方に対する解決策を提供する。 本稿では,極めて正確なDL-TDoAローカライゼーションのための動的アンカー選択と,DynaPoseと呼ばれるDS-TWRのポーズ予測を提案する。 ポーズは人体上のMDの実際の位置として定義され、位置決め精度に影響を与える。 DynaPoseは、アンカー選択とポーズ予測にディープラーニングを用いたLOS(Line-of-sight)とNLOS(Non-LOS)の分類に基づいている。 ディープラーニングモデルは、スマートフォンに埋め込まれたUWBチャネルインパルス応答と慣性測定ユニットを使用する。 DynaPoseはSamsung Galaxy Note20 UltraとQorvo UWBボードに実装されており、実現可能性と適用性を示している。 DynaPoseはLOS/NLOS分類精度0.984、DL-TDoAローカライゼーション精度62%を実現し、最終的にリアルタイムで0.961の精度で4つの異なるポーズを検出する。

Ultra-wideband (UWB) is emerging as a promising solution that can realize proximity services, such as UWB tagless gate (UTG), thanks to centimeter-level localization accuracy based on two different ranging methods such as downlink time-difference of arrival (DL-TDoA) and double-sided two-way ranging (DS-TWR). The UTG is a UWB-based proximity service that provides a seamless gate pass system without requiring real-time mobile device (MD) tapping. The location of MD is calculated using DL-TDoA, and the MD communicates with the nearest UTG using DS-TWR to open the gate. Therefore, the knowledge about the exact location of MD is the main challenge of UTG, and hence we provide the solutions for both DL-TDoA and DS-TWR. In this paper, we propose dynamic anchor selection for extremely accurate DL-TDoA localization and pose prediction for DS-TWR, called DynaPose. The pose is defined as the actual location of MD on the human body, which affects the localization accuracy. DynaPose is based on line-of-sight (LOS) and non-LOS (NLOS) classification using deep learning for anchor selection and pose prediction. Deep learning models use the UWB channel impulse response and the inertial measurement unit embedded in the smartphone. DynaPose is implemented on Samsung Galaxy Note20 Ultra and Qorvo UWB board to show the feasibility and applicability. DynaPose achieves a LOS/NLOS classification accuracy of 0.984, 62% higher DL-TDoA localization accuracy, and ultimately detects four different poses with an accuracy of 0.961 in real-time.
翻訳日:2024-03-03 19:10:01 公開日:2024-02-22
# タスク計画ロボットのロバスト調整のための抽象言語から接地言語へ

From Abstractions to Grounded Languages for Robust Coordination of Task Planning Robots ( http://arxiv.org/abs/1905.00517v3 )

ライセンス: Link先を確認
Yu Zhang(参考訳) 本稿では,タスク計画ロボットの協調におけるギャップを埋めるための第一歩を考察する。 具体的には,コーディネーションに十分な拡張性を持ちながら,最大限に柔軟な言語の自動構築について検討する。 この目的のために,我々は言語を計画の時間的制約を規定する機械として捉えている。 このようなビューにより、構成可能な制約を単語にマッピングすることで、言語をゼロからリバースエンジニアリングすることが可能になります。 我々の言語は、任意のタスクの計画を「計画スケッチ」として表現し、十分な詳細を伝えると同時に、それを実現する柔軟性を最大化する。 問題を定式化し解析し、近似したソリューションを提供し、様々なシナリオの下で我々のアプローチの利点を検証し、その応用に光を当てる。

In this paper, we consider a first step to bridge a gap in coordinating task planning robots. Specifically, we study the automatic construction of languages that are maximally flexible while being sufficiently explicative for coordination. To this end, we view language as a machinery for specifying temporal-state constraints of plans. Such a view enables us to reverse-engineer a language from the ground up by mapping these composable constraints to words. Our language expresses a plan for any given task as a "plan sketch" to convey just-enough details while maximizing the flexibility to realize it, leading to robust coordination with optimality guarantees among other benefits. We formulate and analyze the problem, provide an approximate solution, and validate the advantages of our approach under various scenarios to shed light on its applications.
翻訳日:2024-02-27 21:58:07 公開日:2024-02-22
# DiCoM -- 胸部X線研究における一般化性向上に向けた異種概念モデリング

DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies ( http://arxiv.org/abs/2402.15534v1 )

ライセンス: Link先を確認
Abhieet Parida, Daniel Capellan-Martin, Sara Atito, Muhammad Awais, Maria J. Ledesma-Carbayo, Marius G. Linguraru, Syed Muhammad Anwar(参考訳) 胸部x線(cxr)は臨床画像診断に広く用いられ、肺および心臓関連疾患の診断と予後に重要な役割を担っている。 放射線医学の読解と教師付き学習に基づく従来の自動臨床診断ツール設計戦略は、高品質な注釈付きトレーニングデータの煩雑な要件を伴っている。 この課題に対処するために、自己教師付き事前トレーニングは、多くの下流ビジョンタスクにおいて教師付き事前トレーニングよりも優れており、この分野における大きなブレークスルーを示している。 しかし, 臨床画像の特徴から, 自然画像(例えば, ImageNet)の事前訓練とは, 医用画像の事前訓練とは大きく異なる。 本稿では,多様な概念を学習し,CXRデータを効果的に表現するために,学生教師の枠組みを活用する,新しい自己指導型学習パラダイムであるDiverse Concept Modeling(DiCoM)を紹介する。 したがって、画像内の1つのプライマリラベルをモデル化するだけでなく、CXRに固有のすべての概念からの情報を効果的に活用することができる。 事前学習されたモデルはその後、様々なドメイン固有のタスクに対処するために微調整される。 提案するパラダイムは,複数のデータセット上で複数のダウンストリームタスクにまたがるロバストなパフォーマンスを一貫して示しており,事前学習戦略の成功と一般化性を強調している。 本手法の有効性を確立するため,学習した表現のパワーとモデルの収束速度(SoC)を解析した。 さまざまなデータやタスクに対して、DiCoMは他の最先端の事前トレーニング戦略と比較して、ほとんどのケースでより良い結果を得ることができる。 これにより、高いSoCと一般化能力が組み合わさって、広く使われている画像モダリティであるCXRの基礎モデルとしてDiCoMが確立される。

Chest X-Ray (CXR) is a widely used clinical imaging modality and has a pivotal role in the diagnosis and prognosis of various lung and heart related conditions. Conventional automated clinical diagnostic tool design strategies relying on radiology reads and supervised learning, entail the cumbersome requirement of high quality annotated training data. To address this challenge, self-supervised pre-training has proven to outperform supervised pre-training in numerous downstream vision tasks, representing a significant breakthrough in the field. However, medical imaging pre-training significantly differs from pre-training with natural images (e.g., ImageNet) due to unique attributes of clinical images. In this context, we introduce Diverse Concept Modeling (DiCoM), a novel self-supervised training paradigm that leverages a student teacher framework for learning diverse concepts and hence effective representation of the CXR data. Hence, expanding beyond merely modeling a single primary label within an image, instead, effectively harnessing the information from all the concepts inherent in the CXR. The pre-trained model is subsequently fine-tuned to address diverse domain-specific tasks. Our proposed paradigm consistently demonstrates robust performance across multiple downstream tasks on multiple datasets, highlighting the success and generalizability of the pre-training strategy. To establish the efficacy of our methods we analyze both the power of learned representations and the speed of convergence (SoC) of our models. For diverse data and tasks, DiCoM is able to achieve in most cases better results compared to other state-of-the-art pre-training strategies. This when combined with the higher SoC and generalization capabilities positions DiCoM to be established as a foundation model for CXRs, a widely used imaging modality.
翻訳日:2024-02-27 18:09:30 公開日:2024-02-22
# DMODE:クラス固有情報を持たない微分単分子物体距離推定モジュール

DMODE: Differential Monocular Object Distance Estimation Module without Class Specific Information ( http://arxiv.org/abs/2210.12596v2 )

ライセンス: Link先を確認
Pedram Agand, Michael Chang, and Mo Chen(参考訳) 物体距離を測定するために1台のカメラを使用することは、ステレオビジョンやLiDARに代わる費用対効果がある。 単眼距離推定は文献で研究されているが、既存の手法のほとんどは高い性能を達成するためにオブジェクトクラスの知識に依存している。 この文脈データがないと、単眼距離の推定はより難しくなり、参照点とオブジェクト固有の手がかりが欠如する。 しかし、これらの手がかりは、広範囲な変動や逆境的な状況の物体に対して誤解を招く可能性がある。 本稿では,オブジェクトクラスの知識を必要としない単眼距離推定のためのクラス非依存手法であるdmodeを提案する。 DMODEは、物体の距離をカメラの動きと時間とともに変化させることで推定し、様々な物体検出器や未知の物体に適応し、これらの課題に対処する。 我々は,TrackRCNN と EagerMOT からの出力と接点境界ボックスアノテーションを用いて,KITTI MOTS データセット上でのモデルを評価する。 オブジェクトの位置は、オブジェクトの検出源やクラス属性を測定することなく、境界ボックスサイズとカメラ位置の変化を用いて決定される。 本手法は,従来の手法と比較して,多クラス物体距離検出シナリオにおいて優れた性能を示す。

Utilizing a single camera for measuring object distances is a cost-effective alternative to stereo-vision and LiDAR. Although monocular distance estimation has been explored in the literature, most existing techniques rely on object class knowledge to achieve high performance. Without this contextual data, monocular distance estimation becomes more challenging, lacking reference points and object-specific cues. However, these cues can be misleading for objects with wide-range variation or adversarial situations, which is a challenging aspect of object-agnostic distance estimation. In this paper, we propose DMODE, a class-agnostic method for monocular distance estimation that does not require object class knowledge. DMODE estimates an object's distance by fusing its fluctuation in size over time with the camera's motion, making it adaptable to various object detectors and unknown objects, thus addressing these challenges. We evaluate our model on the KITTI MOTS dataset using ground-truth bounding box annotations and outputs from TrackRCNN and EagerMOT. The object's location is determined using the change in bounding box sizes and camera position without measuring the object's detection source or class attributes. Our approach demonstrates superior performance in multi-class object distance detection scenarios compared to conventional methods.
翻訳日:2024-02-26 18:58:53 公開日:2024-02-22
# 勾配ブースティング決定木のトレーニングダイナミクスによるデータ品質の向上

Improving Data Quality with Training Dynamics of Gradient Boosting Decision Trees ( http://arxiv.org/abs/2210.11327v2 )

ライセンス: Link先を確認
Moacir Antonelli Ponti and Lucas de Angelis Oliveira and Mathias Esteban and Valentina Garcia and Juan Mart\'in Rom\'an and Luis Argerich(参考訳) 実世界のデータセットには、モデルのパフォーマンスを阻害する誤ったラベル付きインスタンスが含まれており、特に分布から一般化する能力がある。 また、それぞれの例は学習に異なる貢献をするかもしれません。 これは、モデルにおける良いメトリクスへの貢献に関して、データインスタンスの役割をよりよく理解するために研究を動機付ける。 本稿では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスから算出したメトリクスに基づいて,各トレーニング例の振る舞いを評価する手法を提案する。 我々は、主に表型データや構造化データを含むデータセットに注目し、意思決定木アンサンブルの使用は、パフォーマンスの面ではまだ最先端である。 提案手法は,信頼性学習,直接ヒューリスティックス,頑健なブースティングアルゴリズムと比較して総合的に最高の結果を得た。 提案手法をベースとしたモデルを展開する産業ケースにおいて, 秩序あるクリーンデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, 結果を示す。

Real world datasets contain incorrectly labeled instances that hamper the performance of the model and, in particular, the ability to generalize out of distribution. Also, each example might have different contribution towards learning. This motivates studies to better understanding of the role of data instances with respect to their contribution in good metrics in models. In this paper we propose a method based on metrics computed from training dynamics of Gradient Boosting Decision Trees (GBDTs) to assess the behavior of each training example. We focus on datasets containing mostly tabular or structured data, for which the use of Decision Trees ensembles are still the state-of-the-art in terms of performance. Our methods achieved the best results overall when compared with confident learning, direct heuristics and a robust boosting algorithm. We show results on detecting noisy labels in order clean datasets, improving models' metrics in synthetic and real public datasets, as well as on a industry case in which we deployed a model based on the proposed solution.
翻訳日:2024-02-26 18:58:33 公開日:2024-02-22
# 介入的因果表現学習

Interventional Causal Representation Learning ( http://arxiv.org/abs/2209.11924v4 )

ライセンス: Link先を確認
Kartik Ahuja, Divyat Mahajan, Yixin Wang, Yoshua Bengio(参考訳) 因果表現学習は低レベルの感覚データから高レベルの潜伏因子を抽出しようとする。 既存の手法のほとんどは観測データと構造的仮定(条件付き独立性など)に依存して潜在因子を同定している。 しかし、介入データはアプリケーション間で広まっています。 介入データは因果表現学習を促進するか? この質問を本論文で検討する。 重要な観察は、介入データは、しばしば潜伏因子の支持の幾何学的シグネチャ(すなわち、潜伏因子がどの値を取ることができるか)を運ぶことである。 例えば、潜在要因が因果関係にある場合、介入は介入された潜在要因の支持と祖先の間の依存関係を壊す可能性がある。 この事実を利用して、完全な$do$の介入から与えられたデータの置換とスケーリングまで、潜在因果要因を識別できることを証明します。 さらに、不完全な介入からのデータにアクセスできれば、推定された潜伏因子が他の潜伏因子と絡み合っているのみであるブロックアフィンの同定も可能である。 これらの結果は、因果表現学習における介入データの独特な力を強調し、その分布や依存構造に関する仮定なしに潜伏因子の証明可能な識別を可能にする。

Causal representation learning seeks to extract high-level latent factors from low-level sensory data. Most existing methods rely on observational data and structural assumptions (e.g., conditional independence) to identify the latent factors. However, interventional data is prevalent across applications. Can interventional data facilitate causal representation learning? We explore this question in this paper. The key observation is that interventional data often carries geometric signatures of the latent factors' support (i.e. what values each latent can possibly take). For example, when the latent factors are causally connected, interventions can break the dependency between the intervened latents' support and their ancestors'. Leveraging this fact, we prove that the latent causal factors can be identified up to permutation and scaling given data from perfect $do$ interventions. Moreover, we can achieve block affine identification, namely the estimated latent factors are only entangled with a few other latents if we have access to data from imperfect interventions. These results highlight the unique power of interventional data in causal representation learning; they can enable provable identification of latent factors without any assumptions about their distributions or dependency structure.
翻訳日:2024-02-26 18:57:52 公開日:2024-02-22
# GNNInterpreter:グラフニューラルネットワークのための確率的生成モデルレベル記述

GNNInterpreter: A Probabilistic Generative Model-Level Explanation for Graph Neural Networks ( http://arxiv.org/abs/2209.07924v4 )

ライセンス: Link先を確認
Xiaoqi Wang, Han-Wei Shen(参考訳) 近年、グラフニューラルネットワーク(gnns)は、グラフ上の機械学習タスクのパフォーマンスを著しく向上させている。 しかし、この技術的ブレークスルーは、人々が不思議に思う。GNNは、どうやってそのような決定を下すのか、そして、高い信頼で予測を信頼できるのか? バイオメディシンのような重要な分野において、間違った判断を下すことが深刻な結果をもたらす場合、GNNの内部動作機構を応用する前に解釈することが重要である。 本稿では,GNNモデルの高レベル意思決定過程を説明するために,メッセージパッシング方式であるGNNInterpreterに従う異なるGNNに対するモデルに依存しないモデルレベルの説明手法を提案する。 より具体的には、GNNInterpreterは、GNNのモデルレベルの説明のために特別に設計された新しい目的関数を最適化することにより、特定の予測を行う際に、最も識別性の高いグラフパターンを生成する確率的生成グラフ分布を学習する。 既存の作品と比較して、gnninterpreterは、別のブラックボックスや手作業で指定されたドメイン固有のルールを必要とせずに、異なる種類のノードとエッジ機能を持つ説明グラフを生成する際に、より柔軟で計算効率が良い。 さらに、4つの異なるデータセットで行った実験により、モデルが理想的であれば、gnninterpreterが生成する説明グラフが所望のグラフパターンにマッチすることを示した。 公式実装はhttps://github.com/yolandalala/GNNInterpreterで見ることができる。

Recently, Graph Neural Networks (GNNs) have significantly advanced the performance of machine learning tasks on graphs. However, this technological breakthrough makes people wonder: how does a GNN make such decisions, and can we trust its prediction with high confidence? When it comes to some critical fields, such as biomedicine, where making wrong decisions can have severe consequences, it is crucial to interpret the inner working mechanisms of GNNs before applying them. In this paper, we propose a model-agnostic model-level explanation method for different GNNs that follow the message passing scheme, GNNInterpreter, to explain the high-level decision-making process of the GNN model. More specifically, GNNInterpreter learns a probabilistic generative graph distribution that produces the most discriminative graph pattern the GNN tries to detect when making a certain prediction by optimizing a novel objective function specifically designed for the model-level explanation for GNNs. Compared to existing works, GNNInterpreter is more flexible and computationally efficient in generating explanation graphs with different types of node and edge features, without introducing another blackbox or requiring manually specified domain-specific rules. In addition, the experimental studies conducted on four different datasets demonstrate that the explanation graphs generated by GNNInterpreter match the desired graph pattern if the model is ideal; otherwise, potential model pitfalls can be revealed by the explanation. The official implementation can be found at https://github.com/yolandalalala/GNNInterpreter.
翻訳日:2024-02-26 18:57:17 公開日:2024-02-22
# 関数線形モデルの仮説伝達学習について

On Hypothesis Transfer Learning of Functional Linear Models ( http://arxiv.org/abs/2206.04277v4 )

ライセンス: Link先を確認
Haotian Lin, Matthew Reimherr(参考訳) 再生カーネルヒルベルト空間(RKHS)における関数的線形回帰(FLR)のための伝達学習(TL)について検討し、関数的データが本質的に無限次元であり、滑らかな基底過程によって生成されるため、既存の高次元線形回帰におけるTL技術はトランケーションベースFLR法と互換性がないことを示した。 我々は、RKHS距離を用いてタスク間の類似度を測定し、RKHSの特性に関連付けられた情報の転送を行う。 仮説オフセット伝達学習パラダイムに基づいて、2つのアルゴリズムが提案されている: 1つは正のソースが知られているときに転送を行い、もう1つはソースに関する事前情報なしで堅牢な転送を達成するために集約技術を利用する。 この学習問題の下位境界を確立し,提案アルゴリズムが一致した漸近上界を楽しむことを示す。 これらの分析は、転移のダイナミクスに寄与する因子に関する統計的洞察を提供する。 また,その結果を関数型一般化線形モデルにも拡張した。 提案アルゴリズムの有効性は、金融データアプリケーションと同様に、広範囲な合成データに対して実証される。

We study the transfer learning (TL) for the functional linear regression (FLR) under the Reproducing Kernel Hilbert Space (RKHS) framework, observing the TL techniques in existing high-dimensional linear regression is not compatible with the truncation-based FLR methods as functional data are intrinsically infinite-dimensional and generated by smooth underlying processes. We measure the similarity across tasks using RKHS distance, allowing the type of information being transferred tied to the properties of the imposed RKHS. Building on the hypothesis offset transfer learning paradigm, two algorithms are proposed: one conducts the transfer when positive sources are known, while the other leverages aggregation techniques to achieve robust transfer without prior information about the sources. We establish lower bounds for this learning problem and show the proposed algorithms enjoy a matching asymptotic upper bound. These analyses provide statistical insights into factors that contribute to the dynamics of the transfer. We also extend the results to functional generalized linear models. The effectiveness of the proposed algorithms is demonstrated on extensive synthetic data as well as a financial data application.
翻訳日:2024-02-26 18:56:17 公開日:2024-02-22
# 多重グラフにおける量子対称性(その1)

Quantum symmetry in multigraphs (part I) ( http://arxiv.org/abs/2302.08726v4 )

ライセンス: Link先を確認
Debashish Goswami and Sk Asfaq Hossain(参考訳) 有向あるいは無向の多重グラフにおいて、孤立頂点を持たない様々な量子対称性の概念を導入し、それらの関係を探求する。 多重グラフが単辺(つまりループが許される単純なグラフ)であれば、量子対称性のすべての概念は、ビコンとバナカによって既に存在する量子対称性の概念に還元される。 我々の構成は、少なくとも2対の頂点が複数の辺を持つ任意の多重グラフが真の量子対称性を持つことを示している。

We introduce various notions of quantum symmetry in a directed or undirected multigraph with no isolated vertex and explore relations among them. If the multigraph is single edged (that is, a simple graph where loops are allowed), all our notions of quantum symmetry reduce to already existing notions of quantum symmetry provided by Bichon and Banica. Our constructions also show that any multigraph with at least two pairs of vertices with multiple edges among them possesses genuine quantum symmetry.
翻訳日:2024-02-26 18:50:15 公開日:2024-02-22
# 非自明な局所絡み合い変換を持つ多成分状態の族同定

Identifying families of multipartite states with non-trivial local entanglement transformations ( http://arxiv.org/abs/2302.03139v2 )

ライセンス: Link先を確認
Nicky Kai Hong Li, Cornelia Spee, Martin Hebenstreit, Julio I. de Vicente, Barbara Kraus(参考訳) 古典的コミュニケーション(locc)支援による局所的操作を伴う空間的分離パーティによる状態変換の研究は、絡み合い理論とその量子情報処理への応用において重要な役割を担っている。 このタイプの純粋な二成分状態への変換は古くから特徴付けられており、理論的構造が明らかにされている。 しかし、総称完全絡み合い状態はLOCCの下では任意の非等価な完全絡み合い状態から得ることも変換することもできない。 この性質を持つ国家は孤立状態と呼ばれる。 それでも、上記の結果は分離のない特定のSLOCCクラスの存在を禁止せず、LOCC変換性に関する豊富な構造を示す。 実際、祝われる$n$-qubit ghz と w の状態は、そのようなクラスの特定の例を示しており、本研究では、一般にこの問題を調査する。 我々の主な成果の1つは、三重項完全非対称状態のSLOCCクラスも孤立しないことを示すことである。 実際、このクラスの全ての状態は、(GHZ や W の場合のように)古典的な通信の1ラウンドしか持たないLOCCプロトコルによって、同値な状態に変換できる。 したがって、この性質を持つ他のクラスが存在するかどうかを次に検討し、多くの負の答えを見つける。 実際、非常に一般的なクラスに対して弱孤立性(すなわち、有限円LOCCで得られず、一円LOCCで変換されない状態)を証明し、コンパクトな安定化器を持つすべてのSLOCC族と、$n$-qunit に対応するクラスのような非コンパクトな安定化器を持つ多くのSLOCC族を含む。 最後に、三重項完全非対称状態に対応する族で見られる快適な特徴を考慮し、LOCCによって引き起こされる構造と、このクラス内の絡み合い特性についてより詳細に検討する。

The study of state transformations by spatially separated parties with local operations assisted by classical communication (LOCC) plays a crucial role in entanglement theory and its applications in quantum information processing. Transformations of this type among pure bipartite states were characterized long ago and have a revealing theoretical structure. However, it turns out that generic fully entangled pure multipartite states cannot be obtained from nor transformed to any inequivalent fully entangled state under LOCC. States with this property are referred to as isolated. Nevertheless, the above result does not forbid the existence of particular SLOCC classes that are free of isolation, and therefore, display a rich structure regarding LOCC convertibility. In fact, it is known that the celebrated $n$-qubit GHZ and W states give particular examples of such classes and in this work, we investigate this question in general. One of our main results is to show that the SLOCC class of the 3-qutrit totally antisymmetric state is isolation-free as well. Actually, all states in this class can be converted to inequivalent states by LOCC protocols with just one round of classical communication (as in the GHZ and W cases). Thus, we consider next whether there are other classes with this property and we find a large set of negative answers. Indeed, we prove weak isolation (i.e., states that cannot be obtained with finite-round LOCC nor transformed by one-round LOCC) for very general classes, including all SLOCC families with compact stabilizers and many with non-compact stabilizers, such as the classes corresponding to the $n$-qunit totally antisymmetric states for $n\geq4$. Finally, given the pleasant feature found in the family corresponding to the 3-qutrit totally antisymmetric state, we explore in more detail the structure induced by LOCC and the entanglement properties within this class.
翻訳日:2024-02-26 18:50:05 公開日:2024-02-22
# archetypal analysis++: 初期化戦略再考

Archetypal Analysis++: Rethinking the Initialization Strategy ( http://arxiv.org/abs/2301.13748v3 )

ライセンス: Link先を確認
Sebastian Mair and Jens Sj\"olund(参考訳) アーチティパル解析は凸性制約を持つ行列分解法である。 局所的極小化のため、良い初期化が不可欠であるが、しばしば使用される初期化法は、最適でない開始点か、悪い局所的極小に詰まる傾向がある。 本稿では,目標に対する影響に基づいてポイントを逐次的にサンプリングする,確率的初期化戦略であるarchetypal analysis++ (aa++)を提案する。 実際、$k$-means++はすでに提案された初期化メソッドを近似している。 さらに,AA++に$k$-means++の効率的なモンテカルロ近似を適用することを提案する。 様々な大きさと次元の14の実世界のデータセットの広範な評価と2つの前処理戦略を考慮すると、AA++は最も頻繁に使用されるものを含め、ほぼ常に全てのベースラインを上回ります。

Archetypal analysis is a matrix factorization method with convexity constraints. Due to local minima, a good initialization is essential, but frequently used initialization methods yield either sub-optimal starting points or are prone to get stuck in poor local minima. In this paper, we propose archetypal analysis++ (AA++), a probabilistic initialization strategy for archetypal analysis that sequentially samples points based on their influence on the objective, similar to $k$-means++. In fact, we argue that $k$-means++ already approximates the proposed initialization method. Furthermore, we suggest to adapt an efficient Monte Carlo approximation of $k$-means++ to AA++. In an extensive empirical evaluation of 14 real-world data sets of varying sizes and dimensionalities and considering two pre-processing strategies, we show that AA++ almost always outperforms all baselines, including the most frequently used ones.
翻訳日:2024-02-26 18:48:24 公開日:2024-02-22
# FedDebug: フェデレーション学習アプリケーションのためのシステムデバッグ

FedDebug: Systematic Debugging for Federated Learning Applications ( http://arxiv.org/abs/2301.03553v2 )

ライセンス: Link先を確認
Waris Gill, Ali Anwar, Muhammad Ali Gulzar(参考訳) Federated Learning (FL)では、クライアントは独立してローカルモデルをトレーニングし、グローバルモデルを構築するために中央アグリゲータと共有する。 クライアントのデータにアクセスできないことや協調トレーニングにより、FLは医療画像などのデータプライバシの懸念のあるアプリケーションにアピールする。 しかし、これらのFL特性はデバッグに前例のない課題をもたらす。 グローバルモデルのパフォーマンスが低下すると、責任あるラウンドとクライアントを特定することが大きな痛点となる。 開発者は、クライアントのサブセットで試行錯誤デバッグをし、グローバルモデルの精度を高めたり、将来のFLラウンドでモデルを修正したりすることを望んでいる。 我々は,feddebugという系統的フォールトローカライズフレームワークを設計し,flデバッグを2つの新しいフロントで進める。 まずFedDebugは、記録と再生技術を活用してFLのリアルタイム協調トレーニングをインタラクティブにデバッグし、ライブFLをミラーするシミュレーションを構築する。 FedDebugのブレークポイントは、FL状態(全体、クライアント、グローバルモデル)を検査し、ラウンドとクライアントのモデルをシームレスに移動するのに役立ちます。 第二に、FedDebugはテストデータやラベルなしでグローバルモデルのパフォーマンスを低下させるクライアントを自動的に識別する。 FedDebugの強みは、正常な振る舞いから逸脱したクライアントを決定するために、ニューロンの活性化とともに差分テストを適用することにある。 FedDebugは、単一障害クライアントを見つける際の100%の精度と、複数の障害クライアントを見つける際の90.3%の精度を達成する。 feddebugのインタラクティブデバッグでは、トレーニング中に1.2%のオーバーヘッドが発生し、ラウンドのトレーニング時間の2.1%で障害のあるクライアントをローカライズする。

In Federated Learning (FL), clients independently train local models and share them with a central aggregator to build a global model. Impermissibility to access clients' data and collaborative training make FL appealing for applications with data-privacy concerns, such as medical imaging. However, these FL characteristics pose unprecedented challenges for debugging. When a global model's performance deteriorates, identifying the responsible rounds and clients is a major pain point. Developers resort to trial-and-error debugging with subsets of clients, hoping to increase the global model's accuracy or let future FL rounds retune the model, which are time-consuming and costly. We design a systematic fault localization framework, FedDebug, that advances the FL debugging on two novel fronts. First, FedDebug enables interactive debugging of realtime collaborative training in FL by leveraging record and replay techniques to construct a simulation that mirrors live FL. FedDebug's breakpoint can help inspect an FL state (round, client, and global model) and move between rounds and clients' models seamlessly, enabling a fine-grained step-by-step inspection. Second, FedDebug automatically identifies the client(s) responsible for lowering the global model's performance without any testing data and labels--both are essential for existing debugging techniques. FedDebug's strengths come from adapting differential testing in conjunction with neuron activations to determine the client(s) deviating from normal behavior. FedDebug achieves 100% accuracy in finding a single faulty client and 90.3% accuracy in finding multiple faulty clients. FedDebug's interactive debugging incurs 1.2% overhead during training, while it localizes a faulty client in only 2.1% of a round's training time.
翻訳日:2024-02-26 18:47:47 公開日:2024-02-22
# 相互作用する原子ガスの集団ラムシフトと修正ライン幅

Collective Lamb Shift and Modified Linewidth of An Interacting Atomic Gas ( http://arxiv.org/abs/2305.01865v2 )

ライセンス: Link先を確認
Hanzhen Ma, Susanne F. Yelin(参考訳) 放射相互作用系における集団ラムシフトの包括的かつ一般的な説明と協調的拡大は、長年の疑問である。 個々の原子のエネルギーレベルと線幅は、双極子-双極子相互作用を構成する実光子と仮想光子の交換によって変化する。 弱駆動,低励起の2レベル原子のアンサンブルを理論的に研究する手法を導入し,二体相互作用のみに由来する無限次相関を含む自己整合形式を通じて集合ラムシフトと線幅を解析的に記述する。 我々は、アンサンブルの数密度、外部プローブ場のデチューニング、サンプルの幾何といったシステムパラメーターに対するこれらの量の依存性を測定可能なものとして予測する。

Finding a comprehensive and general description of the collective Lamb shift and cooperative broadening in a radiatively interacting system is a long-standing open question. Both energy levels and linewidth of individual atoms are modified by the exchange of real and virtual photons making up the dipole-dipole interaction. We introduce a method to theoretically study weakly-driven, low-excited ensembles of two-level atoms, and obtain an analytic description of the collective Lamb shift and linewidth via a self-consistent formalism including infinite order of correlations which stem from only two-body interactions. We predict the dependency of these quantities, as measurables, on system parameters: the number density of the ensemble, the detuning of an external probe field, and the geometry of the sample.
翻訳日:2024-02-26 18:38:46 公開日:2024-02-22
# 量子メッセージの署名方法

How to Sign Quantum Messages ( http://arxiv.org/abs/2304.06325v4 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 量子メッセージの署名は、計算の前提の下でも不可能だと考えられてきた。 本研究は、この概念に挑戦し、公衆の信頼性を保証するための最初の量子メッセージに署名する3つの革新的なアプローチを提供する。 1) 量子メッセージの署名は署名の時間に依存し,検証プロセスは署名の受信の時間に依存する,時間依存(td)署名の概念を導入する。 このプリミティブを構築し、量子後安全片道関数(pq-OWF)と時間ロックパズル(TLP)の存在を仮定する。 2) 時間とともに進化する検証キーを利用することで, 建設におけるTLPの必要性を解消する。 これにより、動的検証キーを持つpq-OWFのTDシグネチャが生成される。 3) 境界量子記憶モデルを考えると, 敵は量子記憶に関して制限される。 このモデルでは、量子メッセージは情報理論のセキュリティで署名できることを示す。 pq-OWFにのみ依存して、以下の目的を達成するために、TDシグネチャを利用する。 (a)敵の改ざんに抵抗する認証された量子公開鍵を含む公開鍵暗号方式を設計する。 (b)新規なtd公開鍵量子マネースキームを提案する。

Signing quantum messages has long been considered impossible even under computational assumptions. In this work, we challenge this notion and provide three innovative approaches to sign quantum messages that are the first to ensure authenticity with public verifiability. Our contributions can be summarized as follows: 1) We introduce the concept of time-dependent (TD) signatures, where the signature of a quantum message depends on the time of signing and the verification process depends on the time of the signature reception. We construct this primitive assuming the existence of post-quantum secure one-way functions (pq-OWFs) and time-lock puzzles (TLPs). 2) By utilizing verification keys that evolve over time, we eliminate the need for TLPs in our construction. This leads to TD signatures from pq-OWFs with dynamic verification keys. 3) We then consider the bounded quantum storage model, where adversaries are limited with respect to their quantum memories. We show that quantum messages can be signed with information-theoretic security in this model. Moreover, we leverage TD signatures to achieve the following objectives, relying solely on pq-OWFs: (a) We design a public key encryption scheme featuring authenticated quantum public keys that resist adversarial tampering. (b) We present a novel TD public-key quantum money scheme.
翻訳日:2024-02-26 18:38:04 公開日:2024-02-22
# 大規模言語フィードバックによる言語モデルの訓練

Training Language Models with Language Feedback at Scale ( http://arxiv.org/abs/2303.16755v3 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Jon Ander Campos, Tomasz Korbak, Jun Shern Chan, Angelica Chen, Kyunghyun Cho, Ethan Perez(参考訳) 事前訓練された言語モデルは、有害なテキストや事実的に誤った要約など、人間の好みと一致しない出力を生成することが多い。 最近の研究は、人間のフィードバックの単純な形式から学習することで、上記の問題にアプローチしている。 しかし、比較フィードバックは人間の好みに関する限られた情報しか伝達しない。 本稿では,より情報的な言語フィードバックを利用する新しいアプローチであるImitation Learning from Language Feedback (ILF)を紹介する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。 次に、最もフィードバックを取り入れた改善を選択する。 第三に、入力によって選択された洗練の可能性を最大化するために言語モデルを微調整する。 理論的には、ILFは人間のフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。 ilfの有効性を注意深く制御した玩具タスクと現実的な要約タスクで評価する。 実験では,大規模言語モデルがフィードバックを正確に組み込んでおり,iffによる微調整はデータセットサイズとよく一致し,人間のサマリーの微調整よりも優れています。 言語と比較フィードバックの両方から学ぶことは、個人で学ぶことよりも優れ、人間レベルの要約性能を達成する。

Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.
翻訳日:2024-02-26 18:36:49 公開日:2024-02-22
# 自然言語フィードバックによるトレーニングによるコード生成の改善

Improving Code Generation by Training with Natural Language Feedback ( http://arxiv.org/abs/2303.16749v2 )

ライセンス: Link先を確認
Angelica Chen, J\'er\'emy Scheurer, Tomasz Korbak, Jon Ander Campos, Jun Shern Chan, Samuel R. Bowman, Kyunghyun Cho, Ethan Perez(参考訳) 推論時に自然言語フィードバックを使用するための事前訓練済みの大規模言語モデル(LLM)の可能性は、最近のエキサイティングな開発である。 我々は、学習時の自然言語フィードバックから学習するためのアルゴリズムを定式化し、これを言語フィードバックから模倣学習(ilf)と呼ぶ。 ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。 さらに、ilfを基底真理分布へのklの発散を最小化し、神経プログラム合成タスクにおける概念実証を実証する形態と捉えることができることを示した。 ilfを使って、ほとんど基本的なpython問題(mbpp)ベンチマークでcodegen-mono 6.1bモデルのpass@1レートを38%(そして10%絶対)向上させ、mbppでの微調整と、人間が書いたプログラムの微調整を両立させました。 総じて,人間による自然言語フィードバックからの学習は,コード生成タスクにおけるllmのパフォーマンス向上のためのデモンストレーションのみを対象とするトレーニングよりも効率的かつサンプル効率が高いことが示唆された。

The potential for pre-trained large language models (LLMs) to use natural language feedback at inference time has been an exciting recent development. We build upon this observation by formalizing an algorithm for learning from natural language feedback at training time instead, which we call Imitation learning from Language Feedback (ILF). ILF requires only a small amount of human-written feedback during training and does not require the same feedback at test time, making it both user-friendly and sample-efficient. We further show that ILF can be seen as a form of minimizing the KL divergence to the ground truth distribution and demonstrate a proof-of-concept on a neural program synthesis task. We use ILF to improve a Codegen-Mono 6.1B model's pass@1 rate by 38% relative (and 10% absolute) on the Mostly Basic Python Problems (MBPP) benchmark, outperforming both fine-tuning on MBPP and fine-tuning on repaired programs written by humans. Overall, our results suggest that learning from human-written natural language feedback is both more effective and sample-efficient than training exclusively on demonstrations for improving an LLM's performance on code generation tasks.
翻訳日:2024-02-26 18:36:29 公開日:2024-02-22
# edgeserve:分散型モデルサービスのためのストリーミングシステム

EdgeServe: A Streaming System for Decentralized Model Serving ( http://arxiv.org/abs/2303.08028v3 )

ライセンス: Link先を確認
Ted Shaowang, Sanjay Krishnan(参考訳) 機械学習タスクに関連する機能は、1つ以上の連続的なデータストリームとして現れる可能性がある。 データストリーム上の機械学習モデルの提供は、データルーティング、時間同期、レート制御を管理する上で、多くの興味深いシステム課題を生み出している。 本稿では,機械学習モデルからの予測をリアルタイムに処理できる分散ストリーミングシステムEdgeServeを提案する。 本稿では,(1)人的行動認識,(2)自律運転,(3)ネットワーク侵入検出という3つのストリーミング予測タスクについてedgeserveを評価する。

The relevant features for a machine learning task may arrive as one or more continuous streams of data. Serving machine learning models over streams of data creates a number of interesting systems challenges in managing data routing, time-synchronization, and rate control. This paper presents EdgeServe, a distributed streaming system that can serve predictions from machine learning models in real time. We evaluate EdgeServe on three streaming prediction tasks: (1) human activity recognition, (2) autonomous driving, and (3) network intrusion detection.
翻訳日:2024-02-26 18:35:52 公開日:2024-02-22
# Quick-Tune: トレーニング済みモデルをファインチューンに学習する

Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How ( http://arxiv.org/abs/2306.03828v4 )

ライセンス: Link先を確認
Sebastian Pineda Arango, Fabio Ferreira, Arlind Kadra, Frank Hutter, Josif Grabocka(参考訳) トレーニング済みモデルが増え続ける中で、機械学習の実践者は、どのトレーニング済みモデルを使用するか、新しいデータセットのためにそれを微調整する方法を常に直面している。 本稿では,最適事前学習モデルとハイパーパラメータを共同で探索して微調整する手法を提案する。 本手法は,複数のハイパーパラメータ構成を持つ事前学習モデルの性能に関する知識を一連のデータセット上で伝達する。 そこで本研究では,87データセット上の24の事前学習画像分類モデルを微調整し,大規模メタデータセットを生成するために,20k以上のハイパーパラメータ構成を評価した。 我々は、このメタデータセットの学習曲線について多元的性能予測器をメタ学習し、新しいデータセットの高速ハイパーパラメータ最適化に使用する。 提案手法は,新しいデータセットの正確な事前学習モデルと最適なハイパーパラメータを迅速に選択できることを実証的に実証する。

With the ever-increasing number of pretrained models, machine learning practitioners are continuously faced with which pretrained model to use, and how to finetune it for a new dataset. In this paper, we propose a methodology that jointly searches for the optimal pretrained model and the hyperparameters for finetuning it. Our method transfers knowledge about the performance of many pretrained models with multiple hyperparameter configurations on a series of datasets. To this aim, we evaluated over 20k hyperparameter configurations for finetuning 24 pretrained image classification models on 87 datasets to generate a large-scale meta-dataset. We meta-learn a multi-fidelity performance predictor on the learning curves of this meta-dataset and use it for fast hyperparameter optimization on new datasets. We empirically demonstrate that our resulting approach can quickly select an accurate pretrained model for a new dataset together with its optimal hyperparameters.
翻訳日:2024-02-26 18:30:27 公開日:2024-02-22
# 畳み込み層に対するアダマール変換に基づくハイブリッド量子-古典的アプローチ

A Hybrid Quantum-Classical Approach based on the Hadamard Transform for the Convolutional Layer ( http://arxiv.org/abs/2305.17510v3 )

ライセンス: Link先を確認
Hongyi Pan, Xin Zhu, Salih Atici, Ahmet Enis Cetin(参考訳) 本稿では,ハイブリッド量子古典計算のための新しいアダマール変換(HT)ベースのニューラルネットワーク層を提案する。 アダマール変換領域に規則的な畳み込み層を実装する。 この考えは HT の畳み込み定理に基づいており、2つのベクトル間の二進畳み込みは HT 表現の要素ワイド乗法と等価である。 HTの計算は、単純に各キュービットに対するアダマールゲートの応用であり、提案した階層のHT計算を量子コンピュータ上で実装することができる。 通常のConv2D層と比較して、提案したHTパーセプトロン層は計算効率が良い。 同じ練習可能なパラメータ数と99.26\%のテスト精度を持つcnnと比較して、我々のhtネットワークは、mnistデータセットで57.1\%のmacで99.31\%のテスト精度に達し、imagenet-1k実験では、ベースラインresnet-50の精度を11.5\%のパラメータと12.6\%のmacで0.059\%の精度で上回っています。

In this paper, we propose a novel Hadamard Transform (HT)-based neural network layer for hybrid quantum-classical computing. It implements the regular convolutional layers in the Hadamard transform domain. The idea is based on the HT convolution theorem which states that the dyadic convolution between two vectors is equivalent to the element-wise multiplication of their HT representation. Computing the HT is simply the application of a Hadamard gate to each qubit individually, so the HT computations of our proposed layer can be implemented on a quantum computer. Compared to the regular Conv2D layer, the proposed HT-perceptron layer is computationally more efficient. Compared to a CNN with the same number of trainable parameters and 99.26\% test accuracy, our HT network reaches 99.31\% test accuracy with 57.1\% MACs reduced in the MNIST dataset; and in our ImageNet-1K experiments, our HT-based ResNet-50 exceeds the accuracy of the baseline ResNet-50 by 0.59\% center-crop top-1 accuracy using 11.5\% fewer parameters with 12.6\% fewer MACs.
翻訳日:2024-02-26 18:28:39 公開日:2024-02-22
# デッドラインを用いた学習強化オンラインパケットスケジューリング

Learning-Augmented Online Packet Scheduling with Deadlines ( http://arxiv.org/abs/2305.07164v2 )

ライセンス: Link先を確認
Ya-Chun Liang and Clifford Stein and Hao-Ting Wei(参考訳) 現代のネットワークは、非クリティカルトラフィックよりも重要なトラフィックを優先し、トラフィックフローを効果的に管理することを目的としている。 これにより、重要でないトラフィックへの影響を最小限に抑えつつ、重要なトラフィックの損失を防止するために適切なバッファ管理が必要である。 したがって、アルゴリズムの目的は、送信するパケットと、各ステップで破棄するパケットを制御することである。 本研究では,期限付きオンラインパケットスケジューリングの学習を開始するとともに,予測に対処する新しいアルゴリズムフレームワークを提案する。 予測誤差が小さい場合には, 予測誤差にかかわらず有界な競合比を維持しながら, 競合比を向上できることを示す。

The modern network aims to prioritize critical traffic over non-critical traffic and effectively manage traffic flow. This necessitates proper buffer management to prevent the loss of crucial traffic while minimizing the impact on non-critical traffic. Therefore, the algorithm's objective is to control which packets to transmit and which to discard at each step. In this study, we initiate the learning-augmented online packet scheduling with deadlines and provide a novel algorithmic framework to cope with the prediction. We show that when the prediction error is small, our algorithm improves the competitive ratio while still maintaining a bounded competitive ratio, regardless of the prediction error.
翻訳日:2024-02-26 18:26:48 公開日:2024-02-22
# 古典データの分類のための相互作用層を有する量子畳み込みニューラルネットワーク

Quantum Convolutional Neural Networks with Interaction Layers for Classification of Classical Data ( http://arxiv.org/abs/2307.11792v3 )

ライセンス: Link先を確認
Jishnu Mahmud, Raisa Mashtura, Shaikh Anowarul Fattah, Mohammad Saquib(参考訳) 量子機械学習(quantum machine learning, qml)は、量子コンピュータの計算能力の異常さから生まれた。 量子ニューラルネットワークにおけるマルチキュービット相互作用の影響は, 近距離量子コンピュータの今後への期待から広く研究されることが重要である。 本稿では,3量子ビット相互作用を利用した新しい相互作用層を有する量子畳み込みネットワークについて,画像と1次元データの両方を分類するネットワークの表現可能性と絡み合い能力について検討する。 提案手法は, mnist, fashion mnist, irisの3つのデータセットにおいて, バイナリ分類とマルチクラス分類の実行に柔軟に動作し, 既存の最先端手法の性能に取って代わるものと考えられる。

Quantum Machine Learning (QML) has come into the limelight due to the exceptional computational abilities of quantum computers. With the promises of near error-free quantum computers in the not-so-distant future, it is important that the effect of multi-qubit interactions on quantum neural networks is studied extensively. This paper introduces a Quantum Convolutional Network with novel Interaction layers exploiting three-qubit interactions, while studying the network's expressibility and entangling capability, for classifying both image and one-dimensional data. The proposed approach is tested on three publicly available datasets namely MNIST, Fashion MNIST, and Iris datasets, flexible in performing binary and multiclass classifications, and is found to supersede the performance of existing state-of-the-art methods.
翻訳日:2024-02-26 18:19:16 公開日:2024-02-22
# 学習による集団行動の分散的部分観測可能な平均場制御

Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior ( http://arxiv.org/abs/2307.06175v2 )

ライセンス: Link先を確認
Kai Cui, Sascha Hauck, Christian Fabian, Heinz Koeppl(参考訳) 近年の強化学習(RL)法は様々な分野で成功している。 しかし、マルチエージェントRL(MARL)は多くのエージェントに対する分散化、部分観測可能性、スケーラビリティの観点からも課題である。 一方、集団行動は前述の課題の解決を必要とし、アクティブマター物理学、自己組織化システム、意見力学、生物学的またはロボットの群れなど、最先端の多くの応用において重要なままである。 ここで、marl via mean field control (mfc) はスケーラビリティに対する潜在的なソリューションを提供するが、分散的で部分的に観測可能なシステムを考えることができない。 本稿では,分散化された部分観測可能なMFC(Dec-POMFC)の新たなモデルを提案することで,部分情報に基づくエージェントの分散動作を可能にする。 有限群群に適用したDec-POMFC解の最適性保証とともに、動的プログラミング原理を含む厳密な理論的結果を提供する。 アルゴリズムにより,中央集中型トレーニングと分散実行を通じ,dec-pomfcに基づくmarlのポリシー勾配手法を提案する。 さらに,完全観測可能なmfcにも関心があるカーネル法により,最先端のヒストグラムベースのmfcを改良した。 クラモトモデルやビクセックスワーミングモデルなど,代表的な集団行動タスクを数値的に評価し,最先端のmarlと同等に評価した。 全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。

Recent reinforcement learning (RL) methods have achieved success in various domains. However, multi-agent RL (MARL) remains a challenge in terms of decentralization, partial observability and scalability to many agents. Meanwhile, collective behavior requires resolution of the aforementioned challenges, and remains of importance to many state-of-the-art applications such as active matter physics, self-organizing systems, opinion dynamics, and biological or robotic swarms. Here, MARL via mean field control (MFC) offers a potential solution to scalability, but fails to consider decentralized and partially observable systems. In this paper, we enable decentralized behavior of agents under partial information by proposing novel models for decentralized partially observable MFC (Dec-POMFC), a broad class of problems with permutation-invariant agents allowing for reduction to tractable single-agent Markov decision processes (MDP) with single-agent RL solution. We provide rigorous theoretical results, including a dynamic programming principle, together with optimality guarantees for Dec-POMFC solutions applied to finite swarms of interest. Algorithmically, we propose Dec-POMFC-based policy gradient methods for MARL via centralized training and decentralized execution, together with policy gradient approximation guarantees. In addition, we improve upon state-of-the-art histogram-based MFC by kernel methods, which is of separate interest also for fully observable MFC. We evaluate numerically on representative collective behavior tasks such as adapted Kuramoto and Vicsek swarming models, being on par with state-of-the-art MARL. Overall, our framework takes a step towards RL-based engineering of artificial collective behavior via MFC.
翻訳日:2024-02-26 18:17:22 公開日:2024-02-22
# 変数共分散規則化は表現学習を改善する

Variance-Covariance Regularization Improves Representation Learning ( http://arxiv.org/abs/2306.13292v2 )

ライセンス: Link先を確認
Jiachen Zhu, Katrina Evtimova, Yubei Chen, Ravid Shwartz-Ziv, Yann LeCun(参考訳) 伝達学習は機械学習モデルの進歩において重要な役割を担っているが、従来の教師付き事前学習は、事前学習損失を最小限に抑える特徴を優先順位付けすることで、機能の伝達性を損なうことが多い。 本研究では,VICReg法による自己教師付き学習規則化手法を教師付き学習コンテキストに適用し,可変共分散規則化(VCReg)を導入する。 この適応により、ネットワークは高分散、低分散表現を学習し、より多様な特徴の学習を促進する。 我々は、中間表現に適用することを含め、フレームワークの効率的な実装のためのベストプラクティスを概説する。 本手法は,画像や映像の転送学習を著しく向上させ,多数のタスクやデータセットにまたがる最先端のパフォーマンスを実現する。 VCRegは、ロングテール学習や階層分類といったシナリオのパフォーマンスも改善する。 さらに,その効果は,勾配飢餓や神経崩壊といった課題への対処の成功に起因している可能性がある。 要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。

Transfer learning plays a key role in advancing machine learning models, yet conventional supervised pretraining often undermines feature transferability by prioritizing features that minimize the pretraining loss. In this work, we adapt a self-supervised learning regularization technique from the VICReg method to supervised learning contexts, introducing Variance-Covariance Regularization (VCReg). This adaptation encourages the network to learn high-variance, low-covariance representations, promoting learning more diverse features. We outline best practices for an efficient implementation of our framework, including applying it to the intermediate representations. Through extensive empirical evaluation, we demonstrate that our method significantly enhances transfer learning for images and videos, achieving state-of-the-art performance across numerous tasks and datasets. VCReg also improves performance in scenarios like long-tail learning and hierarchical classification. Additionally, we show its effectiveness may stem from its success in addressing challenges like gradient starvation and neural collapse. In summary, VCReg offers a universally applicable regularization framework that significantly advances transfer learning and highlights the connection between gradient starvation, neural collapse, and feature transferability.
翻訳日:2024-02-26 18:16:24 公開日:2024-02-22
# ConceptBed:テキスト・画像拡散モデルの概念学習能力の評価

ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.04695v2 )

ライセンス: Link先を確認
Maitreya Patel and Tejas Gokhale and Chitta Baral and Yezhou Yang(参考訳) 視覚概念を理解し、これらの概念をイメージから複製し構成する能力は、コンピュータビジョンの中心的な目標である。 テキスト・ツー・イメージ(T2I)モデルの最近の進歩は、画像の大規模データベースとその記述から学習することで、高定義と現実的な画像品質の生成につながっている。 しかし、T2Iモデルの評価は、光リアリズムと視覚的理解の質的な基準に重点を置いている。 新たな視覚概念(例えばパーソナライズされたT2I)の学習と合成におけるT2Iモデルの能力を定量化するために,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを導入する。 本研究は,T2Iジェネレータが生成した概念と対象画像に含まれる概念のアライメントを測定するために,オラクル概念分類器の信頼性を利用した評価指標である概念信頼度偏差(CCD)を提案する。 対象,属性,スタイルのいずれかである視覚的概念を評価し,構成性の4次元(計数,属性,関係,行動)を評価する。 我々の人間による研究は、CCDが概念に対する人間の理解と非常に相関していることを示している。 この結果から,既存のアプローチが克服に苦慮している概念の学習と構成性維持のトレードオフを指摘する。 データ、コード、インタラクティブなデモは、https://conceptbed.github.io/で見ることができる。

The ability to understand visual concepts and replicate and compose these concepts from images is a central goal for computer vision. Recent advances in text-to-image (T2I) models have lead to high definition and realistic image quality generation by learning from large databases of images and their descriptions. However, the evaluation of T2I models has focused on photorealism and limited qualitative measures of visual understanding. To quantify the ability of T2I models in learning and synthesizing novel visual concepts (a.k.a. personalized T2I), we introduce ConceptBed, a large-scale dataset that consists of 284 unique visual concepts, and 33K composite text prompts. Along with the dataset, we propose an evaluation metric, Concept Confidence Deviation (CCD), that uses the confidence of oracle concept classifiers to measure the alignment between concepts generated by T2I generators and concepts contained in target images. We evaluate visual concepts that are either objects, attributes, or styles, and also evaluate four dimensions of compositionality: counting, attributes, relations, and actions. Our human study shows that CCD is highly correlated with human understanding of concepts. Our results point to a trade-off between learning the concepts and preserving the compositionality which existing approaches struggle to overcome. The data, code, and interactive demo is available at: https://conceptbed.github.io/
翻訳日:2024-02-26 18:15:28 公開日:2024-02-22
# CaveSeg:自律型水中洞窟探査のための深部セマンティックセグメンテーションとシーンパーシング

CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration ( http://arxiv.org/abs/2309.11038v4 )

ライセンス: Link先を確認
A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis(参考訳) 本稿では,水中洞窟におけるAUVナビゲーションのためのセマンティックセグメンテーションとシーン解析のための最初のビジュアル学習パイプラインであるCaveSegを紹介する。 水中洞窟シーンのセマンティックセマンティックセグメンテーションのための包括的データセットを作成し,注釈付きトレーニングデータの不足に対処する。 重要なナビゲーションマーカー(洞窟線、矢印など)、障害物(地平原や頭上層など)、スキューバダイバー、サーボのためのオープンエリアのためのピクセルアノテーションが含まれている。 米国、メキシコ、スペインの洞窟システムに関する包括的なベンチマーク分析を通じて、水中洞窟環境を高速に意味論的に解析するためのcavesegに基づく強固な深部視覚モデルの開発が可能であることを実証する。 特に,計算的に軽量で,リアルタイムに近い実行が可能なトランスフォーマーモデルを構築し,最先端性能を実現する。 最後に,水中洞窟内におけるAUVによる視覚サーボのためのセマンティックセグメンテーションの設計選択と意義について検討する。 提案されたモデルとベンチマークデータセットは、自律型水中洞窟探査とマッピングにおける将来の研究の有望な機会を開く。

In this paper, we present CaveSeg - the first visual learning pipeline for semantic segmentation and scene parsing for AUV navigation inside underwater caves. We address the problem of scarce annotated training data by preparing a comprehensive dataset for semantic segmentation of underwater cave scenes. It contains pixel annotations for important navigation markers (e.g. caveline, arrows), obstacles (e.g. ground plain and overhead layers), scuba divers, and open areas for servoing. Through comprehensive benchmark analyses on cave systems in USA, Mexico, and Spain locations, we demonstrate that robust deep visual models can be developed based on CaveSeg for fast semantic scene parsing of underwater cave environments. In particular, we formulate a novel transformer-based model that is computationally light and offers near real-time execution in addition to achieving state-of-the-art performance. Finally, we explore the design choices and implications of semantic segmentation for visual servoing by AUVs inside underwater caves. The proposed model and benchmark dataset open up promising opportunities for future research in autonomous underwater cave exploration and mapping.
翻訳日:2024-02-26 18:08:59 公開日:2024-02-22
# 大規模言語モデルを用いたコンフォーマル時間論理計画

Conformal Temporal Logic Planning using Large Language Models ( http://arxiv.org/abs/2309.10092v3 )

ライセンス: Link先を確認
Jun Wang, Jiaming Tong, Kaiyuan Tan, Yevgeniy Vorobeychik, Yiannis Kantaros(参考訳) 本稿では,自然言語(NL)を用いて複数のハイレベルなサブタスクを遂行する移動ロボットの新しい動作計画問題に対処する。 これらのサブタスクは、時間的および論理的な順序で達成されるべきである。 これらのNLに基づくサブタスクをモデル化する原子述語上で定義された線形時間論理(LTL)を利用する。 これは、所望の低レベルシステム構成をキャプチャするアトミック述語よりもLTLタスクを定義する関連する計画手法とは対照的である。 我々の目標は、NLに基づく原子命題上で定義されたLTLタスクを満たすロボット計画を設計することである。 この設定で生じる新しい技術的課題は、そのようなltlエンコードされたタスクに関してロボット計画の正確性に関する推論である。 この問題に対処するため,我々は階層型共形自然言語プランナーであるheraclesを提案する。 (i)nl特定サブタスクを次に達成すべきものを決定するためのオートマトン理論 (二)これらのサブタスクを満たすロボット計画を設計するための大型言語モデル (iii)設計計画の正確性について確率論的に推論し、外部支援が必要かどうかを判断するための共形予測 我々は,モバイル操作タスクに関する広範な比較実験と同様に,理論的確率的ミッション満足度保証を提供する。

This paper addresses a new motion planning problem for mobile robots tasked with accomplishing multiple high-level sub-tasks, expressed using natural language (NL). These sub-tasks should be accomplished in a temporal and logical order. To formally define the overarching mission, we leverage Linear Temporal Logic (LTL) defined over atomic predicates modeling these NL-based sub-tasks. This is in contrast to related planning approaches that define LTL tasks over atomic predicates capturing desired low-level system configurations. Our goal is to design robot plans that satisfy LTL tasks defined over NL-based atomic propositions. A novel technical challenge arising in this setup lies in reasoning about correctness of a robot plan with respect to such LTL-encoded tasks. To address this problem, we propose HERACLEs, a hierarchical conformal natural language planner, that relies on (i) automata theory to determine what NL-specified sub-tasks should be accomplished next to make mission progress; (ii) Large Language Models to design robot plans satisfying these sub-tasks; and (iii) conformal prediction to reason probabilistically about correctness of the designed plans and to determine if external assistance is required. We provide theoretical probabilistic mission satisfaction guarantees as well as extensive comparative experiments on mobile manipulation tasks.
翻訳日:2024-02-26 18:08:38 公開日:2024-02-22
# ChatGPTのユーザは誰か? Web追跡データからのデジタル分割の意義

Who are the users of ChatGPT? Implications for the digital divide from web tracking data ( http://arxiv.org/abs/2309.02142v2 )

ライセンス: Link先を確認
Celina Kacperski, Roberto Ulloa, Denis Bonnay, Juhi Kulshrestha, Peter Selb, Andreas Spitz(参考訳) 我々の時代の大きな課題は、デジタル技術へのアクセスと効果的な利用における格差を減らすことであり、近年の議論は、デジタルディビジョンの悪化におけるAIの役割を強調している。 本稿では,AIを利用した会話エージェントChatGPTのユーザ特性について検討する。 n=1068ドイツ人市民の行動(web追跡)と調査データを組み合わせて、サービス開始から8ヶ月の期間を包含するweb追跡サンプルにおけるchatgpt活動(使用状況、訪問時間、継続時間)の差異を調査した。 技術受容モデル(UTAUT-2)を用いて,デジタルディビジョンに共通する社会デミノグラフィーを考察し,ラッソ回帰における安定性の選択を通じて認識される社会-政治的属性について検討する。 年齢や高等教育はChatGPTの使用に影響を及ぼすが、性別や収入には影響しない。 フルタイムの雇用と、より多くの子どもがChatGPT活動の障壁になる。 農村住宅、書記、ソーシャルメディア活動、さらに多くの政治知識はChatGPT活動と肯定的に関連していた。 本研究は,研究成果の意義,勧告,倫理的・社会的問題を提示し,デジタル格差に対処し,人口のデジタルリテラシーを促進する取り組みについて報告する。

A major challenge of our time is reducing disparities in access to and effective use of digital technologies, with recent discussions highlighting the role of AI in exacerbating the digital divide. We examine user characteristics that predict usage of the AI-powered conversational agent ChatGPT. We combine behavioral (web tracking) and survey data of N=1068 German citizens to investigate differences in ChatGPT activity (usage, visits and duration) in a web tracked sample encompassing a period that covered 8 months from the launch of the service. Guided by a model of technology acceptance (UTAUT-2), we examine socio-demographics commonly associated with the digital divide and explore further socio-political attributes identified via stability selection in Lasso regressions. We confirm lower age and higher education to affect ChatGPT usage, but not gender and income. We find full-time employment and more children to be barriers to ChatGPT activity. Rural residence, writing and social media activities, as well as more political knowledge were positively associated with ChatGPT activity. Our research informs efforts to address digital disparities and promote digital literacy among underserved populations by presenting implications, recommendations and ethical and social issues of our findings.
翻訳日:2024-02-26 18:07:10 公開日:2024-02-22
# ParaGuide: プラグアンドプレイテキストスタイル転送のためのガイド付き拡散パラフレーズ

ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style Transfer ( http://arxiv.org/abs/2308.15459v3 )

ライセンス: Link先を確認
Zachary Horvitz, Ajay Patel, Chris Callison-Burch, Zhou Yu, Kathleen McKeown(参考訳) テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。 ターゲットの「スタイル」は、単一の属性(形式性など)から著者シップ(シェイクスピアなど)まで、様々な方法で定義することができる。 従来の教師なしスタイル転送のアプローチは、固定されたスタイルのみに対して大量のラベル付きデータに依存するか、大きな言語モデルを必要とする。 これとは対照的に,任意のスタイルに柔軟に適用可能な汎用型転送のための新しい拡散型フレームワークを提案する。 パラメータ効率のよいアプローチであるParaGuideは、パラフレーズ条件付き拡散モデルと、オフザシェルフ分類器と強力なスタイル埋め込み器の両方からの勾配に基づくガイダンスを利用して、意味情報を保持しながらテキストのスタイルを変換する。 本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。

Textual style transfer is the task of transforming stylistic properties of text while preserving meaning. Target "styles" can be defined in numerous ways, ranging from single attributes (e.g, formality) to authorship (e.g, Shakespeare). Previous unsupervised style-transfer approaches generally rely on significant amounts of labeled data for only a fixed set of styles or require large language models. In contrast, we introduce a novel diffusion-based framework for general-purpose style transfer that can be flexibly adapted to arbitrary target styles at inference time. Our parameter-efficient approach, ParaGuide, leverages paraphrase-conditioned diffusion models alongside gradient-based guidance from both off-the-shelf classifiers and strong existing style embedders to transform the style of text while preserving semantic information. We validate the method on the Enron Email Corpus, with both human and automatic evaluations, and find that it outperforms strong baselines on formality, sentiment, and even authorship style transfer.
翻訳日:2024-02-26 18:06:19 公開日:2024-02-22
# EpiK-Eval: てんかんモデルとしての言語モデルの評価

EpiK-Eval: Evaluation for Language Models as Epistemic Models ( http://arxiv.org/abs/2310.15372v2 )

ライセンス: Link先を確認
Gabriele Prato, Jerry Huang, Prasannna Parthasarathi, Shagun Sodhani, Sarath Chandar(参考訳) 人工知能の時代、大規模言語モデル(LLM)の役割はますます中心となってきています。 その普及にもかかわらず、異なるトレーニングドキュメントから知識を集約する能力は、多くのアプリケーションにおいて重要な能力である。 本稿では,LLMがパラメータ空間内で効果的に情報を組み合わせる能力について検討する。 セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。 様々なLSMに対する評価は、この領域において重大な弱点を示す。 これらの欠点は、一般的な訓練目的の本質的な性質に起因していると主張する。 その結果,知識統合へのアプローチの洗練を提唱し,その全体的な効果と性能を劇的に向上させる可能性を秘めている。 本研究は, より堅牢で信頼性の高いLCMを開発するための知見を提供する。 私たちのコードとベンチマークはhttps://github.com/chandar-lab/epik-evalで利用可能です。

In the age of artificial intelligence, the role of large language models (LLMs) is becoming increasingly central. Despite their growing prevalence, their capacity to consolidate knowledge from different training documents - a crucial ability in numerous applications - remains unexplored. This paper presents the first study examining the capability of LLMs to effectively combine such information within their parameter space. We introduce EpiK-Eval, a novel question-answering benchmark tailored to evaluate LLMs' proficiency in formulating a coherent and consistent knowledge representation from segmented narratives. Evaluations across various LLMs reveal significant weaknesses in this domain. We contend that these shortcomings stem from the intrinsic nature of prevailing training objectives. Consequently, we advocate for refining the approach towards knowledge consolidation, as it harbors the potential to dramatically improve their overall effectiveness and performance. The findings from this study offer insights for developing more robust and reliable LLMs. Our code and benchmark are available at https://github.com/chandar-lab/EpiK-Eval
翻訳日:2024-02-26 18:00:07 公開日:2024-02-22
# 微調整言語モデルにおける記憶の探索

Exploring Memorization in Fine-tuned Language Models ( http://arxiv.org/abs/2310.06714v2 )

ライセンス: Link先を確認
Shenglai Zeng, Yaxin Li, Jie Ren, Yiding Liu, Han Xu, Pengfei He, Yue Xing, Shuaiqiang Wang, Jiliang Tang, Dawei Yin(参考訳) 大規模言語モデル(llm)は様々なタスクにおいて優れた能力を発揮してきましたが、トレーニングデータの記憶力も示しています。 先行研究は事前学習中の記憶について研究してきたが、微調整時の記憶の探索は限られている。 事前トレーニングと比較すると、微調整は一般的により敏感なデータと多様な目的を伴うため、異なるプライバシーリスクとユニークな記憶行動をもたらす可能性がある。 本稿では,タスク間の微調整中に言語モデル(lms)の記憶を探索する最初の包括的解析を行う。 オープンソースによる研究と,様々なタスクにまたがる微調整lmsの研究から,微調整タスク間では記憶力の差が強いことが判明した。 本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。

Large language models (LLMs) have shown great capabilities in various tasks but also exhibited memorization of training data, raising tremendous privacy and copyright concerns. While prior works have studied memorization during pre-training, the exploration of memorization during fine-tuning is rather limited. Compared to pre-training, fine-tuning typically involves more sensitive data and diverse objectives, thus may bring distinct privacy risks and unique memorization behaviors. In this work, we conduct the first comprehensive analysis to explore language models' (LMs) memorization during fine-tuning across tasks. Our studies with open-sourced and our own fine-tuned LMs across various tasks indicate that memorization presents a strong disparity among different fine-tuning tasks. We provide an intuitive explanation of this task disparity via sparse coding theory and unveil a strong correlation between memorization and attention score distribution.
翻訳日:2024-02-26 17:57:53 公開日:2024-02-22
# H.264を用いた時間的深度検出の効率化 動きベクトル

Efficient Temporally-Aware DeepFake Detection using H.264 Motion Vectors ( http://arxiv.org/abs/2311.10788v2 )

ライセンス: Link先を確認
Peter Gr\"onquist, Yufan Ren, Qingyi He, Alessio Verardo, Sabine S\"usstrunk(参考訳) Video DeepFakesはDeep Learning(DL)で作成された偽のメディアで、人の表情やアイデンティティを操作する。 現在のDeepFake検出手法のほとんどは、フレーム間の不整合や不自然な動きを無視して、各フレームを独立して解析する。 より新しい手法では、この時間的側面を捉えるために光フローモデルを用いるが、計算的に高価である。 対照的に,H.264ビデオコーデックの動作ベクトル(MV)と情報マスク(IM)を用いて,DeepFakeの時間的不整合を検出することを提案する。 実験の結果,本手法は実効性が高く,計算コストが最小であることがわかった。 これは、ビデオ通話とストリーミングのための、時間的に認識された新しいDeepFake検出方法につながる可能性がある。

Video DeepFakes are fake media created with Deep Learning (DL) that manipulate a person's expression or identity. Most current DeepFake detection methods analyze each frame independently, ignoring inconsistencies and unnatural movements between frames. Some newer methods employ optical flow models to capture this temporal aspect, but they are computationally expensive. In contrast, we propose using the related but often ignored Motion Vectors (MVs) and Information Masks (IMs) from the H.264 video codec, to detect temporal inconsistencies in DeepFakes. Our experiments show that this approach is effective and has minimal computational costs, compared with per-frame RGB-only methods. This could lead to new, real-time temporally-aware DeepFake detection methods for video calls and streaming.
翻訳日:2024-02-26 17:49:31 公開日:2024-02-22
# 乱れた分極線におけるコヒーレント過渡励起子輸送

Coherent transient exciton transport in disordered polaritonic wires ( http://arxiv.org/abs/2311.07940v2 )

ライセンス: Link先を確認
Gustavo J. R. Aroeira, Kyle T. Kairys, Raphael F. Ribeiro(参考訳) 励起エネルギー輸送は強い光-物質相互作用によって著しく増強される。 本研究では,損失のない無秩序ポラリトニックワイヤ上のコヒーレント過渡励起子波パケットダイナミクスの興味深い特徴について検討する。 本研究の主な成果は, 偏光子分散から得られる新しい量である有効励起子群速度の観点で理解することができる。 弱弱中性障害では,初期波束拡散速度は初期励起子運動量分布と有効群速度の重なりによって制御されることがわかった。 逆に、障害が強くなると、初期状態はほぼ無関係であり、赤方偏移キャビティは運動量が大きいエクシトンをサポートする。 本研究は,超高速コヒーレント励起子輸送を無秩序度とポラリトン分散度に基づいて最適化するための指針を提供する。 提案された視点は、エキシトンエネルギー輸送を増強するための新しい極性プラットフォームを理解し設計するのに有用かもしれない。

Excitation energy transport can be significantly enhanced by strong light-matter interactions. In the present work, we explore intriguing features of coherent transient exciton wave packet dynamics on a lossless disordered polaritonic wire. Our main results can be understood in terms of the effective exciton group velocity, a new quantity we obtain from the polariton dispersion. Under weak and moderate disorder, we find that the early wave packet spread velocity is controlled by the overlap of the initial exciton momentum distribution and its effective group velocity. Conversely, when disorder is stronger, the initial state is nearly irrelevant, and red-shifted cavities support excitons with greater mobility. Our findings provide guiding principles for optimizing ultrafast coherent exciton transport based on the magnitude of disorder and the polariton dispersion. The presented perspectives may be valuable for understanding and designing new polaritonic platforms for enhanced exciton energy transport.
翻訳日:2024-02-26 17:48:25 公開日:2024-02-22
# SplitKによるW4A16量子推論のためのトリトン融合カーネルの高速化

Accelerating a Triton Fused Kernel for W4A16 Quantized Inference with SplitK work decomposition ( http://arxiv.org/abs/2402.00025v2 )

ライセンス: Link先を確認
Adnan Hoque, Less Wright, Chih-Chieh Yang, Mudhakar Srivatsa, Raghu Ganti(参考訳) 本稿では,w4a16量子化推論のための効率的な融合行列乗算カーネルの実装を提案する。 本実装は基礎モデル推論ワークロードに見られるスキニー行列-行列乗算のタイプの改善を示す。 特に,スキンの活性化行列と正方形重み行列の行列乗算のタイプについて検討する。 その結果,A100では平均65%の速度向上,H100では平均124%の速度改善(ピークは295%)が得られた。

We propose an implementation of an efficient fused matrix multiplication kernel for W4A16 quantized inference, where we perform dequantization and GEMM in a fused kernel using a SplitK work decomposition. Our implementation shows improvement for the type of skinny matrix-matrix multiplications found in foundation model inference workloads. In particular, this paper surveys the type of matrix multiplication between a skinny activation matrix and a square weight matrix. Our results show an average of 65% speed improvement on A100, and an average of 124% speed improvement on H100 (with a peak of 295%) for a range of matrix dimensions including those found in a llama-style model, where m < n = k.
翻訳日:2024-02-26 17:31:09 公開日:2024-02-22
# 量子チェーク

Quantum Cheques ( http://arxiv.org/abs/2401.16116v3 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 公に検証可能な量子マネーは、量子暗号において中心的かつ挑戦的な目標である。 今日まで、標準的な仮定に基づく構成は存在しない。 本研究では、より達成可能で技術的に実現可能なQC(quantum cheques)という代替概念を提案する。 量子チェークは公開鍵を使用して検証できるが、単一のユーザによってのみ検証できる。 具体的には、支払い者は、そのIDを使用して特定の受信者の量子チェークに署名し、受信者は銀行の助けなしにそれを検証でき、支払い者は別のIDを持つ別のユーザに同じチェークを割り当てることができない。 量子マネーとは違って、QCは銀行によって発行されたチークがすべて古典的である場合にのみ量子通信を必要とする。 本稿では,LWE(Learning-with-errors)の仮定に基づいてQCを構築する方法を示す。 このプロセスでは、独立した関心を持つ2つの新しいプリミティブを構築します。 まず、LWEの下で公に検証可能な削除が可能なシグネチャを構築する。 このプリミティブは、メッセージ$m$の署名を可能にするので、受信者は、$m$の署名を再現できないことを公に証明する古典的な文字列を生成できる。 次に,このプリミティブを用いて2メッセージ署名トークンを構築する方法を示す。 このプリミティブは、単一ビットに署名し、自己分解するために使用できるトークンの生成を可能にする。 最後に、2メッセージのシグネチャトークンをqcsの構築に使用できることを示す。

Publicly-verifiable quantum money has been a central and challenging goal in quantum cryptography. To this day, no constructions exist based on standard assumptions. In this study, we propose an alternative notion called quantum cheques (QCs) that is more attainable and technologically feasible. A quantum cheque can be verified using a public-key but only by a single user. Specifically, the payer signs the quantum cheque for a particular recipient using their ID, and the recipient can validate it without the assistance of the bank, ensuring that the payer cannot assign the same cheque to another user with a different ID. Unlike quantum money, QCs only necessitate quantum communication when a cheque is issued by the bank, meaning all payments and deposits are entirely classical! We demonstrate how to construct QCs based on the well-studied learning-with-errors (LWE) assumption. In the process, we build two novel primitives which are of independent interest. Firstly, we construct signatures with publicly-verifiable deletion under LWE. This primitive enables the signing of a message $m$ such that the recipient can produce a classical string that publicly proves the inability to reproduce a signature of $m$. We then demonstrate how this primitive can be used to construct 2-message signature tokens. This primitive enables the production of a token that can be used to sign a single bit and then self-destructs. Finally, we show that 2-message signature tokens can be used to construct QCs.
翻訳日:2024-02-26 17:29:58 公開日:2024-02-22
# ViSAGe:テキスト・画像生成における視覚ステレオタイプの分析

ViSAGe: A Global-Scale Analysis of Visual Stereotypes in Text-to-Image Generation ( http://arxiv.org/abs/2401.06310v2 )

ライセンス: Link先を確認
Akshita Jha, Vinodkumar Prabhakaran, Remi Denton, Sarah Laszlo, Shachi Dave, Rida Qadri, Chandan K. Reddy, Sunipa Dev(参考訳) 近年の研究では、テキスト・ツー・イメージ(t2i)モデル世代が現実世界に存在する社会的ステレオタイプを反映できることが示されている。 しかし、既存のステレオタイプ評価手法では、グローバルアイデンティティグループとその関連ステレオタイプをカバーできないことが顕著である。 このギャップに対処するため,我々は135の国籍を対象に,t2iモデルにおける既知の国籍に基づくステレオタイプの評価を可能にするvisageデータセットを導入する。 本研究では,「sombrero」のような視覚的表現の可能性が高いステレオタイプと,視覚的にあまり具体的でない「attractive」とを区別することにより,既存のテクスト的ステレオタイプ資源を充実させる。 T2I世代を多面的に評価することで,ViSAGeの有用性を実証する。 第1に,ViSAGeのステレオタイプ特性は,他の属性と比較して,対応するアイデンティティの生成画像に存在する可能性が低く,アフリカ,南アメリカ,東南アジアのアイデンティティに対して,これらの描写の攻撃性が特に高いことを示す。 第2に,ViSAGeにおけるすべてのアイデンティティ群の「デフォルト」表現が,ステレオタイプ的描写へと向けられていること,また,このプルがグローバル・サウスのアイデンティティ・グループにとってさらに顕著であることを明らかにする。 Content WARNING: 攻撃的なステレオタイプを含むいくつかの例。

Recent studies have shown that Text-to-Image (T2I) model generations can reflect social stereotypes present in the real world. However, existing approaches for evaluating stereotypes have a noticeable lack of coverage of global identity groups and their associated stereotypes. To address this gap, we introduce the ViSAGe (Visual Stereotypes Around the Globe) dataset to enable the evaluation of known nationality-based stereotypes in T2I models, across 135 nationalities. We enrich an existing textual stereotype resource by distinguishing between stereotypical associations that are more likely to have visual depictions, such as `sombrero', from those that are less visually concrete, such as 'attractive'. We demonstrate ViSAGe's utility through a multi-faceted evaluation of T2I generations. First, we show that stereotypical attributes in ViSAGe are thrice as likely to be present in generated images of corresponding identities as compared to other attributes, and that the offensiveness of these depictions is especially higher for identities from Africa, South America, and South East Asia. Second, we assess the stereotypical pull of visual depictions of identity groups, which reveals how the 'default' representations of all identity groups in ViSAGe have a pull towards stereotypical depictions, and that this pull is even more prominent for identity groups from the Global South. CONTENT WARNING: Some examples contain offensive stereotypes.
翻訳日:2024-02-26 17:26:57 公開日:2024-02-22
# 画像間翻訳における深部生成モデルの改善

Improving Deep Generative Models on Many-To-One Image-to-Image Translation ( http://arxiv.org/abs/2402.12531v2 )

ライセンス: Link先を確認
Sagar Saxena, Mohammad Nayeem Teli(参考訳) 画像から画像への翻訳における複数の応用に深層生成モデルが応用されている。 生成的逆ネットワークと拡散モデルが印象的な結果を示し、これらのタスクに新たな最先端の結果を設定した。 ほとんどのメソッドはデータセット内の異なるドメインに対称的な設定を持つ。 これらの手法は、すべての領域が複数のモダリティまたは1つのモダリティを持つと仮定する。 しかし、2つのドメイン間で多対一の関係を持つデータセットは数多く存在する。 本研究では、まず、色付きMNISTデータセットとカラーリコールスコアを導入し、多対一翻訳モデル評価のための簡単なベンチマークを提供する。 次に,多対一画像翻訳における既存の深層生成モデルを改善するための新しい非対称フレームワークを提案する。 我々はこのフレームワークをStarGAN V2に適用し、教師なしと半教師なしの両方の設定において、この新モデルの性能が多対一のイメージ変換を改善することを示す。

Deep generative models have been applied to multiple applications in image-to-image translation. Generative Adversarial Networks and Diffusion Models have presented impressive results, setting new state-of-the-art results on these tasks. Most methods have symmetric setups across the different domains in a dataset. These methods assume that all domains have either multiple modalities or only one modality. However, there are many datasets that have a many-to-one relationship between two domains. In this work, we first introduce a Colorized MNIST dataset and a Color-Recall score that can provide a simple benchmark for evaluating models on many-to-one translation. We then introduce a new asymmetric framework to improve existing deep generative models on many-to-one image-to-image translation. We apply this framework to StarGAN V2 and show that in both unsupervised and semi-supervised settings, the performance of this new model improves on many-to-one image-to-image translation.
翻訳日:2024-02-26 17:09:54 公開日:2024-02-22
# 大規模言語モデルがイデオロギー操作にどの程度影響するか

How Susceptible are Large Language Models to Ideological Manipulation? ( http://arxiv.org/abs/2402.11725v2 )

ライセンス: Link先を確認
Kai Chen, Zihao He, Jun Yan, Taiwei Shi, Kristina Lerman(参考訳) 大規模言語モデル(LLM)は、大衆の認識や情報との相互作用に大きな影響を与える可能性がある。 これは、これらのモデル内のイデオロギーを容易に操作できる場合に生じる社会的な影響に関する懸念を引き起こす。 本研究では,llmがいかに効果的にイデオロギーバイアスを学習し,一般化できるかを検討する。 少量のイデオロギー駆動サンプルへの曝露は,LSMのイデオロギーを著しく変化させる。 特に、LLMは、あるトピックからイデオロギーを吸収し、それとは無関係なトピックに一般化する能力を示す。 LLMのイデオロギーが歪められることの容易さは、悪意あるアクターによる故意に有害なトレーニングデータや、データアノテータによる不注意に導入されたバイアスに関連するリスクを浮き彫りにする。 また、llmに対するイデオロギー操作の影響を軽減するための堅牢なセーフガードの必要性も強調している。

Large Language Models (LLMs) possess the potential to exert substantial influence on public perceptions and interactions with information. This raises concerns about the societal impact that could arise if the ideologies within these models can be easily manipulated. In this work, we investigate how effectively LLMs can learn and generalize ideological biases from their instruction-tuning data. Our findings reveal a concerning vulnerability: exposure to only a small amount of ideologically driven samples significantly alters the ideology of LLMs. Notably, LLMs demonstrate a startling ability to absorb ideology from one topic and generalize it to even unrelated ones. The ease with which LLMs' ideologies can be skewed underscores the risks associated with intentionally poisoned training data by malicious actors or inadvertently introduced biases by data annotators. It also emphasizes the imperative for robust safeguards to mitigate the influence of ideological manipulations on LLMs.
翻訳日:2024-02-26 17:09:20 公開日:2024-02-22
# ヒューマンエージェントのアライメント向上に向けて: LLMアプリケーションにおけるタスクユーティリティの評価

Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications ( http://arxiv.org/abs/2402.09015v3 )

ライセンス: Link先を確認
Negar Arabzadeh and Julia Kiseleva and Qingyun Wu and Chi Wang and Ahmed Awadallah and Victor Dibia and Adam Fourney and Charles Clarke(参考訳) 大規模言語モデル(llm)の分野における急速な発展は、人間の日常業務を支援する複数のエージェント間のコラボレーションを促進するアプリケーションの増加につながった。 しかし、LCMを利用したアプリケーションが実際にユーザエクスペリエンスとタスク実行効率を向上させるかどうかを評価する上で、大きなギャップが残っている。 このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションの有用性を検証する方法の必要性を強調している。 agentevalは、任意のアプリケーションのユニークな目的に合わせた一連の基準を自動的に提案することにより、ユーティリティ検証プロセスを単純化するために設計された、新しいフレームワークである。 これにより、提案された基準に対してアプリケーションの実用性を定量化する包括的な評価が可能になる。 本稿では,量子化器の研究のロバスト性に関する包括的分析を行う。

The rapid development in the field of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents to assist humans in their daily tasks. However, a significant gap remains in assessing whether LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the pressing need for methods to verify utility of LLM-powered applications, particularly by ensuring alignment between the application's functionality and end-user needs. We introduce AgentEval provides an implementation for the math problems, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the robustness of quantifier's work.
翻訳日:2024-02-26 17:07:15 公開日:2024-02-22
# サイド情報付きスタックルバーグゲームにおけるレグレト最小化

Regret Minimization in Stackelberg Games with Side Information ( http://arxiv.org/abs/2402.08576v2 )

ライセンス: Link先を確認
Keegan Harris, Zhiwei Steven Wu, Maria-Florina Balcan(参考訳) 最も基本的な形式では、スタックルバーグゲームは、リーダーが(混合された)戦略にコミットし、追随者が最善を尽くす2人プレイヤゲームである。 Stackelbergゲームは、おそらく過去10年間でアルゴリズムゲーム理論の最大の成功例の1つであり、Stackelbergゲームでプレイするアルゴリズムは、空港のセキュリティ、反ポーチ活動、サイバー犯罪防止など、多くの現実世界の領域に展開されている。 しかしながら、これらのアルゴリズムは、それぞれのプレイヤーに利用可能な追加情報(例えば、交通パターン、気象条件、ネットワークの混雑など)を考慮するのに失敗することが多い。 両プレーヤーがプレー前に外部コンテキストを観察する,サイド情報付きStackelbergゲームのような設定を形式化する。 リーダーは(おそらくコンテキスト依存の)戦略にコミットし、従者はリーダーの戦略とコンテキストの両方に最善の責任を負う。 我々は、時間とともにフォロワーのシーケンスが到着するオンライン設定に注目し、状況が丸ごと変化する可能性がある。 文脈的でないバージョンとは対照的に、リーダーが完全な敵設定(つまり、文脈と従者の両方が敵によって選択された場合)において優れたパフォーマンス(後悔によって測定される)を達成することは不可能であることを示している。 しかし、多少のランダム性は長い道のりを歩むことが判明した。 その結果,2つの自然リラクゼーションでは,従者のシーケンスが確率的に選択され,文脈のシーケンスが逆行する設定と,文脈のシーケンスが確率的に選択され,従者のシーケンスが敵によって選択される設定の2つの自然リラクゼーションにおいて,リグレット学習が不可能であることが示された。

In its most basic form, a Stackelberg game is a two-player game in which a leader commits to a (mixed) strategy, and a follower best-responds. Stackelberg games are perhaps one of the biggest success stories of algorithmic game theory over the last decade, as algorithms for playing in Stackelberg games have been deployed in many real-world domains including airport security, anti-poaching efforts, and cyber-crime prevention. However, these algorithms often fail to take into consideration the additional information available to each player (e.g. traffic patterns, weather conditions, network congestion), a salient feature of reality which may significantly affect both players' optimal strategies. We formalize such settings as Stackelberg games with side information, in which both players observe an external context before playing. The leader then commits to a (possibly context-dependent) strategy, and the follower best-responds to both the leader's strategy and the context. We focus on the online setting in which a sequence of followers arrive over time, and the context may change from round-to-round. In sharp contrast to the non-contextual version, we show that it is impossible for the leader to achieve good performance (measured by regret) in the full adversarial setting (i.e., when both the context and the follower are chosen by an adversary). However, it turns out that a little bit of randomness goes a long way. Motivated by our impossibility result, we show that no-regret learning is possible in two natural relaxations: the setting in which the sequence of followers is chosen stochastically and the sequence of contexts is adversarial, and the setting in which the sequence of contexts is stochastic and the sequence of followers is chosen by an adversary.
翻訳日:2024-02-26 17:06:59 公開日:2024-02-22
# マーケットインパクトによるディープヘッジ

Deep Hedging with Market Impact ( http://arxiv.org/abs/2402.13326v2 )

ライセンス: Link先を確認
Andrei Neagu and Fr\'ed\'eric Godin and Clarence Simard and Leila Kosseim(参考訳) 動的ヘッジ(dynamic hedging)とは、金融商品を定期的に取引し、投資や負債によるリスクを相殺する行為である。 動的ヘッジ最適化は逐次決定問題であり,近年,この課題に対処するための強化学習(RL)モデルが提案されている。 しかし、既存のヘッジ用RLは、取引された機器の有限流動性に起因する市場への影響を考慮していない。 このような機能を統合することは、流動性の制限された株式のオプションをヘッジするときに最適な性能を達成するのに不可欠である。 本稿では,コンベックス市場の影響や時間的持続性など,いくつかの現実的な特徴を考察した,Deep Reinforcement Learning(DRL)に基づく新しい市場インパクト動的ヘッジモデルを提案する。 DRLモデルから得られた最適ポリシーは、いくつかのオプションヘッジシミュレーションを用いて分析され、デルタヘッジのような一般的な手順と比較される。 その結果、DRLモデルは流動性の低い文脈でより良く振る舞うことがわかった。 1)高コストを回避するため、ポートフォリオ再バランス行動の緩和又は遅延の程度を学習すること。 2)従来のアプローチでは考慮されていない機能の影響の要因として,ポートフォリオ価値を通じた以前のエラーのヘッジや,基盤となる資産のドリフト(すなわち期待値の大きさ)が挙げられる。

Dynamic hedging is the practice of periodically transacting financial instruments to offset the risk caused by an investment or a liability. Dynamic hedging optimization can be framed as a sequential decision problem; thus, Reinforcement Learning (RL) models were recently proposed to tackle this task. However, existing RL works for hedging do not consider market impact caused by the finite liquidity of traded instruments. Integrating such feature can be crucial to achieve optimal performance when hedging options on stocks with limited liquidity. In this paper, we propose a novel general market impact dynamic hedging model based on Deep Reinforcement Learning (DRL) that considers several realistic features such as convex market impacts, and impact persistence through time. The optimal policy obtained from the DRL model is analysed using several option hedging simulations and compared to commonly used procedures such as delta hedging. Results show our DRL model behaves better in contexts of low liquidity by, among others: 1) learning the extent to which portfolio rebalancing actions should be dampened or delayed to avoid high costs, 2) factoring in the impact of features not considered by conventional approaches, such as previous hedging errors through the portfolio value, and the underlying asset's drift (i.e. the magnitude of its expected return).
翻訳日:2024-02-26 16:59:09 公開日:2024-02-22
# MLSTL-WSN:WSNにおけるSMOTETomekを用いた機械学習による侵入検出

MLSTL-WSN: Machine Learning-based Intrusion Detection using SMOTETomek in WSNs ( http://arxiv.org/abs/2402.13277v2 )

ライセンス: Link先を確認
Md. Alamin Talukder, Selina Sharmin, Md Ashraf Uddin, Md Manowarul Islam and Sunil Aryal(参考訳) 無線センサネットワーク(WSN)は、静止センサーと移動センサの両方を含むインフラとして重要な役割を担っている。 これらのセンサーは、通信、集合的センシング、収集、処理、周囲のデータ送信のためのマルチホップ接続を自己組織化し確立する。 その重要性にもかかわらず、wsnsは機能を破壊しうる迅速かつ有害な攻撃に直面している。 既存のWSNの侵入検知方法は、低検出率、計算オーバーヘッド、誤警報などの問題に遭遇する。 これらの問題は、センサノードのリソース制約、データ冗長性、ネットワーク内の高い相関性に起因する。 これらの課題に対処するために、機械学習(ML)技術とSMOTE-TomekLink(SMOTE-TomekLink)アルゴリズムを統合する革新的な侵入検出手法を提案する。 このブレンドはマイノリティインスタンスを合成し、tomekリンクをなくし、wsnの検出精度を大幅に向上させるバランスのとれたデータセットを生成する。 さらに、標準化による機能スケーリングを取り入れて、入力機能の一貫性と拡張性を実現し、より正確なトレーニングと検出を可能にします。 不均衡なWSNデータセットに対処するため、私たちはSMOTE-Tomekリサンプリング技術を採用し、オーバーフィッティングを緩和し、未適合の問題を緩和する。 374,661レコードを含むWSNデータセット(WSN-DS)を用いて,WSNの侵入検出のための最適モデルを特定する。 私たちの研究の際立った成果は、我々のモデルの素晴らしいパフォーマンスです。 バイナリでは99.78%、マルチクラスでは99.92%という非常に高い精度を達成している。 これらの結果は,wsn侵入検出における提案の効率性と優位性を強調するものであり,wsn侵入の検出と緩和に有効であることを示す。

Wireless Sensor Networks (WSNs) play a pivotal role as infrastructures, encompassing both stationary and mobile sensors. These sensors self-organize and establish multi-hop connections for communication, collectively sensing, gathering, processing, and transmitting data about their surroundings. Despite their significance, WSNs face rapid and detrimental attacks that can disrupt functionality. Existing intrusion detection methods for WSNs encounter challenges such as low detection rates, computational overhead, and false alarms. These issues stem from sensor node resource constraints, data redundancy, and high correlation within the network. To address these challenges, we propose an innovative intrusion detection approach that integrates Machine Learning (ML) techniques with the Synthetic Minority Oversampling Technique Tomek Link (SMOTE-TomekLink) algorithm. This blend synthesizes minority instances and eliminates Tomek links, resulting in a balanced dataset that significantly enhances detection accuracy in WSNs. Additionally, we incorporate feature scaling through standardization to render input features consistent and scalable, facilitating more precise training and detection. To counteract imbalanced WSN datasets, we employ the SMOTE-Tomek resampling technique, mitigating overfitting and underfitting issues. Our comprehensive evaluation, using the WSN Dataset (WSN-DS) containing 374,661 records, identifies the optimal model for intrusion detection in WSNs. The standout outcome of our research is the remarkable performance of our model. In binary, it achieves an accuracy rate of 99.78% and in multiclass, it attains an exceptional accuracy rate of 99.92%. These findings underscore the efficiency and superiority of our proposal in the context of WSN intrusion detection, showcasing its effectiveness in detecting and mitigating intrusions in WSNs.
翻訳日:2024-02-26 16:58:11 公開日:2024-02-22
# 署名を用いた電波天文学データの新規検出

Novelty Detection on Radio Astronomy Data using Signatures ( http://arxiv.org/abs/2402.14892v1 )

ライセンス: Link先を確認
Paola Arrubarrena, Maud Lemercier, Bojan Nikolic, Terry Lyons, Thomas Cass(参考訳) ストリームデータ中の異常を検出するための,新たな半教師付きフレームワークであるsignovaを紹介する。 我々の初期の例では、電波天文学の分野におけるデジタル信号における電波干渉(RFI)の検出に焦点が当てられているが、SigNovaの適用性はどんな種類のストリームデータにも及んでいることに注意する必要がある。 フレームワークは3つの主要コンポーネントから構成される。 まず,シグネチャ変換を用いて観測列から要約統計の正準集合を抽出する。 これにより、可変長の可視性サンプルを有限次元特徴ベクトルとして表現できる。 第2に、各特徴ベクトルは、RFIフリートレーニングセットにおいて、マハラノビスから隣人への距離として計算された新規度スコアを割り当てる。 これらのスコアをしきい値にすることで、rfiフリーな可視性サンプルの期待行動から逸脱する観測範囲を、厳密な分布仮定に頼らずに特定する。 第3に、この異常検出器をセグメント化アルゴリズムであるPysegmentsと統合し、もしあればRFIで汚染された連続的な観測を局所化する。 このアプローチは、RFI検出に一般的に使用される古典的なウィンドウ技術に代わる魅力的な代替手段を提供する。 重要なことに、我々のアルゴリズムの複雑さは観測窓のサイズよりもRFIパターンに依存している。 我々は、SigNovaが時間周波数可視データにおいて、様々な種類のRFI(例えばブロードバンドと狭帯域)の検出をいかに改善するかを示す。 我々はMurchison Widefield Array (MWA) 望遠鏡とシミュレーションデータとHydrogen Epoch of Reionization Array (HERA) の枠組みを検証する。

We introduce SigNova, a new semi-supervised framework for detecting anomalies in streamed data. While our initial examples focus on detecting radio-frequency interference (RFI) in digitized signals within the field of radio astronomy, it is important to note that SigNova's applicability extends to any type of streamed data. The framework comprises three primary components. Firstly, we use the signature transform to extract a canonical collection of summary statistics from observational sequences. This allows us to represent variable-length visibility samples as finite-dimensional feature vectors. Secondly, each feature vector is assigned a novelty score, calculated as the Mahalanobis distance to its nearest neighbor in an RFI-free training set. By thresholding these scores we identify observation ranges that deviate from the expected behavior of RFI-free visibility samples without relying on stringent distributional assumptions. Thirdly, we integrate this anomaly detector with Pysegments, a segmentation algorithm, to localize consecutive observations contaminated with RFI, if any. This approach provides a compelling alternative to classical windowing techniques commonly used for RFI detection. Importantly, the complexity of our algorithm depends on the RFI pattern rather than on the size of the observation window. We demonstrate how SigNova improves the detection of various types of RFI (e.g., broadband and narrowband) in time-frequency visibility data. We validate our framework on the Murchison Widefield Array (MWA) telescope and simulated data and the Hydrogen Epoch of Reionization Array (HERA).
翻訳日:2024-02-26 16:53:43 公開日:2024-02-22
# LLMBind: 統一されたModality-Task統合フレームワーク

LLMBind: A Unified Modality-Task Integration Framework ( http://arxiv.org/abs/2402.14891v1 )

ライセンス: Link先を確認
Bin Zhu, Peng Jin, Munan Ning, Bin Lin, Jinfa Huang, Qi Song, Mingjun Pan, Li Yuan(参考訳) マルチモーダルな大規模言語モデルの最近の進歩は様々なモダリティタスクに取り組む一方で、複雑なマルチモーダリティタスクの統合能力が制限され、その結果、フィールドの開発が制限される。 本研究では,大規模言語モデルとそれに対応するタスクモデルとをタスク固有のトークンで結合する,モダリティタスク統合のための統一フレームワークllmbindの検討と提案を行う。 その結果、llmbindは入力を解釈し、画像、テキスト、ビデオ、オーディオの多彩な組み合わせで出力を生成することができる。 具体的には,多様な専門家のコラボレーションを通じて,多様なマルチモーダルタスクを効果的に学習するためのMixture-of-Experts手法を提案する。 さらに,400k命令データからなるマルチタスクデータセットを作成し,インタラクティブなビジュアル生成と編集の機能を開放する。 広範な実験により,画像,映像,音声生成,画像分割,画像編集など,さまざまなタスクにおけるフレームワークの有効性が示された。 より奨励的に、我々のフレームワークは他のモダリティタスクにも容易に拡張でき、普遍的なモダリティをモデル化するための統合AIエージェントを作成する可能性を示している。

While recent progress in multimodal large language models tackles various modality tasks, they posses limited integration capabilities for complex multi-modality tasks, consequently constraining the development of the field. In this work, we take the initiative to explore and propose the LLMBind, a unified framework for modality task integration, which binds Large Language Models and corresponding pre-trained task models with task-specific tokens. Consequently, LLMBind can interpret inputs and produce outputs in versatile combinations of image, text, video, and audio. Specifically, we introduce a Mixture-of-Experts technique to enable effective learning for different multimodal tasks through collaboration among diverse experts. Furthermore, we create a multi-task dataset comprising 400k instruction data, which unlocks the ability for interactive visual generation and editing tasks. Extensive experiments show the effectiveness of our framework across various tasks, including image, video, audio generation, image segmentation, and image editing. More encouragingly, our framework can be easily extended to other modality tasks, showcasing the promising potential of creating a unified AI agent for modeling universal modalities.
翻訳日:2024-02-26 16:53:19 公開日:2024-02-22
# Vygotsky距離:ベンチマークタスクの類似性の測定

Vygotsky Distance: Measure for Benchmark Task Similarity ( http://arxiv.org/abs/2402.14890v1 )

ライセンス: Link先を確認
Maxim K. Surkov and Ivan P. Yamshchikov(参考訳) 評価は現代自然言語処理において重要な役割を果たす。 現代のNLPベンチマークは、テストセット外に適用されたモデルに対する一般化ポテンシャルを保証せず、モデル評価に必要なリソース消費を最小化しようとする任意のタスクセットで構成されている。 本稿では,この類似度尺度をヴィゴツキー距離と呼ぶ,ベンチマークタスク間の類似度を計算するための理論的手法と実用的なアルゴリズムを提案する。 この類似性尺度の核となる考え方は、与えられたタスク上の「学生」の相対的なパフォーマンスに基づいており、タスク自体の性質に基づいていることである。 2つのタスクがビゴツキー距離の点で互いに近い場合、モデルに類似した相対的性能を持つ傾向にある。 したがって、タスク間のVygotsky距離を知ることで、高い検証品質を維持しながら、評価タスクの数を著しく削減することができる。 glue, superglue, clue, russian superglueなど,さまざまなベンチマーク実験では,nlpベンチマークの大部分が含まれているタスクに関して,少なくとも40%小さくなる可能性があることが示されている。 最も重要なことに、ヴィゴツキー距離は新たなタスクの検証にも利用でき、将来のNLPモデルの一般化可能性を高めることができる。

Evaluation plays a significant role in modern natural language processing. Most modern NLP benchmarks consist of arbitrary sets of tasks that neither guarantee any generalization potential for the model once applied outside the test set nor try to minimize the resource consumption needed for model evaluation. This paper presents a theoretical instrument and a practical algorithm to calculate similarity between benchmark tasks, we call this similarity measure "Vygotsky distance". The core idea of this similarity measure is that it is based on relative performance of the "students" on a given task, rather that on the properties of the task itself. If two tasks are close to each other in terms of Vygotsky distance the models tend to have similar relative performance on them. Thus knowing Vygotsky distance between tasks one can significantly reduce the number of evaluation tasks while maintaining a high validation quality. Experiments on various benchmarks, including GLUE, SuperGLUE, CLUE, and RussianSuperGLUE, demonstrate that a vast majority of NLP benchmarks could be at least 40% smaller in terms of the tasks included. Most importantly, Vygotsky distance could also be used for the validation of new tasks thus increasing the generalization potential of the future NLP models.
翻訳日:2024-02-26 16:52:58 公開日:2024-02-22
# COBIAS:バイアス評価におけるコンテキスト信頼性

COBIAS: Contextual Reliability in Bias Assessment ( http://arxiv.org/abs/2402.14889v1 )

ライセンス: Link先を確認
Priyanshul Govil, Vamshi Krishna Bonagiri, Manas Gaur, Ponnurangam Kumaraguru, Sanorita Dey(参考訳) 大規模言語モデル(llm)は本質的に偏りのあるデータに基づいて訓練される。 デバイアスモデルに関する以前の研究は、モデルパフォーマンスを測定するためにベンチマークデータセットに依存している。 しかし、これらのデータセットはバイアスに対する極めて主観的な理解のためにいくつかの落とし穴を抱えており、文脈探索の必要性が強調されている。 本稿では,入力文が可能である多様な状況を考慮したユーザ入力のコンテキスト理解を提案する。 このアプローチは、ユーザのエンゲージメントを損なうガードレールではなく、バイアス意識を育むフレームワークを可能にする。 私たちの貢献は2つあります (i)コンテキストを追加するポイントを付加した2287のステレオタイプ文のデータセットを作成する。 2) 文脈指向バイアス指標と評価スコア(COBIAS)を開発し, バイアス測定における文の文脈的信頼性を評価する。 我々の計量はバイアスベンチマークデータセット(\chi^2=71.02, p<2.2 \cdot 10^{-16})$の文脈的信頼性の有意な予測である。 cobiasは信頼できるデータセットの作成に使用できるため、バイアス軽減作業が改善される。

Large Language Models (LLMs) are trained on inherently biased data. Previous works on debiasing models rely on benchmark datasets to measure model performance. However, these datasets suffer from several pitfalls due to the extremely subjective understanding of bias, highlighting a critical need for contextual exploration. We propose understanding the context of user inputs with consideration of the diverse situations in which input statements are possible. This approach would allow for frameworks that foster bias awareness rather than guardrails that hurt user engagement. Our contribution is twofold: (i) we create a dataset of 2287 stereotyped statements augmented with points for adding context; (ii) we develop the Context-Oriented Bias Indicator and Assessment Score (COBIAS) to assess statements' contextual reliability in measuring bias. Our metric is a significant predictor of the contextual reliability of bias-benchmark datasets ($\chi^2=71.02, p<2.2 \cdot 10^{-16})$. COBIAS can be used to create reliable datasets, resulting in an improvement in bias mitigation works.
翻訳日:2024-02-26 16:52:37 公開日:2024-02-22
# セマンティック類似性に基づくグラフ構造を用いたモデル学習のための効率的なデータ選択

Efficient data selection employing Semantic Similarity-based Graph Structures for model training ( http://arxiv.org/abs/2402.14888v1 )

ライセンス: Link先を確認
Roxana Petcu and Subhadeep Maji(参考訳) 自然言語処理(NLP)の最近の進歩は、テキスト情報を正確にキャプチャするモデルのための大量のデータの必要性を強調している。 これにより、そのようなモデルのトレーニングに必要な計算資源と時間に関する懸念が高まる。 本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を提案する。 計算量の多いモデルや他の集中的な前処理変換を通さずに、テキスト情報のみに基づいて効率的なデータサンプリング機構である。 提案手法の適用例は,拡張データを用いた場合,テキスト音声(TTS)コールに過度に依存する低リソース自動音声認識(ASR)モデルの場合である。 セサミは、意味的類似性に基づくグラフ構造と、同系の隣人からの離散的なasr情報を用いて、新たな入力データポイントを音声認識の難易度バケットに分類することを学ぶ。 その結果, 音声モデルにおけるテキスト表現の影響について非自明な情報をもたらすため, ランダム予測と比較すると, 93%の精度で予測精度が向上することがわかった。 さらに、一連の実験では、入力データにASR情報を使用してモデルを微調整する際の利点と課題が示されている。 ランダムサンプリングに比べて7%のバリデーション損失が減少し,非局所的なアグリゲーションが7%,非局所的なアグリゲーションが1.8%,局所的なアグリゲーションとデータセット間のセマンティックな類似性が1.8%であった。

Recent developments in natural language processing (NLP) have highlighted the need for substantial amounts of data for models to capture textual information accurately. This raises concerns regarding the computational resources and time required for training such models. This paper introduces Semantics for data SAliency in Model performance Estimation (SeSaME). It is an efficient data sampling mechanism solely based on textual information without passing the data through a compute-heavy model or other intensive pre-processing transformations. The application of this approach is demonstrated in the use case of low-resource automated speech recognition (ASR) models, which excessively rely on text-to-speech (TTS) calls when using augmented data. SeSaME learns to categorize new incoming data points into speech recognition difficulty buckets by employing semantic similarity-based graph structures and discrete ASR information from homophilous neighbourhoods through message passing. The results indicate reliable projections of ASR performance, with a 93% accuracy increase when using the proposed method compared to random predictions, bringing non-trivial information on the impact of textual representations in speech models. Furthermore, a series of experiments show both the benefits and challenges of using the ASR information on incoming data to fine-tune the model. We report a 7% drop in validation loss compared to random sampling, 7% WER drop with non-local aggregation when evaluating against a highly difficult dataset, and 1.8% WER drop with local aggregation and high semantic similarity between datasets.
翻訳日:2024-02-26 16:52:21 公開日:2024-02-22
# 交通光サイクル最適化への強化学習の適用

Applying Reinforcement Learning to Optimize Traffic Light Cycles ( http://arxiv.org/abs/2402.14886v1 )

ライセンス: Link先を確認
Seungah Son and Juhee Jin(参考訳) 交通光サイクルのマニュアル最適化は複雑で時間を要する作業であり、自動化されたソリューションの開発を必要とする。 本稿では,トラヒック光サイクルをリアルタイムに最適化するための強化学習の応用を提案する。 本稿では,シミュレーション都市モビリティシミュレータを用いて,深層Q-Networkアルゴリズムの学習を行う。 実験の結果,平均緊急停止回数は44.16%減少し,交通渋滞の低減と交通流改善に向けたアプローチの可能性を示した。 さらに,今後の研究の道程と強化学習モデルの強化についても論じる。

Manual optimization of traffic light cycles is a complex and time-consuming task, necessitating the development of automated solutions. In this paper, we propose the application of reinforcement learning to optimize traffic light cycles in real-time. We present a case study using the Simulation Urban Mobility simulator to train a Deep Q-Network algorithm. The experimental results showed 44.16% decrease in the average number of Emergency stops, showing the potential of our approach to reduce traffic congestion and improve traffic flow. Furthermore, we discuss avenues for future research and enhancements to the reinforcement learning model.
翻訳日:2024-02-26 16:51:56 公開日:2024-02-22
# double-i watermark:llm微調整のためのモデル著作権保護

Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning ( http://arxiv.org/abs/2402.14883v1 )

ライセンス: Link先を確認
Shen Li, Liuyi Yao, Jinyang Gao, Lan Zhang, Yaliang Li(参考訳) さまざまなアプリケーションをサポートするために、ビジネスオーナーは、LLMオーナやクラウドサーバが提供するAPIを通じて、トレーニング済みのLLMを微調整することで得られるカスタマイズされたモデルを求めることが多い。 しかし、このプロセスはモデル誤用のかなりのリスクをもたらし、ビジネスオーナーに深刻な経済的影響をもたらす可能性がある。 したがって、LLM微調整中にこれらのカスタマイズされたモデルの著作権を保護することは、緊急の現実的な要件となっているが、そのような保護を提供するための既存のソリューションは限られている。 このプレス問題に対処するため、「ダブルI透かし」という新しい透かし手法を提案する。 具体的には、インストラクションチューニングデータに基づいて、2種類のバックドアデータパラダイムを導入し、それぞれインストラクションと入力をトリガーとする。 LLMの学習機能を活用して、データセットにカスタマイズされたバックドアサンプルを組み込むことにより、細調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入することで、商業シナリオにおける透かしの注入と検証が容易になる。 提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を理論的解析および実験的検証により検証した。

To support various applications, business owners often seek the customized models that are obtained by fine-tuning a pre-trained LLM through the API provided by LLM owners or cloud servers. However, this process carries a substantial risk of model misuse, potentially resulting in severe economic consequences for business owners. Thus, safeguarding the copyright of these customized models during LLM fine-tuning has become an urgent practical requirement, but there are limited existing solutions to provide such protection. To tackle this pressing issue, we propose a novel watermarking approach named "Double-I watermark". Specifically, based on the instruct-tuning data, two types of backdoor data paradigms are introduced with trigger in the instruction and the input, respectively. By leveraging LLM's learning capability to incorporate customized backdoor samples into the dataset, the proposed approach effectively injects specific watermarking information into the customized model during fine-tuning, which makes it easy to inject and verify watermarks in commercial scenarios. We evaluate the proposed "Double-I watermark" under various fine-tuning methods, demonstrating its harmlessness, robustness, uniqueness, imperceptibility, and validity through both theoretical analysis and experimental verification.
翻訳日:2024-02-26 16:51:46 公開日:2024-02-22
# 深部生成モデルに基づく4バール結合機構と標的条件の合成

Deep Generative Model-based Synthesis of Four-bar Linkage Mechanisms with Target Conditions ( http://arxiv.org/abs/2402.14882v1 )

ライセンス: Link先を確認
Sumin Lee, Jihoon Kim, Namwoo Kang(参考訳) メカニズムは、様々な機械システムで特定のタスクを実行するように設計されている。 しかし、特定のキネマティックまたは準静的要求を満たすメカニズムを設計することは難しい課題である。 運動的な要求は機構のワークスペースを含みうるが、機構の準静的な要求にはトルク伝達が含まれ、これは力とトルクを効果的に伝達する機構の能力を意味する。 本稿では, 前述のキネマティックと準静的の両方を満たすクランクロックの4バー結合機構を複数生成する深層学習モデルを提案する。 提案モデルでは, リンク長に関するメカニズムの要件間の関係を学習するために, 機構合成に改良を加えた条件付き生成逆ネットワーク(cGAN)をベースとした。 その結果, 提案モデルでは, 特定のキネマティックおよび準定常条件を満たす複数の異なるメカニズムが得られた。 本手法の新規性を評価するため,提案したcGAN,従来のcVAEおよびNSGA-IIを用いて合成した試料の比較を行った。 我々のアプローチは従来の設計方法よりもいくつかの利点がある。 設計者は大きな設計空間を探索しながら、多種多様な実現可能な設計候補を効率的に生成することができる。 また, 提案手法は, 運動的および準静的な要求の両方を考慮し, 実世界の使用においてより効率的かつ効果的なメカニズムを導出し, リンク機構設計に有望なツールとなる。

Mechanisms are essential components designed to perform specific tasks in various mechanical systems. However, designing a mechanism that satisfies certain kinematic or quasi-static requirements is a challenging task. The kinematic requirements may include the workspace of a mechanism, while the quasi-static requirements of a mechanism may include its torque transmission, which refers to the ability of the mechanism to transfer power and torque effectively. In this paper, we propose a deep learning-based generative model for generating multiple crank-rocker four-bar linkage mechanisms that satisfy both the kinematic and quasi-static requirements aforementioned. The proposed model is based on a conditional generative adversarial network (cGAN) with modifications for mechanism synthesis, which is trained to learn the relationship between the requirements of a mechanism with respect to linkage lengths. The results demonstrate that the proposed model successfully generates multiple distinct mechanisms that satisfy specific kinematic and quasi-static requirements. To evaluate the novelty of our approach, we provide a comparison of the samples synthesized by the proposed cGAN, traditional cVAE and NSGA-II. Our approach has several advantages over traditional design methods. It enables designers to efficiently generate multiple diverse and feasible design candidates while exploring a large design space. Also, the proposed model considers both the kinematic and quasi-static requirements, which can lead to more efficient and effective mechanisms for real-world use, making it a promising tool for linkage mechanism design.
翻訳日:2024-02-26 16:51:22 公開日:2024-02-22
# Boostingがリレーショナルラーニングに全力を注ぐ

Boosting gets full Attention for Relational Learning ( http://arxiv.org/abs/2402.14926v1 )

ライセンス: Link先を確認
Mathieu Guillame-Bert and Richard Nock(参考訳) 多くの場合、ベンチマーク管理されたMLでは、表のデータはフラットである。つまり、単一の$m \times d$ (rows, columns) ファイルで構成されるが、実世界では観測が構造的な関係を持つテーブルによって記述されるケースが多い。 ニューラルネットベースのディープモデルは、記述特徴(ピクセル、単語など)に一般的なトポロジ的依存を組み込むのに適しているが、表データ上のツリーベースモデルに対するそのサブ最適性はまだ十分に文書化されている。 本稿では,(段階的)ブースティングのトレーニングコンテキストにおいて,木ベースモデルとよく融合した構造化データに対する注意機構を提案する。 各集約モデルは、トレーニングが2つのステップを含む木である。 第一に、単純な表型モデルは、テーブルの特徴の強化のクラス残余をトップダウンで学習する。 第二に、学習されたものは、注意と集約メカニズムを通じてボトムアップを遡り、単一の木が学習される観察機能セットの最後に完了した新機能を段階的に作成し、反復時計の強化と新しいクラス残差を計算します。 シミュレーションおよび実世界のドメインの実験は、木に基づくモデルとニューラルネットベースのモデルの両方を含む最先端技術に対する我々の手法の競争力を示す。

More often than not in benchmark supervised ML, tabular data is flat, i.e. consists of a single $m \times d$ (rows, columns) file, but cases abound in the real world where observations are described by a set of tables with structural relationships. Neural nets-based deep models are a classical fit to incorporate general topological dependence among description features (pixels, words, etc.), but their suboptimality to tree-based models on tabular data is still well documented. In this paper, we introduce an attention mechanism for structured data that blends well with tree-based models in the training context of (gradient) boosting. Each aggregated model is a tree whose training involves two steps: first, simple tabular models are learned descending tables in a top-down fashion with boosting's class residuals on tables' features. Second, what has been learned progresses back bottom-up via attention and aggregation mechanisms, progressively crafting new features that complete at the end the set of observation features over which a single tree is learned, boosting's iteration clock is incremented and new class residuals are computed. Experiments on simulated and real-world domains display the competitiveness of our method against a state of the art containing both tree-based and neural nets-based models.
翻訳日:2024-02-26 16:42:01 公開日:2024-02-22
# 効率的なアンビシド・スパリフィケーション

Efficient Unbiased Sparsification ( http://arxiv.org/abs/2402.14925v1 )

ライセンス: Link先を確認
Leighton Barnes, Timothy Chow, Emma Cohen, Keith Frankston, Benjamin Howard, Fred Kochman, Daniel Scheinerman, Jeffrey VanderKam(参考訳) ベクトル $p\in \mathbb{r}^n$ の偏りのない$m$-分離はランダムベクトル $q\in \mathbb{r}^n$ であり、最大 $m<n$ 非ゼロ座標を持つ平均$p$ である。 偏りのないスパーシフィケーションはバイアスを導入することなく元のベクトルを圧縮し、フェデレーション学習やサンプリングスパース確率分布のような様々な文脈で発生する。 理想的には、バイアスのないスパーシフィケーションは、元の$p$からどれだけ遠くにあるかを測定する発散関数 $\mathsf{Div}(Q,p)$ の期待値も最小化する。 この意味で$q$ が最適であるなら、それを効率的と呼ぶ。 本研究の主な成果は、置換不変あるいは加法的に分離可能な異種に対する効率的な非偏平スペーシングである。 驚くべきことに、置換不変な発散のキャラクタリゼーションは発散関数の選択にロバストであり、二乗ユークリッド距離に対する最適な q$ のクラスは、kullback-leibler発散に対して最適な q$ のクラス、あるいは実際には様々な発散のクラスと一致する。

An unbiased $m$-sparsification of a vector $p\in \mathbb{R}^n$ is a random vector $Q\in \mathbb{R}^n$ with mean $p$ that has at most $m<n$ nonzero coordinates. Unbiased sparsification compresses the original vector without introducing bias; it arises in various contexts, such as in federated learning and sampling sparse probability distributions. Ideally, unbiased sparsification should also minimize the expected value of a divergence function $\mathsf{Div}(Q,p)$ that measures how far away $Q$ is from the original $p$. If $Q$ is optimal in this sense, then we call it efficient. Our main results describe efficient unbiased sparsifications for divergences that are either permutation-invariant or additively separable. Surprisingly, the characterization for permutation-invariant divergences is robust to the choice of divergence function, in the sense that our class of optimal $Q$ for squared Euclidean distance coincides with our class of optimal $Q$ for Kullback-Leibler divergence, or indeed any of a wide variety of divergences.
翻訳日:2024-02-26 16:41:36 公開日:2024-02-22
# 事前学習モデルの知識蒸留に関する実践的考察

Practical Insights into Knowledge Distillation for Pre-Trained Models ( http://arxiv.org/abs/2402.14922v1 )

ライセンス: Link先を確認
Norah Alballa and Marco Canini(参考訳) 本研究は,知識伝達の新たな分野である事前学習モデルにおける知識蒸留(KD)プロセスの強化と,分散トレーニングやフェデレート学習環境への重要な影響について検討する。 これらの環境は、通信要求を減らし、様々なモデルアーキテクチャに適合する。 事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、これらのシナリオにおけるKDの応用に関する包括的な理解は欠如している。 本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。 我々はこれらの手法を様々なデータ分散戦略にまたがって評価し、それぞれに最も効果的なコンテキストを特定する。 大規模グリッド探索評価から得られたハイパーパラメータチューニングの詳細な検討を通じて,モデル性能向上に調整が不可欠であることを示す。 本稿では,異なるデータ分割シナリオに対して最適なハイパーパラメータ設定を行い,コミュニケーションラウンドの最小化とトレーニングプロセスの迅速化による連合学習改善におけるkdの役割について考察する。 現在の研究で顕著な空白を埋めることによって、我々の研究は、協調的および連合的な学習フレームワーク内で事前学習されたモデルにKDを活用するための実践的なフレームワークとなる。

This research investigates the enhancement of knowledge distillation (KD) processes in pre-trained models, an emerging field in knowledge transfer with significant implications for distributed training and federated learning environments. These environments benefit from reduced communication demands and accommodate various model architectures. Despite the adoption of numerous KD approaches for transferring knowledge among pre-trained models, a comprehensive understanding of KD's application in these scenarios is lacking. Our study conducts an extensive comparison of multiple KD techniques, including standard KD, tuned KD (via optimized temperature and weight parameters), deep mutual learning, and data partitioning KD. We assess these methods across various data distribution strategies to identify the most effective contexts for each. Through detailed examination of hyperparameter tuning, informed by extensive grid search evaluations, we pinpoint when adjustments are crucial to enhance model performance. This paper sheds light on optimal hyperparameter settings for distinct data partitioning scenarios and investigates KD's role in improving federated learning by minimizing communication rounds and expediting the training process. By filling a notable void in current research, our findings serve as a practical framework for leveraging KD in pre-trained models within collaborative and federated learning frameworks.
翻訳日:2024-02-26 16:41:05 公開日:2024-02-22
# エンタングルメント顕微鏡:量子モンテカルロによるトモグラフィーとエンタングルメント対策

Entanglement Microscopy: Tomography and Entanglement Measures via Quantum Monte Carlo ( http://arxiv.org/abs/2402.14916v1 )

ライセンス: Link先を確認
Ting-Tung Wang, Menghan Song, Liuke Lyu, William Witczak-Krempa, Zi Yang Meng(参考訳) 我々は, 量子モンテカルロシミュレーションにおいて, エンタングルメント顕微鏡と呼ばれるプロトコルを開発し, 量子モンテカルロシミュレーションにおいて, 量子領域に付随する全密度行列を求める。 顕微鏡は量子状態トモグラフィーを可能にし,対数ネガティビティ (ln) のような真の絡み合い測度へのアクセスを可能にする。 本研究では,2次元の量子臨界点(QCP)近傍の位相図(横場イジングモデル)とディラックフェルミオンのグロス・ネヴェウ・ユーカ転移(Gross-Neveu-Yukawa transition)について検討した。 私たちの主な成果は 一 イシングQCPは、空間及び温度の両方において、LNの有限の急死を伴う短距離絡みを示す。 二 グロス・ネヴェウ QCP は、共形場理論(CFT)指数と整合するパワー-ルー崩壊フェルミオン LN を有する。 iii) 2成分の絡み合いを超えて、2次元のイジングqcpの近くの大きなパラメーターウィンドウで検出可能な3成分の絡み合いは1dとは対照的に見つからなかった。 また、一般的な相互作用系に対するフェルミオンLNの大規模温度法則スケーリングも解析的に得る。 本手法は,走査型トンネル顕微鏡による原子スケールイメージングと類似した方法で局所的に量子状態トモグラフィを行うことができる。 制御された絡み合い顕微鏡は、新しい窓を量子物質に開き、無数のシステムが探索されるのを待つ。

We develop a protocol, dubbed entanglement microscopy, to obtain the full reduced density matrix associated with subregions in quantum Monte Carlo simulations for bosonic and fermionic manybody systems. Our microscopy allows to perform quantum state tomography, and thus gives access to true entanglement measures, such as the logarithmic negativity (LN). We exemplify our method by studying the phase diagram near quantum critical points (QCP) in 2 spatial dimensions: the transverse field Ising model and a Gross-Neveu-Yukawa transition of Dirac fermions. Our main results are: i) the Ising QCP exhibits short-range entanglement with a finite sudden death of the LN both in space and temperature; ii) the Gross-Neveu QCP has a power-law decaying fermionic LN consistent with conformal field theory (CFT) exponents; iii) going beyond bipartite entanglement, we find no detectable 3-party entanglement in a large parameter window near the Ising QCP in 2d, in contrast to 1d. We also analytically obtain the large-temperature power law scaling of the fermionic LN for general interacting systems. Our approach allows one to perform quantum state tomography locally in a way that is analogous to atomic-scale imaging with a scanning tunneling microscope. Controlled entanglement microscopy opens a new window into quantum matter, with countless systems waiting to be explored.
翻訳日:2024-02-26 16:40:43 公開日:2024-02-22
# 超低温分子を用いた双極子量子シミュレータの探索

Exploring limits of dipolar quantum simulators with ultracold molecules ( http://arxiv.org/abs/2402.14914v1 )

ライセンス: Link先を確認
Yuliya Bilinskaya, Michael Hughes, and Paolo Molignini(参考訳) 長距離相互作用を持つ格子モデルの基底状態特性の予測において,超低温双極子分子あるいは磁性原子を用いた二次元量子シミュレータを実現するための定量的青写真を提供する。 ポテンシャル深さ,相互作用強度,粒子充填量,幾何学的構成の実験的に関連する範囲について,量子シミュレータで生成した状態と対象格子状態との一致をマップする。 連続体および単バンドまたは多バンド格子表現における数値的に正確な多体波動関数を別々に計算し、多体状態の重なりを構築する。 量子シミュレータと単一バンドモデルとの合意は、より弱い相互作用と低い粒子密度を持つ深い光学格子に良いが、浅い格子、より強い相互作用、特に半充填よりも高いバンド密度は急速に増加する。 これにより、シミュレーションされた基底状態の性質が劇的に変化し、誤った予測につながる可能性がある。 さらに, コンメンサビリティと相互作用の相互作用が準均質化を招き, 忠実な基底状態の準備がさらに困難であることを示す。

We provide a quantitative blueprint for realizing two-dimensional quantum simulators employing ultracold dipolar molecules or magnetic atoms by studying their accuracy in predicting ground state properties of lattice models with long-range interactions. For experimentally relevant ranges of potential depths, interaction strengths, particle fillings, and geometric configurations, we map out the agreement between the state prepared in the quantum simulator and the target lattice state. We do so by separately calculating numerically exact many-body wave functions in the continuum and single- or multi-band lattice representations, and building their many-body state overlaps. While the agreement between quantum simulator and single-band models is good for deep optical lattices with weaker interactions and low particle densities, the higher band population rapidly increases for shallow lattices, stronger interactions, and in particular above half filling. This induces drastic changes to the properties of the simulated ground state, potentially leading to false predictions. Furthermore, we show that the interplay between commensurability and interactions can lead to quasidegeneracies, rendering a faithful ground state preparation even more challenging.
翻訳日:2024-02-26 16:40:17 公開日:2024-02-22
# 地平線を越えてさらに興奮する

More Excitement Across the Horizon ( http://arxiv.org/abs/2402.14908v1 )

ライセンス: Link先を確認
Mar\'ia R. Preciado-Rivas, Manar Naeem, Robert B. Mann, Jorma Louko(参考訳) unruh-dewitt (udw)検出器は、4次元シュワルツシルトブラックホールに放射状に落下し、ハートル・ホーキングまたはunruh状態で準備された質量のないスカラー場と直線的に結合し、ブラックホールの地平線付近で遷移確率の局所的な極値を示すことが最近示されている [k.k. ng et al., new j. phys. 24 (2022) 103018]。 我々は、UDW検出器がスピンレスBa\~nados-Teitelboim-Zanelli(BTZ)ブラックホールに放射状に落下する過程において、同様の現象が存在することを示した。 我々は、検出器のエネルギーギャップ、ブラックホールの質量、検出器の落下半径の関数として、広範な数値計算結果を与える。 この結果は、この効果が強固であり、他のブラックホールの時空における同様の効果の探索を動機付け、その効果の物理的起源の説明を求めることを示唆している。

An Unruh-DeWitt (UDW) detector falling radially into a four-dimensional Schwarzschild black hole, coupled linearly to a massless scalar field that has been prepared in the Hartle-Hawking or Unruh state, has recently been shown to exhibit a local extremum in its transition probability near the black hole horizon [K.K. Ng et al., New J. Phys. 24 (2022) 103018]. We show that a similar phenomenon is present in the transition rate of a UDW detector falling radially into a spinless Ba\~nados-Teitelboim-Zanelli (BTZ) black hole, with the scalar field prepared in the Hartle-Hawking state. We give extensive numerical results as a function of the detector's energy gap, the black hole's mass, and the detector's drop-off radius. Our results suggest that the effect is robust, motivating a search for a similar effect in other black hole spacetimes, and calling for an explanation of the physical origin of the effect.
翻訳日:2024-02-26 16:39:56 公開日:2024-02-22
# ガッピング量子物質の安定性と断熱ノイズによる誤差補正

The Stability of Gapped Quantum Matter and Error-Correction with Adiabatic Noise ( http://arxiv.org/abs/2402.14906v1 )

ライセンス: Link先を確認
Ali Lavasani, Sagar Vijay(参考訳) 量子誤り訂正符号の符号空間は、しばしば量子物質のガッピングフェーズ内の縮退基底空間と同一視される。 このような位相の安定性は、この量子誤り訂正符号(QECC)が強固であるコヒーレントな誤差過程の集合と直接関係している、と我々は主張する:そのような量子コードは、相を通しての符号状態のランダムな断熱的ドリフトに対応する断熱的ノイズチャネルから、この断熱的進化が初期基底空間に十分に「閉じた」状態を保持する限り、漸近的に完全なフィリティを持つことができる。 さらに我々は、この情報を復元するために最小ウェイトの完全マッチングのような特定のデコーダが適用されるとき、エラー訂正しきい値がガッピングフェーズ内で汎用的に発生すると論じる。 断熱的進化が知られている場合には、安定度測定とパウリフィードバックを用いて、位相境界までも量子情報を復元できる例を明示的に示すが、結果として生じる復号遷移は、不整合パウリノイズの存在下での最適復号遷移とは異なる普遍性クラスにある。 これは、非局所的コヒーレントノイズが、安定化器QECCにおけるシンドローム測定の存在を効果的にデコヒーレントにする例を提供する。

The codespace of a quantum error-correcting code can often be identified with the degenerate ground-space within a gapped phase of quantum matter. We argue that the stability of such a phase is directly related to a set of coherent error processes against which this quantum error-correcting code (QECC) is robust: such a quantum code can recover from adiabatic noise channels, corresponding to random adiabatic drift of code states through the phase, with asymptotically perfect fidelity in the thermodynamic limit, as long as this adiabatic evolution keeps states sufficiently "close" to the initial ground-space. We further argue that when specific decoders -- such as minimum-weight perfect matching -- are applied to recover this information, an error-correcting threshold is generically encountered within the gapped phase. In cases where the adiabatic evolution is known, we explicitly show examples in which quantum information can be recovered by using stabilizer measurements and Pauli feedback, even up to a phase boundary, though the resulting decoding transitions are in different universality classes from the optimal decoding transitions in the presence of incoherent Pauli noise. This provides examples where non-local, coherent noise effectively decoheres in the presence of syndrome measurements in a stabilizer QECC.
翻訳日:2024-02-26 16:39:31 公開日:2024-02-22
# MobileLLM:オンデバイスユースケースのためのサブビリオンパラメータ言語モデル最適化

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases ( http://arxiv.org/abs/2402.14905v1 )

ライセンス: Link先を確認
Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra(参考訳) 本稿では、クラウドコストの増大とレイテンシの懸念から、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性の高まりに対処する。 モバイルデプロイメントの実践的な選択として,10億パラメータ未満の高品質なLLMの設計に重点を置いています。 モデル品質決定におけるデータとパラメータ量の重要な役割を強調する一般的な信念とは対照的に,本研究は,数十億以下のスケールllmにおけるモデルアーキテクチャの重要性を強調する。 深層および薄層アーキテクチャを活用し,組込み共有とグループ化クエリアテンション機構を併用して,MobileLLMと呼ばれる強力なベースラインネットワークを構築し,125M/350Mの最先端モデルよりも2.7%/4.3%の精度向上を実現した。 さらに,モデルサイズが増加せず,限界遅延のみのオーバーヘッドを伴わない即時ブロック単位の重み共有手法を提案する。 結果として得られたモデルはMobileLLM-LSと呼ばれ、MobileLLM 125M/350Mよりも精度が0.7%/0.8%向上した。 さらに、MobileLLMモデルファミリは、チャットベンチマークの以前のサブビリオンモデルに比べて大幅に改善され、API呼び出しタスクにおけるLLaMA-v2 7Bの精度が向上し、一般的なオンデバイスユースケース向けの小さなモデルの性能が強調された。

This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.
翻訳日:2024-02-26 16:38:59 公開日:2024-02-22
# ウォーターマーキングは言語モデルを放射性にする

Watermarking Makes Language Models Radioactive ( http://arxiv.org/abs/2402.14904v1 )

ライセンス: Link先を確認
Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon(参考訳) 本稿では,LLM生成テキストの放射能,すなわち,そのような入力がトレーニングデータとして使用されたことを検出できるかどうかについて検討する。 会員推測のような従来の方法は、ある程度の精度でこの検出を行うことができる。 透かし付きトレーニングデータからトレースが検出されやすく、メンバーシップ推論よりも信頼性が高いことを示す。 我々は,汚染レベルを透かしの堅牢性,トレーニングセットの比率,微調整プロセスに関連付ける。 特に, テキストの5%が透かしでなくても, 高い信頼度(p値<1e-5)で電子透かし合成命令の学習を検出できることを実証した。 従って、元々機械生成テキストを検出するために設計されたLLM透かしは、透かし付きLCMの出力が別のLCMの微調整に使われたかどうかを容易に識別する機能を提供する。

This paper investigates the radioactivity of LLM-generated texts, i.e. whether it is possible to detect that such input was used as training data. Conventional methods like membership inference can carry out this detection with some level of accuracy. We show that watermarked training data leaves traces easier to detect and much more reliable than membership inference. We link the contamination level to the watermark robustness, its proportion in the training set, and the fine-tuning process. We notably demonstrate that training on watermarked synthetic instructions can be detected with high confidence (p-value < 1e-5) even when as little as 5% of training text is watermarked. Thus, LLM watermarking, originally designed for detecting machine-generated text, gives the ability to easily identify if the outputs of a watermarked LLM were used to fine-tune another LLM.
翻訳日:2024-02-26 16:38:36 公開日:2024-02-22
# トークン化数:フロンティアLLMの算術におけるトークン化の影響

Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs ( http://arxiv.org/abs/2402.14903v1 )

ライセンス: Link先を確認
Aaditya K. Singh, DJ Strouse(参考訳) 入力テキストを入力トークンに分割するトークン化(Tokenization)は、大きな言語モデル(LLM)パイプラインの見落とされがちな側面であり、有用なあるいは有害な帰納的バイアスの源となる。 歴史的に、LLMは特定の入力ドメインを気にすることなくバイトペアエンコーディングに依存してきた。 LLaMaやPaLMのような一般的なモデルはシングル桁のトークン化を選択し、GPT-3.5やGPT-4は1桁、2桁、3桁の異なるトークンを持つ。 本研究では,この選択が算術的タスクを用いて数値推論に与える影響について検討する。 GPT-3.5 と -4 の左から左へのトークン化について検討し、右から左へのトークン化(推測時のコンマ分離数による)が性能を大幅に向上させることを示した。 さらに,標準左から右へのトークン化を用いた場合のモデル誤差はステレオタイプ誤りパターンに従っており,モデル計算が近似ではなく体系的であることを示唆している。 これにより,左から右へのトークン化インプットにおいて,チェーン・オブ・インスパイアされたアプローチで性能を回復できることを示す。 また、モデルをスケールするとトークン化方向のギャップが減少し、大きなモデルがトークン化に依存した帰納バイアスをオーバーライドできることを示す可能性がある。 要約すると、本研究は、数値化選択が演算タスクにおけるモデル性能の差にどのようにつながるかに関する最初の研究を行い、エラーパターンを徹底的に分析する。 この研究によって、数値推論の一般的なモデルに向けて作業する場合に、より注意深く数字トークン化に関する選択を省略できることを願っている。

Tokenization, the division of input text into input tokens, is an often overlooked aspect of the large language model (LLM) pipeline and could be the source of useful or harmful inductive biases. Historically, LLMs have relied on byte pair encoding, without care to specific input domains. With the increased use of LLMs for reasoning, various number-specific tokenization schemes have been adopted, with popular models like LLaMa and PaLM opting for single-digit tokenization while GPT-3.5 and GPT-4 have separate tokens for each 1-, 2-, and 3-digit numbers. In this work, we study the effect this choice has on numerical reasoning through the use of arithmetic tasks. We consider left-to-right and right-to-left tokenization for GPT-3.5 and -4, finding that right-to-left tokenization (enforced by comma separating numbers at inference time) leads to largely improved performance. Furthermore, we find that model errors when using standard left-to-right tokenization follow stereotyped error patterns, suggesting that model computations are systematic rather than approximate. We show that the model is able to convert between tokenizations easily, thus allowing chain-of-thought-inspired approaches to recover performance on left-to-right tokenized inputs. We also find the gap between tokenization directions decreases when models are scaled, possibly indicating that larger models are better able to override this tokenization-dependent inductive bias. In summary, our work performs the first study of how number tokenization choices lead to differences in model performance on arithmetic tasks, accompanied by a thorough analysis of error patterns. We hope this work inspires practitioners to more carefully ablate number tokenization-related choices when working towards general models of numerical reasoning.
翻訳日:2024-02-26 16:38:21 公開日:2024-02-22
# 電子商取引におけるインテント理解の活用を中心に

A Usage-centric Take on Intent Understanding in E-Commerce ( http://arxiv.org/abs/2402.14901v1 )

ライセンス: Link先を確認
Wendi Zhou, Tianyi Li, Pavlos Vougiouklis, Mark Steedman, Jeff Z. Pan(参考訳) ユーザ意図の特定と理解はEコマースにとって重要なタスクです。 その人気にもかかわらず、意図の理解は一貫して定義されていない。 本稿では,ユーザ意図を「顧客が製品をどのように利用するか」と表現することに焦点を当て,製品オントロジーによらず自然言語推論タスクとして意図を理解する。 FolkScopeの2つの弱点、SOTA E-Commerce Intent Knowledge Graphは、ユーザ意図を推論し、多様な有用な製品を推奨する能力を制限する。 これらの観察に続いて,新しい評価フレームワークとサンプルデータセットを含む製品回復ベンチマークを紹介する。 このベンチマークでは、上記のFolkScopeの弱点をさらに検証する。

Identifying and understanding user intents is a pivotal task for E-Commerce. Despite its popularity, intent understanding has not been consistently defined or accurately benchmarked. In this paper, we focus on predicative user intents as "how a customer uses a product", and pose intent understanding as a natural language reasoning task, independent of product ontologies. We identify two weaknesses of FolkScope, the SOTA E-Commerce Intent Knowledge Graph, that limit its capacity to reason about user intents and to recommend diverse useful products. Following these observations, we introduce a Product Recovery Benchmark including a novel evaluation framework and an example dataset. We further validate the above FolkScope weaknesses on this benchmark.
翻訳日:2024-02-26 16:37:49 公開日:2024-02-22
# 理屈はやめろ! マルチモーダルLLMとチェーン・オブ・ソート推論が対向画像と出会うとき

Stop Reasoning! When Multimodal LLMs with Chain-of-Thought Reasoning Meets Adversarial Images ( http://arxiv.org/abs/2402.14899v1 )

ライセンス: Link先を確認
Zefeng Wang, Zhen Han, Shuo Chen, Fan Xue, Zifeng Ding, Xun Xiao, Volker Tresp, Philip Torr, Jindong Gu(参考訳) 近年,MLLM(Multimodal LLM)は画像の理解に優れた能力を示している。 しかし、従来の視覚モデルと同様に、敵画像に対して脆弱である。 一方、MLLMはモデルの性能を向上するだけでなく、中間的推論ステップを与えることでモデルの説明可能性を向上させる。 それにもかかわらず、MLLMsのCoTとの敵対的堅牢性や、MLLMsが逆画像で間違った答えを推測するときの理屈の理解についてはまだ研究されていない。 本研究は,CoT推論を用いたMLLMの対角的ロバスト性を評価し,既存の攻撃方法に対する対角的ロバスト性を改善することを発見した。 さらに,CoTによるロバスト性向上を効果的に回避する新しいストップレゾン攻撃手法を提案する。 最後に, MLLMが対向画像と対向したときのCoT推論の変化を実証し, 対向攻撃時の推論過程に光を当てる。

Recently, Multimodal LLMs (MLLMs) have shown a great ability to understand images. However, like traditional vision models, they are still vulnerable to adversarial images. Meanwhile, Chain-of-Thought (CoT) reasoning has been widely explored on MLLMs, which not only improves model's performance, but also enhances model's explainability by giving intermediate reasoning steps. Nevertheless, there is still a lack of study regarding MLLMs' adversarial robustness with CoT and an understanding of what the rationale looks like when MLLMs infer wrong answers with adversarial images. Our research evaluates the adversarial robustness of MLLMs when employing CoT reasoning, finding that CoT marginally improves adversarial robustness against existing attack methods. Moreover, we introduce a novel stop-reasoning attack technique that effectively bypasses the CoT-induced robustness enhancements. Finally, we demonstrate the alterations in CoT reasoning when MLLMs confront adversarial images, shedding light on their reasoning process under adversarial attacks.
翻訳日:2024-02-26 16:37:37 公開日:2024-02-22
# 偽りの正確さとしての思考の連鎖

Chain-of-Thought Unfaithfulness as Disguised Accuracy ( http://arxiv.org/abs/2402.14897v1 )

ライセンス: Link先を確認
Oliver Bentham, Nathan Stringham, Ana Marasovi\'c(参考訳) CoT(Chain-of-Thought)世代が大きな言語モデル(LLM)の内部計算とどのように一致しているかを理解することは、LLMの出力を信頼するかを決定するために重要である。 CoT忠実性の代用として、arXiv:2307.13702 はモデルが CoT に依存しているかどうかを測定する指標を提案する。 プロプライエタリなモデルの1つのファミリの中で、LLMはモデルサイズと忠実度の間のスケーリングと逆スケーリングの関係を示し、13億のパラメータモデルは8億1000万から1750億のモデルと比較して忠実度を増大させる。 これらの結果が全てのLLMの特性として一般化されるかどうかを評価する。 実験装置を3種類のモデルで再現し、特定の条件下では、CoT忠実度に対するスケーリング傾向を再現することに成功した。 しかし、プロンプトにおける回答選択の順序を変えるだけで、メートル法を73パーセント減らすことができることがわかった。 忠実度計量は精度(r^2$ = 0.91)と高い相関関係にあり、忠実度を評価するための構成としての妥当性に疑問を投げかける。

Understanding the extent to which Chain-of-Thought (CoT) generations align with a large language model's (LLM) internal computations is critical for deciding whether to trust an LLM's output. As a proxy for CoT faithfulness, arXiv:2307.13702 propose a metric that measures a model's dependence on its CoT for producing an answer. Within a single family of proprietary models, they find that LLMs exhibit a scaling-then-inverse-scaling relationship between model size and their measure of faithfulness, and that a 13 billion parameter model exhibits increased faithfulness compared to models ranging from 810 million to 175 billion parameters in size. We evaluate whether these results generalize as a property of all LLMs. We replicate their experimental setup with three different families of models and, under specific conditions, successfully reproduce the scaling trends for CoT faithfulness they report. However, we discover that simply changing the order of answer choices in the prompt can reduce the metric by 73 percentage points. The faithfulness metric is also highly correlated ($R^2$ = 0.91) with accuracy, raising doubts about its validity as a construct for evaluating faithfulness.
翻訳日:2024-02-26 16:37:18 公開日:2024-02-22
# データ拡張は死んだ、長く生きたデータ拡張

Data Augmentation is Dead, Long Live Data Augmentation ( http://arxiv.org/abs/2402.14895v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Piedboeuf and Philippe Langlais(参考訳) テキストデータ拡張(da)は、人工データを作成するための新しい手法が定期的に提案され、少なくともテキスト分類タスクにおいて、小さなデータ設定において非常に効率が良い研究分野である。 本稿では,従来のデータ拡張は単にファインチューニングの方法であり,データ拡張に先立ってファインチューニングにより多くの時間を費やすことは,その効果を否定することを示す。 DAテクニックが(トレーニングを損なわないようにトレーニングセットに十分近いデータを生成する限り)どのDAテクニックが最善であるか、そしてなぜDAが肯定的な結果を示したのか(ネットワークのトレーニングを円滑化する)。 さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットデータ生成は,従来の手法がそうでない場合でも,この形式のデータ拡張がまだ有効であることを示す。

Textual data augmentation (DA) is a prolific field of study where novel techniques to create artificial data are regularly proposed, and that has demonstrated great efficiency on small data settings, at least for text classification tasks. In this paper, we challenge those results, showing that classical data augmentation is simply a way of performing better fine-tuning, and that spending more time fine-tuning before applying data augmentation negates its effect. This is a significant contribution as it answers several questions that were left open in recent years, namely~: which DA technique performs best (all of them as long as they generate data close enough to the training set as to not impair training) and why did DA show positive results (facilitates training of network). We furthermore show that zero and few-shot data generation via conversational agents such as ChatGPT or LLama2 can increase performances, concluding that this form of data augmentation does still work, even if classical methods do not.
翻訳日:2024-02-26 16:36:56 公開日:2024-02-22
# 分散型電源配電系統におけるデータ駆動地平位置推定法

Data-Driven Ground-Fault Location Method in Distribution Power System With Distributed Generation ( http://arxiv.org/abs/2402.14894v1 )

ライセンス: Link先を確認
Mauro Caporuscio, Antoine Dupuis, and Welf L\"owe(参考訳) 分布レベルでの最近の再生可能エネルギーの浸透の増加は、従来の断層位置法を時代遅れにした多方向の電力の流れをもたらす。 この点において,高速かつ高精度な故障位置推定と電力系統信頼性の強化のために,新たな手法の開発が求められている。 本稿では,配電系統におけるデータ駆動地すべり位置推定手法を提案する。 11バス20kvの電力系統をmatlab/simulinkでモデル化し、地上の故障をシミュレートする。 障害は、異なる場所と様々なシステム運用状態において発生する。 系のサブステーションにおける時間領域欠陥三相電圧を離散ウェーブレット変換により解析する。 処理されたデータの統計量は、最終的に人工ニューラルネットワーク(ann)のトレーニングに使用され、計算された電圧の特徴と障害の間のマッピングを見つける。 具体的には、3つのannにより、システム変電所からの故障相、故障分岐、故障距離を別々に予測することができる。 その結果, 断層距離予測の相対誤差は0,4%であった。 この方法は未知のシステム状態のデータセットに適用され、堅牢性をテストする。

The recent increase in renewable energy penetration at the distribution level introduces a multi-directional power flow that outdated traditional fault location techniques. To this extent, the development of new methods is needed to ensure fast and accurate fault localization and, hence, strengthen power system reliability. This paper proposes a data-driven ground fault location method for the power distribution system. An 11-bus 20 kV power system is modeled in Matlab/Simulink to simulate ground faults. The faults are generated at different locations and under various system operational states. Time-domain faulted three-phase voltages at the system substation are then analyzed with discrete wavelet transform. Statistical quantities of the processed data are eventually used to train an Artificial Neural Network (ANN) to find a mapping between computed voltage features and faults. Specifically, three ANNs allow the prediction of faulted phase, faulted branch, and fault distance from the system substation separately. According to the results, the method shows good potential, with a total relative error of 0,4% for fault distance prediction. The method is applied to datasets with unknown system states to test robustness.
翻訳日:2024-02-26 16:36:37 公開日:2024-02-22
# バックドア強化アライメントによる細調整ジェイルブレイク攻撃の軽減

Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment ( http://arxiv.org/abs/2402.14968v1 )

ライセンス: Link先を確認
Jiongxiao Wang, Jiazhao Li, Yiquan Li, Xiangyu Qi, Muhao Chen, Junjie Hu, Yixuan Li, Bo Li, Chaowei Xiao(参考訳) GPT-4やLlama-2のようなLarge Language Models(LLMs)の一般的な機能にもかかわらず、これらのモデルは、特定のビジネス要求を満たすため、カスタマイズされたデータによる微調整や適応を要求する。 しかし、このプロセスは必然的に新しい安全性の脅威をもたらし、特にFJAttack(Fin-tuning based Jailbreak Attack)に対して、ファインチューニングデータセットにいくつかの有害な例を組み込むことで、モデルの安全性を著しく損なう可能性がある。 安全上の問題を軽減するために、微調整データセットに安全性サンプルを組み込むことで、潜在的な防御策が提案されているが、このようなアプローチでは相当量の安全性サンプルを組み込むことが必要となり、効率が悪くなる。 安全事例が限られているFJAttackに対して効果的に防御するために,バックドアアタックの概念に類推されたバックドア強化安全アライメント手法を提案する。 特に,安全事例に先行する「バックドアトリガー」として機能するシークレットプロンプトを統合することで,プレフィックス付き安全事例を構築した。 我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)により、最大11個のプレフィックス付き安全サンプルを追加することで、悪意ある微調整 LLM が元のアライメントモデルと同様の安全性性能を達成することを実証している。 さらに,FJAttackの例と微調整タスクデータの両方からなる微調整データにより,より実用的な方法で本手法の有効性を検討する。 本手法は,FJAttackに対する防御において,微調整タスクの性能を損なうことなく有効性を示す。

Despite the general capabilities of Large Language Models (LLMs) like GPT-4 and Llama-2, these models still request fine-tuning or adaptation with customized data when it comes to meeting the specific business demands and intricacies of tailored use cases. However, this process inevitably introduces new safety threats, particularly against the Fine-tuning based Jailbreak Attack (FJAttack), where incorporating just a few harmful examples into the fine-tuning dataset can significantly compromise the model safety. Though potential defenses have been proposed by incorporating safety examples into the fine-tuning dataset to reduce the safety issues, such approaches require incorporating a substantial amount of safety examples, making it inefficient. To effectively defend against the FJAttack with limited safety examples, we propose a Backdoor Enhanced Safety Alignment method inspired by an analogy with the concept of backdoor attacks. In particular, we construct prefixed safety examples by integrating a secret prompt, acting as a "backdoor trigger", that is prefixed to safety examples. Our comprehensive experiments demonstrate that through the Backdoor Enhanced Safety Alignment with adding as few as 11 prefixed safety examples, the maliciously fine-tuned LLMs will achieve similar safety performance as the original aligned models. Furthermore, we also explore the effectiveness of our method in a more practical setting where the fine-tuning data consists of both FJAttack examples and the fine-tuning task data. Our method shows great efficacy in defending against FJAttack without harming the performance of fine-tuning tasks.
翻訳日:2024-02-26 16:31:52 公開日:2024-02-22
# 滑らかさ適応型仮説伝達学習

Smoothness Adaptive Hypothesis Transfer Learning ( http://arxiv.org/abs/2402.14966v1 )

ライセンス: Link先を確認
Haotian Lin, Matthew Reimherr(参考訳) 既存の2相カーネルベースの仮説伝達学習アルゴリズムの多くは、位相間で同じカーネル正則化を採用し、最適性を得るために既知の関数の滑らかさに依存している。 そのため、実際にはターゲット/ソースとオフセットの間の様々な、未知の滑らかさに適応できない。 本稿では,二相核リッジ回帰(krr)に基づくアルゴリズムであるsmo smoothness adaptive transfer learning(satl)を提案する。 まず,ターゲットのみkrr学習における不特定固定帯域のガウスカーネルを用いることで,最小最適性を達成し,未知のソボレフ滑らか性に対する適応手順を導出できることを証明した。 これらの結果を活用することで、SATLはガウス核を両相で採用し、推定器はターゲット/ソースの未知の滑らかさとそのオフセット関数に適応できる。 我々は,学習問題の極小境界を過度なリスクで導出し,SATLが対数係数までの一致した上限を享受していることを示す。 ミニマックス収束速度は、伝達動力学に影響を与える因子に光を当て、非伝達学習設定と比較してsatlの優位を示す。 我々の主な目的は理論分析であるが、その結果を確認するためにいくつかの実験も実施している。

Many existing two-phase kernel-based hypothesis transfer learning algorithms employ the same kernel regularization across phases and rely on the known smoothness of functions to obtain optimality. Therefore, they fail to adapt to the varying and unknown smoothness between the target/source and their offset in practice. In this paper, we address these problems by proposing Smoothness Adaptive Transfer Learning (SATL), a two-phase kernel ridge regression(KRR)-based algorithm. We first prove that employing the misspecified fixed bandwidth Gaussian kernel in target-only KRR learning can achieve minimax optimality and derive an adaptive procedure to the unknown Sobolev smoothness. Leveraging these results, SATL employs Gaussian kernels in both phases so that the estimators can adapt to the unknown smoothness of the target/source and their offset function. We derive the minimax lower bound of the learning problem in excess risk and show that SATL enjoys a matching upper bound up to a logarithmic factor. The minimax convergence rate sheds light on the factors influencing transfer dynamics and demonstrates the superiority of SATL compared to non-transfer learning settings. While our main objective is a theoretical analysis, we also conduct several experiments to confirm our results.
翻訳日:2024-02-26 16:31:20 公開日:2024-02-22
# Mirror: 知識豊富な推論のための多視点自己回帰法

Mirror: A Multiple-perspective Self-Reflection Method for Knowledge-rich Reasoning ( http://arxiv.org/abs/2402.14963v1 )

ライセンス: Link先を確認
Hanqi Yan, Qinglin Zhu, Xinyu Wang, Lin Gui, Yulan He(参考訳) 大規模言語モデル(LLM)は,自らの出力を反復的に反映する能力を持っているが,近年の研究では,外部リソースにアクセスすることなく,知識に富んだ問題との戦いが観察されている。 自己評価におけるLLMの非効率性に加えて,LLMは負のフィードバックを受けながら予測の再検討に苦慮している。 そこで本研究では,知識豊富な推論のための多視点自己回帰法であるmirrorを提案する。 Mirrorは、ナビゲータとReasonerの間のヒューリスティックな相互作用によって達成された、複数のパースペクティブな手がかりからLLMを反映することができる。 エージェントは(1)ナビゲータが生み出す方向の多様性と(2)リーソナーが生み出す反応における戦略的に誘発される摂動の合意を奨励することにより、地上の真実にアクセスすることなく多様で信頼性の高い推論軌道へ誘導する。 5つの推論データセットに関する実験は、ミラーが複数の現代の自己回帰アプローチよりも優れていることを示した。 また, アブレーション研究の結果, 上記の課題を緩和する戦略が示唆された。

While Large language models (LLMs) have the capability to iteratively reflect on their own outputs, recent studies have observed their struggles with knowledge-rich problems without access to external resources. In addition to the inefficiency of LLMs in self-assessment, we also observe that LLMs struggle to revisit their predictions despite receiving explicit negative feedback. Therefore, We propose Mirror, a Multiple-perspective self-reflection method for knowledge-rich reasoning, to avoid getting stuck at a particular reflection iteration. Mirror enables LLMs to reflect from multiple-perspective clues, achieved through a heuristic interaction between a Navigator and a Reasoner. It guides agents toward diverse yet plausibly reliable reasoning trajectory without access to ground truth by encouraging (1) diversity of directions generated by Navigator and (2) agreement among strategically induced perturbations in responses generated by the Reasoner. The experiments on five reasoning datasets demonstrate that Mirror's superiority over several contemporary self-reflection approaches. Additionally, the ablation study studies clearly indicate that our strategies alleviate the aforementioned challenges.
翻訳日:2024-02-26 16:30:56 公開日:2024-02-22
# 弾性時間ステップによる強化学習

Reinforcement Learning with Elastic Time Steps ( http://arxiv.org/abs/2402.14961v1 )

ライセンス: Link先を確認
Dong Wang and Giovanni Beltrame(参考訳) 従来の強化学習(RL)アルゴリズムは通常、ロボット工学に適用され、一定の制御率で動作するコントローラを学ぶ。 rlアルゴリズムの離散的な性質を考えると、それらは制御率の選択の影響に従わない:正しい制御率を見つけることは困難であり、ミスがしばしば計算リソースの過剰使用や収束の欠如をもたらす。 本稿では,この問題に対処する新規な非政治アクタ批判アルゴリズムであるソフト・弾性アクタ批判(SEAC)を提案する。 SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。 実際には、SEACは必要なときにのみ制御を適用し、計算資源とデータ使用量を最小化する。 ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。 SEACは、エネルギー効率と全体的な時間管理の点でSACベースラインを上回り、最も重要なことは、学習したコントローラの制御周波数を特定する必要がないことである。 SEACは、特にSACが収束するのに苦労した制御速度において、SACよりも高速で安定した訓練速度を示した。 また、SEACと同様のアプローチ、CTCO(Continuous-Time Continuous-Options)モデルを比較しました。 これらの結果は、ロボット工学における実世界の実世界のRL応用におけるSEACの可能性を示している。

Traditional Reinforcement Learning (RL) algorithms are usually applied in robotics to learn controllers that act with a fixed control rate. Given the discrete nature of RL algorithms, they are oblivious to the effects of the choice of control rate: finding the correct control rate can be difficult and mistakes often result in excessive use of computing resources or even lack of convergence. We propose Soft Elastic Actor-Critic (SEAC), a novel off-policy actor-critic algorithm to address this issue. SEAC implements elastic time steps, time steps with a known, variable duration, which allow the agent to change its control frequency to adapt to the situation. In practice, SEAC applies control only when necessary, minimizing computational resources and data usage. We evaluate SEAC's capabilities in simulation in a Newtonian kinematics maze navigation task and on a 3D racing video game, Trackmania. SEAC outperforms the SAC baseline in terms of energy efficiency and overall time management, and most importantly without the need to identify a control frequency for the learned controller. SEAC demonstrated faster and more stable training speeds than SAC, especially at control rates where SAC struggled to converge. We also compared SEAC with a similar approach, the Continuous-Time Continuous-Options (CTCO) model, and SEAC resulted in better task performance. These findings highlight the potential of SEAC for practical, real-world RL applications in robotics.
翻訳日:2024-02-26 16:30:37 公開日:2024-02-22
# 法執行システムにおける人種バイアス評価のための因果的枠組み

A Causal Framework to Evaluate Racial Bias in Law Enforcement Systems ( http://arxiv.org/abs/2402.14959v1 )

ライセンス: Link先を確認
Fotini Christia, Jessy Xinyi Han, Andrew Miller, Devavrat Shah, S. Craig Watkins, Christopher Winship(参考訳) 我々は,法執行システムにおける人種誘発バイアスを評価するデータ駆動型手法の開発に興味を持っている。 最近の研究は、警察と市民の相互作用の文脈において、警察の停止データを用いてこの問題に対処しているが、2つの重要な制限がある。 第一に、バイアスは人種に加えて真の犯罪が考慮されている場合にのみ適切に定量化できるが、以前の作品では欠落している。 第2に、法執行システムは多段階であり、単に最終結果に注目するのではなく、"インタラクションのcausal chain of interaction"の中でバイアスの真の源を分離することが重要である。 本研究では,犯罪を取り入れた多段階因果関係を提示することで,これらの課題に対処する。 理論的特徴付けと関連するデータ駆動による評価法を提案する。 (a)あらゆる形態の人種的偏見の存在、及び (b)もしそうであれば、人種や犯罪の点でそのような偏見の源泉となる。 Our framework identifies three canonical scenarios with distinct characteristics: in settings like (1) airport security, the primary source of observed bias against a race is likely to be bias in law enforcement against innocents of that race; (2) AI-empowered policing, the primary source of observed bias against a race is likely to be bias in law enforcement against criminals of that race; and (3) police-civilian interaction, the primary source of observed bias against a race could be bias in law enforcement against that race or bias from the general public in reporting against the other race. 警察と市民の相互作用データと911の通話データを用いた広範な実証研究により、このような直感的現象の事例が見つかる。ニューオーリンズでは、観察された偏見は多数派に反し、その原因は一般大衆による少数派人種に関する事件の過度に報告されている(via 911)。

We are interested in developing a data-driven method to evaluate race-induced biases in law enforcement systems. While the recent works have addressed this question in the context of police-civilian interactions using police stop data, they have two key limitations. First, bias can only be properly quantified if true criminality is accounted for in addition to race, but it is absent in prior works. Second, law enforcement systems are multi-stage and hence it is important to isolate the true source of bias within the "causal chain of interactions" rather than simply focusing on the end outcome; this can help guide reforms. In this work, we address these challenges by presenting a multi-stage causal framework incorporating criminality. We provide a theoretical characterization and an associated data-driven method to evaluate (a) the presence of any form of racial bias, and (b) if so, the primary source of such a bias in terms of race and criminality. Our framework identifies three canonical scenarios with distinct characteristics: in settings like (1) airport security, the primary source of observed bias against a race is likely to be bias in law enforcement against innocents of that race; (2) AI-empowered policing, the primary source of observed bias against a race is likely to be bias in law enforcement against criminals of that race; and (3) police-civilian interaction, the primary source of observed bias against a race could be bias in law enforcement against that race or bias from the general public in reporting against the other race. Through an extensive empirical study using police-civilian interaction data and 911 call data, we find an instance of such a counter-intuitive phenomenon: in New Orleans, the observed bias is against the majority race and the likely reason for it is the over-reporting (via 911 calls) of incidents involving the minority race by the general public.
翻訳日:2024-02-26 16:30:14 公開日:2024-02-22
# EE3P:周期現象特性のイベントベース推定

EE3P: Event-based Estimation of Periodic Phenomena Properties ( http://arxiv.org/abs/2402.14958v1 )

ライセンス: Link先を確認
Jakub Kol\'a\v{r}, Radim \v{S}petl\'ik, Ji\v{r}\'i Matas(参考訳) 本稿では,イベントカメラを用いて周期的現象の特性を測定する新しい手法を提案する。 このアプローチは、速い周期的現象が発生した任意の空間的ウィンドウにおいて、運動の頻度に対応する時間差で非常に類似した事象が生成されると仮定する。 周波数を推定するために,イベント空間における時空間窓の相関を計算する。 相関応答のピーク間の時間差から周期を算出する。 この方法は接触がなく、マーカーの必要性をなくし、識別可能なランドマークを必要としない。 周期現象の3例について,提案手法の評価を行った。 (i)光が点滅する。 (ii)振動,及び (iii)回転速度。 全ての実験において,本手法は,実測値の誤差限界である0.04%未満の相対誤差を達成する。

We introduce a novel method for measuring properties of periodic phenomena with an event camera, a device asynchronously reporting brightness changes at independently operating pixels. The approach assumes that for fast periodic phenomena, in any spatial window where it occurs, a very similar set of events is generated at the time difference corresponding to the frequency of the motion. To estimate the frequency, we compute correlations of spatio-temporal windows in the event space. The period is calculated from the time differences between the peaks of the correlation responses. The method is contactless, eliminating the need for markers, and does not need distinguishable landmarks. We evaluate the proposed method on three instances of periodic phenomena: (i) light flashes, (ii) vibration, and (iii) rotational speed. In all experiments, our method achieves a relative error lower than 0.04%, which is within the error margin of ground truth measurements.
翻訳日:2024-02-26 16:29:42 公開日:2024-02-22
# 自己監督型学習手法の共通安定性メカニズム

The Common Stability Mechanism behind most Self-Supervised Learning Approaches ( http://arxiv.org/abs/2402.14957v1 )

ライセンス: Link先を確認
Abhishek Jha, Matthew B. Blaschko, Yuki M. Asano, Tinne Tuytelaars(参考訳) ここ数年、自己監督型学習(SSL)の著しい進歩が見られたが、その成功は、崩壊を避けながら意味のある視覚表現を学習する学習プロセスに有用な帰納的バイアスが導入されたことに起因する。 これらの帰納バイアスと制約は、例えば、対照的な定式化における負の例、BYOLとSimSiamにおける指数的な移動平均と予測子を利用して、SSL技法における異なる最適化定式化の形で表される。 本稿では、これらの異なるSSL技術の安定性メカニズムを説明するためのフレームワークを提供する。 i)simclr,byol,swav,simsiam,barlow twins,dino等のコントラスト的手法の動作メカニズムについて論じる。 二 異なる定式化にもかかわらず、同様の目的関数を暗黙的に最適化し、すなわち、すべてのデータサンプルに対して期待される表現の規模を最小化し、データ分布の平均を最大化し、異なるデータ拡張に対して個々のサンプルの予測表現の規模を最大化する。 三 枠組みを支えるための数学的及び実証的な証拠を提供する。 異なる仮説を定式化し、imagenet100データセットを使ってテストします。

Last couple of years have witnessed a tremendous progress in self-supervised learning (SSL), the success of which can be attributed to the introduction of useful inductive biases in the learning process to learn meaningful visual representations while avoiding collapse. These inductive biases and constraints manifest themselves in the form of different optimization formulations in the SSL techniques, e.g. by utilizing negative examples in a contrastive formulation, or exponential moving average and predictor in BYOL and SimSiam. In this paper, we provide a framework to explain the stability mechanism of these different SSL techniques: i) we discuss the working mechanism of contrastive techniques like SimCLR, non-contrastive techniques like BYOL, SWAV, SimSiam, Barlow Twins, and DINO; ii) we provide an argument that despite different formulations these methods implicitly optimize a similar objective function, i.e. minimizing the magnitude of the expected representation over all data samples, or the mean of the data distribution, while maximizing the magnitude of the expected representation of individual samples over different data augmentations; iii) we provide mathematical and empirical evidence to support our framework. We formulate different hypotheses and test them using the Imagenet100 dataset.
翻訳日:2024-02-26 16:29:30 公開日:2024-02-22
# リニア変圧器ブロックのインコンテキスト学習:mlp成分とワンステップgd初期化の利点

In-Context Learning of a Linear Transformer Block: Benefits of the MLP Component and One-Step GD Initialization ( http://arxiv.org/abs/2402.14951v1 )

ライセンス: Link先を確認
Ruiqi Zhang, Jingfeng Wu, Peter L. Bartlett(参考訳) 本稿では,線形アテンション成分と線形多層パーセプトロン(MLP)成分を併用した 'emph{Linear Transformer Block} (LTB) の 'emph{in-context learning} (ICL) 能力について検討する。 ガウス前値と非零平均値を持つ線形回帰の icl に対して、ltb はベイズ最適 icl リスクをほぼ達成できることを示す。 対照的に、線形注意のみを用いることは、既約加法近似誤差を引き起こす必要がある。 さらに、LCBと学習可能な初期化を伴う一段階勾配降下推定器(\mathsf{GD}\text{-}\mathbf{\beta}$)との対応性を確立し、全ての$\mathsf{GD}\text{-}\mathbf{\beta}$ estimatorをLCB推定器とクラス内ICLリスクを最小化する全ての最適LCB推定器で実装できるという意味では、事実上$\mathsf{GD}\text{-}\mathbf{\beta}$ estimatorである。 最後に、非凸なトレーニング目標にもかかわらず、$\mathsf{gd}\text{-}\mathbf{\beta}$ estimators は勾配フローで効率的に最適化できることを示す。 この結果から,LCB は $\mathsf{GD}\text{-}\mathbf{\beta}$ で ICL を実現し,近似誤差を低減する上で MLP 層の役割を強調した。

We study the \emph{in-context learning} (ICL) ability of a \emph{Linear Transformer Block} (LTB) that combines a linear attention component and a linear multi-layer perceptron (MLP) component. For ICL of linear regression with a Gaussian prior and a \emph{non-zero mean}, we show that LTB can achieve nearly Bayes optimal ICL risk. In contrast, using only linear attention must incur an irreducible additive approximation error. Furthermore, we establish a correspondence between LTB and one-step gradient descent estimators with learnable initialization ($\mathsf{GD}\text{-}\mathbf{\beta}$), in the sense that every $\mathsf{GD}\text{-}\mathbf{\beta}$ estimator can be implemented by an LTB estimator and every optimal LTB estimator that minimizes the in-class ICL risk is effectively a $\mathsf{GD}\text{-}\mathbf{\beta}$ estimator. Finally, we show that $\mathsf{GD}\text{-}\mathbf{\beta}$ estimators can be efficiently optimized with gradient flow, despite a non-convex training objective. Our results reveal that LTB achieves ICL by implementing $\mathsf{GD}\text{-}\mathbf{\beta}$, and they highlight the role of MLP layers in reducing approximation error.
翻訳日:2024-02-26 16:29:07 公開日:2024-02-22
# aiトランスフォーマーモデルによる電力品質イベント分類の強化

Enhancing Power Quality Event Classification with AI Transformer Models ( http://arxiv.org/abs/2402.14949v1 )

ライセンス: Link先を確認
Ahmad Mohammad Saber, Amr Youssef, Davor Svetinovic, Hatem Zeineldin, Deepa Kundur and Ehab El-Saadany(参考訳) 近年,PQE(Power Quality Event)の正確な分類に機械学習を活用することへの関心が高まっている。 しかし、これらの研究のほとんどは理想的な状況を仮定して行われるが、実際には測定ノイズ、直流オフセット、電圧信号の振幅と周波数の変動がある。 本稿では,事前のPQE分類が深層学習を用いて動作することを前提として,上記の考察の下でPQEを正確に分類するツールとして,注目対応トランスフォーマーを活用したディープラーニングフレームワークを提案する。 提案手法は, 分離した特徴抽出や計算フェーズを必要とせずに, 直接電圧信号上で動作可能である。 提案手法は,最近提案した学習手法よりも優れていた。 上記の条件下でのPQEの正確な分類は、信号-雑音比、DCオフセット、信号振幅と周波数の変化に応じて99.81%$-91.43%の精度で可能である。

Recently, there has been a growing interest in utilizing machine learning for accurate classification of power quality events (PQEs). However, most of these studies are performed assuming an ideal situation, while in reality, we can have measurement noise, DC offset, and variations in the voltage signal's amplitude and frequency. Building on the prior PQE classification works using deep learning, this paper proposes a deep-learning framework that leverages attention-enabled Transformers as a tool to accurately classify PQEs under the aforementioned considerations. The proposed framework can operate directly on the voltage signals with no need for a separate feature extraction or calculation phase. Our results show that the proposed framework outperforms recently proposed learning-based techniques. It can accurately classify PQEs under the aforementioned conditions with an accuracy varying between 99.81%$-$91.43% depending on the signal-to-noise ratio, DC offsets, and variations in the signal amplitude and frequency.
翻訳日:2024-02-26 16:28:27 公開日:2024-02-22
# Re-Examine Distantly Supervised NER:新しいベンチマークと簡単なアプローチ

Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach ( http://arxiv.org/abs/2402.14948v1 )

ライセンス: Link先を確認
Yuepei Li, Kang Zhou, Qiao Qiao, Qing Wang and Qi Li(参考訳) 本稿では,偽陽性,偽陰性,陽性型エラーといった固有の誤りにより,ラベルの品質が損なわれることが主な課題である,遠方監視(ds-ner)の枠組みの下で,名前付きエンティティ認識(ner)を展開する。 QTLと呼ばれる実世界のベンチマークデータセットを用いて,現在のDS-NER手法の有効性を批判的に評価し,その性能が期待を満たさないことを明らかにする。 ラベルノイズの一般的な問題に取り組むために,学習過程において「簡単な」サンプルとよりクリーンなサンプルを戦略的に開始し,ノイズサンプルに対するモデルのレジリエンスを高めるための,カリキュラムベースのポジティブ・アンラベル学習キュープルという,単純かつ効果的なアプローチを導入する。 実験結果から,CuPULはノイズラベルの影響を著しく低減し,既存手法より優れていることを示す。

This paper delves into Named Entity Recognition (NER) under the framework of Distant Supervision (DS-NER), where the main challenge lies in the compromised quality of labels due to inherent errors such as false positives, false negatives, and positive type errors. We critically assess the efficacy of current DS-NER methodologies using a real-world benchmark dataset named QTL, revealing that their performance often does not meet expectations. To tackle the prevalent issue of label noise, we introduce a simple yet effective approach, Curriculum-based Positive-Unlabeled Learning CuPUL, which strategically starts on "easy" and cleaner samples during the training process to enhance model resilience to noisy samples. Our empirical results highlight the capability of CuPUL to significantly reduce the impact of noisy labels and outperform existing methods.
翻訳日:2024-02-26 16:28:10 公開日:2024-02-22
# SoK: 敵の事例を分析する: 敵の知識を研究するフレームワーク

SoK: Analyzing Adversarial Examples: A Framework to Study Adversary Knowledge ( http://arxiv.org/abs/2402.14937v1 )

ライセンス: Link先を確認
Lucas Fenaux and Florian Kerschbaum(参考訳) 逆の例は、誤分類を引き起こす機械学習モデルに対する悪意のある入力である。 この種の攻撃は10年近く前から研究されており、攻撃を仕掛ける際の敵の知識の形式化や研究の欠如が判明している。 これにより、難解な脅威モデルと攻撃を伴う攻撃研究の複雑な空間が得られる。 我々は,画像分類領域に着目し,作業順序理論に触発された敵意知識を研究するための理論的枠組みを提供する。 暗号ゲームに触発されて,攻撃を標準化する敵の例ゲームを提案する。 画像分類領域における最近の攻撃を調査し,我々のフレームワークにおける敵の知識を分類する。 このシステム化から,攻撃モデルに関する情報の多さや,ホワイトボックスモデルやトランスファー可能な脅威モデルに関連する困難さ,例えば従来考えられていたような転送可能な攻撃は難しくない,という新たな結論を導き出すことができる。

Adversarial examples are malicious inputs to machine learning models that trigger a misclassification. This type of attack has been studied for close to a decade, and we find that there is a lack of study and formalization of adversary knowledge when mounting attacks. This has yielded a complex space of attack research with hard-to-compare threat models and attacks. We focus on the image classification domain and provide a theoretical framework to study adversary knowledge inspired by work in order theory. We present an adversarial example game, inspired by cryptographic games, to standardize attacks. We survey recent attacks in the image classification domain and classify their adversary's knowledge in our framework. From this systematization, we compile results that both confirm existing beliefs about adversary knowledge, such as the potency of information about the attacked model as well as allow us to derive new conclusions on the difficulty associated with the white-box and transferable threat models, for example, that transferable attacks might not be as difficult as previously thought.
翻訳日:2024-02-26 16:27:53 公開日:2024-02-22
# 2次元オブジェクトバウンディングボックスに基づく経路計画

Path Planning based on 2D Object Bounding-box ( http://arxiv.org/abs/2402.14933v1 )

ライセンス: Link先を確認
Yanliang Huang, Liguo Zhou, Chang Liu, Alois Knoll(参考訳) 都市環境における自律運転(AD)技術の導入は大きな課題である。 これらの課題は、かなり複雑な状況を管理することができる高度な知覚システムと運動計画アルゴリズムの開発を必要とする。 このシナリオでは,LiDARセンサを用いたエンド・ツー・エンドのAD方式が大きな成功を収めているが,その欠点は実用的応用を阻害する可能性があると論じる。 代わりに、我々は、性能を損なうことなく合理化モデルを提供する有望な代替手段として、ビジョン中心のADを提案する。 本研究では,都市走行シナリオにおける模倣学習により開発された物体の2次元バウンディングボックスを用いた経路計画手法を提案する。 これは、HDマップデータを周囲のカメラが捉えた画像と統合することで実現される。 その後の知覚タスクはバウンディングボックスの検出と追跡を伴い、計画フェーズではグラフニューラルネットワーク(GNN)による局所的な埋め込みとTransformerによるグローバルな埋め込みを時間空間的特徴集約に使用し、最終的には最適な経路計画情報を生成する。 提案手法をnuplan planningタスクで評価し,既存の視覚中心の手法と比較し,比較検討を行った。

The implementation of Autonomous Driving (AD) technologies within urban environments presents significant challenges. These challenges necessitate the development of advanced perception systems and motion planning algorithms capable of managing situations of considerable complexity. Although the end-to-end AD method utilizing LiDAR sensors has achieved significant success in this scenario, we argue that its drawbacks may hinder its practical application. Instead, we propose the vision-centric AD as a promising alternative offering a streamlined model without compromising performance. In this study, we present a path planning method that utilizes 2D bounding boxes of objects, developed through imitation learning in urban driving scenarios. This is achieved by integrating high-definition (HD) map data with images captured by surrounding cameras. Subsequent perception tasks involve bounding-box detection and tracking, while the planning phase employs both local embeddings via Graph Neural Network (GNN) and global embeddings via Transformer for temporal-spatial feature aggregation, ultimately producing optimal path planning information. We evaluated our model on the nuPlan planning task and observed that it performs competitively in comparison to existing vision-centric methods.
翻訳日:2024-02-26 16:27:36 公開日:2024-02-22
# Stern-Gerlach実験の量子処理

A quantum treatment of the Stern-Gerlach experiment ( http://arxiv.org/abs/2402.14930v1 )

ライセンス: Link先を確認
K. M. Fonseca-Romero(参考訳) ほとんどの教科書は、ニュートンの原子軌道の助けを借りてスターン・ゲルラッハの実験を提示することでスピンの概念を紹介している。 しかし、空間的自由度とスピン的自由度の両方が時間とともにどのように進化し、後者が実験結果にどのように影響するかを理解するためには、量子的アプローチを採用することが不可欠である。 本稿では,ベーカー・カンベル・ハウスドルフの公式と,相互作用図におけるシュリンガー方程式の直接積分という2つの簡単な方法を提案し,対応する進化作用素を決定する。 この演算子内の個々の項の解釈を提供するだけでなく、半古典的計算との接続を確立することもできる。 さらに,Stern-Gerlach実験の完全な量子記述が,量子計測や非局所性といったトピックへの扉を開くことができることを示すために,波動関数を計算し,位置スピン絡み合いの概念に触れる。

Most textbooks introduce the concept of spin by presenting the Stern-Gerlach experiment with the aid of Newtonian atomic trajectories. However, to understand how both spatial and spin degrees of freedom evolve over time and how the latter influence experimental outcomes, it is essential to employ a quantum approach. In this paper, we offer two simple methods, the Baker-Campbell-Hausdorff formula and the direct integration of the Schr\"odinger equation in an interaction picture, to determine the corresponding evolution operator. We not only provide an interpretation of the individual terms within this operator but also establish connections with semiclassical calculations, when feasible. Moreover, we compute the wave function and touch upon the concept of position-spin entanglement to illustrate how a full quantum description of the Stern-Gerlach experiment can open doors to topics like quantum measurement and nonlocality.
翻訳日:2024-02-26 16:27:16 公開日:2024-02-22
# 感性グループへのアクセスのないフェデレーションフェアネス

Federated Fairness without Access to Sensitive Groups ( http://arxiv.org/abs/2402.14929v1 )

ライセンス: Link先を確認
Afroditi Papadaki, Natalia Martinez, Martin Bertran, Guillermo Sapiro, Miguel Rodrigues(参考訳) 連合学習におけるグループフェアネスに対する現在のアプローチは、トレーニング中に予め定義されたラベル付きセンシティブグループの存在を仮定している。 しかし、新しい規制からダイナミックス、保護されたグループの位置依存性まで、この仮定は多くの現実のシナリオでは不適当である。 本研究では,センシティブグループや追加ラベルの事前定義に依存しない集団公平性を保証するための新しい手法を提案する。 我々の目的は,フェデレーションがパレートの効率の良いグローバルモデルを学習し,グループサイズの制約のみを条件として,単一超パラメータによるフェアネスとユーティリティのトレードオフを可能にすることである。 これは、人口の十分大きな部分集合がモデルから少なくとも最低レベルの実用性能を受け取ることが保証されることを意味する。 提案手法は、経験的リスク最小化や集中型機械学習によるサブグループロバストネス目標など、既存のアプローチを特殊ケースとして包含する。 コンバージェンスと過剰なリスク保証を享受するフェデレーションでこの問題を解決するアルゴリズムを提供する。 実験の結果,提案手法は, 平均性能を損なうことなく, 最悪のパフォーマンス群を効果的に改善し, 関連するベースラインに優劣または同等の性能を示し, フェアネス・ユーティリティのトレードオフの異なる大規模なソリューションを実現できることが示された。

Current approaches to group fairness in federated learning assume the existence of predefined and labeled sensitive groups during training. However, due to factors ranging from emerging regulations to dynamics and location-dependency of protected groups, this assumption may be unsuitable in many real-world scenarios. In this work, we propose a new approach to guarantee group fairness that does not rely on any predefined definition of sensitive groups or additional labels. Our objective allows the federation to learn a Pareto efficient global model ensuring worst-case group fairness and it enables, via a single hyper-parameter, trade-offs between fairness and utility, subject only to a group size constraint. This implies that any sufficiently large subset of the population is guaranteed to receive at least a minimum level of utility performance from the model. The proposed objective encompasses existing approaches as special cases, such as empirical risk minimization and subgroup robustness objectives from centralized machine learning. We provide an algorithm to solve this problem in federation that enjoys convergence and excess risk guarantees. Our empirical results indicate that the proposed approach can effectively improve the worst-performing group that may be present without unnecessarily hurting the average performance, exhibits superior or comparable performance to relevant baselines, and achieves a large set of solutions with different fairness-utility trade-offs.
翻訳日:2024-02-26 16:27:01 公開日:2024-02-22
# 自律車両漂流における逆運動学の学習

Learning Inverse Kinodynamics for Autonomous Vehicle Drifting ( http://arxiv.org/abs/2402.14928v1 )

ライセンス: Link先を確認
M. Suvarna, O. Tehrani(参考訳) 本研究では,小型自動運転車の運動力学モデルを学ぶためのデータ駆動学習に基づくアプローチを探求し,その運動計画,特に自律ドリフトに与える影響を観察する。 現実の世界で動作計画を実行する場合、多くのエラーの原因があり、計画されているものは実際の車では実行されないことが多い。 慣性測定と実行されたコマンドに基づいてキノダイナミックプランナーを学ぶことは、世界状態を学ぶのに役立つ。 我々の場合、漂流の領域に目を向ける。それは、十分に滑らかな表面、十分な速度、そして速度の劇的な変化を必要とする複雑な操作である。 我々はこれらのドリフト操作のためのキノダイナミックモデルを学び、車の滑りを厳しくしようとする。 提案手法は, 高速円形航法のための運動力学モデルを学び, 自律ドリフト上の障害物を高速に回避し, ゆるいドリフトに対して実行された曲率を補正する。 今後の作業において、より厳密なドリフトの成功のために、キノダイナミックモデルを調整することを目指している。

In this work, we explore a data-driven learning-based approach to learning the kinodynamic model of a small autonomous vehicle, and observe the effect it has on motion planning, specifically autonomous drifting. When executing a motion plan in the real world, there are numerous causes for error, and what is planned is often not what is executed on the actual car. Learning a kinodynamic planner based off of inertial measurements and executed commands can help us learn the world state. In our case, we look towards the realm of drifting; it is a complex maneuver that requires a smooth enough surface, high enough speed, and a drastic change in velocity. We attempt to learn the kinodynamic model for these drifting maneuvers, and attempt to tighten the slip of the car. Our approach is able to learn a kinodynamic model for high-speed circular navigation, and is able to avoid obstacles on an autonomous drift at high speed by correcting an executed curvature for loose drifts. We seek to adjust our kinodynamic model for success in tighter drifts in future work.
翻訳日:2024-02-26 16:26:36 公開日:2024-02-22
# 不規則時系列データ解析における安定確率微分方程式

Stable Neural Stochastic Differential Equations in Analyzing Irregular Time Series Data ( http://arxiv.org/abs/2402.14989v1 )

ライセンス: Link先を確認
YongKyung Oh, Dongyoung Lim, Sungil Kim(参考訳) 実世界の時系列データにおける不規則サンプリング間隔と欠落値は、一貫した間隔と完全データを仮定する従来の手法の課題を示す。 ニューラル正規微分方程式(Neural Ordinary Differential Equations (Neural ODEs))は、パラメータ化されたベクトル場を通して連続的な潜在表現を学習するためにODEソルバと結合されたニューラルネットワークを利用する別のアプローチを提供する。 ニューラル確率微分方程式(Neural Stochastic Differential Equations (Neural SDEs))は、拡散項を組み込むことでニューラル ODE を拡張するが、特に不規則区間や欠落値を扱う場合、この加算は自明ではない。 その結果, ドリフトと拡散関数の注意設計は安定性の維持と性能の向上に不可欠であるが, 強い解の欠如, 確率的不安定化, 不安定なオイラー離散化などの不適切な選択はニューラルSDEの性能に大きな影響を及ぼす。 本研究では,Langevin型SDE,Linear Noise SDE,Geometric SDEの3つの安定クラスを提案する。 そして,分布シフト時の優れた性能を維持する上でのロバスト性を示すとともに,過剰フィットを効果的に防止する。 提案手法の有効性を評価するために,補間,予測,分類のための4つのベンチマークデータセットを広範囲に実験し,30の公開データセットを異なる欠落率で分析した。 本研究では,実世界の不規則時系列データを扱うための提案手法の有効性を示す。

Irregular sampling intervals and missing values in real-world time series data present challenges for conventional methods that assume consistent intervals and complete data. Neural Ordinary Differential Equations (Neural ODEs) offer an alternative approach, utilizing neural networks combined with ODE solvers to learn continuous latent representations through parameterized vector fields. Neural Stochastic Differential Equations (Neural SDEs) extend Neural ODEs by incorporating a diffusion term, although this addition is not trivial, particularly when addressing irregular intervals and missing values. Consequently, careful design of drift and diffusion functions is crucial for maintaining stability and enhancing performance, while incautious choices can result in adverse properties such as the absence of strong solutions, stochastic destabilization, or unstable Euler discretizations, significantly affecting Neural SDEs' performance. In this study, we propose three stable classes of Neural SDEs: Langevin-type SDE, Linear Noise SDE, and Geometric SDE. Then, we rigorously demonstrate their robustness in maintaining excellent performance under distribution shift, while effectively preventing overfitting. To assess the effectiveness of our approach, we conduct extensive experiments on four benchmark datasets for interpolation, forecasting, and classification tasks, and analyze the robustness of our methods with 30 public datasets under different missing rates. Our results demonstrate the efficacy of the proposed method in handling real-world irregular time series data.
翻訳日:2024-02-26 16:21:49 公開日:2024-02-22
# 検証可能なブーストツリーアンサンブル

Verifiable Boosted Tree Ensembles ( http://arxiv.org/abs/2402.14988v1 )

ライセンス: Link先を確認
Stefano Calzavara, Lorenzo Cazzaro, Claudio Lucchese, Giulio Ermanno Pibiri(参考訳) 検証可能な学習支持者は、効率的なセキュリティ検証が可能な機械学習モデルをトレーニングする。 以前の研究では、決定木アンサンブルの特定のクラス、すなわち大きなスプレッドアンサンブルは、ノルムベースの攻撃者に対して多項式時間における堅牢性検証を可能にすることが示されていた。 本研究は,XGBoost や LightGBM を用いた学習など,基本的なアンサンブル法(ハードマジョリティ投票)から高度に強化されたツリーアンサンブルへの検証のための先行研究を拡張する。 公式な結果は,$l_\infty$-normに基づく攻撃を考慮すれば,多項式時間でロバスト性検証が達成可能であることを示している。 それでも、任意の$p \in \mathbb{n} \cup \{0\}$に対する$l_p$-normに基づいて攻撃者に対する堅牢性を検証する擬似多項時間アルゴリズムを提案する。 実験により, 大規模アンサンブルの精度は, 安全性検証に有効でありながら, 実用化には十分であることがわかった。

Verifiable learning advocates for training machine learning models amenable to efficient security verification. Prior research demonstrated that specific classes of decision tree ensembles -- called large-spread ensembles -- allow for robustness verification in polynomial time against any norm-based attacker. This study expands prior work on verifiable learning from basic ensemble methods (i.e., hard majority voting) to advanced boosted tree ensembles, such as those trained using XGBoost or LightGBM. Our formal results indicate that robustness verification is achievable in polynomial time when considering attackers based on the $L_\infty$-norm, but remains NP-hard for other norm-based attackers. Nevertheless, we present a pseudo-polynomial time algorithm to verify robustness against attackers based on the $L_p$-norm for any $p \in \mathbb{N} \cup \{0\}$, which in practice grants excellent performance. Our experimental evaluation shows that large-spread boosted ensembles are accurate enough for practical adoption, while being amenable to efficient security verification.
翻訳日:2024-02-26 16:21:02 公開日:2024-02-22
# 平滑化データによる経験的リスク最小化の性能について

On the Performance of Empirical Risk Minimization with Smoothed Data ( http://arxiv.org/abs/2402.14987v1 )

ライセンス: Link先を確認
Adam Block, Alexander Rakhlin, and Abhishek Shetty(参考訳) 逐次的意思決定における統計的・計算的困難さを回避すべく,最近の研究はオンライン学習の円滑化を検討してきた。 以前の研究は滑らかさの利点を示したが、ベース測度は学習者に知られているか、特別な場合にのみ適用される計算効率の悪いアルゴリズムを提示したかのどちらかである。 本研究は,基本尺度が学習者に対して\emph{unknown} であるような,より一般的な設定について検討し,データに不特定かつ滑らかな場合の正方形損失を伴う経験的リスク最小化(erm)の性能に着目した。 特に、erm は$\tilde o( \sqrt{\mathrm{comp}(\mathcal f)\cdot t} )$ でエラースケーリングを実現しており、ここで $\mathrm{comp}(\mathcal f)$ は iid データで $\mathcal f$ を学ぶ統計的複雑性である。 そこで我々は,任意の非線形関数クラスに適用する従属データに対する最初の鋭いノルム比較を含む平滑化データに対する新しいノルム比較を証明した。 これらの結果は,ERMの解析が本質的に厳密であることを示し,スムーズなデータとアイドデータ間のERMの性能の分離を図っている。

In order to circumvent statistical and computational hardness results in sequential decision-making, recent work has considered smoothed online learning, where the distribution of data at each time is assumed to have bounded likeliehood ratio with respect to a base measure when conditioned on the history. While previous works have demonstrated the benefits of smoothness, they have either assumed that the base measure is known to the learner or have presented computationally inefficient algorithms applying only in special cases. This work investigates the more general setting where the base measure is \emph{unknown} to the learner, focusing in particular on the performance of Empirical Risk Minimization (ERM) with square loss when the data are well-specified and smooth. We show that in this setting, ERM is able to achieve sublinear error whenever a class is learnable with iid data; in particular, ERM achieves error scaling as $\tilde O( \sqrt{\mathrm{comp}(\mathcal F)\cdot T} )$, where $\mathrm{comp}(\mathcal F)$ is the statistical complexity of learning $\mathcal F$ with iid data. In so doing, we prove a novel norm comparison bound for smoothed data that comprises the first sharp norm comparison for dependent data applying to arbitrary, nonlinear function classes. We complement these results with a lower bound indicating that our analysis of ERM is essentially tight, establishing a separation in the performance of ERM between smoothed and iid data.
翻訳日:2024-02-26 16:20:30 公開日:2024-02-22
# フラクタルラプラシアン固有写像による非平滑非パラメトリック回帰

Nonsmooth Nonparametric Regression via Fractional Laplacian Eigenmaps ( http://arxiv.org/abs/2402.14985v1 )

ライセンス: Link先を確認
Zhaoyang Shi, Krishnakumar Balasubramanian and Wolfgang Polonik(参考訳) 真の回帰関数が必ずしも滑らかでない場合に、非パラメトリック回帰法を開発する。 より具体的には、我々のアプローチは分数ラプラシアンを使い、真の回帰関数が$L_2$-fractional Sobolev 空間の次数 $s\in (0,1)$ にある場合を扱うように設計されている。 この函数類は、二乗可積分函数の空間と微分可能函数からなる一階ソボレフ空間の間のヒルベルト空間である。 分数パワー関数、分数定数あるいは多項式関数、バンプ関数を標準例として含む。 提案手法では,$d$ が次元,$s$ が上記の順序パラメータ,$n$ が観測数である順序 $n^{-\frac{2s}{2s+d}}$ の平均二乗推定誤差の上限値を証明する。 また,開発した推定器の実用性能を検証するための予備実験結果も提供する。

We develop nonparametric regression methods for the case when the true regression function is not necessarily smooth. More specifically, our approach is using the fractional Laplacian and is designed to handle the case when the true regression function lies in an $L_2$-fractional Sobolev space with order $s\in (0,1)$. This function class is a Hilbert space lying between the space of square-integrable functions and the first-order Sobolev space consisting of differentiable functions. It contains fractional power functions, piecewise constant or polynomial functions and bump function as canonical examples. For the proposed approach, we prove upper bounds on the in-sample mean-squared estimation error of order $n^{-\frac{2s}{2s+d}}$, where $d$ is the dimension, $s$ is the aforementioned order parameter and $n$ is the number of observations. We also provide preliminary empirical results validating the practical performance of the developed estimators.
翻訳日:2024-02-26 16:19:52 公開日:2024-02-22
# フェデレーションラーニングによる情報共有のプライバシー向上-保険会社を事例として

Privacy-Enhancing Collaborative Information Sharing through Federated Learning -- A Case of the Insurance Industry ( http://arxiv.org/abs/2402.14983v1 )

ライセンス: Link先を確認
Panyi Dong, Zhiyu Quan, Brandon Edwards, Shih-han Wang, Runhuan Feng, Tianyang Wang, Patrick Foley, Prashant Shah(参考訳) 報告書は、フェデレートラーニング(FL)の価値を活用して、複数の保険業界データセットをまたいだ単一のモデルを学ぶことで、データセット自体を企業間で共有する必要がないという利点(クレーム損失モデリングの改善という観点から)を実証している。 flの適用は、プライバシの懸念によるデータボリュームとデータバラエティの制限、クレームイベントのララリティ、情報レーティング要因の欠如という、最も差し迫った懸念の2つに対処している。 flの各ラウンドの間、コラボレータはローカルのプライベートデータを使用してモデルの改善を計算し、これらの洞察を組み合わせることでグローバルモデルを更新する。 このような洞察の集約は、各コラボレーターで個別に訓練されたモデルと比較して、クレーム損失予測の有効性を高めることができる。 重要なのは、このアプローチによって、生のデータが各データ所有者の計算インフラストラクチャを離れる必要なしに、機械学習のコラボレーションが可能になることだ。 さらに,我々の実験で使用されているオープンソースフレームワークであるopenflは,機密コンピューティングと,共有モデル更新による情報の漏洩に対するアルゴリズム的保護を併用して実行できるように設計されている。 このような方法でFLは、従来の機械学習ソリューションにおけるデータの感度とプライバシに起因する課題に対処する、プライバシー重視の協調学習技術として実装されている。 この論文のflの適用は、機械学習のコラボレーションにデータプライバシを組み込む同様のニーズを持つ不正検出、災害モデリングなど、他の分野にも拡張することができる。 我々の枠組みと実証結果は、保険会社、規制当局、学術研究者、およびInsurTechの専門家間の将来のコラボレーションの基礎となる。

The report demonstrates the benefits (in terms of improved claims loss modeling) of harnessing the value of Federated Learning (FL) to learn a single model across multiple insurance industry datasets without requiring the datasets themselves to be shared from one company to another. The application of FL addresses two of the most pressing concerns: limited data volume and data variety, which are caused by privacy concerns, the rarity of claim events, the lack of informative rating factors, etc.. During each round of FL, collaborators compute improvements on the model using their local private data, and these insights are combined to update a global model. Such aggregation of insights allows for an increase to the effectiveness in forecasting claims losses compared to models individually trained at each collaborator. Critically, this approach enables machine learning collaboration without the need for raw data to leave the compute infrastructure of each respective data owner. Additionally, the open-source framework, OpenFL, that is used in our experiments is designed so that it can be run using confidential computing as well as with additional algorithmic protections against leakage of information via the shared model updates. In such a way, FL is implemented as a privacy-enhancing collaborative learning technique that addresses the challenges posed by the sensitivity and privacy of data in traditional machine learning solutions. This paper's application of FL can also be expanded to other areas including fraud detection, catastrophe modeling, etc., that have a similar need to incorporate data privacy into machine learning collaborations. Our framework and empirical results provide a foundation for future collaborations among insurers, regulators, academic researchers, and InsurTech experts.
翻訳日:2024-02-26 16:19:31 公開日:2024-02-22
# 真音を聴く時、人間の脳が特定のパターンを識別する:予備的証拠

Human Brain Exhibits Distinct Patterns When Listening to Fake Versus Real Audio: Preliminary Evidence ( http://arxiv.org/abs/2402.14982v1 )

ライセンス: Link先を確認
Mahsa Salehi, Kalin Stefanov, Ehsan Shareghi(参考訳) 本稿では,実聴・偽聴における脳活動の変動について検討する。 予備的な結果は,最先端のdeepfake音声検出アルゴリズムによって得られた表現は,実音声と偽音声の間に明確なパターンを示さないことを示唆している。 対照的に、脳波によって測定された人間の脳活動は、個人が偽音声と実際の音声にさらされたときに異なるパターンを示す。 この予備的証拠は、ディープフェイク音声検出などの領域における将来の研究の方向性を可能にする。

In this paper we study the variations in human brain activity when listening to real and fake audio. Our preliminary results suggest that the representations learned by a state-of-the-art deepfake audio detection algorithm, do not exhibit clear distinct patterns between real and fake audio. In contrast, human brain activity, as measured by EEG, displays distinct patterns when individuals are exposed to fake versus real audio. This preliminary evidence enables future research directions in areas such as deepfake audio detection.
翻訳日:2024-02-26 16:19:02 公開日:2024-02-22
# 不均衡遺伝データの分類・回帰性能向上のためのデータ前処理方法、特徴選択手法、機械学習モデルの比較分析

Comparative Analysis of Data Preprocessing Methods, Feature Selection Techniques and Machine Learning Models for Improved Classification and Regression Performance on Imbalanced Genetic Data ( http://arxiv.org/abs/2402.14980v1 )

ライセンス: Link先を確認
Arshmeet Kaur and Morteza Sarmadi(参考訳) ゲノムシーケンシングの急速な進歩は、膨大な量のゲノムデータの収集につながった。 研究者は、そのようなデータで機械学習モデルを使用して遺伝子変異の病原性や臨床的意義を予測することに興味があるかもしれない。 しかし、多くの遺伝的データセットには、機械学習モデルに問題をもたらす不均衡な目標変数が含まれている。 遺伝的データセットは、しばしば高心的であり、歪んだ予測変数を含んでいる。 データ前処理,特徴選択,モデル選択がこれらのデータセット上で訓練されたモデルの性能に与える影響について検討することを目的とした。 5倍のクロスバリデーションで性能を測定し,異なる組み合わせによる平均r2乗と精度の比較を行った。 予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。 また,クラス不均衡な目標変数と歪んだ予測器は分類性能にほとんど影響を与えなかった。 ランダムフォレストが不均衡回帰タスクに最適なモデルであった。 本研究は,実世界の応用例として遺伝的データセットを用いるが,類似したデータセットには一般化できる。

Rapid advancements in genome sequencing have led to the collection of vast amounts of genomics data. Researchers may be interested in using machine learning models on such data to predict the pathogenicity or clinical significance of a genetic mutation. However, many genetic datasets contain imbalanced target variables that pose challenges to machine learning models: observations are skewed/imbalanced in regression tasks or class-imbalanced in classification tasks. Genetic datasets are also often high-cardinal and contain skewed predictor variables, which poses further challenges. We aimed to investigate the effects of data preprocessing, feature selection techniques, and model selection on the performance of models trained on these datasets. We measured performance with 5-fold cross-validation and compared averaged r-squared and accuracy metrics across different combinations of techniques. We found that outliers/skew in predictor or target variables did not pose a challenge to regression models. We also found that class-imbalanced target variables and skewed predictors had little to no impact on classification performance. Random forest was the best model to use for imbalanced regression tasks. While our study uses a genetic dataset as an example of a real-world application, our findings can be generalized to any similar datasets.
翻訳日:2024-02-26 16:18:55 公開日:2024-02-22
# 人間好みのための言語モデル最適化は因果推論問題である

Optimizing Language Models for Human Preferences is a Causal Inference Problem ( http://arxiv.org/abs/2402.14979v1 )

ライセンス: Link先を確認
Victoria Lin, Eli Ben-Michael, Louis-Philippe Morency(参考訳) 大規模言語モデル(llm)は学術的・商業的な場面で広く使われるため、言語モデルが人間の好みに沿ったテキストを生成する方法への関心が高まっている。 本稿では,直接結果データセットから人間好みの言語モデル最適化の初期検討を行い,各サンプルがテキストからなり,読者の反応を計測する数値結果が得られた。 まず、言語モデルの最適化は、モデルがテキストと結果の関係を正しく学習することを保証するための因果問題と見なすべきである。 この因果的言語最適化問題を定式化し,問題に対する偏りのない帰納的目的を解決する手法-causal preference optimization (cpo) を開発した。 さらにCPOを2倍に頑健なCPO(DR-CPO)で拡張し,サロゲート目標のばらつきを低減し,バイアスに対する強い保証を維持した。 最後に,直接結果データに対する人間の好みに対する最先端llmの最適化における(dr-)cpoの有効性を実証的に示し,困難なコンファウンディング条件下でのdr-cpoのロバスト性を検証する。

As large language models (LLMs) see greater use in academic and commercial settings, there is increasing interest in methods that allow language models to generate texts aligned with human preferences. In this paper, we present an initial exploration of language model optimization for human preferences from direct outcome datasets, where each sample consists of a text and an associated numerical outcome measuring the reader's response. We first propose that language model optimization should be viewed as a causal problem to ensure that the model correctly learns the relationship between the text and the outcome. We formalize this causal language optimization problem, and we develop a method--causal preference optimization (CPO)--that solves an unbiased surrogate objective for the problem. We further extend CPO with doubly robust CPO (DR-CPO), which reduces the variance of the surrogate objective while retaining provably strong guarantees on bias. Finally, we empirically demonstrate the effectiveness of (DR-)CPO in optimizing state-of-the-art LLMs for human preferences on direct outcome data, and we validate the robustness of DR-CPO under difficult confounding conditions.
翻訳日:2024-02-26 16:18:36 公開日:2024-02-22
# AIによる増補型ブレインライト:グループ思考におけるLLMの利用を探る

AI-Augmented Brainwriting: Investigating the use of LLMs in group ideation ( http://arxiv.org/abs/2402.14978v1 )

ライセンス: Link先を確認
Orit Shaer, Angelora Cooper, Osnat Mokryn, Andrew L. Kun, Hagit Ben Shoshan(参考訳) 大規模言語モデル(LLMs)のような生成AI技術の普及は、創造的な作業に重大な影響を及ぼす。 本稿では, LLM を創造的プロセス, アイデア生成の分岐段階, およびアイデアの評価と選択の収束段階に統合する2つの側面について考察する。 我々は,LLMをグループ思考プロセスの強化として組み込んだ協調グループAIブレインライト構想フレームワークを考案し,アイデア生成プロセスと結果のソリューション空間を評価した。 アイデア評価プロセスにおけるLLMの使用可能性を評価するため,評価エンジンを設計し,これらを3人の専門家と6人の初心者によるアイデア評価と比較した。 以上の結果から,LEMを脳書記に組み込むことで,思考過程と結果の両面で向上できる可能性が示唆された。 また,LLMがアイデア評価を支持できることを示す。 我々は、HCI教育と実践の意義について論じる。

The growing availability of generative AI technologies such as large language models (LLMs) has significant implications for creative work. This paper explores twofold aspects of integrating LLMs into the creative process - the divergence stage of idea generation, and the convergence stage of evaluation and selection of ideas. We devised a collaborative group-AI Brainwriting ideation framework, which incorporated an LLM as an enhancement into the group ideation process, and evaluated the idea generation process and the resulted solution space. To assess the potential of using LLMs in the idea evaluation process, we design an evaluation engine and compared it to idea ratings assigned by three expert and six novice evaluators. Our findings suggest that integrating LLM in Brainwriting could enhance both the ideation process and its outcome. We also provide evidence that LLMs can support idea evaluation. We conclude by discussing implications for HCI education and practice.
翻訳日:2024-02-26 16:18:15 公開日:2024-02-22
# Mudjacking: ファンデーションモデルにおけるバックドア脆弱性の対処

Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models ( http://arxiv.org/abs/2402.14977v1 )

ライセンス: Link先を確認
Hongbin Liu, Michael K. Reiter, Neil Zhenqiang Gong(参考訳) ファンデーションモデルは、AIエコシステムのバックボーンとなっている。 特に、様々な下流分類器を構築するための汎用特徴抽出器として基礎モデルを用いることができる。 しかし、基盤モデルはバックドア攻撃に対して脆弱であり、バックドアの基盤モデルはaiエコシステムの単一障害(例えば、複数の下流の分類器がバックドアの脆弱性を同時に継承する)である。 本研究では,バックドアの除去に基礎モデルをパッチする最初の方法であるMudjackingを提案する。 具体的には、バックドアモデルがデプロイされた後に検出された誤分類トリガー埋め込み入力に対して、Mudjackingはファンデーションモデルのパラメータを調整してバックドアを除去する。 最適化問題として基礎モデルのパッチを定式化し,その解法として勾配降下法を提案する。 視覚と言語の基礎モデル、11のベンチマークデータセット、既存の5つのバックドア攻撃、13の適応バックドア攻撃でMudjackingを評価する。 その結果,マッドジャックは実用性を維持しつつ,基礎モデルからバックドアを除去できることがわかった。

Foundation model has become the backbone of the AI ecosystem. In particular, a foundation model can be used as a general-purpose feature extractor to build various downstream classifiers. However, foundation models are vulnerable to backdoor attacks and a backdoored foundation model is a single-point-of-failure of the AI ecosystem, e.g., multiple downstream classifiers inherit the backdoor vulnerabilities simultaneously. In this work, we propose Mudjacking, the first method to patch foundation models to remove backdoors. Specifically, given a misclassified trigger-embedded input detected after a backdoored foundation model is deployed, Mudjacking adjusts the parameters of the foundation model to remove the backdoor. We formulate patching a foundation model as an optimization problem and propose a gradient descent based method to solve it. We evaluate Mudjacking on both vision and language foundation models, eleven benchmark datasets, five existing backdoor attacks, and thirteen adaptive backdoor attacks. Our results show that Mudjacking can remove backdoor from a foundation model while maintaining its utility.
翻訳日:2024-02-26 16:17:58 公開日:2024-02-22
# 深層基礎潜在空間における教師なし領域適応

Unsupervised Domain Adaptation within Deep Foundation Latent Spaces ( http://arxiv.org/abs/2402.14976v1 )

ライセンス: Link先を確認
Dmitry Kangin, Plamen Angelov(参考訳) ViTやDino-V2のようなビジョントランスフォーマーベースの基礎モデルは、機能の微調整をほとんどあるいは全く行わずに問題を解決することを目的としている。 原型ネットワークの設定を用いて、ソースやターゲットドメインを微調整することなく、そのような基礎モデルが教師なしドメイン適応をどの程度解決できるかを分析する。 定量的分析や意思決定の質的解釈を通じて,提案手法が既存のベースラインを改善し,未解決の手法の限界を提示できることを実証する。

The vision transformer-based foundation models, such as ViT or Dino-V2, are aimed at solving problems with little or no finetuning of features. Using a setting of prototypical networks, we analyse to what extent such foundation models can solve unsupervised domain adaptation without finetuning over the source or target domain. Through quantitative analysis, as well as qualitative interpretations of decision making, we demonstrate that the suggested method can improve upon existing baselines, as well as showcase the limitations of such approach yet to be solved.
翻訳日:2024-02-26 16:17:40 公開日:2024-02-22
# 非ユークリッド空間における空間ルーシAI分類に向けて:MxIFオンコロジーデータへの応用

Towards Spatially-Lucid AI Classification in Non-Euclidean Space: An Application for MxIF Oncology Data ( http://arxiv.org/abs/2402.14974v1 )

ライセンス: Link先を確認
Majid Farhadloo, Arun Sharma, Jayant Gupta, Alexey Leontovich, Svetomir N. Markovic and Shashi Shekhar(参考訳) 異なる場所の異なる複数カテゴリの点集合が与えられた場合、その点の配置に基づいて2つのクラスを区別できる空間的分類器を開発することが目的である。 この問題は、腫瘍と腫瘍の関係を分析し、新しい免疫療法を設計するための腫瘍学などの多くの応用において重要である。 空間的な変動と解釈の必要性から困難である。 これまで提案されていた手法は、密集したトレーニングデータを必要とするか、あるいは1つの場所タイプで大きな空間変動を扱う能力に制限がある。 最も重要なことは、これらのディープニューラルネットワーク(DNN)アプローチは、非ユークリッド空間、特に点集合で機能するように設計されていないことである。 既存の非ユークリッド DNN の手法は1つの大きさのアプローチに限られる。 本研究では,空間的明快な分類のために,重み付き距離学習率や空間領域適応など,異なる学習戦略を明示的に利用する空間的アンサンブルフレームワークについて検討する。 実世界のデータセット(例えばMxIFオンコロジーデータ)の実験結果は、提案フレームワークがベースライン法よりも高い予測精度を提供することを示している。

Given multi-category point sets from different place-types, our goal is to develop a spatially-lucid classifier that can distinguish between two classes based on the arrangements of their points. This problem is important for many applications, such as oncology, for analyzing immune-tumor relationships and designing new immunotherapies. It is challenging due to spatial variability and interpretability needs. Previously proposed techniques require dense training data or have limited ability to handle significant spatial variability within a single place-type. Most importantly, these deep neural network (DNN) approaches are not designed to work in non-Euclidean space, particularly point sets. Existing non-Euclidean DNN methods are limited to one-size-fits-all approaches. We explore a spatial ensemble framework that explicitly uses different training strategies, including weighted-distance learning rate and spatial domain adaptation, on various place-types for spatially-lucid classification. Experimental results on real-world datasets (e.g., MxIF oncology data) show that the proposed framework provides higher prediction accuracy than baseline methods.
翻訳日:2024-02-26 16:17:31 公開日:2024-02-22
# GenCeption:Unlabeled Unimodal Dataを用いたマルチモーダルLCMの評価

GenCeption: Evaluate Multimodal LLMs with Unlabeled Unimodal Data ( http://arxiv.org/abs/2402.14973v1 )

ライセンス: Link先を確認
Lele Cao, Valentin Buchner, Zineb Senane and Fangkai Yang(参考訳) MLLM(Multimodal Large Language Models)は、高価な注釈付きマルチモーダルベンチマークを用いて一般的に評価される。 しかしながら、これらのベンチマークはMLLM評価の急速に進歩した要求に追従するのに苦労することが多い。 GenCeptionは,モダリティ間のセマンティックコヒーレンスを評価するためにモダリティデータのみを必要とする新しい,アノテーションのないMLLM評価フレームワークである。 人気のDrawCeptionゲームと同様、GenCeptionは非テキストサンプルで開始し、一連の反復的な記述と生成ステップを実行している。 反復のセマンティックドリフトはGC@Tメトリックを用いて定量化される。 我々はGenCeptionの有効性を実証し,MLLMベンチマークの結果と強い相関関係を示した。 genceptionは、ユビキタスで未発見のユニモーダルデータを利用することで、トレーニングデータの汚染を軽減するために拡張することができる。

Multimodal Large Language Models (MLLMs) are commonly evaluated using costly annotated multimodal benchmarks. However, these benchmarks often struggle to keep pace with the rapidly advancing requirements of MLLM evaluation. We propose GenCeption, a novel and annotation-free MLLM evaluation framework that merely requires unimodal data to assess inter-modality semantic coherence and inversely reflects the models' inclination to hallucinate. Analogous to the popular DrawCeption game, GenCeption initiates with a non-textual sample and undergoes a series of iterative description and generation steps. Semantic drift across iterations is quantified using the GC@T metric. Our empirical findings validate GenCeption's efficacy, showing strong correlations with popular MLLM benchmarking results. GenCeption may be extended to mitigate training data contamination by utilizing ubiquitous, previously unseen unimodal data.
翻訳日:2024-02-26 16:17:11 公開日:2024-02-22
# MultiLS: マルチタスクの語彙単純化フレームワーク

MultiLS: A Multi-task Lexical Simplification Framework ( http://arxiv.org/abs/2402.14972v1 )

ライセンス: Link先を確認
Kai North, Tharindu Ranasinghe, Matthew Shardlow, Marcos Zampieri(参考訳) Lexical Simplification (LS) は、文の本来の意味を保ちながら、読みにくい単語を簡単な代替語に置き換える。 LSは、児童、第二言語学習者、読書障害または低識字率の個人を含む、さまざまなターゲット層に対するテキストアクセシビリティ向上を目的とした、テキスト単純化の先駆者である。 LSにはいくつかのデータセットが存在する。 これらのLSデータセットはLSパイプライン内の1つまたは2つのサブタスクに特化している。 しかし、現時点では全てのLSサブタスクをカバーする単一のLSデータセットは開発されていない。 マルチタスクLSデータセットの作成を可能にする最初のLSフレームワークであるMultiLSを提案する。 また,MultiLSフレームワークを用いた最初のデータセットであるMultiLS-PTを提案する。 1)の全てのLSサブタスクを実行することで,MultiLS-PTの可能性を示す。 語彙複雑性予測(lcp) (2) 代用世代、および (3) ポルトガル語の代名詞です モデル性能は、トランスフォーマーベースモデルから、より最近の大規模言語モデル(LLM)まで様々である。

Lexical Simplification (LS) automatically replaces difficult to read words for easier alternatives while preserving a sentence's original meaning. LS is a precursor to Text Simplification with the aim of improving text accessibility to various target demographics, including children, second language learners, individuals with reading disabilities or low literacy. Several datasets exist for LS. These LS datasets specialize on one or two sub-tasks within the LS pipeline. However, as of this moment, no single LS dataset has been developed that covers all LS sub-tasks. We present MultiLS, the first LS framework that allows for the creation of a multi-task LS dataset. We also present MultiLS-PT, the first dataset to be created using the MultiLS framework. We demonstrate the potential of MultiLS-PT by carrying out all LS sub-tasks of (1). lexical complexity prediction (LCP), (2). substitute generation, and (3). substitute ranking for Portuguese. Model performances are reported, ranging from transformer-based models to more recent large language models (LLMs).
翻訳日:2024-02-26 16:16:54 公開日:2024-02-22
# 閉弱相互作用系の非コヒーレント進化は、ミクロ状態の確率の分配をもたらす

Non-coherent evolution of closed weakly interacting system leads to equidistribution of probabilities of microstates ( http://arxiv.org/abs/2402.14971v1 )

ライセンス: Link先を確認
A.P. Meilakhs(参考訳) 我々は、マクロ量子システムの非コヒーレント進化の概念を紹介する。 弱い相互作用系では、そのような進化は対称な連続時間マルコフ連鎖によって記述される。 遷移速度行列の非対角要素はフェルミの黄金則によって見ることができる。 このような進化は可逆的であり、システムのあらゆる状態にわたる確率の均等分布に繋がる。 さらに、状態の占有数の平均値の時間依存性を探索し、その仮定の下でボルツマン衝突積分によって支配されることを示す。 この理論では、非コヒーレンス (non-coherence) は時間可逆ユニタリ進化を時間可逆確率進化に変換するメカニズムである。 そこで,弱相互作用系に対する有名な時空問題の解法を提案する。

We introduce a concept of non-coherent evolution of macroscopic quantum systems. We show that for weakly interacting systems such evolution is described by a symmetric continuous-time Markov chain. The non-diagonal elements of its transition rate matrix can be found by Fermi's golden rule. Such evolution is time-irreversible and leads to the equidistribution of probabilities across every state of the system. Further, we search for time dependence of mean values of occupation number of states and find that under made assumptions it is governed by Boltzmann collision integral. In this theory, the non-coherence is the mechanism that transforms time-reversible unitary evolution into time-irreversible stochastic evolution. Thus we present the possible solution for the famous time-arrow problem for weakly interacting systems.
翻訳日:2024-02-26 16:16:34 公開日:2024-02-22
# clove:コントラスト視覚言語モデルにおける構成言語エンコーディング

CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models ( http://arxiv.org/abs/2402.15021v1 )

ライセンス: Link先を確認
Santiago Castro, Amir Ziai, Avneesh Saluja, Zhuoning Yuan, Rada Mihalcea(参考訳) 近年では、視覚と言語タスクのパフォーマンスが大幅に向上している。 クリップなどの基本視覚言語モデル(vlms)は、複数の設定で活用され、複数のタスクで顕著なパフォーマンスを示している。 このようなモデルはオブジェクト中心の認識に優れているが、単語順に不変に見えるテキスト表現を学習し、新しい方法で既知の概念を構成することができない。 しかしながら、GPT-4Vのような大規模単一ストリームモデルを含むVLMが、うまく構成を識別する証拠は存在しない。 本稿では,既存のモデルが構成言語を符号化し,10%以上の絶対的な構成性ベンチマークの改善を実現しつつ,標準オブジェクト認識・検索ベンチマークの性能を維持・改善するフレームワークを提案する。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/netflix/clove.comで公開されています。

Recent years have witnessed a significant increase in the performance of Vision and Language tasks. Foundational Vision-Language Models (VLMs), such as CLIP, have been leveraged in multiple settings and demonstrated remarkable performance across several tasks. Such models excel at object-centric recognition yet learn text representations that seem invariant to word order, failing to compose known concepts in novel ways. However, no evidence exists that any VLM, including large-scale single-stream models such as GPT-4V, identifies compositions successfully. In this paper, we introduce a framework to significantly improve the ability of existing models to encode compositional language, with over 10% absolute improvement on compositionality benchmarks, while maintaining or improving the performance on standard object-recognition and retrieval benchmarks. Our code and pre-trained models are publicly available at https://github.com/netflix/clove.
翻訳日:2024-02-26 16:10:51 公開日:2024-02-22
# マスク付き言語モデルを用いた確率音波探索

Probabilistically-sound beam search with masked language models ( http://arxiv.org/abs/2402.15020v1 )

ライセンス: Link先を確認
Charlie Cowen-Breen, Creston Brooks, Robert Calef, Anna Sappington(参考訳) マスク付き言語モデル(MLM)を用いたビームサーチは、自己回帰モデルとは異なり、シーケンス上の結合確率分布が容易には利用できないため、部分的には困難である。 それにもかかわらず、そのような分布の推定は、タンパク質工学や古代のテキスト復元を含む多くの領域で応用されている。 MLMを用いたビームサーチの確率論的手法を提案する。 まず,標準ビーム探索を用いてmlmsでテキストインフィルングを行うのが理論的に妥当な条件を明らかにする。 これらの条件が失敗した場合、さらなる計算複雑性を伴わない確率的音響修正を行い、上記の予測条件におけるビーム探索よりも優れていることを示す。 次に,複数の領域にわたるmlmを用いたインフィルディングアプローチを比較した実験結果を示す。

Beam search with masked language models (MLMs) is challenging in part because joint probability distributions over sequences are not readily available, unlike for autoregressive models. Nevertheless, estimating such distributions has applications in many domains, including protein engineering and ancient text restoration. We present probabilistically-sound methods for beam search with MLMs. First, we clarify the conditions under which it is theoretically sound to perform text infilling with MLMs using standard beam search. When these conditions fail, we provide a probabilistically-sound modification with no additional computational complexity and demonstrate that it is superior to the aforementioned beam search in the expected conditions. We then present empirical results comparing several infilling approaches with MLMs across several domains.
翻訳日:2024-02-26 16:10:37 公開日:2024-02-22
# 領域外校正のためのスタイル情報とコンテンツ情報を用いた一貫性誘導型温度スケーリング

Consistency-Guided Temperature Scaling Using Style and Content Information for Out-of-Domain Calibration ( http://arxiv.org/abs/2402.15019v1 )

ライセンス: Link先を確認
Wonjeong Choi, Jungwuk Park, Dong-Jun Han, Younghyun Park, Jaekyun Moon(参考訳) 近年,ドメインシフトに対するディープニューラルネットワークの堅牢性に対する研究の関心が高まっている。 しかし、既存の作品の多くはモデルの精度の向上に焦点を合わせており、これは信頼できるaiシステムにとって重要な要件であるキャリブレーション性能ではない。 温度スケール法 (TS) はドメイン内設定において有効であるが, 未確認領域の検証セットを事前に取得することが困難であるため, ドメイン外設定では有効であることが証明されている。 本稿では,ソース領域のデータサンプル間の相互監視を提供することにより,oodキャリブレーション性能を著しく向上させる新たな温度スケーリング戦略である,一貫性誘導型温度スケーリング(cts)を提案する。 一貫性のないサンプル予測による過信がoodキャリブレーションの主な障害であるという観測に動機づけられ、複数のドメインの設定でデータサンプルを適切に表現できる重要なコンポーネントであるスタイルとコンテンツという2つの異なる側面の観点から構成を考慮に入れて、スケーリングプロセスを導くことを提案します。 実験の結果,提案手法は既存の手法よりも優れており,各種データセット上でのOOD校正性能に優れていた。 これは、精度を損なうことなくソースドメインのみを使用することで実現でき、我々のスキームは様々な信頼できるAIシステムに直接適用できる。

Research interests in the robustness of deep neural networks against domain shifts have been rapidly increasing in recent years. Most existing works, however, focus on improving the accuracy of the model, not the calibration performance which is another important requirement for trustworthy AI systems. Temperature scaling (TS), an accuracy-preserving post-hoc calibration method, has been proven to be effective in in-domain settings, but not in out-of-domain (OOD) due to the difficulty in obtaining a validation set for the unseen domain beforehand. In this paper, we propose consistency-guided temperature scaling (CTS), a new temperature scaling strategy that can significantly enhance the OOD calibration performance by providing mutual supervision among data samples in the source domains. Motivated by our observation that over-confidence stemming from inconsistent sample predictions is the main obstacle to OOD calibration, we propose to guide the scaling process by taking consistencies into account in terms of two different aspects -- style and content -- which are the key components that can well-represent data samples in multi-domain settings. Experimental results demonstrate that our proposed strategy outperforms existing works, achieving superior OOD calibration performance on various datasets. This can be accomplished by employing only the source domains without compromising accuracy, making our scheme directly applicable to various trustworthy AI systems.
翻訳日:2024-02-26 16:10:24 公開日:2024-02-22
# LLMアライメントのグローバル表現への影響

Unintended Impacts of LLM Alignment on Global Representation ( http://arxiv.org/abs/2402.15018v1 )

ライセンス: Link先を確認
Michael J. Ryan, William Held, Diyi Yang(参考訳) ユーザ向けアプリケーションにデプロイする前に、開発者は、Reinforcement Learning From Human Feedback (RLHF)やDirect Preference Optimization (DPO)など、さまざまな手順を通じて、大規模言語モデル(LLM)をユーザの好みに合わせる。 これらの手順の最近の評価は、命令追従、推論、真理性のベンチマークに焦点を当てている。 しかし、人間の選好は普遍的ではなく、特定の選好集合に合わせると意図しない効果がある。 我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。 その結果,現在のアライメント手順は,英語方言とグローバルな意見の相違を生じさせることがわかった。 いくつかの言語でアライメントが向上する。 結論として、意図しない影響と、より公平な好み調整のための推奨をもたらす設計決定について議論した。

Before being deployed for user-facing applications, developers align Large Language Models (LLMs) to user preferences through a variety of procedures, such as Reinforcement Learning From Human Feedback (RLHF) and Direct Preference Optimization (DPO). Current evaluations of these procedures focus on benchmarks of instruction following, reasoning, and truthfulness. However, human preferences are not universal, and aligning to specific preference sets may have unintended effects. We explore how alignment impacts performance along three axes of global representation: English dialects, multilingualism, and opinions from and about countries worldwide. Our results show that current alignment procedures create disparities between English dialects and global opinions. We find alignment improves capabilities in several languages. We conclude by discussing design decisions that led to these unintended impacts and recommendations for more equitable preference tuning.
翻訳日:2024-02-26 16:09:58 公開日:2024-02-22
# マルチタスクファインタニングによる基礎モデルのFew-Shot適応に向けて

Towards Few-Shot Adaptation of Foundation Models via Multitask Finetuning ( http://arxiv.org/abs/2402.15017v1 )

ライセンス: Link先を確認
Zhuoyan Xu, Zhenmei Shi, Junyi Wei, Fangzhou Mu, Yin Li, Yingyu Liang(参考訳) ファンデーションモデルは、多くのAI問題の強力なツールとして登場した。 基礎モデルの成功にもかかわらず、新しいタスク、特に限定ラベルを持つタスクへの効果的な適応は未解決の問題であり、理論的理解を欠いている。 視覚とNLPが最近成功した新しいソリューションは、限られたラベル付きサンプルで対象タスクに適応する前に、関連するタスクの選択に関する基礎モデルを微調整することである。 本稿では,このマルチタスクファインタニング手法の理論的正当性について検討する。 理論解析の結果,このマルチタスクの微調整は,同じ事前学習モデルを直接適用することに比べ,対象タスクの誤差を減少させることが明らかとなった。 タスクの微調整と対象タスクの関係を多様性と一貫性の指標を用いて定量化し,より実用的なタスク選択アルゴリズムを提案する。 我々は理論的な主張を広範な実証的な証拠で裏付ける。 さらに,対象タスクのモデル性能に有利な,関連する微調整タスクを適切に選択するタスク選択アルゴリズムを肯定する結果を提示する。 我々の研究は、豊富なラベルを欠いた新しいタスクに基礎モデルの効果的な適応に新たな光を当てたと信じている。 私たちのコードはhttps://github.com/OliverXUZY/Foudation-Model_Multitaskで利用可能です。

Foundation models have emerged as a powerful tool for many AI problems. Despite the tremendous success of foundation models, effective adaptation to new tasks, particularly those with limited labels, remains an open question and lacks theoretical understanding. An emerging solution with recent success in vision and NLP involves finetuning a foundation model on a selection of relevant tasks, before its adaptation to a target task with limited labeled samples. In this paper, we study the theoretical justification of this multitask finetuning approach. Our theoretical analysis reveals that with a diverse set of related tasks, this multitask finetuning leads to reduced error in the target task, in comparison to directly adapting the same pretrained model. We quantify the relationship between finetuning tasks and target tasks by diversity and consistency metrics, and further propose a practical task selection algorithm. We substantiate our theoretical claims with extensive empirical evidence. Further, we present results affirming our task selection algorithm adeptly chooses related finetuning tasks, providing advantages to the model performance on target tasks. We believe our study shed new light on the effective adaptation of foundation models to new tasks that lack abundant labels. Our code is available at https://github.com/OliverXUZY/Foudation-Model_Multitask.
翻訳日:2024-02-26 16:09:41 公開日:2024-02-22
# フィルターバブルか均質化か? ユーザの消費パターンに対するレコメンデーションの長期的影響に関する分析

Filter Bubble or Homogenization? Disentangling the Long-Term Effects of Recommendations on User Consumption Patterns ( http://arxiv.org/abs/2402.15013v1 )

ライセンス: Link先を確認
Md Sanzeed Anwar, Grant Schoenebeck, Paramveer S. Dhillon(参考訳) 推奨アルゴリズムは、メディアの選択を形作る上で重要な役割を担います。 これらのアルゴリズムは、2つの重要な結果に関連付けられている: 均質化(homogenization)、ユーザーは異なる好みにもかかわらず類似したコンテンツを消費する、フィルターバブル効果(Filter bubble effect)。 以前の研究は、均質化とフィルターバブル効果のトレードオフを仮定し、パーソナライズドレコメンデーションが均質化を促進することによってフィルターバブルを緩和することを示している。 しかし、この2つの効果のトレードオフという仮定のため、事前の作業は、いかにレコメンデーションシステムがホモゲン化とフィルターバブル効果に独立にどのように影響するかについてより微妙な視点を築けない。 本研究では, ユーザ間での平均消費がどの程度異なるか(ユーザ間多様性)と, 個人の消費がいかに異なるか(ユーザ間多様性)という2つの重要な指標に分解することで, 均質化とフィルタバブル効果のより洗練された定義を開発する。 次に,提案手法が均質化およびフィルタバブル効果に与える影響を総合的に把握する新しいエージェント・ベース・シミュレーション・フレームワークを用いる。 シミュレーションの結果,従来のレコメンデーションアルゴリズム(過去の行動に基づく)は,ユーザ間の多様性に大きな影響を与えることなく,フィルタバブルを低減していることがわかった。 これらの結果をもとに,両種の多様性を考慮し,より微妙なアプローチによる推薦アルゴリズムを2つ導入した。

Recommendation algorithms play a pivotal role in shaping our media choices, which makes it crucial to comprehend their long-term impact on user behavior. These algorithms are often linked to two critical outcomes: homogenization, wherein users consume similar content despite disparate underlying preferences, and the filter bubble effect, wherein individuals with differing preferences only consume content aligned with their preferences (without much overlap with other users). Prior research assumes a trade-off between homogenization and filter bubble effects and then shows that personalized recommendations mitigate filter bubbles by fostering homogenization. However, because of this assumption of a tradeoff between these two effects, prior work cannot develop a more nuanced view of how recommendation systems may independently impact homogenization and filter bubble effects. We develop a more refined definition of homogenization and the filter bubble effect by decomposing them into two key metrics: how different the average consumption is between users (inter-user diversity) and how varied an individual's consumption is (intra-user diversity). We then use a novel agent-based simulation framework that enables a holistic view of the impact of recommendation systems on homogenization and filter bubble effects. Our simulations show that traditional recommendation algorithms (based on past behavior) mainly reduce filter bubbles by affecting inter-user diversity without significantly impacting intra-user diversity. Building on these findings, we introduce two new recommendation algorithms that take a more nuanced approach by accounting for both types of diversity.
翻訳日:2024-02-26 16:09:22 公開日:2024-02-22
# Ar-Spider: アラビア語でテキストからSQL

Ar-Spider: Text-to-SQL in Arabic ( http://arxiv.org/abs/2402.15012v1 )

ライセンス: Link先を確認
Saleh Almohaimeed, Saad Almohaimeed, Mansour Al Ghanim, Liqiang Wang(参考訳) 自然言語処理(NLP)において、最も重要なタスクの1つは、ユーザがより自然な方法でデータベースと対話できるようにすることに焦点を当てた、テキストからSQLへのセマンティック解析である。 近年、テキスト対sqlは大きな進歩を遂げているが、そのほとんどは英語中心だった。 本稿では,アラビア語によるクロスドメインテキスト-SQLデータセットAr-Spider 1について紹介する。 言語の特徴から、スキーマ言語とsqlの構造上の課題という2つの大きな課題に直面している。 これらの問題に対処し、実験を行うために、2つのベースラインモデル LGESQL [4] と S2SQL [12] を採用する。 ベースラインは、アラビア語のテキストからSQLへのデータセットであるAr-Spiderで、S2SQLで62.48%、LGESQLで65.57%を達成している。 これにより、S2SQLの1.52%、LGESQLの1.06%の全体的なパフォーマンスが大幅に向上し、アラビア語と英語のギャップを7.73%に短縮する。

In Natural Language Processing (NLP), one of the most important tasks is text-to-SQL semantic parsing, which focuses on enabling users to interact with the database in a more natural manner. In recent years, text-to-SQL has made significant progress, but most were English-centric. In this paper, we introduce Ar-Spider 1, the first Arabic cross-domain text-to-SQL dataset. Due to the unique nature of the language, two major challenges have been encountered, namely schema linguistic and SQL structural challenges. In order to handle these issues and conduct the experiments, we adopt two baseline models LGESQL [4] and S2SQL [12], both of which are tested with two cross-lingual models to alleviate the effects of schema linguistic and SQL structure linking challenges. The baselines demonstrate decent single-language performance on our Arabic text-to-SQL dataset, Ar-Spider, achieving 62.48% for S2SQL and 65.57% for LGESQL, only 8.79% below the highest results achieved by the baselines when trained in English dataset. To achieve better performance on Arabic text-to-SQL, we propose the context similarity relationship (CSR) approach, which results in a significant increase in the overall performance of about 1.52% for S2SQL and 1.06% for LGESQL and closes the gap between Arabic and English languages to 7.73%.
翻訳日:2024-02-26 16:08:52 公開日:2024-02-22
# 会話型脳-人工知能インタフェース

A Conversational Brain-Artificial Intelligence Interface ( http://arxiv.org/abs/2402.15011v1 )

ライセンス: Link先を確認
Anja Meunier, Michal Robert \v{Z}\'ak, Lucas Munz, Sofiya Garkot, Manuel Eder, Jiachen Xu, Moritz Grosse-Wentrup(参考訳) 我々は脳-人工知能インタフェース(BAI)を脳-コンピュータインタフェース(BCI)の新しいクラスとして紹介する。 従来の認知能力に依存したBCIとは異なり、BAIは人工知能の力を利用して神経認知処理パイプラインの一部を置き換える。 事前訓練されたAIエージェントが低レベルの詳細を決定する間、BAIはユーザーが高レベルな意図を提供することで複雑なタスクを達成できる。 このアプローチは、従来のBCIの利点から除外されることが多い認知障害を持つ個人に対して、BCIのターゲットのオーディエンスを拡大する。 我々は,脳波に基づく会話型BAIを用いて,BAIの一般概念を提示し,この新しいアプローチの可能性を示す。 特に,対話型BAIでは,言語を生成せずに複雑なコミュニケーションが可能な電話会話のシミュレーション実験を行った。 そこで本研究は,非侵襲的技術を用いた現実的なシナリオにおいて,言語ニューロプロテーゼによる流動的なコミュニケーションを可能にする能力について,初めて実証した。

We introduce Brain-Artificial Intelligence Interfaces (BAIs) as a new class of Brain-Computer Interfaces (BCIs). Unlike conventional BCIs, which rely on intact cognitive capabilities, BAIs leverage the power of artificial intelligence to replace parts of the neuro-cognitive processing pipeline. BAIs allow users to accomplish complex tasks by providing high-level intentions, while a pre-trained AI agent determines low-level details. This approach enlarges the target audience of BCIs to individuals with cognitive impairments, a population often excluded from the benefits of conventional BCIs. We present the general concept of BAIs and illustrate the potential of this new approach with a Conversational BAI based on EEG. In particular, we show in an experiment with simulated phone conversations that the Conversational BAI enables complex communication without the need to generate language. Our work thus demonstrates, for the first time, the ability of a speech neuroprosthesis to enable fluent communication in realistic scenarios with non-invasive technologies.
翻訳日:2024-02-26 16:08:27 公開日:2024-02-22
# フランス語医療マスケード言語モデルにおけるトークン化の重要性

How Important Is Tokenization in French Medical Masked Language Models? ( http://arxiv.org/abs/2402.15010v1 )

ライセンス: Link先を確認
Yanis Labrak, Adrien Bazoge, Beatrice Daille, Mickael Rouvier, Richard Dufour(参考訳) 近年、自然言語処理(nlp)の分野では、主に事前学習された言語モデルの普及により、サブワードのトークン化が主流となっている。 この変更はByte-Pair Encoding (BPE)から始まり、後にSentencePieceとWordPieceが採用された。 サブワードのトークン化は文字や単語レベルのトークン化を一貫して上回っているが、その成功に寄与する正確な要因は不明である。 多様なタスクや言語に対する最適セグメンテーションの粒度、データソースのトークン化への影響、インド・ヨーロッパ語における形態情報の役割といった重要な側面はいまだ不十分である。 これは特に、形態素の組み合わせを規定する特定の規則によって特徴づけられる生体医学用語に関係している。 生物医学用語の凝集的な性質にもかかわらず、既存の言語モデルは、この知識を明示的に取り入れておらず、共通の用語に対する一貫性のないトークン化戦略をもたらす。 本稿では,フランスの生物医学領域におけるサブワードトークン化の複雑さを,様々なnlpタスクとピンポイント領域にまたがって検討し,さらなる機能強化を図る。 本稿では,bpe と sentencepiece を含む古典的トークン化アルゴリズムを分析し,モーフェムエンリッチワードセグメンテーションを既存のトークン化手法に統合した独自のトークン化戦略を提案する。

Subword tokenization has become the prevailing standard in the field of natural language processing (NLP) over recent years, primarily due to the widespread utilization of pre-trained language models. This shift began with Byte-Pair Encoding (BPE) and was later followed by the adoption of SentencePiece and WordPiece. While subword tokenization consistently outperforms character and word-level tokenization, the precise factors contributing to its success remain unclear. Key aspects such as the optimal segmentation granularity for diverse tasks and languages, the influence of data sources on tokenizers, and the role of morphological information in Indo-European languages remain insufficiently explored. This is particularly pertinent for biomedical terminology, characterized by specific rules governing morpheme combinations. Despite the agglutinative nature of biomedical terminology, existing language models do not explicitly incorporate this knowledge, leading to inconsistent tokenization strategies for common terms. In this paper, we seek to delve into the complexities of subword tokenization in French biomedical domain across a variety of NLP tasks and pinpoint areas where further enhancements can be made. We analyze classical tokenization algorithms, including BPE and SentencePiece, and introduce an original tokenization strategy that integrates morpheme-enriched word segmentation into existing tokenization methods.
翻訳日:2024-02-26 16:08:12 公開日:2024-02-22
# opp/ai: ブロックチェーン上の最適プライバシ保護AI

opp/ai: Optimistic Privacy-Preserving AI on Blockchain ( http://arxiv.org/abs/2402.15006v1 )

ライセンス: Link先を確認
Cathie So, KD Conway, Xiaohang Yu, Suning Yao, Kartin Wong(参考訳) 人工知能(AI)とブロックチェーン技術の融合は、ブロックチェーンプラットフォーム上で分散型でセキュアで効率的なAIサービスを提供するデジタル世界を変えつつある。 約束にもかかわらず、ブロックチェーンにおけるAIの高度な計算要求は、プライバシーと効率の重大な懸念を引き起こす。 Optimistic Privacy-Preserving AI (opp/ai)フレームワークは、これらの問題の先駆的なソリューションとして導入され、プライバシ保護と計算効率のバランスを損なう。 このフレームワークはプライバシーのためのZero-Knowledge Machine Learning (zkML)と効率のためのOptimistic Machine Learning (opML)を統合し、ブロックチェーンAIサービスに適したハイブリッドモデルを作成する。 そこで本研究では,zkMLのプライバシ機能に関するopp/aiフレームワークを提案するとともに,さまざまなシナリオにおけるフレームワークのパフォーマンスと適応性を評価する。

The convergence of Artificial Intelligence (AI) and blockchain technology is reshaping the digital world, offering decentralized, secure, and efficient AI services on blockchain platforms. Despite the promise, the high computational demands of AI on blockchain raise significant privacy and efficiency concerns. The Optimistic Privacy-Preserving AI (opp/ai) framework is introduced as a pioneering solution to these issues, striking a balance between privacy protection and computational efficiency. The framework integrates Zero-Knowledge Machine Learning (zkML) for privacy with Optimistic Machine Learning (opML) for efficiency, creating a hybrid model tailored for blockchain AI services. This study presents the opp/ai framework, delves into the privacy features of zkML, and assesses the framework's performance and adaptability across different scenarios.
翻訳日:2024-02-26 16:07:49 公開日:2024-02-22
# 機械学習分類アルゴリズムの比較とframingham heart studyへの応用

Comparison of Machine Learning Classification Algorithms and Application to the Framingham Heart Study ( http://arxiv.org/abs/2402.15005v1 )

ライセンス: Link先を確認
Nabil Kahouadji(参考訳) 医療における機械学習アルゴリズムの使用は、社会的不正や健康不平等を増幅することができる。 偏見の悪化は、問題選択、データ収集、結果定義において起こりうるが、この研究は、開発中に発生する一般化可能性障害と、機械学習分類アルゴリズムのポストデプロイに関連するものである。 フレイミングハム冠状動脈疾患データを用いて, 確率遮断を効果的に選択し, ディコトクス変数の回帰モデルを分類器に変換する方法について検討した。 次に,4つのトレーニング/テストシナリオに基づく8つの機械学習分類アルゴリズムの予測性能のサンプリング分布を比較し,それらの一般化可能性とバイアスの持続可能性を検証する。 非バランスデータセットでトレーニングされた場合、極端な勾配ブースティングとサポートベクターマシンの両方に欠陥があることが分かる。 学習・テストシナリオによらず,他の分類アルゴリズムを常に上回っているため,タイプIの二重判別スコアが最も一般化可能であることを示す。 最後に, 分類アルゴリズムの最適変数階層を抽出し, 総, 男性, 女性, フレイミングハム冠状動脈疾患データに記述する手法を提案する。

The use of machine learning algorithms in healthcare can amplify social injustices and health inequities. While the exacerbation of biases can occur and compound during the problem selection, data collection, and outcome definition, this research pertains to some generalizability impediments that occur during the development and the post-deployment of machine learning classification algorithms. Using the Framingham coronary heart disease data as a case study, we show how to effectively select a probability cutoff to convert a regression model for a dichotomous variable into a classifier. We then compare the sampling distribution of the predictive performance of eight machine learning classification algorithms under four training/testing scenarios to test their generalizability and their potential to perpetuate biases. We show that both the Extreme Gradient Boosting, and Support Vector Machine are flawed when trained on an unbalanced dataset. We introduced and show that the double discriminant scoring of type I is the most generalizable as it consistently outperforms the other classification algorithms regardless of the training/testing scenario. Finally, we introduce a methodology to extract an optimal variable hierarchy for a classification algorithm, and illustrate it on the overall, male and female Framingham coronary heart disease data.
翻訳日:2024-02-26 16:07:33 公開日:2024-02-22
# CommVQA: コミュニケーションコンテキストにおける視覚的質問応答の選定

CommVQA: Situating Visual Question Answering in Communicative Contexts ( http://arxiv.org/abs/2402.15002v1 )

ライセンス: Link先を確認
Nandita Shankar Naik, Christopher Potts, Elisa Kreiss(参考訳) 現在の視覚的質問応答(VQA)モデルは、独立して画像検索ペアで訓練され評価される傾向にある。 しかしながら、人々が尋ねる質問は、彼らの情報ニーズと画像コンテンツに関する事前知識に依存する。 自然主義的文脈における画像の配置が視覚的な質問をどう形作るかを評価するために、私たちはCommunVQA、画像、画像記述を含むVQAデータセット、画像が現れるかもしれない現実のコミュニケーションシナリオ(旅行ウェブサイトなど)、シナリオに条件付けられたフォローアップ質問と回答を紹介する。 CommVQAが現在のモデルに挑戦していることを示す。 VQAモデルに対するコンテキスト情報の提供は、コミュニケーションシナリオ内のシチュエーションシステムとの関連性を強調し、パフォーマンスを広く向上させる。

Current visual question answering (VQA) models tend to be trained and evaluated on image-question pairs in isolation. However, the questions people ask are dependent on their informational needs and prior knowledge about the image content. To evaluate how situating images within naturalistic contexts shapes visual questions, we introduce CommVQA, a VQA dataset consisting of images, image descriptions, real-world communicative scenarios where the image might appear (e.g., a travel website), and follow-up questions and answers conditioned on the scenario. We show that CommVQA poses a challenge for current models. Providing contextual information to VQA models improves performance broadly, highlighting the relevance of situating systems within a communicative scenario.
翻訳日:2024-02-26 16:07:13 公開日:2024-02-22
# ディバイド・オア・コンカー? LLMはどれに浸すべきか?

Divide-or-Conquer? Which Part Should You Distill Your LLM? ( http://arxiv.org/abs/2402.15000v1 )

ライセンス: Link先を確認
Zhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang(参考訳) 近年,Large Language Models (LLM) は,まず主課題のサブタスクを解くことを奨励された場合に,推論タスクをよりよく解けることを示した。 本稿では,推論タスクを問題分解フェーズと問題解決フェーズに分解する同様の戦略を考案し,その戦略が1段階の解よりも優れていることを示す。 さらに,後者は大量のドメイン知識を必要とするが,前者は一般的な問題解決戦略の学習しか必要としないため,より小さなモデルに分解を蒸留する方が容易であると仮定した。 我々は,これら2つの能力を蒸留し,推論結果と推論コストに与える影響を評価する手法を提案する。 問題分解フェーズを蒸留できると同時に,タスクやデータセット,モデルなどにわたって,優れた一般化を実現できることが分かりました。 しかし、性能を損なわずに問題解決能力の蒸留が困難であり、結果の蒸留モデルは一般化に苦慮する。 これらの結果は、より小さく蒸留された問題分解モデルと問題解決llmを組み合わせることで、コスト効率の高い推論と局所適応による推論が可能になることを示唆する。

Recent methods have demonstrated that Large Language Models (LLMs) can solve reasoning tasks better when they are encouraged to solve subtasks of the main task first. In this paper we devise a similar strategy that breaks down reasoning tasks into a problem decomposition phase and a problem solving phase and show that the strategy is able to outperform a single stage solution. Further, we hypothesize that the decomposition should be easier to distill into a smaller model compared to the problem solving because the latter requires large amounts of domain knowledge while the former only requires learning general problem solving strategies. We propose methods to distill these two capabilities and evaluate their impact on reasoning outcomes and inference cost. We find that we can distill the problem decomposition phase and at the same time achieve good generalization across tasks, datasets, and models. However, it is harder to distill the problem solving capability without losing performance and the resulting distilled model struggles with generalization. These results indicate that by using smaller, distilled problem decomposition models in combination with problem solving LLMs we can achieve reasoning with cost-efficient inference and local adaptation.
翻訳日:2024-02-26 16:06:58 公開日:2024-02-22
# littleBenchmarks: 少ない例でLLMを評価する

tinyBenchmarks: evaluating LLMs with fewer examples ( http://arxiv.org/abs/2402.14992v1 )

ライセンス: Link先を確認
Felipe Maia Polo, Lucas Weber, Leshem Choshen, Yuekai Sun, Gongjun Xu, Mikhail Yurochkin(参考訳) 大規模言語モデル(LLM)の汎用性は、様々な言語モデルの能力を徹底的にテストする多様なベンチマークの作成につながった。 これらのベンチマークは、LLMを非常に高価に評価する数万のサンプルで構成されている。 本稿では,いくつかのベンチマークにおいてllmの性能を評価するために必要な評価回数を減らすための戦略について検討する。 例えば,14K例からなる人気マルチチョイスQAベンチマークであるMMLU上でのLLMの性能を正確に推定するには,このLLMを100個のキュレート例で評価するのに十分であることを示す。 open llm leaderboard、mmlu、helm、alpacaeval 2.0といった、人気のあるベンチマークの評価ツールと小さなバージョンをリリースします。 実験により,これらのツールと小さなベンチマークは,元の評価結果を確実かつ効率的に再現するのに十分であることを実証した。

The versatility of large language models (LLMs) led to the creation of diverse benchmarks that thoroughly test a variety of language models' abilities. These benchmarks consist of tens of thousands of examples making evaluation of LLMs very expensive. In this paper, we investigate strategies to reduce the number of evaluations needed to assess the performance of an LLM on several key benchmarks. For example, we show that to accurately estimate the performance of an LLM on MMLU, a popular multiple-choice QA benchmark consisting of 14K examples, it is sufficient to evaluate this LLM on 100 curated examples. We release evaluation tools and tiny versions of popular benchmarks: Open LLM Leaderboard, MMLU, HELM, and AlpacaEval 2.0. Our empirical analysis demonstrates that these tools and tiny benchmarks are sufficient to reliably and efficiently reproduce the original evaluation results.
翻訳日:2024-02-26 16:06:39 公開日:2024-02-22
# 文脈最適輸送の量子理論と応用

Quantum Theory and Application of Contextual Optimal Transport ( http://arxiv.org/abs/2402.14991v1 )

ライセンス: Link先を確認
Nicola Mariella, Albert Akhriev, Francesco Tacchino, Christa Zoufal, Juan Carlos Gonzalez-Espitia, Benedek Harsanyi, Eugene Koskin, Ivano Tavernelli, Stefan Woerner, Marianna Rapsomaniki, Sergiy Zhuk, Jannis Born(参考訳) Optimal Transport (OT)は多くのドメインにまたがって機械学習(ML)アプリケーションを提供している。 ペアデータ計測 (\mu$,$\nu$) がコンテキスト変数 $p_i$ に結合されている場合、潜在的に見当たらないコンテキストでパラメータ化可能なグローバル輸送マップを学ぼうとするかもしれない。 既存のアプローチではNeural OTを使用し、ブレニエの定理に大きく依存している。 本稿では,文脈化輸送計画の償却最適化のための,初歩的な量子計算定式化を提案する。 我々は,2重確率行列とユニタリ演算子との直接リンクを利用して,OTと量子計算の自然な関係を求める。 薬物摂取量からパラメータ化された細胞型分布の変動を文脈として予測し, 合成データと実データについて検証した。 複数のベースラインと比較したところ, 投与量による細胞分布の変化は, 投与量外挿や, 時として最高の古典的モデルに類似した性能で記録できることが明らかとなった。 要約すると、これは量子を通してコンテキスト化された輸送計画を予測することを学ぶための第一歩である。

Optimal Transport (OT) has fueled machine learning (ML) applications across many domains. In cases where paired data measurements ($\mu$, $\nu$) are coupled to a context variable $p_i$ , one may aspire to learn a global transportation map that can be parameterized through a potentially unseen con-text. Existing approaches utilize Neural OT and largely rely on Brenier's theorem. Here, we propose a first-of-its-kind quantum computing formulation for amortized optimization of contextualized transportation plans. We exploit a direct link between doubly stochastic matrices and unitary operators thus finding a natural connection between OT and quantum computation. We verify our method on synthetic and real data, by predicting variations in cell type distributions parameterized through drug dosage as context. Our comparisons to several baselines reveal that our method can capture dose-induced variations in cell distributions, even to some extent when dosages are extrapolated and sometimes with performance similar to the best classical models. In summary, this is a first step toward learning to predict contextualized transportation plans through quantum.
翻訳日:2024-02-26 16:06:24 公開日:2024-02-22
# 教育における責任ある人工知能と受容可能性に関するマルチステークホルダー視点

Multi-stakeholder Perspective on Responsible Artificial Intelligence and Acceptability in Education ( http://arxiv.org/abs/2402.15027v1 )

ライセンス: Link先を確認
A.J. Karran, P. Charland, J-T. Martineau, A. Ortiz de Guinea, AM. Lesage, S. Senecal, P-M. Leger(参考訳) 本研究は,生徒,教師,親を含む多職種の視点から,教育における異なる人工知能(ai)応用の受容性について検討する。 教育におけるAIの変革の可能性を認め、データプライバシ、AIエージェンシー、透明性、説明可能性、AIの倫理的展開に関する懸念に対処する。 vignetteの方法論を通じて、参加者は、aiのエージェント、透明性、説明可能性、プライバシを操作する4つのシナリオを提示した。 それぞれのシナリオの後、参加者はAIのグローバルユーティリティ、個人の有用性、正義、自信、リスク、そして各シナリオのAIを使用する意図に対する認識を捉えた調査を完了した。 1198人の参加者の最終サンプルからなるデータ収集は、パートナー機関とソーシャルメディアキャンペーンを通じて配布され、4つのAIユースケースに対する個々の反応に焦点を当てた。 データの仲介分析によると、AIの受け入れと信頼はステークホルダーグループによって大きく異なる。 我々は、高レベルのAIエージェンシーと透明性、説明可能性の間の重要な仲介者と、グローバルユーティリティ、正義、信頼を含む異なる教育AIを使用する意図があることを発見した。 この研究は、教育におけるAIの受容は、多様な利害関係者の認識に加えて、特定のAIアプリケーションとその特性を慎重に検討する必要がある、曖昧で多面的な問題である、と強調している。

This study investigates the acceptability of different artificial intelligence (AI) applications in education from a multi-stakeholder perspective, including students, teachers, and parents. Acknowledging the transformative potential of AI in education, it addresses concerns related to data privacy, AI agency, transparency, explainability and the ethical deployment of AI. Through a vignette methodology, participants were presented with four scenarios where AI's agency, transparency, explainability, and privacy were manipulated. After each scenario, participants completed a survey that captured their perceptions of AI's global utility, individual usefulness, justice, confidence, risk, and intention to use each scenario's AI if available. The data collection comprising a final sample of 1198 multi-stakeholder participants was distributed through a partner institution and social media campaigns and focused on individual responses to four AI use cases. A mediation analysis of the data indicated that acceptance and trust in AI varies significantly across stakeholder groups. We found that the key mediators between high and low levels of AI's agency, transparency, and explainability, as well as the intention to use the different educational AI, included perceived global utility, justice, and confidence. The study highlights that the acceptance of AI in education is a nuanced and multifaceted issue that requires careful consideration of specific AI applications and their characteristics, in addition to the diverse stakeholders' perceptions.
翻訳日:2024-02-26 15:58:28 公開日:2024-02-22
# マルチレベルシステムでモデル化した量子ドット光セルにおける量子収率と効率の向上

Enhanced quantum yields and efficiency in a quantum dot photocell modeled by a multi-level system ( http://arxiv.org/abs/2402.15026v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Jing-Yi Chen(参考訳) バンドギャップエネルギー以下の光子を効果的に吸収するために,マルチレベルシステムでモデル化した量子ドット(QD)光セルの提案を行った。 理論的な結果は、単一バンドギャップ太陽電池と比較して量子収率が向上し、光対電荷効率は同じ吸収スペクトルにおけるショックレーやケイッサーの効率よりも大きいことを示している。 さらに、室温では、ルケとマルティ(Ref\cite{26})が2つのサブバンドで低エネルギーの光子を吸収することで効率の限界を63%以上達成している。 この成果は、多レベル吸収光子系をモデルとしたqdフォトセルの性能向上のための新しい理論的アプローチを明らかにするかもしれない。

To absorb the photons below the band-gap energy effectively, we proposed a quantum dot (QD) photocell modeled by multi-level system for the quantum yields and photo-to-charge efficiency limits. The theoretical results show the quantum yields are enhanced as compared to the single band-gap solar cell, and the photo-to-charge efficiencies are larger than Shockley and Queisser efficiency in the same absorbed spectrum. What's more, at the room temperature the efficiency limits are well beyond 63% achieved by Luque and Marti (Ref\cite{26}) due to absorbing the low-energy photons via two sub-bands in this proposed photocell system. The achievements may reveal a novel theoretical approach to enhance the QD photocell performance modeled a multi-level absorbing photons system.
翻訳日:2024-02-26 15:58:03 公開日:2024-02-22
# 実践が完璧になる - スキルパラメータポリシーを学ぶ計画

Practice Makes Perfect: Planning to Learn Skill Parameter Policies ( http://arxiv.org/abs/2402.15025v1 )

ライセンス: Link先を確認
Nishanth Kumar, Tom Silver, Willie McClinton, Linfeng Zhao, Stephen Proulx, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling, Jennifer Barry(参考訳) 複雑な長期タスクにおける効果的なロボット意思決定への有望なアプローチは、パラメータ化されたスキルをまとめることである。 ロボットがまず(1)パラメータ化されたスキルのライブラリ、(2)目標に与えられたスキルをシークエンシングするためのaiプランナー、(3)スキルパラメータを選択するための非常に一般的な事前分布を備えた設定を考える。 一度デプロイされたロボットは、スキルパラメータの選択ポリシーを特定のオブジェクト、目標、環境の制約に特化することで、迅速かつ自律的にパフォーマンスを改善することを学ぶべきである。 本研究は,今後の課題成功を最大化するために,実践すべきスキルを選択することによる,アクティブラーニングの問題に焦点をあてる。 ロボットは,各スキルの能力を推定し,能力を外挿し(「実践を通じて能力はどの程度向上するか?」)し,能力認識計画を通じてタスク分布のスキルを配置することを提案する。 このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。 シミュレーション実験により,提案手法は複数のベースラインよりも効果的なパラメータポリシーをサンプル効率良く学習できることを見出した。 実世界の実験では、ロボットが知覚と制御からノイズを処理し、ロボットが2つの長いホリゾンの移動操作タスクを数時間の自律練習で解決する能力を向上させる能力が実証されている。

One promising approach towards effective robot decision making in complex, long-horizon tasks is to sequence together parameterized skills. We consider a setting where a robot is initially equipped with (1) a library of parameterized skills, (2) an AI planner for sequencing together the skills given a goal, and (3) a very general prior distribution for selecting skill parameters. Once deployed, the robot should rapidly and autonomously learn to improve its performance by specializing its skill parameter selection policy to the particular objects, goals, and constraints in its environment. In this work, we focus on the active learning problem of choosing which skills to practice to maximize expected future task success. We propose that the robot should estimate the competence of each skill, extrapolate the competence (asking: "how much would the competence improve through practice?"), and situate the skill in the task distribution through competence-aware planning. This approach is implemented within a fully autonomous system where the robot repeatedly plans, practices, and learns without any environment resets. Through experiments in simulation, we find that our approach learns effective parameter policies more sample-efficiently than several baselines. Experiments in the real-world demonstrate our approach's ability to handle noise from perception and control and improve the robot's ability to solve two long-horizon mobile-manipulation tasks after a few hours of autonomous practice.
翻訳日:2024-02-26 15:57:46 公開日:2024-02-22
# 3つの電子供与体を持つ量子フォトセルにおける放射的再結合速度の抑制

Radiative recombination rate suppressed in a quantum photocell with three electron donors ( http://arxiv.org/abs/2402.15024v1 )

ライセンス: Link先を確認
Jing-Yi Chen, Shun-Cai Zhao(参考訳) 電子-ホール対の放射的再結合は、光細胞の光子対電荷効率にとって大きな挑戦である。 本稿では,3つの双極子結合電子供与体を有する量子フォトセルにおいて,放射光再結合速度(RRR)を観測する。 その結果,3つの双極子-双極子結合電子供与体を有する抑制されたRRRにおいて,周囲温度が異なる役割を担っている間に,異なるギャップが同じ役割を果たすことが示された。 さらに、双極子-双極子結合強度Jは、3つの双極子-双極子結合電子供与体でRRを著しく抑制し、3つの結合ドナーによって生成される量子コヒーレンスを効果的に抑制するアプローチであり、Marlan O. Scully [PRL 104, 207701 (2010)] によって言及された量子コヒーレンスとは異なる。 本提案手法は,rrr抑制による効率的な変換効率のための制御戦略を提案するかもしれない。

The radiative recombination of electron-hole pairs represents a great challenge to the photon-to-charge efficiency in photocell. In this paper, we visit the radiative recombination rate (RRR) in a quantum photocell with or without three dipole-dipole coupled electron donors. The results show that different gaps play the same roles while the ambient temperatures play different roles in the suppressed RRR with or without three dipole-dipole coupled electron donors. What's more, the dipole-dipole coupling strength J can greatly inhibit the RRRs with three dipole-dipole coupled electron donors, which indicates the quantum coherence generated by three coupled donors is an efficient approach to suppress RRR, and it is different from the quantum coherence mentioned by Marlan O. Scully [PRL 104, 207701 (2010)]. This presented scheme may propose some regulating strategies for efficient conversion efficiency via the suppressed RRR.
翻訳日:2024-02-26 15:57:20 公開日:2024-02-22
# マルチモーダル知識グラフ完成のための不均衡モダリティ情報のパワーの解き放つ

Unleashing the Power of Imbalanced Modality Information for Multi-modal Knowledge Graph Completion ( http://arxiv.org/abs/2402.15444v1 )

ライセンス: Link先を確認
Yichi Zhang, Zhuo Chen, Lei Liang, Huajun Chen, Wen Zhang(参考訳) マルチモーダル知識グラフ補完(MMKGC)は、識別モデルにエンティティの構造的、視覚的、テキスト的情報を組み込むことにより、マルチモーダル知識グラフの欠落三重項を予測することを目的としている。 異なるモダリティからの情報は、三重の可算性を測定するために協力する。 既存のMMKGC法は、実体間のモダリティ情報の不均衡問題を見落とし、不適切なモダリティ融合と原モダリティ情報の非効率利用をもたらす。 上記の問題に対処するため,MMKGCにおける不均衡なモダリティ情報のパワーを解き放つために,適応型マルチモーダルフュージョン・モダリティ訓練(AdaMF-MAT)を提案する。 AdaMF-MATは適応モダリティ重み付き多モード融合を実現し、不均衡なモダリティ情報を強化するために、モダリティ-逆トレーニングにより逆サンプルを生成する。 提案手法はMMKGCモデルとトレーニング戦略の共設計であり,最新のMMKGC手法を上回り,3つの公開MMKGCベンチマークで新たな最先端結果が得られる。 コードとデータはhttps://github.com/zjukg/AdaMF-MAT.comで公開されている。

Multi-modal knowledge graph completion (MMKGC) aims to predict the missing triples in the multi-modal knowledge graphs by incorporating structural, visual, and textual information of entities into the discriminant models. The information from different modalities will work together to measure the triple plausibility. Existing MMKGC methods overlook the imbalance problem of modality information among entities, resulting in inadequate modal fusion and inefficient utilization of the raw modality information. To address the mentioned problems, we propose Adaptive Multi-modal Fusion and Modality Adversarial Training (AdaMF-MAT) to unleash the power of imbalanced modality information for MMKGC. AdaMF-MAT achieves multi-modal fusion with adaptive modality weights and further generates adversarial samples by modality-adversarial training to enhance the imbalanced modality information. Our approach is a co-design of the MMKGC model and training strategy which can outperform 19 recent MMKGC methods and achieve new state-of-the-art results on three public MMKGC benchmarks. Our code and data have been released at https://github.com/zjukg/AdaMF-MAT.
翻訳日:2024-02-26 13:51:36 公開日:2024-02-22
# 量子化光パルスを用いた原子干渉計測

Atom interferometry with quantized light pulses ( http://arxiv.org/abs/2105.00814v2 )

ライセンス: Link先を確認
Katharina Soukup, Fabio Di Pumpo, Tobias Asano, Wolfgang P. Schleich and Enno Giese(参考訳) 古典的な光場から回折された原子の遠方体パターン、または光子数状態の量子パターンは同一である。 一方、古典的な光と多くの性質を共有するコヒーレント状態の場からの回折は、全く異なる振る舞いを示す。 回折パターンとは対照的に、強いコヒーレント状態の光パルスビームスプリッターとミラーを持つ原子干渉計の干渉信号が古典場の限界に近づくことを示した。 しかし、低い光子数は光の粒状構造を示し、ウェルチャー・ウェグ(どの方向)の情報がフィールドにエンコードされるため、視認性が低下する。 我々は、この効果を1つの光子数状態と2つの状態の重ね合わせについて論じる。

The far-field patterns of atoms diffracted from a classical light field, or from a quantum one in a photon-number state are identical. On the other hand, diffraction from a field in a coherent state, which shares many properties with classical light, displays a completely different behavior. We show that in contrast to the diffraction patterns, the interference signal of an atom interferometer with light-pulse beam splitters and mirrors in intense coherent states does approach the limit of classical fields. However, low photon numbers reveal the granular structure of light, leading to a reduced visibility since Welcher-Weg (which-way) information is encoded into the field. We discuss this effect for a single photon-number state as well as a superposition of two such states.
翻訳日:2024-02-25 18:52:56 公開日:2024-02-22
# 論理規則を用いた四足歩行政策の学習

Learning Quadruped Locomotion Policies using Logical Rules ( http://arxiv.org/abs/2107.10969v3 )

ライセンス: Link先を確認
David DeFazio, Yohei Hayamizu, and Shiqi Zhang(参考訳) 四足動物は多様な歩行性を示すことができる。 このような動きをロボットに示すために進歩してきたが、現在の手法は動きの先行、ダイナミクスモデル、その他の広範囲な手作業に頼っている。 人々は自然言語を使ってダンスの動きを表現できます。 フォーマルな言語を使って四足歩行を指定できますか。 この目的のために、簡単な歩行仕様と効率的な政策学習を実現することを目的とする。 本手法は,フットコンタクト上でのハイレベル歩行仕様にReward Machines~(RMs)を活用することで,RMベースの歩行学習(RMLL)と呼ばれ,実行時の歩行周波数の調整をサポートする。 歩行仕様は歩行ごとにいくつかの論理的規則(例えば、前足と後足の交互)を用いることで可能であり、労働集約的な運動前処理を必要としない。 シミュレーション実験の結果、学習した歩行の多様性(2つの新しい歩行を含む)、様々な地形におけるエネルギー消費と安定性、ベースラインと比較して優れたサンプル効率が示された。 私たちはまた、これらの学習したポリシーを本物の四足ロボットで示します。 ビデオと補足資料: https://sites.google.com/view/rm-locomotion-learning/home

Quadruped animals are capable of exhibiting a diverse range of locomotion gaits. While progress has been made in demonstrating such gaits on robots, current methods rely on motion priors, dynamics models, or other forms of extensive manual efforts. People can use natural language to describe dance moves. Could one use a formal language to specify quadruped gaits? To this end, we aim to enable easy gait specification and efficient policy learning. Leveraging Reward Machines~(RMs) for high-level gait specification over foot contacts, our approach is called RM-based Locomotion Learning~(RMLL), and supports adjusting gait frequency at execution time. Gait specification is enabled through the use of a few logical rules per gait (e.g., alternate between moving front feet and back feet) and does not require labor-intensive motion priors. Experimental results in simulation highlight the diversity of learned gaits (including two novel gaits), their energy consumption and stability across different terrains, and the superior sample-efficiency when compared to baselines. We also demonstrate these learned policies with a real quadruped robot. Video and supplementary materials: https://sites.google.com/view/rm-locomotion-learning/home
翻訳日:2024-02-23 19:35:28 公開日:2024-02-22
# AQD:精度の高い完全量子オブジェクト検出を目指して

AQD: Towards Accurate Fully-Quantized Object Detection ( http://arxiv.org/abs/2007.06919v5 )

ライセンス: Link先を確認
Peng Chen, Jing Liu, Bohan Zhuang, Mingkui Tan, Chunhua Shen(参考訳) ネットワーク量子化は、エッジデバイス上のディープニューラルネットワークの推論効率を改善するために、低精度演算を用いて推論を行うことができる。 しかし、オブジェクト検出のような複雑なタスクに対する積極的な低ビット(例えば2ビット)量子化スキームの設計は、一般的なハードウェア上での厳しい性能劣化と検証不可能な効率の観点からも依然として難しい。 本稿では,浮動小数点演算を完全に除去するために,AQDと呼ばれる精度の高い量子オブジェクト検出ソリューションを提案する。 この目的のために、畳み込み層、正規化層、スキップ接続を含むあらゆるタイプの固定点演算をターゲットとし、整数のみの算術を用いて推論を実行できるようにする。 遅延vs精度のトレードオフの改善を示すために,提案手法をretinanetとfcosに適用する。 特に,ms-cocoデータセットにおける実験結果から,aqdは,非常に低ビットのスキームにおいて,全精度のaqdと同等あるいはそれ以上の性能を達成していることが明らかとなった。 ソースコードとモデルは、https://github.com/ziplab/qtoolで入手できる。

Network quantization allows inference to be conducted using low-precision arithmetic for improved inference efficiency of deep neural networks on edge devices. However, designing aggressively low-bit (e.g., 2-bit) quantization schemes on complex tasks, such as object detection, still remains challenging in terms of severe performance degradation and unverifiable efficiency on common hardware. In this paper, we propose an Accurate Quantized object Detection solution, termed AQD, to fully get rid of floating-point computation. To this end, we target using fixed-point operations in all kinds of layers, including the convolutional layers, normalization layers, and skip connections, allowing the inference to be executed using integer-only arithmetic. To demonstrate the improved latency-vs-accuracy trade-off, we apply the proposed methods on RetinaNet and FCOS. In particular, experimental results on MS-COCO dataset show that our AQD achieves comparable or even better performance compared with the full-precision counterpart under extremely low-bit schemes, which is of great practical value. Source code and models are available at: https://github.com/ziplab/QTool
翻訳日:2024-02-23 19:35:10 公開日:2024-02-22
# 敵対的機械学習:ベイズ的視点

Adversarial Machine Learning: Bayesian Perspectives ( http://arxiv.org/abs/2003.03546v2 )

ライセンス: Link先を確認
David Rios Insua, Roi Naveiro, Victor Gallego, Jason Poulos(参考訳) Adversarial Machine Learning (AML)は、機械学習(ML)システムをセキュリティ上の脅威から保護することを目的とした、主要な分野として浮上している。 これにより、MLシステムが直面する可能性のある、新たなセキュリティ脆弱性のクラスが生成され、ML出力に基づいた操作の信頼性に不可欠な、敵対的堅牢性と呼ばれる、新たな望ましいプロパティが生成される。 AMLにおけるほとんどの研究は、学習システムと敵との対立をゲーム理論でモデル化し、入力データを操作する準備ができている。 これは、各エージェントが相手の関心と不確実性判断を知っていて、ナッシュ均衡に基づく推論を促進すると仮定している。 しかし、このような共通知識仮定はAMLの典型的なセキュリティシナリオでは現実的ではない。 このようなゲーム理論的アプローチをレビューした後、MLベースのシステムを守る際にベイズ的視点がもたらすメリットについて議論する。 ベイズ的アプローチは、相手の信念や関心に対する不確実性を明示的にモデル化し、非現実的な仮定を緩和し、より堅牢な推論を提供する。 このアプローチを教師あり学習環境で説明し,今後の研究課題を明らかにする。

Adversarial Machine Learning (AML) is emerging as a major field aimed at protecting machine learning (ML) systems against security threats: in certain scenarios there may be adversaries that actively manipulate input data to fool learning systems. This creates a new class of security vulnerabilities that ML systems may face, and a new desirable property called adversarial robustness essential to trust operations based on ML outputs. Most work in AML is built upon a game-theoretic modelling of the conflict between a learning system and an adversary, ready to manipulate input data. This assumes that each agent knows their opponent's interests and uncertainty judgments, facilitating inferences based on Nash equilibria. However, such common knowledge assumption is not realistic in the security scenarios typical of AML. After reviewing such game-theoretic approaches, we discuss the benefits that Bayesian perspectives provide when defending ML-based systems. We demonstrate how the Bayesian approach allows us to explicitly model our uncertainty about the opponent's beliefs and interests, relaxing unrealistic assumptions, and providing more robust inferences. We illustrate this approach in supervised learning settings, and identify relevant future research problems.
翻訳日:2024-02-23 19:34:48 公開日:2024-02-22
# ランダム多成分量子状態の絡み合いの推定

Estimating the entanglement of random multipartite quantum states ( http://arxiv.org/abs/2209.11754v3 )

ライセンス: Link先を確認
Khurshed Fitter, Cecilia Lancien, Ion Nechita(参考訳) 与えられた多部純量子状態の純多部絡み合いは、その幾何学的エンタングルメントの測度によって定量化することができ、対数を除いては、対応する単位テンソルと積単位テンソルとの最大重なり合いであり、これはテンソルの射影ノルムとしても知られている。 この研究の一般的な目標は、ランダムサンプリングテンソルのこの単射ノルムを推定することである。 この目的のために, 広範に使用される交互最小二乗法や新しい正規化勾配降下法に基づき, 対称化または非対称化確率テンソルのいずれにも適合する様々なアルゴリズムを検討, 比較した。 まず, 漸近平均インジェクションノルムが解析的に知られている対称性実ガウステンソルの場合, それぞれの性能をベンチマークする。 提案した正規化勾配降下アルゴリズムが一般に最適であることを証明し、それを用いて複素ガウステンソルの平均射影ノルム(正規化を均一に分散した純量子状態まで)の数値的な推定値を得る。 最後に、ガウス局所テンソルから構築されたランダム行列積状態の平均射影ノルムを翻訳不変性の有無で推定する。 これらの結果は、ランダムなマルチパーティライト純状態の様々なモデルに典型的に存在する真のマルチパーティライト絡み合いの量に関する最初の数値推定である。

Genuine multipartite entanglement of a given multipartite pure quantum state can be quantified through its geometric measure of entanglement, which, up to logarithms, is simply the maximum overlap of the corresponding unit tensor with product unit tensors, a quantity that is also known as the injective norm of the tensor. Our general goal in this work is to estimate this injective norm of randomly sampled tensors. To this end, we study and compare various algorithms, based either on the widely used alternating least squares method or on a novel normalized gradient descent approach, and suited to either symmetrized or non-symmetrized random tensors. We first benchmark their respective performances on the case of symmetrized real Gaussian tensors, whose asymptotic average injective norm is known analytically. Having established that our proposed normalized gradient descent algorithm generally performs best, we then use it to obtain numerical estimates for the average injective norm of complex Gaussian tensors (i.e. up to normalization uniformly distributed multipartite pure quantum states), with or without permutation-invariance. Finally, we also estimate the average injective norm of random matrix product states constructed from Gaussian local tensors, with or without translation-invariance. All these results constitute the first numerical estimates on the amount of genuinely multipartite entanglement typically present in various models of random multipartite pure states.
翻訳日:2024-02-23 19:32:15 公開日:2024-02-22
# ScreenQA: モバイルアプリのスクリーンショットに関する大規模質問応答ペア

ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots ( http://arxiv.org/abs/2209.08199v2 )

ライセンス: Link先を確認
Yu-Chung Hsiao, Fedir Zubach, Maria Wang, Jindong Chen(参考訳) 質問応答による画面コンテンツ理解のための新しいタスクとデータセットScreenQAを提案する。 既存のスクリーンデータセットは、構造とコンポーネントレベルの理解、あるいはナビゲーションやタスク補完といったより高度な複合タスクに焦点を当てている。 画面読取能力のベンチマークを期待して,86K問合せペアをRICOデータセット上にアノテートすることで,この2つのギャップを埋めようとしている。

We present a new task and dataset, ScreenQA, for screen content understanding via question answering. The existing screen datasets are focused either on structure and component-level understanding, or on a much higher-level composite task such as navigation and task completion. We attempt to bridge the gap between these two by annotating 86K question-answer pairs over the RICO dataset in hope to benchmark the screen reading comprehension capacity.
翻訳日:2024-02-23 19:31:49 公開日:2024-02-22
# 代数機械学習と化学への応用

Algebraic Machine Learning with an Application to Chemistry ( http://arxiv.org/abs/2205.05795v4 )

ライセンス: Link先を確認
Ezzeddine El Sai, Parker Gara, Markus J. Pflaum(参考訳) 科学応用で使われるデータセットが複雑化するにつれて、データの幾何学とトポロジを研究することが、データ分析プロセスにおいてますます普及している。 これは例えば、永続ホモロジーのようなトポロジカルツールへの関心が高まる中で見られる。 しかし、トポロジカルツールは本質的に、データの基本空間に関する粗い情報のみを提供することに限られている。 一方、より幾何学的なアプローチは、基礎となる空間が滑らかな多様体であると主張する多様体仮説に優先的に依拠する。 この仮定は、基礎空間が特異点を含む多くの物理モデルに対して失敗する。 本稿では,スムーズな仮定を必要とせず,微粒な幾何学的情報を捉える機械学習パイプラインを開発する。 この手法は微分幾何学や滑らかな多様体の代わりに代数幾何学や代数多様体の範囲内で働く。 バラエティ仮説の設定では、サンプルデータを用いて基礎となるバラエティを見つけることが学習問題となる。 我々は、この学習問題を、固有値計算の観点で解決する最大Aポストエリオリ最適化問題に投入した。 基礎となる多様体を見出し, gr\"obner基底と数値解法を用いてその幾何学的情報を明らかにする。 特に,基礎となる多様体の特異点近傍にある点を数値的に検出するためのヒューリスティックを提案する。

As datasets used in scientific applications become more complex, studying the geometry and topology of data has become an increasingly prevalent part of the data analysis process. This can be seen for example with the growing interest in topological tools such as persistent homology. However, on the one hand, topological tools are inherently limited to providing only coarse information about the underlying space of the data. On the other hand, more geometric approaches rely predominately on the manifold hypothesis, which asserts that the underlying space is a smooth manifold. This assumption fails for many physical models where the underlying space contains singularities. In this paper we develop a machine learning pipeline that captures fine-grain geometric information without having to rely on any smoothness assumptions. Our approach involves working within the scope of algebraic geometry and algebraic varieties instead of differential geometry and smooth manifolds. In the setting of the variety hypothesis, the learning problem becomes to find the underlying variety using sample data. We cast this learning problem into a Maximum A Posteriori optimization problem which we solve in terms of an eigenvalue computation. Having found the underlying variety, we explore the use of Gr\"obner bases and numerical methods to reveal information about its geometry. In particular, we propose a heuristic for numerically detecting points lying near the singular locus of the underlying variety.
翻訳日:2024-02-23 19:31:42 公開日:2024-02-22
# 人間の動き伝達のためのアイデンティティ保存フレームワーク

An Identity-Preserved Framework for Human Motion Transfer ( http://arxiv.org/abs/2204.06862v3 )

ライセンス: Link先を確認
Jingzhe Ma, Xiaoqing Zhang and Shiqi Yu(参考訳) HMT(Human Motion Transfer)は、被写体の動きを模倣した映像クリップを作成することを目的とする。 従来の手法は良質な動画を合成する良い結果を得たが、音源やターゲットの動きから個々の動き情報を見失っており、これは生成された動画の動作の現実性にとって重要である。 この問題に対処するために、新しいID保存型HMTネットワークである「textit{IDPres}」を提案する。 このネットワークは、ターゲットの個別化動作とスケルトン情報を独自に組み込んだスケルトンベースのアプローチであり、アイデンティティ表現を増強する。 この統合により、生成されたビデオの動きのリアリズムが大幅に向上する。 本手法は運動の微粒化と合成に焦点を当てる。 本稿では,潜在空間における表現学習能力の向上と,‘textit{IDPres}’の学習を容易にするために,3つのトレーニングスキームを導入する。 これらのスキームにより、 \textit{IDPres} は異なる表現を同時に切り離し、それらを正確に制御し、理想運動の合成を確実にすることができる。 生成ビデオにおける個別化動作情報の比率を評価するために,まず,識別情報の取得における歩行認識手法の成功に動機づけられたIdentity Score(\textit{ID-Score})と呼ばれる新しい計量指標を導入する。 さらに、パブリックドメインから101人の被験者のソロダンスビデオからなるID-モーションペアデータセットである$Dancer101$を収集し、HMTメソッドの開発を促進するためのベンチマークを提供する。 提案手法は, 再現精度, 現実動作, アイデンティティ保存の観点から, 既存の最先端技術を超えていることを示す。

Human motion transfer (HMT) aims to generate a video clip for the target subject by imitating the source subject's motion. Although previous methods have achieved good results in synthesizing good-quality videos, they lose sight of individualized motion information from the source and target motions, which is significant for the realism of the motion in the generated video. To address this problem, we propose a novel identity-preserved HMT network, termed \textit{IDPres}. This network is a skeleton-based approach that uniquely incorporates the target's individualized motion and skeleton information to augment identity representations. This integration significantly enhances the realism of movements in the generated videos. Our method focuses on the fine-grained disentanglement and synthesis of motion. To improve the representation learning capability in latent space and facilitate the training of \textit{IDPres}, we introduce three training schemes. These schemes enable \textit{IDPres} to concurrently disentangle different representations and accurately control them, ensuring the synthesis of ideal motions. To evaluate the proportion of individualized motion information in the generated video, we are the first to introduce a new quantitative metric called Identity Score (\textit{ID-Score}), motivated by the success of gait recognition methods in capturing identity information. Moreover, we collect an identity-motion paired dataset, $Dancer101$, consisting of solo-dance videos of 101 subjects from the public domain, providing a benchmark to prompt the development of HMT methods. Extensive experiments demonstrate that the proposed \textit{IDPres} method surpasses existing state-of-the-art techniques in terms of reconstruction accuracy, realistic motion, and identity preservation.
翻訳日:2024-02-23 19:30:56 公開日:2024-02-22
# 物理インフォームド深層学習による実験流体力学への応用

Physics-informed deep-learning applications to experimental fluid mechanics ( http://arxiv.org/abs/2203.15402v2 )

ライセンス: Link先を確認
Hamidreza Eivazi, Yuning Wang and Ricardo Vinuesa(参考訳) 低分解能および雑音測定による流れ場データの高分解能再構成は、測定データが一般にスパースで不完全でノイズの多い実験流体力学におけるそのような問題の存在により興味深い。 ディープラーニングのアプローチは、このような超高解像度タスクに適していることが示されている。 しかし、高解像度の例が多数必要であり、多くの場合は利用できないかもしれない。 さらに、得られた予測は、質量や運動量保存といった物理的原理に従わないかもしれない。 物理インフォームドディープラーニングは、学習のためのデータと物理法則を統合するためのフレームワークを提供する。 本研究では,高分解能参照データを持たない限られたノイズ測定値から,時間と空間の両方のフローフィールドデータの超解像に物理情報ニューラルネットワーク(PINN)を適用した。 我々の目標は、解決領域の任意の点において、物理的に一貫性のある予測を提供することである。 本研究では, 円柱背後の2次元渦流, 最小乱流流の3つの正準ケースを通して, 流れ場データの時間と空間の超解像に対するピンの適用性を示す。 また,合成ガウス雑音を付加することにより,モデルのロバスト性についても検討した。 さらに、ホットワイヤ・アンモメトリ測定による実実験データセットにおいて、PINNの分解能を改善し、ノイズを低減する能力を示す。 その結果, 流体力学実験のためのデータ拡張の文脈において, pinnの適切な性能を示すことができた。

High-resolution reconstruction of flow-field data from low-resolution and noisy measurements is of interest due to the prevalence of such problems in experimental fluid mechanics, where the measurement data are in general sparse, incomplete and noisy. Deep-learning approaches have been shown suitable for such super-resolution tasks. However, a high number of high-resolution examples is needed, which may not be available for many cases. Moreover, the obtained predictions may lack in complying with the physical principles, e.g. mass and momentum conservation. Physics-informed deep learning provides frameworks for integrating data and physical laws for learning. In this study, we apply physics-informed neural networks (PINNs) for super-resolution of flow-field data both in time and space from a limited set of noisy measurements without having any high-resolution reference data. Our objective is to obtain a continuous solution of the problem, providing a physically-consistent prediction at any point in the solution domain. We demonstrate the applicability of PINNs for the super-resolution of flow-field data in time and space through three canonical cases: Burgers' equation, two-dimensional vortex shedding behind a circular cylinder and the minimal turbulent channel flow. The robustness of the models is also investigated by adding synthetic Gaussian noise. Furthermore, we show the capabilities of PINNs to improve the resolution and reduce the noise in a real experimental dataset consisting of hot-wire-anemometry measurements. Our results show the adequate capabilities of PINNs in the context of data augmentation for experiments in fluid mechanics.
翻訳日:2024-02-23 19:30:29 公開日:2024-02-22
# ヘテロフィリーグラフのためのグラフニューラルネットワーク:調査

Graph Neural Networks for Graphs with Heterophily: A Survey ( http://arxiv.org/abs/2202.07082v2 )

ライセンス: Link先を確認
Xin Zheng, Yi Wang, Yixin Liu, Ming Li, Miao Zhang, Di Jin, Philip S. Yu, Shirui Pan(参考訳) 近年、グラフ分析タスクや応用の無数の恩恵を受けているグラフニューラルネットワーク(GNN)の急速な発展を目撃している。 一般に、ほとんどのGNNは、同じクラスに属するノードが接続される可能性が高いというホモフィリーな仮定に依存している。 しかし、多くの実世界のシナリオにおいてユビキタスなグラフ特性として、例えば、異なるラベルを持つノードはリンクされがちであり、テーラーメイドのホモ親和性GNNの性能を著しく制限する。 したがって、異種グラフのためのGNNは、異種グラフ学習を強化する研究の注目を集めている。 本稿では,異種グラフに対するGNNの包括的レビューを行う。 具体的には,既存の異好性GNNモデルを概説し,概説と詳細な分析を行う系統分類法を提案する。 % さらに, 本ベンチマークを要約し, 頑健かつ公正な評価を容易にするとともに, グラフヘテロフィリと各種グラフ研究領域の相関について考察する。 さらに,グラフのヘテロフィリー領域とグラフ研究領域の相関関係を考察し,グラフ研究コミュニティにおける実践的応用と学習課題の分野にわたって,より効果的なGNNの開発を促進することを目的とする。 最後に,GNNを用いたヘテロ親和性グラフ学習における今後の研究や応用の促進に向けた方向性を指摘する。

Recent years have witnessed fast developments of graph neural networks (GNNs) that have benefited myriads of graph analytic tasks and applications. In general, most GNNs depend on the homophily assumption that nodes belonging to the same class are more likely to be connected. However, as a ubiquitous graph property in numerous real-world scenarios, heterophily, i.e., nodes with different labels tend to be linked, significantly limits the performance of tailor-made homophilic GNNs. Hence, GNNs for heterophilic graphs are gaining increasing research attention to enhance graph learning with heterophily. In this paper, we provide a comprehensive review of GNNs for heterophilic graphs. Specifically, we propose a systematic taxonomy that essentially governs existing heterophilic GNN models, along with a general summary and detailed analysis. %Furthermore, we summarize the mainstream heterophilic graph benchmarks to facilitate robust and fair evaluations and discuss the correlation between graph heterophily and various graph research domains. Furthermore, we discuss the correlation between graph heterophily and various graph research domains, aiming to facilitate the development of more effective GNNs across a spectrum of practical applications and learning tasks in the graph research community. In the end, we point out the potential directions to advance and stimulate more future research and applications on heterophilic graph learning with GNNs.
翻訳日:2024-02-23 19:30:03 公開日:2024-02-22
# PAC-Bayes境界による複数エラーの同時制御

Controlling Multiple Errors Simultaneously with a PAC-Bayes Bound ( http://arxiv.org/abs/2202.05560v2 )

ライセンス: Link先を確認
Reuben Adams and John Shawe-Taylor and Benjamin Guedj(参考訳) 現在のPAC-Bayes一般化境界は、損失やエラー率などのパフォーマンスのスカラー指標に制限されている。 しかし、リグレッションにおけるテスト損失の分布や、異なるミス分類の確率など、可能な結果の分布全体を制御する情報豊富な証明書を理想的に求めている。 我々は、M型エラーの集合の経験的および真確率のKullback-Leiblerばらつきを、回帰の離散化損失値または分類の混乱行列(またはその分割)の要素に限定して、そのようなリッチな情報を提供することができる第1のPAC-Bayes境界を提供する。 私たちは境界を異なる訓練目標に変えます。 我々の境界は、異なる誤分類の重大度が時間とともに変化する場合に特に有用であり、既存のPAC-Bayes境界は、エラータイプの特定の決定済み重み付けのみを束縛することができる。 対照的に、有界な全ての重み付けを暗黙的に同時に制御する。

Current PAC-Bayes generalisation bounds are restricted to scalar metrics of performance, such as the loss or error rate. However, one ideally wants more information-rich certificates that control the entire distribution of possible outcomes, such as the distribution of the test loss in regression, or the probabilities of different mis classifications. We provide the first PAC-Bayes bound capable of providing such rich information by bounding the Kullback-Leibler divergence between the empirical and true probabilities of a set of M error types, which can either be discretized loss values for regression, or the elements of the confusion matrix (or a partition thereof) for classification. We transform our bound into a differentiable training objective. Our bound is especially useful in cases where the severity of different mis-classifications may change over time; existing PAC-Bayes bounds can only bound a particular pre-decided weighting of the error types. In contrast our bound implicitly controls all uncountably many weightings simultaneously.
翻訳日:2024-02-23 19:29:39 公開日:2024-02-22
# PBS計算を用いたコヒーレント制御量子計算の資源最適化

Resource Optimisation of Coherently Controlled Quantum Computations with the PBS-calculus ( http://arxiv.org/abs/2202.05260v2 )

ライセンス: Link先を確認
Alexandre Cl\'ement and Simon Perdrix(参考訳) 量子計算のコヒーレント制御は、いくつかの量子プロトコルやアルゴリズムを改善するために使用できる。 例えば、与えられたユニタリ変換の置換を実装する複雑さは、標準的な量子回路モデルよりもコヒーレントな制御を許すことで、厳密に低減することができる。 本稿では,コヒーレント制御された量子計算の資源を最適化する問題に対処する。 我々は、量子光学にインスパイアされたコヒーレント制御のためのグラフィカル言語PBS計算を洗練する。 よりリソースに敏感な言語を得るために、oracleへのクエリとして解釈できる抽象ゲートを操作し、さらに重要なことは、不飽和偏光ビームスプリッターを可能にすることで、不要なワイヤ表現を避けることだ。 技術的には、この言語は色付きの小道具を形成する。 この言語は、音、完全、最小限であることを示す方程式理論を備えている。 リソース最適化に関しては、与えられたダイアグラムのoracleクエリ数を最小化する効率的な手順を導入します。 また、oracleクエリの数と偏光ビームスプリッターの数の両方を最小化する問題も考慮しています。 この最適化問題は一般にnp-hardであるが、oracleに1つ以上の問い合わせが必要な場合に最適なダイアグラムを生成する効率的なヒューリスティックを導入する。

Coherent control of quantum computations can be used to improve some quantum protocols and algorithms. For instance, the complexity of implementing the permutation of some given unitary transformations can be strictly decreased by allowing coherent control, rather than using the standard quantum circuit model. In this paper, we address the problem of optimising the resources of coherently controlled quantum computations. We refine the PBS-calculus, a graphical language for coherent control which is inspired by quantum optics. In order to obtain a more resource-sensitive language, it manipulates abstract gates -- that can be interpreted as queries to an oracle -- and more importantly, it avoids the representation of useless wires by allowing unsaturated polarising beam splitters. Technically the language forms a coloured prop. The language is equipped with an equational theory that we show to be sound, complete, and minimal. Regarding resource optimisation, we introduce an efficient procedure to minimise the number of oracle queries of a given diagram. We also consider the problem of minimising both the number of oracle queries and the number of polarising beam splitters. We show that this optimisation problem is NP-hard in general, but introduce an efficient heuristic that produces optimal diagrams when at most one query to each oracle is required.
翻訳日:2024-02-23 19:29:18 公開日:2024-02-22
# FIGARO:ファイングラインドアートコントロールによるシンボリック音楽の生成

FIGARO: Generating Symbolic Music with Fine-Grained Artistic Control ( http://arxiv.org/abs/2201.10936v4 )

ライセンス: Link先を確認
Dimitri von R\"utte, Luca Biggio, Yannic Kilcher, Thomas Hofmann(参考訳) 近年、ディープニューラルネットワークによる音楽生成は活発な研究の領域となっている。 生成したサンプルの品質は着実に向上しているが、ほとんどの方法は生成したシーケンスに対する最小限の制御しか行えない。 本稿では,グローバルレベルできめ細かな制御可能生成が可能な自己教師型記述系列タスクを提案する。 対象系列に関する高レベル特徴を抽出し、対応する高レベル記述が与えられた系列の条件分布をシーケンスからシーケンスへのモデリング設定で学習する。 FIGARO (Fine-fine music Generation via Attention-based, RObust control) をシンボリック音楽に記述列モデリングを適用して訓練する。 学習されたハイレベルな特徴と強い帰納的バイアスとして振る舞うドメイン知識を組み合わせることで、モデルは最先端の成果を制御可能なシンボリック音楽生成で達成し、トレーニング分布を超えて一般化する。

Generating music with deep neural networks has been an area of active research in recent years. While the quality of generated samples has been steadily increasing, most methods are only able to exert minimal control over the generated sequence, if any. We propose the self-supervised description-to-sequence task, which allows for fine-grained controllable generation on a global level. We do so by extracting high-level features about the target sequence and learning the conditional distribution of sequences given the corresponding high-level description in a sequence-to-sequence modelling setup. We train FIGARO (FIne-grained music Generation via Attention-based, RObust control) by applying description-to-sequence modelling to symbolic music. By combining learned high level features with domain knowledge, which acts as a strong inductive bias, the model achieves state-of-the-art results in controllable symbolic music generation and generalizes well beyond the training distribution.
翻訳日:2024-02-23 19:28:57 公開日:2024-02-22
# データ構造>ラベル? SVMハイパーパラメータ推定のための教師なしヒューリスティックス

Data structure > labels? Unsupervised heuristics for SVM hyperparameter estimation ( http://arxiv.org/abs/2111.02164v2 )

ライセンス: Link先を確認
Micha{\l} Cholewa, Micha{\l} Romaszewski, Przemys{\l}aw G{\l}omb(参考訳) 分類はパターン認識研究の主要な分野の1つであり、その内にあるSupport Vector Machine(SVM)は、ディープラーニング以外の分野で最も一般的な手法の1つであり、多くの機械学習アプローチのデファクト参照である。 その性能はパラメータ選択によって決定され、通常は時間を要するグリッドサーチクロスバリデーション(GSCV)によって達成される。 しかし、この方法はラベル付きサンプルの可用性と品質に依存しており、制限された場合にも妨げられる。 この問題を解決するために、クラスラベル情報の代わりにパラメータを選択するデータセットの特性を利用する教師なしヒューリスティックがいくつか存在する。 桁数は桁違いに速いが, グリッド探索に比べて結果が著しく悪いという仮定の下では, ほとんど使われていない。 そこで我々は,SVMパラメータ選択のためのヒューリスティックスの改善を提案し,GSCVと30以上の標準分類データセット上でのアートヒューリスティックスの現状を比較検討した。 その結果、最先端のヒューリスティックスに勝るだけでなく、統計学的にGSCVに劣らないことが示唆された。

Classification is one of the main areas of pattern recognition research, and within it, Support Vector Machine (SVM) is one of the most popular methods outside of field of deep learning -- and a de-facto reference for many Machine Learning approaches. Its performance is determined by parameter selection, which is usually achieved by a time-consuming grid search cross-validation procedure (GSCV). That method, however relies on the availability and quality of labelled examples and thus, when those are limited can be hindered. To address that problem, there exist several unsupervised heuristics that take advantage of the characteristics of the dataset for selecting parameters instead of using class label information. While an order of magnitude faster, they are scarcely used under the assumption that their results are significantly worse than those of grid search. To challenge that assumption, we have proposed improved heuristics for SVM parameter selection and tested it against GSCV and state of the art heuristics on over 30 standard classification datasets. The results show not only its advantage over state-of-art heuristics but also that it is statistically no worse than GSCV.
翻訳日:2024-02-23 19:28:39 公開日:2024-02-22
# 3次元教師なし領域認識登録変換器

3D Unsupervised Region-Aware Registration Transformer ( http://arxiv.org/abs/2110.03544v3 )

ライセンス: Link先を確認
Yu Hao, Yi Fang(参考訳) 本稿では,ポイントクラウドの登録に関する研究課題を考察し,対象とするポイントセットを最適に整えるための厳格な変換を求める。 ディープニューラルネットワークを用いたロバストなポイントクラウド登録モデルの学習は、強力なパラダイムとして登場し、一対のポイントセットに対するグローバル幾何変換の予測に有望なパフォーマンスを提供する。 既存の手法はまずエンコーダを利用して大域的な形状記述子を回帰し、結合に基づく条件付けによって形状条件変換に復号する。 しかし、3次元形状の異なる領域は幾何学的構造が異なるため、形状条件の領域ではなく領域条件の変換がより合理的である。 本稿では,入力形状を異なる領域に分割可能な3次元領域分割モジュールの新たな設計を導入することで,地上の真理ラベルを必要とせずに,自己監督型3次元形状復元損失で3次元領域分割関数を定義する。 さらに,3次元形状上の領域の短距離および長距離幾何依存性を効果的に捕捉する3次元形状変換モジュールを提案し,領域認識デコーダモジュールを提案し,それぞれ異なる領域の変換を予測する。 次に、原点から対象点への大域的幾何変換は、領域認識変換の重み付き融合によって形成される。 現状のアプローチと比較すると、我々の3D-URRTは様々なベンチマークデータセット(ModelNet40など)よりも優れた登録性能を実現している。

This paper concerns the research problem of point cloud registration to find the rigid transformation to optimally align the source point set with the target one. Learning robust point cloud registration models with deep neural networks has emerged as a powerful paradigm, offering promising performance in predicting the global geometric transformation for a pair of point sets. Existing methods first leverage an encoder to regress the global shape descriptor, which is then decoded into a shape-conditioned transformation via concatenation-based conditioning. However, different regions of a 3D shape vary in their geometric structures which makes it more sense that we have a region-conditioned transformation instead of the shape-conditioned one. In this paper, we define our 3D registration function through the introduction of a new design of 3D region partition module that is able to divide the input shape to different regions with a self-supervised 3D shape reconstruction loss without the need for ground truth labels. We further propose the 3D shape transformer module to efficiently and effectively capture short- and long-range geometric dependencies for regions on the 3D shape Consequently, the region-aware decoder module is proposed to predict the transformations for different regions respectively. The global geometric transformation from the source point set to the target one is then formed by the weighted fusion of region-aware transformation. Compared to the state-of-the-art approaches, our experiments show that our 3D-URRT achieves superior registration performance over various benchmark datasets (e.g. ModelNet40).
翻訳日:2024-02-23 19:27:52 公開日:2024-02-22
# ランダムな宇宙の生命 - sciama氏の議論を再考

Life in a random universe: Sciama's argument reconsidered ( http://arxiv.org/abs/2109.10241v4 )

ライセンス: Link先を確認
Zhi-Wei Wang and Samuel L. Braunstein(参考訳) 高次元のランダムサンプリングは、核共鳴、ニューラルネットワーク、ブラックホール蒸発のような様々な現象にうまく適用されている。 ここではイギリスの物理学者デニス・シアマ(Dennis Sciama)によるエレガントな議論を再考します。 妥当な仮定の下では、無作為宇宙は「知的に設計された」と仮装できるが、その代わりに基本的な定数は、生命の最も高い確率を達成するために微調整されているように見える。 我々の宇宙では、このメカニズムは、現在不明な基本定数を10個程度しか必要としない。 我々はそのメカニズムの幅広い応用について推測する。

Random sampling in high dimensions has successfully been applied to phenomena as diverse as nuclear resonances, neural networks and black hole evaporation. Here we revisit an elegant argument by the British physicist Dennis Sciama, which demonstrated that were our universe random, it would almost certainly have a negligible chance for life. Under plausible assumptions, we show that a random universe can masquerade as `intelligently designed,' with the fundamental constants instead appearing to be fined tuned to be achieve the highest probability for life to occur. For our universe, this mechanism may only require there to be around a dozen currently unknown fundamental constants. We speculate on broader applications for the mechanism we uncover.
翻訳日:2024-02-23 19:27:27 公開日:2024-02-22
# 生成可能可逆量子ニューラルネットワーク

Generative Invertible Quantum Neural Networks ( http://arxiv.org/abs/2302.12906v3 )

ライセンス: Link先を確認
Armand Rousselot and Michael Spannowsky(参考訳) Invertible Neural Networks (INN)は、高度に複雑なデータのシミュレーションと生成のためのツールとして確立されている。 本稿では,量子可逆ニューラルネットワーク(QINN)の量子ゲートアルゴリズムを提案し,これを粒子衝突精度測定の標準ろうそくプロセスであるレプトンに崩壊するZボソンのジェット関連生成のLHCデータに適用する。 異なる損失関数とトレーニングシナリオに対するQINNのパフォーマンスを比較した。 この課題に対して、ハイブリッドQINNは、より大規模な純粋に古典的な INN の性能と、複雑なデータの学習と生成において一致している。

Invertible Neural Networks (INN) have become established tools for the simulation and generation of highly complex data. We propose a quantum-gate algorithm for a Quantum Invertible Neural Network (QINN) and apply it to the LHC data of jet-associated production of a Z-boson that decays into leptons, a standard candle process for particle collider precision measurements. We compare the QINN's performance for different loss functions and training scenarios. For this task, we find that a hybrid QINN matches the performance of a significantly larger purely classical INN in learning and generating complex data.
翻訳日:2024-02-23 19:22:25 公開日:2024-02-22
# 投資の多様化とシャープ比の最大化:新しいqubo定式化

Diversifying Investments and Maximizing Sharpe Ratio: a novel QUBO formulation ( http://arxiv.org/abs/2302.12291v2 )

ライセンス: Link先を確認
Mirko Mattesi, Luca Asproni, Christian Mattia, Simone Tufano, Giacomo Ranieri, Davide Caputo and Davide Corbelletto(参考訳) ポートフォリオ最適化タスクは、期待されるリターンと関連するリスクの条件を満たす資産のバスケットを特定する手順として、金融サービス文献で長い間研究されてきた。 この課題に取り組むためのよく知られたアプローチはシャープ比の最大化であり、擬似プログラミングのような問題修正が達成できる。 唯一のSharpe Ratioは古典的なソルバによって効率的に最適化できるが、ビジネスシナリオでは、複数の追加ニーズが生じ、新たな制約や目的関数の用語として最適化モデルに統合されなければならない。 すると、一般にこの問題は非凸になりうるので、もはや古典的手法で効率的に解けなくなる可能性がある。 このような追加の目的関数用語の1つの例は、同一セクターに属する資産に対する投資のかなりの部分を保有するポートフォリオの多様化を最大化するとともに、複数のセクターにまたがる多様化ソリューションを優先する。 シャープ比と多様化項の両方を最適化する問題はquboにマッピングでき、量子アニーリングデバイスまたはハイブリットコンピューティングアプローチによって解くことができる。 本稿では,古典的戦略で要求される作業に対して,最適化をQUBOとしてモデル化することの容易さを示すとともに,数学的詳細と必要仮定を新たに記述したタスクに対するQUBOの定式化を提案する。 我々は、利用可能なquboソルバを通じて結果を導出するとともに、短期的には大規模問題に取り組むためのハイブリッドアプローチの振る舞いについて論じる。 最後に,多目的最適化問題を解く自然な結果として,ポートフォリオのシャープ比の観測値と多様化のトレードオフを示す結果について詳述する。

The Portfolio Optimization task has long been studied in the Financial Services literature as a procedure to identify the basket of assets that satisfy desired conditions on the expected return and the associated risk. A well-known approach to tackle this task is the maximization of the Sharpe Ratio, achievable with a problem reformulation as Quadratic Programming. While the sole Sharpe Ratio could be efficiently optimized via classical solvers, in business scenarios it is common that multiple additional needs arise, which have to be integrated in the optimization model as either new constraints or objective function terms. Then, in general, the problem may become non-convex and hence could potentially be not efficiently solvable via classical techniques anymore. One example of such additional objective function term consists of maximizing a diversification measure penalizing portfolios holding significant portions of investments on assets belonging to the same sector, while favouring solutions that diversify over multiple sectors. The problem of optimizing both the Sharpe Ratio and a diversification term can be mapped to a QUBO and be solved via quantum annealing devices or Hybrid Computing approaches, which are expected to find high quality solutions. We propose a new QUBO formulation for the task described and provide the mathematical details and required assumptions, showing the ease of modeling the optimization as QUBO against the effort that would be required by classical strategies. We derive results via the available QUBO solvers, as well as discussing the behaviour of Hybrid approaches to tackle large scale problems in the near term. We finally elaborate on the results showing the trade-off between the observed values of the portfolio's Sharpe Ratio and diversification, as a natural consequence of solving a multi-objective optimization problem.
翻訳日:2024-02-23 19:22:14 公開日:2024-02-22
# credal bayesian deep learning(英語)

Credal Bayesian Deep Learning ( http://arxiv.org/abs/2302.09656v4 )

ライセンス: Link先を確認
Michele Caprio, Souradeep Dutta, Kuk Jin Jang, Vivian Lin, Radoslav Ivanov, Oleg Sokolsky, Insup Lee(参考訳) 不確かさの定量化と分散シフトへの堅牢性は、機械学習と人工知能の重要な目標である。 ベイズニューラルネットワーク(BNN)は予測の不確実性を評価することができるが、異なる不確実性源は区別できない。 本稿では,Credal Bayesian Deep Learning(CBDL)を紹介する。 CBDLは有限個の要素のみを用いて(数えきれないほど)無限のBNNアンサンブルを訓練することができる。 これは、不正確な確率文学の概念である事前およびおそらく有限生成されたクレダル集合 (FGCSs) のおかげで可能である。 直観的には、前様対の有限集合の凸結合は、そのようなペアを無限に多く表すことができる。 トレーニング後、CBDLはニューラルネットワークのパラメータに一連の後部を出力する。 推測時において、そのような後続集合は、アラート的不確かさとてんかん的不確かさの区別に使用される一連の予測分布を導出し、それらを定量化するために用いられる。 予測集合も生成する。 (一 望ましい確率的保証を享受する出力の集まり、又は (ii)最良と見なされる単一のアウトプット、すなわち、最も高い予測的低い確率を持つもの(別の不正確確率的概念)。 CBDLは単一BNNよりも、事前およびおそらくは誤特定、および分布シフトに対して堅牢である。 CBDLは,単一のBNNやBNNのアンサンブル,ベイズモデル平均化よりも,さまざまな不確実性を定量化・解離する方が優れていることを示す。 さらに,cbdlを下流課題の能力を示す2つのケーススタディに適用した。1つは自律運転シナリオにおける運動予測,もう2つは人工膵臓制御のための血糖およびインスリン動態のモデル化である。 CBDLはBNNのベースラインのアンサンブルに比べて性能が良いことを示す。

Uncertainty quantification and robustness to distribution shifts are important goals in machine learning and artificial intelligence. Although Bayesian Neural Networks (BNNs) allow for uncertainty in the predictions to be assessed, different sources of uncertainty are indistinguishable. We present Credal Bayesian Deep Learning (CBDL). Heuristically, CBDL allows to train an (uncountably) infinite ensemble of BNNs, using only finitely many elements. This is possible thanks to prior and likelihood finitely generated credal sets (FGCSs), a concept from the imprecise probability literature. Intuitively, convex combinations of a finite collection of prior-likelihood pairs are able to represent infinitely many such pairs. After training, CBDL outputs a set of posteriors on the parameters of the neural network. At inference time, such posterior set is used to derive a set of predictive distributions that is in turn utilized to distinguish between aleatoric and epistemic uncertainties, and to quantify them. The predictive set also produces either (i) a collection of outputs enjoying desirable probabilistic guarantees, or (ii) the single output that is deemed the best, that is, the one having the highest predictive lower probability -- another imprecise-probabilistic concept. CBDL is more robust than single BNNs to prior and likelihood misspecification, and to distribution shift. We show that CBDL is better at quantifying and disentangling different types of uncertainties than single BNNs, ensemble of BNNs, and Bayesian Model Averaging. In addition, we apply CBDL to two case studies to demonstrate its downstream tasks capabilities: one, for motion prediction in autonomous driving scenarios, and two, to model blood glucose and insulin dynamics for artificial pancreas control. We show that CBDL performs better when compared to an ensemble of BNNs baseline.
翻訳日:2024-02-23 19:21:45 公開日:2024-02-22
# 非エルミート準結晶の非可換一般化:pt対称性の破れ、局在、絡み合い、位相遷移

Non-Abelian generalization of non-Hermitian quasicrystal: PT-symmetry breaking, localization, entanglement and topological transitions ( http://arxiv.org/abs/2302.05710v3 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 非エルミート準結晶は、利得と損失または非相互効果によって引き起こされる対称性の破れ、局在化、トポロジカル遷移を伴うユニークな種類の物質を形成する。 本研究では,非エルミート効果と非アーベル準周期ポテンシャルの相互作用により,拡張相,臨界相,局所相間の移動性エッジとリッチな遷移が生じる非エルミート準結晶の非アーベル汎化を導入する。 これらの一般的な特徴は、非エルミート Aubry-Andr\e-Harper モデルの3つの非アーベル多様体を調査することによって示される。 統一的な特徴付けはそのスペクトル、局在、絡み合い、位相特性に与えられる。 その結果,非エルミート準結晶の族に新たなメンバーが加わり,非エルミート系の非アーベル効果によって引き起こされる特異な物理が明らかになった。

Non-Hermitian quasicrystal forms a unique class of matter with symmetry-breaking, localization and topological transitions induced by gain and loss or nonreciprocal effects. In this work, we introduce a non-Abelian generalization of the non-Hermitian quasicrystal, in which the interplay between non-Hermitian effects and non-Abelian quasiperiodic potentials create mobility edges and rich transitions among extended, critical and localized phases. These generic features are demonstrated by investigating three non-Abelian variants of the non-Hermitian Aubry-Andr\'e-Harper model. A unified characterization is given to their spectrum, localization, entanglement and topological properties. Our findings thus add new members to the family of non-Hermitian quasicrystal and uncover unique physics that can be triggered by non-Abelian effects in non-Hermitian systems.
翻訳日:2024-02-23 19:21:14 公開日:2024-02-22
# 行動エージェントを説得する: ほぼ最良の反応と学習

Persuading a Behavioral Agent: Approximately Best Responding and Learning ( http://arxiv.org/abs/2302.03719v2 )

ライセンス: Link先を確認
Yiling Chen, Tao Lin(参考訳) 古典的なベイジアン説得モデルは、ベイジアンおよび最良応答受信機を仮定する。 本研究では,受信機が送信者の信号処理方式にほぼ最もよく対応できるベイズ説得モデルの緩和について検討する。 その結果,(1) 送信側は,(1) 送信側が従来のモデルにおいて,最も最適な応答戦略がどんなに最適であっても,期待する効用を保証できる信号方式を見つけることができ,(2) 送信側が従来のモデルで最適効用よりもはるかに有効であるような信号方式は,受信側が送信側にとって最善の応答戦略を用いていたとしても,存在しないことがわかった。 併せて、(1)および(2)は、受信者のほぼ最善応答挙動が、ベイズ説得問題において送信者の最大到達可能ユーティリティにはあまり影響しないことを示す。 両方の結果の証明はベイズ的説得スキームの強固化の考え方に依存している: 送信者の信号方式と受信者の戦略のペアが与えられた場合、受信者がその戦略を元のスキームよりも新しいスキームで使うことを好むような別のシグナリングスキームを構築することができ、2つのスキームは送信者の同様のユーティリティを提供する。 主な結果(1)の適用例として、受信者がいくつかのアルゴリズムで送信者への応答を学習するベイズ的説得モデルにおいて、送信側は従来のモデルとほぼ同じように行うことができることを示す。 興味深いことに、(2) とは異なり、学習受信機では、送信者は古典モデルよりもずっと良いことができる。

The classic Bayesian persuasion model assumes a Bayesian and best-responding receiver. We study a relaxation of the Bayesian persuasion model where the receiver can approximately best respond to the sender's signaling scheme. We show that, under natural assumptions, (1) the sender can find a signaling scheme that guarantees itself an expected utility almost as good as its optimal utility in the classic model, no matter what approximately best-responding strategy the receiver uses; (2) on the other hand, there is no signaling scheme that gives the sender much more utility than its optimal utility in the classic model, even if the receiver uses the approximately best-responding strategy that is best for the sender. Together, (1) and (2) imply that the approximately best-responding behavior of the receiver does not affect the sender's maximal achievable utility a lot in the Bayesian persuasion problem. The proofs of both results rely on the idea of robustification of a Bayesian persuasion scheme: given a pair of the sender's signaling scheme and the receiver's strategy, we can construct another signaling scheme such that the receiver prefers to use that strategy in the new scheme more than in the original scheme, and the two schemes give the sender similar utilities. As an application of our main result (1), we show that, in a repeated Bayesian persuasion model where the receiver learns to respond to the sender by some algorithms, the sender can do almost as well as in the classic model. Interestingly, unlike (2), with a learning receiver the sender can sometimes do much better than in the classic model.
翻訳日:2024-02-23 19:20:57 公開日:2024-02-22
# informed down-sampled lexicase selection: 効率的な問題解決のための生産的トレーニングケースの同定

Informed Down-Sampled Lexicase Selection: Identifying productive training cases for efficient problem solving ( http://arxiv.org/abs/2301.01488v2 )

ライセンス: Link先を確認
Ryan Boldi, Martin Briesch, Dominik Sobania, Alexander Lalejini, Thomas Helmuth, Franz Rothlauf, Charles Ofria, Lee Spector(参考訳) 遺伝的プログラミング(GP)はしばしば大きなトレーニングセットを使用し、選択中にすべてのトレーニングケースですべての個人を評価する必要がある。 ランダムダウンサンプリングレキシケースの選択は、トレーニングケースのランダムなサブセットのみの個人を評価し、同じプログラム実行量でより多くの個人を探索できるようにする。 しかし、ダウンサンプルをランダムに作成することは、いくつかの世代にわたって、現在のダウンサンプルから重要なケースを除外し、同じ動作(匿名のケース)を測定するケースはその冗長性にもかかわらず、過剰に使用される可能性がある。 本稿では,Informed Down-Sampled Lexicase Selectionを紹介する。 この手法は人口統計を利用して、より明瞭で情報的な訓練ケースを含むダウンサンプルを構築する。 2つの異なるGPシステム(PushGPとGrammar-Guided GP)に対する実証的な調査により、インシデントダウンサンプリングは、一連のプログラム合成ベンチマーク問題においてランダムダウンサンプリングを著しく上回っていることがわかった。 生成されたダウンサンプルの分析を通じて、重要なトレーニングケースが、独立した進化的実行とシステムを通じて一貫してダウンサンプルに含まれることが分かりました。 この改善は、進化の過程でより専門的な個人を維持できるインフォームド・ダウンサンプリング・レキシケース・セレクション(Informed Down-Sampled Lexicase Selection)の能力と、評価コストの削減によってもたらされる、という仮説を立てる。

Genetic Programming (GP) often uses large training sets and requires all individuals to be evaluated on all training cases during selection. Random down-sampled lexicase selection evaluates individuals on only a random subset of the training cases allowing for more individuals to be explored with the same amount of program executions. However, creating a down-sample randomly might exclude important cases from the current down-sample for a number of generations, while cases that measure the same behavior (synonymous cases) may be overused despite their redundancy. In this work, we introduce Informed Down-Sampled Lexicase Selection. This method leverages population statistics to build down-samples that contain more distinct and therefore informative training cases. Through an empirical investigation across two different GP systems (PushGP and Grammar-Guided GP), we find that informed down-sampling significantly outperforms random down-sampling on a set of contemporary program synthesis benchmark problems. Through an analysis of the created down-samples, we find that important training cases are included in the down-sample consistently across independent evolutionary runs and systems. We hypothesize that this improvement can be attributed to the ability of Informed Down-Sampled Lexicase Selection to maintain more specialist individuals over the course of evolution, while also benefiting from reduced per-evaluation costs.
翻訳日:2024-02-23 19:20:27 公開日:2024-02-22
# chebyshev補間を用いたトロッターシミュレーションの精度向上

Improved Accuracy for Trotter Simulations Using Chebyshev Interpolation ( http://arxiv.org/abs/2212.14144v4 )

ライセンス: Link先を確認
Gumaro Rendon, Jacob Watkins, Nathan Wiebe(参考訳) 量子メートル法は、最適ハイゼンベルク極限における量子系の特性を測定することができる。 しかし、関連する量子状態がデジタルハミルトニアンシミュレーションを用いて作成されると、アルゴリズムによる誤差は、この基本的な限界から逸脱する。 本研究では, 標準多項式補間法を用いて, 時間発展に伴うアルゴリズム誤差を軽減できることを示す。 我々のアプローチは、ハードウェアエラーを緩和するためのゼロノイズ外挿手法に似た、ゼロトロッターステップサイズへの外挿である。 固有値と時間発展する期待値を推定するための補間手法の厳密な誤り解析を行い,誤差の多対数因子によってハイゼンベルク限界が達成されることを示す。 我々の研究は、最先端のシミュレーションアルゴリズムに近づいた精度は、トロッターや古典的なリソースだけで達成できる可能性を示唆している。

Quantum metrology allows for measuring properties of a quantum system at the optimal Heisenberg limit. However, when the relevant quantum states are prepared using digital Hamiltonian simulation, the accrued algorithmic errors will cause deviations from this fundamental limit. In this work, we show how algorithmic errors due to Trotterized time evolution can be mitigated through the use of standard polynomial interpolation techniques. Our approach is to extrapolate to zero Trotter step size, akin to zero-noise extrapolation techniques for mitigating hardware errors. We perform a rigorous error analysis of the interpolation approach for estimating eigenvalues and time-evolved expectation values, and show that the Heisenberg limit is achieved up to polylogarithmic factors in the error. Our work suggests that accuracies approaching those of state-of-the-art simulation algorithms may be achieved using Trotter and classical resources alone for a number of relevant algorithmic tasks.
翻訳日:2024-02-23 19:19:58 公開日:2024-02-22
# PolQA: ポーランドの質問回答データセット

PolQA: Polish Question Answering Dataset ( http://arxiv.org/abs/2212.08897v2 )

ライセンス: Link先を確認
Piotr Rybak, Piotr Przyby{\l}a, Maciej Ogrodniczuk(参考訳) 最近提案されたオープンドメイン質問応答システム(OpenQA)は、最先端の性能を達成するために大量のトレーニングデータを必要とする。 しかし、データアノテーションは時間がかかり、取得するのにコストがかかることが知られている。 結果として、適切なデータセットは、少数の言語(主に英語と中国語)でのみ利用できる。 本研究では,OpenQAの最初のポーランド語データセットであるPolQAを紹介し,公開する。 7000の質問、87,525の手作業による証拠文、そして7,097,322の候補文からなるコーパスからなる。 各質問は、その定式化、型、および回答の実体型に基づいて分類される。 このリソースにより、様々なアノテーション選択がqaシステムの性能に与える影響を評価し、アノテーションコストを82%削減しながら、パス検索精度を10.55 p.p.に向上させる効率的なアノテーション戦略を提案する。

Recently proposed systems for open-domain question answering (OpenQA) require large amounts of training data to achieve state-of-the-art performance. However, data annotation is known to be time-consuming and therefore expensive to acquire. As a result, the appropriate datasets are available only for a handful of languages (mainly English and Chinese). In this work, we introduce and publicly release PolQA, the first Polish dataset for OpenQA. It consists of 7,000 questions, 87,525 manually labeled evidence passages, and a corpus of over 7,097,322 candidate passages. Each question is classified according to its formulation, type, as well as entity type of the answer. This resource allows us to evaluate the impact of different annotation choices on the performance of the QA system and propose an efficient annotation strategy that increases the passage retrieval accuracy@10 by 10.55 p.p. while reducing the annotation cost by 82%.
翻訳日:2024-02-23 19:19:42 公開日:2024-02-22
# 弱教師付きコントラスト事前学習によるテキスト埋め込み

Text Embeddings by Weakly-Supervised Contrastive Pre-training ( http://arxiv.org/abs/2212.03533v2 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei(参考訳) 本稿では,多種多様なタスクによく伝達される最先端のテキスト埋め込みであるE5について述べる。 このモデルは,大規模テキストペアデータセット(CCPairs)の弱い監視信号を用いて,対照的に訓練される。 E5は、検索、クラスタリング、分類のようなテキストの単一ベクトル表現を必要とするタスクに対して汎用的な埋め込みモデルとして容易に利用でき、ゼロショットと微調整の両方で強力なパフォーマンスを達成することができる。 BEIRおよびMTEBベンチマークから56のデータセットについて広範囲に評価を行った。 ゼロショット設定の場合、e5はラベル付きデータを使わずにbeir検索ベンチマークで強力なbm25ベースラインを上回る最初のモデルである。 微調整すると、E5はMTEBベンチマークの最良の結果を得ることができ、既存の埋め込みモデルを40倍のパラメータで上回る。

This paper presents E5, a family of state-of-the-art text embeddings that transfer well to a wide range of tasks. The model is trained in a contrastive manner with weak supervision signals from our curated large-scale text pair dataset (called CCPairs). E5 can be readily used as a general-purpose embedding model for any tasks requiring a single-vector representation of texts such as retrieval, clustering, and classification, achieving strong performance in both zero-shot and fine-tuned settings. We conduct extensive evaluations on 56 datasets from the BEIR and MTEB benchmarks. For zero-shot settings, E5 is the first model that outperforms the strong BM25 baseline on the BEIR retrieval benchmark without using any labeled data. When fine-tuned, E5 obtains the best results on the MTEB benchmark, beating existing embedding models with 40x more parameters.
翻訳日:2024-02-23 19:19:27 公開日:2024-02-22
# Threshold-based Auto-labeling の約束と落とし穴

Promises and Pitfalls of Threshold-based Auto-labeling ( http://arxiv.org/abs/2211.12620v2 )

ライセンス: Link先を確認
Harit Vishwakarma, Heguang Lin, Frederic Sala, Ramya Korlakai Vinayak(参考訳) 大規模な高品質のラベル付きデータセットの作成は、教師付き機械学習ワークフローにおける大きなボトルネックである。 しきい値に基づく自動ラベル(tbal)は、人間から得られた検証データを使用して、そのデータがマシンラベルされている信頼しきい値を見つけることで、手動アノテーションへの依存度を低減する。 TBALは実際に広く利用されているソリューションとして現れています。 長い棚の寿命と結果のデータセットの多様さを考えると、そのような自動ラベルシステムによって得られたデータがいつ信頼できるかを理解することが重要である。 これはTBALシステムを分析し、マシンラベルデータの品質を保証するのに必要な人間ラベル付き検証データの量に依存するサンプル複雑性を導出する最初の試みである。 私たちの結果は2つの重要な洞察を与えます。 まず、ラベルなしデータの妥当な断片は、一見悪いモデルによって自動的に正確にラベル付けされる。 第2に、TBALシステムの隠れた欠点は、データの使用を禁止している可能性がある。 これらの洞察を組み合わせることで、このようなシステムを使うことの約束と落とし穴が説明できる。 合成および実データセットに関する広範な実験により理論的保証を検証する。

Creating large-scale high-quality labeled datasets is a major bottleneck in supervised machine learning workflows. Threshold-based auto-labeling (TBAL), where validation data obtained from humans is used to find a confidence threshold above which the data is machine-labeled, reduces reliance on manual annotation. TBAL is emerging as a widely-used solution in practice. Given the long shelf-life and diverse usage of the resulting datasets, understanding when the data obtained by such auto-labeling systems can be relied on is crucial. This is the first work to analyze TBAL systems and derive sample complexity bounds on the amount of human-labeled validation data required for guaranteeing the quality of machine-labeled data. Our results provide two crucial insights. First, reasonable chunks of unlabeled data can be automatically and accurately labeled by seemingly bad models. Second, a hidden downside of TBAL systems is potentially prohibitive validation data usage. Together, these insights describe the promise and pitfalls of using such systems. We validate our theoretical guarantees with extensive experiments on synthetic and real datasets.
翻訳日:2024-02-23 19:19:13 公開日:2024-02-22
# デコヒーレンス下での対称性保護位相相

Symmetry protected topological phases under decoherence ( http://arxiv.org/abs/2210.16323v4 )

ライセンス: Link先を確認
Jong Yeon Lee, Yi-Zhuang You, and Cenke Xu(参考訳) 非自明な位相的特徴を持つ密度行列によって記述されるアンサンブルについて検討する。 特に、様々な種類のデコヒーレンスの下で対称性保護トポロジカル位相(SPT)のクラスを研究し、純粋なSPT状態を混合状態に駆動する。 本研究では,SPT基底状態からの非自明な位相情報をデコヒーレンスの下でも保持できることを実証する。 二重ヒルベルト空間」において、対称性保護トポロジカルアンサンブル(SPTアンサンブル)の一般的な定義を提供し、調査する主な量は、二重ヒルベルト空間における様々な種類の(有界)異常である。 従来SPT基底状態の診断として提案されていた奇妙な相関器の概念は,混合状態密度行列でこれらの異常を捉えるために一般化可能であることを示す。 安定化器ハミルトニアンの正確な計算と場の理論評価の両方を用いて、SPT状態の非自明な特徴をデコヒーレンスの下では、タイプIとタイプIIの2種類の奇妙な相関子に持続することができることを示した。 非自明なタイプI奇数相関器は、長距離絡み状態の準備などの実験から効率的に識別・活用できるSPT情報の存在に対応していることを示す。 非自明なタイプiiの奇妙なコリレータは、デコヒーレンス前のspt状態の存在に関する情報であるデコヒーレンス混合状態密度行列の完全なトポロジー応答を符号化する。 そこで本稿では,情報理論の観点からSPT位相のデコヒーレントを理解するための統一的なフレームワークを提案する。

We study ensembles described by density matrices with potentially nontrivial topological features. In particular, we study a class of symmetry protected topological (SPT) phases under various types of decoherence, which can drive a pure SPT state into a mixed state. We demonstrate that the system can still retain the nontrivial topological information from the SPT ground state even under decoherence. In the "doubled Hilbert space", we provide a general definition for symmetry protected topological ensemble (SPT ensemble), and the main quantity that we investigate is various types of (boundary) anomalies in the doubled Hilbert space. We show that the notion of the strange correlator, previously proposed to as a diagnosis for the SPT ground states, can be generalized to capture these anomalies in mixed-state density matrices. Using both exact calculations of the stabilizer Hamiltonians and field theory evaluations, we demonstrate that under decoherence the nontrivial features of the SPT state can persist in the two types of strange correlators: type-I and type-II. We show that the nontrivial type-I strange correlator corresponds to the presence of the SPT information that can be efficiently identified and utilized from experiments, such as for the purpose of preparing for long-range entangled states. The nontrivial type-II strange correlator encodes the full topological response of the decohered mixed state density matrix, i.e., the information about the presence of the SPT state before decoherence. Therefore, our work provides a unified framework to understand decohered SPT phases from the information-theoretic viewpoint.
翻訳日:2024-02-23 19:18:57 公開日:2024-02-22
# 一般化Few-Shotオープンセットオブジェクト検出に向けて

Towards Generalized Few-Shot Open-Set Object Detection ( http://arxiv.org/abs/2210.15996v3 )

ライセンス: Link先を確認
Binyi Su, Hua Zhang, Jingzhi Li, Zhong Zhou(参考訳) open-set object detection (osod) は、既知のカテゴリを検出し、動的世界の未知のオブジェクトを拒絶することを目的としている。 しかし、従来のアプローチでは、この問題はデータ・バウンダント条件でのみ考慮するが、いくつかのシーンは無視する。 本稿では,既知のクラスとして未知のクラスを高い信頼度で検出することを避けつつ,少数ショット検出の性能を維持することを目的とした,一般化されたオープンセットオブジェクト検出(g-food)の解を求める。 このタスクの主な課題は、モデルが既知のクラスに過度に適合するよう誘導するトレーニングサンプルが少ないことである。 本稿では,この問題に対処する新しいg-foodアルゴリズムを提案する。このアルゴリズムは,新しいクラス重み分離分類器 (cwsc) と新しい未知非結合学習器 (udl) を含む。 過度な適合を防ぐため、CWSCはすべてのクラスのロジット予測のために正規化重みの一部をランダムにスペーサーし、クラスと隣人の共適応性を低下させる。 同時に、UDLは未知のクラスを訓練し、モデルがコンパクトな未知の決定境界を形成することを可能にする。 したがって、未知のオブジェクトは、しきい値、プロトタイプ、生成なしに信頼確率で識別することができる。 voc-cocoデータセット設定 \footnote[1]{the source code is available at \url{https://github.com/binyisu/food}} において,本手法は未知クラスのfスコアを4.80\%-9.08\%向上させる。

Open-set object detection (OSOD) aims to detect the known categories and reject unknown objects in a dynamic world, which has achieved significant attention. However, previous approaches only consider this problem in data-abundant conditions, while neglecting the few-shot scenes. In this paper, we seek a solution for the generalized few-shot open-set object detection (G-FOOD), which aims to avoid detecting unknown classes as known classes with a high confidence score while maintaining the performance of few-shot detection. The main challenge for this task is that few training samples induce the model to overfit on the known classes, resulting in a poor open-set performance. We propose a new G-FOOD algorithm to tackle this issue, named \underline{F}ew-sh\underline{O}t \underline{O}pen-set \underline{D}etector (FOOD), which contains a novel class weight sparsification classifier (CWSC) and a novel unknown decoupling learner (UDL). To prevent over-fitting, CWSC randomly sparses parts of the normalized weights for the logit prediction of all classes, and then decreases the co-adaptability between the class and its neighbors. Alongside, UDL decouples training the unknown class and enables the model to form a compact unknown decision boundary. Thus, the unknown objects can be identified with a confidence probability without any threshold, prototype, or generation. We compare our method with several state-of-the-art OSOD methods in few-shot scenes and observe that our method improves the F-score of unknown classes by 4.80\%-9.08\% across all shots in VOC-COCO dataset settings \footnote[1]{The source code is available at \url{https://github.com/binyisu/food}}.
翻訳日:2024-02-23 19:18:28 公開日:2024-02-22
# 均質宇宙論の半古典的地球力学

Semiclassical geometrodynamics of homogeneous cosmology ( http://arxiv.org/abs/2210.07458v2 )

ライセンス: Link先を確認
Viqar Husain, Muhammad Muzammil(参考訳) 古典的量子力学(cq)による均質宇宙論のハイブリッドダイナミクスをハミルトンの観点から研究し、古典的重力位相空間変数と物質状態が完全な反反応で自己整合的に発展する。 量子スカラー場による補正を含む等方性モデルと異方性モデルの古典力学とcq力学をカスナー指数と比較した。 以上の結果から,宇宙進化の後期における完全な反反応効果は痕跡を残し,特に後期のスカラーエネルギー密度は暗黒エネルギーに潜在的に寄与する可能性が示唆された。 また、CQ方程式は等方性に対する厳密な静的解を認め、異方性ビアンキ IX 宇宙はスカラー場を定常状態とすることを示した。

We study the classical-quantum (CQ) hybrid dynamics of homogeneous cosmology from a Hamiltonian perspective where the classical gravitational phase space variables and matter state evolve self-consistently with full backreaction. We compare numerically the classical and CQ dynamics for isotropic and anisotropic models, including quantum scalar-field induced corrections to the Kasner exponents. Our results indicate that full backreaction effects leave traces at late times in cosmological evolution; in particular, the scalar energy density at late times provides a potential contribution to dark energy. We also show that the CQ equations admit exact static solutions for the isotropic, and the anisotropic Bianchi IX universes with the scalar field in a stationary state.
翻訳日:2024-02-23 19:17:43 公開日:2024-02-22
# 言語モデルタスクにおけるアンダーシグメンテーション:因果関係に基づく代名詞分解の研究

Underspecification in Language Modeling Tasks: A Causality-Informed Study of Gendered Pronoun Resolution ( http://arxiv.org/abs/2210.00131v4 )

ライセンス: Link先を確認
Emily McMilin(参考訳) 与えられたトークン予測に対して、多くの単語は推論時に自然言語を生成するというユーザの意図を満たすが、訓練時にタスクの損失関数を最小化するのは1つの単語のみである。 我々は,スプリアス相関の生成において,低比重が果たす役割を説明するための単純な因果メカニズムを提案する。 その単純さにもかかわらず、我々の因果関係モデルは、2つの軽量なブラックボックス評価手法の開発を直接的に通知し、幅広いLLMにおける代名詞解決タスクに適用する。 1【活用による推論時間不特定化の検出支援】 2) これまで報告されていなかった性別 vs. 時間と性別 vs. 位置 llm と a) サイズ(bert-base から gpt-4 turbo preview まで,b) 事前学習目標(マスクと自己回帰型言語モデリングからこれらの目的の混合まで),c) トレーニング段階(事前学習のみから人間フィードバックからの強化学習(rlhf)まで)。 コードとオープンソースのデモはhttps://github.com/2dot71mily/uspec.com/で入手できる。

Modern language modeling tasks are often underspecified: for a given token prediction, many words may satisfy the user's intent of producing natural language at inference time, however only one word will minimize the task's loss function at training time. We introduce a simple causal mechanism to describe the role underspecification plays in the generation of spurious correlations. Despite its simplicity, our causal model directly informs the development of two lightweight black-box evaluation methods, that we apply to gendered pronoun resolution tasks on a wide range of LLMs to 1) aid in the detection of inference-time task underspecification by exploiting 2) previously unreported gender vs. time and gender vs. location spurious correlations on LLMs with a range of A) sizes: from BERT-base to GPT-4 Turbo Preview, B) pre-training objectives: from masked & autoregressive language modeling to a mixture of these objectives, and C) training stages: from pre-training only to reinforcement learning from human feedback (RLHF). Code and open-source demos available at https://github.com/2dot71mily/uspec.
翻訳日:2024-02-23 19:17:28 公開日:2024-02-22
# 生存分析のためのディープラーニング: レビュー

Deep Learning for Survival Analysis: A Review ( http://arxiv.org/abs/2305.14961v4 )

ライセンス: Link先を確認
Simon Wiegrebe, Philipp Kopper, Raphael Sonabend, Bernd Bischl, and Andreas Bender(参考訳) 近年の深層学習(DL)技術の生存分析分野への流入は、例えば、画像、テキスト、オミクスデータなどの非構造化データや高次元データから学ぶなど、大きな方法論的進歩をもたらした。 本研究は, DL関連属性と生存関連属性の両方に基づいて, DL-based method for time-to-event analysisを包括的に検討する。 まとめると、レビューされたメソッドは、時間から時間までのデータに関連するタスクの小さなサブセットにのみ対処する。 シングルリスクの右チャージされたデータで、より複雑な設定を組み込むことを無視する。 我々の発見は編集可能でオープンソースでインタラクティブなテーブルで要約されている。 この研究領域は急速に進歩しているので、このデータベースを最新に保つため、コミュニティの貢献を奨励します。

The influx of deep learning (DL) techniques into the field of survival analysis in recent years has led to substantial methodological progress; for instance, learning from unstructured or high-dimensional data such as images, text or omics data. In this work, we conduct a comprehensive systematic review of DL-based methods for time-to-event analysis, characterizing them according to both survival- and DL-related attributes. In summary, the reviewed methods often address only a small subset of tasks relevant to time-to-event data - e.g., single-risk right-censored data - and neglect to incorporate more complex settings. Our findings are summarized in an editable, open-source, interactive table: https://survival-org.github.io/DL4Survival. As this research area is advancing rapidly, we encourage community contribution in order to keep this database up to date.
翻訳日:2024-02-23 19:13:34 公開日:2024-02-22
# 知識グラフ構築と推論のためのLLM:最近の能力と将来の可能性

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities ( http://arxiv.org/abs/2305.13168v2 )

ライセンス: Link先を確認
Yuqi Zhu, Xiaohan Wang, Jing Chen, Shuofei Qiao, Yixin Ou, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang(参考訳) 本稿では,知識グラフの構築と推論のためのLarge Language Models (LLMs) の定量的,定性的評価について述べる。 我々は,エンティティと関係抽出,イベント抽出,リンク予測,質問応答を含む4つの代表的なタスクに焦点をあてて,8つの多様なデータセットを対象とした実験を行い,建設・推論領域におけるLLMの性能を徹底的に調査した。 実験により, GPT-4で表されるLPMは, 少数の情報抽出装置よりも推論アシスタントとして好適であることが示唆された。 特に、gpt-4はkg構成に関わるタスクにおいて優れた性能を示すが、特定のケースでは微調整されたモデルを上回るようなタスクの推論には優れている。 さらに、情報抽出のためのLLMの潜在的な一般化能力についても検討を行い、仮想知識抽出タスクの提案と対応するVINEデータセットの開発につながった。 これらの経験的知見に基づき, llms と外部ソースを用いた多エージェント方式による kg の構築と推論を行う autokg の提案を行う。 本研究は,知識グラフの分野における今後の課題に対する貴重な洞察を期待する。 コードとデータセットはhttps://github.com/zjunlp/AutoKGにある。

This paper presents an exhaustive quantitative and qualitative evaluation of Large Language Models (LLMs) for Knowledge Graph (KG) construction and reasoning. We engage in experiments across eight diverse datasets, focusing on four representative tasks encompassing entity and relation extraction, event extraction, link prediction, and question-answering, thereby thoroughly exploring LLMs' performance in the domain of construction and inference. Empirically, our findings suggest that LLMs, represented by GPT-4, are more suited as inference assistants rather than few-shot information extractors. Specifically, while GPT-4 exhibits good performance in tasks related to KG construction, it excels further in reasoning tasks, surpassing fine-tuned models in certain cases. Moreover, our investigation extends to the potential generalization ability of LLMs for information extraction, leading to the proposition of a Virtual Knowledge Extraction task and the development of the corresponding VINE dataset. Based on these empirical findings, we further propose AutoKG, a multi-agent-based approach employing LLMs and external sources for KG construction and reasoning. We anticipate that this research can provide invaluable insights for future undertakings in the field of knowledge graphs. The code and datasets are in https://github.com/zjunlp/AutoKG.
翻訳日:2024-02-23 19:13:14 公開日:2024-02-22
# V2Meow:ビデオから音楽を再生するビジュアルビート

V2Meow: Meowing to the Visual Beat via Video-to-Music Generation ( http://arxiv.org/abs/2305.06594v2 )

ライセンス: Link先を確認
Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk(参考訳) ビデオから音楽への生成は、時間的に局所化された高品質な聴取体験と、グローバルに整列したビデオ音響署名の両方を要求する。 最近の音楽生成モデルは前者より高度なオーディオコーデックにより優れているが、ビデオ音響シグネチャの探索は特定の視覚シナリオに限定されている。 対照的に我々の研究は、ドメイン固有のリズミカルな関係やセマンティックな関係を明示的にモデル化することなく、ペア音楽やビデオから直接ビデオと音楽のシグネチャを世界規模で学習するという課題に直面している。 V2Meowは,多段階自己回帰モデルを用いて,多種多様なビデオ入力タイプに対して高品質な音楽オーディオを生成できる映像合成システムである。 V2Meowは5K時間分のオーディオクリップと、Wildのミュージックビデオから抽出したビデオフレームをペアリングして訓練され、ゼロショットで評価された場合、従来のドメイン固有のモデルと競合する。 ビデオフレームから抽出した訓練済み汎用視覚特徴を条件付け、テキストプロンプトによる任意のスタイル制御により、高忠実度音楽オーディオ波形を合成する。 定性評価と定量的評価の両面から,我々のモデルは,視覚と音響の対応や音質の観点から,既存の音楽生成システムよりも優れていることを示す。 音楽サンプルは littleurl.com/v2meow で入手できる。

Video-to-music generation demands both a temporally localized high-quality listening experience and globally aligned video-acoustic signatures. While recent music generation models excel at the former through advanced audio codecs, the exploration of video-acoustic signatures has been confined to specific visual scenarios. In contrast, our research confronts the challenge of learning globally aligned signatures between video and music directly from paired music and videos, without explicitly modeling domain-specific rhythmic or semantic relationships. We propose V2Meow, a video-to-music generation system capable of producing high-quality music audio for a diverse range of video input types using a multi-stage autoregressive model. Trained on 5k hours of music audio clips paired with video frames mined from in-the-wild music videos, V2Meow is competitive with previous domain-specific models when evaluated in a zero-shot manner. It synthesizes high-fidelity music audio waveforms solely by conditioning on pre-trained general-purpose visual features extracted from video frames, with optional style control via text prompts. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms various existing music generation systems in terms of visual-audio correspondence and audio quality. Music samples are available at tinyurl.com/v2meow.
翻訳日:2024-02-23 19:12:34 公開日:2024-02-22
# Doc2SoarGraph: セマンティック指向階層グラフによるビジュアルリッチテーブルテキストドキュメントの離散推論

Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents via Semantic-Oriented Hierarchical Graphs ( http://arxiv.org/abs/2305.01938v3 )

ライセンス: Link先を確認
Fengbin Zhu, Chao Wang, Fuli Feng, Zifeng Ren, Moxin Li, Tat-Seng Chua(参考訳) テーブルテキスト文書(例えば財務報告)に対する離散的推論は、近年2年間で注目を集めている。 既存の作業は、ドキュメントページを構造化テーブルや段落に手動で選択・変換することで、この課題を単純化する。 本研究では,より現実的なTAT-DQA形式,すなわち視覚的にリッチなテーブルテキスト文書の解答について検討する。 具体的には,与えられた質問と文書の異なる要素(量,日付など)間の差異と相関を意味的指向の階層的グラフ構造で活用し,離散的推論能力を高めた新しいdoc2soargraphフレームワークを提案する。 tat-dqaデータセットに関する広範な実験を行い,提案フレームワークが,テストセット上で17.73%,16.91%の精度マッチング(em)とf1スコアで,最高のベースラインモデルを上回って,新たな最先端を実現したことを示す。

Discrete reasoning over table-text documents (e.g., financial reports) gains increasing attention in recent two years. Existing works mostly simplify this challenge by manually selecting and transforming document pages to structured tables and paragraphs, hindering their practical application. In this work, we explore a more realistic problem setting in the form of TAT-DQA, i.e. to answer the question over a visually-rich table-text document. Specifically, we propose a novel Doc2SoarGraph framework with enhanced discrete reasoning capability by harnessing the differences and correlations among different elements (e.g., quantities, dates) of the given question and document with Semantic-oriented hierarchical Graph structures. We conduct extensive experiments on TAT-DQA dataset, and the results show that our proposed framework outperforms the best baseline model by 17.73% and 16.91% in terms of Exact Match (EM) and F1 score respectively on the test set, achieving the new state-of-the-art.
翻訳日:2024-02-23 19:11:44 公開日:2024-02-22
# SMILE: メンタルヘルス支援のためのChatGPTによるマルチターン包括的言語拡張

SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support ( http://arxiv.org/abs/2305.00450v2 )

ライセンス: Link先を確認
Huachuan Qiu, Hongliang He, Shuai Zhang, Anqi Li, Zhenzhong Lan(参考訳) メンタルヘルス支援のための専門対話システムの開発には,近年注目が集まっているマルチターン会話データが必要である。 しかし、メンタルヘルスの進歩を促進するために、大規模で現実的なマルチターン会話の収集とリリースは、データプライバシ保護と関連する時間とコストによる課題を提起する。 データ不足に関連する課題に対処するために,ChatGPTが公開シングルターン対話をマルチターン言語に書き換える,シングルターンからマルチターンインクルーシブ言語拡張技術であるSMILEを導入する。 我々の研究は、言語変換の分析から始まり、他のベースライン手法と比較して提案手法の有効性を検証する。 次に,語彙的特徴,意味的特徴,対話的話題を含む対話の多様性について検討を行い,提案手法の有効性を示す。 さらに,専門家による評価を行い,提案手法により生成された対話は,他のベースライン手法よりも高品質であることを示す。 そこで本研究では,55,165の対話からなるsmilechatという大規模かつ多様で高品質な対話データセットを作成し,対話毎に平均10.4ターンの対話を行う。 最後に,収集したコーパスを用いてメンタルヘルスチャットボットMeChatを開発した。 SmileChatの全体的な品質を評価するために,82のカウンセリング対話からなる実生活チャットデータセットを収集し,モデル評価を行った。 自動評価と人的評価はどちらも,SmileChatが高品質で実用的であることを示すために,我々の訓練された対話システムが大幅に改善されていることを示している。

Developing specialized dialogue systems for mental health support requires multi-turn conversation data, which has recently garnered increasing attention. However, gathering and releasing large-scale and real-life multi-turn conversations to facilitate advancements in mental health presents challenges due to data privacy protection, as well as the time and cost involved. To address the challenges related to data scarcity, we introduce SMILE, a single-turn to multi-turn inclusive language expansion technique that prompts ChatGPT to rewrite public single-turn dialogues into multi-turn ones. Our work begins with the analysis of language transformation, validating the feasibility of the proposed method when compared with other baseline methods. We then conduct a study on dialogue diversity, including lexical features, semantic features, and dialogue topics, demonstrating the effectiveness of our proposed method. Furthermore, we implement an expert evaluation and the results demonstrate that the dialogues generated with our proposed method are of higher quality than those generated with other baseline methods. Thus, we employ our method to generate a large-scale, diverse, and high-quality dialogue dataset named SmileChat, comprising 55,165 dialogues in total with an average of 10.4 turns per dialogue. Finally, we utilize the collected corpus to develop a mental health chatbot, MeChat. To better assess the overall quality of SmileChat, we collect a real-life chat dataset comprising 82 counseling dialogues for model evaluation. Both automatic and human evaluations demonstrate that our trained dialogue system exhibits significant improvements, showcasing that SmileChat is high-quality and practical.
翻訳日:2024-02-23 19:11:23 公開日:2024-02-22
# 意味のある因果凝集とパラドックス的共起

Meaningful Causal Aggregation and Paradoxical Confounding ( http://arxiv.org/abs/2304.11625v3 )

ライセンス: Link先を確認
Yuchen Zhu and Kailash Budhathoki and Jonas Kuebler and Dominik Janzing(参考訳) 集約変数では、同じマクロインターベンションの異なるマイクロリアライゼーションが下流マクロ変数の異なる変化をもたらすため、介入の影響は通常不確定である。 集合変数における因果関係の非定義性は, 根拠のない因果関係を共起関係に変換し, 逆もまた, それぞれのマイクロ実現に依存することを示した。 この不明確な状況から解放された場合、集約因果システムのみを使用することは事実上不可能であると主張する。 代わりに、マクロ因果関係は通常、ミクロ状態を参照してのみ定義されることを受け入れる必要がある。 正の面では、マクロ介入が観察分布と同じミクロ状態の分布であるような場合、原因-効果関係を集約できることを示し、この自然マクロ介入と呼ぶ。 この観測の一般化についても論じる。

In aggregated variables the impact of interventions is typically ill-defined because different micro-realizations of the same macro-intervention can result in different changes of downstream macro-variables. We show that this ill-definedness of causality on aggregated variables can turn unconfounded causal relations into confounded ones and vice versa, depending on the respective micro-realization. We argue that it is practically infeasible to only use aggregated causal systems when we are free from this ill-definedness. Instead, we need to accept that macro causal relations are typically defined only with reference to the micro states. On the positive side, we show that cause-effect relations can be aggregated when the macro interventions are such that the distribution of micro states is the same as in the observational distribution; we term this natural macro interventions. We also discuss generalizations of this observation.
翻訳日:2024-02-23 19:10:55 公開日:2024-02-22
# みんなピカソになれる? 人間とAIの絵を描くための計算フレームワーク

Everyone Can Be Picasso? A Computational Framework into the Myth of Human versus AI Painting ( http://arxiv.org/abs/2304.07999v2 )

ライセンス: Link先を確認
Yilin Ye, Rong Huang, Kang Zhang, Wei Zeng(参考訳) AI技術の最近の進歩、特にAIGC(AI-Generated Content)は、誰もが簡単なテキスト記述で簡単に美しい絵を作れるようにしている。 AI絵画の驚くべき品質から、人間とAI絵画の相違点がまだ残っているのか、そして人間のアーティストがAIに取って代わられるのかが疑問視されている。 これらの疑問に答えるために、人間の絵画とAI絵画の違いを調べるために、ニューラル潜在空間と美学の特徴を組み合わせた計算フレームワークを開発する。 第一に、人間とAIの絵画コレクションをカテゴリー的に比較すると、AIアートワークは、潜時空間と、ストロークやシャープネスのような美的特徴の双方における人間のアートワークと、色や構成といった他の美的特徴との分布的な違いを示す。 第2に、Picassoの個々のアーティスト分析により、AIと比較して新しいスタイルの進化における人間のアーティストの強さを示す。 本研究は,人間の絵画とAI絵画の相違点に関する具体的な証拠を提供するとともに,美学と人間アーティストの関与を考慮し,AIアートの改善を示唆するものである。

The recent advances of AI technology, particularly in AI-Generated Content (AIGC), have enabled everyone to easily generate beautiful paintings with simple text description. With the stunning quality of AI paintings, it is widely questioned whether there still exists difference between human and AI paintings and whether human artists will be replaced by AI. To answer these questions, we develop a computational framework combining neural latent space and aesthetics features with visual analytics to investigate the difference between human and AI paintings. First, with categorical comparison of human and AI painting collections, we find that AI artworks show distributional difference from human artworks in both latent space and some aesthetic features like strokes and sharpness, while in other aesthetic features like color and composition there is less difference. Second, with individual artist analysis of Picasso, we show human artists' strength in evolving new styles compared to AI. Our findings provide concrete evidence for the existing discrepancies between human and AI paintings and further suggest improvements of AI art with more consideration of aesthetics and human artists' involvement.
翻訳日:2024-02-23 19:10:16 公開日:2024-02-22
# ターゲット引数なしでスタンスを識別できるか? 噂のスタンス分類に関する研究

Can We Identify Stance Without Target Arguments? A Study for Rumour Stance Classification ( http://arxiv.org/abs/2303.12665v2 )

ライセンス: Link先を確認
Yue Li and Carolina Scarton(参考訳) 会話スレッドを考えると、噂のスタンス分類は、ターゲット(噂話)に対する返信の意見(同意または同意)を特定することを目的としている。 従来のスタンス分類では,ターゲットは必須の要素と期待されているが,ラグウェアスタンス分類データセットには,回答から直接推定できる膨大な実世界データが含まれており,対象を意識せずに教師ありモデルの強力な性能向上に寄与している。 ターゲットのコンテキストが重要となる場合、現在のターゲット認識モデルは性能が低いことが判明した。 最後に、2つのベンチマークデータセット上で最先端のパフォーマンスを実現するため、ターゲットによる推論を強化するためのシンプルで効果的なフレームワークを提案する。

Considering a conversation thread, rumour stance classification aims to identify the opinion (e.g. agree or disagree) of replies towards a target (rumour story). Although the target is expected to be an essential component in traditional stance classification, we show that rumour stance classification datasets contain a considerable amount of real-world data whose stance could be naturally inferred directly from the replies, contributing to the strong performance of the supervised models without awareness of the target. We find that current target-aware models underperform in cases where the context of the target is crucial. Finally, we propose a simple yet effective framework to enhance reasoning with the targets, achieving state-of-the-art performance on two benchmark datasets.
翻訳日:2024-02-23 19:09:33 公開日:2024-02-22
# Mobiprox: モバイルでの動的近似コンピューティングのサポート

Mobiprox: Supporting Dynamic Approximate Computing on Mobiles ( http://arxiv.org/abs/2303.11291v2 )

ライセンス: Link先を確認
Matev\v{z} Fabjan\v{c}i\v{c}, Octavian Machidon, Hashim Sharif, Yifan Zhao, Sa\v{s}a Misailovi\'c, Veljko Pejovi\'c(参考訳) 実行時変更可能なコンテキスト依存ネットワーク圧縮により、モバイルディープラーニング(DL)は、しばしばリソースの可用性、入力の"難易度"、あるいはユーザニーズに適応できる。 既存の圧縮技術はDLのメモリ、処理、エネルギー税を大幅に削減するが、結果として得られたモデルは恒久的に障害を受ける傾向にあり、リソース使用量を減らすための推論パワーを犠牲にする。 一方、既存のチューニング可能な圧縮アプローチでは、高価な再トレーニングが必要であり、圧縮に適応するための任意の戦略をサポートしておらず、モバイル対応実装を提供していない。 本稿では,モバイルDLを柔軟な精度で実現するためのフレームワークMobiproxを提案する。 mobiproxはテンソル演算の可変近似を実装し、個々のネットワーク層のランタイム対応近似を可能にする。 Mobiproxに付属するプロファイラとチューナーは、リソースの最小使用量で所望の推論品質につながる最も有望なニューラルネットワーク近似構成を特定する。 さらに、入力データの難易度などの文脈的要因に依存する制御戦略を開発し、移動DLモデルの層間における近似レベルを動的に調整する。 我々はAndroid OSにMobiproxを実装し、人間の活動認識や音声キーワード検出など様々なモバイル領域の実験を通じて、推論精度に最小限の影響を伴って最大15%のシステム全体のエネルギーを節約できることを実証した。

Runtime-tunable context-dependent network compression would make mobile deep learning (DL) adaptable to often varying resource availability, input "difficulty", or user needs. The existing compression techniques significantly reduce the memory, processing, and energy tax of DL, yet, the resulting models tend to be permanently impaired, sacrificing the inference power for reduced resource usage. The existing tunable compression approaches, on the other hand, require expensive re-training, do not support arbitrary strategies for adapting the compression and do not provide mobile-ready implementations. In this paper we present Mobiprox, a framework enabling mobile DL with flexible precision. Mobiprox implements tunable approximations of tensor operations and enables runtime-adaptable approximation of individual network layers. A profiler and a tuner included with Mobiprox identify the most promising neural network approximation configurations leading to the desired inference quality with the minimal use of resources. Furthermore, we develop control strategies that depending on contextual factors, such as the input data difficulty, dynamically adjust the approximation levels across a mobile DL model's layers. We implement Mobiprox in Android OS and through experiments in diverse mobile domains, including human activity recognition and spoken keyword detection, demonstrate that it can save up to 15% system-wide energy with a minimal impact on the inference accuracy.
翻訳日:2024-02-23 19:09:21 公開日:2024-02-22
# 咬合者再識別のための注意障害とデュアルパス制約ネットワーク

Attention Disturbance and Dual-Path Constraint Network for Occluded Person Re-identification ( http://arxiv.org/abs/2303.10976v2 )

ライセンス: Link先を確認
Jiaer Xia, Lei Tan, Pingyang Dai, Mingbo Zhao, Yongjian Wu, Liujuan Cao(参考訳) 被占領者の再識別(Re-ID)は、異なるカメラビューからの隠蔽歩行者と全体的歩行者のマッチングにおいて、潜在的な閉塞問題に対処することを目的としている。 多くの手法では、背景を人工閉塞として使用し、ノイズ干渉を排除するために注意ネットワークに依存している。 しかし、単純な背景閉塞と現実的閉塞との重大な相違は、ネットワークの一般化に悪影響を及ぼす可能性がある。 そこで,本稿では,注意ネットワークの一般化を促進するために,トランスベース注意障害とデュアルパス制約ネットワーク(adp)を提案する。 まず,実世界の障害物を模倣するために,より複雑な咬合形態として,アテンション・オブザーバメント・マスク(adm)モジュールを導入し,アグレッシブノイズを発生させ,リアルなオクルーダーのように注意をそらすことができる。 次に,これらの複雑なオクルード画像を完全に活用するために,双対経路間インタラクションを通じて全体像から望ましい監督情報を得ることができる双対経路制約モジュール(dpc)を開発した。 提案手法により,ネットワークは基本VTベースラインを用いて,多様なオクルージョンを効果的に回避することができる。 個人によるre-IDベンチマークによる総合的な実験的評価は、最先端手法よりもADPの方が優れていることを示す。

Occluded person re-identification (Re-ID) aims to address the potential occlusion problem when matching occluded or holistic pedestrians from different camera views. Many methods use the background as artificial occlusion and rely on attention networks to exclude noisy interference. However, the significant discrepancy between simple background occlusion and realistic occlusion can negatively impact the generalization of the network. To address this issue, we propose a novel transformer-based Attention Disturbance and Dual-Path Constraint Network (ADP) to enhance the generalization of attention networks. Firstly, to imitate real-world obstacles, we introduce an Attention Disturbance Mask (ADM) module that generates an offensive noise, which can distract attention like a realistic occluder, as a more complex form of occlusion. Secondly, to fully exploit these complex occluded images, we develop a Dual-Path Constraint Module (DPC) that can obtain preferable supervision information from holistic images through dual-path interaction. With our proposed method, the network can effectively circumvent a wide variety of occlusions using the basic ViT baseline. Comprehensive experimental evaluations conducted on person re-ID benchmarks demonstrate the superiority of ADP over state-of-the-art methods.
翻訳日:2024-02-23 19:08:59 公開日:2024-02-22
# 衛星画像を用いた深層ハイブリッドモデル:行動分析のための需要モデリングとコンピュータビジョンの結合法?

Deep hybrid model with satellite imagery: how to combine demand modeling and computer vision for behavior analysis? ( http://arxiv.org/abs/2303.04204v2 )

ライセンス: Link先を確認
Qingyi Wang, Shenhao Wang, Yunhan Zheng, Hongzhou Lin, Xiaohu Zhang, Jinhua Zhao, Joan Walker(参考訳) 古典的需要モデリングは、低次元の数値データ(社会デモグラフィと旅行属性)のみを使用して旅行行動を分析するが、高次元の都市画像ではない。 しかし、旅行行動は数値データと都市画像の両方で表される要因に依存するため、それらを組み合わせるには相乗的枠組みが必要である。 本研究では,混合演算子と行動予測器からなる交差構造を持つ深層ハイブリッドモデルの理論的枠組みを作成し,数値と画像のデータを潜在空間に統合する。 シカゴのMyDailyTravel Surveyを数値入力として,衛星画像を画像入力として利用して,旅行モードの選択を実証的に分析する。 我々は,従来の需要モデルと近年の深層学習の両方において,当社の監視・混合設計による旅行行動の集約・非集約化を予測する上で,ハイブリッドモデルの方が優れていることを発見した。 深いハイブリッドモデルにおける潜伏空間は、意味のある空間的および社会的パターンを明らかにするため解釈できる。 ディープハイブリッドモデルはまた、現実に存在しない新しい都市イメージを生成し、コンピューティングの代替パターンや社会福祉の変化といった経済理論と解釈することができる。 全体として、深層ハイブリッドモデルは、低次元数値データと高次元画像データと、従来の需要モデリングと最近のディープラーニングの相補性を示している。 古典的なハイブリッド需要モデルにおける潜在クラスと変数を潜在空間に一般化し、マイクロエコノミクス財団の経済解釈性を維持しつつ、画像に対するディープラーニングの計算能力を活用する。

Classical demand modeling analyzes travel behavior using only low-dimensional numeric data (i.e. sociodemographics and travel attributes) but not high-dimensional urban imagery. However, travel behavior depends on the factors represented by both numeric data and urban imagery, thus necessitating a synergetic framework to combine them. This study creates a theoretical framework of deep hybrid models with a crossing structure consisting of a mixing operator and a behavioral predictor, thus integrating the numeric and imagery data into a latent space. Empirically, this framework is applied to analyze travel mode choice using the MyDailyTravel Survey from Chicago as the numeric inputs and the satellite images as the imagery inputs. We found that deep hybrid models outperform both the traditional demand models and the recent deep learning in predicting the aggregate and disaggregate travel behavior with our supervision-as-mixing design. The latent space in deep hybrid models can be interpreted, because it reveals meaningful spatial and social patterns. The deep hybrid models can also generate new urban images that do not exist in reality and interpret them with economic theory, such as computing substitution patterns and social welfare changes. Overall, the deep hybrid models demonstrate the complementarity between the low-dimensional numeric and high-dimensional imagery data and between the traditional demand modeling and recent deep learning. It generalizes the latent classes and variables in classical hybrid demand models to a latent space, and leverages the computational power of deep learning for imagery while retaining the economic interpretability on the microeconomics foundation.
翻訳日:2024-02-23 19:08:38 公開日:2024-02-22
# 確率的グラフニューラルネットワークによる時空間走行需要の不確かさの定量化

Uncertainty Quantification of Spatiotemporal Travel Demand with Probabilistic Graph Neural Networks ( http://arxiv.org/abs/2303.04040v2 )

ライセンス: Link先を確認
Qingyi Wang, Shenhao Wang, Dingyi Zhuang, Haris Koutsopoulos, Jinhua Zhao(参考訳) 近年の研究では、グラフニューラルネットワークを用いた旅行需要予測精度が大幅に向上している。 しかし、これらの研究は旅行需要予測に必然的に存在する不確実性を無視した。 このギャップを埋めるために,旅行需要の時空間不確実性を定量化する確率的グラフニューラルネットワーク(Prob-GNN)の枠組みを提案する。 このprob-gnnフレームワークは決定論的かつ確率的仮定によって実証され、シカゴの交通とライドシェアリングの需要を予測するタスクに実証的に適用される。 確率論的仮定(例えば分布尾、支持)は決定論的仮定(例えば、深い加群、深さ)よりも不確実性予測に大きな影響を及ぼすことがわかった。 Prob-GNNの家族のうち、ガウシアンとラプラスの分布が途切れたGNNは、トランジットとライドシェアリングのデータで最高のパフォーマンスを達成した。 Prob-GNNは、新型コロナウイルス(COVID-19)のパンデミックの前後で、モデルが新型コロナウイルス以前のデータに基づいて訓練され、複数の期間にわたってテストされる場合、安定した方法で乗客の不確実性を予測することができる。 プロブ-GNNは午後のピーク時と旅行量の多い地域に集中している不確実性の時空間パターンも明らかにしている。 本研究は,時空間ライダーシップ予測のための深層学習にランダム性を導入することの重要性を強調した。 今後の研究は、行動のランダムさを捉えるための多用途な確率的仮定を引き続き調査し、さらに不確実性を定量化し、弾力性のある都市を構築する方法を開発するべきである。

Recent studies have significantly improved the prediction accuracy of travel demand using graph neural networks. However, these studies largely ignored uncertainty that inevitably exists in travel demand prediction. To fill this gap, this study proposes a framework of probabilistic graph neural networks (Prob-GNN) to quantify the spatiotemporal uncertainty of travel demand. This Prob-GNN framework is substantiated by deterministic and probabilistic assumptions, and empirically applied to the task of predicting the transit and ridesharing demand in Chicago. We found that the probabilistic assumptions (e.g. distribution tail, support) have a greater impact on uncertainty prediction than the deterministic ones (e.g. deep modules, depth). Among the family of Prob-GNNs, the GNNs with truncated Gaussian and Laplace distributions achieve the highest performance in transit and ridesharing data. Even under significant domain shifts, Prob-GNNs can predict the ridership uncertainty in a stable manner, when the models are trained on pre-COVID data and tested across multiple periods during and after the COVID-19 pandemic. Prob-GNNs also reveal the spatiotemporal pattern of uncertainty, which is concentrated on the afternoon peak hours and the areas with large travel volumes. Overall, our findings highlight the importance of incorporating randomness into deep learning for spatiotemporal ridership prediction. Future research should continue to investigate versatile probabilistic assumptions to capture behavioral randomness, and further develop methods to quantify uncertainty to build resilient cities.
翻訳日:2024-02-23 19:08:10 公開日:2024-02-22
# 高速量子計算とセンシングのためのインパルススピン運動エンタングルメント

Impulsive Spin-Motion Entanglement for Fast Quantum Computation and Sensing ( http://arxiv.org/abs/2307.11287v2 )

ライセンス: Link先を確認
Randall Putnam, Adam D. West, Wesley C. Campbell, and Paul Hamilton(参考訳) 我々は、1つの基底状態に閉じ込められたイオンのスピンと運動自由度の絡み合いを16ドルpsレーザーパルスを用いて行う。 相互作用の持続時間は運動時間スケール(30$$\mu$s)とスピンプレセッション時間スケール(1$ns)の両方よりも著しく短く、どちらも量子情報処理においてこの操作の基本的な速度制限を設定していないことを示している。 位相空間における波動関数のスピン成分としてのスピンコヒーレンスの崩壊と復活によって、絡み合いが証明される。 これらの単一キュービット演算の忠実度を$(97^{+3}_{-4})\%$と推定する。

We perform entanglement of spin and motional degrees of freedom of a single, ground-state trapped ion through the application of a $16$ ps laser pulse. The duration of the interaction is significantly shorter than both the motional timescale ($30$ $\mu$s) and spin precession timescale ($1$ ns) , demonstrating that neither sets a fundamental speed limit on this operation for quantum information processing. Entanglement is demonstrated through the collapse and revival of spin coherence as the spin components of the wavefunction separate and recombine in phase space. We infer the fidelity of these single qubit operations to be $(97^{+3}_{-4})\%$.
翻訳日:2024-02-23 19:03:13 公開日:2024-02-22
# マルチモーダルディスカッション変換器:ソーシャルメディア上でのヘイトスピーチ検出のためのテキスト・画像・グラフ変換器の統合

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media ( http://arxiv.org/abs/2307.09312v4 )

ライセンス: Link先を確認
Liam Hebert, Gaurav Sahu, Yuxuan Guo, Nanda Kishore Sreenivas, Lukasz Golab, Robin Cohen(参考訳) Reddit のようなオンラインソーシャルネットワーク上でヘイトスピーチを検出する新しい手法である Multi-Modal discussion Transformer (mDT) を提案する。 従来のコメントのみの手法とは対照的に、ヘイトスピーチとしてコメントをラベル付けするアプローチには、議論の文脈に根ざしたテキストや画像の全体的分析が含まれる。 これは、コメントを取り巻く議論において、グラフトランスフォーマーを利用してコンテキスト関係をキャプチャし、モーダルを別々に処理するのではなく、テキストと画像の埋め込みを組み合わせた相互融合層を基盤とする。 reddit上の複数のオンラインコミュニティによる、完全なマルチモーダルな議論からなる新しいデータセットであるhatefuldiscussionsを提案する。 モデルの性能を,個々のコメントのみを処理し,広範なアブレーション研究を行うベースラインと比較する。

We present the Multi-Modal Discussion Transformer (mDT), a novel methodfor detecting hate speech in online social networks such as Reddit discussions. In contrast to traditional comment-only methods, our approach to labelling a comment as hate speech involves a holistic analysis of text and images grounded in the discussion context. This is done by leveraging graph transformers to capture the contextual relationships in the discussion surrounding a comment and grounding the interwoven fusion layers that combine text and image embeddings instead of processing modalities separately. To evaluate our work, we present a new dataset, HatefulDiscussions, comprising complete multi-modal discussions from multiple online communities on Reddit. We compare the performance of our model to baselines that only process individual comments and conduct extensive ablation studies.
翻訳日:2024-02-23 19:02:59 公開日:2024-02-22
# 不快な説明:不一致を利用してモデルの信頼性を低下させる

Dissenting Explanations: Leveraging Disagreement to Reduce Model Overreliance ( http://arxiv.org/abs/2307.07636v2 )

ライセンス: Link先を確認
Omer Reingold, Judy Hanwen Shen, Aditi Talati(参考訳) 説明可能性(英語版)はますます複雑なブラックボックスモデルの望ましい特徴であるが、現代の説明法は矛盾し矛盾していることが示されている。 説明の意味論は必ずしも完全には理解されていない - どの程度まで、説明は決定を「説明」し、どの程度は単に決定を主張するのだろうか? 人間は正しい予測を伴う説明から洞察を得るのに役立ち、説明によって提唱される誤った予測を過度に反映しないだろうか? この観点からは, 矛盾する予測と付随する説明との相反する説明という概念を紹介する。 まず,類似する性能を持つ複数のモデルが異なる予測を持つ場合,モデル多重性の設定において,異質な説明の利点を探求する。 このような場合、不一致モデルの説明を呼び出すことで、不快な説明を行うことが可能である。 パイロット実験により, 不快な説明は, 全体の精度を低下させることなく, モデル予測への過度な依存を減少させることを示した。 異論説明の有用性に動機づけられ,その生成にグローバルメソッドとローカルメソッドの両方を提示する。

While explainability is a desirable characteristic of increasingly complex black-box models, modern explanation methods have been shown to be inconsistent and contradictory. The semantics of explanations is not always fully understood - to what extent do explanations "explain" a decision and to what extent do they merely advocate for a decision? Can we help humans gain insights from explanations accompanying correct predictions and not over-rely on incorrect predictions advocated for by explanations? With this perspective in mind, we introduce the notion of dissenting explanations: conflicting predictions with accompanying explanations. We first explore the advantage of dissenting explanations in the setting of model multiplicity, where multiple models with similar performance may have different predictions. In such cases, providing dissenting explanations could be done by invoking the explanations of disagreeing models. Through a pilot study, we demonstrate that dissenting explanations reduce overreliance on model predictions, without reducing overall accuracy. Motivated by the utility of dissenting explanations we present both global and local methods for their generation.
翻訳日:2024-02-23 19:02:42 公開日:2024-02-22
# 人工知能はアルゴリズムの模倣だ:なぜ「エージェント」が適切なエージェントではない(そしてそうでない)のか

Artificial intelligence is algorithmic mimicry: why artificial "agents" are not (and won't be) proper agents ( http://arxiv.org/abs/2307.07515v4 )

ライセンス: Link先を確認
Johannes Jaeger(参考訳) agi(artificial general intelligence)の開発はどうなるのか? 生活システムとアルゴリズムシステムとを体系的に比較し,特に「アジェンシー」の概念に焦点をあてて考察する。 1) 生活システムは自己表現型,すなわち自己生産型であり,それゆえ自発的な目標を設定することが可能であり,一方,外部エージェントによって提供される対象関数を持つ計算環境にはアルゴリズムが存在する。 2) リビングシステムは, ハードウェアからソフトウェアを最大限に分離する計算アーキテクチャ上でアルゴリズムが動作するのに対して, シンボル的側面と物理的側面の分離がないという意味で具体化されている。 3) 生活システムには大きな世界があり、ほとんどの問題は不定義であり(すべて定義可能ではない)、アルゴリズムは小さな世界に存在し、すべての問題が明確に定義されている。 これら3つの違いは、生活システムとアルゴリズムシステムは、非常に異なる能力と限界を持っていることを意味する。 特に、AI研究の現在のアルゴリズムフレームワークにおいて、真のAGI(単なる模倣)が開発される可能性は極めて低い。 したがって、アルゴリズムツールの適切な開発と展開に関する議論は、現在の狭義のAIの危険性と機会を中心に形成されるべきであり、人工システムにおける真のエージェンシーが出現する可能性は極めて低い。

What is the prospect of developing artificial general intelligence (AGI)? I investigate this question by systematically comparing living and algorithmic systems, with a special focus on the notion of "agency." There are three fundamental differences to consider: (1) Living systems are autopoietic, that is, self-manufacturing, and therefore able to set their own intrinsic goals, while algorithms exist in a computational environment with target functions that are both provided by an external agent. (2) Living systems are embodied in the sense that there is no separation between their symbolic and physical aspects, while algorithms run on computational architectures that maximally isolate software from hardware. (3) Living systems experience a large world, in which most problems are ill-defined (and not all definable), while algorithms exist in a small world, in which all problems are well-defined. These three differences imply that living and algorithmic systems have very different capabilities and limitations. In particular, it is extremely unlikely that true AGI (beyond mere mimicry) can be developed in the current algorithmic framework of AI research. Consequently, discussions about the proper development and deployment of algorithmic tools should be shaped around the dangers and opportunities of current narrow AI, not the extremely unlikely prospect of the emergence of true agency in artificial systems.
翻訳日:2024-02-23 19:02:26 公開日:2024-02-22
# 平衡に向けて進化する量子および古典カオススピンモデルの時間スケール

Timescales of quantum and classical chaotic spin models evolving toward equilibrium ( http://arxiv.org/abs/2307.05681v2 )

ライセンス: Link先を確認
Fausto Borgonovi, Felix M. Izrailev, Lea F. Santos(参考訳) l$相互作用スピンを持つ1次元強カオス格子のクエンチダイナミクスについて検討する。 古典力学と量子力学の両方を分析することで、これらの系の緩和過程の2つのメカニズムを同定し、解明する: 1つは線形パラメトリック不安定性から、もう1つは非線形性から生じる。 単一粒子エネルギー(球状量)とオンサイト磁化(局所観測可能)の緩和は、主に線形カオスと呼ばれる第1のメカニズムによるものであることを示す。 分析の結果,古典的領域と量子領域の双方が,システムサイズに依存しない時間スケールで緩和していることが示唆された。 この振る舞いの物理的説明は、$l$スピン角モーメントの保存にある。 我々は、よく定義された古典的極限を持つ可観測子は、この図に従うべきであり、熱力学極限において有限緩和時間を示す。 対照的に、多体ヒルベルト空間において初期状態がどのように広がり、古典的極限を持たないかを測定する参加比の進化は、熱力学的極限における緩和の欠如を示している。

We investigate the quench dynamics of a one-dimensional strongly chaotic lattice with $L$ interacting spins. By analyzing both the classical and quantum dynamics, we identify and elucidate the two mechanisms of the relaxation process of these systems: one arises from linear parametric instability and the other from nonlinearity. We demonstrate that the relaxation of the single-particles energies (global quantity) and of the onsite magnetization (local observable) is primarily due to the first mechanism, referred to as linear chaos. Our analytical findings indicate that both quantities, in the classical and quantum domain, relax at the same timescale, which is independent of the system size. The physical explanation for this behavior lies in the conservation of the $L$ spin angular momenta. We argue that observables with a well-defined classical limit should conform to this picture and exhibit a finite relaxation time in the thermodynamic limit. In contrast, the evolution of the participation ratio, which measures how the initial state spreads in the many-body Hilbert space and has no classical limit, indicates absence of relaxation in the thermodynamic limit.
翻訳日:2024-02-23 19:02:02 公開日:2024-02-22
# 分布ロバスト最適化による確率的再重み付け勾配降下

Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization ( http://arxiv.org/abs/2306.09222v3 )

ライセンス: Link先を確認
Ramnath Kumar and Kushal Majmundar and Dheeraj Nagaraj and Arun Sai Suggala(参考訳) 本稿では,動的サンプル重み付けによりディープニューラルネットワークの性能を向上させる新しい最適化手法である再重み付け勾配降下法(rgd)を提案する。 提案手法は,Kulback-Leibler分散を用いた分散ロバスト最適化(DRO)の原理に基づく。 RGDは実装が簡単で、計算効率が良く、SGDやAdamのような広く使われているオプティマイザと互換性がある。 本稿では,+0.7% (DomainBed), +1.44% (タブラル分類),+1.94% (GLUE with BERT), +1.01% (ImageNet-1K with ViT) など,さまざまなベンチマークにおいて,RGDの適用性と影響を実証する。

We present Re-weighted Gradient Descent (RGD), a novel optimization technique that improves the performance of deep neural networks through dynamic sample importance weighting. Our method is grounded in the principles of distributionally robust optimization (DRO) with Kullback-Leibler divergence. RGD is simple to implement, computationally efficient, and compatible with widely used optimizers such as SGD and Adam. We demonstrate the broad applicability and impact of RGD by achieving state-of-the-art results on diverse benchmarks, including improvements of +0.7% (DomainBed), +1.44% (tabular classification), +1.94% (GLUE with BERT), and +1.01% (ImageNet-1K with ViT).
翻訳日:2024-02-23 19:01:43 公開日:2024-02-22
# 時系列因果発見を改善するブートストラップ収集と信頼度対策

Bootstrap aggregation and confidence measures to improve time series causal discovery ( http://arxiv.org/abs/2306.08946v2 )

ライセンス: Link先を確認
Kevin Debeire (1 and 2), Jakob Runge (2 and 3), Andreas Gerhardus (2) and Veronika Eyring (1 and 4) ((1) DLR, Institut f\"ur Physik der Atmosph\"are, Oberpfaffenhofen, Germany, (2) DLR, Institut f\"ur Datenwissenschaften, Jena, Germany, (3) Technische Universit\"at Berlin, Faculty of Computer Science, Berlin, Germany, (4) University of Bremen, Institute of Environmental Physics, Bremen, Germany)(参考訳) 多変量時系列から因果グラフを学ぶことは、地球科学、生物学、工学など、時間に依存したシステムを扱うすべてのアプリケーション領域においてユビキタスな課題である。 この因果的発見学習タスクの最近の開発は、人気のある条件付き独立性に基づく学習フレームワークの特定の時系列適応など、かなりのスキルを示している。 しかし,条件付き独立法では不確実性推定が難しい。 本稿では,時間的依存関係とラグ構造を保存する時系列因果発見のための新しいブートストラップ手法を提案する。 一連の時系列因果発見法と組み合わせることができ、時系列グラフのリンクに対する信頼度を測定することができる。 さらに,信頼度推定の次は,バグ付き因果関係発見法において,多数決結果による自己紹介グラフの集計(バグング)である。 本研究では,この手法を条件依存型pcmci+アルゴリズムと組み合わせる。 大規模な数値実験により、Bagged-PCMCI+は、リンクに対する信頼度の測定に加えて、その基礎となるアルゴリズムであるPCMCI+よりも精度とリコールが向上し、高い計算要求のコストがかかることを示した。 これらの統計性能の改善は特に、より困難な設定(短い時間サンプルサイズ、多数の変数、高い自己相関)で顕著である。 我々のブートストラップアプローチは、他の時系列因果探索アルゴリズムと組み合わせることもでき、多くの実世界のアプリケーションでかなり役立つ。

Learning causal graphs from multivariate time series is a ubiquitous challenge in all application domains dealing with time-dependent systems, such as in Earth sciences, biology, or engineering, to name a few. Recent developments for this causal discovery learning task have shown considerable skill, notably the specific time-series adaptations of the popular conditional independence-based learning framework. However, uncertainty estimation is challenging for conditional independence-based methods. Here, we introduce a novel bootstrap approach designed for time series causal discovery that preserves the temporal dependencies and lag structure. It can be combined with a range of time series causal discovery methods and provides a measure of confidence for the links of the time series graphs. Furthermore, next to confidence estimation, an aggregation, also called bagging, of the bootstrapped graphs by majority voting results in bagged causal discovery methods. In this work, we combine this approach with the state-of-the-art conditional-independence-based algorithm PCMCI+. With extensive numerical experiments we empirically demonstrate that, in addition to providing confidence measures for links, Bagged-PCMCI+ improves in precision and recall as compared to its base algorithm PCMCI+, at the cost of higher computational demands. These statistical performance improvements are especially pronounced in the more challenging settings (short time sample size, large number of variables, high autocorrelation). Our bootstrap approach can also be combined with other time series causal discovery algorithms and can be of considerable use in many real-world applications.
翻訳日:2024-02-23 19:01:28 公開日:2024-02-22
# 製造システムのオンラインモニタリングのためのAS-GAN(Attention-stacked Generative Adversarial Network)を用いたセンサデータ拡張

Attention-stacked Generative Adversarial Network (AS-GAN)-empowered Sensor Data Augmentation for Online Monitoring of Manufacturing System ( http://arxiv.org/abs/2306.06268v2 )

ライセンス: Link先を確認
Yuxuan Li, Chenang Liu(参考訳) 機械学習(ML)は、先進的な製造システムにおけるオンラインセンシングベースのモニタリングに広く採用されている。 しかし、異常な状態下で収集されたセンサデータは、通常不十分であり、教師付き機械学習において重要なデータ不均衡問題を引き起こす。 一般的な解決策は、データ拡張技術、すなわち、利用可能な異常状態データ(例えば、少数サンプル)を合成生成によって増強することである。 高品質のマイノリティサンプルを生成するには,異常状態データの基盤となる分布を知ることが不可欠である。 近年,gan(generative adversarial network)ベースのアプローチが普及し,データ分散の学習やデータ拡張が実現されている。 しかし、実際にはganベースのデータ拡張から生成されたサンプルの品質は大きく異なる可能性がある。 また、センサ信号は製造システムから順次収集されるため、データ拡張においてもシーケンシャル情報が非常に重要である。 マルチヘッドアテンション機構にインスパイアされたこれらの制約に対処するため,製造システムにおけるオンラインモニタリングのセンサデータ拡張のための注意喚起型GANアーキテクチャを提案する。 これは、ganのジェネレータをシーケンシャルな情報をキャプチャする能力で強化するために、新しいアテンションスタックフレームワークを組み込んでおり、それによって、開発されたセンサ信号の品質向上に大いに役立つ。 その後、異常状態に対する高品質なセンサ信号がより正確に列車分類器に適用され、製造システムのオンライン監視性能が向上した。 添加性製造におけるケーススタディは, 提案したAS-GANの有効性の検証にも成功した。

Machine learning (ML) has been extensively adopted for the online sensing-based monitoring in advanced manufacturing systems. However, the sensor data collected under abnormal states are usually insufficient, leading to significant data imbalanced issue for supervised machine learning. A common solution is to incorporate data augmentation techniques, i.e., augmenting the available abnormal states data (i.e., minority samples) via synthetic generation. To generate the high-quality minority samples, it is vital to learn the underlying distribution of the abnormal states data. In recent years, the generative adversarial network (GAN)-based approaches become popular to learn data distribution as well as perform data augmentation. However, in practice, the quality of generated samples from GAN-based data augmentation may vary drastically. In addition, the sensor signals are collected sequentially by time from the manufacturing systems, which means sequential information is also very important in data augmentation. To address these limitations, inspired by the multi-head attention mechanism, this paper proposed an attention-stacked GAN (AS-GAN) architecture for sensor data augmentation of online monitoring in manufacturing system. It incorporates a new attention-stacked framework to strengthen the generator in GAN with the capability of capturing sequential information, and thereby the developed attention-stacked framework greatly helps to improve the quality of the generated sensor signals. Afterwards, the generated high-quality sensor signals for abnormal states could be applied to train classifiers more accurately, further improving the online monitoring performance of manufacturing systems. The case study conducted in additive manufacturing also successfully validated the effectiveness of the proposed AS-GAN.
翻訳日:2024-02-23 19:01:01 公開日:2024-02-22
# 最終層インバージョンによる生成モデルの単一モデル属性

Single-Model Attribution of Generative Models Through Final-Layer Inversion ( http://arxiv.org/abs/2306.06210v4 )

ライセンス: Link先を確認
Mike Laszkiewicz, Jonas Ricker, Johannes Lederer, Asja Fischer(参考訳) 生成モデリングの最近の進歩は、実用的な単一モデル属性への関心を喚起している。 このような方法は、サンプルが特定のジェネレータによって生成されたかどうかを予測し、例えば知的財産の盗難を証明する。 しかし、以前の作品はクローズドワールドの設定に限られるか、生成モデルに望ましくない変更を必要とする。 まず,異常検出レンズを通して単一モデルの帰属を見ることにより,これらの欠点を解消する。 この観点から,最終層反転と異常検出に基づくオープンワールド環境における単一モデル属性に対する新しいアプローチであるFLIPADを提案する。 得られた最終層インバージョンを凸ラッソ最適化問題に還元し,理論的に健全で計算効率がよいことを示す。 理論的な知見は,提案手法の有効性と様々な領域への柔軟性を実証した実験的研究に付随する。

Recent breakthroughs in generative modeling have sparked interest in practical single-model attribution. Such methods predict whether a sample was generated by a specific generator or not, for instance, to prove intellectual property theft. However, previous works are either limited to the closed-world setting or require undesirable changes to the generative model. We address these shortcomings by, first, viewing single-model attribution through the lens of anomaly detection. Arising from this change of perspective, we propose FLIPAD, a new approach for single-model attribution in the open-world setting based on final-layer inversion and anomaly detection. We show that the utilized final-layer inversion can be reduced to a convex lasso optimization problem, making our approach theoretically sound and computationally efficient. The theoretical findings are accompanied by an experimental study demonstrating the effectiveness of our approach and its flexibility to various domains.
翻訳日:2024-02-23 19:00:34 公開日:2024-02-22
# ダイナミクスシフトを伴うデータに対する状態正規化ポリシー最適化

State Regularized Policy Optimization on Data with Dynamics Shift ( http://arxiv.org/abs/2306.03552v4 )

ライセンス: Link先を確認
Zhenghai Xue, Qingpeng Cai, Shuchang Liu, Dong Zheng, Peng Jiang, Kun Gai, Bo An(参考訳) 多くの現実世界のシナリオでは、強化学習(rl)アルゴリズムは、動的シフトのあるデータ、すなわち異なる環境ダイナミクスに基づいて訓練される。 現在の手法の大部分は、環境パラメータを識別するためにコンテキストエンコーダをトレーニングすることでこの問題に対処している。 動的シフトを伴うデータは、環境パラメータに従って分離され、対応するポリシーをトレーニングする。 しかし、これらの手法は、データがtextit{ad hoc} として使用されるため、サンプル非効率であり、1つのダイナミクスのために訓練されたポリシーは、異なるダイナミクスを持つ他のすべての環境で収集されたデータから恩恵を受けることができない。 本稿では,類似した構造と異なるダイナミクスを持つ多くの環境において,最適ポリシーが類似した定常状態分布を持つことを示す。 このような特性を活用し,動的シフトを持つデータから定常状態分布を学習し,効率的なデータ再利用を行う。 そのような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(\textbf{S}tate \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization)アルゴリズムにつながる。 理論的解析を行うため、類似した環境構造の直観はホモモルファスMDPの概念によって特徴づけられる。 次に、定常状態分布によって規則化されたポリシーに対して、低いバウンド性能保証を示す。 実際には、SRPOはオンラインとオフラインのRL設定の両方でコンテキストベースのアルゴリズムのアドオンモジュールとなることができる。 実験の結果、srpoは複数のコンテキストベースのアルゴリズムをより効率的にし、全体的な性能を大幅に向上できることがわかった。

In many real-world scenarios, Reinforcement Learning (RL) algorithms are trained on data with dynamics shift, i.e., with different underlying environment dynamics. A majority of current methods address such issue by training context encoders to identify environment parameters. Data with dynamics shift are separated according to their environment parameters to train the corresponding policy. However, these methods can be sample inefficient as data are used \textit{ad hoc}, and policies trained for one dynamics cannot benefit from data collected in all other environments with different dynamics. In this paper, we find that in many environments with similar structures and different dynamics, optimal policies have similar stationary state distributions. We exploit such property and learn the stationary state distribution from data with dynamics shift for efficient data reuse. Such distribution is used to regularize the policy trained in a new environment, leading to the SRPO (\textbf{S}tate \textbf{R}egularized \textbf{P}olicy \textbf{O}ptimization) algorithm. To conduct theoretical analyses, the intuition of similar environment structures is characterized by the notion of homomorphous MDPs. We then demonstrate a lower-bound performance guarantee on policies regularized by the stationary state distribution. In practice, SRPO can be an add-on module to context-based algorithms in both online and offline RL settings. Experimental results show that SRPO can make several context-based algorithms far more data efficient and significantly improve their overall performance.
翻訳日:2024-02-23 18:59:17 公開日:2024-02-22
# SENet:Few-shot Learningの例を表現するためのスペクトルフィルタリング手法

SENet: A Spectral Filtering Approach to Represent Exemplars for Few-shot Learning ( http://arxiv.org/abs/2305.18970v2 )

ライセンス: Link先を確認
Tao Zhang and Wu Huang(参考訳) プロトタイプは、過剰適合の問題に対処するための単純な帰納バイアスとして提案された、数ショット学習のためのカテゴリの内部構造を表現するために広く用いられている。 しかしながら、プロトタイプ表現は通常、個々のサンプルから平均化されるため、いくつかのクラスを適切に表現することはできるが、他のクラスを例に示すのに不適当である。 この問題に対処するため,本研究では,少数の分類のためのShrinkage Exemplar Networks (SENet)を提案する。 SENetでは、カテゴリはスペクトルフィルタリングによって平均に向かって縮小するサンプルの埋め込みによって表現される。 さらに, 個々の収縮サンプルの情報を取り込むために, 広く使用されるクロスエントロピー損失を置き換えるために, 縮小損失が提案されている。 miniimagenet、tiered-imagenet、cifar-fsデータセットでいくつかの実験が行われた。 実験の結果,提案手法の有効性が示された。

Prototype is widely used to represent internal structure of category for few-shot learning, which was proposed as a simple inductive bias to address the issue of overfitting. However, since prototype representation is normally averaged from individual samples, it can appropriately to represent some classes but with underfitting to represent some others that can be batter represented by exemplars. To address this problem, in this work, we propose Shrinkage Exemplar Networks (SENet) for few-shot classification. In SENet, categories are represented by the embedding of samples that shrink towards their mean via spectral filtering. Furthermore, a shrinkage exemplar loss is proposed to replace the widely used cross entropy loss for capturing the information of individual shrinkage samples. Several experiments were conducted on miniImageNet, tiered-ImageNet and CIFAR-FS datasets. The experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2024-02-23 18:58:46 公開日:2024-02-22
# クリッピングのないdp-sgd:lipschitzニューラルネットワーク方式

DP-SGD Without Clipping: The Lipschitz Neural Network Way ( http://arxiv.org/abs/2305.16202v2 )

ライセンス: Link先を確認
Louis Bethune, Thomas Massena, Thibaut Boissin, Yannick Prudent, Corentin Friedrich, Franck Mamalet, Aurelien Bellet, Mathieu Serrurier, David Vigouroux(参考訳) 差分プライベート(dp)ディープニューラルネットワーク(dnn)のトレーニングに関する最先端のアプローチでは、ネットワークのレイヤの感度に関する厳密な境界の推定が難しく、代わりにサンプル毎の勾配クリッピングのプロセスに依存する。 このクリッピングプロセスは勾配の方向をバイアスするだけでなく、メモリ消費と計算の両方でコストがかかることを証明している。 クリッピングプロセスの欠点を回避し,感度境界を提供するため,リプシッツ制約付きネットワークを活用することを提案する。 我々の理論的解析は、入力に関してリプシッツ定数とパラメータに関してのリプシッツ定数の間の未探索のリンクを明らかにする。 パラメータに関して各レイヤのリプシッツ定数をバウンドすることで、これらのネットワークをプライバシ保証でトレーニングできることを証明します。 我々の分析は、上記の感覚の大規模計算を可能にするだけでなく、固定されたプライバシー保証のための勾配-雑音比を最大化するためのガイダンスも提供する。 コードはPythonパッケージとしてhttps://github.com/Algue-Rythme/lip-dpで公開されている。

State-of-the-art approaches for training Differentially Private (DP) Deep Neural Networks (DNN) face difficulties to estimate tight bounds on the sensitivity of the network's layers, and instead rely on a process of per-sample gradient clipping. This clipping process not only biases the direction of gradients but also proves costly both in memory consumption and in computation. To provide sensitivity bounds and bypass the drawbacks of the clipping process, we propose to rely on Lipschitz constrained networks. Our theoretical analysis reveals an unexplored link between the Lipschitz constant with respect to their input and the one with respect to their parameters. By bounding the Lipschitz constant of each layer with respect to its parameters, we prove that we can train these networks with privacy guarantees. Our analysis not only allows the computation of the aforementioned sensitivities at scale, but also provides guidance on how to maximize the gradient-to-noise ratio for fixed privacy guarantees. The code has been released as a Python package available at https://github.com/Algue-Rythme/lip-dp
翻訳日:2024-02-23 18:58:32 公開日:2024-02-22
# サポートベクターマシンとしてのトランスフォーマー

Transformers as Support Vector Machines ( http://arxiv.org/abs/2308.16898v3 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Yingcong Li, Christos Thrampoulidis, Samet Oymak(参考訳) Attention Is All You Need"の発端から、トランスフォーマーアーキテクチャはNLPの革命的な進歩につながっている。 変換器内のアテンション層は入力トークンのシーケンスを$X$として、Softmax$(XQK^\top X^\top)$として計算されたペアの類似性を通じて相互作用させる。 本研究では,トークンペアの外積に対する線形制約を用いた最適入力トークンと最適入力トークンを分離する,自己アテンションの最適化手法とハードマージンSVM問題との形式的等価性を確立する。 この定式化により、勾配降下に最適化された1層トランスフォーマーの暗黙バイアスを特徴づけることができる: 1) パラメータを$(K,Q)$でパラメータ化した注意層を、組み合わせたパラメータ$W=KQ^\top$の核ノルムを最小化するSVMソリューションに収束させる。 その代わり、$W$による直接パラメータ化はフロベニウスノルムの目的を最小化する。 我々はこの収束を特徴付け、グローバルな方向ではなく、局所的な最適方向に向けて起こることを強調した。 2) これの補足として, 幾何条件下での勾配降下の局所的・言語的方向収束を証明した。 さらに, 過パラメータ化はsvm問題の実現可能性を確保し, 静止点のない良性最適化景観を保証し, 大域的収束を触媒することを示す。 3) この理論は主に線形予測ヘッドに適用できるが, 非線形ヘッドによる暗黙バイアスを予測するより一般的なsvm等価性を提案する。 本研究は任意のデータセットに適用でき,その妥当性を実験により検証する。 オープンな問題や研究の方向性も紹介する。 これらの発見は、最適なトークンを分離し、選択するSVMの階層としてのトランスフォーマーの解釈を促していると信じている。

Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax$(XQK^\top X^\top)$, where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
翻訳日:2024-02-23 18:53:39 公開日:2024-02-22
# 神経機械翻訳に対する敵意攻撃に対する分類誘導的アプローチ

A Classification-Guided Approach for Adversarial Attacks against Neural Machine Translation ( http://arxiv.org/abs/2308.15246v2 )

ライセンス: Link先を確認
Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard(参考訳) ニューラルマシン翻訳(nmt)モデルは、注意深く作られた入力の摂動がターゲットモデルを誤解させる可能性がある敵の攻撃に対して脆弱であることが示されている。 本稿では,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。 本攻撃では,NMTモデルによる対象言語への翻訳が本来の翻訳と異なるクラスに属する意味保存的敵例を作成することを目的とした。 以前の攻撃とは異なり、私たちの新しいアプローチは、全体的な意味を変更して翻訳にもっと大きな影響を与え、oracleの分類器によって決定される別のクラスに繋がる。 攻撃に対するNMTモデルの堅牢性を評価するため,ターゲットNMTモデルの出力変換と分類器の出力ロジットをアタックプロセスに組み込むことにより,既存のブラックボックス単語置換攻撃の強化を提案する。 既存の非標的攻撃との比較を含む広範な実験は、我々の攻撃が出力翻訳のクラスを変更することにかなり成功しており、翻訳により多くの効果があることを示している。 この新たなパラダイムは,従来の翻訳品質よりも翻訳のクラスに着目して,NMTシステムの脆弱性を明らかにすることができる。

Neural Machine Translation (NMT) models have been shown to be vulnerable to adversarial attacks, wherein carefully crafted perturbations of the input can mislead the target model. In this paper, we introduce ACT, a novel adversarial attack framework against NMT systems guided by a classifier. In our attack, the adversary aims to craft meaning-preserving adversarial examples whose translations in the target language by the NMT model belong to a different class than the original translations. Unlike previous attacks, our new approach has a more substantial effect on the translation by altering the overall meaning, which then leads to a different class determined by an oracle classifier. To evaluate the robustness of NMT models to our attack, we propose enhancements to existing black-box word-replacement-based attacks by incorporating output translations of the target NMT model and the output logits of a classifier within the attack process. Extensive experiments, including a comparison with existing untargeted attacks, show that our attack is considerably more successful in altering the class of the output translation and has more effect on the translation. This new paradigm can reveal the vulnerabilities of NMT systems by focusing on the class of translation rather than the mere translation quality as studied traditionally.
翻訳日:2024-02-23 18:53:04 公開日:2024-02-22
# d+1)$次元安定化回路における絡み合いと吸収状態遷移

Entanglement and absorbing state transitions in $(d+1)$-dimensional stabilizer circuits ( http://arxiv.org/abs/2308.13384v2 )

ライセンス: Link先を確認
Piotr Sierant and Xhek Turkeshi(参考訳) 本研究では,$(d+1)$次元監視ランダム量子回路のダイナミクスに及ぼすフィードバック操作の影響について検討する。 ユニタリダイナミクスと測定値の競合は絡み合った相転移をもたらすが、フィードバックはダイナミクスを吸収状態へ誘導し、吸収状態の相転移をもたらす。 1つの空間次元における以前の結果に基づく[Phys. Rev. 130, 120402 (2023)]、我々は、d \ge 2$の2種類の遷移間の相互作用について議論する。 (i)短期フィードバック操作又は (ii) 追加のグローバルコントロール操作。 どちらの場合でも、吸収状態遷移は$d$-dimensional directed percolation universalityクラスに属する。 対照的に、絡み合う遷移はフィードバック操作のタイプに依存し、ダイナミクスの不等価な特徴を明らかにする。 短距離フィードバック操作では、絡み合いと吸収状態の位相遷移が分離されている。 グローバル制御操作が適用されると、2つの臨界点が一致することが分かるが、制御操作の選択によっても普遍性クラスは依然として異なる可能性がある。

We study the influence of feedback operations on the dynamics of $(d+1)$-dimensional monitored random quantum circuit. Competition between unitary dynamics and measurements leads to an entanglement phase transition, while the feedback steers the dynamics towards an absorbing state, yielding an absorbing state phase transition. Building on previous results in one spatial dimension [Phys. Rev. Lett. 130, 120402 (2023)], we discuss the interplay between the two types of transitions for $d \ge 2$ in the presence of (i) short-range feedback operations or (ii) additional global control operations. In both cases, the absorbing state transition belongs to the $d$-dimensional directed percolation universality class. In contrast, the entanglement transition depends on the feedback operation type and reveals the dynamics' inequivalent features. The entanglement and absorbing state phase transition remain separated for short-range feedback operations. When global control operations are applied, we find the two critical points coinciding; nevertheless, the universality class may still differ, depending on the choice of the control operation.
翻訳日:2024-02-23 18:52:46 公開日:2024-02-22
# 指向性物体検出のための空間変換デカップリング

Spatial Transform Decoupling for Oriented Object Detection ( http://arxiv.org/abs/2308.10561v2 )

ライセンス: Link先を確認
Hongtian Yu, Yunjie Tian, Qixiang Ye, Yunfan Liu(参考訳) ビジョントランスフォーマー (vits) はコンピュータビジョンタスクで顕著な成功を収めた。 しかし、回転に敏感なシナリオにおけるそれらのポテンシャルは十分に解明されておらず、この制限は本質的にはデータフォワード過程における空間的不変性の欠如によるものである。 本研究では,vitsを用いた指向性物体検出のための簡易解法として,std(spatial transform decoupling)という新しい手法を提案する。 スタック化されたViTブロック上に構築されたSTDは、別々のネットワークブランチを使用して、境界ボックスの位置、サイズ、角度を予測する。 さらに、回帰パラメータに基づいて計算されたカスケード活性化マスク(CAM)を集約することにより、STDは、自己注意機構を補完する関心領域(RoI)の機能を徐々に強化する。 ベルとホイッスルがなければ、STDはDOTA-v1.0 (82.24% mAP) やHRSC2016 (98.55% mAP) などのベンチマークデータセット上で最先端のパフォーマンスを達成し、提案手法の有効性を示す。 ソースコードはhttps://github.com/yuhongtian17/spatial-transform-decouplingで入手できる。

Vision Transformers (ViTs) have achieved remarkable success in computer vision tasks. However, their potential in rotation-sensitive scenarios has not been fully explored, and this limitation may be inherently attributed to the lack of spatial invariance in the data-forwarding process. In this study, we present a novel approach, termed Spatial Transform Decoupling (STD), providing a simple-yet-effective solution for oriented object detection with ViTs. Built upon stacked ViT blocks, STD utilizes separate network branches to predict the position, size, and angle of bounding boxes, effectively harnessing the spatial transform potential of ViTs in a divide-and-conquer fashion. Moreover, by aggregating cascaded activation masks (CAMs) computed upon the regressed parameters, STD gradually enhances features within regions of interest (RoIs), which complements the self-attention mechanism. Without bells and whistles, STD achieves state-of-the-art performance on the benchmark datasets including DOTA-v1.0 (82.24% mAP) and HRSC2016 (98.55% mAP), which demonstrates the effectiveness of the proposed method. Source code is available at https://github.com/yuhongtian17/Spatial-Transform-Decoupling.
翻訳日:2024-02-23 18:52:28 公開日:2024-02-22
# スティーフェル多様体上の分散リーマン共役勾配法

Decentralized Riemannian Conjugate Gradient Method on the Stiefel Manifold ( http://arxiv.org/abs/2308.10547v2 )

ライセンス: Link先を確認
Jun Chen, Haishan Ye, Mengmeng Wang, Tianxin Huang, Guang Dai, Ivor W.Tsang, Yong Liu(参考訳) 共役勾配法は、一般に最も急勾配法よりも早く収束する重要な1次最適化法であり、その計算コストは2次法よりもはるかに低い。 しかし、様々な共役勾配法がユークリッド空間やリーマン多様体で研究されているが、分散シナリオでの研究はほとんどない。 本稿では、スティーフェル多様体上の大域関数の最小化を目的とした分散リーマン共役勾配降下法(DRCGD)を提案する。 最適化問題は、各エージェントが局所関数に関連付けられたエージェントのネットワークに分散され、エージェント間の通信は無向連結グラフ上で発生する。 スティーフェル多様体は非凸集合であるため、大域函数はおそらく非凸(しかし滑らかな)局所函数の有限和として表現される。 提案手法は,リトラクション,指数写像,ベクトル輸送などの高価なリーマン幾何学演算を不要とし,各エージェントが必要とする計算複雑性を低減させる。 我々の知る限りでは、dcgdはスティーフェル多様体上の大域収束を達成する最初の分散リーマン共役勾配アルゴリズムである。

The conjugate gradient method is a crucial first-order optimization method that generally converges faster than the steepest descent method, and its computational cost is much lower than the second-order methods. However, while various types of conjugate gradient methods have been studied in Euclidean spaces and on Riemannian manifolds, there is little study for those in distributed scenarios. This paper proposes a decentralized Riemannian conjugate gradient descent (DRCGD) method that aims at minimizing a global function over the Stiefel manifold. The optimization problem is distributed among a network of agents, where each agent is associated with a local function, and the communication between agents occurs over an undirected connected graph. Since the Stiefel manifold is a non-convex set, a global function is represented as a finite sum of possibly non-convex (but smooth) local functions. The proposed method is free from expensive Riemannian geometric operations such as retractions, exponential maps, and vector transports, thereby reducing the computational complexity required by each agent. To the best of our knowledge, DRCGD is the first decentralized Riemannian conjugate gradient algorithm to achieve global convergence over the Stiefel manifold.
翻訳日:2024-02-23 18:52:04 公開日:2024-02-22
# ウィキペディアスタイルサーベイ生成における大規模言語モデル:NLP概念の評価

Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts ( http://arxiv.org/abs/2308.10410v3 )

ライセンス: Link先を確認
Fan Gao, Hang Jiang, Rui Yang, Qingcheng Zeng, Jinghui Lu, Moritz Blum, Dairui Liu, Tianwei She, Yuang Jiang, Irene Li(参考訳) コンピュータ科学などの専門分野における調査記事などの教育資料は、伝統的に膨大な専門家の入力を必要とするため、作成と更新に費用がかかる。 近年、Large Language Models (LLM) は様々な一般的なタスクで大きな成功を収めている。 しかし、教育分野における効果と限界については、まだ十分に検討されていない。 本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上でのLCMの精度について検討し,99トピックのキュレートされたリストに着目した。 自動ベンチマークにより、GPT-4はGPT-3.5、PaLM2、LLaMa2といった先代モデルを上回ることが判明した。 我々は人間とGPTによる評価スコアを比較し,詳細な分析を行う。 以上の結果から,GPTによる調査は人間による調査よりも現代的でアクセスしやすいことが示唆された。 特に、GPT-4は、しばしば優れたコンテンツを配信しているにもかかわらず、時に詳細や事実の誤りのような経過を見せた。 最終的に,人間とGPT-4の格付け行動を比較し,GPT評価の体系的バイアスを見出した。

Educational materials such as survey articles in specialized fields like computer science traditionally require tremendous expert inputs and are therefore expensive to create and update. Recently, Large Language Models (LLMs) have achieved significant success across various general tasks. However, their effectiveness and limitations in the education domain are yet to be fully explored. In this work, we examine the proficiency of LLMs in generating succinct survey articles specific to the niche field of NLP in computer science, focusing on a curated list of 99 topics. Automated benchmarks reveal that GPT-4 surpasses its predecessors like GPT-3.5, PaLM2, and LLaMa2 in comparison to the established ground truth. We compare both human and GPT-based evaluation scores and provide in-depth analysis. While our findings suggest that GPT-created surveys are more contemporary and accessible than human-authored ones, certain limitations were observed. Notably, GPT-4, despite often delivering outstanding content, occasionally exhibited lapses like missing details or factual errors. At last, we compared the rating behavior between humans and GPT-4 and found systematic bias in using GPT evaluation.
翻訳日:2024-02-23 18:51:45 公開日:2024-02-22
# TEST: LLMの時系列処理能力を活性化するテキストプロトタイプの埋め込み

TEST: Text Prototype Aligned Embedding to Activate LLM's Ability for Time Series ( http://arxiv.org/abs/2308.08241v2 )

ライセンス: Link先を確認
Chenxi Sun and Hongyan Li and Yaliang Li and Shenda Hong(参考訳) この研究は、今日のLarge Language Model (LLM)コンテキストでTS(Time-Series)タスクを達成するための2つの方法を要約する。 LLM-for-TS(モデル中心)の設計と訓練、またはTSデータのための事前訓練されたLLMの微調整。 データ不足、限られたリソース、セマンティックコンテキスト要件などを踏まえ、本研究はTS-for-LLMに焦点を当て、LSMに適したTS埋め込みを設計することで、LSMのデータ処理能力を活性化することを目的としている。 提案手法はTESTと呼ばれる。 最初にTSをトークン化し、インスタンスワイズ、機能ワイズ、テキストプロトタイプ整合コントラストを通じてTSを埋め込み、TS埋め込み空間をLSM埋め込み層空間に整列させ、ソフトプロンプトを作成してLSMをよりオープンにし、最後に凍結したLSMを使用してTSタスクを実装する。 また,理論と実験によりTS-for-LLMの実現可能性を示す。 様々な構造と大きさを持つ8つの冷凍LDMを用いたTS分類,予測,表現タスクの実験を行った。 以上の結果から,既存のSOTA TSモデルよりも優れた,あるいは同等な性能を達成できることが示唆された。 LLMをパターンマシンとして扱うことで、TESTは言語能力を損なうことなく、LSMのTSデータ処理能力を向上させることができる。 本研究が今後TS+LLMの進展を支えるための基盤となることを願っている。

This work summarizes two ways to accomplish Time-Series (TS) tasks in today's Large Language Model (LLM) context: LLM-for-TS (model-centric) designs and trains a fundamental large model, or fine-tunes a pre-trained LLM for TS data; TS-for-LLM (data-centric) converts TS into a model-friendly representation to enable the pre-trained LLM to handle TS data. Given the lack of data, limited resources, semantic context requirements, and so on, this work focuses on TS-for-LLM, where we aim to activate LLM's ability for TS data by designing a TS embedding method suitable for LLM. The proposed method is named TEST. It first tokenizes TS, builds an encoder to embed TS via instance-wise, feature-wise, and text-prototype-aligned contrast, where the TS embedding space is aligned to LLM embedding layer space, then creates soft prompts to make LLM more open to that embeddings, and finally implements TS tasks using the frozen LLM. We also demonstrate the feasibility of TS-for-LLM through theory and experiments. Experiments are carried out on TS classification, forecasting, and representation tasks using eight frozen LLMs with various structures and sizes. The results show that the pre-trained LLM with TEST strategy can achieve better or comparable performance than today's SOTA TS models and offer benefits for few-shot and generalization. By treating LLM as the pattern machine, TEST can endow LLM's ability to process TS data without compromising language ability. We hope that this study will serve as a foundation for future work to support TS+LLM progress.
翻訳日:2024-02-23 18:50:56 公開日:2024-02-22
# 光トウェザを用いた原子干渉計

Atomic interferometer based on optical tweezers ( http://arxiv.org/abs/2308.07768v2 )

ライセンス: Link先を確認
Jonathan Nemirovsky, Rafi Weill, Ilan Meltzer, and Yoav Sagi(参考訳) 原子干渉計は例外的な精度で力と加速度を測定する。 従来の原子間干渉法では、原子雲を弾道軌道に打ち上げ、ラマン転移による運動量空間での波束分割を行う。 これにより、可能な原子軌道、位置決め精度、探査期間に厳しい制約が課される。 本稿では,マイクロ光学トラップ(光トウィーザー)を用いて原子の動きを操作・制御する新しい原子干渉計を提案し,解析する。 この新しい干渉計は、長いプローブ時間、サブマイクロメートルの測位精度、原子軌道形成の柔軟性を最大限に発揮する。 ツイーザー干渉計の基盤は、コヒーレントな原子分割と結合スキームである。 実験的な不完全性に対して頑健な2つまたは3つのツイーザを持つ2つの断熱型スキームを,多くの振動状態と同時に動作させる。 後者の特性は、1回のランでマルチ原子干渉法を可能にする。 また、フェルミオン原子を用いた振動状態の単一原子占有と平均場シフトの除去の利点を強調した。 ツイーザー強度ノイズの影響を調べ、ショットノイズに制約された場合、干渉計は地球の重力加速度を測定するのに10~11ドルの相対精度より優れていることを実証する。 サブマイクロメートル分解能と拡張測定期間は、新しい体制における基本的な物理法則を探求する有望な機会を提供する。 ツイーザー干渉計のユニークな機能によく適合する2つの応用について論じる。重力力の測定と原子と表面の間のカシミール・ポルダー力の研究である。 重要なことに、提案したツイーザー干渉計は、現在の技術的能力の範囲内にある。

Atomic interferometers measure forces and acceleration with exceptional precision. The conventional approach to atomic interferometry is to launch an atomic cloud into a ballistic trajectory and perform the wave-packet splitting in momentum space by Raman transitions. This places severe constraints on the possible atomic trajectory, positioning accuracy and probing duration. Here, we propose and analyze a novel atomic interferometer that uses micro-optical traps (optical tweezers) to manipulate and control the motion of atoms. The new interferometer allows long probing time, sub micrometer positioning accuracy, and utmost flexibility in shaping of the atomic trajectory. The cornerstone of the tweezer interferometer are the coherent atomic splitting and combining schemes. We present two adiabatic schemes with two or three tweezers that are robust to experimental imperfections and work simultaneously with many vibrational states. The latter property allows for multi-atom interferometry in a single run. We also highlight the advantage of using fermionic atoms to obtain single-atom occupation of vibrational states and to eliminate mean-field shifts. We examine the impact of tweezer intensity noise and demonstrate that, when constrained by shot noise, the interferometer can achieve a relative accuracy better than $10^{-11}$ in measuring Earth's gravitational acceleration. The sub-micrometer resolution and extended measurement duration offer promising opportunities for exploring fundamental physical laws in new regimes. We discuss two applications well-suited for the unique capabilities of the tweezer interferometer: the measurement of gravitational forces and the study of Casimir-Polder forces between atoms and surfaces. Crucially, our proposed tweezer interferometer is within the reach of current technological capabilities.
翻訳日:2024-02-23 18:50:22 公開日:2024-02-22
# 暗号通貨証券事件における大規模言語モデル:GPTモデルで弁護士を援助できるか?

Large Language Models in Cryptocurrency Securities Cases: Can a GPT Model Meaningfully Assist Lawyers? ( http://arxiv.org/abs/2308.06032v4 )

ライセンス: Link先を確認
Arianna Trozze, Toby Davies, and Bennett Kleinberg(参考訳) 大きな言語モデル(LLM)は弁護士にとって有用なツールかもしれない。 しかし、法的業務遂行におけるその効果に関する実証的研究は乏しい。 我々は、暗号通貨を含む証券事件を、aiが法的プロセスをサポートすることができる多くの文脈の1つとして研究し、gpt-3.5の法的推論とchatgptの法的起草能力を研究した。 検討する a) GPT-3.5は、事実のパターンに違反する可能性のある法律を正確に判定することができ、 b)chatgptに対する弁護士の苦情に基づいて陪審員の意思決定に違いがあるか否か。 我々は実生活の事例からGPT-3.5まで事実パターンをフィードし、シナリオから正しい潜在的な違反を判断し、急激な違反を排除できる能力を評価する。 第2に、ChatGPTと弁護士が書いた苦情を審査員に評価させた。 GPT-3.5の法的推論スキルは弱かったが、将来のモデルの改善を期待している。 chatgptは法的起草に優れており、陪審員の判断は、彼らの決定に基づく文書の著者と統計的に有意な関連はなかった。 GPT-3.5は法的理由づけを十分に行うことができないため、この段階では有意義な方法で弁護士を助けることは不可能であろう。 しかし、ChatGPTの起草スキル(おそらく弁護士に劣っている)は弁護士が法的サービスを提供するのを助けることができた。 我々の研究は、証券法や暗号通貨関連の不正行為と同様に、訴訟におけるllmの法的起草と推論能力を体系的に研究した最初の研究です。

Large Language Models (LLMs) could be a useful tool for lawyers. However, empirical research on their effectiveness in conducting legal tasks is scant. We study securities cases involving cryptocurrencies as one of numerous contexts where AI could support the legal process, studying GPT-3.5's legal reasoning and ChatGPT's legal drafting capabilities. We examine whether a) GPT-3.5 can accurately determine which laws are potentially being violated from a fact pattern, and b) whether there is a difference in juror decision-making based on complaints written by a lawyer compared to ChatGPT. We feed fact patterns from real-life cases to GPT-3.5 and evaluate its ability to determine correct potential violations from the scenario and exclude spurious violations. Second, we had mock jurors assess complaints written by ChatGPT and lawyers. GPT-3.5's legal reasoning skills proved weak, though we expect improvement in future models, particularly given the violations it suggested tended to be correct (it merely missed additional, correct violations). ChatGPT performed better at legal drafting, and jurors' decisions were not statistically significantly associated with the author of the document upon which they based their decisions. Because GPT-3.5 cannot satisfactorily conduct legal reasoning tasks, it would be unlikely to be able to help lawyers in a meaningful way at this stage. However, ChatGPT's drafting skills (though, perhaps, still inferior to lawyers) could assist lawyers in providing legal services. Our research is the first to systematically study an LLM's legal drafting and reasoning capabilities in litigation, as well as in securities law and cryptocurrency-related misconduct.
翻訳日:2024-02-23 18:49:58 公開日:2024-02-22
# 微分方程式の真の発見に向けて

Towards true discovery of the differential equations ( http://arxiv.org/abs/2308.04901v2 )

ライセンス: Link先を確認
Alexander Hvatov and Roman Titov(参考訳) 機械学習のサブフィールドである微分方程式発見は、特に自然に関する応用において解釈可能なモデルを開発するために用いられる。 運動方程式の一般パラメトリック形式と適切な微分項を専門的に組み込むことで、アルゴリズムはデータから自動的に方程式を明らかにすることができる。 本稿では, 専門的入力を伴わない独立方程式発見のための前提条件とツールについて検討し, 方程式形式仮定の必要性を解消した。 我々は, 方程式形式を事前に知ることなく, 信頼できる方程式発見のための洞察を提供することを目的として, 適切な方程式が未知である場合の発見方程式の妥当性を評価する課題に焦点をあてる。

Differential equation discovery, a machine learning subfield, is used to develop interpretable models, particularly in nature-related applications. By expertly incorporating the general parametric form of the equation of motion and appropriate differential terms, algorithms can autonomously uncover equations from data. This paper explores the prerequisites and tools for independent equation discovery without expert input, eliminating the need for equation form assumptions. We focus on addressing the challenge of assessing the adequacy of discovered equations when the correct equation is unknown, with the aim of providing insights for reliable equation discovery without prior knowledge of the equation form.
翻訳日:2024-02-23 18:49:16 公開日:2024-02-22
# ランダム二成分純状態の忠実性と絡み合い:洞察と応用

Fidelity and Entanglement of Random Bipartite Pure States: Insights and Applications ( http://arxiv.org/abs/2308.01714v2 )

ライセンス: Link先を確認
George Biswas, Shao-Hua Hu, Jun-Yi Wu, Debasish Biswas, Anindya Biswas(参考訳) 固定参照量子状態とその二成分絡み合いからhaarランダム二成分純状態の忠実性について検討する。 垂直軸上の忠実性と絡み合いをプロットすることにより, 得られたプロットが非一様分布を示すことを観察する。 分布は、ランダムな純二成分状態の忠実度を定量化するために使われる固定参照量子状態の絡み合いに依存する。 ランダムに選択された固定二成分量子ビットに対する狭い絡み合い範囲内の典型的なランダム二成分量子ビットの平均忠実性は、$\frac{1}{4}$である。 我々の研究を高次元のバイパルタイト・クディットに拡張すると、ランダムに選択された固定されたバイパルタイト・クディットに対する典型的なランダムな純粋なバイパルタイト・クディットの平均忠実度が狭いエンタングルメント範囲内で一定であることが分かる。 これらの定数の値は $\frac{1}{d^2}$ であり、d はバイパルタイト・クーディ系の局所ヒルベルト空間の次元であり、異なる次元における絡み合いと忠実さの間の一貫した関係を示唆している。 製品状態に対する忠実度の確率分布関数を解析的に研究し、分散量子コンピューティングデバイスのベンチマークの基準として利用する。

We investigate the fidelity of Haar random bipartite pure states from a fixed reference quantum state and their bipartite entanglement. By plotting the fidelity and entanglement on perpendicular axes, we observe that the resulting plots exhibit non-uniform distributions. The distribution depends on the entanglement of the fixed reference quantum state used to quantify the fidelity of the random pure bipartite states. We find that the average fidelity of typical random pure bipartite qubits within a narrow entanglement range with respect to a randomly chosen fixed bipartite qubit is $\frac{1}{4}$. Extending our study to higher dimensional bipartite qudits, we find that the average fidelity of typical random pure bipartite qudits with respect to a randomly chosen fixed bipartite qudit remains constant within a narrow entanglement range. The values of these constants are $\frac{1}{d^2}$, with d being the dimension of the local Hilbert space of the bipartite qudit system, suggesting a consistent relationship between entanglement and fidelity across different dimensions. The probability distribution functions of fidelity with respect to a product state are analytically studied and used as a reference for the benchmarking of distributed quantum computing devices.
翻訳日:2024-02-23 18:49:02 公開日:2024-02-22
# 血管分割と中心線抽出のためのトポロジ的損失を用いたカスケードマルチタスクU-Net

Cascaded multitask U-Net using topological loss for vessel segmentation and centerline extraction ( http://arxiv.org/abs/2307.11603v2 )

ライセンス: Link先を確認
Pierre Roug\'e, Nicolas Passat, Odyss\'ee Merveille(参考訳) 血管のセグメンテーションと中心線抽出は、血管疾患を扱う多くのコンピュータ支援診断ツールにとって重要な2つの予備課題である。 近年,これらの課題に対してディープラーニングに基づく手法が広く適用されている。 しかし、古典的なディープラーニングアプローチは、ほとんどのアプリケーションで最も重要な、血管ネットワークの複雑な幾何学と特定のトポロジーを捉えるのに苦労している。 これらの制限を克服するため、船舶中心に焦点をあてたトポロジカルな損失であるclDice損失が最近提案されている。 この損失は計算を必要とし、提案されたソフトスケルトンアルゴリズムでは、基底真理と予測セグメンテーションの両方の骨格が必要とされる。 しかし,ソフトスケルトンアルゴリズムは3次元画像に準最適結果を与えるため,clDiceは3次元画像にはほとんど適さない。 本稿では,血管骨格を直接セグメント化から計算するU-Netによるソフトスケルトンアルゴリズムの置き換えを提案する。 本手法はソフトスケルトンアルゴリズムよりも正確な骨格を提供することを示す。 次に、このネットワーク上に、セグメンテーション中にトポロジ的制約を埋め込むためにclDice損失をトレーニングしたカスケードU-Netを構築します。 結果として得られたモデルは、より正確なトポロジーで容器のセグメンテーションと中心線の両方を予測できる。

Vessel segmentation and centerline extraction are two crucial preliminary tasks for many computer-aided diagnosis tools dealing with vascular diseases. Recently, deep-learning based methods have been widely applied to these tasks. However, classic deep-learning approaches struggle to capture the complex geometry and specific topology of vascular networks, which is of the utmost importance in most applications. To overcome these limitations, the clDice loss, a topological loss that focuses on the vessel centerlines, has been recently proposed. This loss requires computing, with a proposed soft-skeleton algorithm, the skeletons of both the ground truth and the predicted segmentation. However, the soft-skeleton algorithm provides suboptimal results on 3D images, which makes the clDice hardly suitable on 3D images. In this paper, we propose to replace the soft-skeleton algorithm by a U-Net which computes the vascular skeleton directly from the segmentation. We show that our method provides more accurate skeletons than the soft-skeleton algorithm. We then build upon this network a cascaded U-Net trained with the clDice loss to embed topological constraints during the segmentation. The resulting model is able to predict both the vessel segmentation and centerlines with a more accurate topology.
翻訳日:2024-02-23 18:48:10 公開日:2024-02-22
# reverse chain: llmsがマルチapiプランニングをマスタするジェネリックルール

Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning ( http://arxiv.org/abs/2310.04474v3 )

ライセンス: Link先を確認
Yinger Zhang, Hui Cai, Xeirui Song, Yicheng Chen, Rui Sun, Jing Zheng(参考訳) 大きな言語モデルで関数呼び出し(APIとして知られる)を実装することは、Large Language Models(LLM)のパフォーマンスを大幅に向上させるが、特に微調整のないコンテキスト学習環境では、異なるAPI間の複雑な関係のため、関数呼び出しは依然として難しい課題である。 本稿では,外部APIをプロンプト経由でのみ操作する機能を備えたLSMの強化を目的とした,制御可能なターゲット駆動型アプローチである ‘Reverse Chain' を紹介する。 ほとんどのLLMがツール使用能力に制限があることを認識し、Reverse Chain は LLM を API Selection や Argument Completion といった単純なタスクの実行に制限する。 さらに、制御可能な多機能呼び出しを管理するために、Reverse Chainは、後方推論プロセスに基づいたジェネリックルールを採用する。 このルールは、いつAPI選択やArgument補完を行うかを決定する。 LLMのマルチツール利用能力を評価するため,我々は,<url{https://anonymous.4open.science/r/reverse-chain-8681}で利用可能な合成マルチツールタスクデータセットをリリースした。 広範な数値実験により、複数のapi呼び出しを管理する際のリバースチェーンの卓越性が検証された。

While enabling large language models to implement function calling (known as APIs) can greatly enhance the performance of Large Language Models (LLMs), function calling is still a challenging task due to the complicated relations between different APIs, especially in a context-learning setting without fine-tuning. This paper introduces ``Reverse Chain'', a controllable, target-driven approach designed to empower LLMs with the capability to operate external APIs only via prompts. Recognizing that most LLMs have limited tool-use capabilities, Reverse Chain limits LLMs to executing simple tasks, e.g., API Selection and Argument Completion. Furthermore, to manage a controllable multi-function calling, Reverse Chain adopts a generic rule based on a backward reasoning process. This rule determines when to do API selection or Argument completion. To evaluate the multi-tool-use capability of LLMs, we have released a compositional multi-tool task dataset, available at \url{https://anonymous.4open.science/r/reverse-chain-8681}. Extensive numerical experiments validate the remarkable proficiency of Reverse Chain in managing multiple API calls.
翻訳日:2024-02-23 18:43:18 公開日:2024-02-22
# 構造対応レコメンデーションインベディング進化のためのグラフ付最適化器

Graph-enhanced Optimizers for Structure-aware Recommendation Embedding Evolution ( http://arxiv.org/abs/2310.03032v2 )

ライセンス: Link先を確認
Cong Xu, Jun Wang, Jianyong Wang, Wei Zhang(参考訳) 組込みは、現実世界の実体の仮想表現であり、その後の決定モデルの基礎であるため、現代のレコメンデーションシステムにおいて重要な役割を果たす。 本稿では,新しい組込み更新機構である structure-aware embedded evolution (sevo) を提案する。 通常、中間部として機能するGNN(Graph Neural Network)とは異なり、SEvoはグラフ構造情報を直接注入して、トレーニングにおいて無視できる計算オーバーヘッドを埋め込むことができる。 sevoの収束特性とその可能な変種は理論的に解析され、設計の有効性が正当化される。 さらに、SEvoは最先端のパフォーマンスのために既存のオプティマイザにシームレスに統合できる。 特に、モーメント推定補正を施したSevo強化AdamWは、モデルとデータセットの範囲で一貫した改善を示し、明示的なGNNモジュールを超えてグラフ構造情報を効果的に活用するための新たな技術ルートを示唆している。

Embedding plays a critical role in modern recommender systems because they are virtual representations of real-world entities and the foundation for subsequent decision models. In this paper, we propose a novel embedding update mechanism, Structure-aware Embedding Evolution (SEvo for short), to encourage related nodes to evolve similarly at each step. Unlike GNN (Graph Neural Network) that typically serves as an intermediate part, SEvo is able to directly inject the graph structure information into embedding with negligible computational overhead in training. The convergence properties of SEvo as well as its possible variants are theoretically analyzed to justify the validity of the designs. Moreover, SEvo can be seamlessly integrated into existing optimizers for state-of-the-art performance. In particular, SEvo-enhanced AdamW with moment estimate correction demonstrates consistent improvements across a spectrum of models and datasets, suggesting a novel technical route to effectively utilize graph structure information beyond explicit GNN modules.
翻訳日:2024-02-23 18:42:55 公開日:2024-02-22
# 相互作用する非エルミート準結晶における相関誘起相転移とモビリティエッジ

Correlation-induced phase transitions and mobility edges in an interacting non-Hermitian quasicrystal ( http://arxiv.org/abs/2310.01275v3 )

ライセンス: Link先を確認
Tian Qian, Yongjian Gu, and Longwen Zhou(参考訳) 非エルミート準結晶は、pt対称性の破断、局在、位相的三重相転移を伴う一意な無秩序開系を構成する。 本研究では,非エルミート準結晶の相転移と絡み合いダイナミクスに対する量子相関の影響を明らかにする。 準周期的に利得と損失を変調したボース・ハバード格子内の2つの相互作用ボソンに着目して,ボゾン間のオンサイト相互作用がptと局在遷移閾値を非相互作用の場合と比較して弱い障害領域へと引きずり込むことができることを見出した。 さらに、相互作用は、非相互作用系における三相転移の臨界点を、相互作用強度を調整してドメインを柔軟に制御できる移動端を持つ臨界相に拡張することを促進する。 スペクトル, 逆成分比, トポロジカル巻線数, ウェーブパケットダイナミクス, 絡み合いエントロピーの系統解析により, 系の相関駆動相と遷移について一貫した予測が導かれる。 我々の発見は、非エルミート量子物質における障害と相互作用の間の相互作用のさらなる研究の道を開く。

Non-Hermitian quasicrystal constitutes a unique class of disordered open system with PT-symmetry breaking, localization and topological triple phase transitions. In this work, we uncover the effect of quantum correlation on phase transitions and entanglement dynamics in non-Hermitian quasicrystals. Focusing on two interacting bosons in a Bose-Hubbard lattice with quasiperiodically modulated gain and loss, we find that the onsite interaction between bosons could drag the PT and localization transition thresholds towards weaker disorder regions compared with the noninteracting case. Moreover, the interaction facilitates the expansion of the critical point of a triple phase transition in the noninteracting system into a critical phase with mobility edges, whose domain could be flexibly controlled by tuning the interaction strength. Systematic analyses of the spectrum, inverse participation ratio, topological winding number, wavepacket dynamics and entanglement entropy lead to consistent predictions about the correlation-driven phases and transitions in our system. Our findings pave the way for further studies of the interplay between disorder and interaction in non-Hermitian quantum matter.
翻訳日:2024-02-23 18:42:38 公開日:2024-02-22
# DiLu: 大規模言語モデルによる自律運転のための知識駆動アプローチ

DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2309.16292v3 )

ライセンス: Link先を確認
Licheng Wen, Daocheng Fu, Xin Li, Xinyu Cai, Tao Ma, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yu Qiao(参考訳) 近年の自動運転の進歩は、広く採用されているデータ駆動アプローチに依存しているが、データセットのバイアス、過剰適合、解釈不能といった課題に直面している。 人間の運転の知識駆動性からインスピレーションを得た上で,このような機能を自律運転システムに組み込む方法について考察し,対話型環境とドライバエージェントと,この問題に対処するためのメモリコンポーネントを統合したパラダイムを要約する。 本稿では,新たな能力を持つ大規模言語モデル(llm)を活用して,推論とリフレクションモジュールを組み合わせたdiluフレームワークを提案する。 大規模な実験により、DiLuは経験を蓄積し、強化学習に基づく手法よりも一般化能力において大きな優位性を示す。 さらに、DiLuは現実のデータセットから体験を直接取得することができ、実用的な自動運転システムにデプロイされる可能性を強調している。 私たちの知る限りでは、自動運転車の意思決定において知識駆動能力を活用するのは当社が初めてです。 提案したDiLuフレームワークを通じて、LLMは知識を適用し、自律運転領域に因果的に推論するように強化されている。 プロジェクトページ: https://pjlab-adg.github.io/DiLu/

Recent advancements in autonomous driving have relied on data-driven approaches, which are widely adopted but face challenges including dataset bias, overfitting, and uninterpretability. Drawing inspiration from the knowledge-driven nature of human driving, we explore the question of how to instill similar capabilities into autonomous driving systems and summarize a paradigm that integrates an interactive environment, a driver agent, as well as a memory component to address this question. Leveraging large language models (LLMs) with emergent abilities, we propose the DiLu framework, which combines a Reasoning and a Reflection module to enable the system to perform decision-making based on common-sense knowledge and evolve continuously. Extensive experiments prove DiLu's capability to accumulate experience and demonstrate a significant advantage in generalization ability over reinforcement learning-based methods. Moreover, DiLu is able to directly acquire experiences from real-world datasets which highlights its potential to be deployed on practical autonomous driving systems. To the best of our knowledge, we are the first to leverage knowledge-driven capability in decision-making for autonomous vehicles. Through the proposed DiLu framework, LLM is strengthened to apply knowledge and to reason causally in the autonomous driving domain. Project page: https://pjlab-adg.github.io/DiLu/
翻訳日:2024-02-23 18:41:55 公開日:2024-02-22
# Refined Discretization を用いた適応型オンライン学習の改善

Improving Adaptive Online Learning Using Refined Discretization ( http://arxiv.org/abs/2309.16044v2 )

ライセンス: Link先を確認
Zhiyu Zhang, Heng Yang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) リプシッツ損失を伴うオンライン線形最適化について検討した。 インスタンス最適性の追求により,AdaGradスタイルの2次勾配適応度(i$)を同時に達成する新しいアルゴリズムを提案し,また文献において「パラメータ自由性」としても知られるコンパレータノルム適応度(ii$)を提案する。 特に、我々のアルゴリズムは非実用的二重化のトリックを使わず、時間一様リプシッツ定数の事前推定を必要としない; - 関連する後悔境界は、勾配分散に最適な$o(\sqrt{v_t})$依存性を持つ; - 典型的な対数乗因子を伴わずに; - 後悔境界のリード定数は「ほぼ」最適である。 これらの結果の中心は、オンライン学習に対する継続的な時間的アプローチである。 まず, 環境が任意の連続セミマーチンゲールによってモデル化される問題と同様の連続時間において, 目標とする同時適応性が比較的容易に達成できることを示す。 そして、我々の重要な革新は、離散時間対逆条件でそのような適応性を維持する新しい離散化論である。 これにより(harvey et al., 2023)から、アルゴリズム的にも分析的にも独立した興味を持つ可能性のある非勾配適応的離散化論を洗練する。

We study unconstrained Online Linear Optimization with Lipschitz losses. Motivated by the pursuit of instance optimality, we propose a new algorithm that simultaneously achieves ($i$) the AdaGrad-style second order gradient adaptivity; and ($ii$) the comparator norm adaptivity also known as "parameter freeness" in the literature. In particular, - our algorithm does not employ the impractical doubling trick, and does not require an a priori estimate of the time-uniform Lipschitz constant; - the associated regret bound has the optimal $O(\sqrt{V_T})$ dependence on the gradient variance $V_T$, without the typical logarithmic multiplicative factor; - the leading constant in the regret bound is "almost" optimal. Central to these results is a continuous time approach to online learning. We first show that the aimed simultaneous adaptivity can be achieved fairly easily in a continuous time analogue of the problem, where the environment is modeled by an arbitrary continuous semimartingale. Then, our key innovation is a new discretization argument that preserves such adaptivity in the discrete time adversarial setting. This refines a non-gradient-adaptive discretization argument from (Harvey et al., 2023), both algorithmically and analytically, which could be of independent interest.
翻訳日:2024-02-23 18:41:34 公開日:2024-02-22
# リソース制約装置の自動音声認識における早期出口を用いた動的モデルの訓練

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices ( http://arxiv.org/abs/2309.09546v2 )

ライセンス: Link先を確認
George August Wright, Umberto Cappellazzo, Salah Zaiem, Desh Raj, Lucas Ondel Yang, Daniele Falavigna, Mohamed Nabih Ali, Alessio Brutti(参考訳) 推論中にニューラルネットワークの計算負荷を動的に調整する能力は、限られた時間的リソースによって特徴づけられるオンデバイス処理シナリオにおいて不可欠である。 有望なソリューションは、エンコーダの中間層に追加の出口ブランチを付加するearly-exit architecturesによって提示される。 自動音声認識(ASR)のための自己注意モデルでは、早期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。 早期退避型ASRモデルに関するこれまでの研究は、早期退避を伴って微調整された事前訓練型自己監督型モデルに依存してきた。 本稿では,事前学習されたバックボーンの微調整と学習モデルのスクラッチからの初期提示目標とを実験的に比較する。 公開データセットで実施された実験によると、スクラッチからトレーニングされた早期エクイットモデルは、エンコーダ層が少ない場合にパフォーマンスを維持するだけでなく、単一エクイットモデルや事前トレーニングモデルのタスク精度も向上している。 さらに,従来のフレームベースエントロピー手法の代替として,後部確率に基づく出口選択戦略を検討する。 その結果,ASRモデルにおける早期終了アーキテクチャのトレーニングダイナミックス,特にトレーニング戦略の有効性と出口選択方法に関する知見が得られた。

The ability to dynamically adjust the computational load of neural models during inference is crucial for on-device processing scenarios characterised by limited and time-varying computational resources. A promising solution is presented by early-exit architectures, in which additional exit branches are appended to intermediate layers of the encoder. In self-attention models for automatic speech recognition (ASR), early-exit architectures enable the development of dynamic models capable of adapting their size and architecture to varying levels of computational resources and ASR performance demands. Previous research on early-exiting ASR models has relied on pre-trained self-supervised models, fine-tuned with an early-exit loss. In this paper, we undertake an experimental comparison between fine-tuning pre-trained backbones and training models from scratch with the early-exiting objective. Experiments conducted on public datasets reveal that early-exit models trained from scratch not only preserve performance when using fewer encoder layers but also exhibit enhanced task accuracy compared to single-exit or pre-trained models. Furthermore, we explore an exit selection strategy grounded in posterior probabilities as an alternative to the conventional frame-based entropy approach. Results provide insights into the training dynamics of early-exit architectures for ASR models, particularly the efficacy of training strategies and exit selection methods.
翻訳日:2024-02-23 18:40:40 公開日:2024-02-22
# Silver Retriever: ポーランドの質問応答のためのニューラルネットワーク検索の改善

Silver Retriever: Advancing Neural Passage Retrieval for Polish Question Answering ( http://arxiv.org/abs/2309.08469v2 )

ライセンス: Link先を確認
Piotr Rybak, Maciej Ogrodniczuk(参考訳) 現代のオープンドメイン質問応答システムは、質問に答えるために必要な事実を含む文を見つけるために、正確で効率的な検索コンポーネントに依存することが多い。 近年、神経レトリバーは、その優れた性能のために語彙的な代替品よりも人気を博している。 しかし、ほとんどの作品は英語や中国語などのポピュラーな言語に関係している。 ポーランド語など他の言語では、ほとんどモデルがない。 本稿では、手動または弱いラベル付きデータセットの多様なコレクションをトレーニングしたポーランドのニューラルレトリバーであるSilver Retrieverを紹介する。 Silver Retrieverは他のポーランドのモデルよりもはるかに優れた結果をもたらし、より大きな多言語モデルと競合する。 このモデルとともに、我々は5つの新しい経路検索データセットをオープンソース化した。

Modern open-domain question answering systems often rely on accurate and efficient retrieval components to find passages containing the facts necessary to answer the question. Recently, neural retrievers have gained popularity over lexical alternatives due to their superior performance. However, most of the work concerns popular languages such as English or Chinese. For others, such as Polish, few models are available. In this work, we present Silver Retriever, a neural retriever for Polish trained on a diverse collection of manually or weakly labeled datasets. Silver Retriever achieves much better results than other Polish models and is competitive with larger multilingual models. Together with the model, we open-source five new passage retrieval datasets.
翻訳日:2024-02-23 18:40:17 公開日:2024-02-22
# 左利き超格子メタマテリアルへの巨大原子カップリングを用いたqed回路

Circuit QED with a Giant Atom Coupling to Left-handed Superlattice Metamaterials ( http://arxiv.org/abs/2309.06826v2 )

ライセンス: Link先を確認
Zhao-Min Gao, Jia-Qi Li, Zi-Wen Li, Wen-Xiao Liu and Xin Wang(参考訳) 双極子近似が有効ではない巨大原子は、干渉や時間遅延効果から生じる非典型的な量子光学現象を観測することができる。 これまでの研究では、右利き分散を持つ従来の材料に結合する巨大原子について検討している。 本研究では,左利き超格子メタマテリアルと相互作用する巨大原子の量子力学を初めて研究した。 右利きと異なり、左利きの超格子は、異常な分散バンドとブラッグ散乱バンドによって生じる非対称なバンドギャップを示す。 まず、巨大原子が連続分散エネルギー帯と共鳴していると仮定すると、自発的放出は干渉効果によって周期的な増強または抑制を受ける。 共鳴位置では, 群速度の差から生じる, 上層バンドと下層バンドの自発的減衰率に有意な差がある。 第二に、2つの結合点間の干渉によって境界状態が引き起こされるエネルギーバンドの外側のエミッタの周波数を考慮し、巨大原子の非マルコフ動力学を探求する。 解析的手法と数値的手法の両方を用いて、安定な原子集団は、巨大原子の大きさの変化によって周期的に変調されることを示した。 非対称なバンドエッジの存在は、様々な干渉ダイナミクスをもたらす。 最後に、2つの同一のエミッタが導波管に結合し、2つのエミッタ内のエネルギーがラビ振動によって交換されることを示す。

Giant atoms, where the dipole approximation ceases to be valid, allow us to observe unconventional quantum optical phenomena arising from interference and time-delay effects. Most previous studies consider giant atoms coupling to conventional materials with right-handed dispersion. In this study, we first investigate the quantum dynamics of a giant atom interacting with left-handed superlattice metamaterials. Different from those right-handed counterparts, the left-handed superlattices exhibit an asymmetric band gap generated by anomalous dispersive bands and Bragg scattering bands. First, by assuming that the giant atom is in resonance with the continuous dispersive energy band, spontaneous emission will undergo periodic enhancement or suppression due to the interference effect. At the resonant position, there is a significant discrepancy in the spontaneous decay rates between the upper and lower bands, which arises from the differences in group velocity. Second, we explore the non-Markovian dynamics of the giant atom by considering the frequency of the emitter outside the energy band, where bound states will be induced by the interference between two coupling points. By employing both analytical and numerical methods, we demonstrate that the steady atomic population will be periodically modulated, driven by variations in the size of the giant atom. The presence of asymmetric band edges leads to diverse interference dynamics. Finally, we consider the case of two identical emitters coupling to the waveguide and find that the energy within the two emitters undergoes exchange through the mechanism Rabi oscillations.
翻訳日:2024-02-23 18:40:08 公開日:2024-02-22
# 雑音ラベルを用いた適応型等角分類

Adaptive conformal classification with noisy labels ( http://arxiv.org/abs/2309.05092v2 )

ライセンス: Link先を確認
Matteo Sesia, Y. X. Rachel Wang, Xin Tong(参考訳) 本稿では,キャリブレーションサンプルのランダムラベル汚染に対して自動適応可能な分類タスクのための新しい共形予測法を開発し,最新の手法に比べて高いカバレッジ保証を持つより有益な予測セットを導出する。 これはラベル汚染の存在下で標準共形推論によって被る有効範囲インフレーション(またはデフレ)の正確な特徴付けによって実現され、新しいキャリブレーションアルゴリズムによって実行可能である。 我々のソリューションは柔軟であり、ラベル汚染プロセスに関する様々なモデリング仮定を活用でき、基礎となるデータ分布や機械学習分類器の内部動作の知識は不要である。 提案手法の利点は、広範囲なシミュレーションと、CIFAR-10H画像データセットを用いたオブジェクト分類への応用によって実証される。

This paper develops novel conformal prediction methods for classification tasks that can automatically adapt to random label contamination in the calibration sample, leading to more informative prediction sets with stronger coverage guarantees compared to state-of-the-art approaches. This is made possible by a precise characterization of the effective coverage inflation (or deflation) suffered by standard conformal inferences in the presence of label contamination, which is then made actionable through new calibration algorithms. Our solution is flexible and can leverage different modeling assumptions about the label contamination process, while requiring no knowledge of the underlying data distribution or of the inner workings of the machine-learning classifier. The advantages of the proposed methods are demonstrated through extensive simulations and an application to object classification with the CIFAR-10H image data set.
翻訳日:2024-02-23 18:39:45 公開日:2024-02-22
# 大規模言語モデルは複数の選択子にロバストでない

Large Language Models Are Not Robust Multiple Choice Selectors ( http://arxiv.org/abs/2309.03882v4 )

ライセンス: Link先を確認
Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang(参考訳) 複数の選択質問(MCQ)は、大きな言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。 この研究は、現代のLCMがMCQのオプション位置変化に対して脆弱であることを示し、その固有の「選択バイアス」、すなわち、特定のオプションIDを答えとして選択することを好む("Option A" のような)。 3つのベンチマークで20個の LLM を用いた広範な実験分析を通して、この行動バイアスは LLM のトークンバイアスに起因していることを指摘し、このモデルでは、オプション ID からの回答を予測する際に、a が特定のオプション ID トークン(例えば A/B/C/D)により確率的な質量を割り当てる。 選択バイアスを軽減するために,PriDeと呼ばれるラベルのない推論時間デバイアス手法を提案し,オプションIDに対するモデルの事前バイアスを全体予測分布から分離する。 PriDeはまず、少数のテストサンプルにオプション内容を置換して事前を推定し、その後、残りのサンプルをデバイアスする前に推定を適用します。 高い計算効率で解釈可能かつ転送可能なデバイアスを実現することを実証する。 我々は、この研究が現代のllmのバイアスと堅牢性に幅広い研究の注意を向けることを望んでいる。

Multiple choice questions (MCQs) serve as a common yet important task format in the evaluation of large language models (LLMs). This work shows that modern LLMs are vulnerable to option position changes in MCQs due to their inherent "selection bias", namely, they prefer to select specific option IDs as answers (like "Option A"). Through extensive empirical analyses with 20 LLMs on three benchmarks, we pinpoint that this behavioral bias primarily stems from LLMs' token bias, where the model a priori assigns more probabilistic mass to specific option ID tokens (e.g., A/B/C/D) when predicting answers from the option IDs. To mitigate selection bias, we propose a label-free, inference-time debiasing method, called PriDe, which separates the model's prior bias for option IDs from the overall prediction distribution. PriDe first estimates the prior by permutating option contents on a small number of test samples, and then applies the estimated prior to debias the remaining samples. We demonstrate that it achieves interpretable and transferable debiasing with high computational efficiency. We hope this work can draw broader research attention to the bias and robustness of modern LLMs.
翻訳日:2024-02-23 18:39:30 公開日:2024-02-22
# 医療用教科書を用いたブラックボックス式LCMの臨床質問応答

Augmenting Black-box LLMs with Medical Textbooks for Clinical Question Answering ( http://arxiv.org/abs/2309.02233v2 )

ライセンス: Link先を確認
Yubo Wang, Xueguang Ma, Wenhu Chen(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の指示に基づいて応答を生成する素晴らしい能力を示している。 しかし、医学分野での使用は、特定の詳細な知識が欠如しているため、困難である。 本研究では,専門分野における LLM の能力を高めるために,LLM-AMT (Medical Textbooks) を付加した LLM システムを提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。 これらのモジュールには、Query Augmenter、Hybrid Textbook Retriever、Knowledge Self-Refinerが含まれる。 共に、権威ある医学的知識を取り入れている。 加えて、LLM Readerは文脈理解を支援する。 3つの医療用qaタスクの実験結果から,llmamtの応答品質は11.6%から16.6%に向上した。 特に、GPT-4-Turboをベースモデルとして、LPM-AMTは、大量の医療用コーパスで事前訓練された特殊なMed-PaLM 2モデルを2-3%上回る性能を示した。 検索コーパスとしての医学教科書は,100倍小さいが,医学領域におけるウィキペディアよりも効果的な知識データベースであることが証明され,パフォーマンスが7.8%~13.7%向上した。

Large-scale language models (LLMs) like ChatGPT have demonstrated impressive abilities in generating responses based on human instructions. However, their use in the medical field can be challenging due to their lack of specific, in-depth knowledge. In this study, we present a system called LLMs Augmented with Medical Textbooks (LLM-AMT) designed to enhance the proficiency of LLMs in specialized domains. LLM-AMT integrates authoritative medical textbooks into the LLMs' framework using plug-and-play modules. These modules include a Query Augmenter, a Hybrid Textbook Retriever, and a Knowledge Self-Refiner. Together, they incorporate authoritative medical knowledge. Additionally, an LLM Reader aids in contextual understanding. Our experimental results on three medical QA tasks demonstrate that LLMAMT significantly improves response quality, with accuracy gains ranging from 11.6% to 16.6%. Notably, with GPT-4-Turbo as the base model, LLM-AMT outperforms the specialized Med-PaLM 2 model pre-trained on a massive amount of medical corpus by 2-3%. We found that despite being 100x smaller in size, medical textbooks as a retrieval corpus is proven to be a more effective knowledge database than Wikipedia in the medical domain, boosting performance by 7.8%-13.7%.
翻訳日:2024-02-23 18:39:09 公開日:2024-02-22
# Donkii: アノテーションエラー検出メソッドはインストラクションチューニングデータセットのエラーを検出することができるか?

Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets? ( http://arxiv.org/abs/2309.01669v2 )

ライセンス: Link先を確認
Leon Weber-Genzel and Robert Litschko and Ekaterina Artemova and Barbara Plank(参考訳) インストラクションチューニングは、Large Language Models (LLM) のトレーニングパイプラインの不可欠な部分となり、強力なパフォーマンス向上をもたらすことが示されている。 直交的な研究のラインでは、金標準ラベルの品質問題を検出するツールとしてアノテーションエラー検出(AED)が出現している。 しかし,これまでのところ,AED法の適用は分類タスクに限られている。 AEDメソッドが言語生成設定にどのように一般化するかは、オープンな疑問である。 本稿では,命令チューニングデータであるDONKIIについて,AEDの最初の新しいベンチマークを示す。 専門家によるエラーアノテーションに富んだ3つの命令チューニングデータセットと、セミオートマチックなメソッドで構成されている。 また,命令チューニングデータに対する誤差型の新しい分類法を提案する。 3つのデータセットには明確なエラーが含まれており、命令調整されたllmに直接伝播することがある。 そこで本研究では,新たに導入したデータセットに基づいて,AEDベースラインを4つ提案する。 この結果から, 正しいAED手法とモデルサイズを選択することは極めて重要であり, 命令調整データのクリーン化にAED手法を用いる方法の実践的提案が導出されている。

Instruction tuning has become an integral part of training pipelines for Large Language Models (LLMs) and has been shown to yield strong performance gains. In an orthogonal line of research, Annotation Error Detection (AED) has emerged as a tool for detecting quality problems in gold standard labels. So far, however, the application of AED methods has been limited to classification tasks. It is an open question how well AED methods generalize to language generation settings, which are becoming more widespread via LLMs. In this paper, we present a first and novel benchmark for AED on instruction tuning data: DONKII. It comprises three instruction-tuning datasets enriched with error annotations by experts and semi-automatic methods. We also provide a novel taxonomy of error types for instruction-tuning data. We find that all three datasets contain clear errors, which sometimes propagate directly into instruction-tuned LLMs. We propose four AED baselines for the generative setting and evaluate them extensively on the newly introduced dataset. Our results show that the choice of the right AED method and model size is indeed crucial and derive practical recommendations for how to use AED methods to clean instruction-tuning data.
翻訳日:2024-02-23 18:38:49 公開日:2024-02-22
# Hilbert-P'olya Conjecture に対するハミルトニアン

Hamiltonian for the Hilbert-P\'olya Conjecture ( http://arxiv.org/abs/2309.00405v4 )

ライセンス: Link先を確認
Enderalp Yakaboylu(参考訳) ヒルベルト・ポオリャ予想(hilbert-p\'olya conjecture)を解くためにハミルトニアンを導入する。 導入されたハミルトンの固有函数はリーマンゼータ函数の非自明な零点によってディリクレ境界で消え、したがってこれらの非自明リーマン零点によって決定される固有値となる。 リーマン予想(RH)が真であれば、固有値は実数となり、非自明な零点の虚部を表す。 逆に、ハミルトニアンが自己随伴であるとき、あるいはより一般に、それが真の固有値しか持たないならば、RH は従う。 後者を証明しようとする試みでは、リーマンゼータ函数の消滅に対応する適切な境界条件によって指定された領域に自己随伴する導入されたハミルトニアンの類似性変換の存在を確立する。 この結果は、零点が臨界直線上にあるより広い関数のクラスに拡張することができる。

We introduce a Hamiltonian to address the Hilbert-P\'olya conjecture. The eigenfunctions of the introduced Hamiltonian vanish at the Dirichlet boundary by the nontrivial zeros of the Riemann zeta function, resulting in eigenvalues determined by these nontrivial Riemann zeros. If the Riemann hypothesis (RH) is true, the eigenvalues become real and represent the imaginary parts of the nontrivial zeros. Conversely, if the Hamiltonian is self-adjoint, or more generally, if it admits only real eigenvalues, then the RH follows. In our attempt to demonstrate the latter, we establish the existence of a similarity transformation of the introduced Hamiltonian that is self-adjoint on the domain specified by an appropriate boundary condition, corresponding to the vanishing of the Riemann zeta function. Our result can be extended to a broader class of functions whose zeros lie on the critical line.
翻訳日:2024-02-23 18:38:33 公開日:2024-02-22
# 部分ベイズニューラルネットワークのFeynman-Kacトレーニングについて

On Feynman--Kac training of partial Bayesian neural networks ( http://arxiv.org/abs/2310.19608v2 )

ライセンス: Link先を確認
Zheng Zhao and Sebastian Mair and Thomas B. Sch\"on and Jens Sj\"olund(参考訳) 近年,パラメータのサブセットのみを確率的と考える部分ベイズニューラルネットワーク (pbnns) が,完全なベイズニューラルネットワークと競合することが示された。 しかし、pBNNはしばしば潜在変数空間において多重モードであり、パラメトリックモデルに近似することは困難である。 そこで本研究では,Feynman-Kacモデルのシミュレーションとして,pBNNのトレーニングを定式化した,効率的なサンプリングベーストレーニング戦略を提案する。 次に,このモデルのパラメータと潜在後続分布を同時に計算可能な計算コストで推定できる逐次モンテカルロサンプリングの変種について述べる。 様々な合成および実世界のデータセットを用いて,提案したトレーニング手法が予測性能において技術状況より優れていることを示す。

Recently, partial Bayesian neural networks (pBNNs), which only consider a subset of the parameters to be stochastic, were shown to perform competitively with full Bayesian neural networks. However, pBNNs are often multi-modal in the latent variable space and thus challenging to approximate with parametric models. To address this problem, we propose an efficient sampling-based training strategy, wherein the training of a pBNN is formulated as simulating a Feynman--Kac model. We then describe variations of sequential Monte Carlo samplers that allow us to simultaneously estimate the parameters and the latent posterior distribution of this model at a tractable computational cost. Using various synthetic and real-world datasets we show that our proposed training scheme outperforms the state of the art in terms of predictive performance.
翻訳日:2024-02-23 18:33:43 公開日:2024-02-22
# フローベース分布ロバスト最適化

Flow-based Distributionally Robust Optimization ( http://arxiv.org/abs/2310.19253v3 )

ライセンス: Link先を確認
Chen Xu, Jonghyeok Lee, Xiuyuan Cheng, Yao Xie(参考訳) 計算効率のよいフレームワークである$\texttt{flowdro}$を提案し,フローベースの分散的ロバスト最適化(dro)問題をwassersteinの不確実性集合で解決し,連続的最悪ケース分布(lfdとも呼ばれる)とサンプルを求める。 lfdが連続であることの要件は、大きなサンプルサイズを持つ問題に対してアルゴリズムがスケーラブルになり、誘導ロバストアルゴリズムのより良い一般化能力を達成することである。 無限次元最適化問題に対処するために,データ分布と目標分布の間の流れモデルと連続時間可逆輸送マップを活用し,ワッサーシュタイン近似勾配型アルゴリズムを開発した。 理論上、元の定式化への最適輸送写像による解の同値性を確立するとともに、ワッサーシュタイン積分とブレニエ定理による問題の双対形式も確立する。 実際には、勾配降下によりブロックで漸進的に訓練されたニューラルネットワークの列によって輸送マップをパラメータ化する。 提案手法は,高次元実データに対して強い経験的性能を与えるデータ駆動分布摂動微分プライバシーの新たなメカニズムとして,逆学習,分布的ロバストな仮説テスト,およびその利用を実証する。

We present a computationally efficient framework, called $\texttt{FlowDRO}$, for solving flow-based distributionally robust optimization (DRO) problems with Wasserstein uncertainty sets while aiming to find continuous worst-case distribution (also called the Least Favorable Distribution, LFD) and sample from it. The requirement for LFD to be continuous is so that the algorithm can be scalable to problems with larger sample sizes and achieve better generalization capability for the induced robust algorithms. To tackle the computationally challenging infinitely dimensional optimization problem, we leverage flow-based models and continuous-time invertible transport maps between the data distribution and the target distribution and develop a Wasserstein proximal gradient flow type algorithm. In theory, we establish the equivalence of the solution by optimal transport map to the original formulation, as well as the dual form of the problem through Wasserstein calculus and Brenier theorem. In practice, we parameterize the transport maps by a sequence of neural networks progressively trained in blocks by gradient descent. We demonstrate its usage in adversarial learning, distributionally robust hypothesis testing, and a new mechanism for data-driven distribution perturbation differential privacy, where the proposed method gives strong empirical performance on high-dimensional real data.
翻訳日:2024-02-23 18:33:29 公開日:2024-02-22
# 制御可能な機械学習によるプライバシ、ユーティリティ、効率性のトリレンマを破る

Breaking the Trilemma of Privacy, Utility, Efficiency via Controllable Machine Unlearning ( http://arxiv.org/abs/2310.18574v2 )

ライセンス: Link先を確認
Zheyuan Liu, Guangyao Dou, Yijun Tian, Chunhui Zhang, Eli Chien, Ziwei Zhu(参考訳) 機械学習(mu)アルゴリズムは,データプライバシ規制の強制的な遵守によって,ますます重要になっている。 MUの主な目的は、特定のデータサンプルがスクラッチから再トレーニングすることなく、特定のモデルに与える影響を削除することである。 そのため、既存の手法はユーザーのプライバシー保護の最大化に重点を置いている。 しかし、現実世界のWebベースアプリケーションごとに、さまざまなプライバシー規制がある。 プライバシ、モデルユーティリティ、実行時の効率のトレードオフの全範囲を探索することは、実践的な未学習シナリオでは不可欠である。 さらに、上記のトレードオフをシンプルに制御したMUアルゴリズムの設計は望ましいが、固有の複雑な相互作用のため難しい。 この課題に対処するために、MUの校正を容易にするために設計された新しいフレームワークであるConMU(Controlable Machine Unlearning)を提案する。 conmuフレームワークには3つの統合モジュールが含まれている。ランタイム効率とモデル一般化を調和させる重要なデータ選択モジュール、プライバシとモデル一般化のバランスをとるプログレッシブガウス機構モジュール、プライバシとランタイム効率のトレードオフを制御するアンラーニングプロキシである。 様々なベンチマークデータセットに関する包括的実験により,制御機構のロバストな適応性と,確立されたアンラーニング手法に対する優越性が実証された。 ConMUはプライバシ-ユーティリティ-効率トレードオフの全範囲を探求し、実践者がさまざまな現実世界の規則を説明できるようにする。 ソースコードはhttps://github.com/guangyaodou/conmu.com/。

Machine Unlearning (MU) algorithms have become increasingly critical due to the imperative adherence to data privacy regulations. The primary objective of MU is to erase the influence of specific data samples on a given model without the need to retrain it from scratch. Accordingly, existing methods focus on maximizing user privacy protection. However, there are different degrees of privacy regulations for each real-world web-based application. Exploring the full spectrum of trade-offs between privacy, model utility, and runtime efficiency is critical for practical unlearning scenarios. Furthermore, designing the MU algorithm with simple control of the aforementioned trade-off is desirable but challenging due to the inherent complex interaction. To address the challenges, we present Controllable Machine Unlearning (ConMU), a novel framework designed to facilitate the calibration of MU. The ConMU framework contains three integral modules: an important data selection module that reconciles the runtime efficiency and model generalization, a progressive Gaussian mechanism module that balances privacy and model generalization, and an unlearning proxy that controls the trade-offs between privacy and runtime efficiency. Comprehensive experiments on various benchmark datasets have demonstrated the robust adaptability of our control mechanism and its superiority over established unlearning methods. ConMU explores the full spectrum of the Privacy-Utility-Efficiency trade-off and allows practitioners to account for different real-world regulations. Source code available at: https://github.com/guangyaodou/ConMU.
翻訳日:2024-02-23 18:33:05 公開日:2024-02-22
# テキスト基準に基づく画像クラスタリング

Image Clustering Conditioned on Text Criteria ( http://arxiv.org/abs/2310.18297v4 )

ライセンス: Link先を確認
Sehyun Kwon, Jaeseung Park, Minkyu Kim, Jaewoong Cho, Ernest K. Ryu, Kangwook Lee(参考訳) 古典的なクラスタリング手法では,クラスタリング結果を直接制御することができず,クラスタリング結果がユーザの意識する関連する基準と一致しない場合がある。 本研究では,現代視覚言語モデルと大規模言語モデルを活用することで,ユーザ特定テキスト基準に基づく画像クラスタリングを行う手法を提案する。 提案手法は,テキスト基準(ic|tc)を条件とした画像クラスタリングと呼び,画像クラスタリングの異なるパラダイムを表す。 IC|TCは人間の介入を最小限かつ実用的に必要としており、ユーザーはクラスタリングの結果に対してかなりの制御を行うことができる。 実験の結果、IC|TCは、人間の行動、身体的位置、気分などの様々な基準で画像を効果的にクラスタリングし、ベースラインを大幅に上回っていることがわかった。

Classical clustering methods do not provide users with direct control of the clustering results, and the clustering results may not be consistent with the relevant criterion that a user has in mind. In this work, we present a new methodology for performing image clustering based on user-specified text criteria by leveraging modern vision-language models and large language models. We call our method Image Clustering Conditioned on Text Criteria (IC|TC), and it represents a different paradigm of image clustering. IC|TC requires a minimal and practical degree of human intervention and grants the user significant control over the clustering results in return. Our experiments show that IC|TC can effectively cluster images with various criteria, such as human action, physical location, or the person's mood, while significantly outperforming baselines.
翻訳日:2024-02-23 18:32:40 公開日:2024-02-22
# 汎用・個人化フェデレーション学習におけるプロンプトチューニングの可能性

Unlocking the Potential of Prompt-Tuning in Bridging Generalized and Personalized Federated Learning ( http://arxiv.org/abs/2310.18285v3 )

ライセンス: Link先を確認
Wenlong Deng, Christos Thrampoulidis, Xiaoxiao Li(参考訳) Vision Transformer (ViT) と Visual Prompt Tuning (VPT) は、様々なコンピュータビジョンタスクの効率を改善して最先端のパフォーマンスを実現する。 これは、事前訓練されたvitモデルを連合学習(fl)設定に適応する、有望なパラダイムシフトを示唆する。 しかし、FLクライアント間のデータ不均一性の課題は、ViTモデルを効果的にデプロイする上で大きなハードルとなる。 既存の一般化fl(gfl)とパーソナライズfl(pfl)メソッドは、グローバルとローカルの両方のデータ分散のパフォーマンスのバランスに制限がある。 本稿では,共有プロンプトとグループ固有のプロンプトを一意に組み合わせることで,GFLとPFLのアプローチを統合する新しいアルゴリズムであるSGPTを提案する。 この設計により、SGPTは共通の特徴とグループ固有の特徴の両方をキャプチャできる。 SGPTの重要な特徴は、ローカルな微調整を必要とせずに、様々なローカルなクライアントデータ分布に自動的に適応できる単一のグローバルモデルのトレーニングを容易にするプロンプトセレクションモジュールである。 提案手法を効果的に訓練するために,ブロック座標降下(BCD)を用い,共通特徴情報(共有プロンプト)から学習し,さらに専門知識(グループプロンプト)を反復的に学習する。 理論的には、提案するプロンプトを学習することで、グローバルパフォーマンスとローカルパフォーマンスのギャップを低減できる。 実験では,sgptの優れた性能を実証するために,最先端のベースラインと比較し,ラベルと特徴の異質性について実験を行った。

Vision Transformers (ViT) and Visual Prompt Tuning (VPT) achieve state-of-the-art performance with improved efficiency in various computer vision tasks. This suggests a promising paradigm shift of adapting pre-trained ViT models to Federated Learning (FL) settings. However, the challenge of data heterogeneity among FL clients presents a significant hurdle in effectively deploying ViT models. Existing Generalized FL (GFL) and Personalized FL (PFL) methods have limitations in balancing performance across both global and local data distributions. In this paper, we present a novel algorithm, SGPT, that integrates GFL and PFL approaches by employing a unique combination of both shared and group-specific prompts. This design enables SGPT to capture both common and group-specific features. A key feature of SGPT is its prompt selection module, which facilitates the training of a single global model capable of automatically adapting to diverse local client data distributions without the need for local fine-tuning. To effectively train the prompts, we utilize block coordinate descent (BCD), learning from common feature information (shared prompts), and then more specialized knowledge (group prompts) iteratively. Theoretically, we justify that learning the proposed prompts can reduce the gap between global and local performance. Empirically, we conduct experiments on both label and feature heterogeneity settings in comparison with state-of-the-art baselines, along with extensive ablation studies, to substantiate the superior performance of SGPT.
翻訳日:2024-02-23 18:32:27 公開日:2024-02-22
# blp-2023タスク2:感情分析

BLP-2023 Task 2: Sentiment Analysis ( http://arxiv.org/abs/2310.16183v2 )

ライセンス: Link先を確認
Md. Arid Hasan, Firoj Alam, Anika Anjum, Shudipta Das, Afiyat Anjum(参考訳) EMNLP 2023と共同で,第1回BLP 2023ワークショップの一環として編成されたBLP知覚共有タスクの概要を紹介する。 このタスクは、ソーシャルメディアのテキスト中の感情の検出として定義されます。 このタスクには71人の参加者が参加し、29チームと30チームがそれぞれ開発フェーズと評価フェーズにシステムを提出した。 参加者は合計597人となった。 しかし、合計15チームがシステム記述書を提出した。 提出されたシステムにおけるアプローチの範囲は、古典的な機械学習モデル、微調整された事前訓練モデル、ゼロショットと少数ショットの設定でLarge Language Model(LLM)を活用することまで様々である。 本稿では,データセット開発と評価設定を含むタスク設定の詳細な説明を行う。 また,参加者が提出したシステムの概要についても概説する。 共有タスクからのデータセットと評価スクリプトは、この領域におけるさらなる研究を促進するために、研究コミュニティのために公開されている。

We present an overview of the BLP Sentiment Shared Task, organized as part of the inaugural BLP 2023 workshop, co-located with EMNLP 2023. The task is defined as the detection of sentiment in a given piece of social media text. This task attracted interest from 71 participants, among whom 29 and 30 teams submitted systems during the development and evaluation phases, respectively. In total, participants submitted 597 runs. However, a total of 15 teams submitted system description papers. The range of approaches in the submitted systems spans from classical machine learning models, fine-tuning pre-trained models, to leveraging Large Language Model (LLMs) in zero- and few-shot settings. In this paper, we provide a detailed account of the task setup, including dataset development and evaluation setup. Additionally, we provide a brief overview of the systems submitted by the participants. All datasets and evaluation scripts from the shared task have been made publicly available for the research community, to foster further research in this domain.
翻訳日:2024-02-23 18:32:00 公開日:2024-02-22
# 最適制御フォトニック回路のためのスケーラブル機械学習支援クリアボックス特性

Scalable machine learning-assisted clear-box characterization for optimally controlled photonic circuits ( http://arxiv.org/abs/2310.15349v2 )

ライセンス: Link先を確認
Andreas Fyrillas, Olivier Faure, Nicolas Maring, Jean Senellart, Nadia Belabas(参考訳) 光集積回路は、光の生成、操作、検出のためのコンパクトで安定したプラットフォームを提供する。 これらは古典的および量子的応用に有効である。 製造制約、耐性、動作波長から生じる欠陥は、現在のフォトニック集積装置の精度と有用性に制限を課す。 これらの欠陥を緩和するには、典型的には基盤となる物理構造のモデルとアクセスが困難なパラメータの推定が必要である。 現在、簡単なケースを越えて拡張されるメッシュ構成には、直接的なソリューションがない。 我々は、反復的な機械学習支援手法によりフォトニックチップを特徴付けるスケーラブルで革新的な方法を提案する。 提案手法は,フォトニックチップの完全モデル化された仮想レプリカを特徴とするクリアボックスアプローチに基づいている。 このプロセスはサンプル効率が高く、連続波レーザーとパワーメータで実行することができる。 モデルは、個々のパッシブフェーズ、クロストーク、ビームスプリッター反射率、相対入出力損失を推定する。 精度の高いキャラクタリゼーション結果に基づいて、デバイスに対する制御の強化を可能にするために不完全さを緩和する。 12モードのクレメンツ干渉計に126相シフタを内蔵し、平均99.77%の振幅忠実性を有する最新チップ制御を100個のハールランダムユニタリ行列上で達成した。

Photonic integrated circuits offer a compact and stable platform for generating, manipulating, and detecting light. They are instrumental for classical and quantum applications. Imperfections stemming from fabrication constraints, tolerances and operation wavelength impose limitations on the accuracy and thus utility of current photonic integrated devices. Mitigating these imperfections typically necessitates a model of the underlying physical structure and the estimation of parameters that are challenging to access. Direct solutions are currently lacking for mesh configurations extending beyond trivial cases. We introduce a scalable and innovative method to characterize photonic chips through an iterative machine learning-assisted procedure. Our method is based on a clear-box approach that harnesses a fully modeled virtual replica of the photonic chip to characterize. The process is sample-efficient and can be carried out with a continuous-wave laser and powermeters. The model estimates individual passive phases, crosstalk, beamsplitter reflectivity values and relative input/output losses. Building upon the accurate characterization results, we mitigate imperfections to enable enhanced control over the device. We validate our characterization and imperfection mitigation methods on a 12-mode Clements-interferometer equipped with 126 phase shifters, achieving beyond state-of-the-art chip control with an average 99.77 % amplitude fidelity on 100 implemented Haar-random unitary matrices.
翻訳日:2024-02-23 18:31:44 公開日:2024-02-22
# 試行と観測データを組み合わせた外部妥当性評価

Externally Valid Policy Evaluation Combining Trial and Observational Data ( http://arxiv.org/abs/2310.14763v2 )

ライセンス: Link先を確認
Sofia Ek, Dave Zachariah(参考訳) ランダム化試験は意思決定政策の効果を評価するための金の基準として広く考えられている。 しかし、試行データは意図された対象人口と異なる集団から引き出されたものであり、これは外的妥当性(つまり一般化可能性)の問題を引き起こす。 本稿では,対象人口に対する政策の結果について,有効な推測を行うために試行データを用いた。 対象個体群からの追加の共変量データは、試験研究における個人のサンプリングをモデル化するために使用される。 特定のモデルミスカバリレーションの範囲で検証可能な試行ベースの政策評価を行う手法を開発した。 この方法は非パラメトリックであり、有限サンプルであっても妥当性が保証される。 認証されたポリシー評価は、シミュレーションデータと実データの両方を用いて図示される。

Randomized trials are widely considered as the gold standard for evaluating the effects of decision policies. Trial data is, however, drawn from a population which may differ from the intended target population and this raises a problem of external validity (aka. generalizability). In this paper we seek to use trial data to draw valid inferences about the outcome of a policy on the target population. Additional covariate data from the target population is used to model the sampling of individuals in the trial study. We develop a method that yields certifiably valid trial-based policy evaluations under any specified range of model miscalibrations. The method is nonparametric and the validity is assured even with finite samples. The certified policy evaluations are illustrated using both simulated and real data.
翻訳日:2024-02-23 18:31:21 公開日:2024-02-22
# ソフトウェア開発ボットとしてのChatGPT:プロジェクトベースの研究

ChatGPT as a Software Development Bot: A Project-based Study ( http://arxiv.org/abs/2310.13648v2 )

ライセンス: Link先を確認
Muhammad Waseem, Teerath Das, Aakash Ahmad, Peng Liang, Mahdi Fehmideh, Tommi Mikkonen(参考訳) 人工知能は生産性、正確性、コラボレーション、学習結果の顕著な改善を通じて、ソフトウェアエンジニアリングにおけるその重要性を実証している。 本研究では,生成型AIツール,特にChatGPTが大学生のソフトウェア開発経験に与える影響を検討する。 7人の学生による3ヶ月のプロジェクトにおいて、ChatGPTはサポートツールとして使用された。 この研究はChatGPTの有効性、利点、限界、学習への影響を評価することに焦点を当てた。 その結果,ChatGPTはソフトウェア開発教育におけるスキルギャップに大きく対処し,効率性,精度,コラボレーションを向上した。 参加者の基本的な理解とソフトスキルも向上した。 この研究は、スキルギャップの橋渡しと生産性向上のために教育にchatgptのようなaiツールを統合することの重要性を強調しているが、技術利用へのバランスのとれたアプローチの必要性を強調している。 今後の研究は、ChatGPTのアプリケーションを様々な開発コンテキストで最適化し、学習を最大化し、特定の課題に対処することに集中すべきである。

Artificial Intelligence has demonstrated its significance in software engineering through notable improvements in productivity, accuracy, collaboration, and learning outcomes. This study examines the impact of generative AI tools, specifically ChatGPT, on the software development experiences of undergraduate students. Over a three-month project with seven students, ChatGPT was used as a support tool. The research focused on assessing ChatGPT's effectiveness, benefits, limitations, and its influence on learning. Results showed that ChatGPT significantly addresses skill gaps in software development education, enhancing efficiency, accuracy, and collaboration. It also improved participants' fundamental understanding and soft skills. The study highlights the importance of incorporating AI tools like ChatGPT in education to bridge skill gaps and increase productivity, but stresses the need for a balanced approach to technology use. Future research should focus on optimizing ChatGPT's application in various development contexts to maximize learning and address specific challenges.
翻訳日:2024-02-23 18:31:10 公開日:2024-02-22
# インコンテキスト学生モデリングのための大規模言語モデル:視覚プログラミングにおける学生の行動の合成

Large Language Models for In-Context Student Modeling: Synthesizing Student's Behavior in Visual Programming ( http://arxiv.org/abs/2310.10690v2 )

ライセンス: Link先を確認
Manh Hung Nguyen, Sebastian Tschiatschek, Adish Singla(参考訳) 学生のモデリングは多くの教育技術の中心であり、将来の学習成果を予測し、対象とする指導戦略を設計することができる。 しかし、オープンエンドの学習領域は、多様な振る舞いと考えられる誤解の広い空間のために、学生の正確なモデリングに課題を生じさせる。 これらの課題にアプローチするために,オープンディビジョン学習領域における学習者モデルに対する大規模言語モデル(llm)の適用について検討する。 より具体的には、特定の学生が参照タスクを観察として試みていることを考えると、目的は対象タスクに対する学生の試みを合成することである。 学生の行動の合成に LLM を利用する新しいフレームワーク LLM for Student Synthesis (LLM-SS) を導入する。 我々のフレームワークは異なるllmと組み合わせることができる。さらに、学生のモデリング能力を高めるためにllmを微調整する。 LLM-SSフレームワークに基づいて複数の手法をインスタンス化し、既存のベンチマークであるStudioSynを用いて視覚的プログラミング領域における学生の試行合成を行う。 実験結果から,本手法はStudentSynベンチマークのベースライン手法であるNeurSSよりも優れた性能を示した。 さらに, GPT-3.5モデルの微調整版を用いた手法は, 基本型 GPT-3.5 モデルよりもはるかに優れており, チューターの性能に近づいた。

Student modeling is central to many educational technologies as it enables predicting future learning outcomes and designing targeted instructional strategies. However, open-ended learning domains pose challenges for accurately modeling students due to the diverse behaviors and a large space of possible misconceptions. To approach these challenges, we explore the application of large language models (LLMs) for in-context student modeling in open-ended learning domains. More concretely, given a particular student's attempt on a reference task as observation, the objective is to synthesize the student's attempt on a target task. We introduce a novel framework, LLM for Student Synthesis (LLM-SS), that leverages LLMs for synthesizing a student's behavior. Our framework can be combined with different LLMs; moreover, we fine-tune LLMs to boost their student modeling capabilities. We instantiate several methods based on LLM-SS framework and evaluate them using an existing benchmark, StudentSyn, for student attempt synthesis in a visual programming domain. Experimental results show that our methods perform significantly better than the baseline method NeurSS provided in the StudentSyn benchmark. Furthermore, our method using a fine-tuned version of the GPT-3.5 model is significantly better than using the base GPT-3.5 model and gets close to human tutors' performance.
翻訳日:2024-02-23 18:30:56 公開日:2024-02-22
# 4次元gaussian splattingによる実時間フォトリアリスティック動的シーン表現とレンダリング

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting ( http://arxiv.org/abs/2310.10642v3 )

ライセンス: Link先を確認
Zeyu Yang, Hongye Yang, Zijie Pan, Li Zhang(参考訳) 2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。 神経暗黙モデルの発展にもかかわらず、制限は持続する。 (i)不適切なシーン構造:既存の手法は、複雑な6次元光機能を直接学習することから、動的シーンの空間的・時間的構造を明らかにするのに苦労する。 (ii) スケーリング変形モデリング: 複雑なダイナミクスでは、シーン要素の明示的にモデリングすることは現実的ではない。 これらの問題に対処するため,我々は時空を全体として考慮し,動的シーンの時空間的4dボリュームを,明示的な幾何学と外観モデリングを用いて4dプリミティブのコレクションを最適化することにより近似する。 4dプリミティブを最適化する学習は、カスタマイズされたレンダリングルーチンで任意の時間に新しいビューを合成できる。 我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。 このアプローチは、シンプルさ、可変長ビデオとエンドツーエンドのトレーニングのための柔軟性、効率的なリアルタイムレンダリングを提供する。 モノクロおよびマルチビューシナリオを含む様々なベンチマーク実験は、我々の4DGSモデルの優れた視覚的品質と効率を実証する。

Reconstructing dynamic 3D scenes from 2D images and generating diverse views over time is challenging due to scene complexity and temporal dynamics. Despite advancements in neural implicit models, limitations persist: (i) Inadequate Scene Structure: Existing methods struggle to reveal the spatial and temporal structure of dynamic scenes from directly learning the complex 6D plenoptic function. (ii) Scaling Deformation Modeling: Explicitly modeling scene element deformation becomes impractical for complex dynamics. To address these issues, we consider the spacetime as an entirety and propose to approximate the underlying spatio-temporal 4D volume of a dynamic scene by optimizing a collection of 4D primitives, with explicit geometry and appearance modeling. Learning to optimize the 4D primitives enables us to synthesize novel views at any desired time with our tailored rendering routine. Our model is conceptually simple, consisting of a 4D Gaussian parameterized by anisotropic ellipses that can rotate arbitrarily in space and time, as well as view-dependent and time-evolved appearance represented by the coefficient of 4D spherindrical harmonics. This approach offers simplicity, flexibility for variable-length video and end-to-end training, and efficient real-time rendering, making it suitable for capturing complex dynamic scene motions. Experiments across various benchmarks, including monocular and multi-view scenarios, demonstrate our 4DGS model's superior visual quality and efficiency.
翻訳日:2024-02-23 18:30:32 公開日:2024-02-22
# 悪い価値と良い行動: 高度にミスした帯域とMDPを学ぶ

Bad Values but Good Behavior: Learning Highly Misspecified Bandits and MDPs ( http://arxiv.org/abs/2310.09358v2 )

ライセンス: Link先を確認
Debangshu Banerjee and Aditya Gopalan(参考訳) パラメトリックな特徴に基づく報酬モデルは、バンディットやマルコフ決定プロセス(mdps)などの意思決定設定において、様々なアルゴリズムによって採用されている。 アルゴリズムが解析される典型的な仮定は、アクションの真の値がクラス内のパラメトリックモデルによって完全に説明されるような実現可能性である。 しかし、我々は、真の値がモデルクラスに関して(特に)誤って特定される状況に興味を持っている。 パラメータ化されたバンディット、文脈的バンディット、mdpでは、問題インスタンスやモデルクラスに応じて構造的条件を特定し、そこでは$\epsilon$-greedy、linucb、適合q-learningのような基本的なアルゴリズムが、非常に不特定なモデルの下で最適なポリシーを確実に学習する。 これは、例えば、時間とともに線形にスケールする後悔の束縛を示す不特定な包帯に対する既存の最悪の結果とは対照的であり、不特定に頑丈な非自明に大規模な包帯例が存在することを示している。

Parametric, feature-based reward models are employed by a variety of algorithms in decision-making settings such as bandits and Markov decision processes (MDPs). The typical assumption under which the algorithms are analysed is realizability, i.e., that the true values of actions are perfectly explained by some parametric model in the class. We are, however, interested in the situation where the true values are (significantly) misspecified with respect to the model class. For parameterized bandits, contextual bandits and MDPs, we identify structural conditions, depending on the problem instance and model class, under which basic algorithms such as $\epsilon$-greedy, LinUCB and fitted Q-learning provably learn optimal policies under even highly misspecified models. This is in contrast to existing worst-case results for, say misspecified bandits, which show regret bounds that scale linearly with time, and shows that there can be a nontrivially large set of bandit instances that are robust to misspecification.
翻訳日:2024-02-23 18:30:05 公開日:2024-02-22
# FLATTEN:一貫したテキスト・ビデオ編集のための光導波路型ATTENtion

FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing ( http://arxiv.org/abs/2310.05922v2 )

ライセンス: Link先を確認
Yuren Cong, Mengmeng Xu, Christian Simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, Sen He(参考訳) text-to-video編集は、テキストプロンプトに基づいて、ソースビデオの視覚的な外観を編集することを目的としている。 このタスクの大きな課題は、編集されたビデオのすべてのフレームが視覚的に一貫性があることを保証することである。 最近の研究は、U-Netにおける2次元空間的注意を時空間的注意に膨らませることで、このタスクに高度なテキスト・画像拡散モデルを適用している。 時間的文脈は時空間的注意によって追加することができるが、パッチごとに無関係な情報を導入し、編集されたビデオに不整合を引き起こす可能性がある。 本稿では,拡散モデルのU-Netにおける注目モジュールへの光フローを初めて導入し,テキスト・ビデオ編集の不整合問題に対処する。 提案手法であるFLATTENでは,異なるフレームにまたがる同じフローパス上のパッチをアテンションモジュールで相互に適用することにより,編集したビデオの視覚的一貫性を向上する。 さらに,本手法はトレーニング不要であり,任意の拡散ベースのテキスト・ビデオ編集手法にシームレスに統合し,視覚的整合性を向上させることができる。 既存のテキスト・ビデオ編集ベンチマークによる実験結果から,提案手法が新たな最先端性能を実現することを示す。 特に,本手法は,編集ビデオの視覚的一貫性を維持するのに優れている。

Text-to-video editing aims to edit the visual appearance of a source video conditional on textual prompts. A major challenge in this task is to ensure that all frames in the edited video are visually consistent. Most recent works apply advanced text-to-image diffusion models to this task by inflating 2D spatial attention in the U-Net into spatio-temporal attention. Although temporal context can be added through spatio-temporal attention, it may introduce some irrelevant information for each patch and therefore cause inconsistency in the edited video. In this paper, for the first time, we introduce optical flow into the attention module in the diffusion model's U-Net to address the inconsistency issue for text-to-video editing. Our method, FLATTEN, enforces the patches on the same flow path across different frames to attend to each other in the attention module, thus improving the visual consistency in the edited videos. Additionally, our method is training-free and can be seamlessly integrated into any diffusion-based text-to-video editing methods and improve their visual consistency. Experiment results on existing text-to-video editing benchmarks show that our proposed method achieves the new state-of-the-art performance. In particular, our method excels in maintaining the visual consistency in the edited videos.
翻訳日:2024-02-23 18:29:44 公開日:2024-02-22
# MindfulDiary: 精神科患者のジャーナリングを支援するための大規模言語モデル

MindfulDiary: Harnessing Large Language Model to Support Psychiatric Patients' Journaling ( http://arxiv.org/abs/2310.05231v2 )

ライセンス: Link先を確認
Taewan Kim, Seolyeong Bae, Hyun Ah Kim, Su-woo Lee, Hwajung Hong, Chanmo Yang, Young-Ho Kim(参考訳) メンタルヘルス分野では、LLM(Large Language Models)は将来性のある新しい機会を提供するが、その固有の複雑さと低コントロール性は、臨床環境での適合性に関する疑問を提起している。 私たちは、精神科患者が会話を通じて日々の経験を文書化するのを助けるために、LSMを組み込んだモバイルジャーナリングアプリMindfulDiaryを紹介します。 メンタルヘルスの専門家(MHP)と共同で設計されたMindfulDiaryは、フリーフォームの会話をしながら専門家のガイドラインを安全に遵守するための州ベースのアプローチを採用している。 重度のうつ病性障害28名と精神科医5名を対象とした4週間のフィールド調査の結果,マインドフルダイアリーの患者は,常に日々の記録を充実させ,精神科医の思考や日常の状況を理解することで,患者への共感を深めることができた。 これらの知見をもとに, 精神保健領域におけるLCMの活用, 技術的実現可能性, 臨床環境への統合の意義について考察した。

In the mental health domain, Large Language Models (LLMs) offer promising new opportunities, though their inherent complexity and low controllability have raised questions about their suitability in clinical settings. We present MindfulDiary, a mobile journaling app incorporating an LLM to help psychiatric patients document daily experiences through conversation. Designed in collaboration with mental health professionals (MHPs), MindfulDiary takes a state-based approach to safely comply with the experts' guidelines while carrying on free-form conversations. Through a four-week field study involving 28 patients with major depressive disorder and five psychiatrists, we found that MindfulDiary supported patients in consistently enriching their daily records and helped psychiatrists better empathize with their patients through an understanding of their thoughts and daily contexts. Drawing on these findings, we discuss the implications of leveraging LLMs in the mental health domain, bridging the technical feasibility and their integration into clinical settings.
翻訳日:2024-02-23 18:29:21 公開日:2024-02-22
# Fast-DetectGPT:条件付き確率曲線による機械生成テキストの効率的なゼロショット検出

Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature ( http://arxiv.org/abs/2310.05130v2 )

ライセンス: Link先を確認
Guangsheng Bao, Yanbin Zhao, Zhiyang Teng, Linyi Yang, Yue Zhang(参考訳) 大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生み出す能力を示し、生産性の機会と社会的リスクの両方を提示している。 信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。 最上位のゼロショット検出器である DetectGPT は、高い性能を示すが、その計算コストに悩まされている。 本稿では,条件付き確率曲率の概念を導入し,与えられた文脈内でllmと人間の単語選択の相違を解明する。 この曲率を基本距離として、より効率的なサンプリングステップで検出GPTの摂動ステップを置き換える最適化ゼロショット検出器**Fast-DetectGPT*を提案する。 各種データセット, ソースモデル, テスト条件の評価から, Fast-DetectGPT は, ホワイトボックス設定とブラックボックス設定の両方で 75% の差で DetectGPT を上回るだけでなく, 340 倍の速度で検出プロセスを高速化することを示した。 コード、データ、結果については \url{https://github.com/baoguangsheng/fast-detect-gpt} を参照。

Large language models (LLMs) have shown the ability to produce fluent and cogent content, presenting both productivity opportunities and societal risks. To build trustworthy AI systems, it is imperative to distinguish between machine-generated and human-authored content. The leading zero-shot detector, DetectGPT, showcases commendable performance but is marred by its intensive computational costs. In this paper, we introduce the concept of conditional probability curvature to elucidate discrepancies in word choices between LLMs and humans within a given context. Utilizing this curvature as a foundational metric, we present **Fast-DetectGPT**, an optimized zero-shot detector, which substitutes DetectGPT's perturbation step with a more efficient sampling step. Our evaluations on various datasets, source models, and test conditions indicate that Fast-DetectGPT not only surpasses DetectGPT by a relative around 75% in both the white-box and black-box settings but also accelerates the detection process by a factor of 340, as detailed in Table 1. See \url{https://github.com/baoguangsheng/fast-detect-gpt} for code, data, and results.
翻訳日:2024-02-23 18:28:59 公開日:2024-02-22
# IODeep:DICOM標準でのディープラーニング導入のためのIOD

IODeep: an IOD for the introduction of deep learning in the DICOM standard ( http://arxiv.org/abs/2311.16163v4 )

ライセンス: Link先を確認
Salvatore Contino, Luca Cruciata, Orazio Gambino and Roberto Pirrone(参考訳) 背景と目的:近年、人工知能(AI)、特にディープニューラルネットワーク(DNN)は、よく知られた競争の確立とともに、より多くのデータセットが利用可能になったため、バイオメディカルイメージセグメンテーションにおいて、関連する研究トピックとなった。 研究側のDNNベースのセグメンテーションの人気にもかかわらず、これらの技術は診断過程において医師を効果的に支援できるとしても、日常臨床ではほとんど使われていない。 神経モデルの予測の説明可能性に関する問題とは別に、そのようなシステムは診断ワークフローに統合されておらず、この目標を達成するためにはそれらの使用の標準化が必要である。 方法:本稿では,dnn の重みとアーキテクチャを,取得形態,解剖学的領域,および調査中の疾患についてラベル付けされた特定の画像データセットに格納することを目的とした,新しい dicom information object definition (iod) を提案する。 結果: IODアーキテクチャは,上述したラベルに基づくPACSサーバからのDNN選択アルゴリズムと,DICOM統合の有効性を示すために設計されたシンプルなPACSビューアとともに提示されるが,PACSサーバ側では変更は不要である。 また、ワークフロー全体をサポートするサービスベースのアーキテクチャも実装されている。 結論: IODeepは、トレーニングされたAIモデルをDICOMインフラストラクチャに完全に統合することを保証すると同時に、トレーニングされたモデルを病院データで微調整するか、異なる病院が共有するフェデレーション学習スキームでトレーニングすることが可能である。 これにより、AIモデルは、Radiology病棟が生成する実際のデータに合わせて調整され、医師の意思決定プロセスが改善される。 ソースコードはhttps://github.com/CHILab1/IODeep.gitで無料で入手できる。

Background and Objective: In recent years, Artificial Intelligence (AI) and in particular Deep Neural Networks (DNN) became a relevant research topic in biomedical image segmentation due to the availability of more and more data sets along with the establishment of well known competitions. Despite the popularity of DNN based segmentation on the research side, these techniques are almost unused in the daily clinical practice even if they could support effectively the physician during the diagnostic process. Apart from the issues related to the explainability of the predictions of a neural model, such systems are not integrated in the diagnostic workflow, and a standardization of their use is needed to achieve this goal. Methods: This paper presents IODeep a new DICOM Information Object Definition (IOD) aimed at storing both the weights and the architecture of a DNN already trained on a particular image dataset that is labeled as regards the acquisition modality, the anatomical region, and the disease under investigation. Results: The IOD architecture is presented along with a DNN selection algorithm from the PACS server based on the labels outlined above, and a simple PACS viewer purposely designed for demonstrating the effectiveness of the DICOM integration, while no modifications are required on the PACS server side. Also a service based architecture in support of the entire workflow has been implemented. Conclusion: IODeep ensures full integration of a trained AI model in a DICOM infrastructure, and it is also enables a scenario where a trained model can be either fine-tuned with hospital data or trained in a federated learning scheme shared by different hospitals. In this way AI models can be tailored to the real data produced by a Radiology ward thus improving the physician decision making process. Source code is freely available at https://github.com/CHILab1/IODeep.git
翻訳日:2024-02-23 18:23:57 公開日:2024-02-22
# 先駆的産業応用のための量子最適化アルゴリズムの実用性評価

Evaluating the Practicality of Quantum Optimization Algorithms for Prototypical Industrial Applications ( http://arxiv.org/abs/2311.11621v2 )

ライセンス: Link先を確認
Matteo Vandelli, Alessandra Lignarolo, Carlo Cavazzoni, Daniele Dragoni(参考訳) アンテナネットワークの電力消費の最適化は、電気通信の分野における潜在的な影響の問題である。 本研究では,量子近似最適化アルゴリズム (qaoa) と量子断熱アルゴリズム (qaa) の,この分野の原型モデルに対する応用について検討する。 我々は,高性能計算機環境においてstatevectorエミュレーションを用いて,選択した評価指標を用いて,この2つのアルゴリズムの性能を比較する。 我々は,あるレベルのソリューション品質を維持しつつ,問題サイズの回路奥行きスケーリングを推定し,その解析を31キュービットまで拡張する。 計算の結果,問題の大きさが大きくなるにつれて,両アルゴリズムの精度は指数関数的に低下することがわかった。 この問題は、問題に制約を加え、サイト間の完全な接続を実現する場合、特に深刻です。 それにもかかわらず、本研究で考えられる最大の事例についても、最適解に近い解を計測する累積確率は高いままである。 本研究は,これらのアルゴリズム,あるいはその変種を応用して,産業用ユースケースに関連するスケールで最適でない解を生成する方法を提供し続けている。

The optimization of the power consumption of antenna networks is a problem with a potential impact in the field of telecommunications. In this work, we investigate the application of the quantum approximate optimization algorithm (QAOA) and the quantum adiabatic algorithm (QAA), to the solution of a prototypical model in this field. We use statevector emulation in a high-performance computing environment to compare the performance of these two algorithms in terms of solution quality, using selected evaluation metrics. We estimate the circuit depth scaling with the problem size while maintaining a certain level of solution quality, and we extend our analysis up to 31 qubits, which is rarely addressed in the literature. Our calculations show that as the problem size increases, the probability of measuring the exact solution decreases exponentially for both algorithms. This issue is particularly severe when we include constraints in the problem, resulting in full connectivity between the sites. Nonetheless, we observe that the cumulative probability of measuring solutions close to the optimal one remains high also for the largest instances considered in this work. Our findings keep the way open to the application of these algorithms, or variants thereof, to generate suboptimal solutions at scales relevant to industrial use-cases.
翻訳日:2024-02-23 18:23:22 公開日:2024-02-22
# 造影乳房mriによる腫瘍分画の術前・術後合成

Pre- to Post-Contrast Breast MRI Synthesis for Enhanced Tumour Segmentation ( http://arxiv.org/abs/2311.10879v2 )

ライセンス: Link先を確認
Richard Osuala, Smriti Joshi, Apostolia Tsirikoglou, Lidia Garrucho, Walter H. L. Pinaya, Oliver Diaz, and Karim Lekadir(参考訳) 腫瘍の検出と治療の利点にもかかわらず、ダイナミックコントラスト造影MRI(DCE-MRI)における造影剤の投与は、その侵襲性、生体蓄積、腎原性全身線維症のリスクなど、様々な問題と関連している。 本研究は, GAN(Generative Adversarial Network)の機能を利用して, コントラスト前T1強調脂肪飽和乳房MRIを対応する第1のDCE-MRIシーケンスに翻訳することにより, 合成コントラストの増強を実現する可能性を検討した。 さらに,合成データの質を原理的に定量的に評価し,最適な生成モデルを選択するための基礎となるスケールド・アグリゲート・測度(same)を提案する。 定量的な画像品質指標を用いて生成したDCE-MRIデータを評価し、3D乳房切片の下流タスクに適用する。 以上の結果から, 造影後DCE-MRI合成が乳房のセグメンテーションモデルの堅牢性向上に寄与する可能性が示唆された。 私たちのコードはhttps://github.com/richardobi/pre_post_ synthesisで利用可能です。

Despite its benefits for tumour detection and treatment, the administration of contrast agents in dynamic contrast-enhanced MRI (DCE-MRI) is associated with a range of issues, including their invasiveness, bioaccumulation, and a risk of nephrogenic systemic fibrosis. This study explores the feasibility of producing synthetic contrast enhancements by translating pre-contrast T1-weighted fat-saturated breast MRI to their corresponding first DCE-MRI sequence leveraging the capabilities of a generative adversarial network (GAN). Additionally, we introduce a Scaled Aggregate Measure (SAMe) designed for quantitatively evaluating the quality of synthetic data in a principled manner and serving as a basis for selecting the optimal generative model. We assess the generated DCE-MRI data using quantitative image quality metrics and apply them to the downstream task of 3D breast tumour segmentation. Our results highlight the potential of post-contrast DCE-MRI synthesis in enhancing the robustness of breast tumour segmentation models via data augmentation. Our code is available at https://github.com/RichardObi/pre_post_synthesis.
翻訳日:2024-02-23 18:23:04 公開日:2024-02-22
# EduGym:強化学習教育のための環境とノートブックスイート

EduGym: An Environment and Notebook Suite for Reinforcement Learning Education ( http://arxiv.org/abs/2311.10590v2 )

ライセンス: Link先を確認
Thomas M. Moerland, Matthias M\"uller-Brockhausen, Zhao Yang, Andrius Bernatavicius, Koen Ponse, Tom Kouwenhoven, Andreas Sauter, Michiel van der Meer, Bram Renting, Aske Plaat(参考訳) 強化学習の実証的な成功により、学生の数が増加している。 しかし、実践的な教育経験から、現場に入る学生(学士、修士、初期博士号)がしばしば苦労するのを見る。 一方、教科書や(オンラインの)講義は基礎を提供するが、学生は方程式とコードの翻訳が難しいと感じる。 一方、公開コードベースは実例を提供しているが、実装されたアルゴリズムは複雑になりがちであり、基礎となるテスト環境には複数の強化学習課題が同時に含まれている。 これは研究の観点からは現実的であるが、しばしば教育的な概念的理解を妨げる。 この問題を解決するために、教育強化学習環境と関連する対話型ノートブックのセットであるEduGymを紹介する。 各edugym環境は、強化学習(例えば、探索、部分的可観測性、確率性など)の特定の側面や課題を説明するために特別に設計されている。 RL学生と研究者の86%が、EduGymは強化学習教育に有用なツールだと考えている。 すべてのノートブックはhttps://www.edugym.org/から入手できるが、完全なソフトウェアパッケージはhttps://github.com/RLG-Leiden/edugymからインストールできる。

Due to the empirical success of reinforcement learning, an increasing number of students study the subject. However, from our practical teaching experience, we see students entering the field (bachelor, master and early PhD) often struggle. On the one hand, textbooks and (online) lectures provide the fundamentals, but students find it hard to translate between equations and code. On the other hand, public codebases do provide practical examples, but the implemented algorithms tend to be complex, and the underlying test environments contain multiple reinforcement learning challenges at once. Although this is realistic from a research perspective, it often hinders educational conceptual understanding. To solve this issue we introduce EduGym, a set of educational reinforcement learning environments and associated interactive notebooks tailored for education. Each EduGym environment is specifically designed to illustrate a certain aspect/challenge of reinforcement learning (e.g., exploration, partial observability, stochasticity, etc.), while the associated interactive notebook explains the challenge and its possible solution approaches, connecting equations and code in a single document. An evaluation among RL students and researchers shows 86% of them think EduGym is a useful tool for reinforcement learning education. All notebooks are available from https://www.edugym.org/, while the full software package can be installed from https://github.com/RLG-Leiden/edugym.
翻訳日:2024-02-23 18:22:47 公開日:2024-02-22
# PixT3:Pixelベースのタブレットからテキスト生成

PixT3: Pixel-based Table To Text generation ( http://arxiv.org/abs/2311.09808v2 )

ライセンス: Link先を確認
I\~nigo Alonso, Eneko Agirre, Mirella Lapata(参考訳) テーブル・トゥ・テキスト生成は、構造化された表データに対して適切なテキスト記述を生成する。 近年、ニューラルネットワークモデルの人気と大規模データセットの可用性により、注目を集めている。 既存の手法に共通する特徴は、入力を文字列として扱うこと、すなわち、表内の情報を常に保存せず、冗長であり、空間効率の欠如である線形化技術を使うことである。 本稿では,入力を文字列形式でレンダリングする必要をなくし,視覚認識タスクとしてデータからテキストへの生成を再考する。 本稿では,既存モデルが直面する線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキストモデルPixT3を提案する。 pixt3は、テーブル構造認識を強化するために、新しい自己教師付き学習目標でトレーニングされ、オープンで制御された生成設定に適用できる。 ToTToとLogic2Textベンチマークの実験によると、PixT3は競争力があり、一部の設定ではテキストのみで動作するジェネレータよりも優れている。

Table-to-text generation involves generating appropriate textual descriptions given structured tabular data. It has attracted increasing attention in recent years thanks to the popularity of neural network models and the availability of large-scale datasets. A common feature across existing methods is their treatment of the input as a string, i.e., by employing linearization techniques that do not always preserve information in the table, are verbose, and lack space efficiency. We propose to rethink data-to-text generation as a visual recognition task, removing the need for rendering the input in a string format. We present PixT3, a multimodal table-to-text model that overcomes the challenges of linearization and input size limitations encountered by existing models. PixT3 is trained with a new self-supervised learning objective to reinforce table structure awareness and is applicable to open-ended and controlled generation settings. Experiments on the ToTTo and Logic2Text benchmarks show that PixT3 is competitive and, in some settings, superior to generators that operate solely on text.
翻訳日:2024-02-23 18:22:22 公開日:2024-02-22
# GistScore: Gist Bottlenecksを使ったコンテキスト内サンプル選択のための表現の改善

GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks ( http://arxiv.org/abs/2311.09606v2 )

ライセンス: Link先を確認
Shivanshu Gupta, Clemens Rosenbaum, Ethan R. Elenberg(参考訳) In-context Learning(ICL)は、大規模言語モデル(LLM)がいくつかのタスク例を含むプロンプトで条件付きで新しいタスクを実行する機能である。 しかし、iclのパフォーマンスは例の選択に極めて敏感である。 テスト入力毎に最適なサンプルを動的に選択するために、入力と出力の間の注意のボトルネックを伴う教師付き微調整により、サンプルエンコーダをトレーニングするための新しいアプローチである例 gistingを提案する。 これらのgistモデルは、有益な例を採点し選択するための新しい指標であるgistcoreの基礎を形成する。 さらに,(1)データセット毎のgistモデルの微調整,(2)データセットの大規模なコレクション上でのマルチタスクトレーニング,という2つのバリエーションを実験した。 後者は、トレーニングフリーのiclパイプラインを可能にする新しいタスクに使用できる。 9つのタスクにまたがる21のデータセットと8つの多種多様なLCMによる評価は、我々の微調整されたモデルが最先端のICLのパフォーマンスを獲得し、既成のレトリバーよりも20%以上、最高の先行手法よりも5%以上向上していることを示している。 さらに、我々のマルチタスクモデルは、新しいタスク、データセット、プロンプトテンプレートによく当てはまる。 このモデルを用いた選択は、最強のトレーニングフリーベースラインよりも3桁早く、以前のメソッドにマッチするか、上回る。

In-context Learning (ICL) is the ability of Large Language Models (LLMs) to perform new tasks when conditioned on prompts comprising a few task examples. However, ICL performance can be critically sensitive to the choice of examples. To dynamically select the best examples for every test input, we propose Example Gisting, a novel approach for training example encoders through supervised fine-tuning with an attention bottleneck between the inputs and outputs. These gist models form the basis for GistScore, a novel metric for scoring and selecting informative examples. Further, we experiment with two variations: (1) fine-tuning gist models for each dataset and (2) multi-task training a single model on a large collection of datasets. The latter can be used for new tasks out-of-the-box, enabling a training-free ICL pipeline. Evaluations with 21 datasets spanning 9 tasks and 8 diverse LLMs show that our fine-tuned models get state-of-the-art ICL performance with over 20% absolute gain over off-the-shelf retrievers and 5% over the best prior methods. Further, our multi-task model generalizes well to new tasks, datasets, and prompt templates. Selection using this model matches or outperforms prior methods while being three orders of magnitude faster than the strongest training-free baseline.
翻訳日:2024-02-23 18:22:04 公開日:2024-02-22
# monkey: 画像解像度とテキストラベルは、大規模マルチモーダルモデルにとって重要だ

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models ( http://arxiv.org/abs/2311.06607v3 )

ライセンス: Link先を確認
Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai(参考訳) 大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて有望であるが、高解像度入力と詳細なシーン理解に苦慮している。 これらの課題に対処するため、LMM機能を強化するためにMonkeyを導入します。 まず、Monkeyは入力画像を均一なパッチに分割して処理し、それぞれのサイズ(例:448x448)をよく訓練されたビジョンエンコーダのトレーニングに使用する。 各パッチ用の個別アダプタを備えており、1344x896ピクセルまでの高解像度の処理が可能で、複雑な視覚情報の詳細なキャプチャを可能にする。 第2に、シーンオブジェクト関連のためのコンテキストを豊かにするマルチレベル記述生成手法を用いる。 この2部構成の戦略は、生成されたデータからより効果的な学習を可能にする: 高分解能により、視覚をより詳細に捉えることができ、それによって包括的な説明の有効性が向上する。 その結果,設計の有効性が検証された。 さらに18のデータセットの実験では、Image CaptioningやさまざまなVisual Question Answeringフォーマットなど、多くのタスクにおいて、Monkeyが既存のLMMを上回ることが示されている。 特に、高密度テキスト質問応答に着目した定性テストでは、MonkeyはGPT4Vと比較して奨励的な結果を示した。 コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。

Large Multimodal Models (LMMs) have shown promise in vision-language tasks but struggle with high-resolution input and detailed scene understanding. Addressing these challenges, we introduce Monkey to enhance LMM capabilities. Firstly, Monkey processes input images by dividing them into uniform patches, each matching the size (e.g., 448x448) used in the original training of the well-trained vision encoder. Equipped with individual adapter for each patch, Monkey can handle higher resolutions up to 1344x896 pixels, enabling the detailed capture of complex visual information. Secondly, it employs a multi-level description generation method, enriching the context for scene-object associations. This two-part strategy ensures more effective learning from generated data: the higher resolution allows for a more detailed capture of visuals, which in turn enhances the effectiveness of comprehensive descriptions. Extensive ablative results validate the effectiveness of our designs. Additionally, experiments on 18 datasets further demonstrate that Monkey surpasses existing LMMs in many tasks like Image Captioning and various Visual Question Answering formats. Specially, in qualitative tests focused on dense text question answering, Monkey has exhibited encouraging results compared with GPT4V. Code is available at https://github.com/Yuliang-Liu/Monkey.
翻訳日:2024-02-23 18:21:18 公開日:2024-02-22
# 非マルコフ力学下における駆動量子ビットの高次量子同期

Enhanced quantum synchronization of a driven qubit under non-Markovian dynamics ( http://arxiv.org/abs/2311.05664v2 )

ライセンス: Link先を確認
Po-Wen Chen, Chandrashekar Radhakrishnan, Md. Manirul Ali(参考訳) 少数の量子系を同期させることは、深層量子構造における同期を理解する上で基本的な重要性を持つ。 半古典レーザー場によって駆動される2レベル系(量子ビット)の一般非マルコフ散逸環境下での量子位相同期について検討する。 量子ビットの位相選好はフシミQ関数によって示され、この系では極限周期の存在も示される。 シフト位相分布を用いて量子ビットの同期を定量化する。 シフトした位相分布の最大値から、アーノルド舌の量子位相同期ビジのシグネチャを得る。 2種類の異なる量子ビットダイナミクスは、貯水池相関時間が非常に短く、浴槽相関時間が有限である状況によって考慮される。 環境のマルコフ系では、量子ビットの位相選好は長い時間限度で消滅するが、非マルコフ系では長時間の位相定位が持続する。 また、シフト位相分布の最大値を2つの方法でプロットする。 (a)デチューン及びレーザ駆動強度を変化させて、 (b)システムバスカップリングとレーザ駆動強度を変化させる。 様々なシステム環境パラメータが同期領域を決定し、非マルコフ状態において量子位相同期が強化されることを示す。

Synchronizing a few-level quantum system is of fundamental importance to the understanding of synchronization in the deep quantum regime. We investigate quantum phase synchronization of a two-level system (qubit) driven by a semiclassical laser field, in the presence of a general non-Markovian dissipative environment. The phase preference of the qubit is demonstrated through Husimi Q-function, and the existence of a limit cycle is also shown in our system. Synchronization of the qubit is quantified using the shifted phase distribution. The signature of quantum phase synchronization viz the Arnold tongue is obtained from the maximal value of the shifted phase distribution. Two distinct types of qubit dynamics is considered depending on the reservoir correlation time being very short and a situation when bath correlation time is finite. In the Markov regime of the environment, the phase preference of the qubit goes away in the long time limit, whereas the long-time phase localization persists in the non-Markovian regime. We also plot the maximum of the shifted phase distribution in two ways: (a) by varying the detuning and laser driving strength, and (b) by varying the system-bath coupling and laser driving strength. Various system-environment parameters determine the synchronization regions and the qubit phase synchronization is shown to be enhanced in the non-Markov regime.
翻訳日:2024-02-23 18:20:56 公開日:2024-02-22
# 脳シミュレーションと脳インスパイアされたコンピュータによる脳シミュレータ

A differentiable brain simulator bridging brain simulation and brain-inspired computing ( http://arxiv.org/abs/2311.05106v2 )

ライセンス: Link先を確認
Chaoming Wang, Tianqiu Zhang, Sichao He, Hongyaoxing Gu, Shangyang Li, Si Wu(参考訳) 脳シミュレーションは、脳の構造と機能を模倣する動的モデルを構築し、脳にインスパイアされたコンピューティング(BIC)は脳の構造と機能から学習することでインテリジェントなシステムを開発する。 この2つの分野は相互に絡み合っており、お互いの開発を促進する共通のプログラミングフレームワークを共有する必要がある。 従来のブレインシミュレータはトレーニングの差別化性に欠けるが、既存のディープラーニング(dl)フレームワークは生体物理学的現実主義と脳の力学の複雑さを捉えられていないため、この分野の既存のソフトウェアはこの目標を達成できない。 本稿では,JAXとXLAを用いた脳シミュレータBrainPyを紹介し,脳シミュレーションとBICのギャップを埋めることを目的とした。 BrainPyは、柔軟な、効率的な、スケーラブルな脳シミュレーションのための完全な機能を導入することで、強力なAIフレームワークであるJAXの機能を拡張する。 効率的でスケーラブルな脳シミュレーションのためのスパースとイベント駆動演算子、シナプス計算の複雑さを管理するための抽象化、マルチスケールの脳モデルを構築するためのモジュール的で柔軟なインターフェース、そして脳力学のメモリ集約性を扱うオブジェクト指向のジャストインタイムコンパイルアプローチを提供する。 我々は、ベンチマークタスクにおけるBrainPyの効率性とスケーラビリティを示し、生物学的に可塑性スパイクモデルの微分可能なシミュレーションを強調し、脳シミュレーションとBICの交差点における研究を支援する可能性について論じる。

Brain simulation builds dynamical models to mimic the structure and functions of the brain, while brain-inspired computing (BIC) develops intelligent systems by learning from the structure and functions of the brain. The two fields are intertwined and should share a common programming framework to facilitate each other's development. However, none of the existing software in the fields can achieve this goal, because traditional brain simulators lack differentiability for training, while existing deep learning (DL) frameworks fail to capture the biophysical realism and complexity of brain dynamics. In this paper, we introduce BrainPy, a differentiable brain simulator developed using JAX and XLA, with the aim of bridging the gap between brain simulation and BIC. BrainPy expands upon the functionalities of JAX, a powerful AI framework, by introducing complete capabilities for flexible, efficient, and scalable brain simulation. It offers a range of sparse and event-driven operators for efficient and scalable brain simulation, an abstraction for managing the intricacies of synaptic computations, a modular and flexible interface for constructing multi-scale brain models, and an object-oriented just-in-time compilation approach to handle the memory-intensive nature of brain dynamics. We showcase the efficiency and scalability of BrainPy on benchmark tasks, highlight its differentiable simulation for biologically plausible spiking models, and discuss its potential to support research at the intersection of brain simulation and BIC.
翻訳日:2024-02-23 18:20:25 公開日:2024-02-22
# 大言語モデルにおける順序列予測のための共有回路の解釈

Interpreting Shared Circuits for Ordered Sequence Prediction in a Large Language Model ( http://arxiv.org/abs/2311.04131v3 )

ライセンス: Link先を確認
Michael Lan, Fazl Barez(参考訳) トランスフォーマーモデルは言語的タスクに強い能力を示すが、それらの複雑なアーキテクチャは解釈を困難にする。 最近の研究は、トランスフォーマーモデルをアルゴリズム機能を実装する回路と呼ばれる可読表現にリバースエンジニアリングすることを目的としている。 この研究は、桁数、数語数、月数の増加を含む、類似のシーケンス継続タスクの回路の解析と比較によって拡張される。 回路解析手法の適用により、シーケンス部材の検出と次の配列部材の予測に責任を負うキーサブ回路を同定する。 解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存することが明らかとなった。 全体として、共有計算構造の文書化は、モデルの振る舞いのより良い予測、エラーの識別、より安全な編集手順を可能にする。 トランスフォーマーのこの機械的理解は、より堅牢で整合的で解釈可能な言語モデルを構築するための重要なステップである。

While transformer models exhibit strong capabilities on linguistic tasks, their complex architectures make them difficult to interpret. Recent work has aimed to reverse engineer transformer models into human-readable representations called circuits that implement algorithmic functions. We extend this research by analyzing and comparing circuits for similar sequence continuation tasks, which include increasing sequences of digits, number words, and months. Through the application of circuit analysis techniques, we identify key sub-circuits responsible for detecting sequence members and for predicting the next member in a sequence. Our analysis reveals that semantically related sequences rely on shared circuit subgraphs with analogous roles. Overall, documenting shared computational structures enables better prediction of model behaviors, identification of errors, and safer editing procedures. This mechanistic understanding of transformers is a critical step towards building more robust, aligned, and interpretable language models.
翻訳日:2024-02-23 18:19:57 公開日:2024-02-22
# 連続相互作用を有する粒子検出器の非摂動法

Non-perturbative method for particle detectors with continuous interactions ( http://arxiv.org/abs/2311.02174v2 )

ライセンス: Link先を確認
Jos\'e Polo-G\'omez, Eduardo Mart\'in-Mart\'inez(参考訳) デルタカップリングの列からなる検出器スイッチングプロファイルは,連続的なスイッチング関数を含む結果を,単一検出器と複数検出器の両方で効率的に近似する有用な計算ツールであることを示す。 十分な正規スイッチングに対する摂動理論の全ての順序における連続結果への高速収束は、このツールが連続スイッチング関数を持つ一般粒子検出器現象に対する非摂動結果を得るために使用できることを意味する。

We show that detector switching profiles consisting of trains of delta couplings are a useful computational tool to efficiently approximate results involving continuous switching functions, both in setups involving a single detector and multiple ones. The rapid convergence to the continuous results at all orders in perturbation theory for sufficiently regular switchings means that this tool can be used to obtain non-perturbative results for general particle detector phenomena with continuous switching functions.
翻訳日:2024-02-23 18:19:25 公開日:2024-02-22
# インストラクションチューニングのダイナミクス:大規模言語モデルのそれぞれの能力には独自の成長ペースがある

Dynamics of Instruction Tuning: Each Ability of Large Language Models Has Its Own Growth Pace ( http://arxiv.org/abs/2310.19651v2 )

ライセンス: Link先を確認
Chiyu Song, Zhanchao Zhou, Jianhao Yan, Yuejiao Fei, Zhenzhong Lan, Yue Zhang(参考訳) 命令チューニングは、大規模言語モデル(llm)の汎用知性を引き出すための急成長する手法である。 しかし、命令データの作成はいまだにヒューリスティックであり、既存のデータセット間での量と品質に大きな変化をもたらす。 指示数の拡大を提唱する研究もあるが、ごく一部の例が適切であると示唆する研究もある。 データ構築ガイドラインをより深く理解するために、本研究では、データボリューム、パラメータサイズ、データ構築手法が、創造的記述、コード生成、論理的推論などのLCMの基盤となる能力の発達にどのように影響するかを詳細に分析する。 我々は、10の能力にまたがる40万以上のインスタンスを持つ細心の注意深いデータセットを示し、7bから33bのパラメータを持つ命令調整モデルについて検討する。 私たちの研究は3つの主要な発見を明らかにした。 (i)モデル全体の性能はデータとパラメータスケールに結びついているものの、個々の能力はこれらの要因に対する感受性が異なる。 (II)GPT-4の合成データより効率が良く、容積増加とともにモデル性能を常に向上させることができるが、合成データでは達成できない。 (iii)命令データは、ドメイン外評価によって証明されるような強力な相互可能性の一般化をもたらす。 さらに、これらの結果がより効率的なデータ構築を導く方法を示し、2つの公開ベンチマークの性能改善につながった。

Instruction tuning is a burgeoning method to elicit the general intelligence of Large Language Models (LLMs). However, the creation of instruction data is still largely heuristic, leading to significant variation in quantity and quality across existing datasets. While some research advocates for expanding the number of instructions, others suggest that a small set of well-chosen examples is adequate. To better understand data construction guidelines, our research provides a granular analysis of how data volume, parameter size, and data construction methods influence the development of each underlying ability of LLM, such as creative writing, code generation, and logical reasoning. We present a meticulously curated dataset with over 40k instances across ten abilities and examine instruction-tuned models with 7b to 33b parameters. Our study reveals three primary findings: (i) Despite the models' overall performance being tied to data and parameter scale, individual abilities have different sensitivities to these factors. (ii) Human-curated data strongly outperforms synthetic data from GPT-4 in efficiency and can constantly enhance model performance with volume increases, but is unachievable with synthetic data. (iii) Instruction data brings powerful cross-ability generalization, as evidenced by out-of-domain evaluations. Furthermore, we demonstrate how these findings can guide more efficient data constructions, leading to practical performance improvements on two public benchmarks.
翻訳日:2024-02-23 18:18:54 公開日:2024-02-22
# スマートマニュファクチャリングに力を与える産業用モノのインターネット:文献レビュー

Industrial Internet of Things Intelligence Empowering Smart Manufacturing: A Literature Review ( http://arxiv.org/abs/2312.16174v2 )

ライセンス: Link先を確認
Yujiao Hu, Qingmin Jia, Yuao Yao, Yong Lee, Mengjie Lee, Chenyi Wang, Xiaomao Zhou, Renchao Xie, F. Richard Yu(参考訳) 競争の激しいビジネス環境と、ますますパーソナライズされたカスタマイズのニーズが、デジタルトランスフォーメーションと製造業のアップグレードを推進している。 IIoTインテリジェンスは、製造バリューチェーンのさまざまな面で革新的で効率的なソリューションを提供することができ、製造業の変革の道筋を照らす。 IIoTインテリジェンスの体系的なビジョンを提供する時が来た。 しかし、既存の調査はしばしばiiotインテリジェンスの特定の領域に焦点を当てており、研究者や読者は、ある方向の研究がiiotインテリジェンスの開発にとって最も重要なものであると信じながら、他の方向からの貢献を無視している。 そこで本稿では,IIoTインテリジェンスの概要を概観する。 まず、製造転換の不可避性を詳細に分析し、中国の企業の実践から成功した経験について研究する。 次に、IIoTインテリジェンスの定義を示し、ファクテンション、オペレーション、デプロイメント、アプリケーションといった業界におけるIIoTインテリジェンスの価値を示します。 その後,5層からなるIIoTインテリジェンスのための階層型開発アーキテクチャを提案する。 各層における技術的アップグレードの実践的価値は、灯台工場をよく見てみるとわかる。 その後、製造の転換を加速する7種類の技術を特定し、その貢献を明らかにする。 製造におけるIIoTインテリジェンスの採用による倫理的影響と環境への影響も分析した。 最後に,オープンな課題と開発動向を4つの側面から探り,今後の研究を刺激する。

The fiercely competitive business environment and increasingly personalized customization needs are driving the digital transformation and upgrading of the manufacturing industry. IIoT intelligence, which can provide innovative and efficient solutions for various aspects of the manufacturing value chain, illuminates the path of transformation for the manufacturing industry. It's time to provide a systematic vision of IIoT intelligence. However, existing surveys often focus on specific areas of IIoT intelligence, leading researchers and readers to have biases in their understanding of IIoT intelligence, that is, believing that research in one direction is the most important for the development of IIoT intelligence, while ignoring contributions from other directions. Therefore, this paper provides a comprehensive overview of IIoT intelligence. We first conduct an in-depth analysis of the inevitability of manufacturing transformation and study the successful experiences from the practices of Chinese enterprises. Then we give our definition of IIoT intelligence and demonstrate the value of IIoT intelligence for industries in fucntions, operations, deployments, and application. Afterwards, we propose a hierarchical development architecture for IIoT intelligence, which consists of five layers. The practical values of technical upgrades at each layer are illustrated by a close look on lighthouse factories. Following that, we identify seven kinds of technologies that accelerate the transformation of manufacturing, and clarify their contributions. The ethical implications and environmental impacts of adopting IIoT intelligence in manufacturing are analyzed as well. Finally, we explore the open challenges and development trends from four aspects to inspire future researches.
翻訳日:2024-02-23 18:13:56 公開日:2024-02-22
# プライバシー保護型ニューラルグラフデータベース

Privacy-Preserving Neural Graph Databases ( http://arxiv.org/abs/2312.15591v3 )

ライセンス: Link先を確認
Qi Hu, Haoran Li, Jiaxin Bai, Zihao Wang, Yangqiu Song(参考訳) 大規模言語モデル (LLM) の時代には, ドメイン固有データやプライベートデータを用いた検索拡張(RAG)において, 効率的かつ正確なデータ検索がますます重要になっている。 グラフデータベース(GDB)は、グラフデータベース(GDB)とニューラルネットワークの強みを組み合わせた強力なパラダイムとして登場し、LLMで適応的にトレーニング可能なグラフ構造化データの効率的な保存、検索、分析を可能にしている。 neural embedded storage と complex neural logical query answering (cqa) を使用することで、ngdb は一般化が可能となる。 グラフが不完全である場合、潜在パターンと表現を抽出することにより、ニューラルネットワークはグラフ構造のギャップを埋め、隠れた関係を明らかにし、正確なクエリ応答を可能にする。 それにもかかわらず、この機能はドメイン固有またはプライベートデータベースにさらなるプライバシーリスクをもたらすため、固有のトレードオフを伴う。 悪意のある攻撃者は、1950年以前のチューリング賞の受賞者が1940年以降に生まれ、チューリング賞の受賞者の居住地がおそらく露出する可能性があるが、プライバシー上の懸念から、居住地がトレーニング段階で削除された可能性があるという回答セットから、データベース内のより繊細な情報を推測することができる。 本研究では,NGDBにおけるプライバシリークのリスクを軽減するために,プライバシ保存型ニューラルグラフデータベース(P-NGDB)フレームワークを提案する。 学習段階では,複数の無意味な問合せを組み合わせることで,機密情報の推測の困難さを増大させるため,ngdbsに識別不能な回答を生成するよう強制する。

In the era of large language models (LLMs), efficient and accurate data retrieval has become increasingly crucial for the use of domain-specific or private data in the retrieval augmented generation (RAG). Neural graph databases (NGDBs) have emerged as a powerful paradigm that combines the strengths of graph databases (GDBs) and neural networks to enable efficient storage, retrieval, and analysis of graph-structured data which can be adaptively trained with LLMs. The usage of neural embedding storage and Complex neural logical Query Answering (CQA) provides NGDBs with generalization ability. When the graph is incomplete, by extracting latent patterns and representations, neural graph databases can fill gaps in the graph structure, revealing hidden relationships and enabling accurate query answering. Nevertheless, this capability comes with inherent trade-offs, as it introduces additional privacy risks to the domain-specific or private databases. Malicious attackers can infer more sensitive information in the database using well-designed queries such as from the answer sets of where Turing Award winners born before 1950 and after 1940 lived, the living places of Turing Award winner Hinton are probably exposed, although the living places may have been deleted in the training stage due to the privacy concerns. In this work, we propose a privacy-preserved neural graph database (P-NGDB) framework to alleviate the risks of privacy leakage in NGDBs. We introduce adversarial training techniques in the training stage to enforce the NGDBs to generate indistinguishable answers when queried with private information, enhancing the difficulty of inferring sensitive information through combinations of multiple innocuous queries.
翻訳日:2024-02-23 18:13:33 公開日:2024-02-22
# LLMエージェントは社会行動を抑制するか?

Do LLM Agents Exhibit Social Behavior? ( http://arxiv.org/abs/2312.15198v2 )

ライセンス: Link先を確認
Yan Leng, Yuan Yuan(参考訳) 大規模言語モデル(llm)の進歩は、学術研究と実用的な応用の両方においてその有用性を拡大している。 最近の社会科学研究は、複雑な社会システムをシミュレートし、実験中に人体を置換する「ブラックボックス」のLLMエージェントの使用を探求している。 本研究は, LLMが社会学習, 社会的嗜好, 協調行動(間接的相互性)といった社会的相互作用の原理が, 人間や他のエージェントとの相互作用においてどの程度重要かを調べることを目的とする。 本研究の枠組みは,人体を用いた古典的な実験室実験をLLM剤の使用に適応させるものである。 このアプローチには、人間の認知過程を反映するステップバイステップの推論と、LLMの自然選好を評価するゼロショット学習が含まれる。 LLMエージェントの挙動分析には, 一次効果と基礎メカニズムの詳細な検討の両方が含まれる。 GPT-4に着目して, LLMエージェントは, 分布的・相互性選好, グループアイデンティティへの応答性, 間接的相互性への関与, 社会学習能力など, 多様な社会的行動を示すと考えられる。 しかし、我々の分析は顕著な違いも示している: LLMは明らかに公正な好みを示し、正の相反性が弱く、社会学習において人間に比べてより計算的なアプローチを示す。 これらの知見は、LLMが実験室実験やエージェントベースモデリングなどの社会科学研究への応用に大いに貢献する一方で、LLMエージェントと人間の微妙な行動の違いがさらなる調査を保証していることを示している。 これらのモデルを直接適用して人間の行動をエミュレートする前に、llmの社会的行動を評価するプロトコルの慎重に検討と開発が必要である。

The advances of Large Language Models (LLMs) are expanding their utility in both academic research and practical applications. Recent social science research has explored the use of these ``black-box'' LLM agents for simulating complex social systems and potentially substituting human subjects in experiments. Our study delves into this emerging domain, investigating the extent to which LLMs exhibit key social interaction principles, such as social learning, social preference, and cooperative behavior (indirect reciprocity), in their interactions with humans and other agents. We develop a framework for our study, wherein classical laboratory experiments involving human subjects are adapted to use LLM agents. This approach involves step-by-step reasoning that mirrors human cognitive processes and zero-shot learning to assess the innate preferences of LLMs. Our analysis of LLM agents' behavior includes both the primary effects and an in-depth examination of the underlying mechanisms. Focusing on GPT-4, our analyses suggest that LLM agents appear to exhibit a range of human-like social behaviors such as distributional and reciprocity preferences, responsiveness to group identity cues, engagement in indirect reciprocity, and social learning capabilities. However, our analysis also reveals notable differences: LLMs demonstrate a pronounced fairness preference, weaker positive reciprocity, and a more calculating approach in social learning compared to humans. These insights indicate that while LLMs hold great promise for applications in social science research, such as in laboratory experiments and agent-based modeling, the subtle behavioral differences between LLM agents and humans warrant further investigation. Careful examination and development of protocols in evaluating the social behaviors of LLMs are necessary before directly applying these models to emulate human behavior.
翻訳日:2024-02-23 18:13:06 公開日:2024-02-22
# クロスコヴァリエートな歩行認識:ベンチマーク

Cross-Covariate Gait Recognition: A Benchmark ( http://arxiv.org/abs/2312.14404v3 )

ライセンス: Link先を確認
Shinan Zou, Chao Fan, Jianbo Xiong, Chuanfu Shen, Shiqi Yu, Jin Tang(参考訳) 歩行データセットは歩行研究に不可欠である。 しかし,本研究では,従来の制約付きデータセットや新興実世界のデータセットが,共変量多様性に関して不足していることを示す。 このギャップを埋めるため、私たちは、CCGRデータセットの収集に20ヶ月の懸命な努力を払っています。 CCGRデータセットには970人の被験者と約1.6万のシーケンスがあり、ほぼすべての被験者は33のビューと53の異なる共変体を持っている。 既存のデータセットと比較すると、CCGRは個体数と個体レベルの多様性の両方を持っている。 さらに、ビューとコ変数はよくラベル付けされ、異なる要因の影響を分析することができる。 CCGRは、RGB、パース、シルエット、ポーズなど、さまざまな種類の歩行データを提供し、研究者に探索のための包括的なリソースを提供する。 本稿では,新たに提案する解析データを用いて,多変量歩行認識に深く取り組むために,解析に基づく歩行認識(parsinggait)を提案する。 我々は広範な実験を行った。 私たちの主な結果は以下のとおりです。 1) 歩行認識の実用的応用において, クロスコヴァリエートが重要な課題として出現する。 2)ParsingGaitは,さらなる進歩の可能性を示す。 3)既存のSOTA法はCCGRで43%未満の精度を達成し,クロスコバルト歩行認識の緊急性を強調した。 リンク: https://github.com/shinanzou/ccgr。

Gait datasets are essential for gait research. However, this paper observes that present benchmarks, whether conventional constrained or emerging real-world datasets, fall short regarding covariate diversity. To bridge this gap, we undertake an arduous 20-month effort to collect a cross-covariate gait recognition (CCGR) dataset. The CCGR dataset has 970 subjects and about 1.6 million sequences; almost every subject has 33 views and 53 different covariates. Compared to existing datasets, CCGR has both population and individual-level diversity. In addition, the views and covariates are well labeled, enabling the analysis of the effects of different factors. CCGR provides multiple types of gait data, including RGB, parsing, silhouette, and pose, offering researchers a comprehensive resource for exploration. In order to delve deeper into addressing cross-covariate gait recognition, we propose parsing-based gait recognition (ParsingGait) by utilizing the newly proposed parsing data. We have conducted extensive experiments. Our main results show: 1) Cross-covariate emerges as a pivotal challenge for practical applications of gait recognition. 2) ParsingGait demonstrates remarkable potential for further advancement. 3) Alarmingly, existing SOTA methods achieve less than 43% accuracy on the CCGR, highlighting the urgency of exploring cross-covariate gait recognition. Link: https://github.com/ShinanZou/CCGR.
翻訳日:2024-02-23 18:12:35 公開日:2024-02-22
# オービタルホール絶縁体におけるオービタルホール導電率の逆転と可変トポロジカル量子状態の発生

Reversal of Orbital Hall Conductivity and Emergence of Tunable Topological Quantum States in Orbital Hall Insulator ( http://arxiv.org/abs/2312.14181v2 )

ライセンス: Link先を確認
Shilei Ji, Chuye Quan, Ruijia Yao, Jianping Yang, Xing'ao Li(参考訳) 最近の知見は、軌道角運動量(OAM)が、軌道ホール絶縁体における軌道チャーン数によって特徴づけられる固有軌道ホール効果(OHE)を誘導する能力を持っていることを示している。 量子異常ホール絶縁体のスピン偏極チャネルとは異なり、OAMはバレーロックされており、対応するエッジ状態を操作する上での課題となっている。 ここでは、yk \cdot p$モデルと第一原理計算を組み合わせることで、ひずみ工学を通して符号反転軌道チャーン数を示す。 ひずみの操作下では、電子構造における軌道寄与と整合して、原子価帯から伝導帯への非零OAMの移動を観察する。 我々は、OAMを持つ電子とホールが反対軌道を示し、軌道のホール伝導率が逆転することを明らかにした。 さらに,符号可逆 OHE 間の位相量子状態について検討する。

Recent findings indicate that orbital angular momentum (OAM) has the capability to induce the intrinsic orbital Hall effect (OHE), which is characterized by orbital Chern number in the orbital Hall insulator. Unlike the spin-polarized channel in Quantum anomalous Hall insulator, the OAM is valley-locked, posing challenges in manipulating the corresponding edge state. Here we demonstrate the sign-reversal orbital Chern number through strain engineering by combing the $k \cdot p$ model and first-principles calculation. Under the manipulation of strain, we observe the transfer of non-zero OAM from the valence band to the conduction band, aligning with the orbital contribution in the electronic structure. Our investigation reveals that electrons and holes with OAM exhibit opposing trajectories, resulting in a reversal of the orbital Hall conductivity. Furthermore, we explore the topological quantum state between the sign-reversible OHE.
翻訳日:2024-02-23 18:12:11 公開日:2024-02-22
# 科学研究におけるAI導入と活用の要因と障壁

Drivers and Barriers of AI Adoption and Use in Scientific Research ( http://arxiv.org/abs/2312.09843v2 )

ライセンス: Link先を確認
Stefano Bianchini, Moritz M\"uller and Pierre Pelletier(参考訳) 新しい技術は科学に革命をもたらす力を持っている。 これは過去にも起きており、人工知能や機械学習といった新しい計算ツールの出現と共に再び起こっている。 これらの技術の影響は文書化されているが、科学コミュニティにおける採用プロセスを理解する上では大きなギャップがある。 本稿では、科学者の人的資本と協力者と機関のネットワーク内で利用可能な外部資源に着目し、科学研究におけるaiの統合を研究するための科学的・技術的人的資本の理論について述べる。 私たちは、1980年から2020年までのすべての科学をカバーし、OpenAlexからの大量の出版物に関する仮説を検証し、AIの採用と科学における利用の鍵となる要因と阻害剤を特定します。 我々の結果は、AIは「探索のための味」を持つドメイン科学者によって開拓され、コンピュータ科学者、経験豊富なAI科学者、アーリーケア研究者のネットワークに埋め込まれていることを示唆している。 計算資源へのアクセスは、化学や医学などのいくつかの科学分野においてのみ重要である。 AIが研究に統合されると、ほとんどの採用要因がその後の再利用に影響を与える。 AIによる発見の進化期における科学の組織化と管理の意味について論じる。

New technologies have the power to revolutionize science. It has happened in the past and is happening again with the emergence of new computational tools, such as artificial intelligence and machine learning. Despite the documented impact of these technologies, there remains a significant gap in understanding the process of their adoption within the scientific community. In this paper, we draw on theories of scientific and technical human capital to study the integration of AI in scientific research, focusing on the human capital of scientists and the external resources available within their network of collaborators and institutions. We validate our hypotheses on a large sample of publications from OpenAlex, covering all sciences from 1980 to 2020, and identify a set key drivers and inhibitors of AI adoption and use in science. Our results suggest that AI is pioneered by domain scientists with a `taste for exploration' and who are embedded in a network rich of computer scientists, experienced AI scientists and early-career researchers; they come from institutions with high citation impact and a relatively strong publication history on AI. The access to computing resources only matters for a few scientific disciplines, such as chemistry and medical sciences. Once AI is integrated into research, most adoption factors continue to influence its subsequent reuse. Implications for the organization and management of science in the evolving era of AI-driven discovery are discussed.
翻訳日:2024-02-23 18:11:53 公開日:2024-02-22
# 報酬源としての視覚言語モデル

Vision-Language Models as a Source of Rewards ( http://arxiv.org/abs/2312.09187v2 )

ライセンス: Link先を確認
Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rockt\"aschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang(参考訳) 豊かなオープンエンド環境で多くの目標を達成できる汎用エージェントの構築は、強化学習のための研究フロンティアの1つである。 RLを用いた一般エージェント構築の鍵となる制限要因は、異なる目標を達成するために多数の報酬関数が必要であることである。 本研究は,市販の視覚言語モデル(vlms)を強化学習エージェントの報酬源として利用する可能性を検討する。 様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。 このアプローチを2つの異なる視覚領域で示し、より大きなVLMが視覚目標達成に対してより正確な報酬をもたらすかを示すスケーリング傾向を示し、それによってより有能なRLエージェントを生成する。

Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents.
翻訳日:2024-02-23 18:11:34 公開日:2024-02-22
# MaxK-GNN: グラフニューラルネットワーク学習の高速化のための理論的速度限界を目指して

MaxK-GNN: Towards Theoretical Speed Limits for Accelerating Graph Neural Networks Training ( http://arxiv.org/abs/2312.08656v3 )

ライセンス: Link先を確認
Hongwu Peng, Xi Xie, Kaustubh Shivdikar, MD Amit Hasan, Jiahui Zhao, Shaoyi Huang, Omer Khan, David Kaeli, Caiwen Ding(参考訳) ディープニューラルネットワークトレーニングの加速において、GPUは主流のプラットフォームになった。 GPUは、ワークロードの不均衡やメモリアクセスの不規則など、GNNに重大な課題に直面し、未使用のハードウェアに繋がる。 PyG、cuSPARSEを使ったDGL、GNNAdvisorフレームワークといった既存のソリューションは、これらの課題に部分的に対処するが、メモリトラフィックは依然として重要である。 我々は、高速化最適化を「後考」として扱うのではなく、アルゴリズムとシステム革新の垂直最適化によってのみ、劇的な性能改善が達成できると主張している。 (i)GNNアルゴリズムを与えられたり、加速器を設計したり、 (ii)gnnアルゴリズムを最適化したハードウェアが与えられた。 本稿では,アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。 (i)MaxK非線形性を導入し、MaxK非線形性を普遍近似として理論的解析し、非線形性後の特徴行列のデータとインデックスを保存するために設計されたCompressed Balanced Sparse Row(CBSR)フォーマットを示す。 (II)入力特徴量取得と共有メモリにおけるスパース出力蓄積バッファの戦略的配置にCBSRを用いた行ワイズ製品ベースSpGEMMカーネルを用いたコーデッシング強化フォワード計算を設計する。 (iii)外部製品ベースおよびsspmmカーネルを用いた最適化後向き計算を開発した。 我々はMaxK-GNNを広範囲に評価し、エンドツーエンドのシステム実行状況を報告する。 実験により、maxk-gnnシステムはamdahlの法則に従って理論的なスピードアップ限界に近づくことができた。 我々はSOTA GNNに匹敵する精度を達成したが、DGLやGNNAdvisorの実装と比較して、Redditの3.22/4.24倍のスピードアップ(理論上の制限は5.52/7.27倍)を実現した。

In the acceleration of deep neural network training, the GPU has become the mainstream platform. GPUs face substantial challenges on GNNs, such as workload imbalance and memory access irregularities, leading to underutilized hardware. Existing solutions such as PyG, DGL with cuSPARSE, and GNNAdvisor frameworks partially address these challenges but memory traffic is still significant. We argue that drastic performance improvements can only be achieved by the vertical optimization of algorithm and system innovations, rather than treating the speedup optimization as an "after-thought" (i.e., (i) given a GNN algorithm, designing an accelerator, or (ii) given hardware, mainly optimizing the GNN algorithm). In this paper, we present MaxK-GNN, an advanced high-performance GPU training system integrating algorithm and system innovation. (i) We introduce the MaxK nonlinearity and provide a theoretical analysis of MaxK nonlinearity as a universal approximator, and present the Compressed Balanced Sparse Row (CBSR) format, designed to store the data and index of the feature matrix after nonlinearity; (ii) We design a coalescing enhanced forward computation with row-wise product-based SpGEMM Kernel using CBSR for input feature matrix fetching and strategic placement of a sparse output accumulation buffer in shared memory; (iii) We develop an optimized backward computation with outer product-based and SSpMM Kernel. We conduct extensive evaluations of MaxK-GNN and report the end-to-end system run-time. Experiments show that MaxK-GNN system could approach the theoretical speedup limit according to Amdahl's law. We achieve comparable accuracy to SOTA GNNs, but at a significantly increased speed: 3.22/4.24 times speedup (vs. theoretical limits, 5.52/7.27 times) on Reddit compared to DGL and GNNAdvisor implementations.
翻訳日:2024-02-23 18:11:20 公開日:2024-02-22
# AesFA: 美的特徴を意識した任意型ニューラルネットワーク

AesFA: An Aesthetic Feature-Aware Arbitrary Neural Style Transfer ( http://arxiv.org/abs/2312.05928v3 )

ライセンス: Link先を確認
Joonwoo Kwon, Sooyoung Kim, Yuewei Lin, Shinjae Yoo, Jiook Cha(参考訳) ニューラルスタイル転送(NST)は近年大きく進歩している。 しかし、その急速な進歩と進歩にもかかわらず、既存のNST手法は、あるスタイルから美的情報を効果的に伝達するのに苦労するか、あるいは事前訓練されたモデルの使用による特徴のゆがみに高い計算コストと非効率に苦しむかのいずれかである。 この研究は軽量だが効果的なモデルであるAesFA -- Aesthetic Feature-Aware NSTを提案する。 主なアイデアは、モデル全体をエンドツーエンドでトレーニングしながら、その周波数でイメージを分解し、参照画像から審美的なスタイルを分離し、推論時に事前訓練されたモデルを完全に排除することである。 ネットワークがより明確な表現を抽出し、スタイライズ品質をさらに向上する能力を向上させるため、本研究では、新しい美的特徴であるコントラッシブ・ロスを導入する。 大規模な実験と改善は、最近のNST法をスタイリング品質で上回るだけでなく、より高速な推論も達成していることを示している。 コードはhttps://github.com/Sooyyoungg/AesFAで入手できる。

Neural style transfer (NST) has evolved significantly in recent years. Yet, despite its rapid progress and advancement, existing NST methods either struggle to transfer aesthetic information from a style effectively or suffer from high computational costs and inefficiencies in feature disentanglement due to using pre-trained models. This work proposes a lightweight but effective model, AesFA -- Aesthetic Feature-Aware NST. The primary idea is to decompose the image via its frequencies to better disentangle aesthetic styles from the reference image while training the entire model in an end-to-end manner to exclude pre-trained models at inference completely. To improve the network's ability to extract more distinct representations and further enhance the stylization quality, this work introduces a new aesthetic feature: contrastive loss. Extensive experiments and ablations show the approach not only outperforms recent NST methods in terms of stylization quality, but it also achieves faster inference. Codes are available at https://github.com/Sooyyoungg/AesFA.
翻訳日:2024-02-23 18:10:48 公開日:2024-02-22
# Anomaly Diffusion:拡散モデルを用いたFew-Shot Anomaly Image Generation

AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model ( http://arxiv.org/abs/2312.05767v2 )

ライセンス: Link先を確認
Teng Hu, Jiangning Zhang, Ran Yi, Yuzhen Du, Xu Chen, Liang Liu, Yabiao Wang, Chengjie Wang(参考訳) 異常検査は工業生産において重要な役割を果たす。 既存の異常検査手法は、異常データ不足のため性能に制限がある。 異常発生法は異常データを強化するために提案されているが、生成した異常とマスクの間の不正確さや不正確さに苦しむかのどちらかである。 そこで本研究では, 大規模データセットから学習した潜在拡散モデルの強い先行情報を利用して, マイノリティトレーニングデータに基づく生成信頼性を向上させる, 新たな拡散型少数ショット異常生成モデルであるanomalydiffusionを提案する。 まず、学習可能な異常埋め込みと、異常マスクから符号化された空間埋め込みからなり、異常情報を異常な外観と位置情報に切り離す空間異常埋め込みを提案する。 さらに, 生成した異常と異常マスクとの整合性を改善するために, 適応的注意再重み付け機構を導入する。 生成した異常画像と正常なサンプルとの差に基づいて、モデルを動的に誘導し、あまり目立たない生成異常の領域に焦点を合わせることにより、正確に一致した異常画像・マスク対を生成することができる。 広範な実験により,本モデルが実効性と多様性において最先端手法を著しく上回り,下流異常検査タスクの性能を効果的に向上することを示した。 コードとデータはhttps://github.com/sjtuplayer/anomalydiffusionで入手できる。

Anomaly inspection plays an important role in industrial manufacture. Existing anomaly inspection methods are limited in their performance due to insufficient anomaly data. Although anomaly generation methods have been proposed to augment the anomaly data, they either suffer from poor generation authenticity or inaccurate alignment between the generated anomalies and masks. To address the above problems, we propose AnomalyDiffusion, a novel diffusion-based few-shot anomaly generation model, which utilizes the strong prior information of latent diffusion model learned from large-scale dataset to enhance the generation authenticity under few-shot training data. Firstly, we propose Spatial Anomaly Embedding, which consists of a learnable anomaly embedding and a spatial embedding encoded from an anomaly mask, disentangling the anomaly information into anomaly appearance and location information. Moreover, to improve the alignment between the generated anomalies and the anomaly masks, we introduce a novel Adaptive Attention Re-weighting Mechanism. Based on the disparities between the generated anomaly image and normal sample, it dynamically guides the model to focus more on the areas with less noticeable generated anomalies, enabling generation of accurately-matched anomalous image-mask pairs. Extensive experiments demonstrate that our model significantly outperforms the state-of-the-art methods in generation authenticity and diversity, and effectively improves the performance of downstream anomaly inspection tasks. The code and data are available in https://github.com/sjtuplayer/anomalydiffusion.
翻訳日:2024-02-23 18:10:26 公開日:2024-02-22
# SparQ注意:バンド幅効率のLLM推論

SparQ Attention: Bandwidth-Efficient LLM Inference ( http://arxiv.org/abs/2312.04985v2 )

ライセンス: Link先を確認
Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr(参考訳) 生成型大言語モデル(llm)は多くの新しい可能性を開いたが、その重要な計算要件のため、ユビキタスな使用は依然として困難である。 最も有用なアプリケーションでは、大量のサンプルを一度に処理し、長いコンテキストを使用する必要があり、どちらもモデルのメモリ通信負荷を大幅に増加させる。 キャッシュ履歴を選択的にフェッチすることで,アテンションブロック内のメモリ帯域幅要件を削減し,llmのスループットを向上させる手法であるsparq attentionを導入する。 提案手法は,プレトレーニング設定や追加の微調整を必要とせずに,市販のLCMに直接適用することができる。 本稿では,Llama 2 と Pythia のモデルを下流タスクで評価することにより,SparQ Attention が精度を損なうことなく,注目メモリの帯域幅を最大 8 倍まで削減できることを示す。

Generative large language models (LLMs) have opened up numerous novel possibilities, but due to their significant computational requirements their ubiquitous use remains challenging. Some of the most useful applications require processing large numbers of samples at a time and using long contexts, both significantly increasing the memory communication load of the models. We introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by reducing the memory bandwidth requirements within the attention blocks through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show how SparQ Attention can decrease the attention memory bandwidth requirements up to eight times without any loss in accuracy by evaluating Llama 2 and Pythia models on a wide range of downstream tasks.
翻訳日:2024-02-23 18:10:00 公開日:2024-02-22
# 温度エンハンス臨界量子メソロジー

Temperature-Enhanced Critical Quantum Metrology ( http://arxiv.org/abs/2312.04176v2 )

ライセンス: Link先を確認
Laurin Ostermann and Karol Gietka(参考訳) 臨界量子メソロジープロトコルの性能は、直観的にも有限温度で向上できることを示した。 我々は、ハミルトニアン、リプキン-メシュコフ-グリックモデル、およびパラダイム的イジングモデルを考える。 量子フィッシャー情報の温度向上は, 臨界状態の断熱的準備と, 臨界点近傍の直接的準備によって達成できることを示す。 また、パラメータ推定感度を高めるために有限温度を活用できる比較的単純な非最適測定法も見いだした。 したがって、温度は臨界量子メソロジーの資源と見なすことができる。

We show that the performance of critical quantum metrology protocols, counter-intuitively, can be enhanced by finite temperature. We consider a toy-model squeezing Hamiltonian, the Lipkin-Meshkov-Glick model and the paradigmatic Ising model. We show that the temperature enhancement of the quantum Fisher information can be achieved by adiabatic preparation of the critical state and by preparing it directly in the proximity of the critical point. We also find a relatively simple, however, non-optimal measurement capable of harnessing finite temperature to increase the parameter estimation sensitivity. Therefore, we argue that temperature can be considered as a resource in critical quantum metrology.
翻訳日:2024-02-23 18:09:41 公開日:2024-02-22
# グラフ上でのマルチタスク事前学習とプロンプトのためのマルチgprompt

MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs ( http://arxiv.org/abs/2312.03731v6 )

ライセンス: Link先を確認
Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang(参考訳) グラフは本質的にWeb上の相互接続オブジェクトをモデル化することができ、Web分析やコンテントレコメンデーションといった一連のWebアプリケーションを容易にします。 近年,グラフ表現学習の主流技術としてグラフニューラルネットワーク(GNN)が登場している。 しかし、エンドツーエンドの監視フレームワークでの有効性は、タスク固有のラベルの可用性にかなり関係しています。 ラベリングコストを軽減し、数ショット設定で堅牢性を高めるため、自己指導型タスクの事前訓練が有望な方法として現れ、プリテキストと下流タスクの客観的ギャップをさらに狭めるためのプロンプトが提案されている。 グラフ上でのプロンプトベース学習の初期調査はあったが、それらは主に単一のプリテキストタスクを活用し、事前学習データから学べる一般的な知識のサブセットが限られている。 そこで本稿では,マルチタスク事前学習およびプロンプトフレームワークであるmultigpromptを提案する。 まず、事前学習において、複数のプリテキストタスクを相乗化するためのプリテキストトークンセットを設計する。 第2に,タスク固有の,グローバルな事前学習知識を活用するためのオープンプロンプトとオープンプロンプトから構成されたデュアルプロンプト機構を提案する。 最後に、MultiGPromptの評価と分析を行うために、6つの公開データセットに関する広範な実験を行う。

Graphs can inherently model interconnected objects on the Web, thereby facilitating a series of Web applications, such as web analyzing and content recommendation. Recently, Graph Neural Networks (GNNs) have emerged as a mainstream technique for graph representation learning. However, their efficacy within an end-to-end supervised framework is significantly tied to the availabilityof task-specific labels. To mitigate labeling costs and enhance robustness in few-shot settings, pre-training on self-supervised tasks has emerged as a promising method, while prompting has been proposed to further narrow the objective gap between pretext and downstream tasks. Although there has been some initial exploration of prompt-based learning on graphs, they primarily leverage a single pretext task, resulting in a limited subset of general knowledge that could be learned from the pre-training data. Hence, in this paper, we propose MultiGPrompt, a novel multi-task pre-training and prompting framework to exploit multiple pretext tasks for more comprehensive pre-trained knowledge. First, in pre-training, we design a set of pretext tokens to synergize multiple pretext tasks. Second, we propose a dual-prompt mechanism consisting of composed and open prompts to leverage task-specific and global pre-training knowledge, to guide downstream tasks in few-shot settings. Finally, we conduct extensive experiments on six public datasets to evaluate and analyze MultiGPrompt.
翻訳日:2024-02-23 18:09:32 公開日:2024-02-22
# 顔理解のためのBeta Divergenceを用いた変分自己監督型コントラスト学習

Variational Self-Supervised Contrastive Learning Using Beta Divergence For Face Understanding ( http://arxiv.org/abs/2312.00824v2 )

ライセンス: Link先を確認
Mehmet Can Yavuz and Berrin Yanikoglu(参考訳) ラベルなしおよびノイズの多いデータを用いた識別意味空間の学習は、マルチラベル設定では未適応のままである。 本稿では,データノイズに対して頑健な自己教師付き学習手法を提案する。 この方法(vcl)は、変分コントラスト学習とベータダイバージェンスを用いて、未修正データセットやノイズデータセットを含むラベルなしデータセットからロバストに学習する。 顔理解領域における多ラベルデータセットを用いた線形評価と微調整シナリオを含む厳密な実験により,提案手法の有効性を実証する。 ほぼすべてのテストシナリオにおいて、vclは最先端の自己監視メソッドのパフォーマンスを上回り、注目すべき精度向上を達成している。

Learning a discriminative semantic space using unlabelled and noisy data remains unaddressed in a multi-label setting. We present a contrastive self-supervised learning method which is robust to data noise, grounded in the domain of variational methods. The method (VCL) utilizes variational contrastive learning with beta-divergence to learn robustly from unlabelled datasets, including uncurated and noisy datasets. We demonstrate the effectiveness of the proposed method through rigorous experiments including linear evaluation and fine-tuning scenarios with multi-label datasets in the face understanding domain. In almost all tested scenarios, VCL surpasses the performance of state-of-the-art self-supervised methods, achieving a noteworthy increase in accuracy.
翻訳日:2024-02-23 18:08:44 公開日:2024-02-22
# 理解から利用へ:大規模言語モデルの説明可能性に関する調査

From Understanding to Utilization: A Survey on Explainability for Large Language Models ( http://arxiv.org/abs/2401.12874v2 )

ライセンス: Link先を確認
Haoyan Luo, Lucia Specia(参考訳) 大規模言語モデルの説明可能性(LLM)は、自然言語処理の批判的かつ挑戦的な側面である。 LLMは多様なアプリケーションにとってますます不可欠なものになっているため、それらの「ブラックボックス」の性質は透明性と倫理的利用に関する重要な懸念を喚起する。 本調査は, LLMにおける説明可能性の向上を示唆し, これらのモデルを理解するための説明可能性研究と様々な方法論, 課題について考察する。 我々は主にllamaファミリーのような事前学習されたトランスフォーマベースのllmに焦点をあてている。 既存の手法では,説明目的に基づいて局所的およびグローバル的分析に分類する。 説明可能性の活用を考えると,モデル編集,制御生成,モデルの強化に焦点を当てた説得力のある手法がいくつか検討される。 さらに,代表的評価指標とデータセットについて検討し,その利点と限界を明らかにする。 我々のゴールは、理論的および経験的理解を実践的実装と整合させ、説明技法のエキサイティングな道とそのLLM時代の応用を提案することである。

Explainability for Large Language Models (LLMs) is a critical yet challenging aspect of natural language processing. As LLMs are increasingly integral to diverse applications, their "black-box" nature sparks significant concerns regarding transparency and ethical use. This survey underscores the imperative for increased explainability in LLMs, delving into both the research on explainability and the various methodologies and tasks that utilize an understanding of these models. Our focus is primarily on pre-trained Transformer-based LLMs, such as LLaMA family, which pose distinctive interpretability challenges due to their scale and complexity. In terms of existing methods, we classify them into local and global analyses, based on their explanatory objectives. When considering the utilization of explainability, we explore several compelling methods that concentrate on model editing, control generation, and model enhancement. Additionally, we examine representative evaluation metrics and datasets, elucidating their advantages and limitations. Our goal is to reconcile theoretical and empirical understanding with practical implementation, proposing exciting avenues for explanatory techniques and their applications in the LLMs era.
翻訳日:2024-02-23 18:05:00 公開日:2024-02-22
# 人間のフィードバックによる機械翻訳の改善:報酬モデルとしての質推定の検討

Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model ( http://arxiv.org/abs/2401.12873v2 )

ライセンス: Link先を確認
Zhiwei He, Xing Wang, Wenxiang Jiao, Zhuosheng Zhang, Rui Wang, Shuming Shi, Zhaopeng Tu(参考訳) 報酬モデルにおける人間の嗜好の不十分なモデリングは、人間のフィードバックを活用して翻訳品質を向上させる上で大きな障害となる。 幸いなことに、ある翻訳の品質を基準なしに予測する品質評価(QE)は、過去2年間に人間の評価と顕著に一致している。 本研究では,QEモデルを報酬モデル(QEに基づく報酬モデル)として活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性を検討する。 まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で報酬の増加が示す過度な最適化問題を同定した。 この問題を検証し,QEモデルの脆弱性は誤訳に対して高い報奨を与える可能性があり,過度な最適化と誤りの伝播をもたらすと論じる。 この問題に対処するために,ヒューリスティックなルールを用いて誤訳を検出し,検出された誤訳に対するQEに基づく報酬にペナルティ項を割り当てる,単純で効果的な手法を採用する。 実験結果から,提案するqeに基づくフィードバック訓練は,様々な設定において一貫した有意な改善が得られ,さらに人間の選好研究によって検証された。 その後の研究では,QEに基づくフィードバックトレーニングの高効率性を示す。少数の単言語データを用いた提案手法は,より大きな並列コーパスを用いたシステムよりも優れた性能を示す。 私たちのコードは、https://github.com/zwhe99/feedbackmtで利用可能です。

Insufficient modeling of human preferences within the reward model is a major obstacle for leveraging human feedback to improve translation quality. Fortunately, quality estimation (QE), which predicts the quality of a given translation without reference, has achieved impressive alignment with human evaluations in the last two years. In this work, we investigate the potential of employing the QE model as the reward model (the QE-based reward model) to predict human preferences for feedback training. We first identify the overoptimization problem during QE-based feedback training, manifested as an increase in reward while translation quality declines. We examine the problem and argue that the vulnerability of the QE model might lead to high rewards for incorrect translations, resulting in overoptimization and error propagation. To address the problem, we adopt a simple yet effective method that uses heuristic rules to detect the incorrect translations and assigns a penalty term to the QE-based rewards for the detected incorrect translations. Experimental results show that the proposed QE-based feedback training achieves consistent and significant improvements across various settings, further verified through human preference studies. Our subsequent analysis demonstrates the high data efficiency of the proposed QE-based feedback training: the proposed approach using a small amount of monolingual data can outperform systems using larger parallel corpora. Our code is available at: https://github.com/zwhe99/FeedbackMT
翻訳日:2024-02-23 18:04:42 公開日:2024-02-22
# 高品質・汎用句表現の学習

Learning High-Quality and General-Purpose Phrase Representations ( http://arxiv.org/abs/2401.10407v2 )

ライセンス: Link先を確認
Lihu Chen and Ga\"el Varoquaux and Fabian M. Suchanek(参考訳) フレーズ表現はデータサイエンスと自然言語処理において重要な役割を果たし、Entity Alignment、Record Linkage、Fuzzy Joins、Paraphrase Classificationといったさまざまなタスクの恩恵を受ける。 現在の最先端の手法では、コントラスト学習を用いたフレーズ埋め込みのための訓練済み言語モデルを微調整する。 しかし、我々は改善すべき領域を特定した。 まず、これらの事前訓練されたモデルは、必要以上に複雑であり、文脈文を持つコーパスで事前訓練する必要がある。 第2に、フレーズタイプとモルフォロジーを活用することで、より正確で柔軟なフレーズ表現が可能になる。 文脈のない方法で句表現を学ぶための改良フレームワークを提案する。 このフレームワークは、フレーズタイプ分類を補助タスクとして使用し、文字レベル情報をフレーズ表現に効果的に組み込む。 さらに,トレーニングサンプルの多様性を高めるために,データ拡張の3つの粒度を設計する。 幅広いタスクにわたる実験の結果,従来の手法と比較して,モデルサイズを小さくしながら,より優れたフレーズ埋め込みを生成できることがわかった。 [PEARL-small]: https://huggingface.co/Lihuchen/pearl_small; [PEARL-base]: https://huggingface.co/Lihuchen/pearl_base; [Code and Dataset]: https://github.com/tigerchen52/PEARL

Phrase representations play an important role in data science and natural language processing, benefiting various tasks like Entity Alignment, Record Linkage, Fuzzy Joins, and Paraphrase Classification. The current state-of-the-art method involves fine-tuning pre-trained language models for phrasal embeddings using contrastive learning. However, we have identified areas for improvement. First, these pre-trained models tend to be unnecessarily complex and require to be pre-trained on a corpus with context sentences. Second, leveraging the phrase type and morphology gives phrase representations that are both more precise and more flexible. We propose an improved framework to learn phrase representations in a context-free fashion. The framework employs phrase type classification as an auxiliary task and incorporates character-level information more effectively into the phrase representation. Furthermore, we design three granularities of data augmentation to increase the diversity of training samples. Our experiments across a wide range of tasks show that our approach generates superior phrase embeddings compared to previous methods while requiring a smaller model size. [PEARL-small]: https://huggingface.co/Lihuchen/pearl_small; [PEARL-base]: https://huggingface.co/Lihuchen/pearl_base; [Code and Dataset]: https://github.com/tigerchen52/PEARL
翻訳日:2024-02-23 18:04:00 公開日:2024-02-22
# E^2-LLM:大規模言語モデルの効率的・極長拡張

E^2-LLM: Efficient and Extreme Length Extension of Large Language Models ( http://arxiv.org/abs/2401.06951v3 )

ライセンス: Link先を確認
Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng(参考訳) 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。 既存のロングコンテキスト拡張手法は、通常、対応するロングコンテキストウィンドウをサポートするために追加のトレーニング手順を必要とし、ロングコンテキストトレーニングデータ(例えば32k)が必要であり、GPUトレーニングコストが高いと仮定する。 上記の問題に対処するため,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と計算コストを大幅に削減した効率的な拡張手法を提案する。 具体的には、E2-LLMのトレーニングデータは短い長さ(例:4k)しか必要とせず、チューニングコストを大幅に削減する。 第2に、短いトレーニングコンテキストウィンドウ上のトレーニング手順は一度だけ実行され、推論時に異なる評価コンテキストウィンドウをサポートすることができる。 第3に,RoPE 位置埋め込みに基づく E2 - LLM において,異なるサンプルに対するスケールと位置指数パラメータに関する2つの異なる拡張手法を導入する。 推論時に任意のコンテキスト長を直接補間する場合、モデルは異なる相対差に対してより堅牢になる。 複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。

Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. Existing long-context extension methods usually need additional training procedures to support corresponding long-context windows, where the long-context training data (e.g., 32k) is needed, and high GPU training costs are assumed. To address the aforementioned issues, we propose an Efficient and Extreme length extension method for Large Language Models, called E 2 -LLM, with only one training procedure and dramatically reduced computation cost, which also removes the need to collect long-context data. Concretely, first, the training data of our E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost greatly. Second, the training procedure on the short training context window is performed only once time, and we can support different evaluation context windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings, we introduce two different augmentation methods on the scale and position index parameters for different samples in training. It aims to make the model more robust to the different relative differences when directly interpolating the arbitrary context length at inference. Comprehensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on challenging long-context tasks.
翻訳日:2024-02-23 18:02:29 公開日:2024-02-22
# MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善

MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization ( http://arxiv.org/abs/2401.06838v2 )

ライセンス: Link先を確認
Shuaijie She, Wei Zou, Shujian Huang, Wenhao Zhu, Xiang Liu, Xiang Geng, Jiajun Chen(参考訳) 推論能力は言語に依存しないと考えられているが、既存のllmは、英語のような支配的な言語における推論は、多言語訓練データの不均衡のため、他言語よりも優れているなど、異なる言語間で一貫性のない推論能力を示している。 非支配言語における推論能力を高めるために,他言語における推論プロセスと支配言語との整合性を図るために,MAPO(Multilingual-Alignment-as-Preference Optimization framework)を提案する。 具体的には,非支配的言語と支配的言語における回答の一貫性にオフ・ザ・シェルフ翻訳モデルを適用し,最適化の選好として,例えばdirect preference optimization(dpo)やproximal policy optimization(ppo)を採用する。 実験の結果、MAPOは3つのベンチマーク(MSVAMP +16.2%、MGSM +6.1%、MNumGLUESub +13.3%)で様々なモデルの多言語推論を大幅に改善し、言語間の推論一貫性が向上した。

Though reasoning abilities are considered language-agnostic, existing LLMs exhibit inconsistent reasoning abilities across different languages, e.g., reasoning in the dominant language like English is superior to other languages due to the imbalance of multilingual training data. To enhance reasoning abilities in non-dominant languages, we propose a Multilingual-Alignment-as-Preference Optimization framework (MAPO), aiming to align the reasoning processes in other languages with the dominant language. Specifically, we harness an off-the-shelf translation model for the consistency between answers in non-dominant and dominant languages, which we adopt as the preference for optimization, e.g., Direct Preference Optimization (DPO) or Proximal Policy Optimization (PPO). Experiments show that MAPO stably achieves significant improvements in the multilingual reasoning of various models on all three benchmarks (MSVAMP +16.2%, MGSM +6.1%, and MNumGLUESub +13.3%), with improved reasoning consistency across languages.
翻訳日:2024-02-23 18:01:43 公開日:2024-02-22
# 注意・蒸留・語彙化:ニューラルネットワークによる実践的前処理に向けて

Attention, Distillation, and Tabularization: Towards Practical Neural Network-Based Prefetching ( http://arxiv.org/abs/2401.06362v3 )

ライセンス: Link先を確認
Pengmiao Zhang, Neelesh Gupta, Rajgopal Kannan, Viktor K. Prasanna(参考訳) Attention-based Neural Networks (NN)は、データプリフェッチにおける重要なステップである正確なメモリアクセス予測において、その効果を実証している。 しかし、これらのモデルに関連する計算オーバーヘッドは高い推論遅延をもたらし、実用的なプリフェッチとしての可能性を制限する。 このギャップを埋めるため,予測精度を犠牲にすることなく,モデル複雑性と推論遅延を大幅に低減するタブライゼーションに基づく新しい手法を提案する。 提案手法は,メモリアクセス予測のための蒸留・高精度・高精細な注意ベースモデルを入力とし,その高価な行列乗算を高速テーブルルックアップの階層に効率的に変換する。 上記のアプローチの例として、テーブルの単純な階層から構成されるプレフィッシャーであるDARTを開発する。 F1スコアのわずか0.09ドロップで、DARTは大きな注意ベースモデルから算術演算の99.99%を減らし、蒸留モデルから91.83%を減らした。 DARTは大きなモデル推論を170倍、蒸留モデルを9.4倍加速する。 DARTのレイテンシとストレージコストは、最先端のルールベースのプレフィッシャーBOと同等だが、IPCの改善の6.1%を上回っている。 DARTは、最先端のNNベースのPrefetchers TransFetchを33.1%、Voyagerを37.2%上回っている。

Attention-based Neural Networks (NN) have demonstrated their effectiveness in accurate memory access prediction, an essential step in data prefetching. However, the substantial computational overheads associated with these models result in high inference latency, limiting their feasibility as practical prefetchers. To close the gap, we propose a new approach based on tabularization that significantly reduces model complexity and inference latency without sacrificing prediction accuracy. Our novel tabularization methodology takes as input a distilled, yet highly accurate attention-based model for memory access prediction and efficiently converts its expensive matrix multiplications into a hierarchy of fast table lookups. As an exemplar of the above approach, we develop DART, a prefetcher comprised of a simple hierarchy of tables. With a modest 0.09 drop in F1-score, DART reduces 99.99% of arithmetic operations from the large attention-based model and 91.83% from the distilled model. DART accelerates the large model inference by 170x and the distilled model by 9.4x. DART has comparable latency and storage costs as state-of-the-art rule-based prefetcher BO but surpasses it by 6.1% in IPC improvement. DART outperforms state-of-the-art NN-based prefetchers TransFetch by 33.1% and Voyager by 37.2% in terms of IPC improvement, primarily due to its low prefetching latency.
翻訳日:2024-02-23 18:01:21 公開日:2024-02-22
# 強化学習とセマンティック・リワードを用いたLLMによるコード脆弱性修復

LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward ( http://arxiv.org/abs/2401.03374v2 )

ライセンス: Link先を確認
Nafis Tanveer Islam, Joseph Khoury, Andrew Seong, Mohammad Bahrami Karkevandi, Gonzalo De La Torre Parra, Elias Bou-Harb, Peyman Najafirad(参考訳) ソフトウェア開発では、機能重視がセキュリティ上の懸念を上回っており、github copilotのようなai駆動自動化ツールで勢いを増している。 これらのツールは、機能的コード開発における開発者の効率を大幅に改善します。 それにもかかわらず、そのようなツールが安全でないコードの作成にも責任を負うことには、依然として注目すべき懸念が残っている。 さらに、コードセキュリティに関する知識が極めて少ないため、開発者は"チェーン内の最も弱いリンク"と呼ばれている。 既存のソリューションは、脆弱なコードに対して合理的な解決策を提供するが、セキュリティ問題が繰り返されないように、適切な記述とコードセキュリティ教育を開発者に行わなければならない。 そこで本研究では,大規模言語モデルを用いた多目的コード脆弱性解析システム \texttt{secrepair} を導入することで,コードコメントによる脆弱性の完全な説明とともに,固定コードの識別と生成を支援する。 我々の革新的方法論は、強化学習パラダイムを用いて、意味的報酬機構によって拡張されたコードコメントを生成する。 そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。 GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性をさらに特定します。 その結果,強化学習とセマンティック報酬を併用することで,モデルの性能が向上し,コード脆弱性に対処する能力が向上することがわかった。

In software development, the predominant emphasis on functionality often supersedes security concerns, a trend gaining momentum with AI-driven automation tools like GitHub Copilot. These tools significantly improve developers' efficiency in functional code development. Nevertheless, it remains a notable concern that such tools are also responsible for creating insecure code, predominantly because of pre-training on publicly available repositories with vulnerable code. Moreover, developers are called the "weakest link in the chain" since they have very minimal knowledge of code security. Although existing solutions provide a reasonable solution to vulnerable code, they must adequately describe and educate the developers on code security to ensure that the security issues are not repeated. Therefore we introduce a multipurpose code vulnerability analysis system \texttt{SecRepair}, powered by a large language model, CodeGen2 assisting the developer in identifying and generating fixed code along with a complete description of the vulnerability with a code comment. Our innovative methodology uses a reinforcement learning paradigm to generate code comments augmented by a semantic reward mechanism. Inspired by how humans fix code issues, we propose an instruction-based dataset suitable for vulnerability analysis with LLMs. We further identify zero-day and N-day vulnerabilities in 6 Open Source IoT Operating Systems on GitHub. Our findings underscore that incorporating reinforcement learning coupled with semantic reward augments our model's performance, thereby fortifying its capacity to address code vulnerabilities with improved efficacy.
翻訳日:2024-02-23 18:00:39 公開日:2024-02-22
# LLaVA-Phi:小言語モデルを用いた効率的なマルチモーダルアシスタント

LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model ( http://arxiv.org/abs/2401.02330v4 )

ライセンス: Link先を確認
Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang(参考訳) 本稿では,最近開発された小言語モデルであるPhi-2のパワーを活用し,マルチモーダル対話を容易にする,効率的なマルチモーダルアシスタントであるLLaVA-$\phi$(LLaVA-Phi)を紹介する。 LLaVA-Phiはコンパクトなマルチモーダルモデルの領域において顕著な進歩を示している。 より小さな言語モデルでも2.7Bのパラメータしか持たず、高品質なコーパスで訓練された場合、テキスト要素と視覚要素の両方を統合する複雑な対話を効果的に行うことができる。 私たちのモデルは、視覚理解、推論、知識に基づく知覚を包含する公開ベンチマークで、賞賛可能なパフォーマンスを提供します。 マルチモーダル対話タスクにおける顕著なパフォーマンスに加えて、我々のモデルは、エンボディエージェントのようなリアルタイム対話を必要とする時間に敏感な環境やシステムにおけるアプリケーションのための新しい道を開く。 リソース効率を高めながら、より高度な理解と対話を実現するための、より小さな言語モデルの可能性を強調している。

In this paper, we introduce LLaVA-$\phi$ (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
翻訳日:2024-02-23 17:59:56 公開日:2024-02-22
# TREC iKAT 2023: The Interactive Knowledge Assistance Track Overview

TREC iKAT 2023: The Interactive Knowledge Assistance Track Overview ( http://arxiv.org/abs/2401.01330v2 )

ライセンス: Link先を確認
Mohammad Aliannejadi and Zahra Abbasiantaeb and Shubham Chatterjee and Jeffery Dalton and Leif Azzopardi(参考訳) 対話型情報検索はここ数年で急速に進化し,ユーザ要求に対する自然な解釈と応答の基盤を提供する大規模言語モデルが開発された。 iKATは、ユーザの以前のインタラクションと現在のコンテキストに基づいて応答を適応する会話検索エージェントの作成と研究を強調している。 これは、同じ質問がユーザーのプロファイルや好みに応じて様々な回答をもたらす可能性があることを意味する。 課題は、会話型検索エージェント(csa)がパーソナライズされたコンテキストを組み込んで、ユーザに関連する情報を効果的に誘導できるようにすることにある。 iKAT初年度には7チームが出場し、24試合に出場した。 実行のほとんどはパイプラインでLarge Language Models(LLM)を活用しており、生成時検索アプローチに重点を置いている。

Conversational Information Seeking has evolved rapidly in the last few years with the development of Large Language Models providing the basis for interpreting and responding in a naturalistic manner to user requests. iKAT emphasizes the creation and research of conversational search agents that adapt responses based on the user's prior interactions and present context. This means that the same question might yield varied answers, contingent on the user's profile and preferences. The challenge lies in enabling Conversational Search Agents (CSA) to incorporate personalized context to effectively guide users through the relevant information to them. iKAT's first year attracted seven teams and a total of 24 runs. Most of the runs leveraged Large Language Models (LLMs) in their pipelines, with a few focusing on a generate-then-retrieve approach.
翻訳日:2024-02-23 17:59:33 公開日:2024-02-22
# リーク, チート, リピート: クローズドソースLCMにおけるデータ汚染とその評価

Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs ( http://arxiv.org/abs/2402.03927v2 )

ライセンス: Link先を確認
Simone Balloccu, Patr\'icia Schmidtov\'a, Mateusz Lango, and Ond\v{r}ej Du\v{s}ek(参考訳) 自然言語処理(NLP)の研究は、Large Language Models(LLM)の使用にますます焦点を当てている。 モデルの詳細、特にトレーニングデータへのアクセスの欠如は、研究者の間でデータ汚染に関する懸念を繰り返している。 この問題に対処する試みはいくつかあるが、これは逸話的証拠や試行錯誤に限られている。 さらに、ユーザから来るデータを使用することで、モデルが反復的に改善される、‘emph{indirect}データリーク’という問題も見落としている。 本研究では,OpenAI の GPT-3.5 と GPT-4 を用いて,データ汚染の文脈において最も顕著な LLM を用いた最初の系統解析を行った。 255の論文を分析し、OpenAIのデータ利用ポリシーを考慮して、モデルのリリース後最初の1年間にこれらのモデルにリークしたデータの量を広範囲に文書化します。 これらのモデルが263のベンチマークから$\sim$4.7mのサンプルにさらされていると報告した。 同時に,不公平な比較や欠落したベースライン比較,再現可能性問題など,レビュー論文に現れる数多くの評価誤りを文書化する。 私たちはその結果をhttps://leak-llm.github.io/で共同プロジェクトとしてリリースしています。

Natural Language Processing (NLP) research is increasingly focusing on the use of Large Language Models (LLMs), with some of the most popular ones being either fully or partially closed-source. The lack of access to model details, especially regarding training data, has repeatedly raised concerns about data contamination among researchers. Several attempts have been made to address this issue, but they are limited to anecdotal evidence and trial and error. Additionally, they overlook the problem of \emph{indirect} data leaking, where models are iteratively improved by using data coming from users. In this work, we conduct the first systematic analysis of work using OpenAI's GPT-3.5 and GPT-4, the most prominently used LLMs today, in the context of data contamination. By analysing 255 papers and considering OpenAI's data usage policy, we extensively document the amount of data leaked to these models during the first year after the model's release. We report that these models have been globally exposed to $\sim$4.7M samples from 263 benchmarks. At the same time, we document a number of evaluation malpractices emerging in the reviewed papers, such as unfair or missing baseline comparisons and reproducibility issues. We release our results as a collaborative project on https://leak-llm.github.io/, where other researchers can contribute to our efforts.
翻訳日:2024-02-23 17:55:13 公開日:2024-02-22
# MOOCsグレーダーとしての大規模言語モデル

Large Language Models As MOOCs Graders ( http://arxiv.org/abs/2402.03776v3 )

ライセンス: Link先を確認
Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger(参考訳) 大規模なオープン・オンライン・コース(moocs)は、世界中の誰でもコンピュータとインターネットにアクセスできる自由教育の扉を開ける。 このような学習の民主化にもかかわらず、これらのコースの大規模な入学は、一人の教官が生徒全員の筆記課題を評価することはほぼ不可能であることを意味する。 結果として、単純なルーブリックによって導かれるピアグレーティングが選択方法である。 便利だが、ピアグレーディングは信頼性と妥当性の点で不足することが多い。 本研究では18の異なる設定を用いて,MOOCにおけるピアグレーディングを代替する大規模言語モデル(LLM)の実現可能性を検討する。 具体的には,GPT-4 と GPT-3.5 の3つの異なるコース,すなわち導入天文学,天文学,天文学史と哲学に焦点をあてる。 LLMを指導するためには、ゼロショットチェーン・オブ・シークレット (Zero-shot-CoT) の変種に基づく3つの異なるプロンプトを使用する: ゼロショット-CoTとインストラクターが提案した正解を組み合わせ、ゼロショット-CoTとインストラクターが生成した正解とLLMを併用するゼロショット-CoT。 その結果,Zero-shot-CoTはインストラクターが提供する回答やルーブリックと統合された場合,ピアグレーティングよりもインストラクターが割り当てたものとより整合した成績が得られた。 しかし、天文学コースの歴史と哲学は、他のコースとは対照的に、成績付けの点でより困難であることが証明されている。 最後に,本研究は,特にルーブリックをよく定義した被験者において,moocのグレーティングシステムを自動化するための有望な方向性を示す。

Massive open online courses (MOOCs) unlock the doors to free education for anyone around the globe with access to a computer and the internet. Despite this democratization of learning, the massive enrollment in these courses means it is almost impossible for one instructor to assess every student's writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, using 18 distinct settings, we explore the feasibility of leveraging large language models (LLMs) to replace peer grading in MOOCs. Specifically, we focus on two state-of-the-art LLMs: GPT-4 and GPT-3.5, across three distinct courses: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. To instruct LLMs, we use three different prompts based on a variant of the zero-shot chain-of-thought (Zero-shot-CoT) prompting technique: Zero-shot-CoT combined with instructor-provided correct answers; Zero-shot-CoT in conjunction with both instructor-formulated answers and rubrics; and Zero-shot-CoT with instructor-offered correct answers and LLM-generated rubrics. Our results show that Zero-shot-CoT, when integrated with instructor-provided answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. However, the History and Philosophy of Astronomy course proves to be more challenging in terms of grading as opposed to other courses. Finally, our study reveals a promising direction for automating grading systems for MOOCs, especially in subjects with well-defined rubrics.
翻訳日:2024-02-23 17:54:49 公開日:2024-02-22
# マシンは複雑な推論に優れているか? 補足検証におけるヒューマンマシン推論のギャップを明らかにする

Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification ( http://arxiv.org/abs/2402.03686v2 )

ライセンス: Link先を確認
Soumya Sanyal, Tianyi Xiao, Jiacheng Liu, Wenya Wang, Xiang Ren(参考訳) 意味を理解するためにテキスト理解で推論することは言語処理に不可欠である。 本研究は,複数の推論を暗黙的に行うシステムを必要とするマルチセンテンス前提の補足検証(ev)問題を研究する。 このような複雑な前提に対するevの研究は、一貫性のないモデル生成の合理性の検出のような現代のnlp問題には複雑なマルチホップ推論が必要であるため重要である。 しかしながら、現在のテキスト推論データセットには、これらの課題に部分的にのみフォーカスする短い前提が含まれています。 これを解決するために,多文前提を含む3つのNLPドメイン(NLI,コンテキストQA,合理性)のデータセットを含むEVベンチマークをコンパイルする。 人間とLLMのベンチマークでは、LLMは拡張されたコンテキストをまたいだマルチホップ推論において人間よりも優れており、人間は簡素な推論タスクにおいて優れた性能を発揮する。 また,2つのトレーニング目標を用いてEV用Flan-T5モデルを微調整し,GPT-3.5と競合するGPT-4を上回る強力なオープンソースモデルを得る。 最後に、このモデルを用いて、自己整合性復号における一貫性のないモデル生成論理をフィルタリングし、3つのMCQデータセットの平均で6%の精度向上をもたらす。

Making inferences in text comprehension to understand the meaning is essential in language processing. This work studies the entailment verification (EV) problem of multi-sentence premises that requires a system to make multiple inferences implicitly. Studying EV for such complex premises is important because modern NLP problems, such as detecting inconsistent model-generated rationales, require complex multi-hop reasoning. However, current textual inference datasets mostly contain short premises that only partially focus on these challenges. To address this, we compile an EV benchmark that includes datasets from three NLP domains (NLI, contextual QA, and rationales) containing multi-sentence premises. On benchmarking humans and LLMs, we find that LLMs are better than humans in multi-hop reasoning across extended contexts, while humans perform better in simple deductive reasoning tasks. We also finetune a Flan-T5 model for EV using two training objectives to obtain a strong open-source model that outperforms GPT-3.5 and rivals GPT-4. Finally, we use this model to filter out inconsistent model-generated rationales in self-consistency decoding, resulting in a 6% accuracy improvement on average across three MCQ datasets.
翻訳日:2024-02-23 17:54:10 公開日:2024-02-22
# PuzzleBench: LLMは第一級のコンビネーション推論問題を解決することができるか?

PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial Reasoning Problems? ( http://arxiv.org/abs/2402.02611v2 )

ライセンス: Link先を確認
Chinmay Mittal, Krishna Kartik, Mausam, Parag Singla(参考訳) 近年の研究では,大規模言語モデル (LLM) の中で最大のものは,自然言語で表される多くの単純な推論タスクを,いかなる監督も受けずに解決できることが示されている。 しかし、グラフカラー化やknapsack、暗号計算といった一階組合せ推論の問題も解決できるのだろうか? この質問に答えるために,31の難題のデータセットであるchallengebenchと,各問題に対するいくつかの解決されたインスタンスを提案する。 これらの問題は、すべて1次、すなわち、様々なサイズの問題インスタンスでインスタンス化でき、そのほとんどはnpハードであり、ソリューションに到達するためにいくつかの推論ステップを必要とする。 まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。 そこで本研究では,LLMとシンボルソルバとプログラムインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。 我々の広範な実験と分析は、今日のLLMの推論能力と限界に関する新たな洞察を提供する。

Recent works show that the largest of the large language models (LLMs) can solve many simple reasoning tasks expressed in natural language, without any/much supervision. But, can they also solve challenging first-order combinatorial reasoning problems, such as graph coloring, knapsack and cryptarithmetic? To answer this question, we present PuzzleBench, a dataset of 31 such challenging problems along with a few solved instances for each problem. These problems are all first order, i.e., they can be instantiated with problem instances of varying sizes, and most of them are NP-hard, requiring several reasoning steps to reach the solution. We first observe that LLMs, even when aided by symbolic solvers, perform rather poorly on our dataset. In response, we propose a new approach, Puzzle-LM, which combines LLMs with both symbolic solvers and program interpreters, along with feedback from solved examples, to achieve huge performance gains. Our extensive experimentation and analyses offer new insights into the reasoning abilities and limitations of present-day LLMs.
翻訳日:2024-02-23 17:53:30 公開日:2024-02-22
# DiffStitch: 拡散に基づく軌道スティッチによるオフライン強化学習の促進

DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching ( http://arxiv.org/abs/2402.02439v2 )

ライセンス: Link先を確認
Guanghe Li, Yixiang Shan, Zhengbang Zhu, Ting Long, Weinan Zhang(参考訳) オフライン強化学習(rl)では,学習方針の性能はオフラインデータセットの品質に大きく依存する。 しかし、多くの場合、オフラインデータセットは、非常に限られた最適軌跡を含んでいるため、エージェントが高次領域に遷移する能力を取得する必要があるため、オフラインRLアルゴリズムの課題となる。 この問題に対処するため,Diffusion-based Trajectory Stitching (DiffStitch)を導入し,トラジェクトリ間の縫合遷移を系統的に生成する新しい拡散ベースデータ拡張パイプラインを提案する。 DiffStitchは、ローリワード軌道と高リワード軌道を効果的に接続し、オフラインRLアルゴリズムが直面する課題に対処するために、グローバルに最適な軌道を形成する。 D4RLデータセット上で実施された実証実験は、DiffStitchのRL手法における有効性を示した。 特に、DiffStitchはワンステップ法(IQL)、模倣学習法(TD3+BC)、軌道最適化法(DT)の性能を大幅に向上させた。

In offline reinforcement learning (RL), the performance of the learned policy highly depends on the quality of offline datasets. However, in many cases, the offline dataset contains very limited optimal trajectories, which poses a challenge for offline RL algorithms as agents must acquire the ability to transit to high-reward regions. To address this issue, we introduce Diffusion-based Trajectory Stitching (DiffStitch), a novel diffusion-based data augmentation pipeline that systematically generates stitching transitions between trajectories. DiffStitch effectively connects low-reward trajectories with high-reward trajectories, forming globally optimal trajectories to address the challenges faced by offline RL algorithms. Empirical experiments conducted on D4RL datasets demonstrate the effectiveness of DiffStitch across RL methodologies. Notably, DiffStitch demonstrates substantial enhancements in the performance of one-step methods (IQL), imitation learning methods (TD3+BC), and trajectory optimization methods (DT).
翻訳日:2024-02-23 17:53:09 公開日:2024-02-22
# 大規模言語モデルにおける道徳的不整合の測定

Measuring Moral Inconsistencies in Large Language Models ( http://arxiv.org/abs/2402.01719v2 )

ライセンス: Link先を確認
Vamshi Krishna Bonagiri, Sreeram Vennam, Manas Gaur, Ponnurangam Kumaraguru(参考訳) 大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。 会話システムにおけるLLMの印象的な能力を示す最近の進歩にもかかわらず、最先端のLLMでさえ世代間では非常に矛盾しており、信頼性に疑問を投げかけている。 以前の研究はタスク固有の精度でこれを測定しようと試みた。 しかし、このアプローチはトロリー問題のような道徳的なシナリオには不向きであり、「正しい」答えは持たない。 本稿では,モラルシナリオにおけるllmの一貫性を計測するための意味グラフエントロピー(sge)と呼ばれる新しい情報理論尺度を提案する。 モデルの意思決定戦略を説明するために、"Rules of Thumb"(RoTs)を活用し、メトリクスをさらに強化します。 既存の一貫性メトリクスと比較すると、SGEは5つのLLMにわたる人間の判断と相関する。 今後,LLMの不整合の根本原因を調査し,改善を提案する。

A Large Language Model (LLM) is considered consistent if semantically equivalent prompts produce semantically equivalent responses. Despite recent advancements showcasing the impressive capabilities of LLMs in conversational systems, we show that even state-of-the-art LLMs are highly inconsistent in their generations, questioning their reliability. Prior research has tried to measure this with task-specific accuracy. However, this approach is unsuitable for moral scenarios, such as the trolley problem, with no "correct" answer. To address this issue, we propose a novel information-theoretic measure called Semantic Graph Entropy (SGE) to measure the consistency of an LLM in moral scenarios. We leverage "Rules of Thumb" (RoTs) to explain a model's decision-making strategies and further enhance our metric. Compared to existing consistency metrics, SGE correlates better with human judgments across five LLMs. In the future, we aim to investigate the root causes of LLM inconsistencies and propose improvements.
翻訳日:2024-02-23 17:52:50 公開日:2024-02-22
# higen:階層的テキスト分類のための階層認識シーケンス生成

HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text Classification ( http://arxiv.org/abs/2402.01696v2 )

ライセンス: Link先を確認
Vidit Jain, Mukund Rungta, Yuchen Zhuang, Yue Yu, Zeyu Wang, Mu Gao, Jeffrey Skolnick, Chao Zhang(参考訳) 階層的テキスト分類(階層的テキスト分類、hierarchical text classification)は、階層的ラベル分類とデータ不均衡を特徴とする多ラベルテキスト分類の複雑なサブタスクである。 最高のパフォーマンスモデルは、文書と階層的なラベル情報を組み合わせて静的表現を学習することを目的としている。 しかし、文書セクションの関連性は、動的文書表現を必要とする階層レベルによって異なる可能性がある。 そこで本稿では,動的テキスト表現を符号化する言語モデルを用いたテキスト生成フレームワークHiGenを提案する。 テキストとラベル名の意味関係を捉えるために,レベル誘導損失関数を導入する。 提案手法は,タスク固有の事前学習戦略を取り入れ,言語モデルをドメイン内知識に適用し,限られた例でクラスの性能を大幅に向上させる。 さらに, 酵素委員会数予測(ec)を目標としたpubmedの記事を含む, htc 向けに設計された enzyme という新たな貴重なデータセットを提案する。 酵素データセットと広く認識されているwosおよびnytデータセットに関する広範囲な実験を通じて,既存の手法よりも優れた性能を示し,効率的なデータ処理とクラス不均衡の軽減を両立させる。 データとコードは公開される予定だ。

Hierarchical text classification (HTC) is a complex subtask under multi-label text classification, characterized by a hierarchical label taxonomy and data imbalance. The best-performing models aim to learn a static representation by combining document and hierarchical label information. However, the relevance of document sections can vary based on the hierarchy level, necessitating a dynamic document representation. To address this, we propose HiGen, a text-generation-based framework utilizing language models to encode dynamic text representations. We introduce a level-guided loss function to capture the relationship between text and label name semantics. Our approach incorporates a task-specific pretraining strategy, adapting the language model to in-domain knowledge and significantly enhancing performance for classes with limited examples. Furthermore, we present a new and valuable dataset called ENZYME, designed for HTC, which comprises articles from PubMed with the goal of predicting Enzyme Commission (EC) numbers. Through extensive experiments on the ENZYME dataset and the widely recognized WOS and NYT datasets, our methodology demonstrates superior performance, surpassing existing approaches while efficiently handling data and mitigating class imbalance. The data and code will be released publicly.
翻訳日:2024-02-23 17:52:33 公開日:2024-02-22
# 二重か無か: 量子力学における多時間(双)確率に対するコルモゴロフ拡張定理

Double or nothing: a Kolmogorov extension theorem for multitime (bi)probabilities in quantum mechanics ( http://arxiv.org/abs/2402.01218v2 )

ライセンス: Link先を確認
Davide Lonigro, Fattah Sakuldee, {\L}ukasz Cywi\'nski, Dariusz Chru\'sci\'nski, Piotr Sza\'nkowski(参考訳) 観測可能な測定によって量子系を反復的に検出した多重時間確率分布は、一般的にコルモゴロフの一貫性を損なう。 したがって、そのような分布を単一の軌道のサンプリングの結果として解釈することはできない。 にもかかわらず、それらは1対の軌道のサンプリングの結果であることを示す。 この意味では、軌道を諦める代わりに、量子力学は軌道を2倍に減らさなければならない。 この目的のために、複素数値双確率分布の族(つまり、元のサンプル空間の要素のペアで定義される)に適用可能なコルモゴロフ拡大定理の一般化を証明し、量子力学的シナリオでこの結果を利用する。 また、この結果と量子コム形式との関係についても論じる。

The multitime probability distributions obtained by repeatedly probing a quantum system via the measurement of an observable generally violate Kolmogorov's consistency property. Therefore, one cannot interpret such distributions as the result of the sampling of a single trajectory. We show that, nonetheless, they do result from the sampling of one pair of trajectories. In this sense, rather than give up on trajectories, quantum mechanics requires to double down on them. To this purpose, we prove a generalization of the Kolmogorov extension theorem that applies to families of complex-valued bi-probability distributions (that is, defined on pairs of elements of the original sample spaces), and we employ this result in the quantum mechanical scenario. We also discuss the relation of our results with the quantum comb formalism.
翻訳日:2024-02-23 17:52:10 公開日:2024-02-22
# YOLO-World: リアルタイムオープン語彙オブジェクト検出

YOLO-World: Real-Time Open-Vocabulary Object Detection ( http://arxiv.org/abs/2401.17270v3 )

ライセンス: Link先を確認
Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan(参考訳) You Only Look Once (YOLO)シリーズは、効率的で実用的なツールとして確立されている。 しかしながら、事前定義された、および訓練されたオブジェクトカテゴリへの依存は、オープンシナリオにおける適用性を制限している。 この制限に対処するため、大規模なデータセット上での視覚言語モデリングと事前学習を通じて、オープン語彙検出機能によりYOLOを強化する革新的なアプローチであるYOLO-Worldを導入する。 具体的には、視覚情報と言語情報の相互作用を容易にするために、新たにRe-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) とリージョンテキストコントラスト損失を提案する。 提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 挑戦的なLVISデータセットでは、YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。 さらに、細調整されたYOLO-Worldは、オブジェクト検出やオープン語彙のインスタンスセグメンテーションなど、いくつかの下流タスクで顕著なパフォーマンスを実現している。

The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
翻訳日:2024-02-23 17:51:56 公開日:2024-02-22
# 脆弱性検出のための大規模言語モデルの微調整

Finetuning Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.17010v2 )

ライセンス: Link先を確認
Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Anton Cheshkov(参考訳) 本稿では,ソースコードの脆弱性を検出するために,大規模言語モデル(LLM)の微調整を行った結果について述べる。 我々は、最新のLLM StarCoderの改良であるWizardCoderを活用し、さらなる微調整により脆弱性検出に適応する。 トレーニングを加速するために、WizardCoderのトレーニング手順を変更し、最適なトレーニング体制を調査する。 負の例が多い不均衡データセットに対しては、分類性能を改善するためのさまざまなテクニックも検討する。 この微調整ウィザードコーダモデルは、ソースコードの脆弱性検出に事前訓練されたllmを適用する効果を実証し、codebertライクなモデルに対するバランスと不均衡の脆弱性データセットに関するroc aucとf1の指標の改善を達成している。 主なコントリビューションは、最先端のコードLLMであるWizardCoderの微調整、パフォーマンスを損なわないトレーニング速度の向上、トレーニング手順とレシフィケーションの最適化、クラス不均衡の処理、困難な脆弱性検出データセットのパフォーマンス向上である。 これは、特定のソースコード解析タスクのために、大規模な事前訓練された言語モデルを微調整することで、転送学習の可能性を示す。

This paper presents the results of finetuning large language models (LLMs) for the task of detecting vulnerabilities in source code. We leverage WizardCoder, a recent improvement of the state-of-the-art LLM StarCoder, and adapt it for vulnerability detection through further finetuning. To accelerate training, we modify WizardCoder's training procedure, also we investigate optimal training regimes. For the imbalanced dataset with many more negative examples than positive, we also explore different techniques to improve classification performance. The finetuned WizardCoder model achieves improvement in ROC AUC and F1 measures on balanced and imbalanced vulnerability datasets over CodeBERT-like model, demonstrating the effectiveness of adapting pretrained LLMs for vulnerability detection in source code. The key contributions are finetuning the state-of-the-art code LLM, WizardCoder, increasing its training speed without the performance harm, optimizing the training procedure and regimes, handling class imbalance, and improving performance on difficult vulnerability detection datasets. This demonstrates the potential for transfer learning by finetuning large pretrained language models for specialized source code analysis tasks.
翻訳日:2024-02-23 17:51:35 公開日:2024-02-22
# IRCoCo: コード補完のための即時リワードガイドによる深層強化学習

IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code Completion ( http://arxiv.org/abs/2401.16637v3 )

ライセンス: Link先を確認
Bolun Li, Zhihong Sun, Tao Huang, Hongyu Zhang, Yao Wan, Ge Li, Zhi Jin, Chen Lyu(参考訳) コード補完は、現在のプログラミングコンテキストに基づいて潜在的なコードを予測することによって、プログラミング生産性を向上させることを目的としている。 近年,この分野では,事前学習型言語モデル (LM) が注目されている。 コード補完のためにsupervised fine-tuning (sft) 技術を用いてlmsを微調整する様々なアプローチが提案されている。 しかし、これらのモデルの固有の露出バイアスは、シーケンス完了の早い段階でエラーが蓄積し、その後の完了でさらにエラーが発生する可能性がある。 この問題に対処するために、深層強化学習(DRL)は、コード補完のための微調整LMの代替手法であり、一般化能力と全体的な性能を改善することができる。 それでも、DRLベースの戦略をコード補完に統合することは、2つの大きな課題に直面している。 1) コードコンテキストの動的な性質は、変更に迅速に適応するために完了モデルを必要とします。 2) 部分的コードの正確性を評価することは困難であり, 報酬再分配に基づく戦略はコード補完には適用できない。 これらの課題に対処するために、コード補完固有のDRLベースの微調整フレームワークIRCoCoを提案する。 このフレームワークは、コード補完中の継続的な編集に起因する動的コンテキスト変化を検出するフィードバックとして、即時報酬を提供するように設計されている。 即時フィードバックによって、微調整されたLMは現在の状況をより正確に理解し、LMを効果的に調整し、コード補完をより洗練された方法で最適化することができる。 実験により、IRCoCoを用いた微調整済みLMは、コード補完タスクを大幅に改善し、SFTベースおよび他のDRLベースラインを上回った。

Code completion aims to enhance programming productivity by predicting potential code based on the current programming context. Recently, pretrained language models (LMs) have become prominent in this field. Various approaches have been proposed to fine-tune LMs using supervised fine-tuning (SFT) techniques for code completion. However, the inherent exposure bias of these models can cause errors to accumulate early in the sequence completion, leading to even more errors in subsequent completions. To address this problem, deep reinforcement learning (DRL) is an alternative technique for fine-tuning LMs for code completion, which can improve the generalization capabilities and overall performance. Nevertheless, integrating DRL-based strategies into code completion faces two major challenges: 1) The dynamic nature of the code context requires the completion model to quickly adapt to changes, which poses difficulties for conventional DRL strategies that focus on delayed rewarding of the final code state. 2) It is difficult to evaluate the correctness of partial code, thus the reward redistribution-based strategies cannot be adapted to code completion. To tackle these challenges, we propose IRCoCo, a code completion-specific DRL-based fine-tuning framework. This framework is designed to provide immediate rewards as feedback for detecting dynamic context changes arising from continuous edits during code completion. With the aid of immediate feedback, the fine-tuned LM can gain a more precise understanding of the current context, thereby enabling effective adjustment of the LM and optimizing code completion in a more refined manner. Experimental results demonstrate that fine-tuning pretrained LMs with IRCoCo leads to significant improvements in the code completion task, outperforming both SFT-based and other DRL-based baselines.
翻訳日:2024-02-23 17:51:13 公開日:2024-02-22
# TAT-LLM: 単語とテキストデータの離散推論のための特殊言語モデル

TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data ( http://arxiv.org/abs/2401.13223v2 )

ライセンス: Link先を確認
Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li, Tat-Seng Chua(参考訳) 本研究では,web上で非常に一般的なコンテンツである表データとテキストデータのハイブリッド(例えばsec文書)上で質問応答(qa)に対処し,そこでは離散的な推論能力が必要となることが多い。 近年, GPT-4のような大規模言語モデル (LLM) は, 強力な多段階推論能力を示している。 次に,LLMの驚くべきパワーを活用して課題を解決することを検討する。 抽出子,推論子,実行子という3つの重要なステップで構成された表型およびテキスト型qaのためのステップワイズパイプラインを抽象化し,まずパイプラインをインスタンス化し,gpt-4が既存のメソッドを上回っていることを検証するための命令を設計する。 しかし、gpt-4のようなオンラインllmを利用することは、コスト、レイテンシ、データセキュリティのリスクに関して様々な課題を抱えています。 ステップワイズパイプラインに続く既存のエキスパートアノテートデータセットから自動的に生成されたトレーニングデータを用いて,LLaMA 2を微調整することで,TAT-LLM言語モデルを開発する。 実験結果から,我々のTAT-LLMモデルはFinQA,TAT-QA,TAT-DQAベンチマークのGPT-4などの大規模LPMを含む,すべてのベースラインモデルより優れていることが示された。

In this work, we address question answering (QA) over a hybrid of tabular and textual data that are very common content on the Web (e.g. SEC filings), where discrete reasoning capabilities are often required. Recently, large language models (LLMs) like GPT-4 have demonstrated strong multi-step reasoning capabilities. We then consider harnessing the amazing power of LLMs to solve our task. We abstract a Step-wise Pipeline for tabular and textual QA, which consists of three key steps, including Extractor, Reasoner and Executor, and initially design an instruction to instantiate the pipeline and validate that GPT-4 outperforms all existing methods. However, utilizing an online LLM like GPT-4 holds various challenges in terms of cost, latency, and data security risk, which motivates us to specialize smaller LLMs in this task. We develop a TAT-LLM language model by fine-tuning LLaMA 2 with the training data generated automatically from existing expert-annotated datasets following the Step-wise Pipeline. The experimental results have verified that our TAT-LLM model can outperform all baseline models, including the previous best fine-tuned models and very large-scale LLMs like GPT-4 on FinQA, TAT-QA and TAT-DQA benchmarks.
翻訳日:2024-02-23 17:50:46 公開日:2024-02-22
# 量子インスパイアされた機械学習による分子ドッキング

Quantum-Inspired Machine Learning for Molecular Docking ( http://arxiv.org/abs/2401.12999v2 )

ライセンス: Link先を確認
Runqiu Shu, Bowen Liu, Zhaoping Xiong, Xiaopeng Cui, Yunting Li, Wei Cui, Man-Hong Yung and Nan Qiao(参考訳) 分子ドッキングは構造に基づく薬物設計の重要なツールであり、薬物開発効率を加速する。 タンパク質と小さな分子の間の複雑な動的結合プロセスは、広い空間範囲で探索とサンプリングを必要とする。 結合部位やコンホメーションの探索による従来のドッキングは計算が複雑であり、盲点ドッキングでは不十分である。 量子特性とアニールを組み合わせた量子インスピレーションアルゴリズムは組合せ最適化問題の解法において大きな利点を示す。 これにより、量子インスパイアされたドッキングと、エンコードされた分子空間でディープラーニングによって学習された勾配を組み合わせることで、ブラインドドッキングが改善された。 数値シミュレーションにより,本手法は従来のドッキングアルゴリズムや深層学習に基づくアルゴリズムを10 %以上上回ることがわかった。 現在のディープラーニングベースのドッキングアルゴリズムであるdiffdockと比較して、top-1(rmsd<2)の成功率は、同じセットアップで33\%から35\%に向上した。 特に、diffdockで検出されていない分子データに対して、高精度領域(rmsd<1)において6\%改善を実現し、この方法の一般化を実証する。

Molecular docking is an important tool for structure-based drug design, accelerating the efficiency of drug development. Complex and dynamic binding processes between proteins and small molecules require searching and sampling over a wide spatial range. Traditional docking by searching for possible binding sites and conformations is computationally complex and results poorly under blind docking. Quantum-inspired algorithms combining quantum properties and annealing show great advantages in solving combinatorial optimization problems. Inspired by this, we achieve an improved in blind docking by using quantum-inspired combined with gradients learned by deep learning in the encoded molecular space. Numerical simulation shows that our method outperforms traditional docking algorithms and deep learning-based algorithms over 10\%. Compared to the current state-of-the-art deep learning-based docking algorithm DiffDock, the success rate of Top-1 (RMSD<2) achieves an improvement from 33\% to 35\% in our same setup. In particular, a 6\% improvement is realized in the high-precision region(RMSD<1) on molecules data unseen in DiffDock, which demonstrates the well-generalized of our method.
翻訳日:2024-02-23 17:50:06 公開日:2024-02-22
# Al-InAs超伝導体-半導体ジョセフソン接合によるカー非線形性とパラメトリック増幅

Kerr nonlinearity and parametric amplification with an Al-InAs superconductor-semiconductor Josephson junction ( http://arxiv.org/abs/2402.11085v2 )

ライセンス: Link先を確認
Z.Hao, T. Shaw, M. Hatefipour, W. M. Strickland, B. H. Elfeky, D. Langone, J. Shabani, S. Shankar(参考訳) 量子制限ジョセフソンパラメトリック増幅器(JPAs)は超伝導量子回路において必須成分である。 しかし、ジョセフソンコサインポテンシャルの高次非線形性はゲイン圧縮を引き起こし、拡張性を制限することが知られている。 4次、またはカー非線形性を減らすために、Al-InAs超伝導体-半導体ハイブリッドジョセフソン接合(JJ)を用いたパラメトリック増幅器を実現する。 2つの異なるデバイスからAl-InAs JJのKerr非線形性を抽出し、同じジョセフソンインダクタンスを持つAl-$\text{AlO}_\text{X}$接合よりも3桁低いことを示す。 次に、20dB以上のゲインと119dBm以上の圧縮パワーを実現するAl-InAs接合を用いた4波混合パラメトリック増幅器(4WM)を実演する。

Nearly quantum limited Josephson parametric amplifiers (JPAs) are essential components in superconducting quantum circuits. However, higher order nonlinearities of the Josephson cosine potential are known to cause gain compression, therefore limiting scalability. In an effort to reduce the fourth order, or Kerr nonlinearity, we realize a parametric amplifier with an Al-InAs superconductor-semiconductor hybrid Josephson junction (JJ). We extract the Kerr nonlinearity of the Al-InAs JJ from two different devices and show that it is three orders of magnitude lower compared to an Al-$\text{AlO}_\text{X}$ junction with identical Josephson inductance. We then demonstrate a four-wave-mixing (4WM) parametric amplifier made with an Al-InAs junction that achieves more than 20 dB of gain and -119 dBm of compression power, that outperforms single resonant JPAs based on Al junctions.
翻訳日:2024-02-23 17:44:15 公開日:2024-02-22
# BlackJAX: JAXにおける構成可能なベイズ推論

BlackJAX: Composable Bayesian inference in JAX ( http://arxiv.org/abs/2402.10797v2 )

ライセンス: Link先を確認
Alberto Cabezas, Adrien Corenflos, Junpeng Lao, R\'emi Louf, Antoine Carnec, Kaustubh Chaudhari, Reuben Cohn-Gordon, Jeremie Coullon, Wei Deng, Sam Duffield, Gerardo Dur\'an-Mart\'in, Marcin Elantkowski, Dan Foreman-Mackey, Michele Gregori, Carlos Iguaran, Ravin Kumar, Martin Lysy, Kevin Murphy, Juan Camilo Orduz, Karm Patel, Xi Wang, Rob Zinkov(参考訳) BlackJAXは、ベイズ計算で一般的に使用されるサンプリングおよび変分推論アルゴリズムを実装するライブラリである。 アルゴリズムの実装に関数型アプローチを取り入れることで、使いやすさ、スピード、モジュール性のために設計されている。 BlackJAXはPythonで書かれており、JAXを使ってNumpPyのようなサンプルをコンパイルし、CPU、GPU、TPU上で変分メソッドを実行する。 このライブラリは、(正規化されていない)ターゲットログ密度関数を直接扱うことで、確率的プログラミング言語とうまく統合する。 BlackJAXは、ベージアン推論を適切に定義するために組み合わせられる、基本的な統計的'原子'の低レベルで構成可能な実装の集合として意図されている。 最先端の方法が必要なユーザー、複雑なサンプリング方法を作りたい研究者、そしてこれらの方法を学びたい人向けにデザインされている。

BlackJAX is a library implementing sampling and variational inference algorithms commonly used in Bayesian computation. It is designed for ease of use, speed, and modularity by taking a functional approach to the algorithms' implementation. BlackJAX is written in Python, using JAX to compile and run NumpPy-like samplers and variational methods on CPUs, GPUs, and TPUs. The library integrates well with probabilistic programming languages by working directly with the (un-normalized) target log density function. BlackJAX is intended as a collection of low-level, composable implementations of basic statistical 'atoms' that can be combined to perform well-defined Bayesian inference, but also provides high-level routines for ease of use. It is designed for users who need cutting-edge methods, researchers who want to create complex sampling methods, and people who want to learn how these work.
翻訳日:2024-02-23 17:43:41 公開日:2024-02-22
# 光ポンピング磁気センサのスピン投影ノイズと磁気感度

Spin projection noise and the magnetic sensitivity of optically pumped magnetometers ( http://arxiv.org/abs/2402.10746v2 )

ライセンス: Link先を確認
K. Mouloudakis, V. Koutrouli, I. K. Kominis, M. W. Mitchell, G. Vasilakis(参考訳) アルカリ金属アンサンブルを用いた光ポンピング磁気センサ(opm)の究極磁気感度を得るためのプロトコルは、伸縮状態における非相関原子に依存している。 スピンプロジェクションノイズ(SPN)制限信号とノイズ比(SNR)とOPMの磁気感度を計算するための新しい手法を提案する。 このモデルは平均場密度行列ダイナミクスのみに基づいており、従来のモデルとは対照的に、スピン分極の程度、超微視的・超微視的相関、デコヒーレンス過程、原子-光結合、スピンダイナミクスがスピン-ノイズスペクトルに与える影響を考慮して、低場と高場の両方に適用できる。 プローブ周波数の微調整により、異なる超微粒子状態と基底状態相関を探索できる。 特にスピン交換緩和自由 (SERF) 法では, 磁気共鳴狭角化と増数密度, SERF磁力計の目印とともに, 新しいSERF特性, スピン先行周波数におけるスピン投射ノイズの低減が, 適切なプローブでSPNを減衰する強相関超微細スピンの結果として生じることを報告した。

Present protocols for obtaining the ultimate magnetic sensitivity of optically pumped magnetometers (OPMs) utilizing alkali-metal ensembles rely on uncorrelated atoms in stretched states. A new approach for calculating the spin projection noise (SPN)-limited signal to noise ratio (SNR) and the magnetic sensitivity of OPMs is proposed. Our model is based solely on the mean-field density matrix dynamics and in contrast to previous models, it applies to both low and high field regimes, it takes into account the degree of spin polarization, the intra- and interhyperfine correlations, the decoherence processes, the atom-light coupling and the effects of the spin dynamics on the spin-noise spectra. Fine tuning of the probe frequency allow us to explore different hyperfine states and ground-state correlations. Especially in the spin-exchange-relaxation-free (SERF) regime, alongside the magnetic resonance narrowing and the increased number density, hallmarks of SERF magnetometers, we report on a new SERF feature; the reduction of spin-projection noise at the spin precession frequency as a consequence of strongly-correlated hyperfine spins that attenuate and redistribute SPN when properly probed.
翻訳日:2024-02-23 17:43:24 公開日:2024-02-22
# Brant-2:脳信号の基礎モデル

Brant-2: Foundation Model for Brain Signals ( http://arxiv.org/abs/2402.10251v2 )

ライセンス: Link先を確認
Zhizhang Yuan, Daoze Zhang, Junru Chen, Geifei Gu, Yang Yang(参考訳) 基本的なモデルは、大量のラベルのないデータを事前トレーニングすることで、少量のラベル付きデータを持つさまざまなアプリケーションで強力なパフォーマンスを実現する。 このようなモデルは、多数のアプリケーションシナリオを含むため、脳信号の分析に特に効果的であり、大規模なアノテーションの実行には費用がかかる。 本研究では,脳信号における最大の基礎モデルであるbrant-2を提案する。 頭蓋内神経信号のための基礎モデルであるbrantと比較すると、brant-2はデータの変異やモデリングスケールに対する堅牢性を示すだけでなく、より広い範囲の脳神経データにも適用できる。 幅広いタスクを実験することで、brant-2は脳信号の様々な応用シナリオに適応できることを実証する。 さらに分析した結果、Brant-2のスケーラビリティを明らかにし、各コンポーネントの有効性を検証し、ラベルの少ないシナリオでパフォーマンスを維持するモデルの能力を示す。 ソースコードと事前トレーニングされたウェイトは以下の通りである。

Foundational models benefit from pre-training on large amounts of unlabeled data and enable strong performance in a wide variety of applications with a small amount of labeled data. Such models can be particularly effective in analyzing brain signals, as this field encompasses numerous application scenarios, and it is costly to perform large-scale annotation. In this work, we present the largest foundation model in brain signals, Brant-2. Compared to Brant, a foundation model designed for intracranial neural signals, Brant-2 not only exhibits robustness towards data variations and modeling scales but also can be applied to a broader range of brain neural data. By experimenting on an extensive range of tasks, we demonstrate that Brant-2 is adaptive to various application scenarios in brain signals. Further analyses reveal the scalability of the Brant-2, validate each component's effectiveness, and showcase our model's ability to maintain performance in scenarios with scarce labels. The source code and pre-trained weights are available at: https://github.com/yzz673/Brant-2.
翻訳日:2024-02-23 17:42:59 公開日:2024-02-22
# MM-Point:マルチビュー情報強化型マルチモーダルセルフスーパービジョン3Dポイントクラウド理解

MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding ( http://arxiv.org/abs/2402.10002v2 )

ライセンス: Link先を確認
Hai-Tao Yu, Mofei Song(参考訳) 知覚において、複数の感覚情報は、2Dビューから3Dオブジェクトに視覚情報をマッピングするために統合され、3D環境での理解に有用である。 しかし、異なる角度からレンダリングされた単一の2Dビューでは、限られた部分情報しか提供できないため、多視点2D情報の豊かさと価値は、3Dオブジェクトに対して優れた自己監督信号を提供することができる。 本稿では,モーダル内およびモーダル間類似性に基づく自己教師付きポイントクラウド表現学習手法MM-Pointを提案する。 MM-Pointの中核は、3Dオブジェクトと複数の2Dビューを同時にやりとりするマルチモーダル相互作用にある。 コントラスト学習に基づく2次元多視点情報の一貫したクロスモーダル目的をより効果的に実現するために,マルチMLPとマルチレベル拡張戦略を提案する。 注意深く設計されたトランスフォーメーション戦略により、2次元のマルチビューにおけるマルチレベル不変性をさらに学習する。 MM-Pointは、様々な下流タスクにおける最先端(SOTA)パフォーマンスを示す。 例えば、合成データセットmodelnet40では92.4%、実世界のデータセットscanobjectnnでは87.8%という最高精度を達成している。 さらに,その効果を,マイナショット分類,3次元部分分割,3次元意味セグメンテーションなどのタスクで実証する。

In perception, multiple sensory information is integrated to map visual information from 2D views onto 3D objects, which is beneficial for understanding in 3D environments. But in terms of a single 2D view rendered from different angles, only limited partial information can be provided.The richness and value of Multi-view 2D information can provide superior self-supervised signals for 3D objects. In this paper, we propose a novel self-supervised point cloud representation learning method, MM-Point, which is driven by intra-modal and inter-modal similarity objectives. The core of MM-Point lies in the Multi-modal interaction and transmission between 3D objects and multiple 2D views at the same time. In order to more effectively simultaneously perform the consistent cross-modal objective of 2D multi-view information based on contrastive learning, we further propose Multi-MLP and Multi-level Augmentation strategies. Through carefully designed transformation strategies, we further learn Multi-level invariance in 2D Multi-views. MM-Point demonstrates state-of-the-art (SOTA) performance in various downstream tasks. For instance, it achieves a peak accuracy of 92.4% on the synthetic dataset ModelNet40, and a top accuracy of 87.8% on the real-world dataset ScanObjectNN, comparable to fully supervised methods. Additionally, we demonstrate its effectiveness in tasks such as few-shot classification, 3D part segmentation and 3D semantic segmentation.
翻訳日:2024-02-23 17:42:42 公開日:2024-02-22
# トークンの表層情報に基づく事前学習言語モデルの知識

Knowledge of Pretrained Language Models on Surface Information of Tokens ( http://arxiv.org/abs/2402.09808v2 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Naoaki Okazaki(参考訳) 事前訓練された言語モデルはトークンの表面情報に関する知識を持っているか? 事前学習言語モデルにより得られた単語やサブワードの埋め込みに格納された表面情報を,トークン長,サブストリング,トークン構成の観点から検討した。 さらに,トークン表面に関する知識を生成できるモデルの性能評価を行った。 英語と日本語のコーパスを主に訓練した12の事前学習言語モデルに注目した。 実験の結果,事前学習された言語モデルにはトークン長とサブ文字列に関する知識があるが,トークン構成は持たないことがわかった。 さらに,得られた知識を効果的に活用するという観点から,デコーダ側にボトルネックが存在することを示唆する。

Do pretrained language models have knowledge regarding the surface information of tokens? We examined the surface information stored in word or subword embeddings acquired by pretrained language models from the perspectives of token length, substrings, and token constitution. Additionally, we evaluated the ability of models to generate knowledge regarding token surfaces. We focused on 12 pretrained language models that were mainly trained on English and Japanese corpora. Experimental results demonstrate that pretrained language models have knowledge regarding token length and substrings but not token constitution. Additionally, the results imply that there is a bottleneck on the decoder side in terms of effectively utilizing acquired knowledge.
翻訳日:2024-02-23 17:42:20 公開日:2024-02-22
# 学習エージェントを説得する

Persuading a Learning Agent ( http://arxiv.org/abs/2402.09721v2 )

ライセンス: Link先を確認
Tao Lin, Yiling Chen(参考訳) 主旨がコミットメントパワーを持っておらず、エージェントが主旨の信号に応答するためにアルゴリズムを用いて学習するベイズ説得問題(より一般的には、完全な情報を持つ一般化主従問題)について検討する。 この問題を, ほぼベスト対応剤を用いた一括一般化主エージェント問題に還元する。 この削減により、エージェントが文脈非回帰学習アルゴリズムを使用する場合、プリンシパルは、従来の非学習モデルにおいて、プリンシパルの最適ユーティリティに任意に近いユーティリティをコミットメントで保証することができ、もしエージェントが文脈非相対学習アルゴリズムを使用する場合、プリンシパルは、コミットメントを伴う非学習モデルにおいて最適なユーティリティよりもはるかに多くのユーティリティを得ることができない。 学習モデルにおけるプリンシパルの取得可能なユーティリティと非学習モデルの違いは、エージェントの後悔(swap-regret)によって制限される。 エージェントが平均に基づく学習アルゴリズム(非学習だが非学習的)を使用する場合、プリンシパルは非学習モデルよりもはるかに優れている。 これらの結論はベイズ的説得だけでなく、スタックルバーグゲームや契約設計を含む完全な情報を持つ一般の主エージェント問題にも当てはまる。

We study a repeated Bayesian persuasion problem (and more generally, any generalized principal-agent problem with complete information) where the principal does not have commitment power and the agent uses algorithms to learn to respond to the principal's signals. We reduce this problem to a one-shot generalized principal-agent problem with an approximately-best-responding agent. This reduction allows us to show that: if the agent uses contextual no-regret learning algorithms, then the principal can guarantee a utility that is arbitrarily close to the principal's optimal utility in the classic non-learning model with commitment; if the agent uses contextual no-swap-regret learning algorithms, then the principal cannot obtain any utility significantly more than the optimal utility in the non-learning model with commitment. The difference between the principal's obtainable utility in the learning model and the non-learning model is bounded by the agent's regret (swap-regret). If the agent uses mean-based learning algorithms (which can be no-regret but not no-swap-regret), then the principal can do significantly better than the non-learning model. These conclusions hold not only for Bayesian persuasion, but also for any generalized principal-agent problem with complete information, including Stackelberg games and contract design.
翻訳日:2024-02-23 17:42:10 公開日:2024-02-22
# Bosonic Pauli+: Concatenated Gottesman-Kitaev-Preskill Codesの効率的なシミュレーション

Bosonic Pauli+: Efficient Simulation of Concatenated Gottesman-Kitaev-Preskill Codes ( http://arxiv.org/abs/2402.09333v2 )

ライセンス: Link先を確認
Florian Hopfmueller, Maxime Tremblay, Philippe St-Jean, Baptiste Royer, Marc-Antoine Lemonde(参考訳) フォールトトレラントな量子誤り訂正への有望な経路は、Gottesman-Kitaev-Preskill (GKP) コードとキュービットコードとの結合である。 このような結合コードの開発には、多くのモードのダイナミクスをシミュレートしながら、ノイズをリアルにモデル化するシミュレーションツールが必要となる。 しかし、GKP符号を連結する大規模シミュレーションツールは、理想的なノイズモデルやGKP符号の実装に限られている。 本稿では、ボソニック多モードヒルベルト空間のリッチダイナミクスを捉えながら、多数のモードに対して効率的にシミュレーションできるボソニックポーリ+モデル(bp+)を紹介する。 本手法は,データ量子ビットが有限エネルギーGKP量子ビットで,小小(sBs)プロトコルで安定化され,シンドローム量子ビットが標準2レベルシステムであるようなハイブリッド曲面符号をシミュレートすることによって実証する。 BP+を用いて,そのような実装の論理誤差率を示す。 提案手法の精度の信頼性は,いくつかの関連する量子回路に対する実時間進化シミュレーションと比較することによって得られる。 sBsプロトコルを用いて安定化されたGKP量子ビットのために特別に開発されたが、BP+の数学的構造は汎用的であり、他のボソニック符号を用いた連結のシミュレーションにも適用できる。

A promising route towards fault-tolerant quantum error correction is the concatenation of a Gottesman-Kitaev-Preskill (GKP) code with a qubit code. Development of such concatenated codes requires simulation tools which realistically model noise, while being able to simulate the dynamics of many modes. However, so far, large-scale simulation tools for concatenated GKP codes have been limited to idealized noise models and GKP code implementations. Here, we introduce the Bosonic Pauli+ model (BP+), which can be simulated efficiently for a large number of modes, while capturing the rich dynamics in the bosonic multi-mode Hilbert space. We demonstrate the method by simulating a hybrid surface code, where the data qubits are finite-energy GKP qubits stabilized using the small-Big-small (sBs) protocol, and the syndrome qubits are standard two-level systems. Using BP+, we present logical error rates of such an implementation. Confidence in the accuracy of the method is gained by comparing its predictions with full time evolution simulations for several relevant quantum circuits. While developed specifically for GKP qubits stabilized using the sBs protocol, the mathematical structure of BP+ is generic and may be applicable also to the simulation of concatenations using other bosonic codes.
翻訳日:2024-02-23 17:41:25 公開日:2024-02-22
# 教師付き自己エンコーダニューラルネットワークの一般化のための潜在空間構成

Latent space configuration for improved generalization in supervised autoencoder neural networks ( http://arxiv.org/abs/2402.08441v2 )

ライセンス: Link先を確認
Nikita Gabdullin(参考訳) オートエンコーダ (AE) は、低次元の潜在空間 (LS) に入力を投影することでデータを圧縮する単純なニューラルネットワークのクラスである。 lsは訓練中の損失関数最小化に従って形成されるが、その特性とトポロジーは直接制御されない。 本稿では,AE LS特性に着目し,所望のトポロジを持つLSを得るための2つの方法を提案する。 提案手法は,LSに直接作用する幾何損失項を用いた損失構成とエンコーダ構成を含む。 その結果, 前者は, AE(SAE)のためのLSクラスタの位置と形状を定義し, 望ましい構成でLSを確実に取得できることが示唆された。 LS構成を知ることで、LSで類似度尺度を定義し、ラベルを予測したり、デコーダや分類器を使わずに複数の入力に対して類似度を推定することができる。 これがより安定し、解釈可能なトレーニングにつながることも示しています。 提案手法を用いて衣料品のテクスチャ分類を訓練したSAEは、細調整なしでLIP、Market1501、WildTrackのデータセットから見知らぬデータによく一般化し、見つからないクラスの類似性を評価できることを示した。 さらに,言語モデルを用いないテキストクエリを用いたクロスデータセット検索とテキストベース検索によるls類似度推定の利点について述べる。

Autoencoders (AE) are simple yet powerful class of neural networks that compress data by projecting input into low-dimensional latent space (LS). Whereas LS is formed according to the loss function minimization during training, its properties and topology are not controlled directly. In this paper we focus on AE LS properties and propose two methods for obtaining LS with desired topology, called LS configuration. The proposed methods include loss configuration using a geometric loss term that acts directly in LS, and encoder configuration. We show that the former allows to reliably obtain LS with desired configuration by defining the positions and shapes of LS clusters for supervised AE (SAE). Knowing LS configuration allows to define similarity measure in LS to predict labels or estimate similarity for multiple inputs without using decoders or classifiers. We also show that this leads to more stable and interpretable training. We show that SAE trained for clothes texture classification using the proposed method generalizes well to unseen data from LIP, Market1501, and WildTrack datasets without fine-tuning, and even allows to evaluate similarity for unseen classes. We further illustrate the advantages of pre-configured LS similarity estimation with cross-dataset searches and text-based search using a text query without language models.
翻訳日:2024-02-23 17:41:02 公開日:2024-02-22
# Step-On-Feet Tuning:ブートストラップによるLCMの自己アライメントのスケーリング

Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping ( http://arxiv.org/abs/2402.07610v2 )

ライセンス: Link先を確認
Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao(参考訳) 自己調整は、有望なモデル能力を確保しつつ、人間のアノテーションのコストを削減する効果的な方法である。 しかし、現在のほとんどの手法は単一のラウンドでデータ収集とトレーニングのステップを完了しており、自己整合モデルの継続的な改善能力を見落としている可能性がある。 マルチタイムブートストラップで自己調整を行う場合はどうでしょう? この戦略はモデルの性能を高めるのか、それとも急速な劣化につながるのか? 本稿では,大規模言語モデルにおける自己アライメントのブートストラップの影響について考察する。 この結果から,自己アライメントの自己アライメントは,コンテキスト内学習によるデータの多様性を保証することによって,シングルラウンドアプローチを著しく上回ることがわかった。 ブートストラップの能力をさらに活用するために,データのトレーニング順序を調査し,調整することで,モデルの性能が向上する。 これらの知見に基づいて,モデルが継続的に強化した小ショット機能を活用し,ゼロまたはワンショットのパフォーマンスを向上させるステップオン・フェート・チューニング(SOFT)を提案する。 簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。 実験では,SOFT(SOFT+)の多種多様な分類・生成タスクにおける効率を実証し,モデルアライメント性能を継続的に向上させる自己アライメントのブートストラップの可能性を強調した。

Self-alignment is an effective way to reduce the cost of human annotation while ensuring promising model capability. However, most current methods complete the data collection and training steps in a single round, which may overlook the continuously improving ability of self-aligned models. This gives rise to a key query: What if we do multi-time bootstrapping self-alignment? Does this strategy enhance model performance or lead to rapid degradation? In this paper, our pioneering exploration delves into the impact of bootstrapping self-alignment on large language models. Our findings reveal that bootstrapping self-alignment markedly surpasses the single-round approach, by guaranteeing data diversity from in-context learning. To further exploit the capabilities of bootstrapping, we investigate and adjust the training order of data, which yields improved performance of the model. Drawing on these findings, we propose Step-On-Feet Tuning (SOFT) which leverages model's continuously enhanced few-shot ability to boost zero or one-shot performance. Based on easy-to-hard training recipe, we propose SOFT+ which further boost self-alignment's performance. Our experiments demonstrate the efficiency of SOFT (SOFT+) across various classification and generation tasks, highlighting the potential of bootstrapping self-alignment on continually enhancing model alignment performance.
翻訳日:2024-02-23 17:40:38 公開日:2024-02-22
# FuncGrasp: 単一アノテーションオブジェクトからオブジェクト中心のニューラルグラフ関数を学習する

FuncGrasp: Learning Object-Centric Neural Grasp Functions from Single Annotated Example Object ( http://arxiv.org/abs/2402.05644v2 )

ライセンス: Link先を確認
Hanzhi Chen, Binbin Xu, Stefan Leutenegger(参考訳) 我々はFuncGraspというフレームワークについて述べる。これは1つの注釈付きオブジェクトと1ビューのRGB-D観測をカテゴリの先行情報で予測する。 一連のグリップポーズのみを転送する以前の作業とは異なり、FuncGraspはさまざまなインスタンス間でオブジェクト中心の連続グリップ関数によってパラメータ化される無限の構成を転送することを目的としている。 移動過程の容易化を目的として, グリップ構成を密にエンコードする有効なニューラルネットワーク表現であるNSGF(Neural Surface Grasping Fields)を提案する。 さらに、スフィアプリミティブを用いた関数間伝達を利用して意味論的意味のある分類対応を確立し、専門家の知識のない教師なしの方法で学習する。 シミュレータと実世界の両方で広範囲な実験を行い,その効果を示す。 顕著なことに,我々のフレームワークは,生成した把握に対する密度と信頼性の点で,いくつかの強力なベースライン手法よりも優れている。

We present FuncGrasp, a framework that can infer dense yet reliable grasp configurations for unseen objects using one annotated object and single-view RGB-D observation via categorical priors. Unlike previous works that only transfer a set of grasp poses, FuncGrasp aims to transfer infinite configurations parameterized by an object-centric continuous grasp function across varying instances. To ease the transfer process, we propose Neural Surface Grasping Fields (NSGF), an effective neural representation defined on the surface to densely encode grasp configurations. Further, we exploit function-to-function transfer using sphere primitives to establish semantically meaningful categorical correspondences, which are learned in an unsupervised fashion without any expert knowledge. We showcase the effectiveness through extensive experiments in both simulators and the real world. Remarkably, our framework significantly outperforms several strong baseline methods in terms of density and reliability for generated grasps.
翻訳日:2024-02-23 17:39:57 公開日:2024-02-22
# マルチモーダル学習を満たしたナレッジグラフ:包括的調査

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey ( http://arxiv.org/abs/2402.05391v3 )

ライセンス: Link先を確認
Zhuo Chen, Yichi Zhang, Yin Fang, Yuxia Geng, Lingbing Guo, Xiang Chen, Qian Li, Wen Zhang, Jiaoyan Chen, Yushan Zhu, Jiaqi Li, Xiaoze Liu, Jeff Z. Pan, Ningyu Zhang, Huajun Chen(参考訳) 知識グラフ(KG)は、セマンティックWebコミュニティがイノベーションのための新たな道を開くマルチモーダルな次元を探求する中で、さまざまなAIアプリケーションを進める上で重要な役割を果たす。 本稿では,KGがマルチモーダルタスクをサポートするKG駆動型マルチモーダル学習(KG4MM)と,KG研究をMMKG領域に拡張するMulti-Modal Knowledge Graph(MM4KG)の2つの主要な側面について,300以上の論文を慎重にレビューする。 まず、KGとMMKGを定義し、その構築の進捗を調査する。 我々のレビューでは、画像分類や視覚質問回答のようなKG対応のマルチモーダル学習タスクと、マルチモーダル知識グラフ補完やエンティティアライメントのような固有のMMKGタスクの2つの主要なタスクカテゴリが紹介されている。 これらのタスクのほとんどは、定義、評価ベンチマークを提供し、関連する研究を行うために必要な洞察を概説します。 最後に,現在の課題を議論し,大規模言語モデリングの進展やマルチモーダル事前学習戦略など,新たなトレンドを特定する。 この調査は、既にKGとマルチモーダルラーニング研究に関わっており、MMKG研究の進化の展望を提供し、今後の研究を支援するための総合的な参考となることを目的としている。

Knowledge Graphs (KGs) play a pivotal role in advancing various AI applications, with the semantic web community's exploration into multi-modal dimensions unlocking new avenues for innovation. In this survey, we carefully review over 300 articles, focusing on KG-aware research in two principal aspects: KG-driven Multi-Modal (KG4MM) learning, where KGs support multi-modal tasks, and Multi-Modal Knowledge Graph (MM4KG), which extends KG studies into the MMKG realm. We begin by defining KGs and MMKGs, then explore their construction progress. Our review includes two primary task categories: KG-aware multi-modal learning tasks, such as Image Classification and Visual Question Answering, and intrinsic MMKG tasks like Multi-modal Knowledge Graph Completion and Entity Alignment, highlighting specific research trajectories. For most of these tasks, we provide definitions, evaluation benchmarks, and additionally outline essential insights for conducting relevant research. Finally, we discuss current challenges and identify emerging trends, such as progress in Large Language Modeling and Multi-modal Pre-training strategies. This survey aims to serve as a comprehensive reference for researchers already involved in or considering delving into KG and multi-modal learning research, offering insights into the evolving landscape of MMKG research and supporting future work.
翻訳日:2024-02-23 17:39:38 公開日:2024-02-22
# フェアテキスト埋め込みのためのコンテンツ条件デバイアス

Content Conditional Debiasing for Fair Text Embedding ( http://arxiv.org/abs/2402.14208v1 )

ライセンス: Link先を確認
Wenlong Deng, Blair Chen, Xiaoxiao Li, Christos Thrampoulidis(参考訳) 機械学習モデルにおけるバイアスの緩和は自然言語処理(NLP)において注目を集めている。 しかし、公正なテキスト埋め込みにフォーカスする研究はごくわずかで、現実のアプリケーションでは極めて困難である。 本稿では,公正なテキスト埋め込みを学習するための新しい手法を提案する。 コンテンツに条件付きテキスト埋め込みとセンシティブ属性の条件独立性を確保することで,ユーティリティトレードオフを維持しつつ公平性を実現する。 具体的には、異なる機密属性を持つテキストの埋め込みを強制するが、同一のコンテンツは、対応する中性テキストの埋め込みに対して同じ距離を維持する。 さらに,Large Language Models (LLMs) を用いてテキストを異なるセンシティブなグループに拡張することで,適切なトレーニングデータ不足に対処する。 提案手法は, 組込みの実用性を維持しつつ, 公平性を効果的に向上することを示し, 組込みの条件独立化に向けた先駆的な取り組みを示す。

Mitigating biases in machine learning models has gained increasing attention in Natural Language Processing (NLP). Yet, only a few studies focus on fair text embeddings, which are crucial yet challenging for real-world applications. In this paper, we propose a novel method for learning fair text embeddings. We achieve fairness while maintaining utility trade-off by ensuring conditional independence between sensitive attributes and text embeddings conditioned on the content. Specifically, we enforce that embeddings of texts with different sensitive attributes but identical content maintain the same distance toward the embedding of their corresponding neutral text. Furthermore, we address the issue of lacking proper training data by using Large Language Models (LLMs) to augment texts into different sensitive groups. Our extensive evaluations demonstrate that our approach effectively improves fairness while preserving the utility of embeddings, representing a pioneering effort in achieving conditional independence for fair text embeddings.
翻訳日:2024-02-23 16:55:51 公開日:2024-02-22
# 大規模言語モデルによるwikipediaライクな記事のスクラッチ作成支援

Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models ( http://arxiv.org/abs/2402.14207v1 )

ライセンス: Link先を確認
Yijia Shao, Yucheng Jiang, Theodore A. Kanell, Peter Xu, Omar Khattab, Monica S. Lam(参考訳) 我々は、大きな言語モデルを用いて、ウィキペディアページに匹敵する幅と深さの長い記事をスクラッチから書く方法を研究する。 この未熟な問題は、記事を書く前にトピックを調査し、アウトラインを作成する方法を含む、事前執筆段階で新たな課題を提起する。 本稿では,検索と複数パースペクティブ質問応答によるトピックアウトライン生成のための記述システムSTORMを提案する。 STORM は,(1) 対象トピックの研究における多様な視点の発見,(2) 信頼されたインターネットソースを基盤としたトピックエキスパートに異なる視点の著者が質問を行う会話のシミュレート,(3) 収集した情報をキュレートしてアウトラインを作成する。 評価のために、最近の高品質ウィキペディア記事のデータセットであるFreshWikiをキュレートし、事前作成段階を評価するためのアウトラインアセスメントを定式化する。 経験豊富なウィキペディア編集者からのフィードバックも集める。 アウトライン駆動の検索強化ベースラインで生成された記事と比較すると、STORMの記事は(25%の絶対的な増加によって)組織化され、カバー範囲が広く(10%の増収)。 専門家のフィードバックは、ソースバイアス転送や非関連事実の過剰関連など、根拠のない長い記事を生成するための新しい課題の特定にも役立ちます。

We study how to apply large language models to write grounded and organized long-form articles from scratch, with comparable breadth and depth to Wikipedia pages. This underexplored problem poses new challenges at the pre-writing stage, including how to research the topic and prepare an outline prior to writing. We propose STORM, a writing system for the Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking. STORM models the pre-writing stage by (1) discovering diverse perspectives in researching the given topic, (2) simulating conversations where writers carrying different perspectives pose questions to a topic expert grounded on trusted Internet sources, (3) curating the collected information to create an outline. For evaluation, we curate FreshWiki, a dataset of recent high-quality Wikipedia articles, and formulate outline assessments to evaluate the pre-writing stage. We further gather feedback from experienced Wikipedia editors. Compared to articles generated by an outline-driven retrieval-augmented baseline, more of STORM's articles are deemed to be organized (by a 25% absolute increase) and broad in coverage (by 10%). The expert feedback also helps identify new challenges for generating grounded long articles, such as source bias transfer and over-association of unrelated facts.
翻訳日:2024-02-23 16:55:33 公開日:2024-02-22
# patched spectrogram transformerを用いた圧縮ロバスト合成音声検出

Compression Robust Synthetic Speech Detection Using Patched Spectrogram Transformer ( http://arxiv.org/abs/2402.14205v1 )

ライセンス: Link先を確認
Amit Kumar Singh Yadav, Ziyue Xiang, Kratika Bhagtani, Paolo Bestagini, Stefano Tubaro, Edward J. Delp(参考訳) 多くのディープラーニング合成音声生成ツールが利用可能である。 合成音声の使用は、金融詐欺、人物の偽装、誤情報の拡散を引き起こした。 このため,合成音声を検出できる法医学的手法が提案されている。 既存の手法は1つのデータセットに過度に適合することが多く、ソーシャルプラットフォーム上で共有される合成音声の検出などの実践的なシナリオでは性能が大幅に低下する。 本稿では,時間領域の音声信号をメルスペクトルに変換し,変換器ニューラルネットワークを用いてパッチで処理する合成音声検出器であるPatched Spectrogram Synthetic Speech Detection Transformer (PS3DT)を提案する。 ASVspoof2019データセットにおけるPS3DTの検出性能を評価する。 実験の結果,PS3DTは合成音声検出のためのスペクトログラムを用いた他の手法と比較して,ASVspoof2019データセットで良好に動作することがわかった。 In-the-Wildデータセット上でのPS3DTの一般化性能についても検討する。 ps3dtは、アウトオブディストリビューションデータセットから合成音声を検出するための既存の方法よりも多く一般化している。 また,ps3dtのロバスト性を評価し,電話品質合成音声とソーシャルプラットフォームで共有される合成音声(圧縮音声)を検出する。 ps3dtは圧縮に頑健であり、既存の方法よりも電話品質の合成音声を検出できる。

Many deep learning synthetic speech generation tools are readily available. The use of synthetic speech has caused financial fraud, impersonation of people, and misinformation to spread. For this reason forensic methods that can detect synthetic speech have been proposed. Existing methods often overfit on one dataset and their performance reduces substantially in practical scenarios such as detecting synthetic speech shared on social platforms. In this paper we propose, Patched Spectrogram Synthetic Speech Detection Transformer (PS3DT), a synthetic speech detector that converts a time domain speech signal to a mel-spectrogram and processes it in patches using a transformer neural network. We evaluate the detection performance of PS3DT on ASVspoof2019 dataset. Our experiments show that PS3DT performs well on ASVspoof2019 dataset compared to other approaches using spectrogram for synthetic speech detection. We also investigate generalization performance of PS3DT on In-the-Wild dataset. PS3DT generalizes well than several existing methods on detecting synthetic speech from an out-of-distribution dataset. We also evaluate robustness of PS3DT to detect telephone quality synthetic speech and synthetic speech shared on social platforms (compressed speech). PS3DT is robust to compression and can detect telephone quality synthetic speech better than several existing methods.
翻訳日:2024-02-23 16:55:07 公開日:2024-02-22
# テレグラム上の消毒線から発生するウイルスボットとヒトの消毒情報拡散の探索的研究

An Exploratory Analysis of COVID Bot vs Human Disinformation Dissemination stemming from the Disinformation Dozen on Telegram ( http://arxiv.org/abs/2402.14203v1 )

ライセンス: Link先を確認
Lynnette Hui Xian Ng, Ian Kloo, Kathleen M. Carley(参考訳) 2021年の新型コロナウイルスのパンデミックは、世界的な健康危機を引き起こし、インフォデミックを引き起こした。 新型コロナウイルス(COVID-19)や治療薬、ワクチンなどの偽情報を広める鍵は、「偽情報ドリーン」と呼ばれる12人のソーシャルメディアパーソナリティが特定された。 本研究は,モバイルメッセージングおよびソーシャルメディアプラットフォームであるtelegram上で,このグループによって広められた偽情報の拡散に焦点を当てている。 ユーザを3つのグループ – Disinformation Dozen,ボット,人間 – に分離した後,2023年1月から6月にかけてのTelegramメッセージのデータセットを使用して,時間的,トピック的,ネットワーク的な特徴を比較分析した。 我々は,偽情報の拡散は偽情報の拡散に深く関わっているが,偽情報の伝播の原動力ではないことを観察する。 ボットユーザーは会話スレッドで非常に活発であり、人間ユーザーは情報伝達者であり、フォワーディングメカニズムを介してテレグラムチャネル間で投稿を広める。

The COVID-19 pandemic of 2021 led to a worldwide health crisis that was accompanied by an infodemic. A group of 12 social media personalities, dubbed the ``Disinformation Dozen", were identified as key in spreading disinformation regarding the COVID-19 virus, treatments, and vaccines. This study focuses on the spread of disinformation propagated by this group on Telegram, a mobile messaging and social media platform. After segregating users into three groups -- the Disinformation Dozen, bots, and humans --, we perform an investigation with a dataset of Telegram messages from January to June 2023, comparatively analyzing temporal, topical, and network features. We observe that the Disinformation Dozen are highly involved in the initial dissemination of disinformation but are not the main drivers of the propagation of disinformation. Bot users are extremely active in conversation threads, while human users are active propagators of information, disseminating posts between Telegram channels through the forwarding mechanism.
翻訳日:2024-02-23 16:54:45 公開日:2024-02-22
# 位置符号化によるグラフトランスフォーマーの比較

Comparing Graph Transformers via Positional Encodings ( http://arxiv.org/abs/2402.14202v1 )

ライセンス: Link先を確認
Mitchell Black, Zhengchao Wan, Gal Mishne, Amir Nayyeri, and Yusu Wang(参考訳) グラフ変換器の識別能力は、位置符号化の選択と密接に関連している。 位置符号化には、絶対位置符号化(APE)と相対位置符号化(RPE)の2種類がある。 APEは各ノードに特徴を割り当て、変換器への入力として与えられる。 rpesは代わりに、グラフ距離などの各ノードに特徴を割り当て、注意ブロックを強化するために使用される。 先行して、結果のグラフ変換器のパワーを最大化するためにどの方法が優れているかは不明確である。 本稿では,これらの異なるタイプの位置符号化の関係を理解することを目的とする。 興味深いことに、 APE と RPE を用いたグラフ変換器は、パワーの区別の点で等価である。 特に, APE と RPE をグラフ変換器の区別能力を維持しながら交換する方法を実証する。 理論的な結果に基づき, 抵抗距離と最近導入された安定かつ表現力のある位置符号化(SPE)を含む複数の APE および RPE について検討し, 変圧器による識別能力の比較を行った。 私たちの研究は、位置エンコーディングの膨大な選択肢をナビゲートし、グラフトランスフォーマーのための位置エンコーディングの将来設計に関するガイダンスを提供します。

The distinguishing power of graph transformers is closely tied to the choice of positional encoding: features used to augment the base transformer with information about the graph. There are two primary types of positional encoding: absolute positional encodings (APEs) and relative positional encodings (RPEs). APEs assign features to each node and are given as input to the transformer. RPEs instead assign a feature to each pair of nodes, e.g., graph distance, and are used to augment the attention block. A priori, it is unclear which method is better for maximizing the power of the resulting graph transformer. In this paper, we aim to understand the relationship between these different types of positional encodings. Interestingly, we show that graph transformers using APEs and RPEs are equivalent in terms of distinguishing power. In particular, we demonstrate how to interchange APEs and RPEs while maintaining their distinguishing power in terms of graph transformers. Based on our theoretical results, we provide a study on several APEs and RPEs (including the resistance distance and the recently introduced stable and expressive positional encoding (SPE)) and compare their distinguishing power in terms of transformers. We believe our work will help navigate the huge number of choices of positional encoding and will provide guidance on the future design of positional encodings for graph transformers.
翻訳日:2024-02-23 16:54:25 公開日:2024-02-22
# 会話の理解に向けて:ドメイン知識と大規模言語モデル

Towards Understanding Counseling Conversations: Domain Knowledge and Large Language Models ( http://arxiv.org/abs/2402.14200v1 )

ライセンス: Link先を確認
Younghun Lee, Dan Goldwasser, Laura Schwab Reese(参考訳) カウンセリング会話のダイナミクスを理解することは重要な課題であるが、トランスフォーマーベースの事前学習言語モデルの最近の進歩にかかわらず、NLPの問題である。 本稿では,危機カウンセラーと支援者との会話をより良く表現するために,ドメイン知識と大規模言語モデル(llm)の有効性を検討するための体系的アプローチを提案する。 本稿では,トランスフォーマーモデルやGPTモデルのような最先端言語モデルは,会話結果の予測に失敗することを示す。 会話によりリッチなコンテキストを提供するために、人間アノテーション付きドメイン知識とLLM生成機能を導入し、ドメイン知識とLLM機能の統合をシンプルにすることで、モデルの性能を約15%改善する。 ドメイン知識とllm生成機能の両方が、会話に追加のコンテキストとして使用される場合、カウンセリングの会話をよりよく特徴付けるために活用できると主張する。

Understanding the dynamics of counseling conversations is an important task, yet it is a challenging NLP problem regardless of the recent advance of Transformer-based pre-trained language models. This paper proposes a systematic approach to examine the efficacy of domain knowledge and large language models (LLMs) in better representing conversations between a crisis counselor and a help seeker. We empirically show that state-of-the-art language models such as Transformer-based models and GPT models fail to predict the conversation outcome. To provide richer context to conversations, we incorporate human-annotated domain knowledge and LLM-generated features; simple integration of domain knowledge and LLM features improves the model performance by approximately 15%. We argue that both domain knowledge and LLM-generated features can be exploited to better characterize counseling conversations when they are used as an additional context to conversations.
翻訳日:2024-02-23 16:54:00 公開日:2024-02-22
# Mip-Grid:ニューラルラジアンスフィールドのためのアンチエイリアスグリッド表現

Mip-Grid: Anti-aliased Grid Representations for Neural Radiance Fields ( http://arxiv.org/abs/2402.14196v1 )

ライセンス: Link先を確認
Seungtae Nam, Daniel Rho, Jong Hwan Ko, Eunbyung Park(参考訳) ニューラル・ラジアンス・フィールド(nerf)による3dシーンの表現と新しい視点画像の生成の顕著な成果にもかかわらず、様々なカメラ距離で「ジャギー」や「ブラドリー」画像をレンダリングするエイリアス問題はほとんど既存のアプローチでは解決されていない。 最近提案されたmip-NeRFは、光線の代わりに円錐状のフラストラムを描画することでこの問題に対処している。 しかしながら、最新のグリッドベースメソッドによって提供される高速トレーニング速度を欠いた、ラミアンスフィールドを表現するためにmlpアーキテクチャに依存している。 そこで本研究では,抗エイリアス手法を放射能場に対するグリッドベース表現に統合した新しいアプローチであるmip-gridを提案する。 提案手法では,共有グリッド表現に単純な畳み込み操作を適用し,スケールアウェア座標を用いて,生成したマルチスケールグリッドから異なるスケールで特徴を検索する。 提案手法の有効性を検証するため,提案手法を2つの代表格子法であるTensoRFとK-Planesに統合した。 実験の結果、mip-Gridは両方の手法のレンダリング性能を大幅に改善し、マルチスケールデータセット上でのmip-NeRFよりも優れ、トレーニング時間が大幅に向上した。 コードとデモビデオについては、https://stnamjef.github.io/mipgrid.github.io/を参照。

Despite the remarkable achievements of neural radiance fields (NeRF) in representing 3D scenes and generating novel view images, the aliasing issue, rendering "jaggies" or "blurry" images at varying camera distances, remains unresolved in most existing approaches. The recently proposed mip-NeRF has addressed this challenge by rendering conical frustums instead of rays. However, it relies on MLP architecture to represent the radiance fields, missing out on the fast training speed offered by the latest grid-based methods. In this work, we present mip-Grid, a novel approach that integrates anti-aliasing techniques into grid-based representations for radiance fields, mitigating the aliasing artifacts while enjoying fast training time. The proposed method generates multi-scale grids by applying simple convolution operations over a shared grid representation and uses the scale-aware coordinate to retrieve features at different scales from the generated multi-scale grids. To test the effectiveness, we integrated the proposed method into the two recent representative grid-based methods, TensoRF and K-Planes. Experimental results demonstrate that mip-Grid greatly improves the rendering performance of both methods and even outperforms mip-NeRF on multi-scale datasets while achieving significantly faster training time. For code and demo videos, please see https://stnamjef.github.io/mipgrid.github.io/.
翻訳日:2024-02-23 16:53:43 公開日:2024-02-22
# 削減のための学習: 大きな言語モデルを促す構造化データの最適な表現

Learning to Reduce: Optimal Representations of Structured Data in Prompting Large Language Models ( http://arxiv.org/abs/2402.14195v1 )

ライセンス: Link先を確認
Younghun Lee, Sungchul Kim, Tong Yu, Ryan A. Rossi, Xiang Chen(参考訳) 大規模言語モデル(LLM)は、多くの下流タスクで同等のパフォーマンスを示す汎用AIエージェントとして広く使用されている。 しかし、既存の研究は、LLMが構造化データ(例えば、KG、テーブル、DB)をプロンプトに統合することは困難であることを示している。 本稿では,タスク記述とコンテキスト入力が与えられた場合の入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。 本モデルは,オンライン強化学習(On-Policy Reinforcement Learning)を用いて入力コンテキストを削減することを学び,固定LLMの推論性能の向上を目指す。 実験結果から,本モデルは,入力コンテキストから関連する証拠を選択する際に,同等の精度を達成するだけでなく,データセットの一般化性も示す。 さらに,我々のモデルは,特にコンテキストが長い場合,下流タスクにおけるLLMの性能向上に役立つことを示す。

Large Language Models (LLMs) have been widely used as general-purpose AI agents showing comparable performance on many downstream tasks. However, existing work shows that it is challenging for LLMs to integrate structured data (e.g. KG, tables, DBs) into their prompts; LLMs need to either understand long text data or select the most relevant evidence prior to inference, and both approaches are not trivial. In this paper, we propose a framework, Learning to Reduce, that fine-tunes a language model to generate a reduced version of an input context, given a task description and context input. The model learns to reduce the input context using On-Policy Reinforcement Learning and aims to improve the reasoning performance of a fixed LLM. Experimental results illustrate that our model not only achieves comparable accuracies in selecting the relevant evidence from an input context, but also shows generalizability on different datasets. We further show that our model helps improve the LLM's performance on downstream tasks especially when the context is long.
翻訳日:2024-02-23 16:53:16 公開日:2024-02-22
# BeTAIL: 人間のレーシングゲームプレイによる行動変換器逆転模倣学習

BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay ( http://arxiv.org/abs/2402.14194v1 )

ライセンス: Link先を確認
Catherine Weaver, Chen Tang, Ce Hao, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan(参考訳) 模倣学習は、手作りの報酬関数を必要としないデモンストレーションからポリシーを学ぶ。 自律レーシングのような多くのロボットタスクでは、模倣されたポリシーは複雑な環境ダイナミクスと人間の意思決定をモデル化しなければならない。 シーケンスモデリングは複雑な動きのパターンを捉えるのに非常に有効であるが、実世界のロボット作業でよく見られる新しい環境や分布シフトへの適応に苦労している。 対照的に、逆模倣学習(adversarial imitation learning, ail)は、この効果を緩和するが、サンプルの非効率や複雑な動きパターンの扱いに苦しむ。 そこで本研究では,行動トランスフォーマティブ(bet)ポリシーとオンラインailを組み合わせた行動トランスフォーマティブ学習を提案する。 betailは、人間の専門家の逐次意思決定プロセスをモデル化し、分散状態や環境力学の変化を正すために、betポリシーにailの残留ポリシーを追加する。 我々はgran turismo sportのリアルヒューマンゲームプレイのエキスパートレベルのデモンストレーションで3つの課題を検証した。 提案する残留BeTAILは,下流学習とは異なるトラックでBeTを事前学習しても,環境相互作用を低減し,レース性能と安定性を向上させる。 ビデオとコードは、https://sites.google.com/berkeley.edu/BeTAIL/home.comで公開されている。

Imitation learning learns a policy from demonstrations without requiring hand-designed reward functions. In many robotic tasks, such as autonomous racing, imitated policies must model complex environment dynamics and human decision-making. Sequence modeling is highly effective in capturing intricate patterns of motion sequences but struggles to adapt to new environments or distribution shifts that are common in real-world robotics tasks. In contrast, Adversarial Imitation Learning (AIL) can mitigate this effect, but struggles with sample inefficiency and handling complex motion patterns. Thus, we propose BeTAIL: Behavior Transformer Adversarial Imitation Learning, which combines a Behavior Transformer (BeT) policy from human demonstrations with online AIL. BeTAIL adds an AIL residual policy to the BeT policy to model the sequential decision-making process of human experts and correct for out-of-distribution states or shifts in environment dynamics. We test BeTAIL on three challenges with expert-level demonstrations of real human gameplay in Gran Turismo Sport. Our proposed residual BeTAIL reduces environment interactions and improves racing performance and stability, even when the BeT is pretrained on different tracks than downstream learning. Videos and code available at: https://sites.google.com/berkeley.edu/BeTAIL/home.
翻訳日:2024-02-23 16:52:57 公開日:2024-02-22
# 量子位相推定アルゴリズムの精度向上のための反復法

An Iterative Method to Improve the Precision of Quantum Phase Estimation Algorithm ( http://arxiv.org/abs/2402.14191v1 )

ライセンス: Link先を確認
Junxu Li(参考訳) ここでは,量子位相推定 (qpe) アルゴリズムを再検討し,様々な時間スパンにおけるプロパゲータを用いたqpeの精度向上のための反復法を考案する。 所定のプロパゲータと特定の固有状態を入力として、プロパゲータ付きqpeを導入し、固有エネルギーに対応する位相を推定する。 複素指数関数の周期性のため、より長い時間にわたってプロパゲータにqpeを適用することで、コーム的範囲の枝の固有エネルギーをピンポイントすることができる。 したがって、適切な時間スパンをピックアップすることで、対応するプロパゲータとの反復qpeにより、固有エネルギーをより正確にピンポイントすることができる。 さらに,ancilla qubitsとして数キュービットしか存在しない場合でも,提案する反復的手法により高精度な計算が可能となる。 本研究は、ノイズ中規模量子(nisq)デバイス上での固有値の高精度推定のための実現可能かつ有望な手段を提供する。

Here we revisit the quantum phase estimation (QPE) algorithm, and devise an iterative method to improve the precision of QPE with propagators over a variety of time spans. For a given propagator and a certain eigenstate as input, QPE with propagator is introduced to estimate the phase corresponding to an eigenenergy. Due to the periodicity of the complex exponential, we can pinpoint the eigenenergy in a branch of comb-like ranges by applying QPE with propagators over longer time spans. Thus, by picking up appropriate time spans, the iterative QPE with corresponding propagators can enable us to pinpoint the eigenenergy more precisely. Moreover, even if there are only few qubits as ancilla qubits, high precision is still available by the proposed iterative method. Our work provides a feasible and promising means toward precise estimations of eigenvalue on noisy intermediate-scale quantum (NISQ) devices.
翻訳日:2024-02-23 16:52:34 公開日:2024-02-22
# 採用から適応へ:twitterにおける新しい絵文字の拡散の追跡

From Adoption to Adaption: Tracing the Diffusion of New Emojis on Twitter ( http://arxiv.org/abs/2402.14187v1 )

ライセンス: Link先を確認
Yuhang Zhou, Xuan Lu, Wei Ai(参考訳) ソーシャルメディアの急速な発展の中で、Unicodeリリースバージョンにおける新しい絵文字の導入は、デジタル言語の進化を探求する構造化された機会を提供する。 サンプルされた英語ツイートの大規模なデータセットを分析し、新たにリリースされた絵文字がいかに勢いを増し、意味的に進化するかを調べる。 アーリーアダプターと絵文字のセマンティクスのコミュニティサイズは、彼らの人気を決定する上で不可欠である。 特定の絵文字は拡散過程で意味や感情の関連が顕著に変化した。 さらに, 言語モデルを用いて, 意味的に類似した文脈を持つ単語や既存の絵文字を抽出し, 新たな絵文字の解釈を促進する新しい枠組みを提案する。 このフレームワークは、未知の新しい絵文字を親しみやすい絵文字に置き換えることで、感情分類性能を向上させる効果を示す。 本研究は、新しい言語単位がどのように採用され、適応され、オンラインコミュニケーションの枠組みに統合されるかを理解するための新しい視点を提供する。

In the rapidly evolving landscape of social media, the introduction of new emojis in Unicode release versions presents a structured opportunity to explore digital language evolution. Analyzing a large dataset of sampled English tweets, we examine how newly released emojis gain traction and evolve in meaning. We find that community size of early adopters and emoji semantics are crucial in determining their popularity. Certain emojis experienced notable shifts in the meanings and sentiment associations during the diffusion process. Additionally, we propose a novel framework utilizing language models to extract words and pre-existing emojis with semantically similar contexts, which enhances interpretation of new emojis. The framework demonstrates its effectiveness in improving sentiment classification performance by substituting unknown new emojis with familiar ones. This study offers a new perspective in understanding how new language units are adopted, adapted, and integrated into the fabric of online communication.
翻訳日:2024-02-23 16:52:22 公開日:2024-02-22
# ヒント:マスク認識エンコーディングと注目度向上による高品質塗装変圧器

HINT: High-quality INPainting Transformer with Mask-Aware Encoding and Enhanced Attention ( http://arxiv.org/abs/2402.14185v1 )

ライセンス: Link先を確認
Shuang Chen, Amir Atapour-Abarghouei, Hubert P. H. Shum(参考訳) 既存の画像塗装法は畳み込みに基づくダウンサンプリング手法を利用して空間次元を小さくする。 これは、特に大きな欠落領域のシナリオにおいて、利用可能な情報が本質的にスパースしている腐敗した画像から情報を失う可能性がある。 近年の変圧器内自己着脱機構の進歩により、塗装を含む多くのコンピュータビジョンタスクが大幅に改善されている。 しかし、計算コストに制限されるため、既存の手法ではそのようなモデルの長距離モデリング能力を完全に活用することはできない。 本稿では,画像から抽出された可視情報を保存し,モデル内のハイレベルな推論に使用可能な情報の完全性を維持しつつ,新たなマスクアウェア画素シャッフルダウンサンプリングモジュール(mpd)からなる,ヒントとして省略されたエンドツーエンドの高品質インパインティングトランスを提案する。 さらに,空間認識を解釈し,複数のスケールで劣化画像をモデル化する効率的な自己注意機構である空間活性化チャネルアテンション層(scal)を提案する。 音声認識における最近の進歩によって動機付けられたSCALの有効性をさらに高めるために,SCALモジュールの前後にフィードフォワードネットワークを配置するサンドイッチ構造を導入する。 我々は,CelebA,CelebA-HQ,Places2,Dunhuangの4つのデータセットにおける現代最先端モデルと比較して,HINTの優れた性能を示す。

Existing image inpainting methods leverage convolution-based downsampling approaches to reduce spatial dimensions. This may result in information loss from corrupted images where the available information is inherently sparse, especially for the scenario of large missing regions. Recent advances in self-attention mechanisms within transformers have led to significant improvements in many computer vision tasks including inpainting. However, limited by the computational costs, existing methods cannot fully exploit the efficacy of long-range modelling capabilities of such models. In this paper, we propose an end-to-end High-quality INpainting Transformer, abbreviated as HINT, which consists of a novel mask-aware pixel-shuffle downsampling module (MPD) to preserve the visible information extracted from the corrupted image while maintaining the integrity of the information available for high-level inferences made within the model. Moreover, we propose a Spatially-activated Channel Attention Layer (SCAL), an efficient self-attention mechanism interpreting spatial awareness to model the corrupted image at multiple scales. To further enhance the effectiveness of SCAL, motivated by recent advanced in speech recognition, we introduce a sandwich structure that places feed-forward networks before and after the SCAL module. We demonstrate the superior performance of HINT compared to contemporary state-of-the-art models on four datasets, CelebA, CelebA-HQ, Places2, and Dunhuang.
翻訳日:2024-02-23 16:52:07 公開日:2024-02-22
# トポロジカルデータ解析に基づく言語モデルの多様性認識

Diversity-Aware Ensembling of Language Models Based on Topological Data Analysis ( http://arxiv.org/abs/2402.14184v1 )

ライセンス: Link先を確認
Polina Proskura, Alexey Zaytsev(参考訳) アンサンブルは、機械学習モデルのパフォーマンスを改善するための重要なツールである。 自然言語処理に関連する場合、アンサンブルはオープンソースで利用可能な複数の大きなモデルのためにメソッドのパフォーマンスを高める。 しかし、既存のアプローチはモデルごとに等しい重みを持つアンサンブルによる予測の単純な平均化に依存しており、モデルの質と適合性の違いを無視している。 我々は,NLPモデルのアンサンブルに対する重み付けを,個々の性能の知識だけでなく,互いに類似した知識を用いて推定する。 位相データ解析(tda)に基づく距離尺度を採用することで,アンサンブルを改善する。 品質はテキスト分類精度と関連する不確実性推定の両方を改善する。

Ensembles are important tools for improving the performance of machine learning models. In cases related to natural language processing, ensembles boost the performance of a method due to multiple large models available in open source. However, existing approaches mostly rely on simple averaging of predictions by ensembles with equal weights for each model, ignoring differences in the quality and conformity of models. We propose to estimate weights for ensembles of NLP models using not only knowledge of their individual performance but also their similarity to each other. By adopting distance measures based on Topological Data Analysis (TDA), we improve our ensemble. The quality improves for both text classification accuracy and relevant uncertainty estimation.
翻訳日:2024-02-23 16:51:42 公開日:2024-02-22
# 機械と人間は類似のコードにフォーカスするか? コード要約における大規模言語モデルの説明可能性の探索

Do Machines and Humans Focus on Similar Code? Exploring Explainability of Large Language Models in Code Summarization ( http://arxiv.org/abs/2402.14182v1 )

ライセンス: Link先を確認
Jiliang Li, Yifan Zhang, Zachary Karas, Collin McMillan, Kevin Leach, Yu Huang(参考訳) 最近の言語モデルはソースコードの要約に熟練している。 しかし、機械学習の他の多くの分野と同様に、コードの言語モデルには十分な説明性がない。 非公式には、モデルがどのようにしてコードから学習するか、という公式的で直感的な理解が欠けている。 言語モデルの説明性は、モデルが高品質なコード要約を作成することを学ぶと、人間のプログラマが識別する部分と同じコード部分を選択するのにも役立ちます。 本稿では,人間の理解のレンズによるコード要約における言語モデルの説明可能性の検討から,ネガティブな結果を報告する。 コード要約タスクにおける固定数や持続時間などのアイトラッキング指標を用いて、人間のコードのフォーカスを測定する。 言語モデルの焦点を近似するために、我々は最先端のモデル非依存、ブラックボックス、摂動に基づくアプローチ、SHAP(SHapley Additive exPlanations)を用いて、どのコードトークンが要約の生成に影響を与えるかを特定する。 これらの設定を用いて、言語モデルの焦点と人間のプログラマの注意との間に統計的に有意な関係は見つからない。 さらに、この設定におけるモデルと人間の焦点のアライメントは、llm生成要約の品質を左右しないようである。 本研究は、SHAPに基づくモデル焦点測定と人間の焦点を合わせることができないことを明らかにする。 この結果は、コード要約およびソフトウェア工学タスクにおける説明可能な言語モデルに関する複数のオープンな質問を将来の調査に求め、コードのための言語モデルのトレーニングメカニズム、コードに人間とモデルの注意が一致しているかどうか、人間の注意が言語モデルの開発を改善することができるかどうか、そして、他のモデル焦点が説明可能性を改善するのに適しているか、などである。

Recent language models have demonstrated proficiency in summarizing source code. However, as in many other domains of machine learning, language models of code lack sufficient explainability. Informally, we lack a formulaic or intuitive understanding of what and how models learn from code. Explainability of language models can be partially provided if, as the models learn to produce higher-quality code summaries, they also align in deeming the same code parts important as those identified by human programmers. In this paper, we report negative results from our investigation of explainability of language models in code summarization through the lens of human comprehension. We measure human focus on code using eye-tracking metrics such as fixation counts and duration in code summarization tasks. To approximate language model focus, we employ a state-of-the-art model-agnostic, black-box, perturbation-based approach, SHAP (SHapley Additive exPlanations), to identify which code tokens influence that generation of summaries. Using these settings, we find no statistically significant relationship between language models' focus and human programmers' attention. Furthermore, alignment between model and human foci in this setting does not seem to dictate the quality of the LLM-generated summaries. Our study highlights an inability to align human focus with SHAP-based model focus measures. This result calls for future investigation of multiple open questions for explainable language models for code summarization and software engineering tasks in general, including the training mechanisms of language models for code, whether there is an alignment between human and model attention on code, whether human attention can improve the development of language models, and what other model focus measures are appropriate for improving explainability.
翻訳日:2024-02-23 16:51:32 公開日:2024-02-22
# メンター:人間フィードバックと動的距離制約による階層的強化学習の指導

MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback and Dynamic Distance Constraint ( http://arxiv.org/abs/2402.14244v1 )

ライセンス: Link先を確認
Xinglin Zhou, Yifu Yuan, Shaofu Yang, Jianye Hao(参考訳) 階層的強化学習(HRL)は,タスクをサブゴールに分割し,逐次的に完了させる階層的フレームワークを用いて,知的エージェントの疎結合な報酬を伴う複雑なタスクに対して,有望なソリューションを提供する。 しかし、現在の手法では、安定した学習プロセスを確保するための適切なサブゴールを見つけるのに苦労している。 追加のガイダンスがなければ、大きな目標空間におけるサブゴールを決定するために探索法やヒューリスティックス法のみに頼るのは現実的ではない。 そこで本研究では,人間のフィードバックと動的距離制約(MENTOR)を組み込んだ階層型強化学習フレームワークを提案する。 MENTORは「メンター」として機能し、高いレベルの政策学習に人間のフィードバックを取り入れ、より良いサブゴールを見つける。 低レベルの政策について、MENTORは訓練を安定させるために、探索・探索分離のための二重ポリシーをそれぞれ設計した。 さらに、人間は単にタスクをサブゴールに分解して正しい学習方向を導くことができるが、難しすぎる、あるいは簡単すぎるサブゴールは、下流での学習効率を阻害することができる。 任意のサブゴールの空間を動的に調整する動的距離制約(DDC)機構を提案する。 したがって、MENTORは、低レベルの政策学習プロセスに適合するサブゴールを、容易から困難に生成することができる。 大規模な実験により、mentORは少ない報酬で複雑なタスクを大幅に改善するために、少量の人間のフィードバックを使用することが示された。

Hierarchical reinforcement learning (HRL) provides a promising solution for complex tasks with sparse rewards of intelligent agents, which uses a hierarchical framework that divides tasks into subgoals and completes them sequentially. However, current methods struggle to find suitable subgoals for ensuring a stable learning process. Without additional guidance, it is impractical to rely solely on exploration or heuristics methods to determine subgoals in a large goal space. To address the issue, We propose a general hierarchical reinforcement learning framework incorporating human feedback and dynamic distance constraints (MENTOR). MENTOR acts as a "mentor", incorporating human feedback into high-level policy learning, to find better subgoals. As for low-level policy, MENTOR designs a dual policy for exploration-exploitation decoupling respectively to stabilize the training. Furthermore, although humans can simply break down tasks into subgoals to guide the right learning direction, subgoals that are too difficult or too easy can still hinder downstream learning efficiency. We propose the Dynamic Distance Constraint (DDC) mechanism dynamically adjusting the space of optional subgoals. Thus MENTOR can generate subgoals matching the low-level policy learning process from easy to hard. Extensive experiments demonstrate that MENTOR uses a small amount of human feedback to achieve significant improvement in complex tasks with sparse rewards.
翻訳日:2024-02-23 16:46:19 公開日:2024-02-22
# 2次元平帯ディラック材料の不規則ブロッホツェナー振動

Irregular Bloch Zener oscillations in two-dimensional flat-band Dirac materials ( http://arxiv.org/abs/2402.14243v1 )

ライセンス: Link先を確認
Li-Li Ye and Ying-Cheng Lai(参考訳) 二次元(2D)ディラック材料に静電場が印加されると、ランダウ・ツェナー遷移(LZT)とブロッホ・ツェナー振動が発生する。 幅広い2次元ディラック材料のパラダイムとしてα-T3格子を用いると、2つの現象が明らかになる。 第一に、ディラック点付近の任意の小さなエネルギーギャップにより、ブリルアンゾーンの他の領域よりもLZTの発生率が高くなるため、運動量空間における微分LZT確率の分布は複雑な形態素パターンを形成することができる。 第二に、2つの異なるディラック点の相互スイッチングによって引き起こされるLZT形態の変化は、振動に関連する電流密度の時間進化における非滑らかな挙動を特徴とする不規則なブロッホ・ツェナー振動を引き起こす。 これらの現象は、幾何相と動的相によって変調された複数のバンドにおける量子状態の混合干渉に起因する。 ランダウ・ツェナー・シュタッケルベルク干渉法を記述した断熱・インパルスモデルを用いて,定電界下のα-t3格子と周期的に駆動される2層または3層系の同値性から位相を計算できることを実証した。 ブロッホ・ツェナー振動の不規則性の度合いは、実験的に実現可能な形態パターンを選択することで得られる。

When a static electrical field is applied to a two-dimensional (2D) Dirac material, Landau-Zener transition (LZT) and Bloch-Zener oscillations can occur. Employing alpha-T3 lattices as a paradigm for a broad class of 2D Dirac materials, we uncover two phenomena. First, due to the arbitrarily small energy gaps near a Dirac point that make it more likely for LZTs to occur than in other regions of the Brillouin zone, the distribution of differential LZT probability in the momentum space can form a complicated morphological pattern. Second, a change in the LZT morphology as induced by a mutual switching of the two distinct Dirac points can lead to irregular Bloch-Zener oscillations characterized by a non-smooth behavior in the time evolution of the electrical current density associated with the oscillation. These phenomena are due to mixed interference of quantum states in multiple bands modulated by the geometric and dynamic phases. We demonstrate that the adiabatic-impulse model describing Landau-Zener-Stuckelberg interferometry can be exploited to calculate the phases, due to the equivalence between the alpha-T3 lattice subject to a constant electrical field and strongly periodically driven two- or three-level systems. The degree of irregularity of Bloch-Zener oscillations can be harnessed by selecting the morphology pattern, which is potentially experimentally realizable.
翻訳日:2024-02-23 16:45:53 公開日:2024-02-22
# 自己教師付き圧力マップによる人間のキーポイント検出:データセット間の一般化と計算効率の最適化

A Self-supervised Pressure Map human keypoint Detection Approch: Optimizing Generalization and Computational Efficiency Across Datasets ( http://arxiv.org/abs/2402.14241v1 )

ライセンス: Link先を確認
Chengzhang Yu and Xianjun Yang and Wenxia Bao and Shaonan Wang and Zhiming Yao(参考訳) RGB画像が不十分な環境では、圧力マップは有効な代替手段であり、学術的な注目を集めている。 本研究では,新しい自己教師付圧力マップキーポイント検出法(spmkd)を提案する。 これは、人間のキーポイントを正確に検出するための軽量エンコーダ、効率的な勾配伝播のためのfuser、人間のキーポイントを再構成された圧力マップに変換するデコーダを統合する堅牢なフレームワークです。 この構造は、初期分類タスクトレーニングによって微調整精度を向上するCRWT法によりさらに強化される。 この革新は人的キーポイントの一般化を手作業によるアノテーションなしで強化するだけでなく、効率と一般化が著しく向上し、フロップでは5.96\%、ベースライン法と比較してパラメータ数で1.11\%に減少することが証明された。

In environments where RGB images are inadequate, pressure maps is a viable alternative, garnering scholarly attention. This study introduces a novel self-supervised pressure map keypoint detection (SPMKD) method, addressing the current gap in specialized designs for human keypoint extraction from pressure maps. Central to our contribution is the Encoder-Fuser-Decoder (EFD) model, which is a robust framework that integrates a lightweight encoder for precise human keypoint detection, a fuser for efficient gradient propagation, and a decoder that transforms human keypoints into reconstructed pressure maps. This structure is further enhanced by the Classification-to-Regression Weight Transfer (CRWT) method, which fine-tunes accuracy through initial classification task training. This innovation not only enhances human keypoint generalization without manual annotations but also showcases remarkable efficiency and generalization, evidenced by a reduction to only $5.96\%$ in FLOPs and $1.11\%$ in parameter count compared to the baseline methods.
翻訳日:2024-02-23 16:45:27 公開日:2024-02-22
# 平面バンドを有する2次元ディラック・ワイル材料の光学特性

Optical properties of two dimensional Dirac Weyl materials with a flatband ( http://arxiv.org/abs/2402.14238v1 )

ライセンス: Link先を確認
Li-Li Ye, Chen-Di Han, and Ying-Cheng Lai(参考訳) ディラック・ワイル材料のフラットバンドの出現は、電子遷移の新たな可能性をもたらし、光との相互作用をより強くする。 その結果、グラフェンと比較して、これらのフラットバンド材料では光学伝導度が著しく向上し、光学センシングや変調の候補として潜在的に優れている。 近年,2つの独立なアプローチにより導出される導電率の実部と虚部の両方を明示的に定式化した平帯ディラック・ワイル材料のスペクトルの光伝導率に関する包括的理論が開発されている。 この視点は開発の見直しを提供する。 フラットバンドディラックワイル材料の光学的性質を理解することは、テラヘルツ周波数領域における光学的デバイス応用への道を開く。

The emergence of a flat band in Dirac-Weyl materials offers new possibilities for electronic transitions, leading to stronger interaction with light. As a result, the optical conductivity can be significantly enhanced in these flat-band materials as compared with graphene, making them potentially better candidates for optical sensing and modulation. Recently, a comprehensive theory for the optical conductivity of a spectrum of flat-band Dirac-Weyl materials has been developed, with explicit formulas for both the real and imaginary parts of the conductivity derived through two independent approaches. This Perspective offers a review of the development. An understanding of the optical properties of the flat-band Dirac-Weyl materials paves the way for optical device applications in the terahertz-frequency domain.
翻訳日:2024-02-23 16:45:04 公開日:2024-02-22
# 強化学習による分散フィルタリング回路の自動設計と最適化

Automated Design and Optimization of Distributed Filtering Circuits via Reinforcement Learning ( http://arxiv.org/abs/2402.14236v1 )

ライセンス: Link先を確認
Peng Gao, Tao Yu, Fei Wang, Ru-Yue Yuan(参考訳) 分散フィルタリング回路(DFC)の設計は複雑で時間を要するが、回路性能はエレクトロニクス技術者の専門知識と経験に大きく依存している。 しかし、手動設計法は、非常に低効率である傾向にある。 本研究では,dfcの設計を改善するために,回路製造のための新しいエンド・ツー・エンド自動化手法を提案する。 提案手法は強化学習(RL)アルゴリズムを利用して,技術者の設計経験への依存を解消する。 これにより、回路設計に伴う主観性と制約が大幅に低減される。 実験により,提案手法と従来手法との比較において,設計効率と品質の両面で明らかに改善が認められた。 特に,提案手法は複雑あるいは急速に発展するDFCの設計において,優れた性能を実現する。 さらに,既存の回路設計技術と比較して設計効率が優れており,回路設計におけるRLの可能性が顕著である。

Designing distributed filtering circuits (DFCs) is complex and time-consuming, with the circuit performance relying heavily on the expertise and experience of electronics engineers. However, manual design methods tend to have exceedingly low-efficiency. This study proposes a novel end-to-end automated method for fabricating circuits to improve the design of DFCs. The proposed method harnesses reinforcement learning (RL) algorithms, eliminating the dependence on the design experience of engineers. Thus, it significantly reduces the subjectivity and constraints associated with circuit design. The experimental findings demonstrate clear improvements in both design efficiency and quality when comparing the proposed method with traditional engineer-driven methods. In particular, the proposed method achieves superior performance when designing complex or rapidly evolving DFCs. Furthermore, compared to existing circuit automation design techniques, the proposed method demonstrates superior design efficiency, highlighting the substantial potential of RL in circuit design automation.
翻訳日:2024-02-23 16:44:51 公開日:2024-02-22
# ラヴロック理論における一定の空間体積制約を受けるラグランジュ分割関数

Lagrangian partition functions subject to a fixed spatial volume constraint in the Lovelock theory ( http://arxiv.org/abs/2402.14235v1 )

ライセンス: Link先を確認
Mengqi Lu, Robert B. Mann(参考訳) 固定された固有体積の空間領域の単純連結な空間領域のヒルベルト空間の次元をラヴロック重力の文脈で数える量子重力分割関数を評価し、アインシュタイン重力の結果を一般化する[1]。 ラヴロック理論では,空間体積が一定であるときの分割関数に対して球面サドル測度が存在する。 これらの定常点はアインシュタイン重力と全く同じ形式を取る。 ゼロ有効宇宙定数に対応するZの対数は境界領域のベーケンシュタイン・ホーキングエントロピーを示し、境界領域のウォルドエントロピーに対する正の有効宇宙定数点に対応するものである。 我々はまた、アインシュタイン重力とは異なる現象である異なる空孔の間のゼロ次相転移の存在も観察する。

We evaluate the quantum gravity partition function that counts the dimension of the Hilbert space of a simply connected spatial region of fixed proper volume in the context of Lovelock gravity, generalizing the results for Einstein gravity [1]. We find that there exists sphere saddle metrics for a partition function at a fixed spatial volume in Lovelock theory. Those stationary points take exactly the same forms as in Einstein gravity. The logarithm of Z corresponding to a zero effective cosmological constant indicates the Bekenstein-Hawking entropy of the boundary area and the one corresponding to a positive effective cosmological constant points to the Wald entropy of the boundary area. We also observe the existence of zeroth order phase transitions between different vacua, a phenomenon distinct from Einstein gravity.
翻訳日:2024-02-23 16:44:37 公開日:2024-02-22
# MerRec: 消費者から消費者への推薦システムのための大規模多目的Merariデータセット

MerRec: A Large-scale Multipurpose Mercari Dataset for Consumer-to-Consumer Recommendation Systems ( http://arxiv.org/abs/2402.14230v1 )

ライセンス: Link先を確認
Lichi Li, Zainul Abi Din, Zhen Tan, Sam London, Tianlong Chen, Ajay Daptardar(参考訳) 進化するeコマースの分野では、レコメンデーションシステムはユーザー体験とエンゲージメントを決定的に形作る。 C2C(Consumer-to-Consumer)レコメンデーションシステムの台頭は、顧客ベンダーへの柔軟性とアクセスの容易さで注目されており、大きなトレンドとなっている。 しかし、学術的な焦点は、主にb2c(business-to-consumer)モデルであり、アイテム属性やユーザ多様性、スケールに欠けるc2cレコメンデーションデータセットに満ちたギャップを残している。 C2Cレコメンデーションシステムの複雑さは、ユーザーが売り手と買い手の両方として想定する二重の役割によってさらに強調され、より均一で多様な入力のスペクトルが導入された。 これに対処するために、私たちはmerrecを紹介します。mercari eコマースプラットフォームから派生したc2cレコメンデーションに特化した、最初の大規模なデータセットで、2023年の6ヶ月で数百万のユーザーと製品をカバーします。 MerRecには、user_id、Item_id、 session_idなどの標準機能だけでなく、タイムスタンプアクションタイプ、製品分類、テキスト製品属性といったユニークな要素が含まれており、研究用の包括的なデータセットを提供している。 このデータセットは6つのレコメンデーションタスクで広く評価されており、実際のシナリオにおける高度なレコメンデーションアルゴリズムの開発のための新しいベンチマークを確立し、学術と産業のギャップを埋め、C2Cレコメンデーションの研究を推進している。

In the evolving e-commerce field, recommendation systems crucially shape user experience and engagement. The rise of Consumer-to-Consumer (C2C) recommendation systems, noted for their flexibility and ease of access for customer vendors, marks a significant trend. However, the academic focus remains largely on Business-to-Consumer (B2C) models, leaving a gap filled by the limited C2C recommendation datasets that lack in item attributes, user diversity, and scale. The intricacy of C2C recommendation systems is further accentuated by the dual roles users assume as both sellers and buyers, introducing a spectrum of less uniform and varied inputs. Addressing this, we introduce MerRec, the first large-scale dataset specifically for C2C recommendations, sourced from the Mercari e-commerce platform, covering millions of users and products over 6 months in 2023. MerRec not only includes standard features such as user_id, item_id, and session_id, but also unique elements like timestamped action types, product taxonomy, and textual product attributes, offering a comprehensive dataset for research. This dataset, extensively evaluated across six recommendation tasks, establishes a new benchmark for the development of advanced recommendation algorithms in real-world scenarios, bridging the gap between academia and industry and propelling the study of C2C recommendations.
翻訳日:2024-02-23 16:44:25 公開日:2024-02-22
# 自己選択バイアスを考慮したサンプル効率線形回帰

Sample-Efficient Linear Regression with Self-Selection Bias ( http://arxiv.org/abs/2402.14229v1 )

ライセンス: Link先を確認
Jason Gaitonde and Elchanan Mossel(参考訳) 近年のcherapanamjeri, daskalakis, ilyas, zampetakis [stoc 2023] による研究で紹介されたように,未知インデックス設定における自己選択バイアスを伴う線形回帰の問題を考える。 このモデルでは、$m$ i.i.d. sample $(\mathbf{x}_{\ell},z_{\ell})_{\ell=1}^m$ where $z_{\ell}=\max_{i\in [k]}\mathbf{x}_{\ell}^T\mathbf{w}_i+\eta_{i,\ell}$を観測するが、最大化指数$i_{\ell}$は観測されない。 ここで、$\mathbf{x}_{\ell}$は$\mathcal{N}(0,I_n)$と仮定され、ノイズ分布$\mathbf{\eta}_{\ell}\sim \mathcal{D}$は$\mathbf{x}_{\ell}$の中心であり、独立である。 我々は、新しい($k$)アルゴリズムで、$\mathbf{w}_1,\ldots,\mathbf{w}_k\in \mathbb{R}^n$ up to additive $\ell_2$-error $\varepsilon$ with polynomial sample complexity $\tilde{O}(n)\cdot \mathsf{poly}(k,1/\varepsilon)$と大幅に改善された時間複雑性 $\mathsf{poly}(n,k,1/\varepsilon)+O(\log(k)/\varepsilon)^{O(k)$を提供する。 k=O(1)$ の場合、我々のアルゴリズムは $\mathsf{poly}(n,1/\varepsilon)$ time で実行され、Cherapanamjeri などの明示的なモーメントマッチングアルゴリズムの多項式保証を$k=2$ で一般化し、$\mathcal{D}=\mathcal{N}(0,I_k)$ が知られている。 提案アルゴリズムは雑音の仮定をかなり緩めることに成功し, 付加雑音を最大外へ取り出す最大線形回帰の関連設定にも成功している。 この問題に対して、我々のアルゴリズムは、Ghosh, Pananjady, Guntuboyina, Ramchandran [IEEE Trans. Inf. Theory 2022] による最先端技術よりもはるかに広い範囲の$k$で効率的であり、既存の局所収束法の温かいスタートを提供することにより、任意の$\varepsilon$に対するアルゴリズムの改善につながる。

We consider the problem of linear regression with self-selection bias in the unknown-index setting, as introduced in recent work by Cherapanamjeri, Daskalakis, Ilyas, and Zampetakis [STOC 2023]. In this model, one observes $m$ i.i.d. samples $(\mathbf{x}_{\ell},z_{\ell})_{\ell=1}^m$ where $z_{\ell}=\max_{i\in [k]}\{\mathbf{x}_{\ell}^T\mathbf{w}_i+\eta_{i,\ell}\}$, but the maximizing index $i_{\ell}$ is unobserved. Here, the $\mathbf{x}_{\ell}$ are assumed to be $\mathcal{N}(0,I_n)$ and the noise distribution $\mathbf{\eta}_{\ell}\sim \mathcal{D}$ is centered and independent of $\mathbf{x}_{\ell}$. We provide a novel and near optimally sample-efficient (in terms of $k$) algorithm to recover $\mathbf{w}_1,\ldots,\mathbf{w}_k\in \mathbb{R}^n$ up to additive $\ell_2$-error $\varepsilon$ with polynomial sample complexity $\tilde{O}(n)\cdot \mathsf{poly}(k,1/\varepsilon)$ and significantly improved time complexity $\mathsf{poly}(n,k,1/\varepsilon)+O(\log(k)/\varepsilon)^{O(k)}$. When $k=O(1)$, our algorithm runs in $\mathsf{poly}(n,1/\varepsilon)$ time, generalizing the polynomial guarantee of an explicit moment matching algorithm of Cherapanamjeri, et al. for $k=2$ and when it is known that $\mathcal{D}=\mathcal{N}(0,I_k)$. Our algorithm succeeds under significantly relaxed noise assumptions, and therefore also succeeds in the related setting of max-linear regression where the added noise is taken outside the maximum. For this problem, our algorithm is efficient in a much larger range of $k$ than the state-of-the-art due to Ghosh, Pananjady, Guntuboyina, and Ramchandran [IEEE Trans. Inf. Theory 2022] for not too small $\varepsilon$, and leads to improved algorithms for any $\varepsilon$ by providing a warm start for existing local convergence methods.
翻訳日:2024-02-23 16:43:54 公開日:2024-02-22
# COPR: 最適政策規則化による継続的人選学習

COPR: Continual Human Preference Learning via Optimal Policy Regularization ( http://arxiv.org/abs/2402.14228v1 )

ライセンス: Link先を確認
Han Zhang, Lin Gui, Yu Lei, Yuanzhao Zhai, Yehong Zhang, Yulan He, Hui Wang, Yue Yu, Kam-Fai Wong, Bin Liang, Ruifeng Xu(参考訳) RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。 人間の嗜好の進化的な性質を考えると、連続的なアライメントは従来の静的アライメントと比べてより重要で実用的になる。 それでも、RLHFをCL(Continuous Learning)と互換性を持たせることは、複雑なプロセスのため困難である。 一方、新しい人間の嗜好を直接学習することは、歴史的嗜好の破滅的なフォーッティング(CF)につながる可能性がある。 これらの課題を克服するために, 最適政策理論から着想を得たcopr(continual optimal policy regularization)法を提案する。 COPRはCLのサンプル分布を実演と正規化の制約として利用する。 これはラグランジアン双対性(ld)法を採用し、歴史的に最適な政策に基づいて現在の政策を動的に定式化する。 また,COPRの学習可能性に関する公式な証明も提供する。 実験の結果,COPR は報酬ベース,GPT-4 評価,人的評価において,提案したベンチマークのCL ベースラインよりも優れていた。 さらに,異なるバックボーン,メモリサイズ,学習順序など,さまざまなCL設定下でのCOPRの堅牢性を検証する。

Reinforcement Learning from Human Feedback (RLHF) is commonly utilized to improve the alignment of Large Language Models (LLMs) with human preferences. Given the evolving nature of human preferences, continual alignment becomes more crucial and practical in comparison to traditional static alignment. Nevertheless, making RLHF compatible with Continual Learning (CL) is challenging due to its complex process. Meanwhile, directly learning new human preferences may lead to Catastrophic Forgetting (CF) of historical preferences, resulting in helpless or harmful outputs. To overcome these challenges, we propose the Continual Optimal Policy Regularization (COPR) method, which draws inspiration from the optimal policy theory. COPR utilizes a sampling distribution as a demonstration and regularization constraints for CL. It adopts the Lagrangian Duality (LD) method to dynamically regularize the current policy based on the historically optimal policy, which prevents CF and avoids over-emphasizing unbalanced objectives. We also provide formal proof for the learnability of COPR. The experimental results show that COPR outperforms strong CL baselines on our proposed benchmark, in terms of reward-based, GPT-4 evaluations and human assessment. Furthermore, we validate the robustness of COPR under various CL settings, including different backbones, replay memory sizes, and learning orders.
翻訳日:2024-02-23 16:42:29 公開日:2024-02-22
# リアルタイム反復学習と最大コレントロピー基準を用いた四次繰り返しニューラルネットワーク

Quaternion recurrent neural network with real-time recurrent learning and maximum correntropy criterion ( http://arxiv.org/abs/2402.14227v1 )

ライセンス: Link先を確認
Pauline Bourigault, Dongpo Xu, Danilo P. Mandic(参考訳) 我々は,3次元データと4次元データのリアルタイム処理のための,頑健な四元系リカレントニューラルネットワーク(QRNN)を開発した。 これは、リアルタイム反復学習(RTRL)アルゴリズムと最大コレントロピー基準(MCC)を損失関数として組み合わせることで実現される。 平均二乗誤差と最大コレントロピー基準の両方が有効コスト関数であるが、非二乗最大コレントロピー損失関数はオフレーヤに対する感度が低く、多次元ノイズや不確かさのある応用に適していることが示されている。 両アルゴリズムは、四元数変数の実関数の微分を可能にし、積と連鎖の規則を提供する新しい一般化されたHR(GHR)計算に基づいて導出され、エレガントでコンパクトな導出を可能にする。 肺がん放射線治療における胸部内マーカーの運動予測は, 正常および不規則な呼吸配列を含む。

We develop a robust quaternion recurrent neural network (QRNN) for real-time processing of 3D and 4D data with outliers. This is achieved by combining the real-time recurrent learning (RTRL) algorithm and the maximum correntropy criterion (MCC) as a loss function. While both the mean square error and maximum correntropy criterion are viable cost functions, it is shown that the non-quadratic maximum correntropy loss function is less sensitive to outliers, making it suitable for applications with multidimensional noisy or uncertain data. Both algorithms are derived based on the novel generalised HR (GHR) calculus, which allows for the differentiation of real functions of quaternion variables and offers the product and chain rules, thus enabling elegant and compact derivations. Simulation results in the context of motion prediction of chest internal markers for lung cancer radiotherapy, which includes regular and irregular breathing sequences, support the analysis.
翻訳日:2024-02-23 16:42:04 公開日:2024-02-22
# 支援データの存在下でのフレーミング--米国経済ニュースを事例として

Framing in the Presence of Supporting Data: A Case Study in U.S. Economic News ( http://arxiv.org/abs/2402.14224v1 )

ライセンス: Link先を確認
Alexandria Leto, Elliot Pickens, Coen D. Needell, David Rothschild, Maria Leonor Pacheco(参考訳) メインストリームメディアは、そのカバー方法とカバー方法に多くの自由がある。 これらの選択は、人々が知っていることとその後の行動に実際の影響をもたらす。 しかし、編集選択を評価する客観的尺度の欠如は、この分野の研究を特に困難にしている。 本稿では,データ支援という形で客観的な尺度が存在するという話題を取り上げ,この設定における編集選択を分析するための計算フレームワークを提案する。 経済指標の報告は、様々な出版物の選択とフレーミングの両方を決定する比較的簡単な方法をもたらすため、経済に焦点を当てています。 彼らの価値観は、出版物がそれをどうカバーするかに関して、経済がどのように行っているかという基礎的な真実を提供する。 これを実現するために,フレーム予測を相互依存タスクの集合として定義する。 この記事のレベルでは、経済全般に対する報告されたスタンスを特定することを学ぶ。 そして,本論文で報告されている数値について,その数値が経済指標と一致するか,あるいは正あるいは負の形で報告されているかを知る。 分析を行うために、2015年から2023年にかけて、アメリカの出版社6社とランディングページのトップ10に登場した各記事を追跡しました。

The mainstream media has much leeway in what it chooses to cover and how it covers it. These choices have real-world consequences on what people know and their subsequent behaviors. However, the lack of objective measures to evaluate editorial choices makes research in this area particularly difficult. In this paper, we argue that there are newsworthy topics where objective measures exist in the form of supporting data and propose a computational framework to analyze editorial choices in this setup. We focus on the economy because the reporting of economic indicators presents us with a relatively easy way to determine both the selection and framing of various publications. Their values provide a ground truth of how the economy is doing relative to how the publications choose to cover it. To do this, we define frame prediction as a set of interdependent tasks. At the article level, we learn to identify the reported stance towards the general state of the economy. Then, for every numerical quantity reported in the article, we learn to identify whether it corresponds to an economic indicator and whether it is being reported in a positive or negative way. To perform our analysis, we track six American publishers and each article that appeared in the top 10 slots of their landing page between 2015 and 2023.
翻訳日:2024-02-23 16:41:46 公開日:2024-02-22
# 超幾何分布を用いた未知個体数の推定

Estimating Unknown Population Sizes Using the Hypergeometric Distribution ( http://arxiv.org/abs/2402.14220v1 )

ライセンス: Link先を確認
Liam Hodgson and Danilo Bzdok(参考訳) 多変量超幾何分布は、複数のカテゴリに分けられた個々の要素の集団から置き換えることなくサンプリングを記述する。 文献のギャップに対処するため、人口規模と構成カテゴリーの規模が不明な場合、個別分布を推定する課題に取り組む。 本稿では,重度のアンダーサンプリングが存在する場合でも,この推定課題を解決するために,超幾何的可能性を用いた新しい解を提案する。 本研究では,変動型オートエンコーダフレームワークを用いた協調フィルタリングなどの連続潜時変数上での分布条件の混合となるデータ生成プロセスについて検討する。 実験データシミュレーションにより,本手法は,人口規模推定の精度と情報潜在空間の学習能力の両面において,カウントデータをモデル化する他の可能性関数よりも優れていることが示された。 本手法は, テキスト抽出における潜伏語彙の複雑さを推定し, 推定し, 生物学において, スパース単細胞ゲノムデータから真数の遺伝子転写産物を正確に回収することにより, NLPの応用による汎用性を実証する。

The multivariate hypergeometric distribution describes sampling without replacement from a discrete population of elements divided into multiple categories. Addressing a gap in the literature, we tackle the challenge of estimating discrete distributions when both the total population size and the sizes of its constituent categories are unknown. Here, we propose a novel solution using the hypergeometric likelihood to solve this estimation challenge, even in the presence of severe under-sampling. We develop our approach to account for a data generating process where the ground-truth is a mixture of distributions conditional on a continuous latent variable, such as with collaborative filtering, using the variational autoencoder framework. Empirical data simulation demonstrates that our method outperforms other likelihood functions used to model count data, both in terms of accuracy of population size estimate and in its ability to learn an informative latent space. We demonstrate our method's versatility through applications in NLP, by inferring and estimating the complexity of latent vocabularies in text excerpts, and in biology, by accurately recovering the true number of gene transcripts from sparse single-cell genomics data.
翻訳日:2024-02-23 16:41:28 公開日:2024-02-22
# Swin3D++: 3次元屋内シーン理解のための効果的なマルチソース事前トレーニング

Swin3D++: Effective Multi-Source Pretraining for 3D Indoor Scene Understanding ( http://arxiv.org/abs/2402.14215v1 )

ライセンス: Link先を確認
Yu-Qi Yang and Yu-Xiao Guo and Yang Liu(参考訳) データ多様性と豊富さは、自然言語処理と2次元視覚におけるモデルの性能と一般化を改善するために不可欠である。 しかし、3Dビジョンドメインは3Dデータの欠如に悩まされており、3Dバックボーンを事前トレーニングするために複数の3Dデータセットを組み合わせるだけでは、効果的な特徴学習を妨げる異なる3Dデータセット間のドメインの差異のため、大きな改善は得られない。 本研究では,3次元屋内シーンデータセット間のドメイン不一致の主な原因を特定し,Swin3Dをベースとした拡張アーキテクチャであるSwin3D++を提案する。 Swin3D++はSwin3Dのモジュールにドメイン固有のメカニズムを導入し、ドメインの相違に対処し、マルチソース事前トレーニングにおけるネットワーク機能を強化する。 さらに,事前学習データ量を増やし,教師付き事前学習を容易にするための簡易なソース拡張戦略を考案した。 提案手法の有効性を検証し,Swin3D++が屋内シーン理解タスクにおける最先端の3D事前学習手法を超えることを示す。 私たちのコードとモデルはhttps://github.com/microsoft/Swin3Dでリリースされます。

Data diversity and abundance are essential for improving the performance and generalization of models in natural language processing and 2D vision. However, 3D vision domain suffers from the lack of 3D data, and simply combining multiple 3D datasets for pretraining a 3D backbone does not yield significant improvement, due to the domain discrepancies among different 3D datasets that impede effective feature learning. In this work, we identify the main sources of the domain discrepancies between 3D indoor scene datasets, and propose Swin3D++, an enhanced architecture based on Swin3D for efficient pretraining on multi-source 3D point clouds. Swin3D++ introduces domain-specific mechanisms to Swin3D's modules to address domain discrepancies and enhance the network capability on multi-source pretraining. Moreover, we devise a simple source-augmentation strategy to increase the pretraining data scale and facilitate supervised pretraining. We validate the effectiveness of our design, and demonstrate that Swin3D++ surpasses the state-of-the-art 3D pretraining methods on typical indoor scene understanding tasks. Our code and models will be released at https://github.com/microsoft/Swin3D
翻訳日:2024-02-23 16:41:08 公開日:2024-02-22
# 自然科学のための個人間の時空間脳波表現の対比学習

Contrastive Learning of Shared Spatiotemporal EEG Representations Across Individuals for Naturalistic Neuroscience ( http://arxiv.org/abs/2402.14213v1 )

ライセンス: Link先を確認
Xinke Shen, Lingyi Tao, Xuyang Chen, Sen Song, Quanying Liu, Dan Zhang(参考訳) 自然主義的刺激によって誘発される神経表現は、人間の日常生活における末梢刺激に対する反応に関する洞察を与える。 自然主義的刺激処理の基礎となる一般的な神経機構を理解するための鍵は、個体間の神経活動の調整と、サブジェクト間の共有神経表現の抽出である。 空間的および時間的情報に富むeeg(electroencephalogram)技術を対象として,個人間での時空間的脳波表現の対比学習の枠組みを提案する(cl-sster)。 CL-SSTERは、対照的な学習の表現能力を損なうことで、個人間での脳波表現の類似性を最大化するためにニューラルネットワークを利用している。 このネットワークは、脳波に固有の空間的および時間的パターンを同時に学習するために、空間的および時間的畳み込みを用いた。 CL-SSTERの汎用性は、合成データセット、音声脳波データセット、感情ビデオ脳波データセットを含む3つのEEGデータセットで実証された。 CL-SSTERは、最先端ISC法と比較して、ISC値が最も高い。 CL-SSTERにより生成された潜伏表現は、刺激の特定の側面によって説明できる信頼できる時空間脳波パターンを示した。 cl-ssterは、自然主義的神経科学の領域におけるサブジェクト間共有神経表現の識別のための解釈可能でスケーラブルな基礎的枠組みとして機能する。

Neural representations induced by naturalistic stimuli offer insights into how humans respond to peripheral stimuli in daily life. The key to understanding the general neural mechanisms underlying naturalistic stimuli processing involves aligning neural activities across individuals and extracting inter-subject shared neural representations. Targeting the Electroencephalogram (EEG) technique, known for its rich spatial and temporal information, this study presents a general framework for Contrastive Learning of Shared SpatioTemporal EEG Representations across individuals (CL-SSTER). Harnessing the representational capabilities of contrastive learning, CL-SSTER utilizes a neural network to maximize the similarity of EEG representations across individuals for identical stimuli, contrasting with those for varied stimuli. The network employed spatial and temporal convolutions to simultaneously learn the spatial and temporal patterns inherent in EEG. The versatility of CL-SSTER was demonstrated on three EEG datasets, including a synthetic dataset, a speech audio EEG dataset, and an emotional video EEG dataset. CL-SSTER attained the highest inter-subject correlation (ISC) values compared to the state-of-the-art ISC methods. The latent representations generated by CL-SSTER exhibited reliable spatiotemporal EEG patterns, which can be explained by specific aspects of the stimuli. CL-SSTER serves as an interpretable and scalable foundational framework for the identification of inter-subject shared neural representations in the realm of naturalistic neuroscience.
翻訳日:2024-02-23 16:40:33 公開日:2024-02-22
# ムーンウォーク:逆方向の差異

Moonwalk: Inverse-Forward Differentiation ( http://arxiv.org/abs/2402.14212v1 )

ライセンス: Link先を確認
Dmitrii Krylov, Armin Karamzade, Roy Fox(参考訳) バックプロパゲーションは勾配計算に有効だが、メモリ消費に対処するには不十分であり、スケーラビリティが制限される。 この研究は、非可逆ネットワークの代替としてフォワードモード勾配計算を探求し、大きな欠点なくメモリフットプリントを削減する可能性を示している。 本稿では,ベクトル逆ヤコビアン積に基づく新しい手法を提案する。これは,メモリ削減の利点を維持しつつ,真の勾配の忠実さを保ったまま,前方勾配の計算を高速化する。 我々の方法であるMoonwalkは、na\の2次時間複雑性とは異なり、ネットワークの深さで線形な時間複雑性を持ち、より多くのメモリを割り当てることなく、数桁の計算時間を経験的に削減する。 さらに,メモリフットプリントを小さく保ちながら,バックプロパゲーションに匹敵する時間複雑性を達成するために,逆モード微分と組み合わせることで,ムーンウォークをさらに加速する。 最後に、いくつかのアーキテクチャ選択にまたがる手法の堅牢性を示す。 ムーンウォーク(moonwalk)は、バックプロパゲーションに匹敵する計算時間で可逆ネットワークの真の勾配を計算する最初のフォワードベース手法である。

Backpropagation, while effective for gradient computation, falls short in addressing memory consumption, limiting scalability. This work explores forward-mode gradient computation as an alternative in invertible networks, showing its potential to reduce the memory footprint without substantial drawbacks. We introduce a novel technique based on a vector-inverse-Jacobian product that accelerates the computation of forward gradients while retaining the advantages of memory reduction and preserving the fidelity of true gradients. Our method, Moonwalk, has a time complexity linear in the depth of the network, unlike the quadratic time complexity of na\"ive forward, and empirically reduces computation time by several orders of magnitude without allocating more memory. We further accelerate Moonwalk by combining it with reverse-mode differentiation to achieve time complexity comparable with backpropagation while maintaining a much smaller memory footprint. Finally, we showcase the robustness of our method across several architecture choices. Moonwalk is the first forward-based method to compute true gradients in invertible networks in computation time comparable to backpropagation and using significantly less memory.
翻訳日:2024-02-23 16:39:54 公開日:2024-02-22
# GATE X-E : 弱性言語からのジェンダー・フェア翻訳への挑戦

GATE X-E : A Challenge Set for Gender-Fair Translations from Weakly-Gendered Languages ( http://arxiv.org/abs/2402.14277v1 )

ライセンス: Link先を確認
Spencer Rarrick, Ranjita Naik, Sundar Poudel, Vishal Chowdhary(参考訳) ニューラルマシン翻訳(NMT)は、品質と採用の改善を続けているが、性別バイアスの不注意な永続性は、依然として重要な懸念点である。 弱性言語からの英語への翻訳における男女差に関する多くの研究にもかかわらず、この現象の評価や緩和戦略の評価のためのベンチマークは存在しない。 このギャップに対処するため、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATE(Rarrick et al., 2023)コーパスの拡張であるGATE X-Eを導入する。 各翻訳には女性、男性、中立の変種が伴っている。 4つの言語ペアごとに1250から1850のインスタンスを含むこのデータセットは、幅広い文の長さと領域を持つ自然な文を特徴とし、様々な言語現象に関する翻訳書き換えに挑戦する。 また,GPT-4で構築したGATE X-Eを用いた翻訳性書き換えソリューションを提案する。 我々は、ジェンダーデバイアスに関するさらなる研究を促進するために、コントリビューションをオープンソースにしています。

Neural Machine Translation (NMT) continues to improve in quality and adoption, yet the inadvertent perpetuation of gender bias remains a significant concern. Despite numerous studies on gender bias in translations into English from weakly gendered-languages, there are no benchmarks for evaluating this phenomenon or for assessing mitigation strategies. To address this gap, we introduce GATE X-E, an extension to the GATE (Rarrick et al., 2023) corpus, that consists of human translations from Turkish, Hungarian, Finnish, and Persian into English. Each translation is accompanied by feminine, masculine, and neutral variants. The dataset, which contains between 1250 and 1850 instances for each of the four language pairs, features natural sentences with a wide range of sentence lengths and domains, challenging translation rewriters on various linguistic phenomena. Additionally, we present a translation gender rewriting solution built with GPT-4 and use GATE X-E to evaluate it. We open source our contributions to encourage further research on gender debiasing.
翻訳日:2024-02-23 16:35:52 公開日:2024-02-22
# 言語モデルは大規模に知識ベースとして機能するか?

Can Language Models Act as Knowledge Bases at Scale? ( http://arxiv.org/abs/2402.14273v1 )

ライセンス: Link先を確認
Qiyuan He and Yizhong Wang and Wenya Wang(参考訳) 大規模言語モデル (LLM) は、大規模事前学習を通じて複雑なクエリに対する応答を理解し、生成する能力を示す。 しかし, 大規模構造化知識の記憶と推論におけるこれらのモデルの有効性は疑問視されている。 本研究は,LLMがWikidataなどの最新の知識ベース(KB)に匹敵する大規模な知識を効果的に保存し,リコールし,理性を持つことができるかどうかを検討する。 具体的には,(1)大規模KBの正確な知識を記憶する上で,異なる大きさのLLMの効率性,(2)自然言語クエリに応答して記憶された知識を記憶する柔軟性,(3)推論によって新たな知識を推測する能力,の3つの重要な側面に焦点をあてる。 以上の結果から, LLM は柔軟性に富む大規模 KB として期待できるが, その潜在能力を十分に実現するためには, その推理能力の強化が必要であることが示唆された。

Large language models (LLMs) have demonstrated remarkable proficiency in understanding and generating responses to complex queries through large-scale pre-training. However, the efficacy of these models in memorizing and reasoning among large-scale structured knowledge, especially world knowledge that explicitly covers abundant factual information remains questionable. Addressing this gap, our research investigates whether LLMs can effectively store, recall, and reason with knowledge on a large scale comparable to latest knowledge bases (KBs) such as Wikidata. Specifically, we focus on three crucial aspects to study the viability: (1) the efficiency of LLMs with different sizes in memorizing the exact knowledge in the large-scale KB; (2) the flexibility of recalling the memorized knowledge in response to natural language queries; (3) the capability to infer new knowledge through reasoning. Our findings indicate that while LLMs hold promise as large-scale KBs capable of retrieving and responding with flexibility, enhancements in their reasoning capabilities are necessary to fully realize their potential.
翻訳日:2024-02-23 16:35:33 公開日:2024-02-22
# Qsnail: 逐次質問生成のための質問データセット

Qsnail: A Questionnaire Dataset for Sequential Question Generation ( http://arxiv.org/abs/2402.14272v1 )

ライセンス: Link先を確認
Yan Lei, Liang Pang, Yuanzhuo Wang, Huawei Shen, Xueqi Cheng(参考訳) このアンケートは、人間の意見、好み、態度、行動の質的および定量的分析に使用される専門的な研究手法である。 しかし, アンケートの設計と評価には, 複雑で複雑な構造が求められる。 質問には、質問、選択肢、全体構造を含む複雑な制約に従わなければならない一連の質問が含まれる。 具体的には、質問は、与えられた研究トピックと意図に関連するものでなければならない。 選択肢は質問に合わせて調整され、相互に排他的であり、完了し、賢明に順序づけされる。 さらに、質問の順序は論理的な順序に従って、類似したトピックをまとめるべきである。 その結果, 質問紙の自動作成は重要な課題であり, 高品質なデータセットが不足していることが主な理由として注目されている。 これらの課題に対処するため,オンラインプラットフォームから収集した13,168人の質問紙からなる質問紙作成タスク用に構築された最初のデータセットであるQsnailを提示する。 さらに,qsnailに関する実験を行い,検索モデルと従来の生成モデルが与えられた研究課題や意図と完全に一致しないことを明らかにした。 大規模な言語モデルは、研究トピックや意図とより密接に関連しているが、多様性と特異性の観点からは大きな制限がある。 思考の連鎖と微調整による強化にもかかわらず、言語モデルによって生成されたアンケートは、まだ人間の書いたアンケートに届かない。 したがって、アンケート生成は困難であり、さらなる調査が必要である。 データセットは、https://github.com/leiyangithub/qsnailで入手できる。

The questionnaire is a professional research methodology used for both qualitative and quantitative analysis of human opinions, preferences, attitudes, and behaviors. However, designing and evaluating questionnaires demands significant effort due to their intricate and complex structure. Questionnaires entail a series of questions that must conform to intricate constraints involving the questions, options, and overall structure. Specifically, the questions should be relevant and specific to the given research topic and intent. The options should be tailored to the questions, ensuring they are mutually exclusive, completed, and ordered sensibly. Moreover, the sequence of questions should follow a logical order, grouping similar topics together. As a result, automatically generating questionnaires presents a significant challenge and this area has received limited attention primarily due to the scarcity of high-quality datasets. To address these issues, we present Qsnail, the first dataset specifically constructed for the questionnaire generation task, which comprises 13,168 human-written questionnaires gathered from online platforms. We further conduct experiments on Qsnail, and the results reveal that retrieval models and traditional generative models do not fully align with the given research topic and intents. Large language models, while more closely related to the research topic and intents, exhibit significant limitations in terms of diversity and specificity. Despite enhancements through the chain-of-thought prompt and finetuning, questionnaires generated by language models still fall short of human-written questionnaires. Therefore, questionnaire generation is challenging and needs to be further explored. The dataset is available at: https://github.com/LeiyanGithub/qsnail.
翻訳日:2024-02-23 16:35:12 公開日:2024-02-22
# 牛を角から離す:ハードサンプル強調連続訓練はllm一般化を改善する

Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization ( http://arxiv.org/abs/2402.14270v1 )

ライセンス: Link先を確認
Xuxi Chen, Zhendong Wang, Daouda Sow, Junjie Yang, Tianlong Chen, Yingbin Liang, Mingyuan Zhou, Zhangyang Wang(参考訳) 大規模言語モデル(llm)の急速に進展する分野において、高品質なトレーニングデータが不足している中で、その能力を高めることが重要な課題である。 本研究は,従来の事前学習データセットを用いたLCMの光連続的トレーニングの実証的戦略から始まり,中等度に高い損失を被るサンプルの選択的保持に着目した。 これらのサンプルは、データノイズや複雑性との相関から廃棄される最も損失の多いサンプルとは対照的に、モデルの改良に有益で有益であると考えられている。 次に、この戦略をインスタンス重み付け分散ロバスト最適化(IR-DRO)の原則的なフレームワークに定式化する。 IR-DROは、既存のトレーニングプロトコルに簡単に統合するためのクローズドフォームソリューションによって合理化されたインスタンス再重み付け機構を通じて、インフォメーションサンプルのトレーニングフォーカスを動的に優先順位付けするように設計されている。 様々なモデルとデータセットを厳密に実験した結果,本手法は連続的な事前学習と命令チューニングのシナリオにおいて,複数のベンチマークにおけるllm性能を著しく改善することが示唆された。 私たちのコードはhttps://github.com/vita-group/hardfocustrainingで利用できます。

In the rapidly advancing arena of large language models (LLMs), a key challenge is to enhance their capabilities amid a looming shortage of high-quality training data. Our study starts from an empirical strategy for the light continual training of LLMs using their original pre-training data sets, with a specific focus on selective retention of samples that incur moderately high losses. These samples are deemed informative and beneficial for model refinement, contrasting with the highest-loss samples, which would be discarded due to their correlation with data noise and complexity. We then formalize this strategy into a principled framework of Instance-Reweighted Distributionally Robust Optimization (IR-DRO). IR-DRO is designed to dynamically prioritize the training focus on informative samples through an instance reweighting mechanism, streamlined by a closed-form solution for straightforward integration into established training protocols. Through rigorous experimentation with various models and datasets, our findings indicate that our sample-targeted methods significantly improve LLM performance across multiple benchmarks, in both continual pre-training and instruction tuning scenarios. Our codes are available at https://github.com/VITA-Group/HardFocusTraining.
翻訳日:2024-02-23 16:34:47 公開日:2024-02-22
# 大規模言語モデルは科学ニュースにおける誤報を検出することができるか?

Can Large Language Models Detect Misinformation in Scientific News Reporting? ( http://arxiv.org/abs/2402.14268v1 )

ライセンス: Link先を確認
Yupeng Cao, Aishwarya Muralidharan Nair, Elyon Eyimife, Nastaran Jamalipour Soofi, K.P. Subbalakshmi, John R. Wullert II, Chumki Basu, David Shallcross(参考訳) 新型コロナウイルス(COVID-19)のパンデミックで証明されたように、科学的な事実は世論や行動に影響を与える意図で、大衆の報道でしばしば取り上げられる。 科学領域における誤情報の自動検出は、これらの2つのメディアタイプにおける筆記様式が異なるため困難であり、まだその初期段階にある。 科学的報告の妥当性に関するほとんどの研究は、この問題をクレーム検証の課題として扱う。 適切なクレームを生成するためには、重要な専門家の努力が必要である。 私たちのソリューションはこのステップを回避し、そのような明示的なラベル付きクレームが利用できない、より現実的なシナリオに対処します。 本論文の中心的な研究課題は,科学的報告における誤情報の検出に大規模言語モデル(LLM)を用いることが可能であるかどうかである。 そこで我々はまず,信頼度の高い情報源や信頼できない情報源から得られた2.4kの科学ニュース記事を含む新たなラベル付きデータセットscinewsを,cord-19データベースの関連要約と組み合わせて紹介する。 我々のデータセットには、人間による記事とLLMによるニュース記事の両方が含まれており、LLMを使って人気のあるニュース記事を生成する傾向の高まりを捉えている。 次に,科学ニュース記事の科学的妥当性の次元を特定し,科学的誤報の自動検出にどのように組み込むかを検討する。 本稿では,LLMを用いたいくつかのベースラインアーキテクチャを提案し,科学的な発見の偽表現を自動的に検出する。 これらのアーキテクチャごとに、ゼロショット、少数ショット、チェーンオブマインドプロンプトなど、いくつかのプロンプトエンジニアリング戦略を使用します。 また,これらのアーキテクチャをGPT-3.5,GPT-4,Llama2-7B,Llama2-13B上でテストする。

Scientific facts are often spun in the popular press with the intent to influence public opinion and action, as was evidenced during the COVID-19 pandemic. Automatic detection of misinformation in the scientific domain is challenging because of the distinct styles of writing in these two media types and is still in its nascence. Most research on the validity of scientific reporting treats this problem as a claim verification challenge. In doing so, significant expert human effort is required to generate appropriate claims. Our solution bypasses this step and addresses a more real-world scenario where such explicit, labeled claims may not be available. The central research question of this paper is whether it is possible to use large language models (LLMs) to detect misinformation in scientific reporting. To this end, we first present a new labeled dataset SciNews, containing 2.4k scientific news stories drawn from trusted and untrustworthy sources, paired with related abstracts from the CORD-19 database. Our dataset includes both human-written and LLM-generated news articles, making it more comprehensive in terms of capturing the growing trend of using LLMs to generate popular press articles. Then, we identify dimensions of scientific validity in science news articles and explore how this can be integrated into the automated detection of scientific misinformation. We propose several baseline architectures using LLMs to automatically detect false representations of scientific findings in the popular press. For each of these architectures, we use several prompt engineering strategies including zero-shot, few-shot, and chain-of-thought prompting. We also test these architectures and prompting strategies on GPT-3.5, GPT-4, and Llama2-7B, Llama2-13B.
翻訳日:2024-02-23 16:34:25 公開日:2024-02-22
# 治療効果推定のための二重ロバスト学習の構造依存的最適性

Structure-agnostic Optimality of Doubly Robust Learning for Treatment Effect Estimation ( http://arxiv.org/abs/2402.14264v1 )

ライセンス: Link先を確認
Jikai Jin and Vasilis Syrgkanis(参考訳) 平均処理効果推定は因果推論において最も中心的な問題であり、多くの分野に適用できる。 文献では多くの推定戦略が提案されているが、近年では汎用機械学習推定器も取り入れているが、これらの手法の統計的最適性は依然として調査の領域として残っている。 本稿では,最近導入された統計的下界の構造非依存の枠組みを採用し,ブラックボックスのサブプロセスとして非パラメトリック回帰と分類オラクルを用いた推定戦略を考慮しようとする場合にのみ,小さな誤差となるブラックボックス推定器へのアクセス以外のニュアンス関数の構造的特性を生じさせない。 この枠組みでは, 平均治療効果 (ate) と平均治療効果 (atte) と, 前者の重み付け型 (重み付け型) の双方に対して, 広く使用されている2倍ロバストな推定器の統計的最適性を証明する。

Average treatment effect estimation is the most central problem in causal inference with application to numerous disciplines. While many estimation strategies have been proposed in the literature, recently also incorporating generic machine learning estimators, the statistical optimality of these methods has still remained an open area of investigation. In this paper, we adopt the recently introduced structure-agnostic framework of statistical lower bounds, which poses no structural properties on the nuisance functions other than access to black-box estimators that attain small errors; which is particularly appealing when one is only willing to consider estimation strategies that use non-parametric regression and classification oracles as a black-box sub-process. Within this framework, we prove the statistical optimality of the celebrated and widely used doubly robust estimators for both the Average Treatment Effect (ATE) and the Average Treatment Effect on the Treated (ATTE), as well as weighted variants of the former, which arise in policy evaluation.
翻訳日:2024-02-23 16:33:56 公開日:2024-02-22
# copilot evaluation harness: llmガイド付きソフトウェアプログラミングの評価

Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming ( http://arxiv.org/abs/2402.14261v1 )

ライセンス: Link先を確認
Anisha Agarwal, Aaron Chan, Shubham Chandel, Jinu Jang, Shaun Miller, Roshanak Zilouchian Moghaddam, Yevhen Mohylevskyy, Neel Sundaresan, Michele Tufano(参考訳) 大規模言語モデル(LLM)を開発環境(IDE)に統合することは、現代のソフトウェア開発の焦点となっている。 OpenAI GPT-3.5/4やCode LlamaのようなLLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。 しかし、LLMを最初から活用することは、任意のシナリオに最適とは考えにくい。 むしろ、それぞれのシステムは、最高のパフォーマンスを保証するために、LSMをそのヒューリスティックな一連の集合に向けることを要求する。 本稿では,LLM-Guided IDEインタラクションを評価するためのデータとツールセットであるCopilotアセスメントハーネスについて紹介する。 我々は,従来の技術評価システムよりもロバストで情報伝達度の高い評価手法として評価基準を提案する。 私たちは、自然言語(ジェネレーション)からのコード生成、コード(doc)からのドキュメント生成、テストケース生成(テスト)、バグフィックス(修正)、ワークスペース理解とクエリ解決(ワークスペース)など、幅広い開発者のタスクを含むシナリオに対して、静的および実行ベースの成功メトリクスを設計し、計算します。 これらの成功指標は、あるIDE内のLLMのパフォーマンスとそのパラメータ空間を評価するように設計されている。 これらの指標を用いて3つの共通LCMの評価から学んだことは、LCMガイドIDEにおける将来のシナリオの開発と検証に役立てることができる。

The integration of Large Language Models (LLMs) into Development Environments (IDEs) has become a focal point in modern software development. LLMs such as OpenAI GPT-3.5/4 and Code Llama offer the potential to significantly augment developer productivity by serving as intelligent, chat-driven programming assistants. However, utilizing LLMs out of the box is unlikely to be optimal for any given scenario. Rather, each system requires the LLM to be honed to its set of heuristics to ensure the best performance. In this paper, we introduce the Copilot evaluation harness: a set of data and tools for evaluating LLM-guided IDE interactions, covering various programming scenarios and languages. We propose our metrics as a more robust and information-dense evaluation than previous state of the art evaluation systems. We design and compute both static and execution based success metrics for scenarios encompassing a wide range of developer tasks, including code generation from natural language (generate), documentation generation from code (doc), test case generation (test), bug-fixing (fix), and workspace understanding and query resolution (workspace). These success metrics are designed to evaluate the performance of LLMs within a given IDE and its respective parameter space. Our learnings from evaluating three common LLMs using these metrics can inform the development and validation of future scenarios in LLM guided IDEs.
翻訳日:2024-02-23 16:33:38 公開日:2024-02-22
# 単語列エントロピー:フリーフォーム医療質問応答アプリケーションにおける不確実性推定に向けて

Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond ( http://arxiv.org/abs/2402.14259v1 )

ライセンス: Link先を確認
Zhiyuan Wang, Jinhao Duan, Chenxi Yuan, Qingyu Chen, Tianlong Chen, Huaxiu Yao, Yue Zhang, Ren Wang, Kaidi Xu, Xiaoshuang Shi(参考訳) 不確実性推定は、特に医療領域において、安全クリティカルな人間とAIの相互作用システムの信頼性を確保する上で重要な役割を果たす。 しかし, フリーフォーム回答の不確かさを定量化するための一般的な手法は, 限定的な意味情報を持つ無関係な単語やシーケンスが生成的不等式の存在による不確実性の原因となるような, オープンな医療質問応答(QA)タスクにおいてはまだ確立されていない。 本稿では,単語列エントロピー(word-sequence entropy, wse)を提案する。単語列エントロピー(word-sequence entropy, wse)は,単語とシーケンスレベルの不確かさの比率を意味的関連性に応じて規定する。 7つの"オフ・ザ・シェルフ"大規模言語モデル(llms)を用いた5つのフリー形式の医療用qaデータセットにおいて、wseと6つのベースライン手法を比較し、wseが2つの標準性評価基準の下で正確な不確実性測定において優れた性能を示すことを示した(例えば、medqaデータセットの既存のstate-of-the-artメソッドを3.23%aurocで上回っている)。 さらに、実世界の医療QA応用の可能性の観点からは、追加のタスク固有の微調整やアーキテクチャの変更を必要とせず、WSEが最終回答として特定した、低い不確実性を持つシーケンス(+6.36%の精度改善など)を用いる場合のLCMの性能を著しく向上させる。

Uncertainty estimation plays a pivotal role in ensuring the reliability of safety-critical human-AI interaction systems, particularly in the medical domain. However, a general method for quantifying the uncertainty of free-form answers has yet to be established in open-ended medical question-answering (QA) tasks, where irrelevant words and sequences with limited semantic information can be the primary source of uncertainty due to the presence of generative inequality. In this paper, we propose the Word-Sequence Entropy (WSE), which calibrates the uncertainty proportion at both the word and sequence levels according to the semantic relevance, with greater emphasis placed on keywords and more relevant sequences when performing uncertainty quantification. We compare WSE with 6 baseline methods on 5 free-form medical QA datasets, utilizing 7 "off-the-shelf" large language models (LLMs), and show that WSE exhibits superior performance on accurate uncertainty measurement under two standard criteria for correctness evaluation (e.g., WSE outperforms existing state-of-the-art method by 3.23% AUROC on the MedQA dataset). Additionally, in terms of the potential for real-world medical QA applications, we achieve a significant enhancement in the performance of LLMs when employing sequences with lower uncertainty, identified by WSE, as final answers (e.g., +6.36% accuracy improvement on the COVID-QA dataset), without requiring any additional task-specific fine-tuning or architectural modifications.
翻訳日:2024-02-23 16:33:14 公開日:2024-02-22
# Eagle: リアルインタラクションから得られる倫理的データセット

Eagle: Ethical Dataset Given from Real Interactions ( http://arxiv.org/abs/2402.14258v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Danushka Bollegala, Timothy Baldwin(参考訳) 近年の研究では、大規模言語モデル(llm)は社会的バイアス、道徳的推論の欠如、攻撃的コンテンツの生成といった倫理的な問題を引き起こすことが示されている。 これらの倫理的課題に対処する既存の評価指標と方法は、倫理的問題を含む事例を作成するよう人間に指示することで意図的に作成したデータセットを使用する。 したがって、データは、日常の文脈でLLMサービスを利用する際にユーザーが実際に提供するプロンプトを反映しない。 これは、現実世界のアプリケーションで生じる倫理的課題に対処できる安全なLLMの開発につながらない可能性がある。 本稿では,社会的バイアス,毒性,不道徳な問題を呈するChatGPTとユーザ間の実際のインタラクションから抽出したEagleデータセットを作成する。 我々の実験では、イーグルは、そのような倫理的課題の評価と緩和のために提案された既存のデータセットでカバーされていない相補的な側面を捉えている。 私たちのコードはhttps://huggingface.co/datasets/masahirokaneko/eagleで公開されています。

Recent studies have demonstrated that large language models (LLMs) have ethical-related problems such as social biases, lack of moral reasoning, and generation of offensive content. The existing evaluation metrics and methods to address these ethical challenges use datasets intentionally created by instructing humans to create instances including ethical problems. Therefore, the data does not reflect prompts that users actually provide when utilizing LLM services in everyday contexts. This may not lead to the development of safe LLMs that can address ethical challenges arising in real-world applications. In this paper, we create Eagle datasets extracted from real interactions between ChatGPT and users that exhibit social biases, toxicity, and immoral problems. Our experiments show that Eagle captures complementary aspects, not covered by existing datasets proposed for evaluation and mitigation of such ethical challenges. Our code is publicly available at https://huggingface.co/datasets/MasahiroKaneko/eagle.
翻訳日:2024-02-23 16:32:41 公開日:2024-02-22
# 連結位相をもつ量子ビットネットワークの分散部分量子コンセンサス

Distributed Partial Quantum Consensus of Qubit Networks with Connected Topologies ( http://arxiv.org/abs/2402.14256v1 )

ライセンス: Link先を確認
Xin Jin, Zhu Cao, Yang Tang, Juergen Kurths(参考訳) 本稿では,分散ビューにおけるキュービットネットワークの部分量子コンセンサス問題について考察する。 局所量子演算は、量子ビットのネットワーク内の各量子系の局所情報を用いて、ハミルトニアンに基づいて設計される。 我々は、各量子系に対するユニタリ変換を構築し、部分量子コンセンサス、すなわち、ブロッホ球における量子状態の方向が合意に達する。 2量子ビット量子システムの単純な場合をまず考慮し、各量子ビットの幾何学的構成に基づいて部分的コンセンサスに達する最小完了時間を求める。 さらに、より一般的なNビットネットワークを扱うためにアプローチを拡張する。 連鎖グラフのリアプノフ法と連結グラフの幾何法に基づく2つの部分量子コンセンサスプロトコルを提案する。 幾何法はより一般的な連結グラフを扱うのに利用できるが、リャプノフ法では大域的なコンセンサスを得ることができる。 量子ビットネットワーク上での数値シミュレーションを行い、理論結果の有効性と有効性を検証する。

In this paper, we consider the partial quantum consensus problem of a qubit network in a distributed view. The local quantum operation is designed based on the Hamiltonian by using the local information of each quantum system in a network of qubits. We construct the unitary transformation for each quantum system to achieve the partial quantum consensus, i.e., the directions of the quantum states in the Bloch ball will reach an agreement. A simple case of two-qubit quantum systems is considered first, and a minimum completing time of reaching partial consensus is obtained based on the geometric configuration of each qubit. Furthermore, we extend the approaches to deal with the more general N-qubit networks. Two partial quantum consensus protocols, based on the Lyapunov method for chain graphs and the geometry method for connected graphs, are proposed. The geometry method can be utilized to deal with more general connected graphs, while for the Lyapunov method, the global consensus can be obtained. The numerical simulation over a qubit network is demonstrated to verify the validity and the effectiveness of the theoretical results.
翻訳日:2024-02-23 16:32:25 公開日:2024-02-22
# ML性能の相違を説明する階層的分解法

A hierarchical decomposition for explaining ML performance discrepancies ( http://arxiv.org/abs/2402.14254v1 )

ライセンス: Link先を確認
Jean Feng, Harvineet Singh, Fan Xia, Adarsh Subbaswamy, Alexej Gossmann(参考訳) 機械学習(ML)アルゴリズムは、ドメイン間でパフォーマンスがしばしば異なる。 $\textit{why}$パフォーマンスの違いを理解することは、パフォーマンスギャップを埋める上で最も効果的な介入の種類(アルゴリズムや運用など)を決定するために不可欠である。 既存のメソッドでは、$\textit{aggregate decompositions}$の総パフォーマンスギャップを$$p(X)$の分散のシフトの影響に対して$$p(Y|X)$の条件分布のシフトの影響にフォーカスする。 集約分解における各項に対する各変数の重要性を定量化する$\textit{Detailed variable-level decompositions}$は、より深く理解し、よりターゲットの介入を提案する。 しかし、既存の手法は完全な因果グラフの知識を仮定するか、強いパラメトリックな仮定を行う。 本稿では,mlアルゴリズムの性能がドメインによって異なる理由を説明するために,集約分解と詳細分解の両方を提供する非パラメトリック階層型フレームワークを提案する。 我々は漸近的に妥当な信頼区間に対する偏差、計算効率のよい推定器、統計的推論手順を導出する。

Machine learning (ML) algorithms can often differ in performance across domains. Understanding $\textit{why}$ their performance differs is crucial for determining what types of interventions (e.g., algorithmic or operational) are most effective at closing the performance gaps. Existing methods focus on $\textit{aggregate decompositions}$ of the total performance gap into the impact of a shift in the distribution of features $p(X)$ versus the impact of a shift in the conditional distribution of the outcome $p(Y|X)$; however, such coarse explanations offer only a few options for how one can close the performance gap. $\textit{Detailed variable-level decompositions}$ that quantify the importance of each variable to each term in the aggregate decomposition can provide a much deeper understanding and suggest much more targeted interventions. However, existing methods assume knowledge of the full causal graph or make strong parametric assumptions. We introduce a nonparametric hierarchical framework that provides both aggregate and detailed decompositions for explaining why the performance of an ML algorithm differs across domains, without requiring causal knowledge. We derive debiased, computationally-efficient estimators, and statistical inference procedures for asymptotically valid confidence intervals.
翻訳日:2024-02-23 16:32:07 公開日:2024-02-22
# mvd$^2$ : マルチビュー拡散のための効率的なマルチビュー3次元再構成

MVD$^2$: Efficient Multiview 3D Reconstruction for Multiview Diffusion ( http://arxiv.org/abs/2402.14253v1 )

ライセンス: Link先を確認
Xin-Yang Zheng and Hao Pan and Yu-Xiao Guo and Xin Tong and Yang Liu(参考訳) 有望な3d生成技術として、マルチビュー拡散(mvd)は、汎用性、品質、効率の面での利点から多くの注目を集めている。 MVD法は3次元データを用いて事前学習した大規模画像拡散モデルを微調整することにより、まず画像やテキストのプロンプトに基づいて3次元オブジェクトの複数のビューを生成し、その後、マルチビュー3次元再構成で3次元形状を再構成する。 しかし,生成画像の難易度と不整合により3次元再構成が困難となる。 マルチビュー拡散(MVD)画像の効率的な3次元再構成法であるMVD$^2$を提案する。 MVD$^2$は、画像を投影と畳み込みによって3D特徴量に集約し、ボリューム特徴量を3Dメッシュにデコードする。 MVD$^2$の3次元形状コレクションと3次元形状のレンダリングビューによるMVD画像の訓練を行う。 生成した多視点画像と3次元形状の地上視との相違に対処するため,簡易イエット効率のよいビュー依存型トレーニングスキームを設計した。 MVD$^2$は、MVDの3D生成品質を改善し、様々なMVD法に対して高速で堅牢である。 トレーニング後、マルチビューイメージから3Dメッシュを1秒以内に効率的にデコードできる。 我々は、Zero-123++とObjectVerse-LVIS 3Dデータセットを用いてMVD$^2$をトレーニングし、合成画像と実画像の両方をプロンプトとして、異なるMVD法で生成されたマルチビュー画像から3Dモデルを生成する際の優れた性能を示す。

As a promising 3D generation technique, multiview diffusion (MVD) has received a lot of attention due to its advantages in terms of generalizability, quality, and efficiency. By finetuning pretrained large image diffusion models with 3D data, the MVD methods first generate multiple views of a 3D object based on an image or text prompt and then reconstruct 3D shapes with multiview 3D reconstruction. However, the sparse views and inconsistent details in the generated images make 3D reconstruction challenging. We present MVD$^2$, an efficient 3D reconstruction method for multiview diffusion (MVD) images. MVD$^2$ aggregates image features into a 3D feature volume by projection and convolution and then decodes volumetric features into a 3D mesh. We train MVD$^2$ with 3D shape collections and MVD images prompted by rendered views of 3D shapes. To address the discrepancy between the generated multiview images and ground-truth views of the 3D shapes, we design a simple-yet-efficient view-dependent training scheme. MVD$^2$ improves the 3D generation quality of MVD and is fast and robust to various MVD methods. After training, it can efficiently decode 3D meshes from multiview images within one second. We train MVD$^2$ with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its superior performance in generating 3D models from multiview images generated by different MVD methods, using both synthetic and real images as prompts.
翻訳日:2024-02-23 16:31:43 公開日:2024-02-22
# 平坦帯を有する二次元ディラック材料のスピン依存エッジ状態

Spin-dependent edge states in two-dimensional Dirac materials with a flat band ( http://arxiv.org/abs/2402.14248v1 )

ライセンス: Link先を確認
Li-Li Ye, Chen-Di Han, and Ying-Cheng Lai(参考訳) 相対論的量子キメラに繋がる二次元(2次元)疑似スピン1/2ディラック材料におけるスピン依存量子散乱現象が最近明らかになった。 2次元疑似スピン-1ディラック材料におけるスピン依存ディラック電子光学の研究を行い、エネルギーバンド構造は1対のディラックコーンとフラットバンドからなる。 特に、外部の電場と磁気交換場の適切な組み合わせにより、特定のスピン配向(スピンダウンなど)を持つ電子は、長寿命のエッジモードのクラスに閉じ込められ、共振散乱を生成することができる。 スピン依存エッジ状態はフラットバンドディラック材料のユニークな特徴であり、古典対応を持たない。 しかし、反対スピン(すなわちスピンアップ)を持つ電子は、古典的対応を持つ通常の量子散乱を受け、これはディラック電子光学の枠組みで理解することができる。 その結果、スピンダウン電子は近距離領域と遠距離領域の両方で広い散乱角分布を持つ大きな散乱確率を生じ、スピンアップ電子は反対の挙動を示す。 このような特性的に異なるスピンを持つ電子の挙動はスピン分極につながり、ほぼ100%のスピン分極に繋がる。

The phenomenon of spin-dependent quantum scattering in two-dimensional (2D) pseudospin-1/2 Dirac materials leading to a relativistic quantum chimera was recently uncovered. We investigate spin-dependent Dirac electron optics in 2D pseudospin-1 Dirac materials, where the energy-band structure consists of a pair of Dirac cones and a flat band. In particular, with a suitable combination of external electric fields and a magnetic exchange field, electrons with a specific spin orientation (e.g., spin-down) can be trapped in a class of long-lived edge modes, generating resonant scattering. The spin-dependent edge states are a unique feature of flat-band Dirac materials and have no classical correspondence. However, electrons with the opposite spin (i.e., spin up) undergo conventional quantum scattering with a classical correspondence, which can be understood in the framework of Dirac electron optics. A consequence is that the spin-down electrons produce a large scattering probability with broad scattering angle distribution in both near- and far-field regions, while the spin-up electrons display the opposite behavior. Such characteristically different behaviors of the electrons with opposite spins lead to spin polarization that can be as high as nearly 100%.
翻訳日:2024-02-23 16:31:16 公開日:2024-02-22
# ナレッジ・インフォームド・セルフトレーニングによるリコンストラクションに基づく異常局在

Reconstruction-Based Anomaly Localization via Knowledge-Informed Self-Training ( http://arxiv.org/abs/2402.14246v1 )

ライセンス: Link先を確認
Cheng Qian, Xiaoxian Lao, Chunguang Li(参考訳) 画像内の異常領域を局在化する異常局在は、重要な産業課題である。 レコンストラクションベースの手法は、その複雑さと高い解釈性のため、異常局在に広く採用されている。 既存の再構築手法の多くは、モデルを構築するのに通常のサンプルのみを使用する。 異常なサンプルが異常なローカライゼーションの過程で適切に利用される場合、ローカライゼーション性能を向上させることができる。 しかし、通常は弱いラベル付き異常サンプルのみが利用可能であり、改善は制限される。 多くの場合、ドメインの専門家によってまとめられた異常に関する知識を得ることができます。 このような知識を活かすことで,異常サンプルの活用が促進され,ローカライゼーション性能が向上する。 本稿では,知識を自己学習を通じて再構築モデルに統合する,知識インフォームド・セルフトレーニング(KIST)という新しい再構築手法を提案する。 具体的には、KISTは異常サンプルに加えて弱いラベル付けされた異常サンプルを使用し、異常サンプルのピクセルレベルの擬似ラベルを生成するために知識を活用する。 擬似ラベルに基づいて、異常画素の再構成を抑制しながら、正常画素の再構成を促進する新規な損失を用いる。 我々は、異なるデータセットで実験を行い、既存の再構築手法よりもKISTの利点を実証する。

Anomaly localization, which involves localizing anomalous regions within images, is a significant industrial task. Reconstruction-based methods are widely adopted for anomaly localization because of their low complexity and high interpretability. Most existing reconstruction-based methods only use normal samples to construct model. If anomalous samples are appropriately utilized in the process of anomaly localization, the localization performance can be improved. However, usually only weakly labeled anomalous samples are available, which limits the improvement. In many cases, we can obtain some knowledge of anomalies summarized by domain experts. Taking advantage of such knowledge can help us better utilize the anomalous samples and thus further improve the localization performance. In this paper, we propose a novel reconstruction-based method named knowledge-informed self-training (KIST) which integrates knowledge into reconstruction model through self-training. Specifically, KIST utilizes weakly labeled anomalous samples in addition to the normal ones and exploits knowledge to yield pixel-level pseudo-labels of the anomalous samples. Based on the pseudo labels, a novel loss which promotes the reconstruction of normal pixels while suppressing the reconstruction of anomalous pixels is used. We conduct experiments on different datasets and demonstrate the advantages of KIST over the existing reconstruction-based methods.
翻訳日:2024-02-23 16:30:56 公開日:2024-02-22
# マルチモーダル大言語モデルからのAIフィードバックによるロボットマニピュレーションの強化

Enhancing Robotic Manipulation with AI Feedback from Multimodal Large Language Models ( http://arxiv.org/abs/2402.14245v1 )

ライセンス: Link先を確認
Jinyi Liu, Yifu Yuan, Jianye Hao, Fei Ni, Lingzhi Fu, Yibin Chen, Yan Zheng(参考訳) 近年,大規模言語モデル(LLM)を活用した意思決定プロセスの強化に注目が集まっている。 しかしながら、llmsが生成する自然言語テキスト命令と実行に必要なベクタ化操作との整合は大きな課題であり、タスク固有の詳細を必要とすることが多い。 選好に基づく政策学習アプローチに触発されたタスク固有の粒度の必要性を回避するために,画像入力からのみ選択フィードバックを自動提供するためのマルチモーダルllmの利用について検討する。 本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLM「CriticGPT」を訓練し,分析と嗜好フィードバックを提供する批評家として機能する。 次に,評価モデルの観点から,レビューgptが生成する選好ラベルの有効性を検証する。 アルゴリズムの選好精度の実験的評価は、新しいタスクに対する効果的な一般化能力を示している。 さらに、Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。

Recently, there has been considerable attention towards leveraging large language models (LLMs) to enhance decision-making processes. However, aligning the natural language text instructions generated by LLMs with the vectorized operations required for execution presents a significant challenge, often necessitating task-specific details. To circumvent the need for such task-specific granularity, inspired by preference-based policy learning approaches, we investigate the utilization of multimodal LLMs to provide automated preference feedback solely from image inputs to guide decision-making. In this study, we train a multimodal LLM, termed CriticGPT, capable of understanding trajectory videos in robot manipulation tasks, serving as a critic to offer analysis and preference feedback. Subsequently, we validate the effectiveness of preference labels generated by CriticGPT from a reward modeling perspective. Experimental evaluation of the algorithm's preference accuracy demonstrates its effective generalization ability to new tasks. Furthermore, performance on Meta-World tasks reveals that CriticGPT's reward model efficiently guides policy learning, surpassing rewards based on state-of-the-art pre-trained representation models.
翻訳日:2024-02-23 16:30:39 公開日:2024-02-22
# ハルキエフのフロンティア都市における量子教育

Quantum education in the frontier city of Kharkiv ( http://arxiv.org/abs/2402.14302v1 )

ライセンス: Link先を確認
Pylyp Kuznietsov, Igor Girka, Igor Kyryllin, and Andrii Sotnikov(参考訳) 本稿では、ウクライナのカラジン・ハルキウ国立大学(V.N. Karazin Kharkiv National University)のSPT(School of Physics and Technology)において、量子物理学の現在のトレーニングプロセスと教育構造について述べる。 sptにおける量子教育の重要な特徴は、この分野に積極的に取り組んでいる国立および国際研究センターの科学者や専門家の関与である。 具体的な量子コースの例を挙げて,大規模軍事攻撃における教育過程における課題と,講師,科学職員,学生が克服する方法について概説する。 我々はまた、カルキフにおける量子教育の持続と発展を指向した近年のイニシアチブや、より広範な影響を持つ国際イベントについても概説する。 学校の歴史とその主な業績は簡潔に述べられている。

This article provides the description of current training processes and structure of education in quantum physics at the Education and Research Institute "School of Physics and Technology" (SPT) of V.N. Karazin Kharkiv National University, Ukraine. Crucial feature of quantum education at the SPT is the involvement of scientists and experts from national and international research centers who are actively working in the field. By taking example of particular quantum courses, we outline the main challenges in the educational process during the large-scale military aggression and the ways the lecturers, scientific employees, and students manage to overcome them. We also overview the recently emerged initiatives oriented on sustaining and development of quantum education in Kharkiv, as well as the international events with a broader impact. History of the School and its main achievements are provided in brief.
翻訳日:2024-02-23 16:24:47 公開日:2024-02-22
# GenSERP:全ページ表示のための大規模言語モデル

GenSERP: Large Language Models for Whole Page Presentation ( http://arxiv.org/abs/2402.14301v1 )

ライセンス: Link先を確認
Zhenning Zhang, Yunan Zhang, Suyu Ge, Guangwei Weng, Mridu Narang, Xia Song, Saurabh Tiwary(参考訳) 大規模言語モデル(LLMs)の出現は、検索エンジン検索結果ページ(SERP)組織における労力を最小限にする機会をもたらす。 本稿では,チャット回答,webサイトスニペット,マルチメディアデータ,知識パネルなどの中間検索結果を,ユーザの問合せに基づいたコヒーレントなサープレイアウトに動的に整理する,視覚付きllmを活用したフレームワークgenserpを提案する。 提案手法は,(1) LLMがAPIツールを継続的に編成して,異なる種類の項目を検索し,検索した項目に基づいて候補レイアウトを提案する情報収集フェーズを,最終結果が十分に得られるまで行う。 2) LLM が取得したコンテンツでレイアウトをポップアップさせる応答生成フェーズ。 このフェーズでは、LLMはSERPのアイテムとUX設定のランキングを適応的に最適化する。 その結果、UX表示の詳細とともに、ページ上のロケーションを各アイテムに割り当てる。 (3) 視覚を持つLCMが、ユーザ満足度に基づいて生成したSERPを全てスコアするスコアリングフェーズ。 そして、最も高いスコアのものをレンダリングに送る。 GenSERPには2つの世代パラダイムがある。 まず、より管理しやすい方法で最適レイアウトにアプローチできる粗い粒度(coarse-to-fine)、(2)ビームサーチ(ビームサーチ)。 実世界のデータに対するオフライン実験の結果は、LLMが文脈的に不均一な検索結果をオンザフライで整理し、有望なユーザエクスペリエンスを提供する方法を示している。

The advent of large language models (LLMs) brings an opportunity to minimize the effort in search engine result page (SERP) organization. In this paper, we propose GenSERP, a framework that leverages LLMs with vision in a few-shot setting to dynamically organize intermediate search results, including generated chat answers, website snippets, multimedia data, knowledge panels into a coherent SERP layout based on a user's query. Our approach has three main stages: (1) An information gathering phase where the LLM continuously orchestrates API tools to retrieve different types of items, and proposes candidate layouts based on the retrieved items, until it's confident enough to generate the final result. (2) An answer generation phase where the LLM populates the layouts with the retrieved content. In this phase, the LLM adaptively optimize the ranking of items and UX configurations of the SERP. Consequently, it assigns a location on the page to each item, along with the UX display details. (3) A scoring phase where an LLM with vision scores all the generated SERPs based on how likely it can satisfy the user. It then send the one with highest score to rendering. GenSERP features two generation paradigms. First, coarse-to-fine, which allow it to approach optimal layout in a more manageable way, (2) beam search, which give it a better chance to hit the optimal solution compared to greedy decoding. Offline experimental results on real-world data demonstrate how LLMs can contextually organize heterogeneous search results on-the-fly and provide a promising user experience.
翻訳日:2024-02-23 16:24:34 公開日:2024-02-22
# 超音波セグメンテーション改善のためのマスク画像モデリングによる視覚内コンテキスト学習の簡易フレームワーク

A Simple Framework Uniting Visual In-context Learning with Masked Image Modeling to Improve Ultrasound Segmentation ( http://arxiv.org/abs/2402.14300v1 )

ライセンス: Link先を確認
Yuyue Zhou, Banafshe Felfeliyan, Shrimanti Ghosh, Jessica Knight, Fatima Alves-Pereira, Christopher Keen, Jessica K\"upper, Abhilash Rakkunedeth Hareendranathan, Jacob L. Jaremko(参考訳) 従来のディープラーニングモデルは、医用画像の分野における費用と時間のかかる専門家のラベル付けと、ドメイン固有の制限モデル一般化可能性を必要とする。 visual in-context learning(icl)は、コンピュータビジョンにおける新しい、エキサイティングな研究分野である。 従来のディープラーニングとは異なり、ICLはモデルが与えられた例に基づいて新しいタスクに迅速に適応できる能力を強調している。 MAE-VQGAN に触発されて,視覚的 ICL 対画像とマスク画像モデリング (MIM) を組み合わせて自己教師付き学習を行う,SimICL というシンプルな視覚的 ICL 手法を提案した。 そこで本研究では,手関節超音波(us)データセットにおける骨構造セグメント化法を限定的なアノテーションで検証し,骨構造セグメント化の臨床的意義について検討した。 骨領域セグメンテーションに18例の3822画像を含む検査セットを用いた。 SimICLは、Dice coeffient(DC)が0.96、Jaccard Index(IoU)が0.92で、最先端のセグメンテーションとビジュアルICLモデル(最大DC 0.86とIoU 0.76)を上回り、SimICL DCとIoUは0.10と0.16に増加した。 限られた手動アノテーションとのこの驚くほど高い合意は、SimICLが米国の小さなデータセットでもAIモデルのトレーニングに使用できることを示している。 これにより、従来のアプローチと比較して、画像ラベリングに要する専門家の時間を劇的に短縮し、アメリカの画像分析におけるAIアシストの現実的利用を高めることができる。

Conventional deep learning models deal with images one-by-one, requiring costly and time-consuming expert labeling in the field of medical imaging, and domain-specific restriction limits model generalizability. Visual in-context learning (ICL) is a new and exciting area of research in computer vision. Unlike conventional deep learning, ICL emphasizes the model's ability to adapt to new tasks based on given examples quickly. Inspired by MAE-VQGAN, we proposed a new simple visual ICL method called SimICL, combining visual ICL pairing images with masked image modeling (MIM) designed for self-supervised learning. We validated our method on bony structures segmentation in a wrist ultrasound (US) dataset with limited annotations, where the clinical objective was to segment bony structures to help with further fracture detection. We used a test set containing 3822 images from 18 patients for bony region segmentation. SimICL achieved an remarkably high Dice coeffient (DC) of 0.96 and Jaccard Index (IoU) of 0.92, surpassing state-of-the-art segmentation and visual ICL models (a maximum DC 0.86 and IoU 0.76), with SimICL DC and IoU increasing up to 0.10 and 0.16. This remarkably high agreement with limited manual annotations indicates SimICL could be used for training AI models even on small US datasets. This could dramatically decrease the human expert time required for image labeling compared to conventional approaches, and enhance the real-world use of AI assistance in US image analysis.
翻訳日:2024-02-23 16:24:04 公開日:2024-02-22
# 宇宙に行く:微小重力下でのエージェント駆動型人間とマルチロボットのコラボレーション

We Choose to Go to Space: Agent-driven Human and Multi-Robot Collaboration in Microgravity ( http://arxiv.org/abs/2402.14299v1 )

ライセンス: Link先を確認
Miao Xin, Zhongrui You, Zihan Zhang, Taoran Jiang, Tingjia Xu, Haotian Liang, Guojing Ge, Yuchen Ji, Shentong Mo, Jian Cheng(参考訳) 微小重力環境下でのヒトとマルチロボットの協調(HMRC)戦略を学習するSpaceAgents-1を提案する。 将来の宇宙探査では、人間はロボットと協力する必要がある。 しかし, 微小重力環境下では, 熟練したロボットのスキルを身につけることが, 地上実験室において大きな課題となっている。 この問題に対処するため,我々は微小重力シミュレーション環境を開発し,キャビン内ロボットの3つの典型的な構成を示す。 本研究では,ロボットの具体的制御を個別のスキル・エキスパート・エージェントが管理するのに対し,意思決定エージェントはロボット協調のためのタスクプランナーとして機能する,階層的なヘテロジニアスな多エージェント協調アーキテクチャを提案する。 この機構はSpaceAgents-1システムに様々な複雑な長距離HMRCタスクを実行する権限を与える。

We present SpaceAgents-1, a system for learning human and multi-robot collaboration (HMRC) strategies under microgravity conditions. Future space exploration requires humans to work together with robots. However, acquiring proficient robot skills and adept collaboration under microgravity conditions poses significant challenges within ground laboratories. To address this issue, we develop a microgravity simulation environment and present three typical configurations of intra-cabin robots. We propose a hierarchical heterogeneous multi-agent collaboration architecture: guided by foundation models, a Decision-Making Agent serves as a task planner for human-robot collaboration, while individual Skill-Expert Agents manage the embodied control of robots. This mechanism empowers the SpaceAgents-1 system to execute a range of intricate long-horizon HMRC tasks.
翻訳日:2024-02-23 16:23:31 公開日:2024-02-22
# マルチモーダルスタンス検出:新しいデータセットとモデル

Multi-modal Stance Detection: New Datasets and Model ( http://arxiv.org/abs/2402.14298v1 )

ライセンス: Link先を確認
Bin Liang, Ang Li, Jingqian Zhao, Lin Gui, Min Yang, Yue Yu, Kam-Fai Wong and Ruifeng Xu(参考訳) スタンス検出は、特定のターゲットに関してソーシャルメディアプラットフォームから世論を特定することを目的とした課題である。 姿勢検出に関する以前の研究は、主に純粋なテキストに焦点を当てていた。 本稿では,マルチモーダルメッセージを頻繁に投稿するソーシャルメディアプラットフォームで普及しているテキストと画像からなるツイートに対するマルチモーダルスタンス検出手法について検討する。 この目的のために、Twitterに基づいて異なるドメインの5つの新しいマルチモーダル姿勢検出データセットを作成し、各サンプルはテキストと画像で構成されている。 さらに,目的情報を活用し,テキスト的および視覚的モダリティからマルチモーダルなスタンス特徴を学習する,単純かつ効果的なマルチモーダルプロンプトチューニングフレームワーク(tmpt)を提案する。 3つのベンチマークデータセットによる実験結果から,提案したTMPTは,マルチモーダル姿勢検出における最先端性能を実現することが示された。

Stance detection is a challenging task that aims to identify public opinion from social media platforms with respect to specific targets. Previous work on stance detection largely focused on pure texts. In this paper, we study multi-modal stance detection for tweets consisting of texts and images, which are prevalent in today's fast-growing social media platforms where people often post multi-modal messages. To this end, we create five new multi-modal stance detection datasets of different domains based on Twitter, in which each example consists of a text and an image. In addition, we propose a simple yet effective Targeted Multi-modal Prompt Tuning framework (TMPT), where target information is leveraged to learn multi-modal stance features from textual and visual modalities. Experimental results on our three benchmark datasets show that the proposed TMPT achieves state-of-the-art performance in multi-modal stance detection.
翻訳日:2024-02-23 16:23:16 公開日:2024-02-22
# 校正によるスタンス検出における大規模言語モデルの緩和バイアス

Mitigating Biases of Large Language Models in Stance Detection with Calibration ( http://arxiv.org/abs/2402.14296v1 )

ライセンス: Link先を確認
Ang Li, Jingqian Zhao, Bin Liang, Lin Gui, Hui Wang, Xi Zeng, Kam-Fai Wong and Ruifeng Xu(参考訳) 大規模言語モデル(llm)は多くの自然言語処理タスクで著しく進歩した。 しかし, 本研究では, 姿勢検出タスクにおいて, LLMが特定の個人やトピックに対する刺激的な感情-スタンス相関や嗜好によって偏りのある姿勢を生じさせ, 性能を損なう可能性が示唆された。 そこで本稿では,キャリブレーション(MB-Cal)を用いた姿勢検出におけるLCMのバイアス軽減手法を提案する。 そこで,LDMによる姿勢推定結果のバイアスを軽減するために,新しいゲートキャリブレーションネットワークを考案した。 さらに, キャリブレーションの精度を向上し, 一般化を図るため, 姿勢バイアスを補正するために, 反実データを構築した。 ターゲット内およびゼロショット姿勢検出タスクの実験結果から,提案したMB-CalはLLMのバイアスを効果的に軽減し,最先端の結果が得られることが示された。

Large language models (LLMs) have achieved remarkable progress in many natural language processing tasks. However, our experiment reveals that, in stance detection tasks, LLMs may generate biased stances due to spurious sentiment-stance correlation and preference towards certain individuals and topics, thus harming their performance. Therefore, in this paper, we propose to Mitigate Biases of LLMs in stance detection with Calibration (MB-Cal). In which, a novel gated calibration network is devised to mitigate the biases on the stance reasoning results from LLMs. Further, to make the calibration more accurate and generalizable, we construct counterfactual augmented data to rectify stance biases. Experimental results on in-target and zero-shot stance detection tasks show that the proposed MB-Cal can effectively mitigate biases of LLMs, achieving state-of-the-art results.
翻訳日:2024-02-23 16:22:59 公開日:2024-02-22
# 交換性を利用した高純度PAC学習

High-arity PAC learning via exchangeability ( http://arxiv.org/abs/2402.14294v1 )

ライセンス: Link先を確認
Leonardo N. Coregliano and Maryanthe Malliaris(参考訳) 本研究では,「構造化相関」の存在下での統計的学習である高純度PAC学習の理論を開発する。 この理論では、仮説はグラフ、ハイパーグラフ、あるいはより一般に有限関係言語の構造であり、サンプリングは誘導された部分構造をサンプリングすることによって置き換えられ、交換可能な分布を生成する。 我々は、純粋組合せ次元の有限性および一様収束の適切なバージョンの観点から、高次(非依存)PAC学習可能性を特徴付けることによって、統計学習の基本定理の高アリティバージョンを証明した。

We develop a theory of high-arity PAC learning, which is statistical learning in the presence of "structured correlation". In this theory, hypotheses are either graphs, hypergraphs or, more generally, structures in finite relational languages, and i.i.d. sampling is replaced by sampling an induced substructure, producing an exchangeable distribution. We prove a high-arity version of the fundamental theorem of statistical learning by characterizing high-arity (agnostic) PAC learnability in terms of finiteness of a purely combinatorial dimension and in terms of an appropriate version of uniform convergence.
翻訳日:2024-02-23 16:22:42 公開日:2024-02-22
# NLP教育における概念グラフ復元と質問応答のための大規模言語モデルの活用

Leveraging Large Language Models for Concept Graph Recovery and Question Answering in NLP Education ( http://arxiv.org/abs/2402.14293v1 )

ライセンス: Link先を確認
Rui Yang, Boming Yang, Sixun Ouyang, Tianwei She, Aosong Feng, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li(参考訳) 自然言語処理(NLP)の分野では、Large Language Models(LLM)がテキスト生成タスクにおいて有望であることを示す。 しかし、その教育的応用、特にドメイン特化クエリは、まだ探索されていない。 本研究では,LLMの学習シナリオにおける能力について検討し,概念グラフの回復と質問応答(QA)に着目した。 ドメイン固有の概念グラフを作成する際のLCMのゼロショット性能を評価し,科学グラフ推論とQAのための新たな専門家によるNLP中心のベンチマークであるTutorQAを紹介する。 TutorQAは500QAペアの5つのタスクで構成される。 TutorQAクエリに対処するために、さまざまな質問に答えるために、概念グラフとLLMを統合するパイプラインであるCGLLMを提案する。 以上の結果から, LLMのゼロショット概念グラフ復元は教師付き手法と競合し, 平均3%のF1スコア向上を示した。 TutorQAタスクでは、LLMは最大26%のF1スコア向上を達成する。 さらに、人間の評価と分析により、CGLLMはよりきめ細かい概念で回答を生成することが示された。

In the domain of Natural Language Processing (NLP), Large Language Models (LLMs) have demonstrated promise in text-generation tasks. However, their educational applications, particularly for domain-specific queries, remain underexplored. This study investigates LLMs' capabilities in educational scenarios, focusing on concept graph recovery and question-answering (QA). We assess LLMs' zero-shot performance in creating domain-specific concept graphs and introduce TutorQA, a new expert-verified NLP-focused benchmark for scientific graph reasoning and QA. TutorQA consists of five tasks with 500 QA pairs. To tackle TutorQA queries, we present CGLLM, a pipeline integrating concept graphs with LLMs for answering diverse questions. Our results indicate that LLMs' zero-shot concept graph recovery is competitive with supervised methods, showing an average 3% F1 score improvement. In TutorQA tasks, LLMs achieve up to 26% F1 score enhancement. Moreover, human evaluation and analysis show that CGLLM generates answers with more fine-grained concepts.
翻訳日:2024-02-23 16:22:31 公開日:2024-02-22
# CEV-LM:自然言語生成のための編集ベクトル言語モデル

CEV-LM: Controlled Edit Vector Language Model for Shaping Natural Language Generations ( http://arxiv.org/abs/2402.14290v1 )

ライセンス: Link先を確認
Samraj Moorjani, Adit Krishnan, Hari Sundaram(参考訳) 大規模な言語モデルがテキスト生成の標準になるにつれ、オーディエンス/アプリケーションによって、世代を多かれ少なかれ簡潔でターゲットにし、情報的になるように調整する必要性が高まる。 既存の制御アプローチは、主にテキストのセマンティック(感情、トピックなど)、構造(構文木、音声の一部)、語彙(キーワード/フレーズの包含など)のプロパティを調整するが、テキストの複雑さと可読性を制御するペーシングのような複雑な目的を達成するには不十分である。 本稿では,制約付き編集ベクトルを用いてテキストの形状を定量化する3つの相補的指標(速度,体積,回路性)を制御する軽量な半自己回帰型言語モデルであるCEV-LMを紹介する。 我々は最先端のctgモデルの広範なセットを調査し、cev-lmがこれらの3つのメトリクスをよりターゲットとして正確に制御し、セマンティックコンテンツを保持しながら、トレーニングデータが少なく、パラメータも少ないことを見出した。

As large-scale language models become the standard for text generation, there is a greater need to tailor the generations to be more or less concise, targeted, and informative, depending on the audience/application. Existing control approaches primarily adjust the semantic (e.g., emotion, topics), structural (e.g., syntax tree, parts-of-speech), and lexical (e.g., keyword/phrase inclusion) properties of text, but are insufficient to accomplish complex objectives such as pacing which control the complexity and readability of the text. In this paper, we introduce CEV-LM - a lightweight, semi-autoregressive language model that utilizes constrained edit vectors to control three complementary metrics (speed, volume, and circuitousness) that quantify the shape of text (e.g., pacing of content). We study an extensive set of state-of-the-art CTG models and find that CEV-LM provides significantly more targeted and precise control of these three metrics while preserving semantic content, using less training data, and containing fewer parameters.
翻訳日:2024-02-23 16:22:13 公開日:2024-02-22
# TinyLLaVA: 小規模大規模マルチモーダルモデルのフレームワーク

TinyLLaVA: A Framework of Small-scale Large Multimodal Models ( http://arxiv.org/abs/2402.14289v1 )

ライセンス: Link先を確認
Baichuan Zhou, Ying Hu, Xi Weng, Junlong Jia, Jie Luo, Xien Liu, Ji Wu, Lei Huang(参考訳) 本稿では,小型大規模マルチモーダルモデル(LMM)の設計と解析において統一的な視点を提供するTinyLLaVAフレームワークを提案する。 我々は、異なる視覚エンコーダ、接続モジュール、言語モデル、トレーニングデータおよびトレーニングレシピの効果を実証研究する。 我々の広範な実験により、より優れたトレーニングレシピと組み合わされたデータの品質、より小さなLMMは、より大きなLMMと比較して一貫してオンパーパフォーマンスを達成することができることがわかった。 私たちのフレームワークでは、小さなLMMのファミリーを訓練します。 我々のベストモデルであるTinyLLaVA-3.1Bは、LLaVA-1.5やQwen-VLといった既存の7Bモデルに対して、全体的なパフォーマンスの向上を実現しています。 当社の調査結果が,データスケーリングやトレーニングセットアップ,モデル選択といった,今後の研究のベースラインとなることを願っています。 私たちのモデルウェイトとコードは公開されます。

We present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training data and training recipes. Our extensive experiments showed that better quality of data combined with better training recipes, smaller LMMs can consistently achieve on-par performances compared to bigger LMMs. Under our framework, we train a family of small-scale LMMs. Our best model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as baselines for future research in terms of data scaling, training setups and model selections. Our model weights and codes will be made public.
翻訳日:2024-02-23 16:21:52 公開日:2024-02-22
# 非微分規則誘導拡散によるシンボリック音楽生成

Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion ( http://arxiv.org/abs/2402.14285v1 )

ライセンス: Link先を確認
Yujia Huang, Adishree Ghatare, Yuanzhe Liu, Ziniu Hu, Qinsheng Zhang, Chandramouli S Sastry, Siddharth Gururani, Sageev Oore, Yisong Yue(参考訳) 独創的音楽生成の問題(ピアノロール生成など)について,非微分的ルール指導に技術的に焦点をあてて検討する。 音楽の規則はしばしば音符密度や和音の進行といった音符の特徴を象徴的に表現されるが、それらの多くは微分不能であり、それらを誘導拡散に使用する際に問題となる。 そこで,本研究では,事前学習した拡散モデルをプラグ・アンド・プレイで操作可能なルール関数の前方評価のみを必要とする新しい誘導法である確率制御ガイダンス(scg)を提案する。 さらに,SCGをプラグ・アンド・プレイ方式で構成可能な,高分解能のシンボリック音楽生成のための潜時拡散アーキテクチャを提案する。 シンボリック音楽生成の標準的な強固なベースラインと比較すると、このフレームワークは音楽の品質とルールベースの制御性が著しく向上し、様々な設定において現在の最先端のジェネレータよりも優れています。 詳細なデモについては、プロジェクトのサイトをご覧ください。

We study the problem of symbolic music generation (e.g., generating piano rolls), with a technical focus on non-differentiable rule guidance. Musical rules are often expressed in symbolic form on note characteristics, such as note density or chord progression, many of which are non-differentiable which pose a challenge when using them for guided diffusion. We propose Stochastic Control Guidance (SCG), a novel guidance method that only requires forward evaluation of rule functions that can work with pre-trained diffusion models in a plug-and-play way, thus achieving training-free guidance for non-differentiable rules for the first time. Additionally, we introduce a latent diffusion architecture for symbolic music generation with high time resolution, which can be composed with SCG in a plug-and-play fashion. Compared to standard strong baselines in symbolic music generation, this framework demonstrates marked advancements in music quality and rule-based controllability, outperforming current state-of-the-art generators in a variety of settings. For detailed demonstrations, please visit our project site: https://scg-rule-guided-music.github.io/.
翻訳日:2024-02-23 16:21:38 公開日:2024-02-22
# ランドマーク対応ビジュアルナビゲーションデータセット

A Landmark-Aware Visual Navigation Dataset ( http://arxiv.org/abs/2402.14281v1 )

ライセンス: Link先を確認
Faith Johnson, Bryan Bo Cao, Kristin Dana, Shubham Jain, Ashwin Ashok(参考訳) 専門家による地図表現は有望な研究価値を示している。 しかし、視覚ナビゲーション分野の最近の進歩は、環境の効率的な教師付き表現学習のための現実世界における人間のデータセットの欠如による課題に直面している。 ランドマーク対応ビジュアルナビゲーション(LAVN)データセットを提示し、人間中心の探索ポリシーと地図構築の教師あり学習を可能にする。 rgbの観測と人間のポイントクリックペアを収集し、人間の注釈が仮想環境と現実世界の環境を探索する。 人間のアノテータは、それぞれの軌跡に沿って明確なランドマークの例も提供し、マップやグラフの構築やローカライゼーションのタスクを単純化します。 これらのヒューマンポイントクリックは、環境を探索する学習時にウェイポイント予測を直接監督する役割を担っている。 私たちのデータセットは、屋内環境の部屋や屋外の通路など、幅広い場面をカバーしています。 DatasetはDOI: 10.5281/zenodo.10608067で利用可能である。

Map representation learned by expert demonstrations has shown promising research value. However, recent advancements in the visual navigation field face challenges due to the lack of human datasets in the real world for efficient supervised representation learning of the environments. We present a Landmark-Aware Visual Navigation (LAVN) dataset to allow for supervised learning of human-centric exploration policies and map building. We collect RGB observation and human point-click pairs as a human annotator explores virtual and real-world environments with the goal of full coverage exploration of the space. The human annotators also provide distinct landmark examples along each trajectory, which we intuit will simplify the task of map or graph building and localization. These human point-clicks serve as direct supervision for waypoint prediction when learning to explore in environments. Our dataset covers a wide spectrum of scenes, including rooms in indoor environments, as well as walkways outdoors. Dataset is available at DOI: 10.5281/zenodo.10608067.
翻訳日:2024-02-23 16:21:18 公開日:2024-02-22
# GPS環境におけるランドマークを用いた安全なナビゲーション

Secure Navigation using Landmark-based Localization in a GPS-denied Environment ( http://arxiv.org/abs/2402.14280v1 )

ライセンス: Link先を確認
Ganesh Sapkota, Sanjay Madria(参考訳) 現代の戦場では、ナビゲーションのためのGPSへの依存は重大な脆弱性となる可能性がある。 敵はしばしばGPS信号を否定したり欺いたりするために戦術を採用し、移動部隊の局地化と航法のための代替手段を必要としている。 DV-HOPのようなレンジフリーなローカライゼーション手法は、無線ベースのアンカーと、ダイナミックでスパースなネットワークトポロジの精度と安定性に苦しむ平均ホップ距離に依存している。 SLAMやVisual Odometryのような視覚ベースのアプローチは、より高度で計算コストの高いマップ生成とポーズ推定にセンサー融合技術を使用する。 本稿では,ランドマークに基づく位置決め(lanbloc)と拡張カルマンフィルタ(ekf)を統合し,戦場における移動体の将来状態を予測する新しい枠組みを提案する。 本フレームワークは,部隊管理センターが生成する安全軌道情報を利用して,特定可能なランドマークと事前定義された危険マップを考察する。 軌道セグメントの凸殻上で点包含試験を行い、移動体の安全性と生存性を確保し、次の点前方決定を決定する。 本研究では, EKF と EKF の2つの異なるアプローチに対して, 障害物や危険のない経路から移動体を誘導するシミュレーション戦場シナリオを提案する。 提案手法では,平均変位誤差 (ade) が2.97m,最終変位誤差 (fde) が3.27mの安全な軌道推定において, 平均変位誤差 (ade) が6.51%の誤差であることがわかった。 その結果,本手法は,安全な軌道に保持することでモバイル機器の安全性を確保できるだけでなく,進展する脅威環境に適応することで運用効率を向上させる。

In modern battlefield scenarios, the reliance on GPS for navigation can be a critical vulnerability. Adversaries often employ tactics to deny or deceive GPS signals, necessitating alternative methods for the localization and navigation of mobile troops. Range-free localization methods such as DV-HOP rely on radio-based anchors and their average hop distance which suffers from accuracy and stability in a dynamic and sparse network topology. Vision-based approaches like SLAM and Visual Odometry use sensor fusion techniques for map generation and pose estimation that are more sophisticated and computationally expensive. This paper proposes a novel framework that integrates landmark-based localization (LanBLoc) with an Extended Kalman Filter (EKF) to predict the future state of moving entities along the battlefield. Our framework utilizes safe trajectory information generated by the troop control center by considering identifiable landmarks and pre-defined hazard maps. It performs point inclusion tests on the convex hull of the trajectory segments to ensure the safety and survivability of a moving entity and determines the next point forward decisions. We present a simulated battlefield scenario for two different approaches (with EKF and without EKF) that guide a moving entity through an obstacle and hazard-free path. Using the proposed method, we observed a percent error of 6.51% lengthwise in safe trajectory estimation with an Average Displacement Error (ADE) of 2.97m and a Final Displacement Error (FDE) of 3.27m. The results demonstrate that our approach not only ensures the safety of the mobile units by keeping them within the secure trajectory but also enhances operational effectiveness by adapting to the evolving threat landscape.
翻訳日:2024-02-23 16:21:05 公開日:2024-02-22
# 頑健な多言語理解のための音韻表現による言語間ギャップの緩和

Mitigating the Linguistic Gap with Phonemic Representations for Robust Multilingual Language Understanding ( http://arxiv.org/abs/2402.14279v1 )

ライセンス: Link先を確認
Haeji Jung, Changdae Oh, Jooeon Kang, Jimin Sohn, Kyungwoo Song, Jinkyu Kim, David R. Mortensen(参考訳) 多言語言語理解を改善するには、トレーニングフェーズ中に複数の言語が必要になることが少なく、複雑なトレーニング技術に依存することが少なくない。 言語間の性能格差は言語間の言語的ギャップの影響を受けており、音韻表現(特に音素をサブワードではなくLMへの入力トークンとして用いる)を用いて、堅牢な多言語言語モデリングのための新しいソリューションを提供する。 本稿では,言語間パフォーマンスギャップの理論解析により,音韻表現の有効性を示す3つの言語間タスクの定量的証拠を提示する。

Approaches to improving multilingual language understanding often require multiple languages during the training phase, rely on complicated training techniques, and -- importantly -- struggle with significant performance gaps between high-resource and low-resource languages. We hypothesize that the performance gaps between languages are affected by linguistic gaps between those languages and provide a novel solution for robust multilingual language modeling by employing phonemic representations (specifically, using phonemes as input tokens to LMs rather than subwords). We present quantitative evidence from three cross-lingual tasks that demonstrate the effectiveness of phonemic representation, which is further justified by a theoretical analysis of the cross-lingual performance gap.
翻訳日:2024-02-23 16:20:32 公開日:2024-02-22
# ハンミングスライスサンプリングのための局所性境界

Locality Bounds for Sampling Hamming Slices ( http://arxiv.org/abs/2402.14278v1 )

ライセンス: Link先を確認
Daniel M. Kane, Anthony Ostuni, Kewen Wu(参考訳) viola(journal of computing 2012)の影響を受けて、過去10年間、(ほぼ)サンプリング分布の複雑さについて、従来の計算関数の複雑さに焦点を当てた研究が活発に行われてきた。 我々は、viola(journal of computing 2012) と filmus, leigh, riazanov, sokolov(random 2023) の疑問に答え、特定のハミングウェイトの2進文字列上の一様分布をほぼサンプリングするブール関数の局所性に関する超定数下界を提供するために、 viola の初期の暗黙的な結果の上に構築し、明らかにする。 データ構造下限と量子古典的分離への応用について論じる。

Spurred by the influential work of Viola (Journal of Computing 2012), the past decade has witnessed an active line of research into the complexity of (approximately) sampling distributions, in contrast to the traditional focus on the complexity of computing functions. We build upon and make explicit earlier implicit results of Viola to provide superconstant lower bounds on the locality of Boolean functions approximately sampling the uniform distribution over binary strings of particular Hamming weights, both exactly and modulo an integer, answering questions of Viola (Journal of Computing 2012) and Filmus, Leigh, Riazanov, and Sokolov (RANDOM 2023). Applications to data structure lower bounds and quantum-classical separations are discussed.
翻訳日:2024-02-23 16:20:19 公開日:2024-02-22
# LLMにおける合成推論の理解とパッチング

Understanding and Patching Compositional Reasoning in LLMs ( http://arxiv.org/abs/2402.14328v1 )

ライセンス: Link先を確認
Zhaoyi Li, Gangwei Jiang, Hong Xie, Linqi Song, Defu Lian, Ying Wei(参考訳) LLMは、再起的なシフトを示すが、構成的推論タスクに直面した時に混乱する。 我々の研究は、LLMの構成的推論失敗の根本原因を解明し、そのほとんどは不適切な生成や暗黙的推論結果からのものであることを明らかにした。 実験結果から着想を得たので,ロジットレンズを応用し,LLMの内部隠蔽状態を識別するための介入実験を行った。 このディープダイブは、暗黙の推論結果が実際に中間層内に存在することを明らかにし、最終的な明示的な推論結果を形成する上で、因果的な役割を担っている。 本研究は, 暗黙の推論結果の正確な生成とレバリングにおいて, リンチピンとして現れるマルチヘッド自己注意モジュール(MHSA)の探索である。 以上の知見に基づいて,MHSA モジュールの編集による構成的推論における誤りの修正を行う軽量な CREME を開発した。 我々の経験的証拠は、CREMEの有効性の証明であり、言語モデルにおける自律的かつ継続的な構成的推論能力の向上の道を開くものである。

LLMs have marked a revolutonary shift, yet they falter when faced with compositional reasoning tasks. Our research embarks on a quest to uncover the root causes of compositional reasoning failures of LLMs, uncovering that most of them stem from the improperly generated or leveraged implicit reasoning results. Inspired by our empirical findings, we resort to Logit Lens and an intervention experiment to dissect the inner hidden states of LLMs. This deep dive reveals that implicit reasoning results indeed surface within middle layers and play a causative role in shaping the final explicit reasoning results. Our exploration further locates multi-head self-attention (MHSA) modules within these layers, which emerge as the linchpins in accurate generation and leveraing of implicit reasoning results. Grounded on the above findings, we develop CREME, a lightweight method to patch errors in compositional reasoning via editing the located MHSA modules. Our empirical evidence stands testament to CREME's effectiveness, paving the way for autonomously and continuously enhancing compositional reasoning capabilities in language models.
翻訳日:2024-02-23 16:17:28 公開日:2024-02-22
# サブオブジェクトレベルの画像トークン化

Subobject-level Image Tokenization ( http://arxiv.org/abs/2402.14327v1 )

ライセンス: Link先を確認
Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung(参考訳) トランスフォーマーベースの視覚モデルは通常、イメージを固定サイズの正方形パッチに入力単位としてトークン化し、画像の内容への適応性に欠け、固有のピクセルグループ構造を見落としている。 言語モデルに広く採用されているサブワードのトークン化に触発されて,サブオブジェクトをセグメンテーションモデル(例えばセグメント・ナッシング・モデル)によって得られた意味的に意味のある画像セグメントで表現するサブオブジェクトレベルのイメージトークン化器を提案する。 サブオブジェクトトークン化に基づく学習システムを実現するために、まずSeqAE(Sequence-to-Sequence AutoEncoder)を導入し、様々なサイズのサブオブジェクトセグメントをコンパクトな埋め込みベクトルに圧縮し、そのサブオブジェクト埋め込みを視覚言語学習のための大きな言語モデルに入力した。 実験により,我々のサブオブジェクトレベルのトークン化は,従来のパッチレベルのトークン化と比較して,画像のオブジェクトや属性記述への変換を効率よく行うことができることを示した。 コードとモデルはhttps://github.com/chendelong1999/subobjectsでオープンソース化される。

Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.
翻訳日:2024-02-23 16:17:04 公開日:2024-02-22
# REPOFUSE: 融合デュアルコンテキストによるリポジトリレベルのコード補完

REPOFUSE: Repository-Level Code Completion with Fused Dual Context ( http://arxiv.org/abs/2402.14323v1 )

ライセンス: Link先を確認
Ming Liang, Xiaoheng Xie, Gehao Zhang, Xunjin Zheng, Peng Di, wei jiang, Hongwei Chen, Chengpeng Wang, Gang Fan(参考訳) コードアシストにおける言語モデルの成功は、コードベース全体のコンテキストを活用して、予測精度を高める手段としてのリポジトリレベルのコード補完の提案を促した。 しかし、この増幅されたコンテキストは、誤って推論のレイテンシを増加させ、開発者エクスペリエンスを損なう可能性があり、ツールの採用を妨げます。 本稿では、遅延トレードオフを伴わずにリポジトリレベルのコード補完を強化するために設計された先駆的なソリューションであるRepoGenixを紹介する。 repogenixは、コードアナロジーに根ざしたアナロジーコンテキストと、深い意味関係を包含するrationaleコンテキストという2つのタイプのコンテキストを一意に融合させる。 本稿では,これらの文脈を制限された大きさのプロンプトに効率的に凝縮するRTG手法を提案する。 これによりRepoGenixは推論効率を維持しつつ、正確なコード補完を提供することができる。 CrossCodeEvalスイートのテストを通じて、RepoGenixは既存のモデルよりも大幅に飛躍し、コード補完の正確なマッチング(EM)精度が40.90%から59.75%向上し、推論速度が26.8%向上した。 実験的な検証以外にも、RepoGenixは大企業のワークフローに統合されており、様々なコーディングタスクを積極的にサポートしている。

The success of language models in code assistance has spurred the proposal of repository-level code completion as a means to enhance prediction accuracy, utilizing the context from the entire codebase. However, this amplified context can inadvertently increase inference latency, potentially undermining the developer experience and deterring tool adoption-a challenge we termed the Context-Latency Conundrum. This paper introduces RepoGenix, a pioneering solution designed to enhance repository-level code completion without the latency trade-off. RepoGenix uniquely fuses two types of contexts: the analogy context, rooted in code analogies, and the rationale context, which encompasses in-depth semantic relationships. We propose a novel rank truncated generation (RTG) technique that efficiently condenses these contexts into prompts with restricted size. This enables RepoGenix to deliver precise code completions while maintaining inference efficiency. Through testing with the CrossCodeEval suite, RepoGenix has demonstrated a significant leap over existing models, achieving a 40.90% to 59.75% increase in exact match (EM) accuracy for code completions and a 26.8% enhancement in inference speed. Beyond experimental validation, RepoGenix has been integrated into the workflow of a large enterprise, where it actively supports various coding tasks.
翻訳日:2024-02-23 16:16:44 公開日:2024-02-22
# triad: 知識ベース質問応答をマルチロールllmベースのエージェントで解決するフレームワーク

Triad: A Framework Leveraging a Multi-Role LLM-based Agent to Solve Knowledge Base Question Answering ( http://arxiv.org/abs/2402.14320v1 )

ライセンス: Link先を確認
Chang Zong, Yuchen Yan, Weiming Lu, Eliot Huang, Jian Shao, Yueting Zhuang(参考訳) llmベースのエージェントの最近の進歩は、様々なタスクで有望な結果を示している。 しかし、知識ベースからの質問に対する回答における彼らの使用は、まだ明らかにされていない。 従来の手法によるKBQAシステムの実装は、タスク固有のトレーニングデータの不足とタスク中心のモデル構造を作成する複雑さのために困難である。 本稿では,KBQAタスクに3つの役割を持つLLMエージェントを利用した統合フレームワークTriadを提案する。 エージェントは、異なるkbqaサブタスクに取り組むために3つの役割を割り当てられる: 様々なサブタスクをマスターするジェネラリストとしてのエージェント、候補の選択の意思決定者として、そして知識で質問に答えるアドバイザーである。 我々のKBQAフレームワークは、エージェントの複数の役割の協調を含む4つのフェーズで実行される。 その結果,本フレームワークはlc-quadおよびyago-qaベンチマークの最先端システムよりも優れており,それぞれ11.8%と20.7%のf1スコアが得られた。

Recent progress with LLM-based agents has shown promising results across various tasks. However, their use in answering questions from knowledge bases remains largely unexplored. Implementing a KBQA system using traditional methods is challenging due to the shortage of task-specific training data and the complexity of creating task-focused model structures. In this paper, we present Triad, a unified framework that utilizes an LLM-based agent with three roles for KBQA tasks. The agent is assigned three roles to tackle different KBQA subtasks: agent as a generalist for mastering various subtasks, as a decision maker for the selection of candidates, and as an advisor for answering questions with knowledge. Our KBQA framework is executed in four phases, involving the collaboration of the agent's multiple roles. We evaluated the performance of our framework using three benchmark datasets, and the results show that our framework outperforms state-of-the-art systems on the LC-QuAD and YAGO-QA benchmarks, yielding F1 scores of 11.8% and 20.7%, respectively.
翻訳日:2024-02-23 16:16:20 公開日:2024-02-22
# ポーランドにおけるテキストランキングモデルの一般化能力評価

Assessing generalization capability of text ranking models in Polish ( http://arxiv.org/abs/2402.14318v1 )

ライセンス: Link先を確認
S{\l}awomir Dadas, Ma{\l}gorzata Gr\k{e}bowiec(参考訳) Retrieval-augmented Generation (RAG) は、内部知識ベースと大規模言語モデルを統合する技術として、ますます人気が高まっている。 典型的なRAGパイプラインでは、3つのモデルを使用し、検索、再ランク付け、生成ステージに責任を負う。 本稿では,ポーランド語のリランキング問題に注目し,リカウンタの性能を調べ,その結果を利用可能な検索モデルと比較する。 我々は,ポーランド語における41種類の情報検索タスクのベンチマークを用いて,既存モデルと学習者の包括的評価を行う。 実験の結果,ほとんどのモデルが領域外一般化に苦しむことがわかった。 しかし、効率的な最適化手法と大規模なトレーニングデータセットを組み合わせることで、コンパクトで一般化可能なリランカーを構築できる。 私たちの最良のモデルは、ポーランド語で再ランキングする新しい最先端技術を確立し、最大30倍のパラメータを持つ既存のモデルよりも優れています。

Retrieval-augmented generation (RAG) is becoming an increasingly popular technique for integrating internal knowledge bases with large language models. In a typical RAG pipeline, three models are used, responsible for the retrieval, reranking, and generation stages. In this article, we focus on the reranking problem for the Polish language, examining the performance of rerankers and comparing their results with available retrieval models. We conduct a comprehensive evaluation of existing models and those trained by us, utilizing a benchmark of 41 diverse information retrieval tasks for the Polish language. The results of our experiments show that most models struggle with out-of-domain generalization. However, a combination of effective optimization method and a large training dataset allows for building rerankers that are both compact in size and capable of generalization. The best of our models establishes a new state-of-the-art for reranking in the Polish language, outperforming existing models with up to 30 times more parameters.
翻訳日:2024-02-23 16:15:58 公開日:2024-02-22
# どんなものでもビデオに収める

Place Anything into Any Video ( http://arxiv.org/abs/2402.14316v1 )

ライセンス: Link先を確認
Ziling Liu, Jinyu Yang, Mingqi Gao, and Feng Zheng(参考訳) コントロール可能なビデオ編集は、さまざまなアプリケーション、特に実世界のビデオのキャプチャーや再キャプチャが非現実的あるいはコストのかかるシナリオにおいて、顕著な可能性を示している。 本稿では,対象のオブジェクトや要素の画像やテキスト記述のみに基づいて,任意のオブジェクトを任意のビデオに挿入しやすくする,Place-Anythingという斬新で効率的なシステムを提案する。 このシステムは3つのモジュールで構成されている。3D生成、ビデオ再構成、および3Dターゲット挿入である。 この統合アプローチは、リアルなオブジェクトをシームレスに挿入することで高品質なビデオを作成し、編集するための効率的で効果的なソリューションを提供する。 ユーザスタディを通じて、我々のシステムは、オブジェクトの写真のみを用いて、任意のオブジェクトを任意のビデオに強制的に配置できることを実証した。 デモビデオはhttps://youtu.be/afxqgllrnteで見ることができる。 アクセスにはプロジェクトページhttps://place-anything.github.ioも参照してください。

Controllable video editing has demonstrated remarkable potential across diverse applications, particularly in scenarios where capturing or re-capturing real-world videos is either impractical or costly. This paper introduces a novel and efficient system named Place-Anything, which facilitates the insertion of any object into any video solely based on a picture or text description of the target object or element. The system comprises three modules: 3D generation, video reconstruction, and 3D target insertion. This integrated approach offers an efficient and effective solution for producing and editing high-quality videos by seamlessly inserting realistic objects. Through a user study, we demonstrate that our system can effortlessly place any object into any video using just a photograph of the object. Our demo video can be found at https://youtu.be/afXqgLLRnTE. Please also visit our project page https://place-anything.github.io to get access.
翻訳日:2024-02-23 16:15:44 公開日:2024-02-22
# 3次元分子生成前訓練とサンプリングによる構造的薬物設計

Structure-Based Drug Design via 3D Molecular Generative Pre-training and Sampling ( http://arxiv.org/abs/2402.14315v1 )

ライセンス: Link先を確認
Yuwei Yang, Siqi Ouyang, Xueyu Hu, Meihua Dang, Mingyue Zheng, Hao Zhou, Lei Li(参考訳) 構造に基づく薬物設計は、3dターゲット構造を事前に知識した高い親和性配位子の生成を目標としている。 既存の方法は、条件付き生成モデルを用いて、標的となる結合部位の3Dリガンドの分布を学習するか、または構造に基づく活動推定器を最適化するために分子を反復的に修飾する。 前者はデータ量と品質に強く制約されており、実際のシナリオでは最適化ベースのアプローチがより有望である。 しかし、既存の最適化に基づく手法では、分子を2d空間で編集し、分子ドッキングを用いて3dターゲットリガンド錯体を用いて活性を推定する。 アクション空間と目的とのミスアライメントはこれらのモデルの性能を阻害する。 本研究では,3次元分子生成と最適化フレームワークを組み合わせたMolEdit3Dを提案する。 本研究では, フラグメントを用いた分子生成のための新しい3次元グラフ編集モデルを開発し, ターゲット非依存特性を学習するための豊富な3次元リガンドの事前学習を行う。 次に,自己サンプル分子を用いた目標学習戦略を用いて,目標関連特性を改善する。 MolEdit3Dは、評価指標の大部分で最先端のパフォーマンスを実現し、ターゲット依存プロパティと非依存プロパティの両方をキャプチャする強力な能力を示している。

Structure-based drug design aims at generating high affinity ligands with prior knowledge of 3D target structures. Existing methods either use conditional generative model to learn the distribution of 3D ligands given target binding sites, or iteratively modify molecules to optimize a structure-based activity estimator. The former is highly constrained by data quantity and quality, which leaves optimization-based approaches more promising in practical scenario. However, existing optimization-based approaches choose to edit molecules in 2D space, and use molecular docking to estimate the activity using docking predicted 3D target-ligand complexes. The misalignment between the action space and the objective hinders the performance of these models, especially for those employ deep learning for acceleration. In this work, we propose MolEdit3D to combine 3D molecular generation with optimization frameworks. We develop a novel 3D graph editing model to generate molecules using fragments, and pre-train this model on abundant 3D ligands for learning target-independent properties. Then we employ a target-guided self-learning strategy to improve target-related properties using self-sampled molecules. MolEdit3D achieves state-of-the-art performance on majority of the evaluation metrics, and demonstrate strong capability of capturing both target-dependent and -independent properties.
翻訳日:2024-02-23 16:15:31 公開日:2024-02-22
# 市販拡散モデルを用いたタイポグラフィーテキスト生成

Typographic Text Generation with Off-the-Shelf Diffusion Model ( http://arxiv.org/abs/2402.14314v1 )

ライセンス: Link先を確認
KhayTze Peong, Seiichi Uchida, Daichi Haraguchi(参考訳) 近年の拡散型生成モデルでは, テキスト画像の生成能力は高いが, 生成したテキストのスタイルに制限があるため, タイポグラフィー設計の領域では不十分である。 本稿では,フォントスタイルや色,テキスト効果を規定しながら,フォントデザインにテキストを追加・修正するタイポグラフィーテキスト生成システムを提案する。 提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionの組み合わせである。 前者は、ストローク輪郭を指定するエッジ条件に基づいてテキスト画像を生成する機能を持つ。 後者は、Latent Diffusion Models (LDM) の遅延ノイズをブレンドして、入力テキストを既存の背景に自然に追加する。 まず、適切なテキストエッジが与えられた場合、制御ネットは、プロンプトによって記述されたエフェクトを組み込んで、特定のフォントでテキストを生成することができることを示す。 さらに, ``shadows'' や ``reflections'' といった複雑な効果を持つテキストを生成するための直感的でカスタマイズ可能な方法として,テキストエッジ操作を導入する。 最後に,提案システムを用いて,その全体コヒーレンスを維持しつつ,事前定義された背景にテキストの追加と修正に成功した。

Recent diffusion-based generative models show promise in their ability to generate text images, but limitations in specifying the styles of the generated texts render them insufficient in the realm of typographic design. This paper proposes a typographic text generation system to add and modify text on typographic designs while specifying font styles, colors, and text effects. The proposed system is a novel combination of two off-the-shelf methods for diffusion models, ControlNet and Blended Latent Diffusion. The former functions to generate text images under the guidance of edge conditions specifying stroke contours. The latter blends latent noise in Latent Diffusion Models (LDM) to add typographic text naturally onto an existing background. We first show that given appropriate text edges, ControlNet can generate texts in specified fonts while incorporating effects described by prompts. We further introduce text edge manipulation as an intuitive and customizable way to produce texts with complex effects such as ``shadows'' and ``reflections''. Finally, with the proposed system, we successfully add and modify texts on a predefined background while preserving its overall coherence.
翻訳日:2024-02-23 16:15:08 公開日:2024-02-22
# Kernへの学習 -- 最適文字空間のセットワイズ推定

Learning to Kern -- Set-wise Estimation of Optimal Letter Space ( http://arxiv.org/abs/2402.14313v1 )

ライセンス: Link先を確認
Kei Nakatsuru, Seiichi Uchida(参考訳) Kerningは、あるフォントの可能な全ての文字対に対して適切な水平空間を設定するタスクである。 ケーニングの難点の一つは、各文字対に対して適切な空間が異なることである。 したがって、合計52の資本と小さな文字に対して、522の \times 52 = 2704$の異なる空間を調整する必要がある。 もう1つの困難は、自動ケニングの一般的な手順や基準がないため、ケニングはまだ手動またはヒューリスティックスで行われている。 本稿では,ペアワイドモデルとセットワイドモデルという2つの機械学習モデルを提案する。 前者は単純なディープニューラルネットワークで、2つの与えられた文字画像の文字空間を推定する。 対照的に後者はトランスフォーマーモデルであり、3つ以上の与えられた文字画像の文字空間を推定する。 例えば、セットワイズモデルは、特定のフォントの52文字画像の2704スペースを同時に見積もる。 2つのモデルのうち、セットワイズモデルの方が効率が良いだけでなく、内部自己照準機構が全ての文字に対してより一貫性のあるケニングを可能にするため、より正確である。 約2500のgoogleフォントの実験的結果とその量的、質的分析により、全フォントと文字ペアの平均文字空間が約115ピクセルである場合、セットワイズモデルの平均推定誤差は5.3ピクセルであることが示された。

Kerning is the task of setting appropriate horizontal spaces for all possible letter pairs of a certain font. One of the difficulties of kerning is that the appropriate space differs for each letter pair. Therefore, for a total of 52 capital and small letters, we need to adjust $52 \times 52 = 2704$ different spaces. Another difficulty is that there is neither a general procedure nor criterion for automatic kerning; therefore, kerning is still done manually or with heuristics. In this paper, we tackle kerning by proposing two machine-learning models, called pairwise and set-wise models. The former is a simple deep neural network that estimates the letter space for two given letter images. In contrast, the latter is a Transformer-based model and estimates the letter spaces for three or more given letter images. For example, the set-wise model simultaneously estimates 2704 spaces for 52 letter images for a certain font. Among the two models, the set-wise model is not only more efficient but also more accurate because its internal self-attention mechanism allows for more consistent kerning for all letters. Experimental results on about 2500 Google fonts and their quantitative and qualitative analyses show that the set-wise model has an average estimation error of only about 5.3 pixels when the average letter space of all fonts and letter pairs is about 115 pixels.
翻訳日:2024-02-23 16:14:45 公開日:2024-02-22
# 拡散モデルを用いたフォントスタイル補間

Font Style Interpolation with Diffusion Models ( http://arxiv.org/abs/2402.14311v1 )

ライセンス: Link先を確認
Tetta Kondo, Shumpei Takezaki, Daichi Haraguchi, Seiichi Uchida(参考訳) フォントはスタイルに大きなバリエーションがあり、読者に異なる印象を与える。 したがって、新しいフォントは読者に新しい印象を与える価値がある。 本稿では,異なるスタイルの参照フォントを補間することにより,拡散モデルを用いて新しいフォントスタイルを生成する。 具体的には,拡散モデルを用いた3種類の補間手法,画像ブレンディング,条件ブレンディング,ノイズブレンディングを提案する。 3つのアプローチのスタイル生成能力を理解するために,質的,定量的な実験分析を行う。 実験結果によると、3つの提案されたアプローチは、期待されるフォントスタイルだけでなく、セレンディピティーなフォントスタイルも生成できる。 また,提案手法を最先端の条件付きラテンフォント生成ネットワークモデルと比較し,拡散モデルを用いたスタイル補間作業の有効性を確認する。

Fonts have huge variations in their styles and give readers different impressions. Therefore, generating new fonts is worthy of giving new impressions to readers. In this paper, we employ diffusion models to generate new font styles by interpolating a pair of reference fonts with different styles. More specifically, we propose three different interpolation approaches, image-blending, condition-blending, and noise-blending, with the diffusion models. We perform qualitative and quantitative experimental analyses to understand the style generation ability of the three approaches. According to experimental results, three proposed approaches can generate not only expected font styles but also somewhat serendipitous font styles. We also compare the approaches with a state-of-the-art style-conditional Latin-font generative network model to confirm the validity of using the diffusion models for the style interpolation task.
翻訳日:2024-02-23 16:14:21 公開日:2024-02-22
# Hint-beolving Prompting:LLMによる符号化知識の有効活用

Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge ( http://arxiv.org/abs/2402.14310v1 )

ライセンス: Link先を確認
Jinlan Fu, Shenzhen Huangfu, Hang Yan, See-Kiong Ng, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)は、最近、様々な領域で顕著な一般化性を示した。 その広範な知識にもかかわらず、llmは、正確で論理的な推論プロセスを開発するために、エンコードされた知識を効率的に利用する上での課題に直面している。 この問題を軽減するため,Hint-before-Solving Prompting (HSP)を導入し,そのモデルを用いて,問題解決のためのヒント(例えば,特定の知識や重要なアイデア)を生成し,中間推論ステップを含むソリューションを生成する。 HSPはプロンプト法(例えば、Chain-of-Thought (CoT))に直交するので、HSPをCoT、Last-to-Most、Plan-and-Solve、Standardプロンプトに適用する。 6つの推論ベンチマークと4つのオープンソースLCMに関する広範な実験の結果、HSPが推論タスクの精度を効果的に改善できることが示されている。 2) HSPと微調整Llemma-7Bに基づくHSPMATHデータセットを構築し,GPT-3.5とWizardMath-13Bを上回る64.3の精度を実現した。 コードとデータセットは \url{https://github.com/jinlanfu/HSP} で公開しています。

Large Language Models (LLMs) have recently showcased remarkable generalizability in various domains. Despite their extensive knowledge, LLMs still face challenges in efficiently utilizing encoded knowledge to develop accurate and logical reasoning processes. To mitigate this problem, we introduced Hint-before-Solving Prompting (HSP), which guides the model to generate hints (e.g., specific knowledge or key ideas) for solving the problem and then generate solutions containing intermediate reasoning steps. Since HSP is orthogonal to prompting methods (e.g., Chain-of-Thought (CoT)), we applied HSP to CoT, Least-to-Most, Plan-and-Solve, and Standard promptings. The results of extensive experiments on 6 reasoning benchmarks and 4 open-source LLMs demonstrate that HSP can effectively improve the accuracy of reasoning tasks: (1) By applying high-quality hint-enhanced HSP to CoT prompting, Llama2-70B-Chat shows an improvement of 9.7. (2) Beyond exploring training-free LLM capabilities, we built the HSPMATH dataset based on HSP and fine-tuned Llemma-7B, reaching 64.3 accuracy, surpassing GPT-3.5 and WizardMath-13B. We make our code and dataset publicly available at \url{https://github.com/jinlanfu/HSP}.
翻訳日:2024-02-23 16:14:08 公開日:2024-02-22
# YOLO-TLA: YOLOv5に基づく効率的軽量小物体検出モデル

YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5 ( http://arxiv.org/abs/2402.14309v1 )

ライセンス: Link先を確認
Peng Gao, Chun-Lin Ji, Tao Yu, Ru-Yue Yuan(参考訳) 物体検出はコンピュータビジョンの重要な側面であり、精度と堅牢性に大きな進歩があった。 これらの進歩にもかかわらず、実用的応用は依然として顕著な課題に直面しており、主に不正確な検出や小さな物体の発見の欠如が問題となっている。 本稿では,YOLOv5に基づくオブジェクト検出モデルであるYOLO-TLAを提案する。 まず,ネックネットワークピラミッドアーキテクチャにおいて,小物体検出層を追加することで,小物体の特徴を識別するための大規模特徴マップを作成する。 さらに、C3CrossCovnモジュールをバックボーンネットワークに統合する。 このモジュールはスライディングウィンドウの特徴抽出を使用し、計算要求とパラメータ数の両方を効果的に最小化し、モデルをよりコンパクトにする。 さらに,backboneネットワークにグローバルアテンション機構を組み込んだ。 このメカニズムはチャネル情報とグローバル情報を組み合わせて重み付けされた特徴マップを作成する。 このフィーチャーマップは、関心のあるオブジェクトの属性を強調するように調整され、無関係な詳細を効果的に無視します。 ベースラインのYOLOv5sモデルと比較して,新たに開発されたYOLO-TLAモデルでは,MS COCO検証データセットが大幅に改善され,mAP@0.5で4.6%,mAP@0.5:0.95で4%増加した。 これらの改良をYOLOv5mモデルに拡張し、拡張版ではそれぞれmAP@0.5とmAP@0.5:0.95が1.7%、合計27.53Mパラメータが1.9%増加した。 これらの結果は、小さなオブジェクト検出において、YOLO-TLAモデルの効率的かつ効果的な性能を検証し、少ないパラメータと計算要求で高い精度を達成する。

Object detection, a crucial aspect of computer vision, has seen significant advancements in accuracy and robustness. Despite these advancements, practical applications still face notable challenges, primarily the inaccurate detection or missed detection of small objects. In this paper, we propose YOLO-TLA, an advanced object detection model building on YOLOv5. We first introduce an additional detection layer for small objects in the neck network pyramid architecture, thereby producing a feature map of a larger scale to discern finer features of small objects. Further, we integrate the C3CrossCovn module into the backbone network. This module uses sliding window feature extraction, which effectively minimizes both computational demand and the number of parameters, rendering the model more compact. Additionally, we have incorporated a global attention mechanism into the backbone network. This mechanism combines the channel information with global information to create a weighted feature map. This feature map is tailored to highlight the attributes of the object of interest, while effectively ignoring irrelevant details. In comparison to the baseline YOLOv5s model, our newly developed YOLO-TLA model has shown considerable improvements on the MS COCO validation dataset, with increases of 4.6% in mAP@0.5 and 4% in mAP@0.5:0.95, all while keeping the model size compact at 9.49M parameters. Further extending these improvements to the YOLOv5m model, the enhanced version exhibited a 1.7% and 1.9% increase in mAP@0.5 and mAP@0.5:0.95, respectively, with a total of 27.53M parameters. These results validate the YOLO-TLA model's efficient and effective performance in small object detection, achieving high accuracy with fewer parameters and computational demands.
翻訳日:2024-02-23 16:13:31 公開日:2024-02-22
# 任意カーネルサイズCNNの効率的なサポートを実現するFPGAベースのアクセラレータ

An FPGA-Based Accelerator Enabling Efficient Support for CNNs with Arbitrary Kernel Sizes ( http://arxiv.org/abs/2402.14307v1 )

ライセンス: Link先を確認
Miaoxin Wang, Xiao Wu, Jun Lin, Zhongfeng Wang(参考訳) 大きなカーネルを持つ畳み込みニューラルネットワーク(cnns)は、視覚トランスフォーマー(vits)のキー操作からインスピレーションを得て、様々な視覚ベースのアプリケーションで印象的なパフォーマンスを示している。 大規模カーネルの畳み込みをサポートする既存設計における計算効率の低下問題に対処するため,任意のカーネルサイズを持つCNNの効率的な展開にFPGAベースの推論アクセラレータを提案する。 まず、データの再利用機会を最大化することにより、データフローを最適化するZ-flow法を提案する。 さらに,カーネルセグメンテーション(Kseg)方式を取り入れた設計により,大規模カーネルの畳み込みを拡張可能とし,重複データに対するストレージ要求を大幅に低減する。 さらに, 新興CNNにおける典型的なブロック構造の解析に基づいて, 水平拡散(VF)法と水平拡散(HF)法を開発し, 計算と伝送の両方の観点からCNNの配置を最適化する。 提案されたハードウェアアクセラレータは、Intel Arria 10 FPGAで評価され、同一ネットワーク上の先行技術よりも最大3.91倍のDSP効率を達成する。 特に、RepLKNet-31 と PyConvResNet-50 で 169.68 GOPS と 244.55 GOPS のスループットを達成し、いずれも初めてハードウェア上で実装された。

Convolutional neural networks (CNNs) with large kernels, drawing inspiration from the key operations of vision transformers (ViTs), have demonstrated impressive performance in various vision-based applications. To address the issue of computational efficiency degradation in existing designs for supporting large-kernel convolutions, an FPGA-based inference accelerator is proposed for the efficient deployment of CNNs with arbitrary kernel sizes. Firstly, a Z-flow method is presented to optimize the computing data flow by maximizing data reuse opportunity. Besides, the proposed design, incorporating the kernel-segmentation (Kseg) scheme, enables extended support for large-kernel convolutions, significantly reducing the storage requirements for overlapped data. Moreover, based on the analysis of typical block structures in emerging CNNs, vertical-fused (VF) and horizontal-fused (HF) methods are developed to optimize CNN deployments from both computation and transmission perspectives. The proposed hardware accelerator, evaluated on Intel Arria 10 FPGA, achieves up to 3.91 times better DSP efficiency than prior art on the same network. Particularly, it demonstrates efficient support for large-kernel CNNs, achieving throughputs of 169.68 GOPS and 244.55 GOPS for RepLKNet-31 and PyConvResNet-50, respectively, both of which are implemented on hardware for the first time.
翻訳日:2024-02-23 16:12:42 公開日:2024-02-22
# 繰り返しランキングにおけるグループ間の効率の良いパレート・オプティカル・ユーティリティ・フェアネスを目指して

Towards Efficient Pareto-optimal Utility-Fairness between Groups in Repeated Rankings ( http://arxiv.org/abs/2402.14305v1 )

ライセンス: Link先を確認
Phuong Dinh Mai, Duc-Trong Le, Tuan-Anh Hoang, Dung D. Le(参考訳) 本稿では,(1)消費者の利便性の最大化と(2)生産者間の不公平性の最小化とのパレート・最適バランスを保証し,ランキングの列を計算する問題に取り組む。 このような多目的最適化問題は、典型的には、スカラー化法と双確率行列上の線形計画法を組み合わせることで解決される。 しかし、上記のアプローチは birkhoff-von neumann (bvn) 分解に依存しており、計算複雑性は $\mathcal{o}(n^5)$ であり、n$ はアイテムの数であり、大規模システムでは現実的ではない。 この欠点に対処するために、アイテムのすべての達成可能な露出を表すパームタヘドロンであるExpohedronを用いて、上記の問題に新しいアプローチを導入する。 本研究では,有限個のパレート最適解を同定することで,グループフェアネスとユーザユーティリティのトレードオフを捉えたパレート曲線をプロファイリングする。 さらに,Expohedronの囲む$n$-sphereの最適化問題を緩和し,実行時間を大幅に改善する効率的な手法を提案する。 さらに、近似パレート曲線は、実質解の数が増加するにつれて、実パレート最適曲線に漸近的に近い。 本手法は項目関連性の非減少関数である異なるランクのメリットを応用できる。 本手法の有効性は,合成データと実世界データの両方を用いた実験により検証される。

In this paper, we tackle the problem of computing a sequence of rankings with the guarantee of the Pareto-optimal balance between (1) maximizing the utility of the consumers and (2) minimizing unfairness between producers of the items. Such a multi-objective optimization problem is typically solved using a combination of a scalarization method and linear programming on bi-stochastic matrices, representing the distribution of possible rankings of items. However, the above-mentioned approach relies on Birkhoff-von Neumann (BvN) decomposition, of which the computational complexity is $\mathcal{O}(n^5)$ with $n$ being the number of items, making it impractical for large-scale systems. To address this drawback, we introduce a novel approach to the above problem by using the Expohedron - a permutahedron whose points represent all achievable exposures of items. On the Expohedron, we profile the Pareto curve which captures the trade-off between group fairness and user utility by identifying a finite number of Pareto optimal solutions. We further propose an efficient method by relaxing our optimization problem on the Expohedron's circumscribed $n$-sphere, which significantly improve the running time. Moreover, the approximate Pareto curve is asymptotically close to the real Pareto optimal curve as the number of substantial solutions increases. Our methods are applicable with different ranking merits that are non-decreasing functions of item relevance. The effectiveness of our methods are validated through experiments on both synthetic and real-world datasets.
翻訳日:2024-02-23 16:11:57 公開日:2024-02-22
# 身体情報を用いた視覚言語ナビゲーション:サーベイ

Vision-Language Navigation with Embodied Intelligence: A Survey ( http://arxiv.org/abs/2402.14304v1 )

ライセンス: Link先を確認
Peng Gao, Peng Wang, Feng Gao, Fei Wang, Ruyue Yuan(参考訳) 人工知能の分野における長期的なビジョンとして、エンボディド・インテリジェンスの核となる目標は、エージェントと環境の認識、理解、相互作用能力を改善することである。 視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路であり、エージェントが自然言語を使って人間と効果的にコミュニケーションし、指示を受け、理解し、最終的に正確なナビゲーションを達成するために視覚情報に頼る方法を探ることに焦点を当てている。 VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。 この分野は技術的な課題に直面するが、人間とコンピュータの相互作用のような応用の可能性を示している。 しかしながら、言語理解から行動実行への複雑なプロセスのため、VLNは視覚情報と言語命令の整合、一般化能力の向上、その他多くの課題に直面している。 本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。 提案手法とベンチマークデータセットを用いたシステムアーキテクチャと研究の概要を詳述した上で,本研究で直面する課題と課題を包括的に分析し,本分野の今後の発展方向を探究し,研究者の実践的な参考となることを目的とした。

As a long-term vision in the field of artificial intelligence, the core goal of embodied intelligence is to improve the perception, understanding, and interaction capabilities of agents and the environment. Vision-language navigation (VLN), as a critical research path to achieve embodied intelligence, focuses on exploring how agents use natural language to communicate effectively with humans, receive and understand instructions, and ultimately rely on visual information to achieve accurate navigation. VLN integrates artificial intelligence, natural language processing, computer vision, and robotics. This field faces technical challenges but shows potential for application such as human-computer interaction. However, due to the complex process involved from language understanding to action execution, VLN faces the problem of aligning visual information and language instructions, improving generalization ability, and many other challenges. This survey systematically reviews the research progress of VLN and details the research direction of VLN with embodied intelligence. After a detailed summary of its system architecture and research based on methods and commonly used benchmark datasets, we comprehensively analyze the problems and challenges faced by current research and explore the future development direction of this field, aiming to provide a practical reference for researchers.
翻訳日:2024-02-23 16:11:07 公開日:2024-02-22
# 静的アナライザのアノテーションによる障害の理解と検出

Understanding and Detecting Annotation-Induced Faults of Static Analyzers ( http://arxiv.org/abs/2402.14366v1 )

ライセンス: Link先を確認
Huaien Zhang and Yu Pei and Shuyun Liang and Shin Hwei Tan(参考訳) 静的アナライザはプログラムの特性と動作を推論し、実行せずに様々な問題を検出することができる。 したがって、分析プログラムを十分に理解するために必要な情報を抽出する必要がある。 アノテーションは、java 5の導入以来、さまざまな目的でjavaで広く使われている機能である。 アノテーションはプログラムの構造を変更し、静的アナライザを意識せずに意味情報を伝達することができ、その結果、不正確な分析結果をもたらす。 本稿では,6つのオープンソースおよびポピュラーな静的アナライザ (PMD, SpotBugs, CheckStyle, Infer, SonarQube, Soot) における246の問題を解析し,アノテーション誘発障害(AIF)の包括的研究を行った。 問題点の根本原因,症状,修正戦略を分析し,アノテーションによる障害の検出と修復のための10の知見と実用的なガイドラインを導出した。 さらに,この結果から得られた3つの変成関係に基づいて,AnnaTesterという自動テストフレームワークを開発した。 AnnaTesterは、静的アナライザの公式テストスイートに基づいて新しいテストを生成し、43の新たな障害を公表した。 その結果,本研究の価値と結果が明らかとなった。

Static analyzers can reason about the properties and behaviors of programs and detect various issues without executing them. Hence, they should extract the necessary information to understand the analyzed program well. Annotation has been a widely used feature for different purposes in Java since the introduction of Java 5. Annotations can change program structures and convey semantics information without awareness of static analyzers, consequently leading to imprecise analysis results. This paper presents the first comprehensive study of annotation-induced faults (AIF) by analyzing 246 issues in six open-source and popular static analyzers (i.e., PMD, SpotBugs, CheckStyle, Infer, SonarQube, and Soot). We analyzed the issues' root causes, symptoms, and fix strategies and derived ten findings and some practical guidelines for detecting and repairing annotation-induced faults. Moreover, we developed an automated testing framework called AnnaTester based on three metamorphic relations originating from the findings. AnnaTester generated new tests based on the official test suites of static analyzers and unveiled 43 new faults, 20 of which have been fixed. The results confirm the value of our study and its findings.
翻訳日:2024-02-23 16:06:09 公開日:2024-02-22
# 非同期量子ゴーストイメージングに基づく単一光子検出器の時間的ドリフト補正法

A method to correct the temporal drift of single photon detectors, based on asynchronous quantum ghost imaging ( http://arxiv.org/abs/2402.14365v1 )

ライセンス: Link先を確認
Carsten Pitsch, Dominik Walter, Leonardo Gasparini, Helge B\"ursing and Marc Eichhorn(参考訳) 単一光子検出とタイミングは、量子センシングの分野における必要性と低レベル光イメージングの分野における単一量子分極検出の利点の両方から、ここ数年で関心を集めている。 単純なバケット検出器は商用用途には十分成熟しているが、より複雑なイメージング検出器はいまだにプロトタイプレベルの検出器による研究の場である。 これらの検出器の大きな問題は、特に2次元画像処理において、画素内タイミング回路の実装である。 最も有望なアプローチの1つは、各ピクセルにおける電圧制御リング共振器の使用である。 それぞれが、グローバル参照によって供給される電圧に基づいて、独立して実行される。 しかし、これはチップ全体のサプライ電圧が変化し、リング共振器の周期が変化するという問題を引き起こす。 追加の寄生効果により、この問題は測定時間の増加とともに悪化し、タイミング情報のドリフトにつながる。 本稿では,非同期量子ゴーストイメージングに基づく単一光子検出器の時間的ドリフトを同定し,補正する手法を提案する。 また,この補正が最近のQGI測定に与える影響についても報告する。

Single photon detection and timing gathered increasing interest in the last few years due to both its necessity in the field of quantum sensing and the advantages of single quanta detection in the field of low level light imaging. While simple bucket detectors are mature enough for commercial applications, more complex imaging detectors are still a field of research with mostly prototype level detectors. A major problem in these detectors is the implementation of in-pixel timing circuitry, especially for two-dimensional imagers. One of the most promising approaches is the use of voltage controlled ring resonators in every pixel. Each of those is running independently, based on a voltage supplied by a global reference. However, this yields the problem that across the chip the supply voltage can change, which in turn changes the period of the ring resonator. Due to additional parasitic effects, this problem can worsen with increasing measurement time, leading to a drift of the timing information. We present here a method to identify and correct such temporal drifts of single photon detectors, based on asynchronous quantum ghost imaging. We also show the effect of this correction on a recent QGI measurement from our group.
翻訳日:2024-02-23 16:05:48 公開日:2024-02-22
# OpenTab: 大規模言語モデルをオープンドメインテーブル推論として拡張する

OpenTab: Advancing Large Language Models as Open-domain Table Reasoners ( http://arxiv.org/abs/2402.14361v1 )

ライセンス: Link先を確認
Kezhi Kong, Jiani Zhang, Zhengyuan Shen, Balasubramaniam Srinivasan, Chuan Lei, Christos Faloutsos, Huzefa Rangwala, George Karypis(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて大量のデータを訓練するが、これまで訓練されていない知識を必要とするタスクは処理できない。 1つの解決策は、LLMの知識範囲を拡張するために関連する情報を取得するレトリバーを使用することである。 しかし、既存のテキスト指向検索に基づくLCMは、多彩なデータモダリティと大きなテーブルサイズのため、構造化テーブルデータに理想的ではない。 本研究では,LLMを利用したオープンドメインテーブル推論フレームワークOpenTabを提案する。 全体として、OpenTabはテーブルレトリバーを利用して関連するテーブルをフェッチし、取得したテーブルを効率的に解析するSQLプログラムを生成する。 sql実行から派生した中間データを利用することで、正確な応答を生成するために接地推論を行う。 広範な実験の結果、opentabはオープンドメインとクローズドドメインの両方でベースラインを大きく上回り、21.5%の精度を達成した。 さらに,提案システムの設計の有効性を検証するためのアブレーション研究を行っている。

Large Language Models (LLMs) trained on large volumes of data excel at various natural language tasks, but they cannot handle tasks requiring knowledge that has not been trained on previously. One solution is to use a retriever that fetches relevant information to expand LLM's knowledge scope. However, existing textual-oriented retrieval-based LLMs are not ideal on structured table data due to diversified data modalities and large table sizes. In this work, we propose OpenTab, an open-domain table reasoning framework powered by LLMs. Overall, OpenTab leverages table retriever to fetch relevant tables and then generates SQL programs to parse the retrieved tables efficiently. Utilizing the intermediate data derived from the SQL executions, it conducts grounded inference to produce accurate response. Extensive experimental evaluation shows that OpenTab significantly outperforms baselines in both open- and closed-domain settings, achieving up to 21.5% higher accuracy. We further run ablation studies to validate the efficacy of our proposed designs of the system.
翻訳日:2024-02-23 16:05:30 公開日:2024-02-22
# 科学的要約評価を再考する:Facet-awareベンチマークによる説明可能なメトリクスのグラウンディング

Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark ( http://arxiv.org/abs/2402.14359v1 )

ライセンス: Link先を確認
Xiuying Chen, Tairan Wang, Qingqing Zhu, Taicheng Guo, Shen Gao, Zhiyong Lu, Xin Gao, Xiangliang Zhang(参考訳) 事前訓練および大規模言語モデル(LLM)の要約能力は、一般に広く評価されているが、複雑な文や専門知識を含む科学コーパスでの使用は、あまり評価されていない。 本稿では,n$-gramや組込み比較,QAといった従来の評価手法の欠如,特に説明の提供,科学的概念の把握,キー内容の特定など,科学的要約に関する概念的および実験的分析について述べる。 次に,高度な意味マッチングのためのllmsを用いて,異なる側面に基づく要約を評価するファセットアウェアメトリック(fm)を紹介する。 このファセット認識アプローチは,評価タスクを単純なサブタスクに分解して抽象化を徹底的に評価する手法であり,評価ベンチマークが存在しないことを認識して,ファセットレベルのアノテーションを用いたFacetベースの科学的要約データセット(FD)をキュレートする。 その結果,FMは科学的な要約を評価するための論理的なアプローチであることがわかった。 加えて、微調整された小さなモデルは科学的な文脈でLLMと競合するが、LSMは科学領域における文脈内情報から学習する際の制限がある。 これは将来のllmの強化の領域を示唆する。

The summarization capabilities of pretrained and large language models (LLMs) have been widely validated in general areas, but their use in scientific corpus, which involves complex sentences and specialized knowledge, has been less assessed. This paper presents conceptual and experimental analyses of scientific summarization, highlighting the inadequacies of traditional evaluation methods, such as $n$-gram, embedding comparison, and QA, particularly in providing explanations, grasping scientific concepts, or identifying key content. Subsequently, we introduce the Facet-aware Metric (FM), employing LLMs for advanced semantic matching to evaluate summaries based on different aspects. This facet-aware approach offers a thorough evaluation of abstracts by decomposing the evaluation task into simpler subtasks.Recognizing the absence of an evaluation benchmark in this domain, we curate a Facet-based scientific summarization Dataset (FD) with facet-level annotations. Our findings confirm that FM offers a more logical approach to evaluating scientific summaries. In addition, fine-tuned smaller models can compete with LLMs in scientific contexts, while LLMs have limitations in learning from in-context information in scientific domains. This suggests an area for future enhancement of LLMs.
翻訳日:2024-02-23 16:05:14 公開日:2024-02-22
# ルールかストーリーか、大言語モデルと対話するためのより優れた共通表現は何か?

Rule or Story, Which is a Better Commonsense Expression for Talking with Large Language Models? ( http://arxiv.org/abs/2402.14355v1 )

ライセンス: Link先を確認
Ning Bian, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben He, Le Sun(参考訳) Commonsenseを使ったマシンの構築は、Commonsenseルールの報告バイアスとルールベースのCommonsense推論の露出バイアスにより、NLPの長年にわたる課題である。 対照的に、人間は物語を通して暗黙的に常識を伝え伝承する。 本稿では,大規模言語モデル(LLM)がストーリーテリングを通じて表現する固有コモンセンス能力について検討する。 LLMにおけるコモンセンスを検索・活用するためのストーリーとルールを体系的に検討・比較する。 28のコモンセンスQAデータセットによる実験結果から,LLMからコモンセンスを抽出するための表現として,ストーリーがルールより優れ,世代信頼性とコモンセンスの精度が向上した。 さらに、ストーリーは日々の出来事に関する質問に答えるより効果的なコモンセンス表現であり、ルールは科学的な問題に対してより効果的である。 これはテキストコーパスにおけるコモンセンスのレポートバイアスと一致する。 さらに,コモンセンスストーリーの正しさと関連性は,反復的自己指導による微調整によってさらに向上できることを示す。 これらの知見は、LLMのコモンセンスを表現、検索、活用するために適切な言語を使うことの重要性を強調し、コモンセンスの能力をうまく活用するための有望な方向性を強調した。

Building machines with commonsense has been a longstanding challenge in NLP due to the reporting bias of commonsense rules and the exposure bias of rule-based commonsense reasoning. In contrast, humans convey and pass down commonsense implicitly through stories. This paper investigates the inherent commonsense ability of large language models (LLMs) expressed through storytelling. We systematically investigate and compare stories and rules for retrieving and leveraging commonsense in LLMs. Experimental results on 28 commonsense QA datasets show that stories outperform rules as the expression for retrieving commonsense from LLMs, exhibiting higher generation confidence and commonsense accuracy. Moreover, stories are the more effective commonsense expression for answering questions regarding daily events, while rules are more effective for scientific questions. This aligns with the reporting bias of commonsense in text corpora. We further show that the correctness and relevance of commonsense stories can be further improved via iterative self-supervised fine-tuning. These findings emphasize the importance of using appropriate language to express, retrieve, and leverage commonsense for LLMs, highlighting a promising direction for better exploiting their commonsense abilities.
翻訳日:2024-02-23 16:04:52 公開日:2024-02-22
# GAM-Depth: グラディエント対応マスクとセマンティック制約を利用した自己監督屋内深度推定

GAM-Depth: Self-Supervised Indoor Depth Estimation Leveraging a Gradient-Aware Mask and Semantic Constraints ( http://arxiv.org/abs/2402.14354v1 )

ライセンス: Link先を確認
Anqi Cheng, Zhiyuan Yang, Haiyue Zhu, Kezhi Mao(参考訳) 自己教師付き深度推定は、測光損失を最小限に抑える画像再構成タスクへと進化した。 近年の室内深度推定法では, テクスチャレス領域における不整合深度推定や, 物体境界における不整合深度推定が進んでいる。 そこで本研究では,グラデーション・アウェア・マスクとセマンティクス・制約という2つの新しい要素をもとに,gam-depthを提案する。 室内における自己監督深度推定のためのセマンティック制約の導入は, 事前訓練されたセグメンテーションモデルから導出した協調最適化ネットワークとセマンティックラベルを利用して, オブジェクト境界における深度差を改善する。 nyuv2、scannet、insidenetを含む3つの屋内データセットに関する実験的研究は、gam-depthが既存の手法を上回っており、最先端のパフォーマンスを達成していることを示している。 私たちのコードはhttps://github.com/anqicheng1234/gam-depthで利用可能です。

Self-supervised depth estimation has evolved into an image reconstruction task that minimizes a photometric loss. While recent methods have made strides in indoor depth estimation, they often produce inconsistent depth estimation in textureless areas and unsatisfactory depth discrepancies at object boundaries. To address these issues, in this work, we propose GAM-Depth, developed upon two novel components: gradient-aware mask and semantic constraints. The gradient-aware mask enables adaptive and robust supervision for both key areas and textureless regions by allocating weights based on gradient magnitudes.The incorporation of semantic constraints for indoor self-supervised depth estimation improves depth discrepancies at object boundaries, leveraging a co-optimization network and proxy semantic labels derived from a pretrained segmentation model. Experimental studies on three indoor datasets, including NYUv2, ScanNet, and InteriorNet, show that GAM-Depth outperforms existing methods and achieves state-of-the-art performance, signifying a meaningful step forward in indoor depth estimation. Our code will be available at https://github.com/AnqiCheng1234/GAM-Depth.
翻訳日:2024-02-23 16:04:28 公開日:2024-02-22
# 心臓表層組織分別のための不確かさ駆動・逆境校正学習

Uncertainty-driven and Adversarial Calibration Learning for Epicardial Adipose Tissue Segmentation ( http://arxiv.org/abs/2402.14349v1 )

ライセンス: Link先を確認
Kai Zhao, Zhiming Liu, Jiaqi Liu, Jingbiao Zhou, Bihong Liao, Huifang Tang, Qiuyu Wang, Chunquan Li(参考訳) 心膜脂肪組織(EAT)は、大量のアディポカインを分泌し心筋や冠動脈に影響を及ぼすことのできる内臓脂肪の一種である。 EATの体積と密度は、非侵襲的な磁気共鳴画像による体積の独立したリスクマーカーとして利用することができる。 しかし, EATと心膜灌流の低コントラストと運動人工物の存在により, EATのセグメンテーションは困難である。 より正確なEATボリューム推定のためのセグメンテーションを強化するために,不確実性駆動・対角校正学習を備えた新しい特徴量空間多レベル監視ネットワーク(SPDNet)を提案する。 このネットワークは、まず、そのベイズ推定を正規化制約としてSwinUNETRを最適化する機能潜在空間におけるガウス分布として、不確実性をモデル化することにより、医療環境における医療画像の質の低下や分布外によるEATエッジのぼやけに対処する。 第二に、セグメント化特徴マップを校正し、不確実性誘導予測セグメンテーションと基底真理セグメンテーションのマルチスケール特徴差を考察し、マルチスケールの敵損失を直接合成することにより、組織間の類似性を識別する能力を向上させる。 心的MRIデータセット(ACDC)と実世界の臨床コホートEATデータセットの両方の実験により、提案されたネットワークは主流モデルよりも優れており、不確実性駆動および対角校正学習がマルチスケールの曖昧さをモデル化するための追加情報を提供することができることが検証された。

Epicardial adipose tissue (EAT) is a type of visceral fat that can secrete large amounts of adipokines to affect the myocardium and coronary arteries. EAT volume and density can be used as independent risk markers measurement of volume by noninvasive magnetic resonance images is the best method of assessing EAT. However, segmenting EAT is challenging due to the low contrast between EAT and pericardial effusion and the presence of motion artifacts. we propose a novel feature latent space multilevel supervision network (SPDNet) with uncertainty-driven and adversarial calibration learning to enhance segmentation for more accurate EAT volume estimation. The network first addresses the blurring of EAT edges due to the medical images in the open medical environments with low quality or out-of-distribution by modeling the uncertainty as a Gaussian distribution in the feature latent space, which using its Bayesian estimation as a regularization constraint to optimize SwinUNETR. Second, an adversarial training strategy is introduced to calibrate the segmentation feature map and consider the multi-scale feature differences between the uncertainty-guided predictive segmentation and the ground truth segmentation, synthesizing the multi-scale adversarial loss directly improves the ability to discriminate the similarity between organizations. Experiments on both the cardiac public MRI dataset (ACDC) and the real-world clinical cohort EAT dataset show that the proposed network outperforms mainstream models, validating that uncertainty-driven and adversarial calibration learning can be used to provide additional information for modeling multi-scale ambiguities.
翻訳日:2024-02-23 16:04:03 公開日:2024-02-22
# 圧縮機械学習モデルの信頼度分散トレーニング

Dependable Distributed Training of Compressed Machine Learning Models ( http://arxiv.org/abs/2402.14346v1 )

ライセンス: Link先を確認
Francesco Malandrino and Giuseppe Di Giacomo and Marco Levorato and Carla Fabiana Chiasserini(参考訳) 機械学習(ML)モデルの分散トレーニングに関する既存の研究は、達成された学習品質の分布を常に見落とし、その平均値に焦点を当てている。 これにより、結果のMLモデルの信頼性が低下します。 このギャップを埋めるために、信頼性の高い学習オーケストレーションのためのフレームワークであるDepLを提案し、高品質で効率的な意思決定を可能にする。 (i)学習に活用すべきデータ。 (二)使用する機種及び切り替えの時期、及び (iii)ノードのクラスタとそのリソースを活用すること。 具体的には、利用可能なモデルとして、完全なDNNとその圧縮バージョンを考える。 従来の研究とは異なり、DepLはトレーニングコストを最小限に抑えながら、目標とする学習品質を目標確率で達成することを保証している。 DepLの競合比と多項式の複雑性が一定であることが証明され、最先端技術よりも27%以上優れ、最適値と密に一致していることを示す。

The existing work on the distributed training of machine learning (ML) models has consistently overlooked the distribution of the achieved learning quality, focusing instead on its average value. This leads to a poor dependability}of the resulting ML models, whose performance may be much worse than expected. We fill this gap by proposing DepL, a framework for dependable learning orchestration, able to make high-quality, efficient decisions on (i) the data to leverage for learning, (ii) the models to use and when to switch among them, and (iii) the clusters of nodes, and the resources thereof, to exploit. For concreteness, we consider as possible available models a full DNN and its compressed versions. Unlike previous studies, DepL guarantees that a target learning quality is reached with a target probability, while keeping the training cost at a minimum. We prove that DepL has constant competitive ratio and polynomial complexity, and show that it outperforms the state-of-the-art by over 27% and closely matches the optimum.
翻訳日:2024-02-23 16:03:29 公開日:2024-02-22
# 視覚SLAMの高速化のための誤差マッチング排他法

An Error-Matching Exclusion Method for Accelerating Visual SLAM ( http://arxiv.org/abs/2402.14345v1 )

ライセンス: Link先を確認
Shaojie Zhang, Yinghui Wang, Jiaxing Ma, Jinlong Yang, Tao Yan, Liangyi Huang, and Mingfeng Wang(参考訳) Visual SLAMでは、正確な特徴マッチングを達成するのにかなりの時間がかかり、システムのリアルタイムパフォーマンスに重大な影響を与えます。 本稿では,GMS (Grid-based Motion Statistics) とRANSAC (Random Sample Consensus) を統合し,不一致特徴の除去を高速化する手法を提案する。 この手法はまずGMSアルゴリズムを用いて、近傍のマッチングペアの量を推定し、その信頼度に基づいてマッチをランク付けする。 その後、Random Sample Consensus (RANSAC)アルゴリズムが採用され、ミスマッチした特徴をさらに排除した。 一致した全てのペアをランダムに選択する時間的問題に対処するため,高信頼マッチングからサンプル選択を優先する問題に変換する。 これは最適モデルの反復解を可能にする。 実験の結果,提案手法は従来のGMS-RANSACと同等の精度で,KITTI,TUMデスク,TUM人形データセット上での平均実行時間を24.13%削減できることがわかった。

In Visual SLAM, achieving accurate feature matching consumes a significant amount of time, severely impacting the real-time performance of the system. This paper proposes an accelerated method for Visual SLAM by integrating GMS (Grid-based Motion Statistics) with RANSAC (Random Sample Consensus) for the removal of mismatched features. The approach first utilizes the GMS algorithm to estimate the quantity of matched pairs within the neighborhood and ranks the matches based on their confidence. Subsequently, the Random Sample Consensus (RANSAC) algorithm is employed to further eliminate mismatched features. To address the time-consuming issue of randomly selecting all matched pairs, this method transforms it into the problem of prioritizing sample selection from high-confidence matches. This enables the iterative solution of the optimal model. Experimental results demonstrate that the proposed method achieves a comparable accuracy to the original GMS-RANSAC while reducing the average runtime by 24.13% on the KITTI, TUM desk, and TUM doll datasets.
翻訳日:2024-02-23 16:03:14 公開日:2024-02-22
# TIE-KD:単眼深度推定のための教師に依存しない説明可能な知識蒸留

TIE-KD: Teacher-Independent and Explainable Knowledge Distillation for Monocular Depth Estimation ( http://arxiv.org/abs/2402.14340v1 )

ライセンス: Link先を確認
Sangwon Choi, Daejune Choi, Duksu Kim(参考訳) 単眼深度推定(MDE)は多くのアプリケーションに必須であるが、正確な深層学習モデルの計算要求によって妨げられている。 これを軽減するために、複雑な教師モデルからコンパクトな学生ネットワークへの知識伝達を合理化し、建築的類似性の必要性をなくす新しいTIE-KD(Teacher-Independent Explainable Knowledge Distillation)フレームワークを導入する。 TIE-KDの基盤となるのはDPM(Depth Probability Map)であり、これは教師の出力を解釈し、教師の反応からのみ特徴に基づく知識蒸留を可能にする説明可能な特徴マップである。 このアプローチは、特徴に基づく蒸留の強みを活用して、効率的な学生学習を可能にする。 KITTIデータセットの大規模な評価は、TIE-KDが従来の応答に基づくKD法より優れているだけでなく、多様な教師や学生のアーキテクチャで一貫した有効性を示すことを示している。 TIE-KDの堅牢性と適応性は、効率的で解釈可能なモデルを必要とするアプリケーションの可能性を強調し、実世界の展開における実用性を確認している。

Monocular depth estimation (MDE) is essential for numerous applications yet is impeded by the substantial computational demands of accurate deep learning models. To mitigate this, we introduce a novel Teacher-Independent Explainable Knowledge Distillation (TIE-KD) framework that streamlines the knowledge transfer from complex teacher models to compact student networks, eliminating the need for architectural similarity. The cornerstone of TIE-KD is the Depth Probability Map (DPM), an explainable feature map that interprets the teacher's output, enabling feature-based knowledge distillation solely from the teacher's response. This approach allows for efficient student learning, leveraging the strengths of feature-based distillation. Extensive evaluation of the KITTI dataset indicates that TIE-KD not only outperforms conventional response-based KD methods but also demonstrates consistent efficacy across diverse teacher and student architectures. The robustness and adaptability of TIE-KD underscore its potential for applications requiring efficient and interpretable models, affirming its practicality for real-world deployment.
翻訳日:2024-02-23 16:02:55 公開日:2024-02-22
# 偏光基底射影測定による位相制御量子消光器の強度積を用いたコヒーレント励起超解像

Coherently excited superresolution using intensity product of phase-controlled quantum erasers via polarization-basis projection measurements ( http://arxiv.org/abs/2402.14338v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 近年、遅延チョイス量子消去器は、古典物理学における回折限界を克服し、量子物理学におけるN00N状態の限られた光子数を解決するために、レーザー光の位相制御射影測定を用いたコヒーレント励起超解法に応用されている。 非干渉システムにおける他の位相制御型超解像法とは異なり、提案法は位相制御型量子消光器間の強度生成物であり、その結果、最も従来のセンシングされたメートル法と互換性がある。 ここでは、位相制御された量子消去器に基づく超解法の一般的なスキームと解は、任意のNth階強度相関のために導出される。 さらに,超解像の位相量子化について検討し,量子力学の理解を深めた。

Recently, the delayed-choice quantum eraser has been applied for coherently excited superresolution using phase-controlled projection measurements of laser light to overcome the diffraction limit in classical physics as well as to solve the limited photon number of the N00N state in quantum physics. Unlike other methods of phase-controlled superresolution in a noninterferometric system, the proposed method is for the intensity products between phase-controlled quantum erasers, resulting in superresolution compatible with the most conventional sensing metrologies. Here, both the general scheme and solution of the phase-controlled quantum eraser-based superresolution are derived for arbitrary Nth-order intensity correlation, where the superresolution shows the photonic de Broglie wave-like quantum feature. Furthermore, the phase quantization of the superresolution is discussed to better understand quantum mechanics.
翻訳日:2024-02-23 16:02:36 公開日:2024-02-22
# AURA:ナチュラル言語による論理的不確かさの推論

AURA: Natural Language Reasoning for Aleatoric Uncertainty in Rationales ( http://arxiv.org/abs/2402.14337v1 )

ライセンス: Link先を確認
Hazel Kim(参考訳) 答の背後にある合理性は、モデル決定を説明するだけでなく、複雑な推論タスクをうまく推理するために言語モデルを促進する。 しかし、不可能な理性を得ることはしばしば不可能である。 さらに、モデルのパフォーマンスを奨励するのに十分な根拠が忠実である程度を見積もることは自明ではない。 したがって、そのような推論タスクは、しばしばモデルに望ましくない理性の下で正しい答えを出力させ、モデルが完全に可能なものと比較して準最適である。 本研究では,不完全理性に対処する手法を提案する。 まず, モデル先行信念を情報性として, 与えられた理論のエントロピースコアを持つ曖昧な合理性を定義する。 次に、理論の曖昧さに応じて2つの異なる推論モデルのうちの1つを選択するようにモデルを指導する。 我々は,提案手法が,合理的かつ低リソース設定の敵対的品質に対して頑健な性能改善をもたらすことを実証的に議論する。

Rationales behind answers not only explain model decisions but boost language models to reason well on complex reasoning tasks. However, obtaining impeccable rationales is often impossible. Besides, it is non-trivial to estimate the degree to which the rationales are faithful enough to encourage model performance. Thus, such reasoning tasks often compel models to output correct answers under undesirable rationales and are sub-optimal compared to what the models are fully capable of. In this work, we propose how to deal with imperfect rationales causing aleatoric uncertainty. We first define the ambiguous rationales with entropy scores of given rationales, using model prior beliefs as informativeness. We then guide models to select one of two different reasoning models according to the ambiguity of rationales. We empirically argue that our proposed method produces robust performance superiority against the adversarial quality of rationales and low-resource settings.
翻訳日:2024-02-23 16:02:18 公開日:2024-02-22
# hyperfast: 表データに対する即時分類

HyperFast: Instant Classification for Tabular Data ( http://arxiv.org/abs/2402.14335v1 )

ライセンス: Link先を確認
David Bonet, Daniel Mas Montserrat, Xavier Gir\'o-i-Nieto, Alexander G. Ioannidis(参考訳) ディープラーニングモデルのトレーニングとハイパーパラメータチューニングの実行は、計算処理と時間を要する可能性がある。 一方、勾配ブースティングアルゴリズムのような従来の機械学習手法は、ほとんどの表データアプリケーションで好まれる選択肢であり、ニューラルネットワークの代替手段は広範なハイパーパラメータチューニングを必要とする。 本稿では,単一前方パスにおける表データの即時分類を目的としたメタトレーニング型ハイパーネットワークHyperFastを紹介する。 hyperfastは、未発見のデータセットに合わせたタスク固有のニューラルネットワークを生成し、モデルトレーニングの必要性をなくして、直接分類推論に使用できる。 OpenMLとゲノムデータによる広範な実験を報告し、HyperFastと競合する表型データニューラルネットワーク、従来のMLメソッド、AutoMLシステム、ブースティングマシンを比較した。 HyperFastは競争力が高いが、非常に速い。 さらに,様々な分類タスクに対して,微調整をほとんど行わずに堅牢な適応性を示し,ハイパーファストを多数のアプリケーションと迅速なモデル展開のための強力なソリューションとして位置づける。 HyperFastは高速分類のための有望なパラダイムを導入し、ディープラーニングの計算負担を大幅に削減する可能性がある。 トレーニングされたHyperFastモデルとともに、Scikit-learnライクなインターフェースを提供する私たちのコードは、https://github.com/AI-sandbox/HyperFast.comで確認できます。

Training deep learning models and performing hyperparameter tuning can be computationally demanding and time-consuming. Meanwhile, traditional machine learning methods like gradient-boosting algorithms remain the preferred choice for most tabular data applications, while neural network alternatives require extensive hyperparameter tuning or work only in toy datasets under limited settings. In this paper, we introduce HyperFast, a meta-trained hypernetwork designed for instant classification of tabular data in a single forward pass. HyperFast generates a task-specific neural network tailored to an unseen dataset that can be directly used for classification inference, removing the need for training a model. We report extensive experiments with OpenML and genomic data, comparing HyperFast to competing tabular data neural networks, traditional ML methods, AutoML systems, and boosting machines. HyperFast shows highly competitive results, while being significantly faster. Additionally, our approach demonstrates robust adaptability across a variety of classification tasks with little to no fine-tuning, positioning HyperFast as a strong solution for numerous applications and rapid model deployment. HyperFast introduces a promising paradigm for fast classification, with the potential to substantially decrease the computational burden of deep learning. Our code, which offers a scikit-learn-like interface, along with the trained HyperFast model, can be found at https://github.com/AI-sandbox/HyperFast.
翻訳日:2024-02-23 16:02:01 公開日:2024-02-22
# instructir: 情報検索モデルの命令追従のためのベンチマーク

INSTRUCTIR: A Benchmark for Instruction Following of Information Retrieval Models ( http://arxiv.org/abs/2402.14334v1 )

ライセンス: Link先を確認
Hanseok Oh, Hyunji Lee, Seonghyeon Ye, Haebin Shin, Hansol Jang, Changwook Jun, Minjoon Seo(参考訳) 検索対象をユーザの意図に合わせる必要性は極めて大きいが,検索対象をユーザの意図した検索コンテキストにこだわることなく,クエリ情報を優先することが多い。 検索者がユーザの意図や好みを理解する能力を高めることは、言語モデル命令と同様に、より整合した検索ターゲットを生み出す可能性がある。 先行研究は,情報検索における命令のタスク記述形式への適用を制限し,多様な検索シナリオの広い文脈を無視する。 さらに,評価に活用される一般的なベンチマークでは,指示追従能力を評価するための明示的な調整が欠如しており,この分野の進展を阻害している。 これらの制約に対応するために,情報検索タスクにおける指示追従能力の評価に特化して設計された新しいベンチマークINSTRUCTIRを提案する。 提案手法は,現実の検索シナリオに固有の多様な特徴を反映して,各クエリインスタンスに適合したユーザアライン命令に焦点を当てる。 実験分析により,INSTRUCTORのようなタスクスタイルの指示に従うように微調整されたレトリバーは,非命令型命令に比べて性能が劣ることがわかった。 これは、既存の命令認識検索データセットでトレーニングされたレトリバーの構築に内在する潜在的なオーバーフィッティングの問題を浮き彫りにする。

Despite the critical need to align search targets with users' intention, retrievers often only prioritize query information without delving into the users' intended search context. Enhancing the capability of retrievers to understand intentions and preferences of users, akin to language model instructions, has the potential to yield more aligned search targets. Prior studies restrict the application of instructions in information retrieval to a task description format, neglecting the broader context of diverse and evolving search scenarios. Furthermore, the prevailing benchmarks utilized for evaluation lack explicit tailoring to assess instruction-following ability, thereby hindering progress in this field. In response to these limitations, we propose a novel benchmark,INSTRUCTIR, specifically designed to evaluate instruction-following ability in information retrieval tasks. Our approach focuses on user-aligned instructions tailored to each query instance, reflecting the diverse characteristics inherent in real-world search scenarios. Through experimental analysis, we observe that retrievers fine-tuned to follow task-style instructions, such as INSTRUCTOR, can underperform compared to their non-instruction-tuned counterparts. This underscores potential overfitting issues inherent in constructing retrievers trained on existing instruction-aware retrieval datasets.
翻訳日:2024-02-23 16:01:36 公開日:2024-02-22
# 大きなデータセットから小さなデータセットへ:クラスタリングアルゴリズム選択のためのサイズ一般化

From Large to Small Datasets: Size Generalization for Clustering Algorithm Selection ( http://arxiv.org/abs/2402.14332v1 )

ライセンス: Link先を確認
Vaggos Chatziafratis, Ishani Karmarkar, and Ellen Vitercik(参考訳) クラスタリングアルゴリズムの選択では、膨大なデータセットが与えられ、どのクラスタリングアルゴリズムを使うか効率的に選択する必要があります。 我々は,この問題を,高価なオラクルクエリを通じてのみアクセス可能な,未知の地下構造クラスタリングを用いて半教師付き環境で研究する。 理想的には、クラスタリングアルゴリズムの出力は構造的に基底真理に近い。 本稿では,クラスタリングアルゴリズムの精度に対するサイズ一般化の概念を導入することにより,この問題にアプローチする。 我々は,(1)大規模クラスタリングインスタンスのサブサンプル化,(2)小さなインスタンス上での候補アルゴリズムの集合の評価,(3)小さなインスタンス上で最高の精度のアルゴリズムが元の大インスタンス上で最高の精度を持つことを保証できる条件を特定した。 我々は、シングルリンク、k-means++、および(滑らかな変種)ゴンザレスのk-センターヒューリスティックの3つの古典的クラスタリングアルゴリズムに対して、理論的大きさの一般化を保証する。 実世界のクラスタリングインスタンスでは、データの5%未満のサブサンプルを使用して、どのアルゴリズムが全データセットで最適かを特定することで、理論的分析を経験的結果で検証する。

In clustering algorithm selection, we are given a massive dataset and must efficiently select which clustering algorithm to use. We study this problem in a semi-supervised setting, with an unknown ground-truth clustering that we can only access through expensive oracle queries. Ideally, the clustering algorithm's output will be structurally close to the ground truth. We approach this problem by introducing a notion of size generalization for clustering algorithm accuracy. We identify conditions under which we can (1) subsample the massive clustering instance, (2) evaluate a set of candidate algorithms on the smaller instance, and (3) guarantee that the algorithm with the best accuracy on the small instance will have the best accuracy on the original big instance. We provide theoretical size generalization guarantees for three classic clustering algorithms: single-linkage, k-means++, and (a smoothed variant of) Gonzalez's k-centers heuristic. We validate our theoretical analysis with empirical results, observing that on real-world clustering instances, we can use a subsample of as little as 5% of the data to identify which algorithm is best on the full dataset.
翻訳日:2024-02-23 16:01:12 公開日:2024-02-22
# レコードレベルの推論に対するDP-SGDの閉形式境界

Closed-Form Bounds for DP-SGD against Record-level Inference ( http://arxiv.org/abs/2402.14397v1 )

ライセンス: Link先を確認
Giovanni Cherubin, Boris K\"opf, Andrew Paverd, Shruti Tople, Lukas Wutschitz, Santiago Zanella-B\'eguelin(参考訳) DP-SGDのような差分プライベート(DP)アルゴリズムでトレーニングされた機械学習モデルは、幅広いプライバシー攻撃に対してレジリエンスを享受する。 いくつかの攻撃の境界は$(\varepsilon,\delta)$-dpの保証のみに基づいて導出することができるが、有意義な境界には十分なプライバシー予算(すなわち大量のノイズを注入する)が必要であるため、ユーティリティが大幅に失われる。 本稿では,DPを介さずに,メンバシップや属性推論などの特定のレコードレベルの脅威に対して,機械学習モデルのプライバシを評価する新しいアプローチを提案する。 我々はDP-SGDアルゴリズムに焦点をあて、単純な閉形式境界を導出する。 我々の証明モデルdp-sgdは、攻撃者が推論したい秘密(例えば、データレコードのメンバーシップ)を入力とし、反復最適化によって生成された中間モデルパラメータを出力とする情報理論チャネルである。 計算速度が桁違いに速くなる一方で、最先端の技術にマッチするメンバーシップ推論の限界を得る。 さらに,属性推論に対する新たなデータ依存境界を提案する。 本研究の結果は, 実用性を犠牲にすることなく, 特定の推論脅威に対して, 訓練済みモデルのプライバシーを直接的かつ解釈可能かつ実践的に評価する方法を提供する。

Machine learning models trained with differentially-private (DP) algorithms such as DP-SGD enjoy resilience against a wide range of privacy attacks. Although it is possible to derive bounds for some attacks based solely on an $(\varepsilon,\delta)$-DP guarantee, meaningful bounds require a small enough privacy budget (i.e., injecting a large amount of noise), which results in a large loss in utility. This paper presents a new approach to evaluate the privacy of machine learning models against specific record-level threats, such as membership and attribute inference, without the indirection through DP. We focus on the popular DP-SGD algorithm, and derive simple closed-form bounds. Our proofs model DP-SGD as an information theoretic channel whose inputs are the secrets that an attacker wants to infer (e.g., membership of a data record) and whose outputs are the intermediate model parameters produced by iterative optimization. We obtain bounds for membership inference that match state-of-the-art techniques, whilst being orders of magnitude faster to compute. Additionally, we present a novel data-dependent bound against attribute inference. Our results provide a direct, interpretable, and practical way to evaluate the privacy of trained models against specific inference threats without sacrificing utility.
翻訳日:2024-02-23 15:56:20 公開日:2024-02-22
# AlphaTensorによる量子回路最適化

Quantum Circuit Optimization with AlphaTensor ( http://arxiv.org/abs/2402.14396v1 )

ライセンス: Link先を確認
Francisco J. R. Ruiz, Tuomas Laakkonen, Johannes Bausch, Matej Balog, Mohammadamin Barekatain, Francisco J. H. Heras, Alexander Novikov, Nathan Fitzpatrick, Bernardino Romera-Paredes, John van de Wetering, Alhussein Fawzi, Konstantinos Meichanetzidis, Pushmeet Kohli(参考訳) フォールトトレラント量子コンピュータを実現する上で重要な課題は回路最適化である。 フォールトトレラント量子計算における最も高価なゲート(すなわちtゲート)に着目し、tカウント最適化の問題、すなわち与えられた回路を実装するのに必要なtゲートの数を最小化する。 そこで我々は,T数最適化とテンソル分解の関係を利用して,深層強化学習に基づくAlphaTensor-Quantumを開発した。 既存のTカウント最適化法とは異なり、AlphaTensor-Quantumは量子計算に関するドメイン固有の知識を取り入れ、ガジェットを活用することができる。 alphatensor-quantumは、(ガジェットを使わずに比較しても)一連の算術ベンチマークで既存のt-count最適化の手法を上回っている。 興味深いことに、有限体の乗法であるカラツバの手法に似た効率的なアルゴリズムを発見する。 AlphaTensor-Quantumはまた、ショアのアルゴリズムや量子化学シミュレーションで使われる算術計算に最適な人間設計の解を見つけ、関連する量子回路を完全に自動化して数百時間の研究を節約できることを示した。

A key challenge in realizing fault-tolerant quantum computers is circuit optimization. Focusing on the most expensive gates in fault-tolerant quantum computation (namely, the T gates), we address the problem of T-count optimization, i.e., minimizing the number of T gates that are needed to implement a given circuit. To achieve this, we develop AlphaTensor-Quantum, a method based on deep reinforcement learning that exploits the relationship between optimizing T-count and tensor decomposition. Unlike existing methods for T-count optimization, AlphaTensor-Quantum can incorporate domain-specific knowledge about quantum computation and leverage gadgets, which significantly reduces the T-count of the optimized circuits. AlphaTensor-Quantum outperforms the existing methods for T-count optimization on a set of arithmetic benchmarks (even when compared without making use of gadgets). Remarkably, it discovers an efficient algorithm akin to Karatsuba's method for multiplication in finite fields. AlphaTensor-Quantum also finds the best human-designed solutions for relevant arithmetic computations used in Shor's algorithm and for quantum chemistry simulation, thus demonstrating it can save hundreds of hours of research by optimizing relevant quantum circuits in a fully automated way.
翻訳日:2024-02-23 15:55:52 公開日:2024-02-22
# 非条件生成器を用いた意味画像合成

Semantic Image Synthesis with Unconditional Generator ( http://arxiv.org/abs/2402.14395v1 )

ライセンス: Link先を確認
Jungwoo Chae, Hyunin Cho, Sooyeon Go, Kyungmook Choi, Youngjung Uh(参考訳) セマンティック画像合成(SIS)は、与えられたセマンティックマスクにマッチする現実的な画像を生成することを目的としている。 高品質な結果と正確な空間制御を可能にする最近の進歩にもかかわらず、モデルのトレーニングには大量のセマンティクスセグメンテーションデータセットが必要である。 代わりに,事前学習した無条件生成器を使用し,プロキシマスクによる特徴マップの再構成を提案する。 プロキシマスクは、単純なクラスタリングによってジェネレータ内のランダムサンプルの特徴マップから作成される。 特徴再構成器は、元の特徴マップをアレンジして、元のサンプル自身から、あるいはランダムなサンプルから、プロキシマスクの形状にマッチさせる。 次に、セマンティックマスクを含む様々な入力条件からプロキシマスクを生成するセマンティックマッパーを提案する。 提案手法は,実画像の自由な空間編集,スケッチ・ツー・フォト,スクリブル・ツー・フォトなど,様々な用途に応用できる。 実験は、人間の顔、動物の顔、建物など、さまざまなデータセット上で、我々の方法の利点を検証する。

Semantic image synthesis (SIS) aims to generate realistic images that match given semantic masks. Despite recent advances allowing high-quality results and precise spatial control, they require a massive semantic segmentation dataset for training the models. Instead, we propose to employ a pre-trained unconditional generator and rearrange its feature maps according to proxy masks. The proxy masks are prepared from the feature maps of random samples in the generator by simple clustering. The feature rearranger learns to rearrange original feature maps to match the shape of the proxy masks that are either from the original sample itself or from random samples. Then we introduce a semantic mapper that produces the proxy masks from various input conditions including semantic masks. Our method is versatile across various applications such as free-form spatial editing of real images, sketch-to-photo, and even scribble-to-photo. Experiments validate advantages of our method on a range of datasets: human faces, animal faces, and buildings.
翻訳日:2024-02-23 15:55:31 公開日:2024-02-22
# グラフ解析ネットワーク

Graph Parsing Networks ( http://arxiv.org/abs/2402.14393v1 )

ライセンス: Link先を確認
Yunchong Song, Siyuan Huang, Xinbing Wang, Chenghu Zhou, Zhouhan Lin(参考訳) グラフプーリングはグラフ情報をコンパクト表現に圧縮する。 最先端のグラフプーリング手法は階層的なアプローチに従い、グラフサイズを段階的に削減する。 これらの方法は、ノードドロップかノードクラスタリングかによって、ノード情報の保存とメモリ効率のバランスをとる必要がある。 さらに、すべてのグラフに対して固定プーリング比やプール層数が事前に定義されているため、個々のグラフ毎にパーソナライズされたプール構造が取得できない。 本研究はボトムアップ文法帰納法にインスパイアされた,プーリング構造を推論する効率的なグラフ解析アルゴリズムを提案し,グラフプーリングを駆動する。 得られたグラフ解析ネットワーク(gpn)は、個々のグラフに対するパーソナライズされたプーリング構造を適応的に学習する。 GPNはグラフ解析アルゴリズムによって生成された離散代入の恩恵を受け、ノード情報をそのまま保存しながら良好なメモリ効率を実現する。 標準ベンチマーク実験の結果、GPNはグラフ分類タスクにおける最先端グラフプーリング法より優れ、ノード分類タスクにおける競合性能を達成可能であることが示された。 また、GPNがノード情報を保存し、関連するテストを通してメモリと時間効率を計測する能力を示すグラフ再構築タスクも実施する。

Graph pooling compresses graph information into a compact representation. State-of-the-art graph pooling methods follow a hierarchical approach, which reduces the graph size step-by-step. These methods must balance memory efficiency with preserving node information, depending on whether they use node dropping or node clustering. Additionally, fixed pooling ratios or numbers of pooling layers are predefined for all graphs, which prevents personalized pooling structures from being captured for each individual graph. In this work, inspired by bottom-up grammar induction, we propose an efficient graph parsing algorithm to infer the pooling structure, which then drives graph pooling. The resulting Graph Parsing Network (GPN) adaptively learns personalized pooling structure for each individual graph. GPN benefits from the discrete assignments generated by the graph parsing algorithm, allowing good memory efficiency while preserving node information intact. Experimental results on standard benchmarks demonstrate that GPN outperforms state-of-the-art graph pooling methods in graph classification tasks while being able to achieve competitive performance in node classification tasks. We also conduct a graph reconstruction task to show GPN's ability to preserve node information and measure both memory and time efficiency through relevant tests.
翻訳日:2024-02-23 15:55:15 公開日:2024-02-22
# ビジュアルオブジェクト追跡のためのグローバル表現メモリから関連機能を読み取る

Reading Relevant Feature from Global Representation Memory for Visual Object Tracking ( http://arxiv.org/abs/2402.14392v1 )

ライセンス: Link先を確認
Xinyu Zhou, Pinxue Guo, Lingyi Hong, Jinglun Li, Wei Zhang, Weifeng Ge, Wenqiang Zhang(参考訳) テンプレートや過去のフレームからの参照機能は、ビジュアルオブジェクト追跡に不可欠である。 以前の作業では、固定テンプレートやメモリのすべての機能を視覚オブジェクト追跡に利用していた。 しかし,動画のダイナミックな性質から,異なる時間ステップにおける検索領域の参照履歴情報も一致しない。 したがって、テンプレートとメモリのすべての機能を使用することで冗長性とトラッキング性能が損なわれる可能性がある。 この問題を軽減するために,参照特徴から最も関連性の高い歴史的情報を選択する際に,検索領域を適応的に支援する,関連注意機構とグローバル表現メモリからなる新しい追跡パラダイムを提案する。 具体的には,従来の手法と異なり,クロスフレーム情報をグローバルにアクセスすることで,現在のフレームに対して最適なグローバル表現メモリを動的に選択・構築することができる。 さらに、構築されたメモリから関連する履歴情報を柔軟に読み取ることができ、冗長性を低減し、有害な情報のネガティブな影響に対処することができる。 拡張実験により提案手法の有効性が検証され,71 FPSの5つの挑戦データセット上での競合性能が得られた。

Reference features from a template or historical frames are crucial for visual object tracking. Prior works utilize all features from a fixed template or memory for visual object tracking. However, due to the dynamic nature of videos, the required reference historical information for different search regions at different time steps is also inconsistent. Therefore, using all features in the template and memory can lead to redundancy and impair tracking performance. To alleviate this issue, we propose a novel tracking paradigm, consisting of a relevance attention mechanism and a global representation memory, which can adaptively assist the search region in selecting the most relevant historical information from reference features. Specifically, the proposed relevance attention mechanism in this work differs from previous approaches in that it can dynamically choose and build the optimal global representation memory for the current frame by accessing cross-frame information globally. Moreover, it can flexibly read the relevant historical information from the constructed memory to reduce redundancy and counteract the negative effects of harmful information. Extensive experiments validate the effectiveness of the proposed method, achieving competitive performance on five challenging datasets with 71 FPS.
翻訳日:2024-02-23 15:54:56 公開日:2024-02-22
# MAPE-PPI : 微小環境に配慮したタンパク質埋め込みによるタンパク質とタンパク質の相互作用予測

MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction Prediction via Microenvironment-Aware Protein Embedding ( http://arxiv.org/abs/2402.14391v1 )

ライセンス: Link先を確認
Lirong Wu, Yijun Tian, Yufei Huang, Siyuan Li, Haitao Lin, Nitesh V Chawla, Stan Z. Li(参考訳) タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。 実験的なPPIアッセイの需要増加とコストは、効率的なPPI予測のための計算方法を必要とする。 既存の手法はPPI予測のためのタンパク質配列に大きく依存しているが、相互作用を決定する鍵となるタンパク質構造である。 両方のタンパク質様相を考慮に入れるために、アミノ酸残基の配列と構造的コンテクストによる微小環境を定義し、周囲の化学的性質と幾何学的特徴を記述した。 加えて、以前の研究で定義された微小環境は、主に「語彙」が極端に小さい実験的に測定された物理化学的性質に基づいている。 これにより、マイクロ環境の多様性と複雑さをカバーすることが困難になる。 本稿では,ppi予測 (mpae-ppi) のためのマイクロ環境認識タンパク質埋め込みを提案し, 十分に大きなマイクロ環境"ボカブラリ" (すなわちコードブック) を介して, マイクロ環境を化学的に有意義な離散コードにコード化する。 さらに、ランダムにコードブックをマスキングし、入力を再構築することで、異なるマイクロ環境間の依存関係を捕捉する新しい事前学習戦略、Masked Codebook Modeling (MCM)を提案する。 学習したマイクロ環境コードブックを使って、オフザシェルフツールとして再利用し、異なる大きさのタンパク質を効率的に効果的にエンコードし、大規模なPPI予測を行う。 大規模な実験により、MAPE-PPIは数百万のPPIでPPI予測にスケールできることが示され、その効果と計算効率のトレードオフは最先端の競合相手よりも優れている。

Protein-Protein Interactions (PPIs) are fundamental in various biological processes and play a key role in life activities. The growing demand and cost of experimental PPI assays require computational methods for efficient PPI prediction. While existing methods rely heavily on protein sequence for PPI prediction, it is the protein structure that is the key to determine the interactions. To take both protein modalities into account, we define the microenvironment of an amino acid residue by its sequence and structural contexts, which describe the surrounding chemical properties and geometric features. In addition, microenvironments defined in previous work are largely based on experimentally assayed physicochemical properties, for which the "vocabulary" is usually extremely small. This makes it difficult to cover the diversity and complexity of microenvironments. In this paper, we propose Microenvironment-Aware Protein Embedding for PPI prediction (MPAE-PPI), which encodes microenvironments into chemically meaningful discrete codes via a sufficiently large microenvironment "vocabulary" (i.e., codebook). Moreover, we propose a novel pre-training strategy, namely Masked Codebook Modeling (MCM), to capture the dependencies between different microenvironments by randomly masking the codebook and reconstructing the input. With the learned microenvironment codebook, we can reuse it as an off-the-shelf tool to efficiently and effectively encode proteins of different sizes and functions for large-scale PPI prediction. Extensive experiments show that MAPE-PPI can scale to PPI prediction with millions of PPIs with superior trade-offs between effectiveness and computational efficiency than the state-of-the-art competitors.
翻訳日:2024-02-23 15:54:39 公開日:2024-02-22
# トランザクションのセキュア化:IHT-LRとグリッド検索を用いたハイブリッド依存型アンサンブル機械学習モデル

Securing Transactions: A Hybrid Dependable Ensemble Machine Learning Model using IHT-LR and Grid Search ( http://arxiv.org/abs/2402.14389v1 )

ライセンス: Link先を確認
Md. Alamin Talukder, Rakib Hossen, Md Ashraf Uddin, Mohammed Nasir Uddin and Uzzal Kumar Acharjee(参考訳) 金融機関や企業は不正取引による継続的な課題に直面しており、効果的な検出方法の必要性が高まっている。 クレジットカード詐欺の検出は不正取引の特定・防止に不可欠であり、不正行為のタイムリーな検出により、捜査員は迅速に行動し、さらなる損失を軽減できる。 しかし、調査プロセスは時間を要することが多く、毎日徹底的に検査できるアラートの数を制限している。 したがって,不正検出モデルの主な目的は,誤報や不正事件を最小化しつつ,正確な警報を提供することである。 本稿では,意思決定木(dt),ランダムフォレスト(rf),k-ネアレスト近傍(knn),多層パーセプトロン(mlp)など複数のアルゴリズムとグリッド探索を用いた適切な重み付き最適化をインテリジェントに組み合わせ,不正同定を促進する,最先端ハイブリッドアンサンブル(ens)依存型機械学習(ml)モデルを提案する。 データ不均衡問題に対処するために、従来のアプローチを超越したロジスティック回帰(LR)とともに、Instant Hardness Threshold(IHT)技術を用いる。 実験は284,807トランザクションからなるクレジットカードデータセット上で実施した。 提案したモデルは、99.66%、99.73%、98.56%、99.79%の精度で、それぞれDT、RF、KNN、MLP、ENSモデルに完全100%の精度を実現している。 ハイブリッドアンサンブルモデルは既存の作業より優れており、高周波シナリオにおける不正取引を検出するための新しいベンチマークを確立する。 その結果、本手法の有効性と信頼性を強調し、優れた性能指標を示し、実世界の不正検出アプリケーションにおける異常な可能性を示した。

Financial institutions and businesses face an ongoing challenge from fraudulent transactions, prompting the need for effective detection methods. Detecting credit card fraud is crucial for identifying and preventing unauthorized transactions.Timely detection of fraud enables investigators to take swift actions to mitigate further losses. However, the investigation process is often time-consuming, limiting the number of alerts that can be thoroughly examined each day. Therefore, the primary objective of a fraud detection model is to provide accurate alerts while minimizing false alarms and missed fraud cases. In this paper, we introduce a state-of-the-art hybrid ensemble (ENS) dependable Machine learning (ML) model that intelligently combines multiple algorithms with proper weighted optimization using Grid search, including Decision Tree (DT), Random Forest (RF), K-Nearest Neighbor (KNN), and Multilayer Perceptron (MLP), to enhance fraud identification. To address the data imbalance issue, we employ the Instant Hardness Threshold (IHT) technique in conjunction with Logistic Regression (LR), surpassing conventional approaches. Our experiments are conducted on a publicly available credit card dataset comprising 284,807 transactions. The proposed model achieves impressive accuracy rates of 99.66%, 99.73%, 98.56%, and 99.79%, and a perfect 100% for the DT, RF, KNN, MLP and ENS models, respectively. The hybrid ensemble model outperforms existing works, establishing a new benchmark for detecting fraudulent transactions in high-frequency scenarios. The results highlight the effectiveness and reliability of our approach, demonstrating superior performance metrics and showcasing its exceptional potential for real-world fraud detection applications.
翻訳日:2024-02-23 15:54:12 公開日:2024-02-22
# winddragon: 自動ディープラーニングによる風力予測の強化

WindDragon: Enhancing wind power forecasting with Automated Deep Learning ( http://arxiv.org/abs/2402.14385v1 )

ライセンス: Link先を確認
Julie Keisler (EDF R\&D OSIRIS, EDF R\&D), Etienne Le Naour (ISIR)(参考訳) 2050年までに純ゼロ炭素排出量を達成するには、電力網への風力発電量の増大が必要である。 このエネルギー源はその変動性と不確実性のためにシステムオペレーターに挑戦する。 そのため,グリッド運転やシステムバランスには,風力の正確な予測が不可欠である。 本稿では,国家レベルでの短期(1時間から6時間)の風力発電予測に対する革新的なアプローチを提案する。 この手法は,風速マップと数値気象予測を組み合わせた自動ディープラーニングを利用して,風力の正確な予測を行う。

Achieving net zero carbon emissions by 2050 requires the integration of increasing amounts of wind power into power grids. This energy source poses a challenge to system operators due to its variability and uncertainty. Therefore, accurate forecasting of wind power is critical for grid operation and system balancing. This paper presents an innovative approach to short-term (1 to 6 hour horizon) windpower forecasting at a national level. The method leverages Automated Deep Learning combined with Numerical Weather Predictions wind speed maps to accurately forecast wind power.
翻訳日:2024-02-23 15:53:33 公開日:2024-02-22
# エネルギー時系列異常検出のためのソフトダイナミックな時間ゆがみと並列再構成を伴う生成的逆ネットワーク

Generative Adversarial Network with Soft-Dynamic Time Warping and Parallel Reconstruction for Energy Time Series Anomaly Detection ( http://arxiv.org/abs/2402.14384v1 )

ライセンス: Link先を確認
Hardik Prabhu, Jayaraman Valadi, and Pandarasamy Arjunan(参考訳) 本稿では,エネルギー時系列データにおける逐次異常検出のために,1次元深層畳み込み生成逆ネットワーク(dcgan)を用いた。 異常検出は、エネルギーサブシーケンスを再構成するために勾配降下を伴い、ジェネレータネットワークを介してそれらを生成するノイズベクトルを同定する。 ソフトDTWは再建損失の微分可能な代替品として用いられ、ユークリッド距離よりも優れている。 復元損失と潜伏空間の事前確率分布の組み合わせは異常スコアとして機能する。 提案手法は, 複数点の並列計算による検出を高速化し, 建物内の異常なエネルギー消費を特定することを約束するものである。

In this paper, we employ a 1D deep convolutional generative adversarial network (DCGAN) for sequential anomaly detection in energy time series data. Anomaly detection involves gradient descent to reconstruct energy sub-sequences, identifying the noise vector that closely generates them through the generator network. Soft-DTW is used as a differentiable alternative for the reconstruction loss and is found to be superior to Euclidean distance. Combining reconstruction loss and the latent space's prior probability distribution serves as the anomaly score. Our novel method accelerates detection by parallel computation of reconstruction of multiple points and shows promise in identifying anomalous energy consumption in buildings, as evidenced by performing experiments on hourly energy time series from 15 buildings.
翻訳日:2024-02-23 15:53:26 公開日:2024-02-22
# 歴史連鎖推論による大規模言語モデルによる時間知識グラフ予測の強化

Enhancing Temporal Knowledge Graph Forecasting with Large Language Models via Chain-of-History Reasoning ( http://arxiv.org/abs/2402.14382v1 )

ライセンス: Link先を確認
Yuwei Xia, Ding Wang, Qiang Liu, Liang Wang, Shu Wu, Xiaoyu Zhang(参考訳) 時間的知識グラフ(TKG)予測は、与えられた履歴に基づいて将来の事実を予測することを目的としている。 最近のグラフベースのモデルでは、TKG内の構造情報の取得が優れているが、意味的理解能力に欠ける。 現在、LLMの急増に伴い、LLMベースのTKG予測モデルが登場している。 しかし,既存のLLMモデルでは,(1)高次履歴情報を無視しながら予測の1次履歴のみに焦点が当てられているため,LLMの提供する情報は極めて限られている。 2)LLMは,重度履歴情報負荷下での最適推論性能に苦慮する。 (3) TKG 予測では, LLM の時間的推論能力は限定的である。 最初の2つの課題に対処するため、我々は高階歴史を段階的に探求し、TKG予測におけるLLMの高階歴史情報の有効活用を実現するCoH推論を提案する。 第3の課題に対処するため,我々はtkg予測のためのグラフモデルの性能を向上させるために,paly-and-plugモジュールとしてcohを設計した。 3つのデータセットとバックボーンに関する大規模な実験は、CoHの有効性を示している。

Temporal Knowledge Graph (TKG) forecasting aims to predict future facts based on given histories. Most recent graph-based models excel at capturing structural information within TKGs but lack semantic comprehension abilities. Nowadays, with the surge of LLMs, the LLM-based TKG prediction model has emerged. However, the existing LLM-based model exhibits three shortcomings: (1) It only focuses on the first-order history for prediction while ignoring high-order historical information, resulting in the provided information for LLMs being extremely limited. (2) LLMs struggle with optimal reasoning performance under heavy historical information loads. (3) For TKG prediction, the temporal reasoning capability of LLM alone is limited. To address the first two challenges, we propose Chain-of-History (CoH) reasoning which explores high-order histories step-by-step, achieving effective utilization of high-order historical information for LLMs on TKG prediction. To address the third issue, we design CoH as a paly-and-plug module to enhance the performance of graph-based models for TKG prediction. Extensive experiments on three datasets and backbones demonstrate the effectiveness of CoH.
翻訳日:2024-02-23 15:53:12 公開日:2024-02-22
# novi jezi\v{c}ki modeli za srpski jezik

Novi jezi\v{c}ki modeli za srpski jezik ( http://arxiv.org/abs/2402.14379v1 )

ライセンス: Link先を確認
Mihailo \v{S}kori\'c(参考訳) 本稿では,セルビア語におけるトランスフォーマーに基づく言語モデルの開発史について概説する。 テキスト生成とベクトル化のためのいくつかの新しいモデルも、言語資源および技術協会のリソースに基づいてトレーニングされている。 セルビアで選択された10のベクタ化モデルは、2つの新しいベクタ化を含む4つの自然言語処理タスクで比較される。 Paperは、選択されたタスクごとにどのモデルが最適か、そのサイズとトレーニングセットのサイズがそれらのタスクのパフォーマンスにどのように影響するか、そしてセルビア語で最高の言語モデルをトレーニングするのに最適な設定は何か、を分析します。

The paper will briefly present the development history of transformer-based language models for the Serbian language. Several new models for text generation and vectorization, trained on the resources of the Society for Language Resources and Technologies, will also be presented. Ten selected vectorization models for Serbian, including two new ones, will be compared on four natural language processing tasks. Paper will analyze which models are the best for each selected task, how does their size and the size of their training sets affect the performance on those tasks, and what is the optimal setting to train the best language models for the Serbian language.
翻訳日:2024-02-23 15:52:47 公開日:2024-02-22
# 中国語エンティティ関係抽出における大言語モデルのための小言語モデルの提案

Small Language Model Is a Good Guide for Large Language Model in Chinese Entity Relation Extraction ( http://arxiv.org/abs/2402.14373v1 )

ライセンス: Link先を確認
Xuemei Tang and Jun Wang and Qi Su(参考訳) 近年,大規模言語モデル(LLM)はリレーショナル抽出(RE)タスク,特に数ショット学習において成功している。 REの分野における重要な問題は、長い尾を持つデータであるが、LLMアプローチを用いてこの問題にはあまり注目されていない。 そこで本稿では,データロングテール問題を軽減するためのモデルコラボレーションフレームワークであるslcolmを提案する。 このフレームワークでは,<\textit{Training-Guide-Predict}' という戦略を用いて,事前学習言語モデル (PLM) と LLM の強みを組み合わせ,タスク固有の PLM フレームワークがチューターとして機能し,タスク知識を LLM に伝達し,RE タスクの実行において LLM を導く。 関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。

Recently, large language models (LLMs) have been successful in relational extraction (RE) tasks, especially in the few-shot learning. An important problem in the field of RE is long-tailed data, while not much attention is currently paid to this problem using LLM approaches. Therefore, in this paper, we propose SLCoLM, a model collaboration framework, to mitigate the data long-tail problem. In our framework, We use the ``\textit{Training-Guide-Predict}'' strategy to combine the strengths of pre-trained language models (PLMs) and LLMs, where a task-specific PLM framework acts as a tutor, transfers task knowledge to the LLM, and guides the LLM in performing RE tasks. Our experiments on a RE dataset rich in relation types show that the approach in this paper facilitates RE of long-tail relation types.
翻訳日:2024-02-23 15:52:35 公開日:2024-02-22
# 光位相感度非ガウス状態に対する時間領域プログラマブルビームスプリッタ演算

Time-domain programmable beam-splitter operations for an optical phase-sensitive non-Gaussian state ( http://arxiv.org/abs/2402.14372v1 )

ライセンス: Link先を確認
Daichi Okuno, Takato Yoshida, Ryoko Arita, Takahiro Kashiwazaki, Takeshi Umeki, Shigehito Miki, Hirotaka Terai, Masahiro Yabuno, Fumihiro China and Shuntaro Takeda(参考訳) 位相感受性非ガウス状態に対する時間領域プログラマブルビームスプリッタ(BS)演算を可能にするループベース光プロセッサを提案する。 ループ自体は高品質であり、ウィグナーの負性性と位相コヒーレンスを保ちながら、7回の往復で非ガウス状態の保存を可能にする。 非ガウス状態において様々なbs演算を行い、状態波形の変換として評価する。 我々の研究は非ガウス状態と時間多重化を統合し、大規模な普遍量子情報処理の基礎を築いた。

We present a loop-based optical processor enabling time-domain programmable beam-splitter (BS) operations for a phase-sensitive non-Gaussian state. The loop itself is of high quality, allowing for storage of a non-Gaussian state for up to seven round trips while preserving its Wigner negativity and phase coherence. We perform various BS operations on a non-Gaussian state and evaluate them as transformations of the state's waveforms. Our work integrates non-Gaussian states with time multiplexing, laying the foundation for large-scale universal quantum information processing.
翻訳日:2024-02-23 15:52:07 公開日:2024-02-22
# HR-APR: カメラ再局在のための不確実性推定と階層的リファインメントを備えたAPR非依存フレームワーク

HR-APR: APR-agnostic Framework with Uncertainty Estimation and Hierarchical Refinement for Camera Relocalisation ( http://arxiv.org/abs/2402.14371v1 )

ライセンス: Link先を確認
Changkun Liu, Shuai Chen, Yukun Zhao, Huajian Huang, Victor Prisacariu, Tristan Braud(参考訳) absolute pose regressor (aprs) は単眼画像からカメラのポーズを直接推定するが、その精度は異なるクエリに対して不安定である。 不確かさを意識したAPRは、推定されたポーズに関する不確実な情報を提供し、これらの信頼できない予測の影響を軽減する。 しかし、既存の不確実性モデリング技術は特定のAPRアーキテクチャと結合されることがしばしばあり、その結果、最先端(SOTA)のAPR手法と比較して、準最適性能が得られる。 本研究では,クエリとデータベースの特徴間のコサイン類似度推定として不確実性推定を定式化する新しいAPR非依存フレームワークHR-APRを紹介する。 柔軟性と計算効率のよいAPRネットワークアーキテクチャに依存したり影響しない。 さらに、ポーズ改善の不確実性を利用して、APRの性能を向上させる。 7scenesとcambridge landmarksデータセットにおける計算オーバーヘッドの27.4\%と15.2\%を削減し,soma精度を維持しつつ,このフレームワークの有効性を実証した。

Absolute Pose Regressors (APRs) directly estimate camera poses from monocular images, but their accuracy is unstable for different queries. Uncertainty-aware APRs provide uncertainty information on the estimated pose, alleviating the impact of these unreliable predictions. However, existing uncertainty modelling techniques are often coupled with a specific APR architecture, resulting in suboptimal performance compared to state-of-the-art (SOTA) APR methods. This work introduces a novel APR-agnostic framework, HR-APR, that formulates uncertainty estimation as cosine similarity estimation between the query and database features. It does not rely on or affect APR network architecture, which is flexible and computationally efficient. In addition, we take advantage of the uncertainty for pose refinement to enhance the performance of APR. The extensive experiments demonstrate the effectiveness of our framework, reducing 27.4\% and 15.2\% of computational overhead on the 7Scenes and Cambridge Landmarks datasets while maintaining the SOTA accuracy in single-image APRs.
翻訳日:2024-02-23 15:51:58 公開日:2024-02-22
# 頻繁なサブグラフマイニングのための表現学習

Representation Learning for Frequent Subgraph Mining ( http://arxiv.org/abs/2402.14367v1 )

ライセンス: Link先を確認
Rex Ying, Tianyu Fu, Andrew Wang, Jiaxuan You, Yu Wang, Jure Leskovec(参考訳) ネットワークモチーフとも呼ばれる頻繁なサブグラフの同定は、実世界のネットワークの特性の分析と予測に不可欠である。 しかし,大きなモチーフの発見は,サブグラフカウントのnpハードサブルーチンだけでなく,可能なサブグラフパターンの数の指数関数的増加にも起因して,依然として困難な課題である。 本稿では,大規模対象グラフにおける頻繁な部分グラフの探索を近似する新しいニューラルネットワークであるsubgraph pattern miner (spminer)を提案する。 SPMinerは、グラフニューラルネットワーク、順序埋め込みスペース、ターゲットグラフに最も頻繁に現れるネットワークサブグラフパターンを特定するための効率的な検索戦略を組み合わせる。 SPMinerはまずターゲットグラフを多くの重なり合う部分グラフに分解し、各サブグラフを順序埋め込み空間にエンコードする。 SPMinerは、順番埋め込み空間における単調ウォークを使用して、頻繁なモチーフを識別する。 既存のアプローチやニューラルネットワークの代替手段と比較して、SPMinerはより正確で、高速で、スケーラブルである。 5ノードと6ノードのモチーフに対して、SPMinerは正確な列挙法よりも100倍速く、最も頻繁なモチーフをほぼ完全に識別できることを示す。 さらに、spminerは頻繁に発生する10ノードのモチーフを確実に識別することができる。 最後に、spminerは最大20個のノードモチーフを、現在の近似手法より10-100倍高い周波数で発見できることを示した。

Identifying frequent subgraphs, also called network motifs, is crucial in analyzing and predicting properties of real-world networks. However, finding large commonly-occurring motifs remains a challenging problem not only due to its NP-hard subroutine of subgraph counting, but also the exponential growth of the number of possible subgraphs patterns. Here we present Subgraph Pattern Miner (SPMiner), a novel neural approach for approximately finding frequent subgraphs in a large target graph. SPMiner combines graph neural networks, order embedding space, and an efficient search strategy to identify network subgraph patterns that appear most frequently in the target graph. SPMiner first decomposes the target graph into many overlapping subgraphs and then encodes each subgraph into an order embedding space. SPMiner then uses a monotonic walk in the order embedding space to identify frequent motifs. Compared to existing approaches and possible neural alternatives, SPMiner is more accurate, faster, and more scalable. For 5- and 6-node motifs, we show that SPMiner can almost perfectly identify the most frequent motifs while being 100x faster than exact enumeration methods. In addition, SPMiner can also reliably identify frequent 10-node motifs, which is well beyond the size limit of exact enumeration approaches. And last, we show that SPMiner can find large up to 20 node motifs with 10-100x higher frequency than those found by current approximate methods.
翻訳日:2024-02-23 15:51:36 公開日:2024-02-22
# 学習システムとしての宇宙

The Universe as a Learning System ( http://arxiv.org/abs/2402.14423v1 )

ライセンス: Link先を確認
Tomer Shushi(参考訳) その顕微鏡レベルでは、宇宙は量子力学の法則に従う。 量子力学の流体力学的な定式化に続く粒子の量子軌道に着目し、一般的な要求の下で、量子系は、量子システムの自己組織化プロセスによって学習が歪められる基本的な機械学習アルゴリズムである勾配降下モデル(gradient descent model)の破壊版に従うことを提案する。 このような学習プロセスは、散逸、すなわち量子系が開いていると仮定した場合にのみ可能となる。 学習パラメータは量子粒子の質量を超える過程の時間インクリメントであり、摩擦パラメータは量子系の非線形性を決定する。 次に提案したモデルの実証的なデモンストレーションを行う。

At its microscopic level, the universe follows the laws of quantum mechanics. Focusing on the quantum trajectories of particles as followed from the hydrodynamical formulation of quantum mechanics, we propose that under general requirements, quantum systems follow a disrupted version of the gradient descent model, a basic machine learning algorithm, where the learning is distorted due to the self-organizing process of the quantum system. Such a learning process is possible only when we assume dissipation, i.e., that the quantum system is open. The learning parameter is the time increment of the process over the mass of the quantum particle, and a friction parameter determines the nonlinearity of the quantum system. We then provide an empirical demonstration of the proposed model.
翻訳日:2024-02-23 15:46:40 公開日:2024-02-22
# 視覚言語モデルの不確実性評価

Uncertainty-Aware Evaluation for Vision-Language Models ( http://arxiv.org/abs/2402.14418v1 )

ライセンス: Link先を確認
Vasily Kostumov, Bulat Nutfullin, Oleg Pilipenko, Eugene Ilyushin(参考訳) GPT-4、LLaVA、CagVLMといったビジョン言語モデルは最近、視覚言語タスクにおける印象的なパフォーマンスのために人気が高まっている。 しかしながら、現在の評価手法は、VLMの総合的な評価に欠かせない不確実性という重要な要素を見落としている。 本稿では,VLMの評価に不確実な定量化を取り入れたベンチマークを提案する。 VQA(Multiple-choice Visual Question Answering)タスクに着目し,20以上のVLMを対象として分析を行った。 様々な視覚言語能力を評価する5つのデータセットのモデルについて検討する。 不確実性推定手法として共形予測を用いることで,モデルの不確実性が精度と一致しないことを示す。 具体的には,高い精度を持つモデルが最も不確実性が高い可能性を示し,vlm測定の重要性を確認した。 また,実験結果から,モデル不確かさと言語モデルとの相関性も明らかとなった。

Vision-Language Models like GPT-4, LLaVA, and CogVLM have surged in popularity recently due to their impressive performance in several vision-language tasks. Current evaluation methods, however, overlook an essential component: uncertainty, which is crucial for a comprehensive assessment of VLMs. Addressing this oversight, we present a benchmark incorporating uncertainty quantification into evaluating VLMs. Our analysis spans 20+ VLMs, focusing on the multiple-choice Visual Question Answering (VQA) task. We examine models on 5 datasets that evaluate various vision-language capabilities. Using conformal prediction as an uncertainty estimation approach, we demonstrate that the models' uncertainty is not aligned with their accuracy. Specifically, we show that models with the highest accuracy may also have the highest uncertainty, which confirms the importance of measuring it for VLMs. Our empirical findings also reveal a correlation between model uncertainty and its language model part.
翻訳日:2024-02-23 15:46:24 公開日:2024-02-22
# TaylorGrid: 直接Taylorベースのグリッド最適化による高速かつ高品質なフィールド学習を目指して

TaylorGrid: Towards Fast and High-Quality Implicit Field Learning via Direct Taylor-based Grid Optimization ( http://arxiv.org/abs/2402.14415v1 )

ライセンス: Link先を確認
Renyi Mao, Qingshan Xu, Peng Zheng, Ye Wang, Tieru Wu, Rui Ma(参考訳) 座標に基づくニューラル暗黙表現や暗黙の場は、3次元幾何学的表現や新しいビュー合成のために広く研究されている。 近年,コーディネートに基づく暗黙的フィールド学習の高速化と品質向上に向け,一連の取り組みが進められている。 クエリ座標の暗黙的値を予測するために重いMLPを学習する代わりに、浅いMLPと組み合わせたニューラルネットワークボクセルやグリッドが、最適化時間を短縮して高品質な暗黙的フィールド学習を実現するために提案されている。 一方,学習速度をさらに向上させるために,線形格子などの軽量な場表現が提案されている。 本稿では,高速かつ高品質な暗黙的場学習を目標とし,2次元あるいは3次元グリッド上で直接テイラー展開最適化により効率よく計算できる新しい暗黙的場表現であるTaylorGridを提案する。 一般的な表現として、TaylorGridはSDF学習やNeRFのような暗黙のフィールド学習タスクに適応することができる。 広範囲な量的・質的比較から、taylorgridは線形グリッドと神経ボクセルのバランスを実現し、高速で高品質な暗黙的フィールド学習においてその優位性を示している。

Coordinate-based neural implicit representation or implicit fields have been widely studied for 3D geometry representation or novel view synthesis. Recently, a series of efforts have been devoted to accelerating the speed and improving the quality of the coordinate-based implicit field learning. Instead of learning heavy MLPs to predict the neural implicit values for the query coordinates, neural voxels or grids combined with shallow MLPs have been proposed to achieve high-quality implicit field learning with reduced optimization time. On the other hand, lightweight field representations such as linear grid have been proposed to further improve the learning speed. In this paper, we aim for both fast and high-quality implicit field learning, and propose TaylorGrid, a novel implicit field representation which can be efficiently computed via direct Taylor expansion optimization on 2D or 3D grids. As a general representation, TaylorGrid can be adapted to different implicit fields learning tasks such as SDF learning or NeRF. From extensive quantitative and qualitative comparisons, TaylorGrid achieves a balance between the linear grid and neural voxels, showing its superiority in fast and high-quality implicit field learning.
翻訳日:2024-02-23 15:46:03 公開日:2024-02-22
# 光ツイーザを用いた原子時計干渉計測

Atomic clock interferometry using optical tweezers ( http://arxiv.org/abs/2402.14412v1 )

ライセンス: Link先を確認
Ilan Meltzer and Yoav Sagi(参考訳) クロック干渉法(Clock interferometry)は、時計を2つの異なる経路に分割し、それらの間の適切な時間差を明らかにする方法で再結合することを指す。 2つの別々の時計を比較するのとは対照的に、この種の測定は量子重力理論をテストすることができる。 原子時計は、現在最も正確な時刻保持装置である。 本稿では、クロック干渉計を実装するための光ツイーザを提案する。 提案する時計干渉計は、魔法の波長の光トラップに保持されたアルカリ土のような原子を用いる。 adiabatic, tweezer-based, split and recombining schemes, a modified ramsey sequence on the clock statesの組み合わせにより, 重力時間拡張に対する線形感度を得る。 さらに、時間拡張の測定はツイーザービームの強度の相対的なゆらぎに敏感である。 我々はtweezerクロック干渉計を分析し、現在の技術能力で実現可能であることを示す。 提案された干渉計は、重力赤方偏移が量子コヒーレンスに与える影響をテストし、量子双対パラドックスを実装した。

Clock interferometry refers to the coherent splitting of a clock into two different paths and recombining in a way that reveals the proper time difference between them. In contrast to comparing two separate clocks, this type of measurement can test quantum gravity theories. Atomic clocks are currently the most accurate time keeping devices. Here we propose using optical tweezers to implement clock interferometry. Our proposed clock interferometer employs an alkaline-earth-like atom held in an optical trap at the magic wavelength. Through a combination of adiabatic, tweezer-based, splitting and recombining schemes and a modified Ramsey sequence on the clock states, we achieve a linear sensitivity to the gravitational time dilation. Moreover, the measurement of the time dilation is insensitive to relative fluctuations in the intensity of the tweezer beams. We analyze the tweezer clock interferometer and show that it is feasible with current technological capabilities. The proposed interferometer could test the effect of gravitational redshift on quantum coherence, and implement the quantum twin paradox.
翻訳日:2024-02-23 15:45:27 公開日:2024-02-22
# J-UniMorph:Universal Feature Schemaによる日本語形態素アノテーション

J-UniMorph: Japanese Morphological Annotation through the Universal Feature Schema ( http://arxiv.org/abs/2402.14411v1 )

ライセンス: Link先を確認
Kosuke Matsuzaki, Masaya Taniguchi, Kentaro Inui, Keisuke Sakaguchi(参考訳) 日本語形態素データセットであるJ-UniMorphをUniMorph特徴スキーマに基づいて構築する。 このデータセットは、言語の凝集性に特徴的な一意で豊かな動詞形式を扱う。 J-UniMorphは、Wiktionaryから自動的に抽出される既存のUniMorphサブセットと区別する。 平均すると、Wiktionary Editionは各単語に約12の屈折形があり、主に名詞動詞(つまり [noun] +suru (do-PRS))が支配的である。 形態的には、この形式は動詞suru(do)と等価である。 対照的に、J-UniMorphはより広く、より頻繁に使われる動詞の形式を探求し、平均して各単語に対して118の屈折形を提供する。 敬語、様々な礼儀正しい水準、その他の言語ニュアンスを含み、日本語の特徴を強調している。 本稿では、J-UniMorphの詳細な統計と特徴をWiktionary Editionと比較する。 我々はJ-UniMorphとそのインタラクティブなヴィジュアライザを公開し、言語横断研究や様々なアプリケーションをサポートすることを目的としている。

We introduce a Japanese Morphology dataset, J-UniMorph, developed based on the UniMorph feature schema. This dataset addresses the unique and rich verb forms characteristic of the language's agglutinative nature. J-UniMorph distinguishes itself from the existing Japanese subset of UniMorph, which is automatically extracted from Wiktionary. On average, the Wiktionary Edition features around 12 inflected forms for each word and is primarily dominated by denominal verbs (i.e., [noun] +suru (do-PRS)). Morphologically, this form is equivalent to the verb suru (do). In contrast, J-UniMorph explores a much broader and more frequently used range of verb forms, offering 118 inflected forms for each word on average. It includes honorifics, a range of politeness levels, and other linguistic nuances, emphasizing the distinctive characteristics of the Japanese language. This paper presents detailed statistics and characteristics of J-UniMorph, comparing it with the Wiktionary Edition. We release J-UniMorph and its interactive visualizer publicly available, aiming to support cross-linguistic research and various applications.
翻訳日:2024-02-23 15:44:57 公開日:2024-02-22
# 人間機械社会システム

Human-machine social systems ( http://arxiv.org/abs/2402.14410v1 )

ライセンス: Link先を確認
Milena Tsvetkova, Taha Yasseri, Niccolo Pescetelli, Tobias Werner(参考訳) ChatGPTのようなソーシャルメディア上の偽アカウントや生成AIボットから、金融市場における高周波取引アルゴリズム、そして路上での自動運転車、ロボット、ボット、アルゴリズムに至るまで、私たちのコミュニケーションチャネル、社会的相互作用、経済取引、そして交通機関の普及と浸透が進んでいる。 複数の相互依存的かつ相互作用する人間と自律的な機械のネットワークは複雑な適応型社会システムを構成しており、集団的な成果は単に人間または機械の行動のみから導出することはできない。 本パラダイムでは,ロボット工学,人間とコンピュータの相互作用,ウェブ科学,複雑性科学,計算社会科学,金融,経済学,政治科学,社会心理学,社会学など,さまざまな分野における最近の実験的,理論的,観察的研究を概観する。 我々は、競争、協調、協力、伝染、集団意思決定の状況における一般的なダイナミクスとパターンを特定し、それらを、高頻度取引市場、以前はTwitterと呼ばれていたソーシャルメディアプラットフォーム、オープンコラボレーション百科事典ウィキペディア、ニュースアグリゲーションとディスカッションコミュニティRedditの4つの著名な人間機械コミュニティにコンテキスト化する。 我々は,誤情報を低減し,金融事故を防止し,道路安全を改善し,労働市場の混乱を克服し,より良い人間の未来を実現するために必要な,人間機械型社会システムの研究・設計・ガバナンスを提案する。

From fake accounts on social media and generative-AI bots such as ChatGPT to high-frequency trading algorithms on financial markets and self-driving vehicles on the streets, robots, bots, and algorithms are proliferating and permeating our communication channels, social interactions, economic transactions, and transportation arteries. Networks of multiple interdependent and interacting humans and autonomous machines constitute complex adaptive social systems where the collective outcomes cannot be simply deduced from either human or machine behavior alone. Under this paradigm, we review recent experimental, theoretical, and observational research from across a range of disciplines - robotics, human-computer interaction, web science, complexity science, computational social science, finance, economics, political science, social psychology, and sociology. We identify general dynamics and patterns in situations of competition, coordination, cooperation, contagion, and collective decision-making, and contextualize them in four prominent existing human-machine communities: high-frequency trading markets, the social media platform formerly known as Twitter, the open-collaboration encyclopedia Wikipedia, and the news aggregation and discussion community Reddit. We conclude with suggestions for the research, design, and governance of human-machine social systems, which are necessary to reduce misinformation, prevent financial crashes, improve road safety, overcome labor market disruptions, and enable a better human future.
翻訳日:2024-02-23 15:44:25 公開日:2024-02-22
# 知識の綱領:検索言語モデルにおける知識紛争の探索と解決

Tug-of-War Between Knowledge: Exploring and Resolving Knowledge Conflicts in Retrieval-Augmented Language Models ( http://arxiv.org/abs/2402.14409v1 )

ライセンス: Link先を確認
Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Xiaojian Jiang, Jiexin Xu, Qiuxia Li, Jun Zhao(参考訳) Retrieval-augmented Language Model (RALMs) は、証拠を外部ソースから取り出すことにより、内部記憶を洗練・拡張する大きな可能性を証明している。 しかし、ALMは、内部メモリと外部ソースを統合する際に、必然的に知識の衝突に遭遇する。 知識紛争は知識間の綱引きの中でALMを解析し、実用性を制限する。 本稿では,ALMにおける知識紛争の探索と解決に焦点を当てる。 まず,様々な次元にまたがる知識衝突を評価するための評価フレームワークを提案する。 そして,(1)内部記憶と外部情報源の対立: より強いALMはダンニング・クルーガー効果によって出現し, 正確な証拠が提示された場合でも, 持続的に内部記憶の欠陥を優先する。 さらに、ALMは、共通知識に対する可用性バイアスを示し、(2)真理、無関係、誤解を招く証拠の衝突を示す: 我々は、ALMが多数ルールの原則に従い、より頻繁に現れる証拠に信頼を置くことに傾倒していることを明らかにする。 さらに、ラルムが確認バイアスを示し、その内部記憶と一致する証拠を選択する意欲が強いことが判明した。 知識紛争の解決にあたり,モデルの信頼度を向上するためのCD2(Conflict-Disentangle Contrastive Decoding)という手法を提案する。 実験の結果,我々のCD2はALMの知識紛争を効果的に解決できることがわかった。

Retrieval-augmented language models (RALMs) have demonstrated significant potential in refining and expanding their internal memory by retrieving evidence from external sources. However, RALMs will inevitably encounter knowledge conflicts when integrating their internal memory with external sources. Knowledge conflicts can ensnare RALMs in a tug-of-war between knowledge, limiting their practical applicability. In this paper, we focus on exploring and resolving knowledge conflicts in RALMs. First, we present an evaluation framework for assessing knowledge conflicts across various dimensions. Then, we investigate the behavior and preference of RALMs from the following two perspectives: (1) Conflicts between internal memory and external sources: We find that stronger RALMs emerge with the Dunning-Kruger effect, persistently favoring their faulty internal memory even when correct evidence is provided. Besides, RALMs exhibit an availability bias towards common knowledge; (2) Conflicts between truthful, irrelevant and misleading evidence: We reveal that RALMs follow the principle of majority rule, leaning towards placing trust in evidence that appears more frequently. Moreover, we find that RALMs exhibit confirmation bias, and are more willing to choose evidence that is consistent with their internal memory. To solve the challenge of knowledge conflicts, we propose a method called Conflict-Disentangle Contrastive Decoding (CD2) to better calibrate the model's confidence. Experimental results demonstrate that our CD2 can effectively resolve knowledge conflicts in RALMs.
翻訳日:2024-02-23 15:43:40 公開日:2024-02-22
# 語彙マッチングを用いた高リソース言語から低リソース言語へのBERT機能移行

Transferring BERT Capabilities from High-Resource to Low-Resource Languages Using Vocabulary Matching ( http://arxiv.org/abs/2402.14408v1 )

ライセンス: Link先を確認
Piotr Rybak(参考訳) 事前訓練された言語モデルは自然言語理解のランドスケープ、特にBERT(Bidirectional Encoder Representations from Transformers)に革命をもたらした。 しかし、限られたデータがモデルの効果的なトレーニングを妨げる低リソース言語では、大きな課題が残っている。 本研究は,語彙マッチングを用いてBERT機能を高リソース言語から低リソース言語に転送することで,このギャップを埋める新しい手法を提案する。 我々はシレジア語とカシュビ語で実験を行い、目標言語が最小限の訓練データを持つ場合でもBERTモデルの性能向上のためのアプローチの有効性を実証する。 提案手法は,低リソース言語に対するBERTモデルを効果的に学習し,高度な言語理解モデルへのアクセスを民主化するものである。

Pre-trained language models have revolutionized the natural language understanding landscape, most notably BERT (Bidirectional Encoder Representations from Transformers). However, a significant challenge remains for low-resource languages, where limited data hinders the effective training of such models. This work presents a novel approach to bridge this gap by transferring BERT capabilities from high-resource to low-resource languages using vocabulary matching. We conduct experiments on the Silesian and Kashubian languages and demonstrate the effectiveness of our approach to improve the performance of BERT models even when the target language has minimal training data. Our results highlight the potential of the proposed technique to effectively train BERT models for low-resource languages, thus democratizing access to advanced language understanding models.
翻訳日:2024-02-23 15:43:03 公開日:2024-02-22
# 離散拡散による大規模アクションレスビデオ事前学習による効果的な政策学習

Large-Scale Actionless Video Pre-Training via Discrete Diffusion for Efficient Policy Learning ( http://arxiv.org/abs/2402.14407v1 )

ライセンス: Link先を確認
Haoran He, Chenjia Bai, Ling Pan, Weinan Zhang, Bin Zhao, Xuelong Li(参考訳) 複数のタスクを完了できる汎用的な実施エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因する課題を引き起こす。 対照的に、大量の人間のビデオが存在し、複雑なタスクや物理的世界とのインタラクションを捉えている。 限られたロボットのデモンストレーションを通じて、ロボットのポリシー学習を促進するために、知識を事前訓練し、伝達するために、アクションレスの人間ビデオを利用する確率が生まれる。 本稿では,人間のビデオにおける生成前訓練と,少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせた,統一的な離散拡散を利用した新しいフレームワークを提案する。 まず、人間とロボットの両方のビデオを統一されたビデオトークンに圧縮する。 事前学習段階では,マスク・アンド・リプレース拡散戦略を用いた離散拡散モデルを用いて,潜在空間における将来の映像トークンを予測する。 微調整の段階では、想像する未来のビデオを利用して、限られたロボットデータに基づいて訓練された低レベルのアクション学習をガイドする。 実験により,提案手法は,従来の最先端手法と比較して,高忠実度な今後の計画ビデオを生成し,微調整ポリシーを向上することを示した。 プロジェクトのwebサイトはhttps://video-diff.github.io/で閲覧できます。

Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. In this paper, we introduce a novel framework that leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning trained on a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior generalization ability. Our project website is available at https://video-diff.github.io/.
翻訳日:2024-02-23 15:42:47 公開日:2024-02-22
# 舌先について : 逆ディクショナリープローブを用いた大言語モデルにおける概念表現の分析

On the Tip of the Tongue: Analyzing Conceptual Representation in Large Language Models with Reverse-Dictionary Probe ( http://arxiv.org/abs/2402.14404v1 )

ライセンス: Link先を確認
Ningyu Xu, Qi Zhang, Menghan Zhang, Peng Qian, Xuanjing Huang(参考訳) 大規模言語モデルの推論能力の探索と拡張は、いまだに決定的な疑問である。 ここでは,概念推論のためのllmsの能力を調査するためのケーススタディとして,逆辞書タスクを再利用する。 言語記述に含意する対象概念の用語を生成するために,文脈内学習を用いてモデルを導出する。 モデルはこのタスクにおいて高い精度を確実に達成し、その表現空間はオブジェクトカテゴリやきめ細かい特徴に関する情報を符号化する。 さらに実験により、モデル間の類似の構文的一般化挙動にもかかわらず、逆辞書タスクによって探索された概念推論能力は、複数のベンチマークでモデルの一般的な推論性能を予測することが示唆された。 探索的分析は、LLMを説明付きで促進することは、タスクの表層差を超えて一般化を誘導し、より広いコモンセンス推論問題のモデルを促進することを示唆している。

Probing and enhancing large language models' reasoning capacity remains a crucial open question. Here we re-purpose the reverse dictionary task as a case study to probe LLMs' capacity for conceptual inference. We use in-context learning to guide the models to generate the term for an object concept implied in a linguistic description. Models robustly achieve high accuracy in this task, and their representation space encodes information about object categories and fine-grained features. Further experiments suggest that the conceptual inference ability as probed by the reverse-dictionary task predicts model's general reasoning performance across multiple benchmarks, despite similar syntactic generalization behaviors across models. Explorative analyses suggest that prompting LLMs with description$\Rightarrow$word examples may induce generalization beyond surface-level differences in task construals and facilitate models on broader commonsense reasoning problems.
翻訳日:2024-02-23 15:42:25 公開日:2024-02-22
# 効率的な知識伝達によるグローバルセーフシーケンス学習

Global Safe Sequential Learning via Efficient Knowledge Transfer ( http://arxiv.org/abs/2402.14402v1 )

ライセンス: Link先を確認
Cen-You Li, Olaf Duennbier, Marc Toussaint, Barbara Rakitsch, Christoph Zimmer(参考訳) アクティブラーニングやベイズ最適化のような逐次学習法は、タスクについて学ぶために最も有益なデータを選択する。 多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。 安全学習手法の許容ラインは、ガウス過程(GP)を用いて安全性確率をモデル化し、安全性の高い領域でデータ選択を行う。 しかし、正確な安全モデリングには事前の知識が必要か、あるいはデータを消費する。 さらに、安全信頼性は、局所的な探索につながる与えられた観測を中心にしている。 トランスファー可能なソース知識は安全クリティカルな実験でしばしば利用できるため,安全性の学習を促進するために,トランスファーセーフシーケンシャルラーニングを検討すべきである。 さらに、ソースデータを組み込んだ計算負荷を低減するために、ソースコンポーネントの事前計算も検討する。 本稿では,従来の安全学習法の最大探索可能安全領域を理論的に解析する。 さらに我々は、我々のアプローチが 1)データ消費の少ないタスクを学習する。 2) 情報源知識の指導のもと, グローバルに複数の異分野の安全領域を探索する。 3) 計算処理は従来の安全な学習手法に匹敵する。

Sequential learning methods such as active learning and Bayesian optimization select the most informative data to learn about a task. In many medical or engineering applications, the data selection is constrained by a priori unknown safety conditions. A promissing line of safe learning methods utilize Gaussian processes (GPs) to model the safety probability and perform data selection in areas with high safety confidence. However, accurate safety modeling requires prior knowledge or consumes data. In addition, the safety confidence centers around the given observations which leads to local exploration. As transferable source knowledge is often available in safety critical experiments, we propose to consider transfer safe sequential learning to accelerate the learning of safety. We further consider a pre-computation of source components to reduce the additional computational load that is introduced by incorporating source data. In this paper, we theoretically analyze the maximum explorable safe regions of conventional safe learning methods. Furthermore, we empirically demonstrate that our approach 1) learns a task with lower data consumption, 2) globally explores multiple disjoint safe regions under guidance of the source knowledge, and 3) operates with computation comparable to conventional safe learning methods.
翻訳日:2024-02-23 15:42:07 公開日:2024-02-22
# 非参照画像品質評価のための拡散モデルに基づく視覚補償指導と視覚差解析

Diffusion Model Based Visual Compensation Guidance and Visual Difference Analysis for No-Reference Image Quality Assessment ( http://arxiv.org/abs/2402.14401v1 )

ライセンス: Link先を確認
Zhaoyang Wang, Bo Hu, Mingyang Zhang, Jie Li, Leida Li, Maoguo Gong, Xinbo Gao(参考訳) 既存の非参照画像品質評価法(NR-IQA)では、画像のピクセルレベルでの学習特徴情報と高レベルの特徴情報の取得と、得られた高レベルの特徴情報の効率的な利用とのバランスが依然として困難である。 最先端(sota)生成モデルの新しいクラスとして、拡散モデルは複雑な関係をモデル化する能力を示し、画像の包括的理解を可能にし、高レベルおよび低レベルの視覚特徴の両方をよりよく学習する。 これらの観点から、NR-IQA領域への拡散モデルの探索を開拓した。 まず, 生成した拡張画像とノイズを含む画像を利用して, 拡散モデルの発声過程中に得られた非線形特徴を高レベルな視覚情報として組み込む新しい拡散復元ネットワークを考案する。 次に、得られた高次特徴情報を包括的に分析する2つの視覚評価枝を設計する。 その中には、トランスフォーマーアーキテクチャとノイズ埋め込み戦略を基盤とした視覚補償ガイダンスブランチや、ResNetアーキテクチャと残留したアテンションブロック上に構築された視覚差分解析ブランチが含まれる。 7つの公開NR-IQAデータセットに対して大規模な実験を行い、提案モデルがNR-IQAのSOTA法より優れていることを示した。

Existing free-energy guided No-Reference Image Quality Assessment (NR-IQA) methods still suffer from finding a balance between learning feature information at the pixel level of the image and capturing high-level feature information and the efficient utilization of the obtained high-level feature information remains a challenge. As a novel class of state-of-the-art (SOTA) generative model, the diffusion model exhibits the capability to model intricate relationships, enabling a comprehensive understanding of images and possessing a better learning of both high-level and low-level visual features. In view of these, we pioneer the exploration of the diffusion model into the domain of NR-IQA. Firstly, we devise a new diffusion restoration network that leverages the produced enhanced image and noise-containing images, incorporating nonlinear features obtained during the denoising process of the diffusion model, as high-level visual information. Secondly, two visual evaluation branches are designed to comprehensively analyze the obtained high-level feature information. These include the visual compensation guidance branch, grounded in the transformer architecture and noise embedding strategy, and the visual difference analysis branch, built on the ResNet architecture and the residual transposed attention block. Extensive experiments are conducted on seven public NR-IQA datasets, and the results demonstrate that the proposed model outperforms SOTA methods for NR-IQA.
翻訳日:2024-02-23 15:41:52 公開日:2024-02-22
# 適応グラフ畳み込みネットワークを用いた3次元幼児運動のモデル化

Modeling 3D Infant Kinetics Using Adaptive Graph Convolutional Networks ( http://arxiv.org/abs/2402.14400v1 )

ライセンス: Link先を確認
Daniel Holmberg, Manu Airaksinen, Viviana Marchi, Andrea Guzzetta, Anna Kivi, Leena Haataja, Sampsa Vanhatalo, Teemu Roos(参考訳) 幼児の神経発達学的評価のための信頼性の高い方法は、迅速な介入を必要とする可能性のある医療問題の早期発見に不可欠である。 自発運動、または「運動学」は、今後の神経発達の強力なサロゲート指標を提供する。 しかし、その評価は質的かつ主観的であり、視覚的に特定された年齢固有のジェスチャーに焦点を当てている。 そこで本研究では,乳児の神経発達発達の成熟を,個々の運動パターンのデータ駆動による評価に基づいて予測する手法を提案する。 ポーズ推定処理された幼児の3次元映像記録を用いて,解剖学的ランドマークの時空間列を抽出し,適応グラフ畳み込みネットワークを用いて実年齢を予測する。 我々は、手動で設計した機能に基づいて、従来の機械学習ベースラインよりも改善されたデータ駆動アプローチを示す。

Reliable methods for the neurodevelopmental assessment of infants are essential for early detection of medical issues that may need prompt interventions. Spontaneous motor activity, or `kinetics', is shown to provide a powerful surrogate measure of upcoming neurodevelopment. However, its assessment is by and large qualitative and subjective, focusing on visually identified, age-specific gestures. Here, we follow an alternative approach, predicting infants' neurodevelopmental maturation based on data-driven evaluation of individual motor patterns. We utilize 3D video recordings of infants processed with pose-estimation to extract spatio-temporal series of anatomical landmarks, and apply adaptive graph convolutional networks to predict the actual age. We show that our data-driven approach achieves improvement over traditional machine learning baselines based on manually engineered features.
翻訳日:2024-02-23 15:41:29 公開日:2024-02-22
# タイムラインと正確性を保証する: ライブストリーミング推奨のためのスライディングウィンドウデータストリームパラダイム

Ensure Timeliness and Accuracy: A Novel Sliding Window Data Stream Paradigm for Live Streaming Recommendation ( http://arxiv.org/abs/2402.14399v1 )

ライセンス: Link先を確認
Fengqi Liang, Baigong Zheng, Liqin Zhao, Guorui Zhou, Qian Wang, Yanan Niu(参考訳) live streaming recommender systemは、リアルタイムのライブストリーミングをユーザに推奨するように設計されている。 ライブコンテンツのダイナミックな変化のため、ライブストリーミングレコメンデーションシステムのタイムラインの改善は重要な問題である。 直感的には、データのタイムラインはモデルが学習できるタイムラインの上限を決定する。 しかし、データストリーム設計の観点から見たライブストリーミング・レコメンデータシステムのタイムライン問題には、これまでのどの作品も対処していない。 従来の固定ウィンドウデータストリームパラダイムを採用すると、ラベル付け精度とタイムラインのトレードオフジレンマが発生する。 本稿では,sliverと呼ばれる新しいデータストリーム設計パラダイムを提案する。ウィンドウサイズを削減し,スライディングウィンドウを実装することにより,ラベルのタイムラインや精度問題に対処する。 一方,レコメンデーションサービスを定期的に要求することで,レコメンデーションサービスと機能のタイムラインを改善するために,リクエストとインプレッションの間の遅延を削減する時間に敏感な再調整戦略を提案する。 提案手法の有効性を示すため,Kuaishouライブストリーミングプラットフォームから収集したタイムスタンプをラベル付けしたマルチタスクライブストリーミングデータセット上でオフライン実験を行った。 実験の結果、sliverは4つの典型的なマルチタスクレコメンデーションモデルにおいて、すべてのターゲットで異なるウィンドウサイズを持つ2つの固定ウィンドウデータストリームを上回ることがわかった。 さらに,kuaishouライブストリーミングプラットフォームにsliverをデプロイした。 オンラインA/Bテストの結果,クリックスルー率 (CTR) と新規フォロー数 (NFN) が有意に向上し,さらにSliverの有効性が検証された。

Live streaming recommender system is specifically designed to recommend real-time live streaming of interest to users. Due to the dynamic changes of live content, improving the timeliness of the live streaming recommender system is a critical problem. Intuitively, the timeliness of the data determines the upper bound of the timeliness that models can learn. However, none of the previous works addresses the timeliness problem of the live streaming recommender system from the perspective of data stream design. Employing the conventional fixed window data stream paradigm introduces a trade-off dilemma between labeling accuracy and timeliness. In this paper, we propose a new data stream design paradigm, dubbed Sliver, that addresses the timeliness and accuracy problem of labels by reducing the window size and implementing a sliding window correspondingly. Meanwhile, we propose a time-sensitive re-reco strategy reducing the latency between request and impression to improve the timeliness of the recommendation service and features by periodically requesting the recommendation service. To demonstrate the effectiveness of our approach, we conduct offline experiments on a multi-task live streaming dataset with labeling timestamps collected from the Kuaishou live streaming platform. Experimental results demonstrate that Sliver outperforms two fixed-window data streams with varying window sizes across all targets in four typical multi-task recommendation models. Furthermore, we deployed Sliver on the Kuaishou live streaming platform. Results of the online A/B test show a significant improvement in click-through rate (CTR), and new follow number (NFN), further validating the effectiveness of Sliver.
翻訳日:2024-02-23 15:41:15 公開日:2024-02-22
# Gradual Residuals Alignment: GANインバージョンと画像属性編集のためのデュアルストリームフレームワーク

Gradual Residuals Alignment: A Dual-Stream Framework for GAN Inversion and Image Attribute Editing ( http://arxiv.org/abs/2402.14398v1 )

ライセンス: Link先を確認
Hao Li, Mengqi Huang, Lei Zhang, Bo Hu, Yi Liu, Zhendong Mao(参考訳) GANベースの画像属性編集は、まずGAN Inversionを利用して、実際の画像をGANの潜在空間に投影し、対応する潜在コードを操作する。 近年のインバージョン方式では,低ビット符号では画像の忠実な再構成ができないため,画像の保存性が向上し,細部が失われている。 しかし、編集中に失われた詳細を正確に補うことができず、編集性が悪い。 主な理由は、失われたすべての詳細を一度に無差別に注入することで、本質的にソース画像に収まる詳細の位置と量を誘導し、結果として編集された画像に一貫性のない内容やアーティファクトが生じるからである。 この研究は、より詳細な保存と高い編集性のために、詳細を多段階の粗大な方法で再現と編集の両方に徐々に注入すべきであると主張している。 そこで,各ステージの詳細を正確に補うために,新しいデュアルストリームフレームワークを提案する。 レコンストラクションストリームは、紛失した詳細を残像に埋め込んで、GANジェネレータに適応的に追加するために使用される。 編集ストリームでは、残余機能はSelective Attentionメカニズムによって正確に整列され、多段階的な編集プロセスに注入されます。 広範な実験により,既存の手法と比較して,復元精度と編集品質の両方において,フレームワークの優位性が示された。

GAN-based image attribute editing firstly leverages GAN Inversion to project real images into the latent space of GAN and then manipulates corresponding latent codes. Recent inversion methods mainly utilize additional high-bit features to improve image details preservation, as low-bit codes cannot faithfully reconstruct source images, leading to the loss of details. However, during editing, existing works fail to accurately complement the lost details and suffer from poor editability. The main reason is they inject all the lost details indiscriminately at one time, which inherently induces the position and quantity of details to overfit source images, resulting in inconsistent content and artifacts in edited images. This work argues that details should be gradually injected into both the reconstruction and editing process in a multi-stage coarse-to-fine manner for better detail preservation and high editability. Therefore, a novel dual-stream framework is proposed to accurately complement details at each stage. The Reconstruction Stream is employed to embed coarse-to-fine lost details into residual features and then adaptively add them to the GAN generator. In the Editing Stream, residual features are accurately aligned by our Selective Attention mechanism and then injected into the editing process in a multi-stage manner. Extensive experiments have shown the superiority of our framework in both reconstruction accuracy and editing quality compared with existing methods.
翻訳日:2024-02-23 15:40:47 公開日:2024-02-22
# ポシドニア・オセアニカの地中海海水への大規模影響を機械学習が明らかに

Machine Learning Reveals Large-scale Impact of Posidonia Oceanica on Mediterranean Sea Water ( http://arxiv.org/abs/2402.14459v1 )

ライセンス: Link先を確認
Celio Trois, Luciana Didonet Del Fabro, Vladimir A. Baulin(参考訳) ポシドニア海洋は地中海の保護区であり、生物多様性を育み、炭素を貯蔵し、酸素を放出し、多くの海洋生物に生息地を提供する。 拡張研究を活用することで,さまざまなデータソースからコンパイルされた174の包括的なデータセットを収集した。 機械学習解析により, p. oceanicaの正確な位置と水生地球化学的性質との間に, 強固な相関関係があることを発見した。 このモデルの特徴は, P. Oceanica の生息地において, 純バイオマス生産や二酸化炭素の下方表面の質量フラックスなどの炭素関連変数の値が変化していることを示し, 間接的なP. Oceanica meadows の立地に利用することができる。 この研究は、植物が環境に世界的な影響を及ぼす能力の証拠を提供し、この植物が海洋生態系において重要な役割を担い、その保全と管理の必要性を強調している。

Posidonia oceanica is a protected endemic seagrass of Mediterranean sea that fosters biodiversity, stores carbon, releases oxygen, and provides habitat to numerous sea organisms. Leveraging augmented research, we collected a comprehensive dataset of 174 features compiled from diverse data sources. Through machine learning analysis, we discovered the existence of a robust correlation between the exact location of P. oceanica and water biogeochemical properties. The model's feature importance, showed that carbon-related variables as net biomass production and downward surface mass flux of carbon dioxide have their values altered in the areas with P. oceanica, which in turn can be used for indirect location of P. oceanica meadows. The study provides the evidence of the plant's ability to exert a global impact on the environment and underscores the crucial role of this plant in sea ecosystems, emphasizing the need for its conservation and management.
翻訳日:2024-02-23 15:35:53 公開日:2024-02-22
# NLAS-multi: 自動生成自然言語処理方式の多言語コーパス

NLAS-multi: A Multilingual Corpus of Automatically Generated Natural Language Argumentation Schemes ( http://arxiv.org/abs/2402.14458v1 )

ライセンス: Link先を確認
Ramon Ruiz-Dolz, Joaquin Taverner, John Lawrence and Chris Reed(参考訳) 議論のマイニング、引数生成、自然言語引数分析の領域で特定される主な制限は、議論的にリッチなデータを注釈する複雑さ、コーパスのサイズが限られていること、およびこれらのデータが注釈付けされる異なる言語や領域を表す制約と関係している。 これらの制限に対処するため、本稿では以下の貢献を述べる。 (i)異なる話題・言語における自然言語引数の自動生成のための効果的な手法 (ii)自然言語の議論スキームの最大公用コーパス、及び (iii)議論スキームの自動識別のための厳密なベースラインと微調整されたモデルの集合。

Some of the major limitations identified in the areas of argument mining, argument generation, and natural language argument analysis are related to the complexity of annotating argumentatively rich data, the limited size of these corpora, and the constraints that represent the different languages and domains in which these data is annotated. To address these limitations, in this paper we present the following contributions: (i) an effective methodology for the automatic generation of natural language arguments in different topics and languages, (ii) the largest publicly available corpus of natural language argumentation schemes, and (iii) a set of solid baselines and fine-tuned models for the automatic identification of argumentation schemes.
翻訳日:2024-02-23 15:35:34 公開日:2024-02-22
# 契約条件における関連条項の注釈と分類

Annotation and Classification of Relevant Clauses in Terms-and-Conditions Contracts ( http://arxiv.org/abs/2402.14457v1 )

ライセンス: Link先を確認
Pietro Giovanni Bizzaro, Elena Della Valentina, Maurizio Napolitano, Nadia Mana and Massimo Zancanaro(参考訳) 本稿では, 法律の専門家が, 法律文書の問題点を迅速に特定し, 評価するための究極の目的として, 用語・条件契約の異なる節を分類する新しいアノテーションスキームを提案する。 この目的のために,少額の用語・条件契約のコーパスを構築し,14のカテゴリのアノテーションスキームを確定し,最終的に0.92のアノテーション間合意に達した。 そして,11名を対象に,多言語T5と2種類の BERT ベースのイタリア語用LPM の微調整版を用いた連発分類タスクを試作した。 実験の結果,検証作業において,.79から.95までの精度でカテゴリの自動分類が可能であった。

In this paper, we propose a new annotation scheme to classify different types of clauses in Terms-and-Conditions contracts with the ultimate goal of supporting legal experts to quickly identify and assess problematic issues in this type of legal documents. To this end, we built a small corpus of Terms-and-Conditions contracts and finalized an annotation scheme of 14 categories, eventually reaching an inter-annotator agreement of 0.92. Then, for 11 of them, we experimented with binary classification tasks using few-shot prompting with a multilingual T5 and two fine-tuned versions of two BERT-based LLMs for Italian. Our experiments showed the feasibility of automatic classification of our categories by reaching accuracies ranging from .79 to .95 on validation tasks.
翻訳日:2024-02-23 15:35:23 公開日:2024-02-22
# vlpose: 言語視点調整によるポーズ推定におけるドメインギャップの橋渡し

VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision Tuning ( http://arxiv.org/abs/2402.14456v1 )

ライセンス: Link先を確認
Jingyao Li, Pengguang Chen, Xuan Ju, Hong Xu, Jiaya Jia(参考訳) 深層学習技術の進歩により,Human Pose Estimation (HPE)は自然シナリオにおいて大きな進歩を遂げた。 しかし、これらのモデルは、領域ギャップによる絵画や彫刻などの人工シナリオでは不十分であり、仮想現実や拡張現実の開発を制約している。 モデルサイズの成長に伴い、モデル全体を自然データと人工データの両方で再トレーニングすることは計算コストが高く非効率である。 本研究の目的は,自然シナリオと人工シナリオのドメインギャップを効率的なチューニング戦略で埋めることである。 言語モデルの可能性を活用し、vlposeと呼ばれる新しいフレームワークを用いて、様々なシナリオにわたる従来のポーズ推定モデルの適応性を高める。 VLPoseは言語と視覚の相乗効果を利用して、伝統的なドメインを超えてポーズ推定モデルの一般化と堅牢性を拡張する。 提案手法は,最先端のチューニング戦略と比較して,humanartとmscocoでそれぞれ2.26%,3.74%の改善を示した。

Thanks to advances in deep learning techniques, Human Pose Estimation (HPE) has achieved significant progress in natural scenarios. However, these models perform poorly in artificial scenarios such as painting and sculpture due to the domain gap, constraining the development of virtual reality and augmented reality. With the growth of model size, retraining the whole model on both natural and artificial data is computationally expensive and inefficient. Our research aims to bridge the domain gap between natural and artificial scenarios with efficient tuning strategies. Leveraging the potential of language models, we enhance the adaptability of traditional pose estimation models across diverse scenarios with a novel framework called VLPose. VLPose leverages the synergy between language and vision to extend the generalization and robustness of pose estimation models beyond the traditional domains. Our approach has demonstrated improvements of 2.26% and 3.74% on HumanArt and MSCOCO, respectively, compared to state-of-the-art tuning strategies.
翻訳日:2024-02-23 15:35:09 公開日:2024-02-22
# CCPA(Contrastive Clothing and Pose Augmentation)による長期人物再同定

CCPA: Long-term Person Re-Identification via Contrastive Clothing and Pose Augmentation ( http://arxiv.org/abs/2402.14454v1 )

ライセンス: Link先を確認
Vuong D. Nguyen and Shishir K. Shah(参考訳) 長期人物再識別(LRe-ID)は、長期にわたるカメラ間で個人をマッチングし、衣服、ポーズ、視点のバリエーションを提示することを目的としている。 本稿では,lre-idのコントラスト服とポーズ強化フレームワークであるccpaを提案する。 外観以外にも、ccpaは関係グラフアテンションネットワークを用いて布不変な身体形状情報をキャプチャする。 堅牢なLRe-IDモデルをトレーニングするには、さまざまな服のバリエーションと高価な布のラベルが必要だ。 これに対処するため、私たちは衣服と身元を移動して、より多くの衣服のバリエーションや、似たような服を着ている異なる人の画像を生成する。 拡張された画像のバッチは,提案する細粒度のコントラスト損失に対する入力として機能する。re-idモデルを監督することで,長期的シナリオ下での差別的人物埋め込みを学習するだけでなく,分散データ生成を確実にする。 LRe-IDデータセットの結果は,CCPAフレームワークの有効性を示す。

Long-term Person Re-Identification (LRe-ID) aims at matching an individual across cameras after a long period of time, presenting variations in clothing, pose, and viewpoint. In this work, we propose CCPA: Contrastive Clothing and Pose Augmentation framework for LRe-ID. Beyond appearance, CCPA captures body shape information which is cloth-invariant using a Relation Graph Attention Network. Training a robust LRe-ID model requires a wide range of clothing variations and expensive cloth labeling, which is lacked in current LRe-ID datasets. To address this, we perform clothing and pose transfer across identities to generate images of more clothing variations and of different persons wearing similar clothing. The augmented batch of images serve as inputs to our proposed Fine-grained Contrastive Losses, which not only supervise the Re-ID model to learn discriminative person embeddings under long-term scenarios but also ensure in-distribution data generation. Results on LRe-ID datasets demonstrate the effectiveness of our CCPA framework.
翻訳日:2024-02-23 15:34:51 公開日:2024-02-22
# LLMはユーザにとって不適切なテキストを決定するのか?

Do LLMs Implicitly Determine the Suitable Text Difficulty for Users? ( http://arxiv.org/abs/2402.14453v1 )

ライセンス: Link先を確認
Seiji Gobara, Hidetaka Kamigaito and Taro Watanabe(参考訳) 個々の学習レベルに適合する教育は、生徒の理解を改善するために必要である。 大規模言語モデル(llm)を用いてこの目的を達成する第一歩は、学生に対する反応のテキストの難易度を調整することである。 本研究は、ユーザ入力とその生成テキスト間のテキスト難易度を、llmが暗黙的に調整する方法について分析する。 実験を行うために、stack-overflowから新しいデータセットを作成し、質問応答ベースの会話のパフォーマンスを調べました。 マルチターン会話を含むStack-OverflowデータセットとTSCCデータセットの実験結果は、LLMがユーザ入力と生成されたレスポンスの間のテキストの難しさを暗黙的に処理可能であることを示している。 また,テキストの難易度や指導指導の重要性を人間が超えるものも見いだした。

Education that suits the individual learning level is necessary to improve students' understanding. The first step in achieving this purpose by using large language models (LLMs) is to adjust the textual difficulty of the response to students. This work analyzes how LLMs can implicitly adjust text difficulty between user input and its generated text. To conduct the experiments, we created a new dataset from Stack-Overflow to explore the performance of question-answering-based conversation. Experimental results on the Stack-Overflow dataset and the TSCC dataset, including multi-turn conversation show that LLMs can implicitly handle text difficulty between user input and its generated response. We also observed that some LLMs can surpass humans in handling text difficulty and the importance of instruction-tuning.
翻訳日:2024-02-23 15:34:31 公開日:2024-02-22
# 反応拡散問題のモデルベース強化学習制御

Model-Based Reinforcement Learning Control of Reaction-Diffusion Problems ( http://arxiv.org/abs/2402.14446v1 )

ライセンス: Link先を確認
Christina Schenk, Aditya Vasudevan, Maciej Haranczyk, Ignacio Romero(参考訳) 数学的および計算的なツールは意思決定プロセスにおいて信頼できることが証明されている。 特に近年では,高度なサポートツールとして機械学習ベースの手法が人気が高まっている。 制御問題を扱う場合、強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。 複雑な問題に対する解決策を見つけるためのこれらの手法の成功は、現在の困難を克服するための新しい領域の探索を動機付けている。 本稿では,熱・疾患輸送における初期境界値問題に対する自動制御戦略の利用について検討する。 具体的には,既存の強化学習アルゴリズムを確率的ポリシー勾配法を用いて適応させ,トランスポートフィールドの流れを駆動する2つの新しい報酬関数を導入する。 新しいモデルベースのフレームワークは、反応拡散モデルと修正されたエージェントの相互作用を利用する。 結果は、モデル単純化を仮定しながらも、これらのアプリケーションで特定の制御をうまく実装できることを示した。

Mathematical and computational tools have proven to be reliable in decision-making processes. In recent times, in particular, machine learning-based methods are becoming increasingly popular as advanced support tools. When dealing with control problems, reinforcement learning has been applied to decision-making in several applications, most notably in games. The success of these methods in finding solutions to complex problems motivates the exploration of new areas where they can be employed to overcome current difficulties. In this paper, we explore the use of automatic control strategies to initial boundary value problems in thermal and disease transport. Specifically, in this work, we adapt an existing reinforcement learning algorithm using a stochastic policy gradient method and we introduce two novel reward functions to drive the flow of the transported field. The new model-based framework exploits the interactions between a reaction-diffusion model and the modified agent. The results show that certain controls can be implemented successfully in these applications, although model simplifications had to be assumed.
翻訳日:2024-02-23 15:34:15 公開日:2024-02-22
# 量子力学におけるエネルギー保存の複雑な経路:コヒーレント・ポピュレーション・リターンとレーザー・マッター相互作用

The intricate path of energy conservation in Quantum Mechanics: exploring Coherent Population Return and laser-matter interaction ( http://arxiv.org/abs/2402.14443v1 )

ライセンス: Link先を確認
\'Alvaro Peralta Conde(参考訳) この原稿は、レーザーとマターの相互作用について広く受け入れられている半古典的な記述、具体的にはコヒーレント・ポピュレーション・リターン(CPR)のような有名な断熱的手法から生まれた、一見単純な探求が、エネルギー保存のような物理学の基本原理の理解にどのように挑戦するかを探求している。 この明らかなパラドックスを解決するための調査を通じて、我々は基本的な概念を掘り下げ、量子力学の形式論に固有の側面の理解を深めた。 結論づけられた答えを得る意義は、答えそのものを超えて、それに到達するために行われる照明の旅を包含するものであることを強調する。 その結果,本研究は,採用プロセスの解明による現象のより深い理解を促進することを目的として,教育的価値を保っている。 このアプローチは、学生が対象物の把握を助けるだけでなく、レーザーマッター相互作用や量子力学の理解を継続的に否定する直観的な現象に対する理解を深める。

This manuscript explores how a seemingly straightforward inquiry, emerging from the widely accepted semiclassical description of laser-matter interaction, concretely from a well-known adiabatic technique as Coherent Population Return (CPR), can pose a challenge to our comprehension of a fundamental principle in Physics like energy conservation. Throughout our investigation to resolve this apparent paradox, we have delved into fundamental concepts, thereby deepening our understanding of the aspects inherent to the formalism of Quantum Mechanics. We emphasize that the significance of attaining a conclusive answer extends beyond the answer itself, encompassing the illuminating journey undertaken to reach it. Consequently, our work holds educational value as it aims to foster a deeper understanding of the phenomenon by elucidating the process employed. This approach not only aids students in grasping the subject matter but also enhances our own understanding of laser-matter interaction and the counterintuitive phenomena that continuously defied our understanding of Quantum Mechanics.
翻訳日:2024-02-23 15:34:02 公開日:2024-02-22
# Langevin Monte Carlo の並列化中点ランダム化

Parallelized Midpoint Randomization for Langevin Monte Carlo ( http://arxiv.org/abs/2402.14434v1 )

ライセンス: Link先を確認
Lu Yu, Arnak Dalalyana(参考訳) 本稿では,対数密度の勾配を並列に評価できるフレームワークにおけるサンプリング問題を検討する。 本研究は,スムーズな対数凹凸密度を特徴とするターゲット分布に着目した。 本研究では,並列化乱数点法を再検討し,その純粋逐次解析法として最近開発された証明手法を用いた。 これらの手法を用いることで、サンプリングとターゲット密度の間のワッサーシュタイン距離の上限を導出する。 これらの境界は並列処理ユニットを利用することで実行時の改善を定量化する。

We explore the sampling problem within the framework where parallel evaluations of the gradient of the log-density are feasible. Our investigation focuses on target distributions characterized by smooth and strongly log-concave densities. We revisit the parallelized randomized midpoint method and employ proof techniques recently developed for analyzing its purely sequential version. Leveraging these techniques, we derive upper bounds on the Wasserstein distance between the sampling and target densities. These bounds quantify the runtime improvement achieved by utilizing parallel processing units, which can be considerable.
翻訳日:2024-02-23 15:33:39 公開日:2024-02-22
# 潜在空間を通した言語モデルのガイド

A Language Model's Guide Through Latent Space ( http://arxiv.org/abs/2402.14433v1 )

ライセンス: Link先を確認
Dimitri von R\"utte, Sotiris Anagnostidis, Gregor Bachmann, Thomas Hofmann(参考訳) 概念ガイダンスは、概念ベクトルの隠された表現を探索し、推論時にアクティベーションを摂動させることによって、言語モデルの振る舞いを制御する、安価でシンプルな方法として登場した。 本稿では,この枠組みを,適切な性,ユーモア,クリエイティビティ,品質といった,より豊かな概念に拡張し,現在の検出と指導戦略がこれらの困難な設定でどの程度機能するかを探求する。 評価を容易にするために,概念解明の成功と誘導モデルの流動性の潜在的な低下を考慮し,概念指導のための新しい指標を開発した。 広範な実験により,真理性といった概念によっては,現在の手法による指導がより容易に行えるが,適切性やユーモアといった新しい概念はいまだに解明しづらいか,作業に広範なチューニングを必要とするか,あるいは混乱を経験することさえあることが明らかとなった。 さらに, 最適検出精度を持つプローブは, 先行観測の真理性に反し, 最適ガイドを必ずしも実現しないことがわかった。 我々の研究は、検出可能性、誘導可能性、概念の性質の相互作用に関するより深い調査を保証し、ガイダンス研究のための豊富な実験ベッドが、より強力なフォローアップアプローチを刺激することを期待しています。

Concept guidance has emerged as a cheap and simple way to control the behavior of language models by probing their hidden representations for concept vectors and using them to perturb activations at inference time. While the focus of previous work has largely been on truthfulness, in this paper we extend this framework to a richer set of concepts such as appropriateness, humor, creativity and quality, and explore to what degree current detection and guidance strategies work in these challenging settings. To facilitate evaluation, we develop a novel metric for concept guidance that takes into account both the success of concept elicitation as well as the potential degradation in fluency of the guided model. Our extensive experiments reveal that while some concepts such as truthfulness more easily allow for guidance with current techniques, novel concepts such as appropriateness or humor either remain difficult to elicit, need extensive tuning to work, or even experience confusion. Moreover, we find that probes with optimal detection accuracies do not necessarily make for the optimal guides, contradicting previous observations for truthfulness. Our work warrants a deeper investigation into the interplay between detectability, guidability, and the nature of the concept, and we hope that our rich experimental test-bed for guidance research inspires stronger follow-up approaches.
翻訳日:2024-02-23 15:33:29 公開日:2024-02-22
# トンネル時間,バリア時間遅延と弱い測定 -Attoclockで実際に測定できるのは何か?

Tunneling time, the barrier time-delay and weak measurement What was or can actually be measured with the Attoclock? ( http://arxiv.org/abs/2402.14431v1 )

ライセンス: Link先を確認
Ossama Kullie(参考訳) アト秒実験におけるトンネルの時間遅延の測定は、その論争にもかかわらず、トンネルの時間とトンネルイオン化過程を理解する実りある機会を提供する。 先行研究では,断熱的および非断熱的フィールドキャリブレーションにおけるattoclock実験で測定した時間遅延をよく記述するモデルを示した。 本研究は, トンネルの時間遅れと非断熱トンネルのイオン化の時間遅れの差から, バリアの時間遅れを合理的に定義し, 測定結果とよく一致して, トンネルの時間遅れが普遍的挙動を示すことを示すものである。 さらに, 弱い測定限界において, バリアの時間遅延は, バリア内のラーモア時間と相互作用時間に対応していることを示す。

The measurement of the tunneling time-delay in attosecond experiments, termed attoclock, despite its controversies, offers a fruitful opportunity to understand the tunneling time and the tunnel-ionization process. In previous work, we showed a model that well describes the time-delay measured by the attoclock experiment in the adiabatic and nonadiabatic field calibrations. In the present work we show that the tunneling time reveals a universal behavior, with disentangled contribution, where the barrier time-delay can be convincingly defined and determined from the difference between the time-delay of adiabatic and nonadiabatic tunnel-ionization, with good agreement with the experimental result. Furthermore, we show that in the weak measurement limit, the barrier time-delay corresponds to the Larmor-clock time and the interaction time within the barrier.
翻訳日:2024-02-23 15:33:03 公開日:2024-02-22
# 極端にラベル欠損を有するフェデレートモデルのロバストトレーニング

Robust Training of Federated Models with Extremely Label Deficiency ( http://arxiv.org/abs/2402.14430v1 )

ライセンス: Link先を確認
Yonggang Zhang, Zhiqin Yang, Xinmei Tian, Nannan Wang, Tongliang Liu, Bo Han(参考訳) フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。 高度なFSSLメソッドは主に、各クライアントで単一のモデルをトレーニングすることに焦点を当てている。 しかし、このアプローチはラベル付きデータとラベルなしデータの目的関数の相違を招き、勾配の衝突をもたらす可能性がある。 そこで我々は,ラベル付きデータとラベルなしデータの異なる観点からの洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。 特にツインサイトは、教師なし客観関数を用いて教師なしモデルを訓練しながら、教師なし客観関数で教師なしモデルを同時に訓練する。 これら2つのモデル間の相乗効果を高めるため、ツインサイトは近傍保存制約を導入し、両方のモデルによって抽出されたデータ特徴間の近傍関係の保存を促進する。 4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回り、提案したTwin-sightの有効性を実証する証拠となる。

Federated semi-supervised learning (FSSL) has emerged as a powerful paradigm for collaboratively training machine learning models using distributed data with label deficiency. Advanced FSSL methods predominantly focus on training a single model on each client. However, this approach could lead to a discrepancy between the objective functions of labeled and unlabeled data, resulting in gradient conflicts. To alleviate gradient conflict, we propose a novel twin-model paradigm, called Twin-sight, designed to enhance mutual guidance by providing insights from different perspectives of labeled and unlabeled data. In particular, Twin-sight concurrently trains a supervised model with a supervised objective function while training an unsupervised model using an unsupervised objective function. To enhance the synergy between these two models, Twin-sight introduces a neighbourhood-preserving constraint, which encourages the preservation of the neighbourhood relationship among data features extracted by both models. Our comprehensive experiments on four benchmark datasets provide substantial evidence that Twin-sight can significantly outperform state-of-the-art methods across various experimental settings, demonstrating the efficacy of the proposed Twin-sight.
翻訳日:2024-02-23 15:32:45 公開日:2024-02-22
# KoCoSa:韓国のコンテキスト対応サーカム検出データセット

KoCoSa: Korean Context-aware Sarcasm Detection Dataset ( http://arxiv.org/abs/2402.14428v1 )

ライセンス: Link先を確認
Yumin Kim, Heejae Suh, Mingi Kim, Dongyeon Won and Hwanhee Lee(参考訳) サルカズム(英: Sarcasm)は、言葉による皮肉の一種で、ある人、状況、あるいは考えを笑うために、誰かがその意味とは逆の言葉を言う。 皮肉の検出は文脈(すなわち対話履歴)を反映しなければならないため、対話における皮肉を検出することはしばしば困難である。 本稿では,韓国語対話サルカズム検出タスクであるKoCoSa(韓国語コンテキスト対応サルカズム検出データセット)について,12.8Kの日次対話と,このタスクのラベルからなる新しいデータセットを提案する。 データセットを構築するために,効率的なsarcasm検出データセット生成パイプラインを提案する。 1)大言語モデルを用いたソース対話から新たなサーカシック対話を生成する。 2 異常及び有害な対話の自動及び手動フィルタリング、及び 3) サーカズム検出タスクのためのヒューマンアノテーション。 また、我々のデータセットで訓練された韓国のサルカズム検出タスクに対して、単純だが効果的なベースラインを提供する。 韓国のサルカズム検出タスクにおいて,GPT-3.5のような大規模言語モデルのように,我々のベースラインシステムは強いベースラインよりも優れていることを示す。 サルカズム検出タスクは十分な文脈の存在に深く依存していることを示す。 データセットはhttps://anonymous.4open.science/r/KoCoSa-2372で公開します。

Sarcasm is a way of verbal irony where someone says the opposite of what they mean, often to ridicule a person, situation, or idea. It is often difficult to detect sarcasm in the dialogue since detecting sarcasm should reflect the context (i.e., dialogue history). In this paper, we introduce a new dataset for the Korean dialogue sarcasm detection task, KoCoSa (Korean Context-aware Sarcasm Detection Dataset), which consists of 12.8K daily Korean dialogues and the labels for this task on the last response. To build the dataset, we propose an efficient sarcasm detection dataset generation pipeline: 1) generating new sarcastic dialogues from source dialogues with large language models, 2) automatic and manual filtering of abnormal and toxic dialogues, and 3) human annotation for the sarcasm detection task. We also provide a simple but effective baseline for the Korean sarcasm detection task trained on our dataset. Experimental results on the dataset show that our baseline system outperforms strong baselines like large language models, such as GPT-3.5, in the Korean sarcasm detection task. We show that the sarcasm detection task relies deeply on the existence of sufficient context. We will release the dataset at https://anonymous.4open.science/r/KoCoSa-2372.
翻訳日:2024-02-23 15:32:24 公開日:2024-02-22
# テキスト me the data: Generating Ground Pressure Sequence from Textual Descriptions for HAR

Text me the data: Generating Ground Pressure Sequence from Textual Descriptions for HAR ( http://arxiv.org/abs/2402.14427v1 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Lars Krupp, Vitor Fortes Rey, Paul Lukowicz(参考訳) 人間活動認識(HAR)では、効率的なモデルのトレーニングには、実質的な基礎的真理が不可欠である。 しかし、物理センサー自体による地圧データの取得は、コストを抑え、時間を要する可能性がある。 この重要なニーズに対処するために、深層学習技術を用いて人間の活動のテキスト記述から広範囲の地圧シーケンスを生成するためのフレームワークであるText-to-Pressure(T2P)を導入する。 センサデータのベクトル量子化と単純なテキスト条件付き自己回帰戦略の組み合わせにより,テキストと圧力マップの離散的潜在相関を活かして,テキスト記述から高品質な圧力シーケンスを得ることができることを示す。 テキストと生成された動きの整合性については,R乗法値0.722,Masked R乗法値0.892,FIDスコア1.83で比較した。 さらに、合成データを用いてHARモデルを訓練し、実データのみに基づいてトレーニングされたモデルと同等の実際の圧力センサによって収集された圧力ダイナミクスに基づいて評価した。 実データと合成データを組み合わせることで、マクロF1のスコアは5.9%向上する。

In human activity recognition (HAR), the availability of substantial ground truth is necessary for training efficient models. However, acquiring ground pressure data through physical sensors itself can be cost-prohibitive, time-consuming. To address this critical need, we introduce Text-to-Pressure (T2P), a framework designed to generate extensive ground pressure sequences from textual descriptions of human activities using deep learning techniques. We show that the combination of vector quantization of sensor data along with simple text conditioned auto regressive strategy allows us to obtain high-quality generated pressure sequences from textual descriptions with the help of discrete latent correlation between text and pressure maps. We achieved comparable performance on the consistency between text and generated motion with an R squared value of 0.722, Masked R squared value of 0.892, and FID score of 1.83. Additionally, we trained a HAR model with the the synthesized data and evaluated it on pressure dynamics collected by a real pressure sensor which is on par with a model trained on only real data. Combining both real and synthesized training data increases the overall macro F1 score by 5.9 percent.
翻訳日:2024-02-23 15:32:04 公開日:2024-02-22
# AIによる心理的仮説生成の自動化 - 大規模言語モデルと因果グラフ

Automating Psychological Hypothesis Generation with AI: Large Language Models Meet Causal Graph ( http://arxiv.org/abs/2402.14424v1 )

ライセンス: Link先を確認
Song Tong, Kai Mao, Zhen Huang, Yukun Zhao, Kaiping Peng(参考訳) 因果知識グラフと大言語モデル(LLM)の相乗効果を利用して,心理学における計算仮説生成のための画期的なアプローチを提案する。 LLMを用いて43,312の心理学記事を分析し,因果関係を抽出した。 この分析は心理学の特別な因果グラフを生み出した。 リンク予測アルゴリズムを適用し,「幸福」に焦点をあてた130の心理学的仮説を生成し,博士論文やllmのみによる研究アイデアと比較した。 興味深いことに, LLM と因果グラフの組み合わせは, LLM のみの仮説 (t(59) = 3.34, p=0.007, t(59) = 4.32, p<0.001, ) を明らかに上回り, 新奇性の観点から専門家レベルの洞察を反映している。 このアライメントは、深い意味分析を用いてさらに裏付けられた。 その結果, LLMと因果知識グラフなどの機械学習技術を組み合わせることで, 心理学における自動発見に革命をもたらし, 幅広い文献から新たな知見を抽出できることが示唆された。 この研究は心理学と人工知能のクロスロードに立っており、心理学研究においてデータ駆動仮説生成のための新しい豊かなパラダイムを推進している。

Leveraging the synergy between causal knowledge graphs and a large language model (LLM), our study introduces a groundbreaking approach for computational hypothesis generation in psychology. We analyzed 43,312 psychology articles using a LLM to extract causal relation pairs. This analysis produced a specialized causal graph for psychology. Applying link prediction algorithms, we generated 130 potential psychological hypotheses focusing on `well-being', then compared them against research ideas conceived by doctoral scholars and those produced solely by the LLM. Interestingly, our combined approach of a LLM and causal graphs mirrored the expert-level insights in terms of novelty, clearly surpassing the LLM-only hypotheses (t(59) = 3.34, p=0.007 and t(59) = 4.32, p<0.001, respectively). This alignment was further corroborated using deep semantic analysis. Our results show that combining LLM with machine learning techniques such as causal knowledge graphs can revolutionize automated discovery in psychology, extracting novel insights from the extensive literature. This work stands at the crossroads of psychology and artificial intelligence, championing a new enriched paradigm for data-driven hypothesis generation in psychological research.
翻訳日:2024-02-23 15:31:47 公開日:2024-02-22
# パーシステンス図の高速比較のためのトポロジカルな擬似空間のクラス

A Class of Topological Pseudodistances for Fast Comparison of Persistence Diagrams ( http://arxiv.org/abs/2402.14489v1 )

ライセンス: Link先を確認
Rolando Kindelan Nu\~nez, Mircea Petrache, Mauricio Cerda, Nancy Hitschfeld(参考訳) パーシステンスダイアグラム(PD)は、トポロジカルデータ解析において中心的な役割を担い、ますます増加する様々なアプリケーションで使われている。 PDデータの比較には、正確で理論的に健全で計算が速いPDの大規模なセット間の計算比較指標が必要である。 特に高密度な多次元PDの場合、このような比較指標は欠落している。 一方、wasserstein型距離は高い精度と理論的保証を持っているが、高い計算コストを伴っている。 一方、 Persistence Statistics (PS) のようなベクトル化間の距離は計算コストが低いが、精度の保証がなく、一般にPDを区別することが保証されていない(つまり異なるPDの2つのPSベクトルは等しいかもしれない)。 本研究では, 拡張トポロジカル擬似距離(ETD)という, チューナブルな複雑性を持つ擬似距離のクラスを導入し, 複雑度が極端に小さく, 計算量も小さく, パーシスタンス統計に近く, 従来のワッサーシュタイン距離とスライス距離を極端に近似することができる。 我々は、新しい距離を持続ベクトル化とワッサーシュタイン距離の中間レベルにどのように適合させるかを示す理論的比較を構築する。 また,etsdがpssを精度で上回り,wassersteinとsliced wasserstein距離を計算複雑性で上回ったことを実験的に検証した。

Persistence diagrams (PD)s play a central role in topological data analysis, and are used in an ever increasing variety of applications. The comparison of PD data requires computing comparison metrics among large sets of PDs, with metrics which are accurate, theoretically sound, and fast to compute. Especially for denser multi-dimensional PDs, such comparison metrics are lacking. While on the one hand, Wasserstein-type distances have high accuracy and theoretical guarantees, they incur high computational cost. On the other hand, distances between vectorizations such as Persistence Statistics (PS)s have lower computational cost, but lack the accuracy guarantees and in general they are not guaranteed to distinguish PDs (i.e. the two PS vectors of different PDs may be equal). In this work we introduce a class of pseudodistances called Extended Topological Pseudodistances (ETD)s, which have tunable complexity, and can approximate Sliced and classical Wasserstein distances at the high-complexity extreme, while being computationally lighter and close to Persistence Statistics at the lower complexity extreme, and thus allow users to interpolate between the two metrics. We build theoretical comparisons to show how to fit our new distances at an intermediate level between persistence vectorizations and Wasserstein distances. We also experimentally verify that ETDs outperform PSs in terms of accuracy and outperform Wasserstein and Sliced Wasserstein distances in terms of computational complexity.
翻訳日:2024-02-23 15:26:51 公開日:2024-02-22
# 発電機はコンテキストを意識しているか? 文脈伝達下における生成モデル忠実性の解析

Does the Generator Mind its Contexts? An Analysis of Generative Model Faithfulness under Context Transfer ( http://arxiv.org/abs/2402.14488v1 )

ライセンス: Link先を確認
Xinshuo Hu and Baotian Hu and Dongfang Li and Xiaoguang Li and Lifeng Shang(参考訳) 本研究は,文脈の変化によらず,文脈知識に根ざした情報を生成するために特別に設計された知識提示生成器を提案する。 これまでの研究は主に、要約や機械翻訳といった静的入力から生じる幻覚を調べることに重点を置いてきた。 しかし,本研究では,動的知識の存在下での生成的質問応答の忠実性について考察する。 本研究の目的は,文脈的知識が変化した際のパラメトリック記憶から生じる幻覚の存在を探索し,その発生原因を解析することである。 そこで本研究では,このような幻覚を簡便かつ効果的な方法で検出する手法を提案する。 興味深いことに、調査の結果、すべてのモデルが幻覚として過去の回答を生成する傾向があることが判明した。 この現象の根本原因についてより深い知見を得るため、様々な視点から、訓練とテストの両方において、幻覚における文脈が果たす重要な役割を検証する一連の実験を行った。

The present study introduces the knowledge-augmented generator, which is specifically designed to produce information that remains grounded in contextual knowledge, regardless of alterations in the context. Previous research has predominantly focused on examining hallucinations stemming from static input, such as in the domains of summarization or machine translation. However, our investigation delves into the faithfulness of generative question answering in the presence of dynamic knowledge. Our objective is to explore the existence of hallucinations arising from parametric memory when contextual knowledge undergoes changes, while also analyzing the underlying causes for their occurrence. In order to efficiently address this issue, we propose a straightforward yet effective measure for detecting such hallucinations. Intriguingly, our investigation uncovers that all models exhibit a tendency to generate previous answers as hallucinations. To gain deeper insights into the underlying causes of this phenomenon, we conduct a series of experiments that verify the critical role played by context in hallucination, both during training and testing, from various perspectives.
翻訳日:2024-02-23 15:26:21 公開日:2024-02-22
# 境界契約は学習可能で、ほぼ最適か?

Are Bounded Contracts Learnable and Approximately Optimal? ( http://arxiv.org/abs/2402.14486v1 )

ライセンス: Link先を確認
Yurong Chen, Zhaohua Chen, Xiaotie Deng, and Zhiyi Huang(参考訳) 本稿では,主エージェントが契約を用いてプロジェクトに取り組む動機付けを行う,主エージェント問題の隠れアクションモデルについて考察する。 有界決済契約が学習可能か,ほぼ最適かを検討する。 本研究の主な成果は, 多項式数を用いて, ほぼ最適な有界コントラクトを求めることができる2つの学習アルゴリズムである。 エージェントに対する費用対効果は, プリンシパルに対するより良い結果分布を導き, エージェントのコスト/利益は, リターンを減少させる。 我々の多項式クエリ複雑性上界は、一般的なインスタンスの既知の下界に対する指数的な改善を達成するのに、標準仮定が十分であることを示している。 契約空間の離散化に依存する既存のアルゴリズムとは異なり、我々のアルゴリズムは基礎となる結果分布を直接学習する。 有界契約の近似最適性については、乗法的あるいは加法的近似の観点からは最適とは程遠いが、混合近似の概念を満たすことが分かる。

This paper considers the hidden-action model of the principal-agent problem, in which a principal incentivizes an agent to work on a project using a contract. We investigate whether contracts with bounded payments are learnable and approximately optimal. Our main results are two learning algorithms that can find a nearly optimal bounded contract using a polynomial number of queries, under two standard assumptions in the literature: a costlier action for the agent leads to a better outcome distribution for the principal, and the agent's cost/effort has diminishing returns. Our polynomial query complexity upper bound shows that standard assumptions are sufficient for achieving an exponential improvement upon the known lower bound for general instances. Unlike the existing algorithms, which relied on discretizing the contract space, our algorithms directly learn the underlying outcome distributions. As for the approximate optimality of bounded contracts, we find that they could be far from optimal in terms of multiplicative or additive approximation, but satisfy a notion of mixed approximation.
翻訳日:2024-02-23 15:26:05 公開日:2024-02-22
# ChatGPTは因果テキストマイニングの未来か? 総合的な評価と分析

Is ChatGPT the Future of Causal Text Mining? A Comprehensive Evaluation and Analysis ( http://arxiv.org/abs/2402.14484v1 )

ライセンス: Link先を確認
Takehiro Takayanagi and Masahiro Suzuki and Ryotaro Kobayashi and Hiroki Sakaji and Kiyoshi Izumi(参考訳) 因果性は人間の認知の基本であり、様々な研究分野で注目を集めている。 テキストデータの量の増加に伴い,テキストデータの因果関係の識別が重要となり,因果関係の抽出に重要な役割を担っている。 本研究はChatGPTの因果テキストマイニング機能に関する総合的な評価を行う。 まず、ドメイン固有および非英語データセットを含む一般的な英語データセットを超えて拡張されるベンチマークを紹介する。 また、ChatGPTと従来のアプローチとの公正な比較を保証するための評価フレームワークも提供する。 最後に,ChatGPTを用いた因果テキストマイニングにおける限界と今後の課題について概説する。 具体的には,ChatGPTが各種データセットの出発点として有効であることを示す。 しかし、十分な量のトレーニングデータを備えている場合、以前のモデルは依然としてChatGPTの性能を上回っている。 さらに、ChatGPTは非因果配列を因果配列と誤認識する傾向がある。 これらの問題は、GPT-4のような高度なモデルでさらに顕著になる。 さらに,ChatGPTの複雑な因果関係の扱いにおける制約を強調し,その内容は内因果関係と暗黙的因果関係の両方を含む。 このモデルは、コンテキスト内学習とドメイン適応を効果的に活用するという課題にも直面する。 私たちのコードは \url{https://github.com/retarfi/gemcausal} で利用可能です。

Causality is fundamental in human cognition and has drawn attention in diverse research fields. With growing volumes of textual data, discerning causalities within text data is crucial, and causal text mining plays a pivotal role in extracting meaningful patterns. This study conducts comprehensive evaluations of ChatGPT's causal text mining capabilities. Firstly, we introduce a benchmark that extends beyond general English datasets, including domain-specific and non-English datasets. We also provide an evaluation framework to ensure fair comparisons between ChatGPT and previous approaches. Finally, our analysis outlines the limitations and future challenges in employing ChatGPT for causal text mining. Specifically, our analysis reveals that ChatGPT serves as a good starting point for various datasets. However, when equipped with a sufficient amount of training data, previous models still surpass ChatGPT's performance. Additionally, ChatGPT suffers from the tendency to falsely recognize non-causal sequences as causal sequences. These issues become even more pronounced with advanced versions of the model, such as GPT-4. In addition, we highlight the constraints of ChatGPT in handling complex causality types, including both intra/inter-sentential and implicit causality. The model also faces challenges with effectively leveraging in-context learning and domain adaptation. Our code is available on \url{https://github.com/retarfi/gemcausal}
翻訳日:2024-02-23 15:25:47 公開日:2024-02-22
# SpanSeq:ディープラーニングプロジェクトの開発と評価のための類似性に基づくシーケンスデータ分割手法

SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects ( http://arxiv.org/abs/2402.14482v1 )

ライセンス: Link先を確認
Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Henrik Nielsen, Frank M{\o}ller Aarestrup, Philip Thomas Lanken Conradsen Clausen(参考訳) 近年, 計算生物学におけるディープラーニングモデルの利用が大幅に増加しており, 自然言語処理などの分野の進歩とともに, さらなる発展が期待されている。 これらのモデルは、入力とターゲットの間の複雑な関係を描画できるが、開発時に使用されるデータのプールからノイズの偏差を学習する傾向が強い。 目に見えないデータ(一般化する能力)の性能を評価するために、利用可能なデータ(トレイン/バリデーション)とテストセットをランダムに分割することが一般的である。 この手法は, 標準ではあるが, 既存のデータベースにおけるサンプル間の類似性から, 一般化に関する疑わしい評価がされている。 本研究では,データセット間のデータ漏洩を回避するために,ほとんどの生物配列(遺伝子,タンパク質,ゲノム)にスケール可能な,機械学習のためのデータベース分割手法であるspanseqを提案する。 また,集合間の類似性を抑制することなく,最先端モデルdeeplocの開発を再現し,ランダムに分割したデータベースがモデル評価に与える影響を確認するだけでなく,その影響をモデル開発に拡大する効果についても検討した。 SpanSeqはhttps://github.com/genomicepidemiology/SpanSeqでダウンロードできる。

The use of deep learning models in computational biology has increased massively in recent years, and is expected to do so further with the current advances in fields like Natural Language Processing. These models, although able to draw complex relations between input and target, are also largely inclined to learn noisy deviations from the pool of data used during their development. In order to assess their performance on unseen data (their capacity to generalize), it is common to randomly split the available data in development (train/validation) and test sets. This procedure, although standard, has lately been shown to produce dubious assessments of generalization due to the existing similarity between samples in the databases used. In this work, we present SpanSeq, a database partition method for machine learning that can scale to most biological sequences (genes, proteins and genomes) in order to avoid data leakage between sets. We also explore the effect of not restraining similarity between sets by reproducing the development of the state-of-the-art model DeepLoc, not only confirming the consequences of randomly splitting databases on the model assessment, but expanding those repercussions to the model development. SpanSeq is available for downloading and installing at https://github.com/genomicepidemiology/SpanSeq.
翻訳日:2024-02-23 15:25:28 公開日:2024-02-22
# 自動因果発見に向けて:5g通信データの事例研究

Towards Automated Causal Discovery: a case study on 5G telecommunication data ( http://arxiv.org/abs/2402.14481v1 )

ライセンス: Link先を確認
Konstantina Biza, Antonios Ntroumpogiannis, Sofia Triantafillou, Ioannis Tsamardinos(参考訳) 本稿では,因果発見と因果推論の完全自動化を目的としたシステムとして定義されているAutomated Causal Discovery(AutoCD)の概念を紹介する。 autocdの目的は、専門家の人間アナリストが行うすべての因果情報を提供し、ユーザの因果クエリに答えることである。 このようなプラットフォームのアーキテクチャを説明し、その性能を合成データセット上で説明する。 ケーススタディとして,時間的通信データに適用する。 このシステムは一般的なシステムであり、多くの因果発見問題に適用できる。

We introduce the concept of Automated Causal Discovery (AutoCD), defined as any system that aims to fully automate the application of causal discovery and causal reasoning methods. AutoCD's goal is to deliver all causal information that an expert human analyst would and answer a user's causal queries. We describe the architecture of such a platform, and illustrate its performance on synthetic data sets. As a case study, we apply it on temporal telecommunication data. The system is general and can be applied to a plethora of causal discovery problems.
翻訳日:2024-02-23 15:25:07 公開日:2024-02-22
# MeTMaP:LLM増強生成における偽ベクトルマッチング問題検出のための変成試験

MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems in LLM Augmented Generation ( http://arxiv.org/abs/2402.14480v1 )

ライセンス: Link先を確認
Guanyu Wang, Yuekang Li, Yi Liu, Gelei Deng, Tianlin Li, Guosheng Xu, Yang Liu, Haoyu Wang, Kailong Wang(参考訳) Retrieval-Augmented Generation (RAG) や Cache-Augmented Generation (CAG) といった拡張生成技術は、外部知識とキャッシュ情報を備えた大規模言語モデル(LLM)出力を拡張することで、この分野に革命をもたらした。 しかし、これらの拡張のバックボーンとなるベクターデータベースの統合は、特に正確なベクターマッチングの確保において重要な課題をもたらす。 これらのデータベースにおける偽ベクトルマッチングは、LCM出力の完全性と信頼性を著しく損なう可能性があり、誤情報や誤応答につながる。 これらの問題の重大な影響にもかかわらず、LLM増強世代における偽ベクトルマッチングを効果的に検出し、対処する方法には顕著な研究ギャップがある。 本稿では,LLM拡張生成システムにおける偽ベクトルマッチングを識別するメタモルフィックテストフレームワークであるMeTMaPを提案する。 意味的に類似したテキストは一致すべきであり、類似しないという考え方に基づいて、6つのnlpデータセットから8つのメタモルフィックリレーション(mrs)を導出する。 MeTMaPはこれらのMRを使用して、実世界のLLMシナリオをシミュレートし、テストするための文三つ子を生成する。 我々は,29の埋め込みモデルと7つの距離メトリクスを含む203個のベクトルマッチング構成に対するMeTMaPの評価を行った。 その結果,従来のデータセットと比較すると,最大41.51\%の精度を示し,ベクトルマッチング法における偽マッチングの広範な問題と,LLM拡張アプリケーションにおける効果的な検出と緩和の要点を強調した。

Augmented generation techniques such as Retrieval-Augmented Generation (RAG) and Cache-Augmented Generation (CAG) have revolutionized the field by enhancing large language model (LLM) outputs with external knowledge and cached information. However, the integration of vector databases, which serve as a backbone for these augmentations, introduces critical challenges, particularly in ensuring accurate vector matching. False vector matching in these databases can significantly compromise the integrity and reliability of LLM outputs, leading to misinformation or erroneous responses. Despite the crucial impact of these issues, there is a notable research gap in methods to effectively detect and address false vector matches in LLM-augmented generation. This paper presents MeTMaP, a metamorphic testing framework developed to identify false vector matching in LLM-augmented generation systems. We derive eight metamorphic relations (MRs) from six NLP datasets, which form our method's core, based on the idea that semantically similar texts should match and dissimilar ones should not. MeTMaP uses these MRs to create sentence triplets for testing, simulating real-world LLM scenarios. Our evaluation of MeTMaP over 203 vector matching configurations, involving 29 embedding models and 7 distance metrics, uncovers significant inaccuracies. The results, showing a maximum accuracy of only 41.51\% on our tests compared to the original datasets, emphasize the widespread issue of false matches in vector matching methods and the critical need for effective detection and mitigation in LLM-augmented applications.
翻訳日:2024-02-23 15:24:58 公開日:2024-02-22
# DynGMA:データから確率微分方程式を学習するための頑健なアプローチ

DynGMA: a robust approach for learning stochastic differential equations from data ( http://arxiv.org/abs/2402.14475v1 )

ライセンス: Link先を確認
Aiqing Zhu and Qianxiao Li(参考訳) 観測データから未知確率微分方程式(SDE)を学習することは、様々な分野の応用において重要な課題である。 現在のアプローチでは、しばしばニューラルネットワークを使用してドリフトや拡散関数を表現し、これらのネットワークを訓練するために遷移密度を近似することで確率に基づく損失を構築する。 しかし、これらの手法はしばしば1段階の確率的数値スキームに依存し、十分な時間分解能を持つデータを必要とする。 本稿では、動的系のランダム摂動理論に着想を得たガウス密度近似と、その拡張である動的ガウス混合近似(DynGMA)について、パラメータ化SDEの遷移密度に対する新しい近似を導入する。 本手法はロバスト密度近似の利点を活かし, 完全に未知のドリフト・拡散関数の学習や軌道データからの不変分布の計算において, ベースライン法と比較して優れた精度を示す。 また、Gillespieの確率的シミュレーションから生成されたデータのように、低時間分解能と可変、さらには制御不能な時間ステップサイズでトラジェクトリデータを処理できる。 次に,提案手法の利点と頑健性を検証するため,様々なシナリオで実験を行った。

Learning unknown stochastic differential equations (SDEs) from observed data is a significant and challenging task with applications in various fields. Current approaches often use neural networks to represent drift and diffusion functions, and construct likelihood-based loss by approximating the transition density to train these networks. However, these methods often rely on one-step stochastic numerical schemes, necessitating data with sufficiently high time resolution. In this paper, we introduce novel approximations to the transition density of the parameterized SDE: a Gaussian density approximation inspired by the random perturbation theory of dynamical systems, and its extension, the dynamical Gaussian mixture approximation (DynGMA). Benefiting from the robust density approximation, our method exhibits superior accuracy compared to baseline methods in learning the fully unknown drift and diffusion functions and computing the invariant distribution from trajectory data. And it is capable of handling trajectory data with low time resolution and variable, even uncontrollable, time step sizes, such as data generated from Gillespie's stochastic simulations. We then conduct several experiments across various scenarios to verify the advantages and robustness of the proposed method.
翻訳日:2024-02-23 15:24:28 公開日:2024-02-22
# LLMと解釈モデルを用いたデータサイエンス

Data Science with LLMs and Interpretable Models ( http://arxiv.org/abs/2402.14474v1 )

ライセンス: Link先を確認
Sebastian Bordt, Ben Lengerich, Harsha Nori, Rich Caruana(参考訳) 近年、人間が容易に理解できるように設計された機械学習モデルである解釈可能なモデルの構築において、重要な進歩が見られる。 本稿では,大規模言語モデル (llm) が解釈可能なモデルにも非常に適していることを示す。 特に,LLMはGAM(Generalized Additive Models)を記述,解釈,デバッグすることができることを示す。 LLMの柔軟性とGAMによって正確に記述された多くの統計パターンを組み合わせることで、データセットの要約、質問応答、モデル批判が可能になる。 LLMはまた、ドメインエキスパートと解釈可能なモデルの間の相互作用を改善し、基礎となる現象に関する仮説を生成する。 我々はオープンソースの LLM-GAM インターフェースとして \url{https://github.com/interpretml/TalkToEBM} をリリースする。

Recent years have seen important advances in the building of interpretable models, machine learning models that are designed to be easily understood by humans. In this work, we show that large language models (LLMs) are remarkably good at working with interpretable models, too. In particular, we show that LLMs can describe, interpret, and debug Generalized Additive Models (GAMs). Combining the flexibility of LLMs with the breadth of statistical patterns accurately described by GAMs enables dataset summarization, question answering, and model critique. LLMs can also improve the interaction between domain experts and interpretable models, and generate hypotheses about the underlying phenomenon. We release \url{https://github.com/interpretml/TalkToEBM} as an open-source LLM-GAM interface.
翻訳日:2024-02-23 15:24:07 公開日:2024-02-22
# 個人化行動認識トランスフォーマーによる複数行動適応型逐次推薦

Personalized Behavior-Aware Transformer for Multi-Behavior Sequential Recommendation ( http://arxiv.org/abs/2402.14473v1 )

ライセンス: Link先を確認
Jiajie Su, Chaochao Chen, Zibin Lin, Xi Li, Weiming Liu, and Xiaolin Zheng(参考訳) シーケンシャルレコメンデーション(sr)は、アイテム間のユーザのトランジットのモデル化によって、ユーザの動的好みをキャプチャする。 しかし、単一の行動相互作用データのみを利用するSRモデルは、シーケンスが短い場合に性能劣化に遭遇する。 この問題に対処するため,本論文では,時間発展する異種行動依存を活かし,ユーザの標的行動に対する潜在的意図をよりよく探求することを目的とした,マルチビヘイビアシークエンシャルレコメンデーション(MBSR)に焦点を当てる。 MBSRの解決は難しい。 一方、利用者は個人的特徴から多様な多行動パターンを呈示する。 一方,行動相関と項目協調との間には包括的相互影響があり,その強度は時間的要因の影響を強く受けている。 これらの課題に対処するため,MBSR問題に対するパーソナライズされた行動認識変換フレームワーク(PBAT)を提案する。 まず、PBATは表現層にパーソナライズされた行動パターン生成器を開発し、逐次学習のための動的かつ識別的な行動パターンを抽出する。 第2に、PBATは行動認識協調抽出器を用いて自己注意層を再構成し、行動と時間の両方の影響を協調的な遷移に組み込む、融合した行動認識注意機構を導入する。 3つのベンチマークデータセットで実験を行い、その結果、フレームワークの有効性と解釈性を示した。 実装コードはhttps://github.com/TiliaceaeSU/PBAT.comで公開されている。

Sequential Recommendation (SR) captures users' dynamic preferences by modeling how users transit among items. However, SR models that utilize only single type of behavior interaction data encounter performance degradation when the sequences are short. To tackle this problem, we focus on Multi-Behavior Sequential Recommendation (MBSR) in this paper, which aims to leverage time-evolving heterogeneous behavioral dependencies for better exploring users' potential intents on the target behavior. Solving MBSR is challenging. On the one hand, users exhibit diverse multi-behavior patterns due to personal characteristics. On the other hand, there exists comprehensive co-influence between behavior correlations and item collaborations, the intensity of which is deeply affected by temporal factors. To tackle these challenges, we propose a Personalized Behavior-Aware Transformer framework (PBAT) for MBSR problem, which models personalized patterns and multifaceted sequential collaborations in a novel way to boost recommendation performance. First, PBAT develops a personalized behavior pattern generator in the representation layer, which extracts dynamic and discriminative behavior patterns for sequential learning. Second, PBAT reforms the self-attention layer with a behavior-aware collaboration extractor, which introduces a fused behavior-aware attention mechanism for incorporating both behavioral and temporal impacts into collaborative transitions. We conduct experiments on three benchmark datasets and the results demonstrate the effectiveness and interpretability of our framework. Our implementation code is released at https://github.com/TiliaceaeSU/PBAT.
翻訳日:2024-02-23 15:23:54 公開日:2024-02-22
# BUGFIX:AutomaticProgram修復コミュニティのための共通言語とフレームワーク

BUGFIX: towards a common language and framework for the AutomaticProgram Repair community ( http://arxiv.org/abs/2402.14471v1 )

ライセンス: Link先を確認
Bertrand Meyer, Viktoryia Kananchuk and Li Huang(参考訳) 自動プログラム修復(APR)技術は、品質ソフトウェアを作成するタスクを徹底的に促進する可能性がある。 しかし、有望なスタートの後、APRの実践化の進展は、APRのアイデアやツールの多元性をサポートする共通のフレームワークが欠如していることや、ターゲットとなるプログラミング言語や環境によって妨げられている。 本稿では、APRコミュニティが互いの進歩、特にバグとその修正を記述するための標準言語を通じて恩恵を受けることができるための一般的なフレームワークの概要を述べる。 このような共通フレームワーク(フォールトシードにも適用可能です)は、APRをソフトウェア開発者の実践的経験の効果的な一部にしようと努力しているInteractive Development Environments(IDE)の研究者や開発者にとって、大きなメリットになります。

Techniques of Automatic Program Repair (APR) have the potential of thoroughly facilitating the task of producing quality software. After a promising start, however, progress in making APR practical has been hindered by the lack of a common framework to support the multiplicity of APR ideas and tools, and of target programming languages and environments. In this position paper we outline a general framework to enable the APR community to benefit from each other\'s advances, in particular through a standard language for describing bugs and their fixes. Such a common framework (which is also applicable to work on fault seeding) could be a tremendous benefit to researchers and developers of Interactive Development Environments (IDEs) who are working to make APR an effective part of the practical experience of software developers.
翻訳日:2024-02-23 15:23:27 公開日:2024-02-22
# 異常を再認識する: もし異常が正常なら?

Reimagining Anomalies: What If Anomalies Were Normal? ( http://arxiv.org/abs/2402.14469v1 )

ライセンス: Link先を確認
Philipp Liznerski, Saurabh Varshneya, Ece Calikus, Sophie Fellenz, and Marius Kloft(参考訳) ディープラーニングベースの手法は、画像異常検出のブレークスルーを達成しているが、その複雑さは、なぜインスタンスが異常であると予測されるのかを理解するための大きな課題をもたらす。 本稿では,各異常に対して複数の反実例を生成する新しい説明手法を提案する。 逆の例は、異常検知器によって正常と見なされる異常の修正である。 この手法は、異常検知を起動するメカニズムの高レベルなセマンティックな説明を提供し、ユーザーは「何のシナリオ」を探索できる。 様々な画像データセットの質的および定量的分析により、最先端の異常検出器に適用された手法が検出器の質の高い意味的説明を達成できることが示されている。

Deep learning-based methods have achieved a breakthrough in image anomaly detection, but their complexity introduces a considerable challenge to understanding why an instance is predicted to be anomalous. We introduce a novel explanation method that generates multiple counterfactual examples for each anomaly, capturing diverse concepts of anomalousness. A counterfactual example is a modification of the anomaly that is perceived as normal by the anomaly detector. The method provides a high-level semantic explanation of the mechanism that triggered the anomaly detector, allowing users to explore "what-if scenarios." Qualitative and quantitative analyses across various image datasets show that the method applied to state-of-the-art anomaly detectors can achieve high-quality semantic explanations of detectors.
翻訳日:2024-02-23 15:23:12 公開日:2024-02-22
# NeRF-Det++:屋内マルチビュー3D検出のためのセマンティックキューとパースペクティブ・アウェア・ディープス・スーパービジョン

NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth Supervision for Indoor Multi-View 3D Detection ( http://arxiv.org/abs/2402.14464v1 )

ライセンス: Link先を確認
Chenxi Huang and Yuenan Hou and Weicai Ye and Di Huang and Xiaoshui Huang and Binbin Lin and Deng Cai and Wanli Ouyang(参考訳) NeRF-Detは、NeRFを革新的に活用して表現学習を強化し、屋内マルチビュー3次元検出において印象的な性能を達成した。 その顕著な性能にもかかわらず、セマンティックなあいまいさ、不適切なサンプリング、深度監視の不十分な利用を含む、現在の設計における3つの決定的な欠点を明らかにした。 上記の問題に対処するため、我々は以下の3つの解決策を提示した。 1) 意味的拡張。 2次元平面上に自由に利用可能な3次元セグメンテーションアノテーションを投影し、対応する2次元セグメンテーションマップを監視信号として活用し、マルチビュー検出器のセグメンテーション認識を著しく向上させる。 2)パースペクティブアウェアサンプリング。 均一なサンプリング戦略を採用する代わりに、遠距離を狭めながらカメラ付近で密集してサンプリングする視点認識サンプリングポリシーを提唱し、より効果的に幾何学的手がかりを収集する。 3)通常残留深度監督。 最適化が難しい深度値を直接後退させるのとは対照的に、各シーンの深さ範囲を一定の数の順序ビンに分割し、深さ予測を深さビンの分類と残留深さ値の回帰の組み合わせとして再構成し、深さ学習プロセスに恩恵を与える。 結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とARKITScenesデータセットで魅力的なパフォーマンスを示している。 特に ScanNetV2 では、NeRF-Det++ は mAP@0.25 で +1.9%、mAP@0.50$ で +3.5% で競合する NeRF-Det より優れていた。 コードはhttps://github.com/mrsempress/NeRF-Detplusplus.comで公開される。

NeRF-Det has achieved impressive performance in indoor multi-view 3D detection by innovatively utilizing NeRF to enhance representation learning. Despite its notable performance, we uncover three decisive shortcomings in its current design, including semantic ambiguity, inappropriate sampling, and insufficient utilization of depth supervision. To combat the aforementioned problems, we present three corresponding solutions: 1) Semantic Enhancement. We project the freely available 3D segmentation annotations onto the 2D plane and leverage the corresponding 2D semantic maps as the supervision signal, significantly enhancing the semantic awareness of multi-view detectors. 2) Perspective-aware Sampling. Instead of employing the uniform sampling strategy, we put forward the perspective-aware sampling policy that samples densely near the camera while sparsely in the distance, more effectively collecting the valuable geometric clues. 3)Ordinal Residual Depth Supervision. As opposed to directly regressing the depth values that are difficult to optimize, we divide the depth range of each scene into a fixed number of ordinal bins and reformulate the depth prediction as the combination of the classification of depth bins as well as the regression of the residual depth values, thereby benefiting the depth learning process. The resulting algorithm, NeRF-Det++, has exhibited appealing performance in the ScanNetV2 and ARKITScenes datasets. Notably, in ScanNetV2, NeRF-Det++ outperforms the competitive NeRF-Det by +1.9% in mAP@0.25 and +3.5% in mAP@0.50$. The code will be publicly at https://github.com/mrsempress/NeRF-Detplusplus.
翻訳日:2024-02-23 15:22:59 公開日:2024-02-22
# s^2former-or : orにおけるシーングラフ生成のための単段バイモーダルトランス

S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph Generation in OR ( http://arxiv.org/abs/2402.14461v1 )

ライセンス: Link先を確認
Jialun Pei, Diandian Guo, Jingyang Zhang, Manxi Lin, Yueming Jin, Pheng-Ann Heng(参考訳) 手術手順のシーングラフ生成(SGG)は,手術室(OR)の全体的認知知性を高める上で重要である。 しかし、従来の研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存する意味的シーングラフを生成する多段階学習に依存しており、モデルの効率と有効性を損なう可能性がある。 本研究では,SGGのマルチビュー2Dシーンと3Dポイントクラウドをエンドツーエンドで補完的に活用することを目的とした,ORにおけるSGG用シングルステージバイモーダルトランスフォーマフレームワークS^2Former-ORを提案する。 具体的には,マルチビュー視覚情報インタラクションを促進するために,view-syncトランスフュージョン方式を採用している。 同時に、Geometry-Visual Cohesion操作は、相乗的な2Dセマンティック機能と3Dポイントクラウド機能を統合するように設計されている。 さらに、この拡張機能に基づいて、動的エンティティペアクエリとリレーショナル特性を組み込んだ新しいリレーショナルセンシティブ・トランスフォーマーデコーダを提案し、中間ステップなしでグラフ生成のためのエンティティペア関係の直接予測を可能にする。 4D-ORベンチマークにおけるS^2Former-ORの優れたSGG性能と低い計算コストを、現在のOR-SGG法(例: 3%精度の向上と24.2Mモデルパラメータの削減)と比較して検証した。 さらに,本手法を汎用単段sgg法と比較し,総合的評価のための幅広い測定値と比較した。 コードは利用可能になります。

Scene graph generation (SGG) of surgical procedures is crucial in enhancing holistically cognitive intelligence in the operating room (OR). However, previous works have primarily relied on the multi-stage learning that generates semantic scene graphs dependent on intermediate processes with pose estimation and object detection, which may compromise model efficiency and efficacy, also impose extra annotation burden. In this study, we introduce a novel single-stage bimodal transformer framework for SGG in the OR, termed S^2Former-OR, aimed to complementally leverage multi-view 2D scenes and 3D point clouds for SGG in an end-to-end manner. Concretely, our model embraces a View-Sync Transfusion scheme to encourage multi-view visual information interaction. Concurrently, a Geometry-Visual Cohesion operation is designed to integrate the synergic 2D semantic features into 3D point cloud features. Moreover, based on the augmented feature, we propose a novel relation-sensitive transformer decoder that embeds dynamic entity-pair queries and relational trait priors, which enables the direct prediction of entity-pair relations for graph generation without intermediate steps. Extensive experiments have validated the superior SGG performance and lower computational cost of S^2Former-OR on 4D-OR benchmark, compared with current OR-SGG methods, e.g., 3% Precision increase and 24.2M reduction in model parameters. We further compared our method with generic single-stage SGG methods with broader metrics for a comprehensive evaluation, with consistently better performance achieved. The code will be made available.
翻訳日:2024-02-23 15:22:28 公開日:2024-02-22
# 期待される自由エネルギー:4つの定式化と統一

Reframing the Expected Free Energy: Four Formulations and a Unification ( http://arxiv.org/abs/2402.14460v1 )

ライセンス: Link先を確認
Th\'eophile Champion, Howard Bowman, Dimitrije Markovi\'c, Marek Grze\'s(参考訳) 能動的推論は知覚、学習、意思決定の主要な理論であり、神経科学、ロボティクス、心理学、機械学習に応用できる。 アクティブ推論は期待される自由エネルギーに基づいており、主にその定式化の直感的な妥当性、例えばリスクプラス曖昧さと情報ゲイン/実用的価値定式化によって正当化される。 本稿では, 単一根期待自由エネルギー定義, すなわち統一問題からこれらの定式化を導出する問題を定式化する。 次に、それぞれ独自のルート予測自由エネルギー定義を持つ2つの設定について検討する。 最初の設定では、期待された自由エネルギーの正当化は提案されていないが、全ての定式化は回収可能である。 しかし、この設定では、エージェントは観測よりも任意の事前選好を持つことができない。 実際、観測よりも優先される優先順位のクラスは、生成モデルの可能性マッピングと互換性がある。 第2の設定では、根の期待自由エネルギーの定義の正当化が知られているが、この設定は2つの定式化、すなわち、状態に対するリスク、曖昧さ、エントロピー、および期待エネルギー定式化のみを成す。

Active inference is a leading theory of perception, learning and decision making, which can be applied to neuroscience, robotics, psychology, and machine learning. Active inference is based on the expected free energy, which is mostly justified by the intuitive plausibility of its formulations, e.g., the risk plus ambiguity and information gain / pragmatic value formulations. This paper seek to formalize the problem of deriving these formulations from a single root expected free energy definition, i.e., the unification problem. Then, we study two settings, each one having its own root expected free energy definition. In the first setting, no justification for the expected free energy has been proposed to date, but all the formulations can be recovered from it. However, in this setting, the agent cannot have arbitrary prior preferences over observations. Indeed, only a limited class of prior preferences over observations is compatible with the likelihood mapping of the generative model. In the second setting, a justification of the root expected free energy definition is known, but this setting only accounts for two formulations, i.e., the risk over states plus ambiguity and entropy plus expected energy formulations.
翻訳日:2024-02-23 15:21:56 公開日:2024-02-22
# クラスタリングによる言語モデルトレーニングのためのバランスデータサンプリング

Balanced Data Sampling for Language Model Training with Clustering ( http://arxiv.org/abs/2402.14526v1 )

ライセンス: Link先を確認
Yunfan Shao, Linyang Li, Zhaoye Fei, Hang Yan, Dahua Lin, Xipeng Qiu(参考訳) データは、LLM(Large Language Models)のトレーニングにおいて、基本的な役割を果たす。 データセットの収集と構成には注意が払われているが、トレーニングにおけるデータサンプリング戦略の決定は未解決の問題である。 ほとんどのllmは単純な戦略、ランダムサンプリングで訓練される。 しかし、このサンプリング戦略は、準最適である訓練データ分布の非バランス性を無視する。 本稿では,学習データのテキスト分布のバランスを保ち,モデルトレーニングを改善するためにClusterClip Smplingを提案する。 具体的には、ClusterClip Samplingは、トレーニングセットのデータ分散を反映するためにデータクラスタリングを使用し、クラスタ結果に基づいてトレーニング中に共通サンプルとレアサンプルのバランスをとる。 繰り返しクリップ操作を導入し、特定のクラスタからのサンプルによるオーバーフィッティング問題を緩和する。 さまざまなトレーニングデータセットと大規模言語モデルの下で、ランダムサンプリングや他のクラスタベースのサンプリング変種を上回っている。

Data plays a fundamental role in the training of Large Language Models (LLMs). While attention has been paid to the collection and composition of datasets, determining the data sampling strategy in training remains an open question. Most LLMs are trained with a simple strategy, random sampling. However, this sampling strategy ignores the unbalanced nature of training data distribution, which can be sub-optimal. In this paper, we propose ClusterClip Sampling to balance the text distribution of training data for better model training. Specifically, ClusterClip Sampling utilizes data clustering to reflect the data distribution of the training set and balances the common samples and rare samples during training based on the cluster results. A repetition clip operation is introduced to mitigate the overfitting issue led by samples from certain clusters. Extensive experiments validate the effectiveness of ClusterClip Sampling, which outperforms random sampling and other cluster-based sampling variants under various training datasets and large language models.
翻訳日:2024-02-23 15:17:04 公開日:2024-02-22
# 人型ロボット-人間間ハンドオーバの運動的制約

Kinematically Constrained Human-like Bimanual Robot-to-Human Handovers ( http://arxiv.org/abs/2402.14525v1 )

ライセンス: Link先を確認
Yasemin G\"oksu, Antonio De Almeida Correia, Vignesh Prasad, Alap Kshirsagar, Dorothea Koert, Jan Peters, Georgia Chalvatzaki(参考訳) 双方向ハンドオーバは、大きな、変形可能な、または繊細なオブジェクトの転送に不可欠である。 本稿では,人間と人間とのシームレスかつ自然なハンドオーバを確保するために,人体に拘束されたロボット動作を生成する枠組みを提案する。 我々は、Hidden Semi-Markov Model (HSMM)を用いて、観察された人間のパートナーの動きに基づいて、ロボットに適した応答軌道を反応的に生成する。 軌道はタスク空間の制約に適合し、正確なハンドオーバを保証する。 パイロット実験の結果,本手法はベースライン逆運動学のアプローチに比べて人間に近いと認識されていることがわかった。

Bimanual handovers are crucial for transferring large, deformable or delicate objects. This paper proposes a framework for generating kinematically constrained human-like bimanual robot motions to ensure seamless and natural robot-to-human object handovers. We use a Hidden Semi-Markov Model (HSMM) to reactively generate suitable response trajectories for a robot based on the observed human partner's motion. The trajectories are adapted with task space constraints to ensure accurate handovers. Results from a pilot study show that our approach is perceived as more human--like compared to a baseline Inverse Kinematics approach.
翻訳日:2024-02-23 15:16:36 公開日:2024-02-22
# Daisy-TTS:韻律埋め込み分解による感情スペクトルのシミュレーション

Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition ( http://arxiv.org/abs/2402.14523v1 )

ライセンス: Link先を確認
Rendi Chevi, Alham Fikri Aji(参考訳) 私たちはしばしば多面的に感情を表現するが、その強さは様々であり、単独ではなく、感情の混合として表現されることもある。 この広い範囲の感情は感情の構造モデルにおいてよく研究されており、様々な感情を様々な強度の一次感情の派生生成物として表している。 本稿では,構造モデルに基づくより広い感情のスペクトルをシミュレートするための感情的テキスト対音声設計を提案する。 提案したデザインであるDaisy-TTSは、感情のプロキシとして感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダを組み込んでいる。 この感情表現は,(1)訓練サンプルから学習した一次感情,(2)一次感情の混合による二次感情,(3)感情の埋め込みを拡大するインテンシティレベル,(4)感情の埋め込みを否定する感情の極性など,モデルをシミュレートすることができる。 一連の知覚的評価を通じて,Daisy-TTSはベースラインに比べて感情の自然さと感情の知覚性が全体的に高いことを示した。

We often verbally express emotions in a multifaceted manner, they may vary in their intensities and may be expressed not just as a single but as a mixture of emotions. This wide spectrum of emotions is well-studied in the structural model of emotions, which represents variety of emotions as derivative products of primary emotions with varying degrees of intensity. In this paper, we propose an emotional text-to-speech design to simulate a wider spectrum of emotions grounded on the structural model. Our proposed design, Daisy-TTS, incorporates a prosody encoder to learn emotionally-separable prosody embedding as a proxy for emotion. This emotion representation allows the model to simulate: (1) Primary emotions, as learned from the training samples, (2) Secondary emotions, as a mixture of primary emotions, (3) Intensity-level, by scaling the emotion embedding, and (4) Emotions polarity, by negating the emotion embedding. Through a series of perceptual evaluations, Daisy-TTS demonstrated overall higher emotional speech naturalness and emotion perceiveability compared to the baseline.
翻訳日:2024-02-23 15:16:12 公開日:2024-02-22
# 複数のモデルにまたがる統一タスク埋め込みに向けて: Promptベースの大規模言語モデルのギャップを埋める

Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond ( http://arxiv.org/abs/2402.14522v1 )

ライセンス: Link先を確認
Xinyu Wang, Hainiu Xu, Lin Gui, Yulan He(参考訳) タスク固有の情報をキャプチャするメタ学習技術であるタスク埋め込みは、特にマルチタスク学習、モデル編集、解釈可能性などの分野で普及している。 しかし、プロンプト誘導型大規模言語モデル(LLM)がグラデーションフリーで動作し、課題に直面している。 既存のタスク埋め込み手法は、細調整されたタスク固有の言語モデルに依存しており、様々なモデル、特にプロンプトベースのLLMに対するタスク埋め込みの適応性を妨げている。 LLMの時代にタスク埋め込みのパワーを解放するために,より小さな言語モデルや様々なプロンプトを持つLLMを含む様々なモデルから,単一のベクトル空間内でタスク埋め込みを調和させる統合タスク埋め込み(FUTE)フレームワークを提案する。 このような統一性は、異なるモデル間の類似性の比較と分析を可能にし、アーキテクチャ固有のメソッドに匹敵する性能を維持しながら、マルチモデルのシナリオに対処する既存のタスク埋め込みメソッドの範囲と有用性を拡張する。

Task embedding, a meta-learning technique that captures task-specific information, has become prevalent, especially in areas such as multi-task learning, model editing, and interpretability. However, it faces challenges with the emergence of prompt-guided Large Language Models (LLMs) operating in a gradientfree manner. Existing task embedding methods rely on fine-tuned, task-specific language models, which hinders the adaptability of task embeddings across diverse models, especially prompt-based LLMs. To unleash the power of task embedding in the era of LLMs, we propose a framework for unified task embeddings (FUTE), harmonizing task embeddings from various models, including smaller language models and LLMs with varied prompts, within a single vector space. Such uniformity enables the comparison and analysis of similarities amongst different models, extending the scope and utility of existing task embedding methods in addressing multi-model scenarios, whilst maintaining their performance to be comparable to architecture-specific methods.
翻訳日:2024-02-23 15:15:29 公開日:2024-02-22
# マレーシア英語ニュースデコード:名前付きエンティティと関係抽出のための言語資源

Malaysian English News Decoded: A Linguistic Resource for Named Entity and Relation Extraction ( http://arxiv.org/abs/2402.14521v1 )

ライセンス: Link先を確認
Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam(参考訳) 標準英語とマレーシア英語は顕著な違いを示し、マレーシア英語における自然言語処理(NLP)の課題を提起している。 残念ながら、既存のデータセットの大部分は標準英語に基づいており、マレーシア英語のNLPタスクを改善するには不十分である。 マレーシア英語ニュース記事のNER(State-of-the-the-art Named Entity Recognition)ソリューションを用いた実験では、マレーシア英語のモルフォシンタクティックなバリエーションを扱えないことが強調されている。 私たちの知る限りでは、モデルを即興する注釈付きデータセットはありません。 これらの問題に対処するために、我々はマレーシアの英語ニュース(men)データセットを構築しました。 マレーシア英語のデータセットを作成すれば、マレーシア英語のNERの性能が大幅に向上する可能性があることを検証した。 本稿では,データ取得,アノテーション手法,アノテーション付きデータセットの徹底的な解析における取り組みについて述べる。 注記の質を検証するために、注記間合意が用いられ、続いて主題の専門家による意見の不一致の裁定が行われた。 これらのタスクが完了すると、6,061のエンティティと3,268の関連インスタンスからなるデータセットの開発に成功しました。 最後に,spacyの微調整設定とner性能の分析について考察する。 このユニークなデータセットは、マレーシア英語におけるNLP研究の進歩に大きく貢献し、特にNERや関係抽出において、研究者の進歩を加速する。 データセットとアノテーションガイドラインはgithubで公開されている。

Standard English and Malaysian English exhibit notable differences, posing challenges for natural language processing (NLP) tasks on Malaysian English. Unfortunately, most of the existing datasets are mainly based on standard English and therefore inadequate for improving NLP tasks in Malaysian English. An experiment using state-of-the-art Named Entity Recognition (NER) solutions on Malaysian English news articles highlights that they cannot handle morphosyntactic variations in Malaysian English. To the best of our knowledge, there is no annotated dataset available to improvise the model. To address these issues, we constructed a Malaysian English News (MEN) dataset, which contains 200 news articles that are manually annotated with entities and relations. We then fine-tuned the spaCy NER tool and validated that having a dataset tailor-made for Malaysian English could improve the performance of NER in Malaysian English significantly. This paper presents our effort in the data acquisition, annotation methodology, and thorough analysis of the annotated dataset. To validate the quality of the annotation, inter-annotator agreement was used, followed by adjudication of disagreements by a subject matter expert. Upon completion of these tasks, we managed to develop a dataset with 6,061 entities and 3,268 relation instances. Finally, we discuss on spaCy fine-tuning setup and analysis on the NER performance. This unique dataset will contribute significantly to the advancement of NLP research in Malaysian English, allowing researchers to accelerate their progress, particularly in NER and relation extraction. The dataset and annotation guideline has been published on Github.
翻訳日:2024-02-23 15:15:10 公開日:2024-02-22
# 量子ニューラルネットワークの周波数スペクトルのスペクトル不変性と最大性

Spectral invariance and maximality properties of the frequency spectrum of quantum neural networks ( http://arxiv.org/abs/2402.14515v1 )

ライセンス: Link先を確認
Patrick Holzer, Ivica Turkalj(参考訳) 量子ニューラルネットワーク(QNN)は、変分量子回路と密接な関係にある量子機械学習において一般的なアプローチであり、ノイズ中間量子(NISQ)デバイスにおける実用的な応用の候補として期待できる。 qnnは有限フーリエ級数として表現でき、周波数のセットは周波数スペクトルと呼ばれる。 この周波数スペクトルを解析し、大規模なモデルに対して、様々な最大値結果を示す。 さらに、いくつかの穏やかな条件下では、周波数スペクトルを保持する同じ領域 $a = rl$ を持つモデルのクラスの間に単射があることを証明し、ここで $r$ は qubits の数を表し、$l$ は層数を表す。 これにより、文献でよく見られる結果において、$R$ と $L$ の対称性を説明し、最大周波数スペクトルが $A = RL$ の領域にのみ依存し、$R$ と $L$ の個々の値には依存しないことを示す。 さらに、既存の結果を拡張し、任意に多数の層を有するqnnの最大周波数スペクトルを発生器のスペクトルの関数として指定する。 QNNのジェネレータがさらに2次元のサブジェネレータに分解できる場合、この仕様は基本数理論的な考察から従う。 任意の次元生成器の場合、いわゆるgolomb定規に基づいて既存の結果を拡張し、リラックスしたturnpike問題と呼ばれるturnpike問題の変動に基づく2つ目の新しいアプローチを導入する。

Quantum Neural Networks (QNNs) are a popular approach in Quantum Machine Learning due to their close connection to Variational Quantum Circuits, making them a promising candidate for practical applications on Noisy Intermediate-Scale Quantum (NISQ) devices. A QNN can be expressed as a finite Fourier series, where the set of frequencies is called the frequency spectrum. We analyse this frequency spectrum and prove, for a large class of models, various maximality results. Furthermore, we prove that under some mild conditions there exists a bijection between classes of models with the same area $A = RL$ that preserves the frequency spectrum, where $R$ denotes the number of qubits and $L$ the number of layers, which we consequently call spectral invariance under area-preserving transformations. With this we explain the symmetry in $R$ and $L$ in the results often observed in the literature and show that the maximal frequency spectrum depends only on the area $A = RL$ and not on the individual values of $R$ and $L$. Moreover, we extend existing results and specify the maximum possible frequency spectrum of a QNN with arbitrarily many layers as a function of the spectrum of its generators. If the generators of the QNN can be further decomposed into 2-dimensional sub-generators, then this specification follows from elementary number-theoretical considerations. In the case of arbitrary dimensional generators, we extend existing results based on the so-called Golomb ruler and introduce a second novel approach based on a variation of the turnpike problem, which we call the relaxed turnpike problem.
翻訳日:2024-02-23 15:14:42 公開日:2024-02-22
# 超伝導ジョセフソン接合によるf\'eeton第5力の検出

Detecting the F\'eeton Fifth Force by Superconducting Josephson Junctions ( http://arxiv.org/abs/2402.14514v1 )

ライセンス: Link先を確認
Yu Cheng, Jie Sheng, and Tsutomu T. Yanagida(参考訳) 標準モデルの興味深い$U(1)_{B-L}$拡張は、$B-L$電荷を持つ粒子間の5番目の力を予測する。 メディエーターはf\'eetonと呼ばれるb-l$ゲージボソンである。 本稿では,超伝導ジョセフソン接合を用いた第5の力による量子位相差を検出するための新しい実験設計を提案する。 この実験は、ゲージボソンが10^{-2}\,$eVから100\,$eVの質量範囲内にある場合、ゲージカップリングに最も敏感であることがわかった。

The intriguing $U(1)_{B-L}$ extension of the standard model predicts a fifth force between particles carrying $B-L$ charges. The mediator is the $B-L$ gauge boson called F\'eeton. In this letter, we propose a novel experimental design to detect the quantum phase difference caused by this fifth force using a superconducting Josephson junction. We find that the experiment has the best sensitivity to the gauge coupling when the gauge boson is within the mass range of $10^{-2}\,$eV to $100\,$eV.
翻訳日:2024-02-23 15:14:12 公開日:2024-02-22
# 血管性フィルタの新たな組み合わせによる深部血管のセグメンテーション

Deep vessel segmentation based on a new combination of vesselness filters ( http://arxiv.org/abs/2402.14509v1 )

ライセンス: Link先を確認
Guillaume Garret and Antoine Vacavant and Carole Frindel(参考訳) 血管セグメンテーションは重要な臨床課題であるが、その自動化は依然として困難である。 近年の深層学習の進歩により、学習過程を著しく支援する船体性フィルタは見過ごされている。 本研究では, 容器分割モデルの有効性を増幅する新しいフィルタ融合法を提案する。 本研究は, 比較分析により, フィルタに基づく学習手法のメリットを確立することを目的とする。 具体的には,CT画像上でトレーニングしたU-Netモデルと,一致パラメータを用いた血管性ハイパーボリュームでトレーニングした同一のU-Net構成とを比較した。 2つの血管データセットに基づいて, モデルの学習が血管強調入力に曝露した場合, 特に小血管に対するセグメント化の改善を強調した。

Vascular segmentation represents a crucial clinical task, yet its automation remains challenging. Because of the recent strides in deep learning, vesselness filters, which can significantly aid the learning process, have been overlooked. This study introduces an innovative filter fusion method crafted to amplify the effectiveness of vessel segmentation models. Our investigation seeks to establish the merits of a filter-based learning approach through a comparative analysis. Specifically, we contrast the performance of a U-Net model trained on CT images with an identical U-Net configuration trained on vesselness hyper-volumes using matching parameters. Our findings, based on two vascular datasets, highlight improved segmentations, especially for small vessels, when the model's learning is exposed to vessel-enhanced inputs.
翻訳日:2024-02-23 15:14:02 公開日:2024-02-22
# 視覚位置認識のための事前学習モデルのシームレス適応化に向けて

Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition ( http://arxiv.org/abs/2402.14505v1 )

ライセンス: Link先を確認
Feng Lu, Lijun Zhang, Xiangyuan Lan, Shuting Dong, Yaowei Wang, Chun Yuan(参考訳) 近年の研究では、大規模データを用いた汎用視覚学習タスクで事前学習された視覚モデルは、幅広い視覚知覚問題に対して有用な特徴表現を提供できることが示されている。 しかし、visual place recognition (vpr) で事前訓練された基礎モデルを活用する試みはほとんど行われていない。 モデル事前トレーニングとVPRのタスク間のトレーニング目標とデータに固有の違いがあるため、どのようにギャップを埋め、VPRの事前トレーニングモデルの能力を完全に解き放つかは、依然として対処すべき重要な問題である。 そこで本研究では,vprのための事前学習モデルのシームレス適応を実現する新しい手法を提案する。 具体的には,地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために,グローバルな適応とローカルな適応の両方を効率的に実現するためのハイブリッド適応法を設計する。 また,有効適応の導出として,局所的マッチングに適切な局所的特徴が生成され,再ランク付けに要する時間的空間的検証を回避できる相互近接局所的特徴損失を提案する。 実験結果から,本手法は訓練データとトレーニング時間が少なくて最先端の手法より優れており,RANSACによる空間的検証を行う2段階VPR手法の検索ランタイムは3%程度であることがわかった。 MSLSチャレンジリーダーボード(応募時点で)で1位にランクインしている。 コードはhttps://github.com/Lu-Feng/SelaVPRで公開されている。

Recent studies show that vision models pre-trained in generic visual learning tasks with large-scale data can provide useful feature representations for a wide range of visual perception problems. However, few attempts have been made to exploit pre-trained foundation models in visual place recognition (VPR). Due to the inherent difference in training objectives and data between the tasks of model pre-training and VPR, how to bridge the gap and fully unleash the capability of pre-trained models for VPR is still a key issue to address. To this end, we propose a novel method to realize seamless adaptation of pre-trained models for VPR. Specifically, to obtain both global and local features that focus on salient landmarks for discriminating places, we design a hybrid adaptation method to achieve both global and local adaptation efficiently, in which only lightweight adapters are tuned without adjusting the pre-trained model. Besides, to guide effective adaptation, we propose a mutual nearest neighbor local feature loss, which ensures proper dense local features are produced for local matching and avoids time-consuming spatial verification in re-ranking. Experimental results show that our method outperforms the state-of-the-art methods with less training data and training time, and uses about only 3% retrieval runtime of the two-stage VPR methods with RANSAC-based spatial verification. It ranks 1st on the MSLS challenge leaderboard (at the time of submission). The code is released at https://github.com/Lu-Feng/SelaVPR.
翻訳日:2024-02-23 15:13:49 公開日:2024-02-22
# 「私の答えはcです」--初歩的な確率は命令型言語モデルではテキストの答えと一致しない

"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models ( http://arxiv.org/abs/2402.14499v1 )

ライセンス: Link先を確認
Xinpeng Wang, Bolei Ma, Chengzhi Hu, Leon Weber-Genzel, Paul R\"ottger, Frauke Kreuter, Dirk Hovy, Barbara Plank(参考訳) 言語生成のオープンな性質は、自己回帰型大規模言語モデル(LLM)の評価を困難にしている。 1つの一般的な評価手法は、応答空間を制限するために多重選択質問(MCQ)を用いる。 次に、第1トークン予測のログ確率で候補回答をランク付けしてモデルを評価する。 しかし、"Sure"から始まるモデルや応答の拒否など、モデルのさまざまなレスポンススタイルのため、ファーストトークンは最終的なレスポンス出力を一貫して反映しない可能性がある。 その結果,MCQ評価は,ユーザとのインタラクションにおいてモデル動作を示すものではない。 でも、いくらで? そこで本研究では, 最終選択選択, 拒否率, 選択分布, 頑健性など, 複数次元のテキスト出力と一元的評価の整合性を評価する。 その結果,この2つのアプローチは全次元において著しく不整合であり,60%以上のミスマッチ率に達した。 会話データや安全データに微調整されたモデルは、特に影響を受けます。 重要なのは、プロンプトがますます制限され、オプションレターや例のテンプレートから始めるように強制しても、モデルは不整合のままです。 私たちの発見 一 テキストの出力を検査することの重要性を強調すること。 二 第一評価のみに頼ることに注意すること。

The open-ended nature of language generation makes the evaluation of autoregressive large language models (LLMs) challenging. One common evaluation approach uses multiple-choice questions (MCQ) to limit the response space. The model is then evaluated by ranking the candidate answers by the log probability of the first token prediction. However, first-tokens may not consistently reflect the final response output, due to model's diverse response styles such as starting with "Sure" or refusing to answer. Consequently, MCQ evaluation is not indicative of model behaviour when interacting with users. But by how much? We evaluate how aligned first-token evaluation is with the text output along several dimensions, namely final option choice, refusal rate, choice distribution and robustness under prompt perturbation. Our results show that the two approaches are severely misaligned on all dimensions, reaching mismatch rates over 60%. Models heavily fine-tuned on conversational or safety data are especially impacted. Crucially, models remain misaligned even when we increasingly constrain prompts, i.e., force them to start with an option letter or example template. Our findings i) underscore the importance of inspecting the text output, too and ii) caution against relying solely on first-token evaluation.
翻訳日:2024-02-23 15:13:21 公開日:2024-02-22
# クラッタ環境における衝突検知ケーブル把持法

A Collision-Aware Cable Grasping Method in Cluttered Environment ( http://arxiv.org/abs/2402.14498v1 )

ライセンス: Link先を確認
Lei Zhang, Kaixin Bai, Qiang Li, Zhaopeng Chen, Jianwei Zhang(参考訳) 粗い環境での堅牢なケーブルグルーピングを容易にするために,ケーブルグレーピング・畳み込みニューラルネットワークを提案する。 物理シミュレーションを利用して,ケーブル把持の複雑さ,ケーブルとロボットグリッパーの衝突の要因を模倣した広範なデータセットを生成する。 近似凸分解法を用いて非凸ケーブルモデルを解析し,シミュレーションによる把持の試みに基づき,把持品質を自律的にラベル付けした。 CG-CNNは、このシミュレーションデータセットを用いて洗練され、ドメインランダム化技術によって強化される。 その後、訓練されたモデルは把持品質を予測し、最適な把持姿勢をロボットコントローラに案内して実行を行う。 把握効果は、合成と実世界の両方の設定で評価される。 衝突感度のモデルから、既知のケーブルでは92.3%、未知のケーブルでは88.4%の予測可能な成功率を達成した。 追加資料はhttps://leizhang-public.github.io/cg-cnn/ にある。

We introduce a Cable Grasping-Convolutional Neural Network designed to facilitate robust cable grasping in cluttered environments. Utilizing physics simulations, we generate an extensive dataset that mimics the intricacies of cable grasping, factoring in potential collisions between cables and robotic grippers. We employ the Approximate Convex Decomposition technique to dissect the non-convex cable model, with grasp quality autonomously labeled based on simulated grasping attempts. The CG-CNN is refined using this simulated dataset and enhanced through domain randomization techniques. Subsequently, the trained model predicts grasp quality, guiding the optimal grasp pose to the robot controller for execution. Grasping efficacy is assessed across both synthetic and real-world settings. Given our model implicit collision sensitivity, we achieved commendable success rates of 92.3% for known cables and 88.4% for unknown cables, surpassing contemporary state-of-the-art approaches. Supplementary materials can be found at https://leizhang-public.github.io/cg-cnn/ .
翻訳日:2024-02-23 15:12:58 公開日:2024-02-22
# パラメータ推定のための測定値の少ない基本境界

Fundamental bounds for parameter estimation with few measurements ( http://arxiv.org/abs/2402.14495v1 )

ライセンス: Link先を確認
Valentin Gebhart, Manuel Gessner, Augusto Smerzi(参考訳) パラメータ推定タスクにおける最適精度のバウンディングは、技術応用において重要となる。 少数の測定や低信号対雑音比の体制において、Cram\'er-Rao界(CRB)のような一般的な頻繁な境界の意味は疑問視される。 そこで本研究では,様々な線形(バランカン様)条件について検討し,これらの条件が有限分散の最適推定器を任意の回数の計測繰り返しに対して許容するときに解析する。 また, 実測結果数よりも実測値数の方が大きい場合, 一般に, 有限分散の対応する推定器は存在しないことを示す。 この結果を異なる視点と例から分析し,ショットノイズ限界とキタエフ位相推定アルゴリズムとの接続について詳述した。 次に、バランキン境界が未定義の状況において有限分散と互換性のある拡張されたクラム・ラーオ境界を導出する。 最後に,パラメータ推定に対するベイズ的手法と頻繁な手法の相違点を示す。

Bounding the optimal precision in parameter estimation tasks is of central importance for technological applications. In the regime of a small number of measurements, or that of low signal-to-noise ratios, the meaning of common frequentist bounds such as the Cram\'er-Rao bound (CRB) become questionable. Here, we discuss different linear (Barankin-like) conditions that can be imposed on estimators and analyze when these conditions admit an optimal estimator with finite variance, for any number of measurement repetitions. We show that, if the number of imposed conditions is larger than the number of measurement outcomes, there generally does not exist a corresponding estimator with finite variance. We analyze this result from different viewpoints and examples and elaborate on connections to the shot-noise limit and the Kitaev phase estimation algorithm. We then derive an extended Cram\'er-Rao bound that is compatible with a finite variance in situations where the Barankin bound is undefined. Finally, we show an exemplary numerical confrontation between frequentist and Bayesian approaches to parameter estimation.
翻訳日:2024-02-23 15:12:42 公開日:2024-02-22
# noise-bert: ノイズアライメントを事前学習した統一摂動ロバストフレームワーク

Noise-BERT: A Unified Perturbation-Robust Framework with Noise Alignment Pre-training for Noisy Slot Filling Task ( http://arxiv.org/abs/2402.14494v1 )

ライセンス: Link先を確認
Jinxu Zhao, Guanting Dong, Yueyan Qiu, Tingfeng Hui, Xiaoshuai Song, Daichi Guo, Weiran Xu(参考訳) 現実的な対話システムでは、ユーザからの入力情報は様々な種類の入力摂動を受けており、スロット充足作業に影響を及ぼす。 規則に基づくデータ拡張手法は良好な結果を得たが、未知のノイズ障害に直面した場合、望ましい一般化を示すことができない。 本研究では,ノイズアライメント事前学習と統合型摂動ロバストフレームワークであるNoss-BERTを提案することで,スロット充填における入力摂動による課題に対処する。 提案手法は,スロットマスキング予測と文不明瞭性判定の2つの事前学習タスクを組み込んで,正確なスロット情報と雑音分布を捉えた事前学習言語モデルを導出することを目的としている。 微調整の間、我々はエンティティとラベルの意味表現を強化するために対照的な学習損失を用いる。 さらに,モデルのロバスト性を改善するために,敵対的攻撃訓練戦略を導入する。 実験結果から,提案手法が最先端モデルよりも優れていることを示し,その効果と一般化能力のさらなる分析を行った。

In a realistic dialogue system, the input information from users is often subject to various types of input perturbations, which affects the slot-filling task. Although rule-based data augmentation methods have achieved satisfactory results, they fail to exhibit the desired generalization when faced with unknown noise disturbances. In this study, we address the challenges posed by input perturbations in slot filling by proposing Noise-BERT, a unified Perturbation-Robust Framework with Noise Alignment Pre-training. Our framework incorporates two Noise Alignment Pre-training tasks: Slot Masked Prediction and Sentence Noisiness Discrimination, aiming to guide the pre-trained language model in capturing accurate slot information and noise distribution. During fine-tuning, we employ a contrastive learning loss to enhance the semantic representation of entities and labels. Additionally, we introduce an adversarial attack training strategy to improve the model's robustness. Experimental results demonstrate the superiority of our proposed approach over state-of-the-art models, and further analysis confirms its effectiveness and generalization ability.
翻訳日:2024-02-23 15:12:22 公開日:2024-02-22
# INSTRAUG:マルチモーダルインストラクションファインタニングのための自動インストラクション拡張

INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction Fine-tuning ( http://arxiv.org/abs/2402.14492v1 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Soujanya Poria(参考訳) マルチタスク命令追従データにおける大規模言語モデル(llm)の微調整は、新しいタスクのゼロショット能力を改善するための強力な学習パラダイムであることが証明されている。 高品質な命令追従データ生成と選択に関する最近の研究は、与えられたタスクに対するモデル理解可能な命令を判断し、LLM生成データを慎重にフィルタリングするために、人間の労力を必要とする。 本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。 基本的で簡単なメタ命令から始まるが、命令追跡データセットを30倍拡張することができる。 multiinstructとinstructblipの2つの一般的なマルチモーダル命令フォローベンチマークの結果、instraugは12のマルチモーダルタスクにまたがるマルチモーダル大規模言語モデル(mllms)のアライメントを大幅に改善できることが示されている。

Fine-tuning large language models (LLMs) on multi-task instruction-following data has been proven to be a powerful learning paradigm for improving their zero-shot capabilities on new tasks. Recent works about high-quality instruction-following data generation and selection require amounts of human labor to conceive model-understandable instructions for the given tasks and carefully filter the LLM-generated data. In this work, we introduce an automatic instruction augmentation method named INSTRAUG in multimodal tasks. It starts from a handful of basic and straightforward meta instructions but can expand an instruction-following dataset by 30 times. Results on two popular multimodal instructionfollowing benchmarks MULTIINSTRUCT and InstructBLIP show that INSTRAUG can significantly improve the alignment of multimodal large language models (MLLMs) across 12 multimodal tasks, which is even equivalent to the benefits of scaling up training data multiple times.
翻訳日:2024-02-23 15:11:58 公開日:2024-02-22
# 平衡K平均を用いた不均衡データクラスタリング

Imbalanced Data Clustering using Equilibrium K-Means ( http://arxiv.org/abs/2402.14490v1 )

ライセンス: Link先を確認
Yudong He(参考訳) 異なるクラスタにまたがるデータポイントの不均等分布を特徴とする不均衡データは、ハードK平均(HKM、ロイドのアルゴリズム)やファジィK平均(FKM、ベズデックのアルゴリズム)といった従来のハードおよびファジィクラスタリングアルゴリズムに挑戦する。 本稿では,2つのステップを交互に交互に行う新しいK-means型アルゴリズムである平衡K-means(EKM)を導入し,大クラスタの中心に集束するセントロイドの傾向を減少させることにより,不均衡なデータに対するクラスタリング結果を大幅に改善する。 また,hkm,fkm,ekmの統一的な視点を示し,それらはニュートン法と明示的な関係を持つ勾配降下アルゴリズムであることを示した。 EKMはFKMと同じ時間と空間の複雑さを持つが、メンバーシップの定義に対してより明確な物理的意味を提供する。 HKM, FKM, 最大エントロピーファジィクラスタリング, 不均衡データ用に設計された2つのFKM変種, ガウス混合モデルなど, 様々なクラスタリングアルゴリズムと比較して, 合成データと10個の実データに対するEKMの性能について述べる。 その結果、EKMはバランスの取れたデータに対して競争力を発揮しつつ、不均衡なデータでは他の手法よりも優れていた。 高次元データクラスタリングのために,深層ニューラルネットワークによる高次元データを低次元のekmフレンドリーな空間にマッピングすることで,より識別的な表現が得られることを示す。 EKMによるディープクラスタリングは、HKMに基づくディープクラスタリングと比較して、MNISTから派生した不均衡データセットのクラスタリング精度を35%向上させる。

Imbalanced data, characterized by an unequal distribution of data points across different clusters, poses a challenge for traditional hard and fuzzy clustering algorithms, such as hard K-means (HKM, or Lloyd's algorithm) and fuzzy K-means (FKM, or Bezdek's algorithm). This paper introduces equilibrium K-means (EKM), a novel and simple K-means-type algorithm that alternates between just two steps, yielding significantly improved clustering results for imbalanced data by reducing the tendency of centroids to crowd together in the center of large clusters. We also present a unifying perspective for HKM, FKM, and EKM, showing they are essentially gradient descent algorithms with an explicit relationship to Newton's method. EKM has the same time and space complexity as FKM but offers a clearer physical meaning for its membership definition. We illustrate the performance of EKM on two synthetic and ten real datasets, comparing it to various clustering algorithms, including HKM, FKM, maximum-entropy fuzzy clustering, two FKM variations designed for imbalanced data, and the Gaussian mixture model. The results demonstrate that EKM performs competitively on balanced data while significantly outperforming other techniques on imbalanced data. For high-dimensional data clustering, we demonstrate that a more discriminative representation can be obtained by mapping high-dimensional data via deep neural networks into a low-dimensional, EKM-friendly space. Deep clustering with EKM improves clustering accuracy by 35% on an imbalanced dataset derived from MNIST compared to deep clustering based on HKM.
翻訳日:2024-02-23 15:11:37 公開日:2024-02-22
# 医用画像データセットの自己教師型可視化

Self-supervised Visualisation of Medical Image Datasets ( http://arxiv.org/abs/2402.14566v1 )

ライセンス: Link先を確認
Ifeoma Veronica Nwabufo, Jan Niklas B\"ohm, Philipp Berens, Dmitry Kobak(参考訳) SimCLR、BYOL、DINOなどのデータ拡張に基づく自己教師付き学習手法により、画像データセットの意味論的意味のある表現が得られ、教師付き微調整の前に広く使用される。 最近の自己教師型学習手法である$t$-SimCNEは、コントラスト学習を用いて、視覚化に適した2D表現を直接訓練する。 自然画像データセットに適用すると、$t$-simcne は意味的に意味のあるクラスタで2次元の可視化を行う。 本研究では,皮膚科学,組織学,血液顕微鏡などの医療画像データセットの可視化に$t$-SimCNEを用いた。 その結果、任意の回転を含むデータ拡張のセットを増加させることで、自然画像に使用されるデータ拡張に比べてクラス分離性が向上した。 我々の2D表現は、医学的に関係のある構造を示し、データ探索とアノテーションを補助し、データの可視化のための一般的なアプローチを改善するために使用できる。

Self-supervised learning methods based on data augmentations, such as SimCLR, BYOL, or DINO, allow obtaining semantically meaningful representations of image datasets and are widely used prior to supervised fine-tuning. A recent self-supervised learning method, $t$-SimCNE, uses contrastive learning to directly train a 2D representation suitable for visualisation. When applied to natural image datasets, $t$-SimCNE yields 2D visualisations with semantically meaningful clusters. In this work, we used $t$-SimCNE to visualise medical image datasets, including examples from dermatology, histology, and blood microscopy. We found that increasing the set of data augmentations to include arbitrary rotations improved the results in terms of class separability, compared to data augmentations used for natural images. Our 2D representations show medically relevant structures and can be used to aid data exploration and annotation, improving on common approaches for data visualisation.
翻訳日:2024-02-23 15:05:33 公開日:2024-02-22
# 一般量子ビット軸対称状態に対するLQUとLQFIの閉じたコンパクト形式

Closed compact forms of LQU and LQFI for general qubit-qutrit axially symmetric states ( http://arxiv.org/abs/2402.14560v1 )

ライセンス: Link先を確認
Mikhail A. Yurischev, Saeed Haddadi, Mehrdad Ghominejad(参考訳) 局所量子不確かさ (lqu) と局所量子フィッシャー情報 (lqfi) の閉コンパクト形式を軸対称なハイブリッド状態に対して導出する。 導出式の適用例として、熱平衡における2つの量子相関測度の挙動を考察する。 量子情報処理において重要な行動に新しい特徴が観察される。 興味深いことに、LQUとLQFIの分析式は、他のシナリオや問題にも有用である。

We derive the closed compact forms of local quantum uncertainty (LQU) and local quantum Fisher information (LQFI) for hybrid qubit-qutrit axially symmetric states. As an application of the derived formulas, we study the behavior of these two quantum correlation measures at thermal equilibrium. New features are observed in their behavior that are important for quantum information processing. Interestingly, our analytical expressions for LQU and LQFI can also be useful in other scenarios and problems.
翻訳日:2024-02-23 15:05:17 公開日:2024-02-22
# 産業用レンズを用いたllms - 課題と展望の解明-

LLMs with Industrial Lens: Deciphering the Challenges and Prospects -- A Survey ( http://arxiv.org/abs/2402.14558v1 )

ライセンス: Link先を確認
Ashok Urlana, Charaka Vinayak Kumar, Ajeet Kumar Singh, Bala Mallikarjunarao Garlapati, Srinivasa Rao Chalamala, Rahul Mishra(参考訳) 大規模言語モデル (LLMs) は様々な産業用途を駆動する秘密の要素となり、様々なタスクにまたがる優れた汎用性を示している。 自然言語処理や感情分析からコンテンツ生成、パーソナライズドレコメンデーションに至るまで、その非並列性は業界全体で広く採用されている。 llmsによって推進されるこの変化は、その利用の強化のために関連する課題や道を探る必要性を浮き彫りにしている。 本稿では,産業環境におけるLCMの活用に伴う障害や機会を解明し,評価することを目的とする。 この目的のために,産業実践者グループを対象とした調査を行い,収集した洞察から得られた4つの研究質問を作成し,68の産業論文を調査し,有意義な結論を得る。

Large language models (LLMs) have become the secret ingredient driving numerous industrial applications, showcasing their remarkable versatility across a diverse spectrum of tasks. From natural language processing and sentiment analysis to content generation and personalized recommendations, their unparalleled adaptability has facilitated widespread adoption across industries. This transformative shift driven by LLMs underscores the need to explore the underlying associated challenges and avenues for enhancement in their utilization. In this paper, our objective is to unravel and evaluate the obstacles and opportunities inherent in leveraging LLMs within an industrial context. To this end, we conduct a survey involving a group of industry practitioners, develop four research questions derived from the insights gathered, and examine 68 industry papers to address these questions and derive meaningful conclusions.
翻訳日:2024-02-23 15:05:09 公開日:2024-02-22
# YIG/Permalloy界面における反強磁性結合の起源の解明

Unraveling the origin of antiferromagnetic coupling at YIG/permalloy interface ( http://arxiv.org/abs/2402.14553v1 )

ライセンス: Link先を確認
Jiangchao Qian, Yi Li, Zhihao Jiang, Robert Busch, Hsu-Chih Ni, Tzu-Hsiang Lo, Axel Hoffmann, Andre Schleife, Jian-Min Zuo(参考訳) イットリウム鉄ガーネット(YIG)とパーマロイ(Py)の原子レベルにおける反強磁性結合の構造と電子的起源について検討した。 強磁性共鳴 (fmr) はyig/py界面における反強磁性交換結合を示す表面イオンミリング法で作製した試料に特有のハイブリッドモードを示す。 走査型透過電子顕微鏡 (stem) を用いて, イオンミリングによる界面差を強調する。 yig/py二層膜の反強磁性結合は、密度汎関数理論(dft)計算によって支持される四面体fe終端yig表面上の酸素による超交換結合機構によって主に駆動されることが示唆された。 本研究は、磁性二層膜におけるカップリングの効率を規定する基本機構に関する批判的洞察を与え、磁気界面ダイナミクスの変調における酸化物表面終端の重要役割を強調する。

We investigate the structural and electronic origin of antiferromagnetic coupling in the Yttrium iron garnet (YIG) and permalloy (Py) bilayer system at the atomic level. Ferromagnetic Resonance (FMR) reveal unique hybrid modes in samples prepared with surface ion milling, indicative of antiferromagnetic exchange coupling at the YIG/Py interface. Using scanning transmission electron microscopy (STEM), we highlight significant interfacial differences introduced by ion-milling. The observations suggests that the antiferromagnetic coupling in YIG/Py bilayers is predominantly driven by an oxygen-mediated super-exchange coupling mechanism on the tetrahedral Fe terminated YIG surface, which is supported by density functional theory (DFT) calculations. This research provides critical insight into the fundamental mechanisms governing the efficiency of coupling in magnetic bilayers and underscores the pivotal role of oxide surface termination in modulating magnetic interfacial dynamics.
翻訳日:2024-02-23 15:04:52 公開日:2024-02-22
# CLCE:最適化学習融合のためのクロスエントロピーとコントラスト学習の精製手法

CLCE: An Approach to Refining Cross-Entropy and Contrastive Learning for Optimized Learning Fusion ( http://arxiv.org/abs/2402.14551v1 )

ライセンス: Link先を確認
Zijun Long and George Killick and Lipeng Zhuang and Gerardo Aragon-Camarasa and Zaiqiao Meng and Richard Mccreadie(参考訳) State-of-the-the-art pre-trained image modelは、主に2段階のアプローチを採用する。 しかし、CEがモデル一般化と安定性を妥協できることが示されている。 対照的な学習を取り入れた最近の研究は、埋め込みの品質を高め、より良い意思決定境界を生み出すことによって、これらの制限に対処する一方で、ハードネガティブなマイニングの重要性を見落とし、大規模なサンプルバッチを使用したリソース集約的かつ遅いトレーニングに依存していることが多い。 これらの問題に対処するために,ラベル認識コントラスト学習とCEを統合するCLCEという新しいアプローチを導入する。 本手法は,両損失関数の強みを維持するだけでなく,相乗効果を高めるために強負マイニングを活用する。 実験の結果、CLCEは12のベンチマークでトップ1の精度でCEを大きく上回り、数ショットの学習シナリオでは3.52%、BEiT-3モデルでは3.41%のゲインを得た。 さらに,本提案手法は,従来予算制限されたハードウェア環境におけるコントラスト学習の適用を制限していた4096サンプルなどの大規模バッチサイズに対するコントラスト学習の依存性を効果的に軽減するものである。

State-of-the-art pre-trained image models predominantly adopt a two-stage approach: initial unsupervised pre-training on large-scale datasets followed by task-specific fine-tuning using Cross-Entropy loss~(CE). However, it has been demonstrated that CE can compromise model generalization and stability. While recent works employing contrastive learning address some of these limitations by enhancing the quality of embeddings and producing better decision boundaries, they often overlook the importance of hard negative mining and rely on resource intensive and slow training using large sample batches. To counter these issues, we introduce a novel approach named CLCE, which integrates Label-Aware Contrastive Learning with CE. Our approach not only maintains the strengths of both loss functions but also leverages hard negative mining in a synergistic way to enhance performance. Experimental results demonstrate that CLCE significantly outperforms CE in Top-1 accuracy across twelve benchmarks, achieving gains of up to 3.52% in few-shot learning scenarios and 3.41% in transfer learning settings with the BEiT-3 model. Importantly, our proposed CLCE approach effectively mitigates the dependency of contrastive learning on large batch sizes such as 4096 samples per batch, a limitation that has previously constrained the application of contrastive learning in budget-limited hardware environments.
翻訳日:2024-02-23 15:04:32 公開日:2024-02-22
# OmniPred:Universal Regressorsとしての言語モデル

OmniPred: Language Models as Universal Regressors ( http://arxiv.org/abs/2402.14547v1 )

ライセンス: Link先を確認
Xingyou Song, Oscar Li, Chansoo Lee, Bangding (Jeffrey) Yang, Daiyi Peng, Sagi Perel, Yutian Chen(参考訳) 実験設計の広い視野において、回帰は、パラメータのセットが与えられたシステムやモデルの結果メトリクスを正確に予測する強力なツールであるが、伝統的に特定のタスクにのみ適用可能なメソッドに限られてきた。 本稿では,多種多様な実世界実験から得られた$(x,y)$の評価データに対して,汎用的なエンドツーエンドレグレッサとして言語モデルをトレーニングするためのフレームワークであるomnipredを提案する。 世界最大のブラックボックス最適化データベースであるGoogle Vizierからソースされたデータを用いて、我々の広範な実験は、数学的パラメータと値のテキスト表現のみによって、言語モデルは非常に正確な数値回帰が可能であり、複数のタスクをトレーニングする機会が与えられれば、従来の回帰モデルよりも大幅に向上することを示した。

Over the broad landscape of experimental design, regression has been a powerful tool to accurately predict the outcome metrics of a system or model given a set of parameters, but has been traditionally restricted to methods which are only applicable to a specific task. In this paper, we propose OmniPred, a framework for training language models as universal end-to-end regressors over $(x,y)$ evaluation data from diverse real world experiments. Using data sourced from Google Vizier, one of the largest blackbox optimization databases in the world, our extensive experiments demonstrate that through only textual representations of mathematical parameters and values, language models are capable of very precise numerical regression, and if given the opportunity to train over multiple tasks, can significantly outperform traditional regression models.
翻訳日:2024-02-23 15:04:05 公開日:2024-02-22
# less is more: eosによるマルチモーダル幻覚の緩和

Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective ( http://arxiv.org/abs/2402.14545v1 )

ライセンス: Link先を確認
Zihao Yue, Liang Zhang, Qin Jin(参考訳) 大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。 本稿では,この問題の新たなアングルを探究する:過度に詳細なトレーニングデータにより,モデルが生成をタイムリーに終了する能力が損なわれ,視覚的知覚限界を超えて出力が継続する。 特殊な終末トークンであるEOSを用いて、モデルがどのように生成を終了させるかを調べることで、生成したテキストと画像を比較してシーケンス全体の完全性を評価する。 この観察は、モデルが過度に長い出力を避けるために、その視覚的知覚に基づいて適切なEOS決定を行う固有の可能性を持っていることを示唆している。 このような可能性を活用するために,モデルが正規指導データから学習することで幻覚を減らすことができる訓練目標と,有害な訓練データがモデル幻覚を悪化させるのを防ぐためのデータフィルタリング戦略の2つの手法を検討する。 どちらの手法も追加のデータや知識を必要とせずにLMMの幻覚性能を大幅に向上させる。

Large Multimodal Models (LMMs) often suffer from multimodal hallucinations, wherein they may create content that is not present in the visual inputs. In this paper, we explore a new angle of this issue: overly detailed training data hinders the model's ability to timely terminate generation, leading to continued outputs beyond visual perception limits. By investigating how the model decides to terminate generation with EOS, the special end-of-sentence token, we find that the model assesses the completeness of the entire sequence by comparing the generated text with the image. This observation suggests that the model possesses an inherent potential of making proper EOS decisions based on its visual perception to avoid overly lengthy outputs. To take advantage of such potential, we explore two methods to mitigate multimodal hallucinations: a training objective that enables the model to reduce hallucinations by learning from regular instruction data, and a data filtering strategy to prevent harmful training data from exacerbating model hallucinations. Both methods significantly improve the hallucination performance of LMMs, without requiring any additional data or knowledge.
翻訳日:2024-02-23 15:03:50 公開日:2024-02-22
# 新しい希望:モバイルアプリケーションのコンテキストプライバシーポリシーと自動生成へのアプローチ

{A New Hope}: Contextual Privacy Policies for Mobile Applications and An Approach Toward Automated Generation ( http://arxiv.org/abs/2402.14544v1 )

ライセンス: Link先を確認
Shidong Pan, Zhen Tao, Thong Hoang, Dawen Zhang, Tianshi Li, Zhenchang Xing, Sherry Xu, Mark Staples, Thierry Rakotoarivelo, David Lo(参考訳) プライバシーポリシーは、モバイルアプリケーションユーザーにプライバシー通知を伝えるための主要なアプローチとして現れてきた。 可読性とユーザエンゲージメントを両立させるために,コンテキストプライバシポリシ(CPP)の概念が研究者によって提案されている。 CPPの目的は、プライバシーポリシーを簡潔なスニペットに断片化し、アプリケーションのグラフィカルユーザインターフェイス(GUI)内の対応するコンテキスト内でのみ表示することである。 本稿では,モバイルアプリケーションシナリオでCPPを初めて定式化し,モバイルアプリケーション用のCPPを自動生成するSeePrivacyという新しいマルチモーダルフレームワークを提案する。 この方法は、視覚に基づくGUI理解とプライバシポリシ分析を一意に統合し、コンテキストを検出するために0.88の精度と0.90のリコール、対応するポリシーセグメントを抽出する0.98の精度と0.96のリコールを達成する。 人間による評価では、抽出されたプライバシーポリシーセグメントの77%が、検出されたコンテキストとよく一致していることがわかった。 これらの結果は、SeeePrivacyが、プライバシーポリシーとのユーザーインタラクションを強化し、理解するための重要なツールになり得ることを示唆している。 さらに、私たちのソリューションは、プライバシー通知をよりアクセスしやすく、包括的にする可能性を秘めています。 私たちの作業のデモはhttps://cpp4app.github.io/SeePrivacy/でアクセスできます。

Privacy policies have emerged as the predominant approach to conveying privacy notices to mobile application users. In an effort to enhance both readability and user engagement, the concept of contextual privacy policies (CPPs) has been proposed by researchers. The aim of CPPs is to fragment privacy policies into concise snippets, displaying them only within the corresponding contexts within the application's graphical user interfaces (GUIs). In this paper, we first formulate CPP in mobile application scenario, and then present a novel multimodal framework, named SeePrivacy, specifically designed to automatically generate CPPs for mobile applications. This method uniquely integrates vision-based GUI understanding with privacy policy analysis, achieving 0.88 precision and 0.90 recall to detect contexts, as well as 0.98 precision and 0.96 recall in extracting corresponding policy segments. A human evaluation shows that 77% of the extracted privacy policy segments were perceived as well-aligned with the detected contexts. These findings suggest that SeePrivacy could serve as a significant tool for bolstering user interaction with, and understanding of, privacy policies. Furthermore, our solution has the potential to make privacy notices more accessible and inclusive, thus appealing to a broader demographic. A demonstration of our work can be accessed at https://cpp4app.github.io/SeePrivacy/
翻訳日:2024-02-23 15:03:30 公開日:2024-02-22
# クロスドメイン感情分析のための因果調整によるドメイン一般化

Domain Generalization via Causal Adjustment for Cross-Domain Sentiment Analysis ( http://arxiv.org/abs/2402.14536v1 )

ライセンス: Link先を確認
Siyin Wang, Jie Zhou, Qin Chen, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) ドメイン適応は、ソースドメインからターゲットドメインに知識を移すために、クロスドメイン感情分析に広く適用されています。 一方、ほとんどのメソッドはターゲット(テスト)ドメインが知られていると仮定して提案されており、実際には必ずしも利用可能ではない未知のテストデータに対してうまく一般化できない。 本稿では,クロスドメイン感情分析におけるドメイン一般化の問題に着目する。 具体的には、ドメインシフトに取り組む上で不可欠な役割を担うドメイン固有表現とドメイン不変表現を分離するバックドア調整に基づく因果モデルを提案する。 まず,異なる変数間の因果関係をモデル化するために,クロスドメイン感情分析タスクを因果的視点で再考する。 そして、不変の特徴表現を学習するために、バックドア調整を用いてドメイン共同創設者(例えば、ドメイン知識)の効果を取り除く。 多くのホモロジーおよび多様なデータセットに対する一連の実験は、最先端の領域一般化ベースラインと比較することにより、我々のモデルの優れた性能と堅牢性を示している。

Domain adaption has been widely adapted for cross-domain sentiment analysis to transfer knowledge from the source domain to the target domain. Whereas, most methods are proposed under the assumption that the target (test) domain is known, making them fail to generalize well on unknown test data that is not always available in practice. In this paper, we focus on the problem of domain generalization for cross-domain sentiment analysis. Specifically, we propose a backdoor adjustment-based causal model to disentangle the domain-specific and domain-invariant representations that play essential roles in tackling domain shift. First, we rethink the cross-domain sentiment analysis task in a causal view to model the causal-and-effect relationships among different variables. Then, to learn an invariant feature representation, we remove the effect of domain confounders (e.g., domain knowledge) using the backdoor adjustment. A series of experiments over many homologous and diverse datasets show the great performance and robustness of our model by comparing it with the state-of-the-art domain generalization baselines.
翻訳日:2024-02-23 15:03:05 公開日:2024-02-22
# それは誰のLSMですか。 GPT-3.5, GPT-4, Bardの言語学的比較とLLM特性

Whose LLM is it Anyway? Linguistic Comparison and LLM Attribution for GPT-3.5, GPT-4 and Bard ( http://arxiv.org/abs/2402.14533v1 )

ライセンス: Link先を確認
Ariel Rosenfeld, Teddy Lazebnik(参考訳) 大規模言語モデル(LLM)は、人間の品質に類似したテキストを生成することができる。 しかし、LLMが人間の作法と類似した独特の言語スタイルを示す傾向があるかどうかは不明である。 包括的言語分析により,現在最も普及している3つのllm (gpt-3.5, gpt-4, bard) の語彙,部分音声(pos)分布,係り受け分布,テキストの感情を多様な入力と比較した。 以上の結果から,本書の分類モデルを用いて,与えられたテキストを適切な88\%の精度でllm原点に分類することが可能な,重要な言語的変異が指摘された。 この興味深い発見の理論的および実践的な意味について論じる。

Large Language Models (LLMs) are capable of generating text that is similar to or surpasses human quality. However, it is unclear whether LLMs tend to exhibit distinctive linguistic styles akin to how human authors do. Through a comprehensive linguistic analysis, we compare the vocabulary, Part-Of-Speech (POS) distribution, dependency distribution, and sentiment of texts generated by three of the most popular LLMS today (GPT-3.5, GPT-4, and Bard) to diverse inputs. The results point to significant linguistic variations which, in turn, enable us to attribute a given text to its LLM origin with a favorable 88\% accuracy using a simple off-the-shelf classification model. Theoretical and practical implications of this intriguing finding are discussed.
翻訳日:2024-02-23 15:02:48 公開日:2024-02-22
# ヘテロセダス性不確かさを持つ軽量ベイズニューラルネットワークの変分推定のための枠組み

A Framework for Variational Inference of Lightweight Bayesian Neural Networks with Heteroscedastic Uncertainties ( http://arxiv.org/abs/2402.14532v1 )

ライセンス: Link先を確認
David J. Schodt, Ryan Brown, Michael Merritt, Samuel Park, Delsin Menolascino, Mark A. Peot(参考訳) ベイジアンニューラルネットワーク(BNN)から異種確率的予測の不確実性を取得することは、多くのアプリケーションにとって不可欠である。 ヘテロシedastic aleatoric uncertaintyは予測手段に加えてbnnの出力として学習されることが多いが、ネットワークにもっと学習可能なパラメータを追加する必要がある。 本研究では,bnnパラメータの分散にヘテロシedastic aleatoric と epistemic variance を組み込むことにより,軽量ネットワークの予測性能を向上させることを実証する。 提案手法をモーメント伝搬手法で補完することにより,軽量BNNに適したサンプリング不要な変分推論のための比較的単純なフレームワークを提案する。

Obtaining heteroscedastic predictive uncertainties from a Bayesian Neural Network (BNN) is vital to many applications. Often, heteroscedastic aleatoric uncertainties are learned as outputs of the BNN in addition to the predictive means, however doing so may necessitate adding more learnable parameters to the network. In this work, we demonstrate that both the heteroscedastic aleatoric and epistemic variance can be embedded into the variances of learned BNN parameters, improving predictive performance for lightweight networks. By complementing this approach with a moment propagation approach to inference, we introduce a relatively simple framework for sampling-free variational inference suitable for lightweight BNNs.
翻訳日:2024-02-23 15:02:30 公開日:2024-02-22
# LLMを尊重すべきか? LLM性能に及ぼすプロンプト性の影響に関する言語横断的研究

Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance ( http://arxiv.org/abs/2402.14531v1 )

ライセンス: Link先を確認
Ziqi Yin, Hao Wang, Kaito Horio, Daisuke Kawahara, Satoshi Sekine(参考訳) 大規模言語モデル (LLM) の性能に及ぼすプロンプトの丁寧度レベルの影響について検討する。 人間のコミュニケーションにおけるポリト言語は、よりコンプライアンスと効率性を高め、無礼は逆転を引き起こし、応答品質に影響を及ぼす。 LLMは人間のコミュニケーション特性を反映しており、人間の文化規範と一致していると考えられる。 我々は、英語、中国語、日本語タスクにおけるLLMに対するプロンプトの丁寧さの影響を評価する。 不規則なプロンプトがしばしばパフォーマンスを低下させるが、過度に丁寧な言語はより良い結果を保証しない。 最高の礼儀正しいレベルは言語によって異なります。 この現象は、LLMが人間の行動を反映するだけでなく、言語、特に異なる文化的文脈にも影響されていることを示唆している。 本研究は,多文化間自然言語処理とLLM利用における礼儀正しさの必要性を明らかにするものである。

We investigate the impact of politeness levels in prompts on the performance of large language models (LLMs). Polite language in human communications often garners more compliance and effectiveness, while rudeness can cause aversion, impacting response quality. We consider that LLMs mirror human communication traits, suggesting they align with human cultural norms. We assess the impact of politeness in prompts on LLMs across English, Chinese, and Japanese tasks. We observed that impolite prompts often result in poor performance, but overly polite language does not guarantee better outcomes. The best politeness level is different according to the language. This phenomenon suggests that LLMs not only reflect human behavior but are also influenced by language, particularly in different cultural contexts. Our findings highlight the need to factor in politeness for cross-cultural natural language processing and LLM usage.
翻訳日:2024-02-23 15:02:16 公開日:2024-02-22
# 非マルコフ位相雑音下における単一量子ビットゲートの動的量子マップ

Dynamical quantum maps for single-qubit gates under non-Markovian phase noise ( http://arxiv.org/abs/2402.14530v1 )

ライセンス: Link先を確認
J. M. S\'anchez Vel\'azquez, A. Steiner, R. Freund, M. Guevara-Bertsch, Ch. D. Marciniak, T. Monz, A. Bermudez(参考訳) ノイズは、精度が必要な設定では、ユビキタスであり、一般的に削除される。 これは、システムユーティリティが影響下で急速に崩壊する量子技術分野において特に当てはまる。 したがって、量子デバイスにおけるノイズを理解することは、その有害な影響を軽減または排除するための効率的な戦略の前提となる。 しかし、これはしばしば禁止されるリソースを必要とし、一般的に使用されるノイズモデルは実験的な現実から逸脱する単純化に依存する。 ここでは、単一量子ビットゲートに対して単一の実験入力のみを必要とするコンパクトな微視的誤差モデル - 雑音パワースペクトル密度 - を導出する。 我々のモデルは標準的な偏極化あるいはパウリ旋回ノイズモデルを超えており、非クリフォードおよび非マルコフの動的誤差写像への寄与を明示的に含んでいる。 我々は,トラップイオン量子コンピュータ上で動作している確立された特性評価技術に対して,実験的な指標の予測を行う。 特に,ランダム化ベンチマークを用いて測定し,量子プロセストモグラフィーにより再構成した平均ゲート誤差の実験的推定は,解析的推定により厳密に下限であることがわかった。 非マルコフ寄与を含むノイズモデリングは、動的デカップリングや動的補正ゲートなどの確立されたフレームワークに容易に適用でき、量子誤差補正のためのより現実的なしきい値を提供することができます。

Noise is both ubiquitous and generally deleterious in settings where precision is required. This is especially true in the quantum technology sector where system utility typically decays rapidly under its influence. Understanding the noise in quantum devices is thus a prerequisite for efficient strategies to mitigate or even eliminate its harmful effects. However, this requires resources that are often prohibitive, such that the typically-used noise models rely on simplifications that sometimes depart from experimental reality. Here we derive a compact microscopic error model for single-qubit gates that only requires a single experimental input - the noise power spectral density. Our model goes beyond standard depolarizing or Pauli-twirled noise models, explicitly including non-Clifford and non-Markovian contributions to the dynamical error map. We gauge our predictions for experimentally relevant metrics against established characterization techniques run on a trapped-ion quantum computer. In particular, we find that experimental estimates of average gate errors measured through randomized benchmarking and reconstructed via quantum process tomography are tightly lower-bounded by our analytical estimates, while the depolarizing model overestimates the gate error. Our noise modeling including non-Markovian contributions can be readily applied to established frameworks such as dynamical decoupling and dynamically-corrected gates, or to provide more realistic thresholds for quantum error correction.
翻訳日:2024-02-23 15:02:01 公開日:2024-02-22
# ACE : 因果性を考慮したエントロピー規則化によるオフポリシィアクター批判

ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization ( http://arxiv.org/abs/2402.14528v1 )

ライセンス: Link先を確認
Tianying Ji, Yongyuan Liang, Yan Zeng, Yu Luo, Guowei Xu, Jiawei Guo, Ruijie Zheng, Furong Huang, Fuchun Sun, Huazhe Xu(参考訳) 政策学習過程における異なる原始的行動の異なる重要性は、以前のモデルなしRLアルゴリズムによって見過ごされてきた。 この知見を生かして,様々な行動次元と報酬の因果関係を調べ,訓練中の様々な原始的行動の意義を評価する。 我々は,効率的な探索のための潜在的影響の高い行動を効果的に識別し優先順位付けする因果関係を意識したエントロピー用語を導入する。 さらに,特定の原始的行動への過度な集中を防止すべく,勾配休眠現象を分析し,休眠誘導リセット機構を導入し,本手法の有効性をさらに高める。 提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは、7つのドメインにまたがる29の異なる連続制御タスクに対して、モデルのないRLベースラインと比較して大きな性能上の優位性を示す。 ベンチマーク結果とビデオはhttps://ace-rl.github.io/で入手できる。

The varying significance of distinct primitive behaviors during the policy learning process has been overlooked by prior model-free RL algorithms. Leveraging this insight, we explore the causal relationship between different action dimensions and rewards to evaluate the significance of various primitive behaviors during training. We introduce a causality-aware entropy term that effectively identifies and prioritizes actions with high potential impacts for efficient exploration. Furthermore, to prevent excessive focus on specific primitive behaviors, we analyze the gradient dormancy phenomenon and introduce a dormancy-guided reset mechanism to further enhance the efficacy of our method. Our proposed algorithm, ACE: Off-policy Actor-critic with Causality-aware Entropy regularization, demonstrates a substantial performance advantage across 29 diverse continuous control tasks spanning 7 domains compared to model-free RL baselines, which underscores the effectiveness, versatility, and efficient sample efficiency of our approach. Benchmark results and videos are available at https://ace-rl.github.io/.
翻訳日:2024-02-23 15:01:37 公開日:2024-02-22
# トランスクリプトデータのフェデレーション学習:モデルの品質とパフォーマンスのトレードオフ

Federated Learning on Transcriptomic Data: Model Quality and Performance Trade-Offs ( http://arxiv.org/abs/2402.14527v1 )

ライセンス: Link先を確認
Anika Hannemann, Jan Ewald, Leo Seeger, Erik Buchmann(参考訳) 大規模なゲノムまたは転写データの機械学習は多くの新しい健康アプリケーションにとって重要である。 例えば、精密医療は、個々のバイオマーカー、細胞および分子状態などに基づいて、患者に対する治療を調整する。 しかし、必要なデータはセンシティブで、voluminousで、異種で、通常、専用の機械学習ハードウェアが使用できない場所に分散する。 プライバシと規制上の理由から、信頼できるサードパーティですべてのデータを集約することも問題であり、原データを交換することなく、分散型で協調的な機械学習を可能にするため、フェデレーション学習はこのジレンマに対する有望な解決策である。 本稿では、TensorFlow Federated and Flowerというフェデレーション学習フレームワークを用いて比較実験を行う。 我々のテストケースは、疾患の予後と細胞型分類モデルのトレーニングです。 我々は、データの不均一性とアーキテクチャの不均一性の両方を考慮して、分散トランスクリプトームデータでモデルを訓練する。 モデル品質,プライバシ向上ノイズに対するロバスト性,計算性能,リソースオーバーヘッドを測定した。 それぞれの連合学習フレームワークには、それぞれ異なる強みがある。 しかし,両フレームワークとも,計算資源の豊富な第三者に個人生データを転送することなく,書き起こしデータに基づくモデルを容易に構築できることを確認した。

Machine learning on large-scale genomic or transcriptomic data is important for many novel health applications. For example, precision medicine tailors medical treatments to patients on the basis of individual biomarkers, cellular and molecular states, etc. However, the data required is sensitive, voluminous, heterogeneous, and typically distributed across locations where dedicated machine learning hardware is not available. Due to privacy and regulatory reasons, it is also problematic to aggregate all data at a trusted third party.Federated learning is a promising solution to this dilemma, because it enables decentralized, collaborative machine learning without exchanging raw data. In this paper, we perform comparative experiments with the federated learning frameworks TensorFlow Federated and Flower. Our test case is the training of disease prognosis and cell type classification models. We train the models with distributed transcriptomic data, considering both data heterogeneity and architectural heterogeneity. We measure model quality, robustness against privacy-enhancing noise, computational performance and resource overhead. Each of the federated learning frameworks has different strengths. However, our experiments confirm that both frameworks can readily build models on transcriptomic data, without transferring personal raw data to a third party with abundant computational resources.
翻訳日:2024-02-23 15:01:16 公開日:2024-02-22
# 文脈化単語表現における単語分割が意味内容に及ぼす影響

The Impact of Word Splitting on the Semantic Content of Contextualized Word Representations ( http://arxiv.org/abs/2402.14616v1 )

ライセンス: Link先を確認
Aina Gar\'i Soler, Matthieu Labeau and Chlo\'e Clavel(参考訳) 文脈化された単語表現を言語モデルから導出する場合、サブワードに区分された語彙外 (oov) の単語の獲得方法を決定する必要がある。 これらの単語を1つのベクトルで表現するのに最適な方法は何か。 我々は,oov単語を含む意味的類似性タスクにおいて,異なるモデルからの埋め込みを内在的に評価する。 分析の結果、他の興味深い発見の中で、分割された単語の表現の質は、しばしば、しかし必ずしも、既知の単語の埋め込みよりも悪いものではないことが判明した。 しかし、それらの類似性値は慎重に解釈する必要がある。

When deriving contextualized word representations from language models, a decision needs to be made on how to obtain one for out-of-vocabulary (OOV) words that are segmented into subwords. What is the best way to represent these words with a single vector, and are these representations of worse quality than those of in-vocabulary words? We carry out an intrinsic evaluation of embeddings from different models on semantic similarity tasks involving OOV words. Our analysis reveals, among other interesting findings, that the quality of representations of words that are split is often, but not always, worse than that of the embeddings of known words. Their similarity values, however, must be interpreted with caution.
翻訳日:2024-02-23 14:56:25 公開日:2024-02-22
# textit{tokenization and the noiseless channel}に対する2つの反例

Two Counterexamples to \textit{Tokenization and the Noiseless Channel} ( http://arxiv.org/abs/2402.14614v1 )

ライセンス: Link先を確認
Marco Cognetta and Vil\'em Zouhar and Sangwhan Moon and Naoaki Okazaki(参考訳) textit{tokenization and the noiseless channel} \cite{zouhar-etal-2023-tokenization} では、r\'enyi 効率はトークン化子を評価するための本質的なメカニズムとして提案されている。 したがって、R'enyi効率は、異なるトークン化器で複数のモデルをトレーニングするコストのかかるステップなしで、下流のパフォーマンスの予測(例えば、機械翻訳タスクのBLEUを予測する)として扱われる。 有用ではあるが、この計量の予測力は完全ではなく、著者らはR'enyi効率だけでは達成できない優れたトークン化スキームのさらなる性質があることを指摘している。 下流モデルの性能を低下させながらR'enyi効率を任意に向上させるBPEトークン化の2つのバリエーションについて述べる。 これらの反例は、R\'enyi効率が固有のトークン化計量として失敗するケースを明らかにし、より正確な予測器を構築するための洞察を与える。

In \textit{Tokenization and the Noiseless Channel} \cite{zouhar-etal-2023-tokenization}, R\'enyi efficiency is suggested as an intrinsic mechanism for evaluating a tokenizer: for NLP tasks, the tokenizer which leads to the highest R\'enyi efficiency of the unigram distribution should be chosen. The R\'enyi efficiency is thus treated as a predictor of downstream performance (e.g., predicting BLEU for a machine translation task), without the expensive step of training multiple models with different tokenizers. Although useful, the predictive power of this metric is not perfect, and the authors note there are additional qualities of a good tokenization scheme that R\'enyi efficiency alone cannot capture. We describe two variants of BPE tokenization which can arbitrarily increase R\'enyi efficiency while decreasing the downstream model performance. These counterexamples expose cases where R\'enyi efficiency fails as an intrinsic tokenization metric and thus give insight for building more accurate predictors.
翻訳日:2024-02-23 14:56:14 公開日:2024-02-22
# 医用画像セグメンテーションのための自己教師型コントラスト学習における次元崩壊の克服

Overcoming Dimensional Collapse in Self-supervised Contrastive Learning for Medical Image Segmentation ( http://arxiv.org/abs/2402.14611v1 )

ライセンス: Link先を確認
Jamshid Hassanpour, Vinkle Srivastav, Didier Mutter, Nicolas Padoy(参考訳) ラベル付きデータの量を制限する自己教師付き学習(SSL)アプローチは大きな成功を収めた。 SSL内では、プレテキストタスクを解決して堅牢な特徴表現を学ぶ。 そのような前提的タスクの1つは、対照的な学習であり、類似した異なる入力サンプルのペアを形成し、モデルの区別を誘導する。 本研究では,医療画像解析の領域におけるコントラスト学習の応用について検討する。 この結果から,最先端のコントラスト学習手法であるMoCo v2は,医用画像に適用すると次元的崩壊に遭遇することがわかった。 これは、医療画像間で共有される画像間の類似度が高いためである。 そこで我々は,局所的な特徴学習と特徴デコレーションという2つの重要な貢献を提案する。 局所的な特徴学習は、モデルのイメージの局所的な領域にフォーカスする能力を向上させ、特徴の分離は、特徴間の線形依存を取り除く。 実験の結果,リニア評価と完全微調整設定の両方において,医療セグメンテーションの下流課題におけるモデルの性能が有意に向上した。 本研究は,医療画像タスクの特徴にSSL技術を効果的に適応させることの重要性を示す。

Self-supervised learning (SSL) approaches have achieved great success when the amount of labeled data is limited. Within SSL, models learn robust feature representations by solving pretext tasks. One such pretext task is contrastive learning, which involves forming pairs of similar and dissimilar input samples, guiding the model to distinguish between them. In this work, we investigate the application of contrastive learning to the domain of medical image analysis. Our findings reveal that MoCo v2, a state-of-the-art contrastive learning method, encounters dimensional collapse when applied to medical images. This is attributed to the high degree of inter-image similarity shared between the medical images. To address this, we propose two key contributions: local feature learning and feature decorrelation. Local feature learning improves the ability of the model to focus on the local regions of the image, while feature decorrelation removes the linear dependence among the features. Our experimental findings demonstrate that our contributions significantly enhance the model's performance in the downstream task of medical segmentation, both in the linear evaluation and full fine-tuning settings. This work illustrates the importance of effectively adapting SSL techniques to the characteristics of medical imaging tasks.
翻訳日:2024-02-23 14:55:52 公開日:2024-02-22
# Federated Complex Qeury Answering

Federated Complex Qeury Answering ( http://arxiv.org/abs/2402.14609v1 )

ライセンス: Link先を確認
Qi Hu, Weifeng Jiang, Haoran Li, Zihao Wang, Jiaxin Bai, Qianren Mao, Yangqiu Song, Lixin Fan, Jianxin Li(参考訳) 複雑な論理的クエリ応答は知識グラフ(KG)の課題であり、広く研究されている。 複雑な論理推論を行う能力は不可欠であり、検索エンジンのような様々なグラフ推論ベースの下流タスクをサポートする。 近年、KGエンティティと論理クエリを埋め込みベクトルに表現し、KGから論理クエリの解を求める手法が提案されている。 しかし、既存の提案手法は主に1kgのクエリに焦点を合わせており、複数のグラフに適用することはできない。 さらに、センシティブな情報で直接KGを共有することは、プライバシーリスクを引き起こす可能性があるため、クエリの回答を検索するために集約されたKGを共有および構築することは現実的ではない。 したがって、マルチソースKGの問合せにどう答えるかは不明である。 エンティティは、複数のKGの知識グラフや推論に関わり、マルチソースKGの複雑なクエリに答えることは、知識クロスグラフを発見する上で重要である。 幸いにも、連合学習は知識グラフで利用され、プライバシーを保った表現を協調的に学習する。 連合知識グラフ埋め込みは、表現品質を改善するために知識グラフの関係性を強化する。 しかし、これらの手法は一対一の関係にのみ焦点をあて、複雑な推論タスクを実行できない。 本稿では,複雑な問合せ処理にフェデレーション学習を適用し,プライバシを保ちながらマルチソース知識グラフを推論する。 プライバシを保護するために,マルチソースkgs上で,センシティブな生データ送信を回避するために,fedcqa(federated complex query answering framework)を提案する。 実世界の3つのデータセットについて広範な実験を行い、様々な種類の複雑なクエリの検索性能を評価する。

Complex logical query answering is a challenging task in knowledge graphs (KGs) that has been widely studied. The ability to perform complex logical reasoning is essential and supports various graph reasoning-based downstream tasks, such as search engines. Recent approaches are proposed to represent KG entities and logical queries into embedding vectors and find answers to logical queries from the KGs. However, existing proposed methods mainly focus on querying a single KG and cannot be applied to multiple graphs. In addition, directly sharing KGs with sensitive information may incur privacy risks, making it impractical to share and construct an aggregated KG for reasoning to retrieve query answers. Thus, it remains unknown how to answer queries on multi-source KGs. An entity can be involved in various knowledge graphs and reasoning on multiple KGs and answering complex queries on multi-source KGs is important in discovering knowledge cross graphs. Fortunately, federated learning is utilized in knowledge graphs to collaboratively learn representations with privacy preserved. Federated knowledge graph embeddings enrich the relations in knowledge graphs to improve the representation quality. However, these methods only focus on one-hop relations and cannot perform complex reasoning tasks. In this paper, we apply federated learning to complex query-answering tasks to reason over multi-source knowledge graphs while preserving privacy. We propose a Federated Complex Query Answering framework (FedCQA), to reason over multi-source KGs avoiding sensitive raw data transmission to protect privacy. We conduct extensive experiments on three real-world datasets and evaluate retrieval performance on various types of complex queries.
翻訳日:2024-02-23 14:55:32 公開日:2024-02-22
# フェルミオンハバード模型における反強磁性相転移の観察

Observation of the antiferromagnetic phase transition in the fermionic Hubbard model ( http://arxiv.org/abs/2402.14605v1 )

ライセンス: Link先を確認
Hou-Ji Shao, Yu-Xuan Wang, De-Zhi Zhu, Yan-Song Zhu, Hao-Nan Sun, Si-Yuan Chen, Chi Zhang, Zhi-Jie Fan, Youjin Deng, Xing-Can Yao, Yu-Ao Chen, and Jian-Wei Pan(参考訳) フェルミオンハバードモデル(FHM)[1]は、その単純な形にもかかわらず、強相関電子物理学の本質的な特徴を捉えている。 光学格子[2, 3]における超低温フェルミオンは、FHMをシミュレートするためのクリーンでよく制御されたプラットフォームを提供する。 FHMシミュレータでは, 半充填時の反強磁性基底状態から, ストライプオーダー[4], 擬ギャップ[5], d波超伝導体[6]など様々なエキゾチック相が発生し, 高温超伝導 [7{9] に関する貴重な知見が得られている。 ショート[10]と延長距離[11]に対する反強磁性相関の観測などの顕著な進歩が得られたが、大規模で均一な量子シミュレータで低温を達成するという大きな課題のため、反強磁性相はまだ実現されていない。 本稿では,約80万点を有する一様光学格子中のリチウム-6原子からなる3次元フェルミイオンハバード系における反強磁性相転移の観察について報告する。 相互作用強度,温度,ドーピング濃度を微調整してそれぞれの臨界値に近づくと,スピン構造因子(SSF)の急激な増加が観察された。 これらの観測は、ハイゼンベルク普遍性クラス[12]から1.396の臨界指数を持つパワーロー分岐によってよく説明できる。 半分の充填と最適な相互作用強度で測定されたSSFは123(8)に達し、反強磁性相の成立を示す。 その結果,FHMの低温相図を探索する段階が整った。

The fermionic Hubbard model (FHM)[1], despite its simple form, captures essential features of strongly correlated electron physics. Ultracold fermions in optical lattices[2, 3] provide a clean and well-controlled platform for simulating FHM. Doping its antiferromagnetic ground state at half filling, various exotic phases are expected to arise in the FHM simulator, including stripe order[4], pseudogap[5], and d-wave superconductors[6], offering valuable insights into high-temperature superconductivity[7{9]. Although notable progress, such as the observation of antiferromagnetic correlations over short[10] and extended distances[11], has been obtained, the antiferromagnetic phase has yet to be realized due to the significant challenges of achieving low temperatures in a large and uniform quantum simulator. Here, we report the observation of the antiferromagnetic phase transition in a three-dimensional fermionic Hubbard system comprising lithium-6 atoms in a uniform optical lattice with approximately 800,000 sites. When the interaction strength, temperature, and doping concentration are finely tuned to approach their respective critical values, sharp increases in the spin structure factor (SSF) are observed. These observations can be well described by a power-law divergence, with a critical exponent of 1.396 from the Heisenberg universality class[12]. At half filling and with optimal interaction strength, the measured SSF reaches 123(8), signifying the establishment of an antiferromagnetic phase. Our results set the stage for exploring the low-temperature phase diagram of FHM.
翻訳日:2024-02-23 14:55:03 公開日:2024-02-22
# 言うな: 引用と発見可能性の研究にソフトウェア言及を使用する際の課題を評価するアプローチ

Don't mention it: An approach to assess challenges to using software mentions for citation and discoverability research ( http://arxiv.org/abs/2402.14602v1 )

ライセンス: Link先を確認
Stephan Druskat, Neil P. Chue Hong, Sammie Buzzard, Olexandr Konovalov, Patrick Kornek(参考訳) 学術出版物からのソフトウェア言及を収集するデータセットは、出版された研究で使われたソフトウェアの研究や、ソフトウェア引用の実践に使用できる可能性がある。 近年,異なる特徴を持つデータセットに言及するソフトウェアが公開された。 本研究では,このようなデータセットのユーザビリティを評価する手法を提案する。 我々のアプローチには、サンプリングとデータ準備、品質と参照特性のマニュアルアノテーション、アノテーション分析が含まれる。 質的観察に基づく評価のために,2つのソフトウェア参照データセットに適用した。 これにより、選択したデータセットで研究を行う上での課題を見つけることができました。 主な問題は、データセットの構造、抽出された言及の質(それぞれ54%と23%はソフトウェアではない)、およびソフトウェアアクセシビリティである。 1つのデータセットは、言及されているソフトウェアへのリンクを提供していないが、もう1つのデータセットは、定量的研究の取り組みを妨げることができる方法でリンクを提供する。 2) 自動検索されたリンクの品質は概して貧弱である(サンプルでは65.4%が間違ったソフトウェアをリンクしている)。 (3) リンクは、小さなサブセット(このサンプルでは20.5%)にのみ存在し、歪んだり不均等なサンプルにつながる可能性がある。 しかしながら、ソフトウェアに言及するデータセットを扱う際の最大の課題と根本的な問題は、まだ最適ではないソフトウェア引用のプラクティスである。

Datasets collecting software mentions from scholarly publications can potentially be used for research into the software that has been used in the published research, as well as into the practice of software citation. Recently, new software mention datasets with different characteristics have been published. We present an approach to assess the usability of such datasets for research on research software. Our approach includes sampling and data preparation, manual annotation for quality and mention characteristics, and annotation analysis. We applied it to two software mention datasets for evaluation based on qualitative observation. Doing this, we were able to find challenges to working with the selected datasets to do research. Main issues refer to the structure of the dataset, the quality of the extracted mentions (54% and 23% of mentions respectively are not to software), and software accessibility. While one dataset does not provide links to mentioned software at all, the other does so in a way that can impede quantitative research endeavors: (1) Links may come from different sources and each point to different software for the same mention. (2) The quality of the automatically retrieved links is generally poor (in our sample, 65.4% link the wrong software). (3) Links exist only for a small subset (in our sample, 20.5%) of mentions, which may lead to skewed or disproportionate samples. However, the greatest challenge and underlying issue in working with software mention datasets is the still suboptimal practice of software citation: Software should not be mentioned, it should be cited following the software citation principles.
翻訳日:2024-02-23 14:54:35 公開日:2024-02-22
# グローバルソフトウェア開発のためのアジャイル要件変更管理モデル

Agile Requirement Change Management Model for Global Software Development ( http://arxiv.org/abs/2402.14595v1 )

ライセンス: Link先を確認
Neha Koulecar and Bachan Ghimire(参考訳) 我々は、既存のモデルの限界に対処し、グローバルなソフトウェア開発パラダイムにおけるアジャイルソフトウェア開発に適した、高貴で包括的で堅牢なアジャイル要件変更管理(ARCM)モデルを提案します。 この目的を達成するため、我々は総合的な文献レビューとRCM業界の専門家との実証的研究を行った。 本研究は,実環境下でのRCMモデルの有効性を評価し,改善すべき限界や領域を特定した。 本研究の結果は,RCMモデルがアジャイルの世界的ソフトウェア開発環境に適用され,ソフトウェア開発の実践を改善し,プロジェクトの成功率を最適化する方法について,貴重な知見を提供するものである。

We propose a noble, comprehensive and robust agile requirements change management (ARCM) model that addresses the limitations of existing models and is tailored for agile software development in the global software development paradigm. To achieve this goal, we conducted an exhaustive literature review and an empirical study with RCM industry experts. Our study evaluated the effectiveness of the proposed RCM model in a real-world setting and identifies any limitations or areas for improvement. The results of our study provide valuable insights into how the proposed RCM model can be applied in agile global software development environments to improve software development practices and optimize project success rates.
翻訳日:2024-02-23 14:54:10 公開日:2024-02-22
# 空中グラッピングにおける低出力デバイス用高速検出器

High-Speed Detector For Low-Powered Devices In Aerial Grasping ( http://arxiv.org/abs/2402.14591v1 )

ライセンス: Link先を確認
Ashish Kumar, Laxmidhar Behera(参考訳) 自律的空中収穫は非常に複雑な問題であり、低消費電力の小型コンピュータデバイス上で多数の学際的アルゴリズムを実行する必要がある。 オブジェクト検出は、計算に富むアルゴリズムの1つである。 この文脈では、以下の貢献をします。 (i)新しい潜在オブジェクト表現(lor)モジュール,クエリ割り当て,予測戦略に基づく,資源効率,単一ステージ,後処理フリーなオブジェクト検出器であるfast fruit detector (ffd)。 FFDは最新の10W NVIDIA Jetson-NX組み込みデバイス上で100FPS@FP32精度を実現し、制御、把握、SLAMといった他の時間クリティカルサブシステムと共存する。 (二) 多数のインスタンスからなるため、果画像を手作業でラベル付けすることなく、膨大な量のトレーニングデータを生成する方法であり、ラベリングコストと時間を増加させる。 (iii)非常に小規模のインスタンスを多数持つオープンソースのフルーツ検出データセットは、検出が難しい。 例えば、FFDはシングルスケールのFaster-RCNNの10.7AP倍、マルチスケールのFaster-RCNNの2.3AP倍、最新のシングルスケールのYOLO-v8の8AP倍、マルチスケールのYOLO-v8の0.3倍である。

Autonomous aerial harvesting is a highly complex problem because it requires numerous interdisciplinary algorithms to be executed on mini low-powered computing devices. Object detection is one such algorithm that is compute-hungry. In this context, we make the following contributions: (i) Fast Fruit Detector (FFD), a resource-efficient, single-stage, and postprocessing-free object detector based on our novel latent object representation (LOR) module, query assignment, and prediction strategy. FFD achieves 100FPS@FP32 precision on the latest 10W NVIDIA Jetson-NX embedded device while co-existing with other time-critical sub-systems such as control, grasping, SLAM, a major achievement of this work. (ii) a method to generate vast amounts of training data without exhaustive manual labelling of fruit images since they consist of a large number of instances, which increases the labelling cost and time. (iii) an open-source fruit detection dataset having plenty of very small-sized instances that are difficult to detect. Our exhaustive evaluations on our and MinneApple dataset show that FFD, being only a single-scale detector, is more accurate than many representative detectors, e.g. FFD is better than single-scale Faster-RCNN by 10.7AP, multi-scale Faster-RCNN by 2.3AP, and better than latest single-scale YOLO-v8 by 8AP and multi-scale YOLO-v8 by 0.3 while being considerably faster.
翻訳日:2024-02-23 14:53:57 公開日:2024-02-22
# デジタル脅威はソフトウェア産業の要件をどのように変えるのか?

How do digital threats change requirements for the software industry? ( http://arxiv.org/abs/2402.14588v1 )

ライセンス: Link先を確認
Veikko Halttunen (University of Jyv\"askyl\"a)(参考訳) デジタルシステムは、定義上、デジタルトランスフォーメーションの中核である。 このことが、デジタルトランスフォーメーションで考慮されているシステムは単なるソフトウェアであると考えるようになった。 このアプローチは致命的な間違いであり、すでに実現済みの多くの問題を引き起こし、さらに将来への懸念も高まっている、と私は主張する。 これらの問題と懸念は、持続可能性と責任の要求の高まりとともに明らかになっている。 本稿では,デジタル社会全体をより深く理解することを求めている。 デジタル社会とは、デジタルシステムと現在進行中の社会変容によって影響を受ける社会システムを意味する。 デジタルシステムが社会に与える影響に焦点を移す際には、望ましい結果と望ましくない結果の両方を考慮せざるを得ない。 残念ながら、主流の研究は、デジタル化の潜在的な脅威と望ましくない結果を無視しており、それによってソフトウェアビジネスをより持続可能なものにし、成功させるのが難しくなっている。 私の論文では、デジタル社会の現在と将来の課題の全体像を提供し、これらの課題がソフトウェア産業にどのような意味を持つのかを議論します。 始める最も簡単な方法は、特に失敗するストーリーから、初期の経験から学ぶことです。

Digital systems are, by definition, the core of digital transformation. This has led many to think that the system being considered in digital transformation is solely software. I argue that this approach is a fatal mistake, and it has induced a great number of already realized problems and even a greater number of concerns about the future. These problems and concerns have become evident along with rising requirements for sustainability and responsibility. In this paper, I call for a better understanding of the digital society in its entirety. By digital society I mean the societal system that is affected by the digital systems and the ongoing societal trans-formations. When shifting the focus to the effects of digital systems on societies, we are forced to consider all the anticipated outcomes, both desirable and undesirable ones. Unfortunately, the mainstream research has ignored, to a large extent, the potential threats, and unwanted outcomes, of digitalization, which makes the efforts to change software businesses to be more sustainable, difficult to succeed. In my paper, I will provide an overall picture of current and future challenges of digital societies and discuss what these challenges mean to the software industry in future. The easiest way to start with, is to learn from earlier experiences, especially from the unsuccessful stories.
翻訳日:2024-02-23 14:53:28 公開日:2024-02-22
# FrameNeRF: 新規ビュー合成のためのシンプルで効率的なフレームワーク

FrameNeRF: A Simple and Efficient Framework for Few-shot Novel View Synthesis ( http://arxiv.org/abs/2402.14586v1 )

ライセンス: Link先を確認
Yan Xing, Pan Wang, Ligang Liu, Daolun Li and Li Zhang(参考訳) 本稿では,高速なトレーニング速度と高速なレンダリング品質を備えた市販の高速高忠実度NeRFモデルに適用するために,FrameNeRFと呼ばれる新しいフレームワークを提案する。 高速高忠実度モデルのトレーニング安定性は一般に密集ビューに制約されるため、数ショットの新規ビュー合成タスクには適さない。 この制限に対処するために,データジェネレータとして正規化モデルを利用し,スパース入力からの密接なビューを生成し,高速高忠実度モデルのその後のトレーニングを容易にする。 これらの濃密なビューは正規化モデルによって生成される疑似基底真理であるので、元のスパース画像を使用して高速高忠実度モデルを微調整する。 このプロセスは、モデルが現実的な詳細を学習し、初期の段階で導入されたアーティファクトを正すのに役立つ。 オフ・ザ・シェルフ正規化モデルと高速高忠実度モデルを活用することで,本手法は各種ベンチマークデータセットの最先端性能を実現する。

We present a novel framework, called FrameNeRF, designed to apply off-the-shelf fast high-fidelity NeRF models with fast training speed and high rendering quality for few-shot novel view synthesis tasks. The training stability of fast high-fidelity models is typically constrained to dense views, making them unsuitable for few-shot novel view synthesis tasks. To address this limitation, we utilize a regularization model as a data generator to produce dense views from sparse inputs, facilitating subsequent training of fast high-fidelity models. Since these dense views are pseudo ground truth generated by the regularization model, original sparse images are then used to fine-tune the fast high-fidelity model. This process helps the model learn realistic details and correct artifacts introduced in earlier stages. By leveraging an off-the-shelf regularization model and a fast high-fidelity model, our approach achieves state-of-the-art performance across various benchmark datasets.
翻訳日:2024-02-23 14:53:10 公開日:2024-02-22
# 専門家アドバイザによる留置バンド

Bandits with Abstention under Expert Advice ( http://arxiv.org/abs/2402.14585v1 )

ライセンス: Link先を確認
Stephen Pasteris, Alberto Rumi, Maximilian Thiessen, Shota Saito, Atsushi Miyauchi, Fabio Vitale, Mark Herbster(参考訳) 本稿では,包括的フィードバックに基づくエキスパートアドバイスによる予測の古典的問題について検討する。 我々のモデルは、学習者の遊びの放棄に対応する1つのアクションが、試行ごとに報酬や損失をもたらさないと仮定している。 我々は,この仮定を利用して古典的Exp4アルゴリズムの精度を大幅に向上できる報酬境界を求めるCBAアルゴリズムを提案する。 学習者が遊びを控える選択肢がある場合、我々の問題を信頼度の高い予測者の集合と見なすことができる。 重要なことに、我々は一般の信頼度の高い予測者に対して期待される累積報酬の限界を達成した最初の人物である。 専門職の特別の場合において、我々は新たな報酬バウンドを達成し、以前の専門職Expの限界を著しく改善する(別の行動として棄権を処理する)。 例として,有限距離空間における球の学習結合について述べる。 このコンテキスト設定では、CBAの効率的な実装を考案し、コンテキストの数でランタイムを2次からほぼ線形に減らした。 予備実験では、CBAは既存のバンディットアルゴリズムよりも改善されている。

We study the classic problem of prediction with expert advice under bandit feedback. Our model assumes that one action, corresponding to the learner's abstention from play, has no reward or loss on every trial. We propose the CBA algorithm, which exploits this assumption to obtain reward bounds that can significantly improve those of the classical Exp4 algorithm. We can view our problem as the aggregation of confidence-rated predictors when the learner has the option of abstention from play. Importantly, we are the first to achieve bounds on the expected cumulative reward for general confidence-rated predictors. In the special case of specialists we achieve a novel reward bound, significantly improving previous bounds of SpecialistExp (treating abstention as another action). As an example application, we discuss learning unions of balls in a finite metric space. In this contextual setting, we devise an efficient implementation of CBA, reducing the runtime from quadratic to almost linear in the number of contexts. Preliminary experiments show that CBA improves over existing bandit algorithms.
翻訳日:2024-02-23 14:52:53 公開日:2024-02-22
# 階層的予測のための多変量オンライン線形回帰

Multivariate Online Linear Regression for Hierarchical Forecasting ( http://arxiv.org/abs/2402.14578v1 )

ライセンス: Link先を確認
Massil Hihat, Guillaume Garrigos, Adeline Fermanian, Simon Bussy(参考訳) 本稿では,応答を多変量化できる決定論的オンライン線形回帰モデルについて考察する。 この問題に対処するために,よく知られたVovk-Azoury-Warmuthアルゴリズムを多変量設定に拡張する手法であるMultiVAWを導入する。 我々は,オンライン階層予測問題に適用し,この論文からアルゴリズムを特殊事例として回収し,その解析のために通常行われている仮説を緩和する。

In this paper, we consider a deterministic online linear regression model where we allow the responses to be multivariate. To address this problem, we introduce MultiVAW, a method that extends the well-known Vovk-Azoury-Warmuth algorithm to the multivariate setting, and show that it also enjoys logarithmic regret in time. We apply our results to the online hierarchical forecasting problem and recover an algorithm from this literature as a special case, allowing us to relax the hypotheses usually made for its analysis.
翻訳日:2024-02-23 14:52:35 公開日:2024-02-22
# テキスト・画像拡散モデルのデバイアス化

Debiasing Text-to-Image Diffusion Models ( http://arxiv.org/abs/2402.14577v1 )

ライセンス: Link先を確認
Ruifei He, Chuhui Xue, Haoru Tan, Wenqing Zhang, Yingchen Yu, Song Bai, and Xiaojuan Qi(参考訳) 学習ベースのテキスト・トゥ・イメージ(TTI)モデルであるStable Diffusionは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。 しかし、最近の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されており、重要な懸念を提起している。 本研究では,TTI拡散モデルにおける社会的バイアスの解消を目的とした。 まず,問題設定を定式化し,バイアス群のテキスト記述を用いて拡散過程を導くための安全でない方向性を確立する。 次に,この問題を重み付け最適化問題に単純化し,収束の遅い準最適性能を示すReinforcement Solutionr, Policy Gradientを試行する。 さらに,制限を克服するために,反復分布アライメント(IDA)法を提案する。 その単純さにもかかわらず、IDAはTTI拡散モデルにおける社会的バイアスの解消における効率と迅速な収束を示す。 私たちのコードはリリースされます。

Learning-based Text-to-Image (TTI) models like Stable Diffusion have revolutionized the way visual content is generated in various domains. However, recent research has shown that nonnegligible social bias exists in current state-of-the-art TTI systems, which raises important concerns. In this work, we target resolving the social bias in TTI diffusion models. We begin by formalizing the problem setting and use the text descriptions of bias groups to establish an unsafe direction for guiding the diffusion process. Next, we simplify the problem into a weight optimization problem and attempt a Reinforcement solver, Policy Gradient, which shows sub-optimal performance with slow convergence. Further, to overcome limitations, we propose an iterative distribution alignment (IDA) method. Despite its simplicity, we show that IDA shows efficiency and fast convergence in resolving the social bias in TTI diffusion models. Our code will be released.
翻訳日:2024-02-23 14:52:25 公開日:2024-02-22
# 深い強化学習を伴う社会認識ナビゲーションのための変換可能なガウス回帰関数

Transformable Gaussian Reward Function for Socially-Aware Navigation with Deep Reinforcement Learning ( http://arxiv.org/abs/2402.14569v1 )

ライセンス: Link先を確認
Jinyeob Kim, Sumin Kang, Sungwoo Yang, Beomjoon Kim, Jargalbaatar Yura, Donghan Kim(参考訳) ロボットナビゲーションは、障害物回避の優先順位付けから、人間の存在に対応する社会的に認識されたナビゲーション戦略へと移行した。 その結果、動的人間中心環境における社会的に意識されたナビゲーションの認識は、ロボット工学の分野で注目されている。 強化学習技術は社会的に認識されたナビゲーションの進歩を促進させたが、特に混雑環境において適切な報酬関数を定義することは大きな課題となった。 これらの報酬は、ロボットの動きを導くのに不可欠であり、複雑な性質と自動設定できないため、複雑な人造デザインを要求する。 多数の手動で設計された報酬は、ハイパーパラメータ冗長性、不均衡、ユニークなオブジェクト特性の不十分な表現に問題を引き起こす。 これらの課題に対処するために、変換可能なガウス報酬関数(TGRF)を導入する。 TGRFは、ハイパーパラメータチューニングの負担を大幅に軽減し、様々な報酬関数に対する適応性を示し、特に深層強化学習(DRL)を利用した混在環境において、学習速度の加速を示す。 我々は、TGRFの概念的背景、特徴、実験、実世界の応用を強調し、ロボット工学におけるより効果的で適応可能なアプローチの道を開いたセクションを通じて、TGRFを紹介し、検証する。

Robot navigation has transitioned from prioritizing obstacle avoidance to adopting socially aware navigation strategies that accommodate human presence. As a result, the recognition of socially aware navigation within dynamic human-centric environments has gained prominence in the field of robotics. Although reinforcement learning technique has fostered the advancement of socially aware navigation, defining appropriate reward functions, especially in congested environments, has posed a significant challenge. These rewards, crucial in guiding robot actions, demand intricate human-crafted design due to their complex nature and inability to be automatically set. The multitude of manually designed rewards poses issues with hyperparameter redundancy, imbalance, and inadequate representation of unique object characteristics. To address these challenges, we introduce a transformable gaussian reward function (TGRF). The TGRF significantly reduces the burden of hyperparameter tuning, displays adaptability across various reward functions, and demonstrates accelerated learning rates, particularly excelling in crowded environments utilizing deep reinforcement learning (DRL). We introduce and validate TGRF through sections highlighting its conceptual background, characteristics, experiments, and real-world application, paving the way for a more effective and adaptable approach in robotics.The complete source code is available on https://github.com/JinnnK/TGRF
翻訳日:2024-02-23 14:52:10 公開日:2024-02-22
# LLM-DA:エンティティ認識のための大規模言語モデルによるデータ拡張

LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2402.14568v1 )

ライセンス: Link先を確認
Junjie Ye, Nuo Xu, Yikun Wang, Jie Zhou, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 大きな言語モデル(LLM)の印象的な機能にもかかわらず、情報抽出タスクのパフォーマンスは、まだ完全に満足できるわけではない。 しかし、それらの顕著な書き直し能力と広範な世界知識は、これらのタスクを改善するための貴重な洞察を提供する。 本稿では,数発のNERタスクに対して,LLMに基づく新しいデータ拡張手法であるLLM-DA$を提案する。 意味的整合性を損なう既存のデータ拡張手法の限界を克服し、LLM生成テキストに固有の不確実性に対処するために、元のデータを文脈レベルと実体レベルの両方で拡張することにより、NERタスクの特長を活用する。 提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。 広範囲な実験により,NERモデルの性能向上に本手法の有効性が示された。 さらに、追加の分析は、私たちが生成するデータの品質が他の既存の方法を上回るという主張を支持するさらなる証拠を提供する。

Despite the impressive capabilities of large language models (LLMs), their performance on information extraction tasks is still not entirely satisfactory. However, their remarkable rewriting capabilities and extensive world knowledge offer valuable insights to improve these tasks. In this paper, we propose $LLM-DA$, a novel data augmentation technique based on LLMs for the few-shot NER task. To overcome the limitations of existing data augmentation methods that compromise semantic integrity and address the uncertainty inherent in LLM-generated text, we leverage the distinctive characteristics of the NER task by augmenting the original data at both the contextual and entity levels. Our approach involves employing 14 contextual rewriting strategies, designing entity replacements of the same type, and incorporating noise injection to enhance robustness. Extensive experiments demonstrate the effectiveness of our approach in enhancing NER model performance with limited data. Furthermore, additional analyses provide further evidence supporting the assertion that the quality of the data we generate surpasses that of other existing methods.
翻訳日:2024-02-23 14:51:38 公開日:2024-02-22
# ベイズ的オフポリシー評価と大規模行動空間の学習

Bayesian Off-Policy Evaluation and Learning for Large Action Spaces ( http://arxiv.org/abs/2402.14664v1 )

ライセンス: Link先を確認
Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba(参考訳) 対話型システムでは、アクションはしばしば相関し、より大きなアクション空間におけるよりサンプル効率の高いオフポリシー評価(OPE)と学習(OPL)の機会を提供する。 我々は,これらの相関関係を構造化的および情報的優先順位で捉えるための統一ベイズフレームワークを提案する。 この枠組みでは,アルゴリズムと理論の基盤を基礎として,ope と opl 向けに設計された汎用ベイズ法である sdm を提案する。 特に、sDMは計算効率を損なうことなく行動相関を利用する。 さらに,オンラインベイズ・バンディットに触発されて,従来の最悪のケース評価から外れた,複数の問題インスタンスにわたるアルゴリズムの平均パフォーマンスを評価するベイズ指標を導入する。 我々は,OPEとOPLのsDMを分析し,行動相関の利点を明らかにする。 実証的な証拠は、sDMの強い性能を示している。

In interactive systems, actions are often correlated, presenting an opportunity for more sample-efficient off-policy evaluation (OPE) and learning (OPL) in large action spaces. We introduce a unified Bayesian framework to capture these correlations through structured and informative priors. In this framework, we propose sDM, a generic Bayesian approach designed for OPE and OPL, grounded in both algorithmic and theoretical foundations. Notably, sDM leverages action correlations without compromising computational efficiency. Moreover, inspired by online Bayesian bandits, we introduce Bayesian metrics that assess the average performance of algorithms across multiple problem instances, deviating from the conventional worst-case assessments. We analyze sDM in OPE and OPL, highlighting the benefits of leveraging action correlations. Empirical evidence showcases the strong performance of sDM.
翻訳日:2024-02-23 14:47:37 公開日:2024-02-22
# ConceptMath: 大規模言語モデルの数学的推論計測のためのバイリンガル概念的ベンチマーク

ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models ( http://arxiv.org/abs/2402.14660v1 )

ライセンス: Link先を確認
Yanan Wu, Jie Liu, Xingyuan Bu, Jiaheng Liu, Zhanhui Zhou, Yuanxing Zhang, Chenchen Zhang, Zhiqi Bai, Haibin Chen, Tiezheng Ge, Wanli Ouyang, Wenbo Su, Bo Zheng(参考訳) 本稿では,大言語モデル(llm)の概念的推論を評価する,バイリンガル(英語と中国語)なきめ細かなベンチマークであるconceptmathを紹介する。 一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、conceptmathは数学の概念の階層の下に数学問題を体系的に整理する。 従来のベンチマークでは高い平均精度を達成でき、様々な数学概念に有意な性能変化を示し、また、最も基本的なものでも破滅的に失敗する可能性さえあるが、この概念に基づいてLLMを幅広い範囲で評価し、既存のLLMを観察する。 また,既存のLLMの弱点を高めるために,効率的な微調整戦略を導入する。 最後に、ConceptMathは、開発者がモデルのきめ細かい数学的能力を理解し、基礎モデルの成長を促進することができることを願っている。

This paper introduces ConceptMath, a bilingual (English and Chinese), fine-grained benchmark that evaluates concept-wise mathematical reasoning of Large Language Models (LLMs). Unlike traditional benchmarks that evaluate general mathematical reasoning with an average accuracy, ConceptMath systematically organizes math problems under a hierarchy of math concepts, so that mathematical reasoning can be evaluated at different granularity with concept-wise accuracies. Based on our ConcepthMath, we evaluate a broad range of LLMs, and we observe existing LLMs, though achieving high average accuracies on traditional benchmarks, exhibit significant performance variations across different math concepts and may even fail catastrophically on the most basic ones. Besides, we also introduce an efficient fine-tuning strategy to enhance the weaknesses of existing LLMs. Finally, we hope ConceptMath could guide the developers to understand the fine-grained mathematical abilities of their models and facilitate the growth of foundation models.
翻訳日:2024-02-23 14:47:21 公開日:2024-02-22
# OpenCodeInterpreter: 実行とリファインメントによるコード生成の統合

OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement ( http://arxiv.org/abs/2402.14658v1 )

ライセンス: Link先を確認
Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, and Xiang Yue(参考訳) 大きな言語モデルの導入により、コード生成が大幅に進歩した。 しかしながら、オープンソースモデルは、しばしばgpt-4コードインタプリタのような高度なシステムの実行能力や反復的な改善を欠いている。 これに対処するために,opencodeinterpreterという,コードの生成,実行,反復的な洗練を目的とした,オープンソースのコードシステムファミリを紹介します。 68Kのマルチターンインタラクションを備えたデータセットであるCode-FeedbackがサポートするOpenCodeInterpreterは、動的コード洗練のための実行と人間のフィードバックを統合する。 我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。 特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(および追加バージョン)で83.2 (76.4)の精度を達成し、GPT-4の84.2 (76.2)と密接に競合する。 OpenCodeInterpreterは、オープンソースコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリシステムとのギャップをもたらす。

The introduction of large language models has significantly advanced code generation. However, open-source models often lack the execution capabilities and iterative refinement of advanced systems like the GPT-4 Code Interpreter. To address this, we introduce OpenCodeInterpreter, a family of open-source code systems designed for generating, executing, and iteratively refining code. Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions, OpenCodeInterpreter integrates execution and human feedback for dynamic code refinement. Our comprehensive evaluation of OpenCodeInterpreter across key benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6) with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap between open-source code generation models and proprietary systems like GPT-4 Code Interpreter.
翻訳日:2024-02-23 14:47:03 公開日:2024-02-22
# マルチHMR:シングルショットでの多人数人体メッシュ回復

Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot ( http://arxiv.org/abs/2402.14654v1 )

ライセンス: Link先を確認
Fabien Baradel, Matthieu Armando, Salma Galaaoui, Romain Br\'egier, Philippe Weinzaepfel, Gr\'egory Rogez, Thomas Lucas(参考訳) 単一のRGB画像からマルチパーソンな3次元メッシュリカバリのための強力なシングルショットモデルであるMulti-HMRを提案する。 予測は、カメラ座標系におけるSMPL-Xパラメトリックモデルと空間的位置を用いて、手と表情を含む全身を包含する。 本モデルは、標準視覚トランスフォーマー(vit)バックボーンによって生成された特徴を用いて、人中心の粗い2dヒートマップを予測して人を検出する。 次に、人間予測ヘッド(human prediction head, hph)と呼ばれる新しいクロスアテンションモジュールを使用して、全身のポーズ、形状、空間の位置を予測する。 smpl-xパラメータの直接予測は、サブオプティカルな結果をもたらすため、多彩な手ポーズを持つカメラに近い人間を含むフルボディの被験者データセットのクローズアップフレームであるcuffsを導入する。 このデータセットをトレーニングに組み込むことで、特に手にとっての予測をさらに強化し、最先端のパフォーマンスを実現することができることを示す。 マルチhmrはまた、各画像トークンのカメラ線方向をエンコードすることで、可能であればカメラ固有の要素を任意に記述する。 このシンプルな設計は、ボディとボディのみのベンチマークを同時に実施する。 バックボーンサイズと入力解像度の異なるモデルをトレーニングします。 特に、ViT-Sバックボーンと448\times448$の入力画像を使用することで、最先端の手法に関して高速で競争力のあるモデルが得られる。

We present Multi-HMR, a strong single-shot model for multi-person 3D human mesh recovery from a single RGB image. Predictions encompass the whole body, i.e, including hands and facial expressions, using the SMPL-X parametric model and spatial location in the camera coordinate system. Our model detects people by predicting coarse 2D heatmaps of person centers, using features produced by a standard Vision Transformer (ViT) backbone. It then predicts their whole-body pose, shape and spatial location using a new cross-attention module called the Human Prediction Head (HPH), with one query per detected center token, attending to the entire set of features. As direct prediction of SMPL-X parameters yields suboptimal results, we introduce CUFFS; the Close-Up Frames of Full-Body Subjects dataset, containing humans close to the camera with diverse hand poses. We show that incorporating this dataset into training further enhances predictions, particularly for hands, enabling us to achieve state-of-the-art performance. Multi-HMR also optionally accounts for camera intrinsics, if available, by encoding camera ray directions for each image token. This simple design achieves strong performance on whole-body and body-only benchmarks simultaneously. We train models with various backbone sizes and input resolutions. In particular, using a ViT-S backbone and $448\times448$ input images already yields a fast and competitive model with respect to state-of-the-art methods, while considering larger models and higher resolutions further improve performance.
翻訳日:2024-02-23 14:46:39 公開日:2024-02-22
# ニューラルWebストラップによるコーパスキュレーションのクリーン化

Cleaner Pretraining Corpus Curation with Neural Web Scraping ( http://arxiv.org/abs/2402.14652v1 )

ライセンス: Link先を確認
Zhipeng Xu, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Chenyan Xiong, Ge Yu(参考訳) ウェブは、人間の情報探索ニーズを満たすために、大規模で多様で豊富な情報を含んでいる。 厳密なデータ収集、事前処理、キュレーションを通じて、Webページは言語モデル事前学習の基本的なデータリソースとして利用することができる。 しかし、Webページの革新的かつ複雑な性質に直面すると、ルールベース/フィーチャーベースのWebスクレイパーはますます不十分になりつつある。 本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。 実験の結果,NeuScraperは20%以上の改善を達成し,言語モデルの事前学習を促進するために高品質なデータを抽出する可能性を示した。 すべてのコードはhttps://github.com/OpenMatch/NeuScraperで入手できる。

The web contains large-scale, diverse, and abundant information to satisfy the information-seeking needs of humans. Through meticulous data collection, preprocessing, and curation, webpages can be used as a fundamental data resource for language model pretraining. However, when confronted with the progressively revolutionized and intricate nature of webpages, rule-based/feature-based web scrapers are becoming increasingly inadequate. This paper presents a simple, fast, and effective Neural web Scraper (NeuScraper) to help extract primary and clean text contents from webpages. Experimental results show that NeuScraper surpasses the baseline scrapers by achieving more than a 20% improvement, demonstrating its potential in extracting higher-quality data to facilitate the language model pretraining. All of the code is available at https://github.com/OpenMatch/NeuScraper.
翻訳日:2024-02-23 14:46:10 公開日:2024-02-22
# 量子マルコフ決定過程 その2:最適解とアルゴリズム

Quantum Markov Decision Processes Part II: Optimal Solutions and Algorithms ( http://arxiv.org/abs/2402.14651v1 )

ライセンス: Link先を確認
Naci Saldi, Sina Sanjari, and Serdar Yuksel(参考訳) 本稿では、古典マルコフ決定過程(MDP)に量子アナログを導入することを目的とする。 第2部では,q-MDPの定式化を基礎として,オープンループとクローズループの両ポリシの最適ポリシと値関数の計算アルゴリズムの開発に重点を移す。 まず、任意のq-mdpの動的プログラミングと半定義型プログラミングの双対性とオープンループポリシーを組み合わせることで、最適なオープンループ量子政策と値関数を効率的に計算できるアルゴリズムを確立する。 次に、閉ループポリシーに対する動的プログラミングと半定値プログラミングの定式化が確立され、この2つの定式化の双対性も同様に最適な閉ループポリシーと値関数の効率的な計算を可能にする。 最後に、任意の q-MDP が古典的ポリシーを持つ q-MDP によって近似できることを考えれば(潜在的には、原モデルよりも高次元のヒルベルト空間を持つ)、また任意の古典的ポリシーは閉ループポリシーの集合の要素であるため、任意の q-MDP は高次元ヒルベルト空間を持つ閉ループポリシーを持つ q-MDP によって近似できる。

This two-part article aims to introduce a quantum analogue to classical Markov decision processes (MDPs). In Part II, building on the formulation of q-MDPs presented in Part I, our focus shifts to the development of algorithms for computing optimal policies and value functions of both open-loop and closed-loop policies. First, by using the duality between the dynamic programming and the semi-definite programming formulations of any q-MDP with open-loop policies, we establish an algorithm that enables us to efficiently compute optimal open-loop quantum policies and value functions. Then, dynamic programming and semi-definite programming formulations for closed-loop policies is established, where duality of these two formulations similarly enables the efficient computation of optimal closed-loop policies and value functions. Finally, given that any q-MDP can be approximated by q-MDPs with classical policies--potentially with higher-dimensional underlying Hilbert spaces than the original model--and since any classical policy is an element of the set of closed-loop policies, we conclude that any q-MDP can be approximated by q-MDPs with closed-loop policies having higher-dimensional Hilbert spaces.
翻訳日:2024-02-23 14:45:56 公開日:2024-02-22
# gaussianpro:プログレッシブ伝播を伴う3次元gaussian splatting

GaussianPro: 3D Gaussian Splatting with Progressive Propagation ( http://arxiv.org/abs/2402.14650v1 )

ライセンス: Link先を確認
Kai Cheng, Xiaoxiao Long, Kaizhi Yang, Yao Yao, Wei Yin, Yuexin Ma, Wenping Wang, Xuejin Chen(参考訳) 3D Gaussian Splatting (3DGS)の出現は、最近、ニューラルネットワークレンダリングの分野に革命をもたらし、リアルタイムな高速な高品質なレンダリングを可能にした。 しかし、3DGSはStructure-from-Motion (SfM)技術によって生成される初期化点雲に大きく依存している。 テクスチャレス表面を必然的に含む大規模なシーンを扱う場合、SfM技術は常にこれらの表面で十分な点を生成できず、3DGSに十分な初期化を提供することができない。 その結果、3DGSは難しい最適化と低品質レンダリングに悩まされている。 本稿では,従来のマルチビューステレオ (mvs) 手法に触発されて, 3次元ガウスの密度化を導くためのプログレッシブ伝播戦略を適用する新しい手法であるgaussianproを提案する。 3dgsで使用される単純なスプリット戦略とクローン戦略と比較し,シーンの既存の再構成ジオメトリとパッチマッチング手法を活用し,正確な位置と向きを持つ新しいガウス群を生成する。 大規模および小規模の両方の実験では,本手法がWaymoデータセットの3DGSを大幅に上回り,PSNRの1.15dBの改善が見られた。

The advent of 3D Gaussian Splatting (3DGS) has recently brought about a revolution in the field of neural rendering, facilitating high-quality renderings at real-time speed. However, 3DGS heavily depends on the initialized point cloud produced by Structure-from-Motion (SfM) techniques. When tackling with large-scale scenes that unavoidably contain texture-less surfaces, the SfM techniques always fail to produce enough points in these surfaces and cannot provide good initialization for 3DGS. As a result, 3DGS suffers from difficult optimization and low-quality renderings. In this paper, inspired by classical multi-view stereo (MVS) techniques, we propose GaussianPro, a novel method that applies a progressive propagation strategy to guide the densification of the 3D Gaussians. Compared to the simple split and clone strategies used in 3DGS, our method leverages the priors of the existing reconstructed geometries of the scene and patch matching techniques to produce new Gaussians with accurate positions and orientations. Experiments on both large-scale and small-scale scenes validate the effectiveness of our method, where our method significantly surpasses 3DGS on the Waymo dataset, exhibiting an improvement of 1.15dB in terms of PSNR.
翻訳日:2024-02-23 14:45:30 公開日:2024-02-22
# 量子マルコフ決定過程 第1部:一般理論、近似、政策のクラス

Quantum Markov Decision Processes Part I: General Theory, Approximations, and Classes of Policies ( http://arxiv.org/abs/2402.14649v1 )

ライセンス: Link先を確認
Naci Saldi, Sina Sanjari, and Serdar Yuksel(参考訳) この2つの記事では、古典的マルコフ決定過程(MDP)に匹敵する量子を開発することを目的としている。 第1部では、量子領域、量子遷移、コスト関数の状態と作用空間を持つ量子MDPの非常に一般的な定式化を提供する。 量子 MDP (q-MDP) を定式化すると、マルコフの量子制御ポリシーが十分であることを証明し、動的プログラミング原理を提供する検証定理の確立に焦点が移る。 その後、文献で確認されているq-MDPモデルと以前に確立された量子MDPモデル(QOMDP)の比較を行う。 さらに、Q-MDPの近似は、QOMDPとして定式化できる有限作用モデルによって得られる。 最後に、q-MDPに対するオープンループおよびクローズループポリシーのクラスとこれらのポリシーの構造結果を紹介する。 本稿では,新しいフレームワーク,アルゴリズム,今後の研究手法を紹介するために,新しい量子MDPモデルを提案する。 我々のアプローチは、離散時間量子制御における新しい研究方向への道を開くと信じています。

In this two part article, the aim is to develop a quantum counterpart to classical Markov decision processes (MDPs). In Part I, we provide a very general formulation of quantum MDPs with state and action spaces in the quantum domain, quantum transitions, and cost functions. Once we formulate the quantum MDP (q-MDP), our focus shifts to establishing the verification theorem that proves the sufficiency of Markovian quantum control policies and provides a dynamic programming principle. Subsequently, a comparison is drawn between our q-MDP model and previously established quantum MDP models (referred to as QOMDPs) found in the literature. Furthermore, approximations of q-MDPs are obtained via finite-action models, which can be formulated as QOMDPs. Finally, classes of open-loop and closed-loop policies for q-MDPs are introduced, along with structural results for these policies. In summary, we present a novel quantum MDP model aiming to introduce a new framework, algorithms, and future research avenues. We believe that our approach will pave the way for a new research direction in discrete-time quantum control.
翻訳日:2024-02-23 14:45:07 公開日:2024-02-22
# 頑健性・正確性トレードオフを改善するための対向訓練における不変正規化の再考

Rethinking Invariance Regularization in Adversarial Training to Improve Robustness-Accuracy Trade-off ( http://arxiv.org/abs/2402.14648v1 )

ライセンス: Link先を確認
Futa Waseda, Isao Echizen(参考訳) 敵の訓練は、敵の例(AE)を防衛するための最先端のアプローチであるが、堅牢で正確なトレードオフに悩まされている。 本研究では,このトレードオフを緩和するために,識別的かつ逆方向の不変表現を学ぶために,表現に基づく不変正規化を再考する。 分散正規化の妨げとなる2つの重要な問題として,(1) 分散損失と分類目的との「段階的衝突」,(2) クリーンな入力と敵対的な入力の分散分布から生じる混合分布問題を明らかにする。 そこで本研究では,非矛盾的自己教師付き学習手法と混合分布問題を解決するための分断バッチノルム(bn)構造に着想を得て,分散損失における停止勾配操作と事前ディクターを組み込んだ非対称表現正規化逆訓練(ar-at)を提案する。 本手法は,識別力を犠牲にすることなく,逆不変表現を学習することにより,ロバスト性・精度のトレードオフを大幅に改善する。 さらに, 本研究の知識蒸留に基づく防衛手法との関連性について検討し, それらの相対的成功の深い理解に寄与した。

Although adversarial training has been the state-of-the-art approach to defend against adversarial examples (AEs), they suffer from a robustness-accuracy trade-off. In this work, we revisit representation-based invariance regularization to learn discriminative yet adversarially invariant representations, aiming to mitigate this trade-off. We empirically identify two key issues hindering invariance regularization: (1) a "gradient conflict" between invariance loss and classification objectives, indicating the existence of "collapsing solutions," and (2) the mixture distribution problem arising from diverged distributions of clean and adversarial inputs. To address these issues, we propose Asymmetrically Representation-regularized Adversarial Training (AR-AT), which incorporates a stop-gradient operation and a pre-dictor in the invariance loss to avoid "collapsing solutions," inspired by a recent non-contrastive self-supervised learning approach, and a split-BatchNorm (BN) structure to resolve the mixture distribution problem. Our method significantly improves the robustness-accuracy trade-off by learning adversarially invariant representations without sacrificing discriminative power. Furthermore, we discuss the relevance of our findings to knowledge-distillation-based defense methods, contributing to a deeper understanding of their relative successes.
翻訳日:2024-02-23 14:44:41 公開日:2024-02-22
# CoLoRA:パラメータ化偏微分方程式の暗黙的ニューラルモデリングのための連続低ランク適応

CoLoRA: Continuous low-rank adaptation for reduced implicit neural modeling of parameterized partial differential equations ( http://arxiv.org/abs/2402.14646v1 )

ライセンス: Link先を確認
Jules Berman and Benjamin Peherstorfer(参考訳) この研究は、与えられた偏微分方程式に対する事前学習ニューラルネットワークを用いて、新しい物理パラメータと新しい初期条件における解場の進化を迅速に予測するために、時間内に低ランクの重みを連続的に適応する連続低ランク適応(CoLoRA)に基づく縮小モデルを導入する。 この適応は純粋にデータ駆動か、あるいはガレルキン-最適近似を与える方程式駆動の変分法によって可能である。 CoLoRA は解場を時間的に局所的に近似するので、重みのランクは小さく保つことができるので、CoLoRA がデータスカース状態によく適合するようにオフラインで訓練される軌道はごくわずかである。 CoLoRAの予測は従来の手法よりも桁違いに高速で、その精度とパラメータ効率は他のニューラルネットワークのアプローチよりも高い。

This work introduces reduced models based on Continuous Low Rank Adaptation (CoLoRA) that pre-train neural networks for a given partial differential equation and then continuously adapt low-rank weights in time to rapidly predict the evolution of solution fields at new physics parameters and new initial conditions. The adaptation can be either purely data-driven or via an equation-driven variational approach that provides Galerkin-optimal approximations. Because CoLoRA approximates solution fields locally in time, the rank of the weights can be kept small, which means that only few training trajectories are required offline so that CoLoRA is well suited for data-scarce regimes. Predictions with CoLoRA are orders of magnitude faster than with classical methods and their accuracy and parameter efficiency is higher compared to other neural network approaches.
翻訳日:2024-02-23 14:44:14 公開日:2024-02-22
# スパース線形回帰と格子問題

Sparse Linear Regression and Lattice Problems ( http://arxiv.org/abs/2402.14645v1 )

ライセンス: Link先を確認
Aparna Gupte, Neekon Vafa, Vinod Vaikuntanathan(参考訳) スパース線形回帰 (SLR) は、設計行列 $X\in\mathbb{R}^{m\times n}$ と応答ベクトル $y=X\theta^*+w$ for a $k$-sparse vector $\theta^*+w$ (つまり、$\|\theta^*\|_0\leq k$) と小さな任意のノイズ $w$ を与えられる統計学におけるよく研究された問題であり、目標は、平均二乗予測誤差 $\frac{1}{m}\|\widehat{R}^n$ を最小化する$k$-sparse $\widehat{\theta} \in \mathbb{R}^n$ を見つけることである。 basis pursuit、lasso、dantzig selectorといった$\ell_1$-relaxationメソッドは、設計行列が良く条件付けされているときにslrを解くが、一般的なアルゴリズムは知られていない。 格子問題の平均ケース硬度を仮定したSLRw.r.t.の全ての効率的なアルゴリズムの平均ケース硬度を示す。 具体的には,SLR に対する格子上の有界距離復号法(BDD)問題の変種からインスタンス単位の減算を与える。そこでは,BDD のインスタンスを定義する格子基底の条件数と設計行列の制限固有値条件との直接的関係が,スパース線形回帰に対する古典的統計計算的ギャップのいくつかを特徴付ける。 また、格子の世界における最悪のケースと平均ケースの削減に訴えることで、SLRインスタンスの分布が困難であることを示し、設計行列は不条件である一方で、結果として生じるSLRインスタンスは識別可能な状態にある。 さらに,ラッソが同定可能な状態においてよく振る舞うことが知られている等方性ガウス設計行列に対して,多くの解が存在する不特定な状態において,標準問題やよく研究された格子問題の最悪の場合の困難さを仮定して,良い解を出力することの困難さを示す。

Sparse linear regression (SLR) is a well-studied problem in statistics where one is given a design matrix $X\in\mathbb{R}^{m\times n}$ and a response vector $y=X\theta^*+w$ for a $k$-sparse vector $\theta^*$ (that is, $\|\theta^*\|_0\leq k$) and small, arbitrary noise $w$, and the goal is to find a $k$-sparse $\widehat{\theta} \in \mathbb{R}^n$ that minimizes the mean squared prediction error $\frac{1}{m}\|X\widehat{\theta}-X\theta^*\|^2_2$. While $\ell_1$-relaxation methods such as basis pursuit, Lasso, and the Dantzig selector solve SLR when the design matrix is well-conditioned, no general algorithm is known, nor is there any formal evidence of hardness in an average-case setting with respect to all efficient algorithms. We give evidence of average-case hardness of SLR w.r.t. all efficient algorithms assuming the worst-case hardness of lattice problems. Specifically, we give an instance-by-instance reduction from a variant of the bounded distance decoding (BDD) problem on lattices to SLR, where the condition number of the lattice basis that defines the BDD instance is directly related to the restricted eigenvalue condition of the design matrix, which characterizes some of the classical statistical-computational gaps for sparse linear regression. Also, by appealing to worst-case to average-case reductions from the world of lattices, this shows hardness for a distribution of SLR instances; while the design matrices are ill-conditioned, the resulting SLR instances are in the identifiable regime. Furthermore, for well-conditioned (essentially) isotropic Gaussian design matrices, where Lasso is known to behave well in the identifiable regime, we show hardness of outputting any good solution in the unidentifiable regime where there are many solutions, assuming the worst-case hardness of standard and well-studied lattice problems.
翻訳日:2024-02-23 14:43:57 公開日:2024-02-22
# 自律運転におけるエッジビデオ圧縮とメタバース統合のための分散放射場

Distributed Radiance Fields for Edge Video Compression and Metaverse Integration in Autonomous Driving ( http://arxiv.org/abs/2402.14642v1 )

ライセンス: Link先を確認
Eugen \v{S}lapak, Mat\'u\v{s} Dopiriak, Mohammad Abdullah Al Faruque, Juraj Gazda, Marco Levorato(参考訳) metaverseは、物理的な要素とデジタル要素を組み合わせた仮想空間であり、没入的かつ接続されたデジタル世界を作り出す。 自律型モビリティでは、エッジコンピューティングと仮想プロトタイピング、予測などを提供するデジタルツイン(DT)で、新たな可能性を実現する。 DTは、現実世界の幾何学、外観、ダイナミクスを捉える3Dシーン再構成手法で作成することができる。 しかし、カメラ画像やコネクテッド・オートモービル(CAV)からエッジサーバへのビデオなどのメタバースでのリアルタイムDT更新のためのデータ送信は、ネットワークの混雑、コスト、レイテンシを増大させ、メタバースサービスに影響を与える可能性がある。 本稿では,ビデオ圧縮とメタバースDT更新のための分散放射場(RF),マルチアクセスエッジコンピューティング(MEC)ネットワークに基づく新しい手法を提案する。 rfベースのエンコーダとデコーダは、カメラ画像の表現の作成と復元に使用される。 この方法はcarlaシミュレータによるカメラ画像のデータセット上で評価される。 h.264で最大80%の節約を達成した Iフレーム-Pフレームペアは、Iフレームの代わりにRFを用いて、高ピーク信号対雑音比(PSNR)と構造類似度指標(SSIM)の定性的指標を維持しながら構成する。 メタバースと自律移動の可能な用途と課題についても論じる。

The metaverse is a virtual space that combines physical and digital elements, creating immersive and connected digital worlds. For autonomous mobility, it enables new possibilities with edge computing and digital twins (DTs) that offer virtual prototyping, prediction, and more. DTs can be created with 3D scene reconstruction methods that capture the real world's geometry, appearance, and dynamics. However, sending data for real-time DT updates in the metaverse, such as camera images and videos from connected autonomous vehicles (CAVs) to edge servers, can increase network congestion, costs, and latency, affecting metaverse services. Herein, a new method is proposed based on distributed radiance fields (RFs), multi-access edge computing (MEC) network for video compression and metaverse DT updates. RF-based encoder and decoder are used to create and restore representations of camera images. The method is evaluated on a dataset of camera images from the CARLA simulator. Data savings of up to 80% were achieved for H.264 I-frame - P-frame pairs by using RFs instead of I-frames, while maintaining high peak signal-to-noise ratio (PSNR) and structural similarity index measure (SSIM) qualitative metrics for the reconstructed images. Possible uses and challenges for the metaverse and autonomous mobility are also discussed.
翻訳日:2024-02-23 14:43:01 公開日:2024-02-22
# RoboScript: リアルタイムおよびシミュレーションによるフリーフォーム操作タスクのためのコード生成

RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation ( http://arxiv.org/abs/2402.14623v1 )

ライセンス: Link先を確認
Junting Chen, Yao Mu, Qiaojun Yu, Tianming Wei, Silang Wu, Zhecheng Yuan, Zhixuan Liang, Chao Yang, Kaipeng Zhang, Wenqi Shao, Yu Qiao, Huazhe Xu, Mingyu Ding, Ping Luo(参考訳) Embodied AIでは、オープンソースのロボット操作のためのハイレベルなタスク計画とコード生成の急速な進歩が目撃されている。 しかし、以前の研究では、大規模言語やマルチモーダルモデルの一般的な常識推論とタスク計画能力、実際のロボット上で生成されたコードのデプロイ性を保証するための比較的小さな努力、ロボット知覚、運動計画、制御を含む自律ロボットシステムの基本的コンポーネントに多くの努力を払っていた。 この ‘ideal-to-real'' ギャップを埋めるために,本稿では,プラットフォームである \textbf{robotscript} を提案する。 1)コード生成によるデプロイ可能なロボット操作パイプライン、 2)自由形自然言語におけるロボット操作タスクのコード生成ベンチマーク。 robotscriptプラットフォームは、robot operating system(ros)の抽象化に基づいて、シミュレーションと実際のロボットとの統一インターフェースを強調し、gazingboによる構文コンプライアンスとシミュレーション検証を保証することで、このギャップに対処している。 我々は,Franka と UR5 のロボットアームや複数のグリップパーなど,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。 さらに,本ベンチマークでは,GPT-3.5,GPT-4,およびGeminiの複雑な物理的相互作用の処理における相違点を明らかにする。 最後に、システム全体の徹底的な評価を行い、パイプライン内の各モジュール(コード生成、知覚、動き計画、さらにはオブジェクトの幾何学的特性)がシステム全体のパフォーマンスに与える影響について検討する。

Rapid progress in high-level task planning and code generation for open-world robot manipulation has been witnessed in Embodied AI. However, previous studies put much effort into general common sense reasoning and task planning capabilities of large-scale language or multi-modal models, relatively little effort on ensuring the deployability of generated code on real robots, and other fundamental components of autonomous robot systems including robot perception, motion planning, and control. To bridge this ``ideal-to-real'' gap, this paper presents \textbf{RobotScript}, a platform for 1) a deployable robot manipulation pipeline powered by code generation; and 2) a code generation benchmark for robot manipulation tasks in free-form natural language. The RobotScript platform addresses this gap by emphasizing the unified interface with both simulation and real robots, based on abstraction from the Robot Operating System (ROS), ensuring syntax compliance and simulation validation with Gazebo. We demonstrate the adaptability of our code generation framework across multiple robot embodiments, including the Franka and UR5 robot arms, and multiple grippers. Additionally, our benchmark assesses reasoning abilities for physical space and constraints, highlighting the differences between GPT-3.5, GPT-4, and Gemini in handling complex physical interactions. Finally, we present a thorough evaluation on the whole system, exploring how each module in the pipeline: code generation, perception, motion planning, and even object geometric properties, impact the overall performance of the system.
翻訳日:2024-02-23 14:42:37 公開日:2024-02-22
# キーワードから構造化要約へ:学術知識アクセスの合理化

From Keywords to Structured Summaries: Streamlining Scholarly Knowledge Access ( http://arxiv.org/abs/2402.14622v1 )

ライセンス: Link先を確認
Mahsa Shamsabadi and Jennifer D'Souza(参考訳) 本稿では,学術界における情報検索(IR)エンジンの重要性の高まりに注目し,出版物の増加による従来のキーワードベース検索エンジンの非効率性に対処する。 提案されたソリューションは構造化されたレコードと、視覚化ダッシュボードを含む高度な情報技術(IT)ツールを基盤として、研究者が記事にアクセスしてフィルタリングする方法に革命をもたらし、従来のテキスト重みのアプローチを置き換える。 このビジョンは,「感染症の繁殖数推定」研究テーマを中心にした概念実証を通じて実証され,構造化されたレコードの自動生成と,今やキーワードを超えたバックエンドデータベースの出現に活用されている。 その結果、次世代のIRメソッドがhttps://orkg.org/usecases/r0-estimatesでアクセスできるようになった。

This short paper highlights the growing importance of information retrieval (IR) engines in the scientific community, addressing the inefficiency of traditional keyword-based search engines due to the rising volume of publications. The proposed solution involves structured records, underpinning advanced information technology (IT) tools, including visualization dashboards, to revolutionize how researchers access and filter articles, replacing the traditional text-heavy approach. This vision is exemplified through a proof of concept centered on the ``reproductive number estimate of infectious diseases'' research theme, using a fine-tuned large language model (LLM) to automate the creation of structured records to populate a backend database that now goes beyond keywords. The result is a next-generation IR method accessible at https://orkg.org/usecases/r0-estimates.
翻訳日:2024-02-23 14:42:12 公開日:2024-02-22
# latrend: 縦断データをクラスタリングするためのフレームワーク

latrend: A Framework for Clustering Longitudinal Data ( http://arxiv.org/abs/2402.14621v1 )

ライセンス: Link先を確認
Niek Den Teuling, Steffen Pauws, Edwin van den Heuvel(参考訳) 縦断データのクラスタリングは、興味の数値測定のために時間とともに被験者間の共通傾向を探索するために使われる。 様々なRパッケージが長年にわたって導入され、1つ以上の傾向から、被験者間の軌跡の変動を要約し、縦パターンのクラスタを識別している。 本稿では,R パッケージ "latrend" を長手クラスタリング手法の統一的適用のためのフレームワークとして導入し,最小限の符号化方式との比較を可能にする。 このパッケージは、"dtwclust"、"flexmix"、"kml"、"lcmm"、"mclust"、"mixak"、"mixtools"など、縦断データをクラスタリングするための一般的なパッケージのインターフェースとしても機能する。 これにより、研究者は異なるアプローチ、実装、メソッド仕様を簡単に比較できる。 さらに、研究者はフレームワークが提供する標準ツールを利用して、新しいクラスタメソッドを迅速に実装し、迅速なプロトタイピングを可能にする。 睡眠時無呼吸患者の治療適応パターンに基づく合成データセットにおけるラトレンドパッケージの機能と応用を実証した。

Clustering of longitudinal data is used to explore common trends among subjects over time for a numeric measurement of interest. Various R packages have been introduced throughout the years for identifying clusters of longitudinal patterns, summarizing the variability in trajectories between subject in terms of one or more trends. We introduce the R package "latrend" as a framework for the unified application of methods for longitudinal clustering, enabling comparisons between methods with minimal coding. The package also serves as an interface to commonly used packages for clustering longitudinal data, including "dtwclust", "flexmix", "kml", "lcmm", "mclust", "mixAK", and "mixtools". This enables researchers to easily compare different approaches, implementations, and method specifications. Furthermore, researchers can build upon the standard tools provided by the framework to quickly implement new cluster methods, enabling rapid prototyping. We demonstrate the functionality and application of the latrend package on a synthetic dataset based on the therapy adherence patterns of patients with sleep apnea.
翻訳日:2024-02-23 14:41:57 公開日:2024-02-22
# ビッグデータ分析による土木関連箇所の分類:Chengduによる研究

Big data analytics to classify earthwork-related locations: A Chengdu study ( http://arxiv.org/abs/2402.14698v1 )

ライセンス: Link先を確認
Lei Yu, Ke Han(参考訳) 大気汚染は著しく悪化し、世界中で深刻な健康被害を引き起こしている。 アースワーク関連の場所(ERL)は都市塵汚染の重要な源となっている。 ERLの効果的な管理は、主に異なる規制当局の分類、情報バリア、データ更新の遅れ、塵汚染の様々な源に対する防塵対策の欠如など、政府や環境機関に長年の課題を提起してきた。 これらの課題に対処するため, ダンプトラック軌道, 都市関心点(POI), 土地被覆データを用いて, 都市ごみ汚染源の分類を行った。 いくつかの予測モデルを比較し,実データを用いた特徴量と塵汚染源の関係について検討した。 その結果,限定的な特徴量で高精度な分類が可能となった。 この方法はChengduのAlpha MAPSと呼ばれるシステムで、都市汚染対策の意思決定支援に成功している。

Air pollution has significantly intensified, leading to severe health consequences worldwide. Earthwork-related locations (ERLs) constitute significant sources of urban dust pollution. The effective management of ERLs has long posed challenges for governmental and environmental agencies, primarily due to their classification under different regulatory authorities, information barriers, delays in data updating, and a lack of dust suppression measures for various sources of dust pollution. To address these challenges, we classified urban dust pollution sources using dump truck trajectory, urban point of interest (POI), and land cover data. We compared several prediction models and investigated the relationship between features and dust pollution sources using real data. The results demonstrate that high-accuracy classification can be achieved with a limited number of features. This method was successfully implemented in the system called Alpha MAPS in Chengdu to provide decision support for urban pollution control.
翻訳日:2024-02-23 14:37:05 公開日:2024-02-22
# 完全絡み合った部分空間と拡張不能な積基底のスパンの有用な変種と摂動

Useful variants and perturbations of completely entangled subspaces and spans of unextendible product bases ( http://arxiv.org/abs/2402.14697v1 )

ライセンス: Link先を確認
Ritabrata Sengupta and Ajit Iqbal Singh(参考訳) 純粋状態に対する有限次元の絡み合いは量子情報理論で広く使われている。 テンソル積構造によっては、分離可能な状態の集合でさえ非直観的文字を示すことができる。 bennett et al [phys. rev. lett. 82, 5385, (1999)] による拡張不能な積基底と、parthasarathy が明示的に与えた完全絡み合った部分空間 [proc. indian acad. sci. math. sci. 114, 4 (2004)] の2つの状況が文献でよく研究されている。 最近では Boyer, Liss, and Mor [Phys. Rev. A 95, 032308 (2017)], Boyer and Mor [Preprints 2023080529, (2023)], and Liss, Mor, and Winter (arXiv: 2309.05144, (2023)] が有限個の純積状態しか持たない空間を研究している。 我々はこれをさらに持ち運び, 積基底の直交補空間やparthasarathy の完全絡み合い空間といった異なる空間を, 特定の積ベクトルの線形スパンを取ることで摂動する問題を考察する。 この目的のために、ある種のupbの線形スパン、それらの直交補空間、そしてパルサラシーの完全絡み合った部分空間のバリエーションと摂動の方法と理論を発展させる。 最後に、無限に多くの純積状態を持つ摂動の例を示す。

Finite dimensional entanglement for pure states has been used extensively in quantum information theory. Depending on the tensor product structure, even set of separable states can show non-intuitive characters. Two situations are well studied in the literature, namely the unextendable product basis by Bennett et al [Phys. Rev. Lett. 82, 5385, (1999)], and completely entangled subspaces explicitly given by Parthasarathy in [Proc. Indian Acad. Sci. Math. Sci. 114, 4 (2004)]. More recently Boyer, Liss, and Mor [Phys. Rev. A 95, 032308 (2017)]; Boyer and Mor [Preprints 2023080529, (2023)]; and Liss, Mor, and Winter [arXiv: 2309.05144, (2023)] have studied spaces which have only finitely many pure product states. We carry this further and consider the problem of perturbing different spaces, such as the orthogonal complement of an unextendable product basis and also Parthasarathy's completely entangled spaces, by taking linear spans with specified product vectors. To this end, we develop methods and theory of variations and perturbations of the linear spans of certain UPB's, their orthogonal complements, and also Parthasarathy's completely entangled sub-spaces. Finally we give examples of perturbations with infinitely many pure product states.
翻訳日:2024-02-23 14:36:45 公開日:2024-02-22
# QIS : 準コンフォーマルマッピングによる対話型セグメンテーション

QIS : Interactive Segmentation via Quasi-Conformal Mappings ( http://arxiv.org/abs/2402.14695v1 )

ライセンス: Link先を確認
Han Zhang, Daoping Zhang, and Lok Ming Lui(参考訳) 画像のセグメンテーションは、画像から関心のある重要なオブジェクトを抽出する上で重要な役割を果たす。 既存の手法はクリーンな画像のセグメンテーションに成功しているが、ノイズや閉塞などの劣化した画像を扱う際に、正確なセグメンテーション結果を生成するのに苦労することが多い。 この課題に対処するため、インタラクティブセグメンテーションは有望なアプローチとして登場し、ユーザーはセグメンテーションプロセスをガイドするために意味のあるインプットを提供できるようになった。 しかしながら、インタラクティブセグメンテーションにおける重要な問題は、セグメンテーションモデルに最小限ながら意味のあるユーザーガイダンスを組み込む方法を決定することである。 本稿では,ユーザの入力を正のクリックと負のクリックという形で組み込む,準コンフォーマルインタラクティブセグメンテーション(qis)モデルを提案する。 ユーザは、オブジェクト領域に属するいくつかのピクセルをポジティブクリックとしてマークし、セグメンテーションモデルがこれらのクリックを囲む領域を含むべきであることを示す。 逆に、背景に属する画素に負のクリックが設けられ、セグメンテーションマスクからこれらのクリック付近の領域を除外するようモデルに指示する。 また、配向保存準共形写像を用いて、対象物と同じトポロジーのテンプレートマスクを変形させることにより、セグメンテーションマスクを得る。 このアプローチは、セグメンテーション結果のトポロジ的エラーを避けるのに役立つ。 提案モデルについて,利用者の指示に基づいて,興味領域や関心領域を含まない,あるいは排除するQISの能力に関する理論的支援を含む,徹底的な分析を行った。 QISの性能を評価するため, 合成画像, 医用画像, 自然画像, ノイズの多い自然画像について実験を行った。 その結果,提案手法の有効性が示された。

Image segmentation plays a crucial role in extracting important objects of interest from images, enabling various applications. While existing methods have shown success in segmenting clean images, they often struggle to produce accurate segmentation results when dealing with degraded images, such as those containing noise or occlusions. To address this challenge, interactive segmentation has emerged as a promising approach, allowing users to provide meaningful input to guide the segmentation process. However, an important problem in interactive segmentation lies in determining how to incorporate minimal yet meaningful user guidance into the segmentation model. In this paper, we propose the quasi-conformal interactive segmentation (QIS) model, which incorporates user input in the form of positive and negative clicks. Users mark a few pixels belonging to the object region as positive clicks, indicating that the segmentation model should include a region around these clicks. Conversely, negative clicks are provided on pixels belonging to the background, instructing the model to exclude the region near these clicks from the segmentation mask. Additionally, the segmentation mask is obtained by deforming a template mask with the same topology as the object of interest using an orientation-preserving quasiconformal mapping. This approach helps to avoid topological errors in the segmentation results. We provide a thorough analysis of the proposed model, including theoretical support for the ability of QIS to include or exclude regions of interest or disinterest based on the user's indication. To evaluate the performance of QIS, we conduct experiments on synthesized images, medical images, natural images and noisy natural images. The results demonstrate the efficacy of our proposed method.
翻訳日:2024-02-23 14:36:09 公開日:2024-02-22
# 非実践者のための量子機械学習入門

A Quick Introduction to Quantum Machine Learning for Non-Practitioners ( http://arxiv.org/abs/2402.14694v1 )

ライセンス: Link先を確認
Ethan N. Evans, Dominic Byrne, and Matthew G. Cook(参考訳) 本稿では,量子機械学習の導入について紹介し,量子コンピューティングの原理とアルゴリズムを用いて古典的な機械学習アプローチを改善する可能性を探る。 量子コンピューティングは、量子力学が支配する粒子を計算目的で利用し、重ね合わせや絡み合いなどの特性を利用して情報表現と操作を行う。 量子機械学習は、これらの原則を古典的な機械学習モデルを強化するために適用し、ネットワークサイズと量子ハードウェアのトレーニング時間を削減できる。 この論文は重ね合わせ、位相空間、絡み合いを含む基本的な量子力学原理を取り上げ、これらの性質を利用する量子ゲートの概念を紹介している。 また、ニューラルネットワーク、勾配降下、バックプロパゲーションといった古典的なディープラーニングの概念をレビューし、トレーニング可能な量子回路をニューラルネットワークとして掘り下げる。 例えば、量子ニューラルネットワークの潜在的な利点を示し、付属物は詳細な導出を提供する。 この論文は、研究者が量子力学と機械学習をより効率的に開発するのを助けることを目的としている。

This paper provides an introduction to quantum machine learning, exploring the potential benefits of using quantum computing principles and algorithms that may improve upon classical machine learning approaches. Quantum computing utilizes particles governed by quantum mechanics for computational purposes, leveraging properties like superposition and entanglement for information representation and manipulation. Quantum machine learning applies these principles to enhance classical machine learning models, potentially reducing network size and training time on quantum hardware. The paper covers basic quantum mechanics principles, including superposition, phase space, and entanglement, and introduces the concept of quantum gates that exploit these properties. It also reviews classical deep learning concepts, such as artificial neural networks, gradient descent, and backpropagation, before delving into trainable quantum circuits as neural networks. An example problem demonstrates the potential advantages of quantum neural networks, and the appendices provide detailed derivations. The paper aims to help researchers new to quantum mechanics and machine learning develop their expertise more efficiently.
翻訳日:2024-02-23 14:35:40 公開日:2024-02-22
# PeriodGrad:拡散確率モデルに基づくピッチ制御可能なニューラルボコーダを目指して

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model ( http://arxiv.org/abs/2402.14692v1 )

ライセンス: Link先を確認
Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda(参考訳) 本稿では,特定周期信号を補助条件信号として組み込んだ分散確率モデル(DDPM)に基づくニューラルボコーダを提案する。 近年、DDPMベースのニューラルボコーダは、高品質な波形を生成できる非自己回帰モデルとして注目されている。 ddpmに基づくニューラルボコーダは、単純な時間領域損失を伴うトレーニングの利点を持っている。 歌声合成などの実用的なアプリケーションでは、柔軟なピッチ制御による高忠実度音声波形を生成するニューラルネットワークボコーダが要求される。 しかし、従来のDDPMベースのニューラルボコーダは、そのような条件下で音声波形を生成するのに苦労する。 提案手法は,音声波形の周期構造を正確に把握することを目的としている。 実験の結果,従来のDDPM方式のニューラルボコーダよりも音質が向上し,ピッチ制御が向上した。

This paper presents a neural vocoder based on a denoising diffusion probabilistic model (DDPM) incorporating explicit periodic signals as auxiliary conditioning signals. Recently, DDPM-based neural vocoders have gained prominence as non-autoregressive models that can generate high-quality waveforms. The neural vocoders based on DDPM have the advantage of training with a simple time-domain loss. In practical applications, such as singing voice synthesis, there is a demand for neural vocoders to generate high-fidelity speech waveforms with flexible pitch control. However, conventional DDPM-based neural vocoders struggle to generate speech waveforms under such conditions. Our proposed model aims to accurately capture the periodic structure of speech waveforms by incorporating explicit periodic signals. Experimental results show that our model improves sound quality and provides better pitch control than conventional DDPM-based neural vocoders.
翻訳日:2024-02-23 14:35:24 公開日:2024-02-22
# UFO:大規模言語モデルの現実性を評価する統一的で柔軟なフレームワーク

UFO: a Unified and Flexible Framework for Evaluating Factuality of Large Language Models ( http://arxiv.org/abs/2402.14690v1 )

ライセンス: Link先を確認
Zhaoheng Huang, Zhicheng Dou, Yutao Zhu, Ji-rong Wen(参考訳) 大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実の不正確さや‘textit{hallucination}’につながる。 LLMの事実性を評価するための既存の研究は、LCMを使用して事実クレームを抽出し、事前に定義された事実ソースに対して検証することを含む。 しかし,これらの評価指標はタスク固有のものであり,拡張性はない。 これらの課題に対処するために、私たちは4つの利用可能な事実ソースを分類する: 人文による証拠、参照文書、検索エンジンの結果、llm知識、および6つの代表的なデータセットを含む5つのテキスト生成タスク。 そこで本研究では,LLMをベースとした統一・フレキシブルな評価フレームワークである‘texttt{UFO} を提案する。 このフレームワークに基づいた評価シナリオを5つ実装する。 実験の結果、ほとんどのQAタスクでは、人間による証拠や参考文書が重要であり、検索強化されたQAタスクでは相互に代用できることがわかった。 ニュース事実生成タスクでは,検索結果とLLM知識が不可欠である。 我々のデータセットとコードは \url{https://github.com/WaldenRUC/UFO} で利用可能です。

Large language models (LLMs) may generate text that lacks consistency with human knowledge, leading to factual inaccuracies or \textit{hallucination}. Existing research for evaluating the factuality of LLMs involves extracting fact claims using an LLM and verifying them against a predefined fact source. However, these evaluation metrics are task-specific, and not scalable, and the substitutability of fact sources in different tasks is under-explored. To address these challenges, we categorize four available fact sources: human-written evidence, reference documents, search engine results, and LLM knowledge, along with five text generation tasks containing six representative datasets. Then, we propose \texttt{UFO}, an LLM-based unified and flexible evaluation framework to verify facts against plug-and-play fact sources. We implement five evaluation scenarios based on this framework. Experimental results show that for most QA tasks, human-written evidence and reference documents are crucial, and they can substitute for each other in retrieval-augmented QA tasks. In news fact generation tasks, search engine results and LLM knowledge are essential. Our dataset and code are available at \url{https://github.com/WaldenRUC/UFO}.
翻訳日:2024-02-23 14:35:10 公開日:2024-02-22
# Q-Probe: 言語モデルのリワード最大化のための軽量アプローチ

Q-Probe: A Lightweight Approach to Reward Maximization for Language Models ( http://arxiv.org/abs/2402.14688v1 )

ライセンス: Link先を確認
Kenneth Li, Samy Jelassi, Hugh Zhang, Sham Kakade, Martin Wattenberg, David Brandfonbrener(参考訳) 本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。 高いレベルでは、Q-probingは微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの中間に位置するが、どちらも組み合わせることができる。 この考え方は、モデルの埋め込み空間上の単純な線型関数を学習し、候補完備化の重み付けに使うことができる。 このサンプリング手順は, サンプル数の増加に伴い, KL制約によるQプローブの最大化と等価であることを示す。 q-probesをトレーニングするには、報酬モデリングか、重要度重み付けポリシー勾配に基づく新しい直接政策学習目標のクラスを検討する。 この手法を用いることで、データ制限されたレシエーションにおいて微調整よりも優れる、好みデータによって定義された暗黙の報奨(コード生成)を持つドメインでの利得が得られます。 さらに、Q-probeは、サンプリングと埋め込みへのアクセスのみを前提としているため、API上でトレーニングすることができる。 コード: https://github.com/likenneth/q_probe。

We present an approach called Q-probing to adapt a pre-trained language model to maximize a task-specific reward function. At a high level, Q-probing sits between heavier approaches such as finetuning and lighter approaches such as few shot prompting, but can also be combined with either. The idea is to learn a simple linear function on a model's embedding space that can be used to reweight candidate completions. We theoretically show that this sampling procedure is equivalent to a KL-constrained maximization of the Q-probe as the number of samples increases. To train the Q-probes we consider either reward modeling or a class of novel direct policy learning objectives based on importance weighted policy gradients. With this technique, we see gains in domains with ground-truth rewards (code generation) as well as implicit rewards defined by preference data, even outperforming finetuning in data-limited regimes. Moreover, a Q-probe can be trained on top of an API since it only assumes access to sampling and embeddings. Code: https://github.com/likenneth/q_probe .
翻訳日:2024-02-23 14:34:47 公開日:2024-02-22
# InGaAs量子ドットからの単一光子に適合する室温ラダー型光メモリ

Room-temperature ladder-type optical memory compatible with single photons from InGaAs quantum dots ( http://arxiv.org/abs/2402.14686v1 )

ライセンス: Link先を確認
Benjamin Maa{\ss}, Norman Vincenz Ewald, Avijit Barua, Stephan Reitzenstein, Janik Wolters(参考訳) オンデマンドストレージとコヒーレント光マッターインタフェースによる量子情報の検索は、将来の量子ネットワークおよび量子通信アプリケーションにとって重要な要件である。 アルカリ蒸気の記憶は、スケーラブルで堅牢な高帯域ストレージを高い繰り返し速度で提供し、固体単光子源とのインタフェースに自然に適合する。 そこで我々は,CsD1線で動作する室温ラダー型原子蒸気メモリを実験的に実現した。 本研究では、SNR$=830(80)$の信号対雑音比で1パルスあたり0.06光子を持つ弱いコヒーレントレーザーパルスのオンデマンド保存と検索の詳細な実験と実証を行う。 メモリは最大内部記憶効率を$\eta_{\text{int}}=15(1)\%$とし、推定1/e$storage timeを$\tau_{\mathrm{s}}\approx32\,$nsとする。 非均質化状態の固体エミッタから単一光子を保存するためのベンチマーク特性をメモリの性能から推定した。 895\,nmで放射される高品質InGaAs量子ドットの即時利用とともに、これらの結果は不均一なオンデマンド量子光インターフェースを開発するための明確な可能性をもたらす。

On-demand storage and retrieval of quantum information in coherent light-matter interfaces is a key requirement for future quantum networking and quantum communication applications. Alkali vapor memories offer scalable and robust high-bandwidth storage at high repetition rates which makes them a natural fit to interface with solid-state single-photon sources. Here, we experimentally realize a room-temperature ladder-type atomic vapor memory that operates on the Cs D1 line. We provide a detailed experimental characterization and demonstration of on-demand storage and retrieval of weak coherent laser pulses with 0.06 photons per pulse at a high signal-to-noise ratio of SNR$=830(80)$. The memory achieves a maximum internal storage efficiency of $\eta_{\text{int}}=15(1)\%$ and an estimated $1/e$-storage time of $\tau_{\mathrm{s}}\approx32\,$ns. Benchmark properties for the storage of single photons from inhomogeneously broadened state-of-the-art solid-state emitters are estimated from the performance of the memory. Together with the immediate availability of high-quality InGaAs quantum dots emitting at 895\,nm, these results provide clear prospects for the development of a heterogeneous on-demand quantum light interface.
翻訳日:2024-02-23 14:34:29 公開日:2024-02-22
# 国際宇宙ステーションコールド・アトム・ラボにおける原子状物質波の干渉測定

Interferometry of Atomic Matter Waves in the Cold Atom Lab onboard the International Space Station ( http://arxiv.org/abs/2402.14685v1 )

ライセンス: Link先を確認
Jason R. Williams, Charles A. Sackett, Holger Ahlers, David C. Aveline, Patrick Boegel, Sofia Botsi, Eric Charron, Ethan R. Elliott, Naceur Gaaloul, Enno Giese, Waldemar Herr, James R. Kellogg, James M. Kohel, Norman E. Lay, Matthias Meister, Gabriel M\"uller, Holger M\"uller, Kamal Oudrhiri, Leah Phillips, Annie Pichery, Ernst M. Rasel, Albert Roura, Matteo Sbroscia, Wolfgang P. Schleich, Christian Schneider, Christian Schubert, Bejoy Sen, Robert J. Thompson, Nicholas P. Bigelow(参考訳) 超低温の原子ガスは、次世代の精密センサーを可能にするために、量子的な利点と微小重力環境で得られる広範な自由落下を活かし、宇宙科学にとってユニークな約束を持っている。 原子干渉計(Atom Interferometers)は、加速、回転、重力に前例のない感度を与えるために冷却された原子のガスを自在に冷却し、重力、地球、惑星科学の宇宙ベースの応用や、一般相対性理論や標準モデルを超えた物理の微妙な力を求めるために開発されている量子センサーの一種である。 NASAのコールド原子研究所(CAL)は、超低温原子の研究や原子干渉計を含む成熟した量子技術のための多目的施設として国際宇宙ステーションで活動している。 本論文では,cal科学モジュールの軌道上アップグレードにより実現されたcal原子干渉計における超低温$^{87}$rb原子を用いた経路探索実験について報告する。 さらに、150ms以上の自由膨張時間観測可能な1回のランで干渉パターンを示すためにラムジーせん断波干渉法が用いられた。 最後に、CAL原子干渉計は、宇宙空間における物質波干渉計を用いた最初の量子センサーのデモンストレーションとして、原子干渉計レーザーからの光子反動を遠隔測定するために使用された。

Ultracold atomic gases hold unique promise for space science by capitalizing on quantum advantages and extended freefall, afforded in a microgravity environment, to enable next-generation precision sensors. Atom interferometers are a class of quantum sensors which can use freely falling gases of atoms cooled to sub-photon-recoil temperatures to provide unprecedented sensitivities to accelerations, rotations, and gravitational forces, and are currently being developed for space-based applications in gravitational, earth, and planetary sciences, as well as to search for subtle forces that could signify physics beyond General Relativity and the Standard Model. NASA's Cold Atom Lab (CAL) operates onboard the International Space Station as a multi-user facility for studies of ultracold atoms and to mature quantum technologies, including atom interferometry, in persistent microgravity. In this paper, we report on path-finding experiments utilizing ultracold $^{87}$Rb atoms in the CAL atom interferometer, which was enabled by an on-orbit upgrade of the CAL science module: A three-pulse Mach-Zehnder interferometer was studied to understand limitations from the influence of ISS vibrations. Additionally, Ramsey shear-wave interferometry was used to manifest interference patterns in a single run that were observable for over 150 ms free-expansion time. Finally, the CAL atom interferometer was used to remotely measure the photon recoil from the atom interferometer laser as a demonstration of the first quantum sensor using matter-wave interferometry in space.
翻訳日:2024-02-23 14:34:08 公開日:2024-02-22
# マルコフ分散スイッチを用いた適応時系列予測

Adaptive time series forecasting with markovian variance switching ( http://arxiv.org/abs/2402.14684v1 )

ライセンス: Link先を確認
Baptiste Ab\'el\`es, Joseph de Vilmarest, Olivier Wintemberger(参考訳) 適応時系列予測は体制変化の予測に不可欠である。 いくつかの古典的手法では線形ガウス状態空間モデル (lgssm) を定時定数で仮定している。 しかし、そのようなモデルでは捉えられない現実世界のプロセスが数多く存在する。 マルコフスイッチング分散を持つ状態空間モデルを考える。 このような力学系は通常、その計算複雑性が時間とともに指数関数的に増加するため難解であり、この問題に変分ベイズ(VB)技術が適用されている。 本稿では,オンライン学習理論に基づいて分散を推定する新しい手法を提案する。 提案手法を合成データに適用し,電力負荷予測問題に適用する。 この手法は誤特定に対して頑健であり,従来のエキスパートアグリゲーションよりも優れていることを示す。

Adaptive time series forecasting is essential for prediction under regime changes. Several classical methods assume linear Gaussian state space model (LGSSM) with variances constant in time. However, there are many real-world processes that cannot be captured by such models. We consider a state-space model with Markov switching variances. Such dynamical systems are usually intractable because of their computational complexity increasing exponentially with time; Variational Bayes (VB) techniques have been applied to this problem. In this paper, we propose a new way of estimating variances based on online learning theory; we adapt expert aggregation methods to learn the variances over time. We apply the proposed method to synthetic data and to the problem of electricity load forecasting. We show that this method is robust to misspecification and outperforms traditional expert aggregation.
翻訳日:2024-02-23 14:33:41 公開日:2024-02-22
# マルチモーダル大言語モデルの視覚的幻覚

Visual Hallucinations of Multi-modal Large Language Models ( http://arxiv.org/abs/2402.14683v1 )

ライセンス: Link先を確認
Wen Huang, Hongbin Liu, Minxin Guo, Neil Zhenqiang Gong(参考訳) 視覚幻覚(VH)とは、マルチモーダル LLM (MLLM) が視覚的質問応答における画像に関する誤った詳細を想像することを意味する。 既存の研究では、既存の画像データセットにのみVHインスタンスが見出され、その結果、そのようなVHインスタンスの多様性が限定されているため、VH下でのMLLMのパフォーマンスのバイアス付き理解が生まれる。 本稿では,VHTestと呼ばれる,VHインスタンスの多様なセットを生成するツールを提案する。 具体的には、VHTestは既存の画像データセット(例えばCOCO)の初期VHインスタンスを見つけ、各VHモードのテキスト記述を生成し、テキストから画像への生成モデル(例えばDALL-E-3)を使用してテキスト記述に基づいてVH画像を生成する。 VHTestを使って、1200VHインスタンスを8VHモードで収集する。 GPT-4V, LLaVA-1.5, MiniGPT-v2などの既存のMLLMは, ベンチマーク結果のかなりの割合で幻覚することがわかった。 さらに,ベンチマークデータセットを用いてMLLMの微調整を行うことで,他のベンチマークのパフォーマンスを犠牲にすることなく幻覚の可能性が低下することがわかった。 ベンチマークは、https://github.com/wenhuang2000/vhtestで公開しています。

Visual hallucination (VH) means that a multi-modal LLM (MLLM) imagines incorrect details about an image in visual question answering. Existing studies find VH instances only in existing image datasets, which results in biased understanding of MLLMs' performance under VH due to limited diversity of such VH instances. In this work, we propose a tool called VHTest to generate a diverse set of VH instances. Specifically, VHTest finds some initial VH instances in existing image datasets (e.g., COCO), generates a text description for each VH mode, and uses a text-to-image generative model (e.g., DALL-E-3) to generate VH images based on the text descriptions. We collect a benchmark dataset with 1,200 VH instances in 8 VH modes using VHTest. We find that existing MLLMs such as GPT-4V, LLaVA-1.5, and MiniGPT-v2 hallucinate for a large fraction of the instances in our benchmark. Moreover, we find that fine-tuning an MLLM using our benchmark dataset reduces its likelihood to hallucinate without sacrificing its performance on other benchmarks. Our benchmarks are publicly available: https://github.com/wenhuang2000/VHTest.
翻訳日:2024-02-23 14:33:30 公開日:2024-02-22
# 量子コンピュータのための中性子核動力学シミュレーション

Neutron-nucleus dynamics simulations for quantum computers ( http://arxiv.org/abs/2402.14680v1 )

ライセンス: Link先を確認
Soorya Rethinasamy, Ethan Guo, Alexander Wei, Mark M. Wilde, Kristina D. Launey(参考訳) 原子核構造および反応モデリングの計算要求における爆発的成長に対処するために, 一般ポテンシャルを持つ中性子-核シミュレーションのための新しい量子アルゴリズムを開発し, 雑音の存在下でも許容可能な境界状態エネルギーを, 雑音回復訓練法を用いて提供する。 特に、アルゴリズムは一般の中央ポテンシャルに対応するために必要な任意のバンド対角からフルハミルトニアン行列に対して解くことができる。 これには指数ガウス的ポテンシャルと ab initio クラスタ間ポテンシャル(光学ポテンシャル)が含まれる。 このアプローチは、ab initio核計算で使われるキラル有効場-理論核子-核子ポテンシャルの完全な形式をも満たすことができる。 我々は、この可能性を、one-hot(ohe)、binary(be)、gray encodings(ge)を含む3つの異なる量子ビットエンコーディングで利用可能とし、関連するパウリ項と可換集合の数を包括的に分析する。 GEはモデル空間サイズを$N$(または使用する基底状態の数)の効率的なスケーリングを可能にし、三角形ハミルトニアンだけでなく、バンド対角形ハミルトニアンが最大$N$の帯域幅を持つ場合のリソース効率も向上する。 距離群可換性 (DGC) と呼ばれる新しい可換性スキームを導入し、その性能をよく知られたqubit-commutativity (QC) スキームと比較する。 我々は、ポーリ弦の明示的なグループ化とdgcスキームの下での対角化ユニタリを配置し、より複雑な対角化ユニタリのコストでqcスキームよりも優れていることを見出した。 最後に、第一原理に根ざした光学ポテンシャルと中性子炭素系における境界状態物理学の研究と、oheとgeの有効性の比較を用いて、nisqプロセッサに適した量子シミュレーションによる中性子-アルファダイナミクスの第一の解を提供する。

With a view toward addressing the explosive growth in the computational demands of nuclear structure and reactions modeling, we develop a novel quantum algorithm for neutron-nucleus simulations with general potentials, which provides acceptable bound-state energies even in the presence of noise, through the noise-resilient training method. In particular, the algorithm can now solve for any band-diagonal to full Hamiltonian matrices, as needed to accommodate a general central potential. This includes exponential Gaussian-like potentials and ab initio inter-cluster potentials (optical potentials). The approach can also accommodate the complete form of the chiral effective-field-theory nucleon-nucleon potentials used in ab initio nuclear calculations. We make this potential available for three different qubit encodings, including the one-hot (OHE), binary (BE), and Gray encodings (GE), and we provide a comprehensive analysis of the number of Pauli terms and commuting sets involved. We find that the GE allows for an efficient scaling of the model-space size $N$ (or number of basis states used) and is more resource efficient not only for tridiagonal Hamiltonians, but also for band-diagonal Hamiltonians having bandwidth up to $N$. We introduce a new commutativity scheme called distance-grouped commutativity (DGC) and compare its performance with the well-known qubit-commutativity (QC) scheme. We lay out the explicit grouping of Pauli strings and the diagonalizing unitary under the DGC scheme, and we find that it outperforms the QC scheme, at the cost of a more complex diagonalizing unitary. Lastly, we provide first solutions of the neutron-alpha dynamics from quantum simulations suitable for NISQ processors, using an optical potential rooted in first principles, and a study of the bound-state physics in neutron-Carbon systems, along with a comparison of the efficacy of the OHE and GE.
翻訳日:2024-02-23 14:33:04 公開日:2024-02-22
# 認知と行動は一貫しているか--大言語モデルの個性調査

Is Cognition and Action Consistent or Not: Investigating Large Language Model's Personality ( http://arxiv.org/abs/2402.14679v1 )

ライセンス: Link先を確認
Yiming Ai, Zhiwei He, Ziyin Zhang, Wenhong Zhu, Hongkun Hao, Kai Yu, Lingjun Chen and Rui Wang(参考訳) 本研究では,人格アンケートに対する回答を通じて,人格特性を補足する大規模言語モデル(LLM)の信頼性について検討した。 我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価し、これらのモデルが人間のような人格パターンをエミュレートできる範囲を調べることである。 確立されたヒトベンチマークに対するLCMのアウトプットの包括的分析を通じて、LCMにおける認知行動のばらつきを理解し、心理学的理論とメトリクスに基づく観察結果の仮説を提案する。

In this study, we investigate the reliability of Large Language Models (LLMs) in professing human-like personality traits through responses to personality questionnaires. Our goal is to evaluate the consistency between LLMs' professed personality inclinations and their actual "behavior", examining the extent to which these models can emulate human-like personality patterns. Through a comprehensive analysis of LLM outputs against established human benchmarks, we seek to understand the cognition-action divergence in LLMs and propose hypotheses for the observed results based on psychological theories and metrics.
翻訳日:2024-02-23 14:32:30 公開日:2024-02-22
# llms用ミドルウェア: 複雑な環境での言語エージェントのためのツール

Middleware for LLMs: Tools Are Instrumental for Language Agents in Complex Environments ( http://arxiv.org/abs/2402.14672v1 )

ライセンス: Link先を確認
Yu Gu, Yiheng Shu, Hao Yu, Xiao Liu, Yuxiao Dong, Jie Tang, Jayanth Srinivasa, Hugo Latapie, Yu Su(参考訳) 大規模言語モデル(LLM)の応用はテキスト処理の限界を超えて大きく拡大しており、LLMが複雑な実世界の環境で動作可能な汎用言語エージェントとして想定される新しい時代を示唆している。 これらの環境は、しばしば非常に拡張性が高く、llmがその短期記憶内でそれらを処理できない。 ツールによるLSMの能力拡張に関する最近の研究に触発され、そのような複雑さに対処するツールの魅力について検討する。 そこで我々は,これらの大規模環境における積極的な探索を支援するために,カスタマイズしたツールを設計した。 このようなツールは、環境の複雑さからLLMを保護するミドルウェア層として機能する。 2つの代表的な複雑な環境 -- 知識ベース(KB)とデータベース -- において、複雑な環境におけるツールによる言語エージェントの拡張の可能性を示す。 特にこれらのツールを備えたgpt-4は、データベースコンテンツへのアクセスを必要とするタスクで最高のベースラインのパフォーマンスを2.8倍、kbタスクで2.2倍を達成する。 我々の発見は、複雑な実世界の応用における言語エージェントの進歩の道筋を照らす。

The applications of large language models (LLMs) have expanded well beyond the confines of text processing, signaling a new era where LLMs are envisioned as generalist language agents capable of operating within complex real-world environments. These environments are often highly expansive, making it impossible for the LLM to process them within its short-term memory. Motivated by recent research on extending the capabilities of LLMs with tools, this paper investigates the intriguing potential of tools to augment LLMs in handling such complexity. To this end, we design customized tools to aid in the proactive exploration within these massive environments. Such tools can serve as a middleware layer shielding the LLM from environmental complexity. In two representative complex environments -- knowledge bases (KBs) and databases -- we demonstrate the significant potential of augmenting language agents with tools in complex environments. Notably, equipped with these tools, GPT-4 achieves 2.8X the performance of the best baseline in tasks requiring access to database content and 2.2X in KB tasks. Our findings illuminate the path for advancing language agents in complex real-world applications.
翻訳日:2024-02-23 14:32:19 公開日:2024-02-22
# 偽装攻撃に対するロバスト性向上のための四重項損失

Quadruplet Loss For Improving the Robustness to Face Morphing Attacks ( http://arxiv.org/abs/2402.14665v1 )

ライセンス: Link先を確認
Iurii Medvedev and Nuno Gon\c{c}alves(参考訳) ディープラーニングの最近の進歩は、技術とセキュリティ対策に革命をもたらし、堅牢な識別方法を必要としている。 パーソナライズされた特性を活用するバイオメトリックアプローチは、有望なソリューションを提供する。 しかし、顔認識システムは高度な攻撃、特に顔変形技術に弱いため、不正な文書を作成することができる。 本研究では,フォーミング攻撃に対する顔認識システムのロバスト性を高めるために,新しい四重項損失関数を提案する。 本手法では, 顔画像四重項と顔形態を組み合わせ, ネットワークトレーニングを行う。 実験結果は,モーフィング攻撃に対する顔認証ネットワークのロバスト性を改善するための戦略の有効性を示す。

Recent advancements in deep learning have revolutionized technology and security measures, necessitating robust identification methods. Biometric approaches, leveraging personalized characteristics, offer a promising solution. However, Face Recognition Systems are vulnerable to sophisticated attacks, notably face morphing techniques, enabling the creation of fraudulent documents. In this study, we introduce a novel quadruplet loss function for increasing the robustness of face recognition systems against morphing attacks. Our approach involves specific sampling of face image quadruplets, combined with face morphs, for network training. Experimental results demonstrate the efficiency of our strategy in improving the robustness of face recognition networks against morphing attacks.
翻訳日:2024-02-23 14:32:01 公開日:2024-02-22
# クリフォード・ステアブル畳み込みニューラルネットワーク

Clifford-Steerable Convolutional Neural Networks ( http://arxiv.org/abs/2402.14730v1 )

ライセンス: Link先を確認
Maksim Zhdanov, David Ruhe, Maurice Weiler, Ana Lucic, Johannes Brandstetter, Patrick Forr\'e(参考訳) Clifford-Steerable Convolutional Neural Networks (CS-CNNs) は$\mathrm{E}(p, q)$-equivariant CNNの新しいクラスである。 CS-CNN は擬ユークリッド空間 $\mathbb{R}^{p,q}$ 上の乗ベクトル場を処理する。 例えば、$\mathrm{E}(3)$-equivariance on $\mathbb{R}^3$ と Poincar\'e-equivariance on Minkowski spacetime $\mathbb{R}^{1,3}$ をカバーしている。 このアプローチは、clifford group equivariant neural networksによる$\mathrm{o}(p,q)$-steerable kernelの暗黙的パラメータ化に基づいている。 我々は相対論的電気力学予測タスクと同様に流体力学のベースライン手法を著しくかつ一貫して上回っている。

We present Clifford-Steerable Convolutional Neural Networks (CS-CNNs), a novel class of $\mathrm{E}(p, q)$-equivariant CNNs. CS-CNNs process multivector fields on pseudo-Euclidean spaces $\mathbb{R}^{p,q}$. They cover, for instance, $\mathrm{E}(3)$-equivariance on $\mathbb{R}^3$ and Poincar\'e-equivariance on Minkowski spacetime $\mathbb{R}^{1,3}$. Our approach is based on an implicit parametrization of $\mathrm{O}(p,q)$-steerable kernels via Clifford group equivariant neural networks. We significantly and consistently outperform baseline methods on fluid dynamics as well as relativistic electrodynamics forecasting tasks.
翻訳日:2024-02-23 14:28:17 公開日:2024-02-22
# 欧州の人間中心技術へのコミットメント:EU AI法の成功におけるHCIの一体的役割

The European Commitment to Human-Centered Technology: The Integral Role of HCI in the EU AI Act's Success ( http://arxiv.org/abs/2402.14728v1 )

ライセンス: Link先を確認
Andr\'e Calero Valdez, Moreen Heine, Thomas Franke, Nicole Jochems, Hans-Christian Jetter, Tim Schrills(参考訳) AIの進化は、未来を大きく変えようとしている。 欧州連合(EU)は、AIベースのシステムに対する市場アクセスを規制するAI法を制定した。 この法律の健全な特徴は、透明性、説明可能性、AIシステムを理解し制御する人間の能力に重点を置いて、民主的、人道的価値を保護することである。 これにより、EU AI法は、単にAIシステムの技術的要件を規定するだけではない。 EUは、人間中心のAIシステムに対する民主的な要求を発行し、それによって、AI開発における人間中心のイノベーションのための学際的な研究課題を発行する。 AIシステムとその個人や社会への影響を評価する堅牢な方法がなければ、EU AI Actは、EUの一般データ保護規則の過ちを繰り返し、急激で混乱した、アドホックで曖昧な実施につながる可能性がある。 さらに、人間とAIの相互作用における決定された研究活動は、倫理的かつ効果的な方法で、規制の遵守とAIの進歩の両方に重要である。 このようなアプローチは、AI開発が人間の価値観やニーズと一致し、革新的で責任があり、社会の不可欠な部分である技術景観を育むことを保証する。

The evolution of AI is set to profoundly reshape the future. The European Union, recognizing this impending prominence, has enacted the AI Act, regulating market access for AI-based systems. A salient feature of the Act is to guard democratic and humanistic values by focusing regulation on transparency, explainability, and the human ability to understand and control AI systems. Hereby, the EU AI Act does not merely specify technological requirements for AI systems. The EU issues a democratic call for human-centered AI systems and, in turn, an interdisciplinary research agenda for human-centered innovation in AI development. Without robust methods to assess AI systems and their effect on individuals and society, the EU AI Act may lead to repeating the mistakes of the General Data Protection Regulation of the EU and to rushed, chaotic, ad-hoc, and ambiguous implementation, causing more confusion than lending guidance. Moreover, determined research activities in Human-AI interaction will be pivotal for both regulatory compliance and the advancement of AI in a manner that is both ethical and effective. Such an approach will ensure that AI development aligns with human values and needs, fostering a technology landscape that is innovative, responsible, and an integral part of our society.
翻訳日:2024-02-23 14:28:06 公開日:2024-02-22
# 概念ベース学習の枠組みにおけるニューラルネットワークへのエキスパートルールの導入

Incorporating Expert Rules into Neural Networks in the Framework of Concept-Based Learning ( http://arxiv.org/abs/2402.14726v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) 本論文では、概念ベースの学習を拡張するための機械学習モデルにエキスパートルールを組み込む問題を定式化する。 論理規則とニューラルネットワークを組み合わせることにより,概念の確率を予測する手法を提案する。 この組み合わせの背景にある最初のアイデアは、専門家の規則を満たすために概念値のすべての組み合わせに対する合同確率分布の制約を形成することである。 第二の考えは、凸ポリトープの形で確率分布の可能な集合を表現し、その頂点または面を使用することである。 提案手法は,概念の出力確率がエキスパートルールに違反しないことを保証するニューラルネットワークの学習と解くためのいくつかのアプローチを提供する。 この問題の解は、帰納的学習と帰納的学習を結合する方法と見なすことができる。 専門家のルールは、概念とクラスラベルをつなぐ論理関数や単に概念を互いに結びつける論理関数がルールと見なされる場合、より広い意味で使用される。 この機能は提案した結果のクラスを大幅に拡張する。 数値的な例はアプローチを説明する。 提案するアルゴリズムのコードも公開されている。

A problem of incorporating the expert rules into machine learning models for extending the concept-based learning is formulated in the paper. It is proposed how to combine logical rules and neural networks predicting the concept probabilities. The first idea behind the combination is to form constraints for a joint probability distribution over all combinations of concept values to satisfy the expert rules. The second idea is to represent a feasible set of probability distributions in the form of a convex polytope and to use its vertices or faces. We provide several approaches for solving the stated problem and for training neural networks which guarantee that the output probabilities of concepts would not violate the expert rules. The solution of the problem can be viewed as a way for combining the inductive and deductive learning. Expert rules are used in a broader sense when any logical function that connects concepts and class labels or just concepts with each other can be regarded as a rule. This feature significantly expands the class of the proposed results. Numerical examples illustrate the approaches. The code of proposed algorithms is publicly available.
翻訳日:2024-02-23 14:27:43 公開日:2024-02-22
# トップクォーク崩壊の全量子トモグラフィー

Full quantum tomography of top quark decays ( http://arxiv.org/abs/2402.14725v1 )

ライセンス: Link先を確認
J. A. Aguilar-Saavedra(参考訳) 高エネルギー物理過程における量子トモグラフィは通常スピン自由度に制限されている。 ここでは、トップクォーク崩壊が$t \to W b$であり、角運動量(L$)と$W$と$b$のスピンが54次元の$LWb$密度演算子に絡み合う。 L$と$W$または$b$のスピンの間の絡み合いは大きいので、大きなハドロン衝突型加速器で生成された1つのトップクォークの崩壊について決定することができる。 これらは素粒子物理学において軌道とスピン角モーメントの間の最初の絡み合いの測定となる。 提案手法は他のプロセスで同様の測定方法を示す。

Quantum tomography in high-energy physics processes has usually been restricted to the spin degrees of freedom. We address the case of top quark decays $t \to W b$, in which the angular momentum ($L$) and the spins of $W$ and $b$ are intertwined into a 54-dimensional $LWb$ density operator. The entanglement between $L$ and the $W$ or $b$ spin is large and could be determined for decays of single top quarks produced at the Large Hadron Collider, well above $5\sigma$ (statistical only) from the separability hypothesis. These would be the first entanglement measurements between orbital and spin angular momenta in elementary particle physics. The method presented paves the way for similar measurements in other processes.
翻訳日:2024-02-23 14:27:25 公開日:2024-02-22
# 連続手話における境界検出のためのトランスモデル

A Transformer Model for Boundary Detection in Continuous Sign Language ( http://arxiv.org/abs/2402.14720v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera(参考訳) 近年,SLR (Sign Language Recognition) が研究者から注目されている。特にCSLR (Continuous Sign Language Recognition) の複雑な領域では,ISLR (Isolated Sign Language Recognition) と比較して複雑さが増している。 CSLRにおける顕著な課題の1つは、連続したビデオストリーム内の孤立した標識の境界を正確に検出することである。 さらに、既存のモデルにおける手作り機能への依存は、最適な精度を達成するための課題である。 これらの課題を克服するため,トランスフォーマーモデルを用いた新しいアプローチを提案する。 従来のモデルとは異なり、我々のアプローチは手作りの機能を必要としない精度の向上に焦点を当てている。 TransformerモデルはISLRとCSLRの両方に採用されている。 トレーニングプロセスでは,入力ビデオから抽出した手指キーポイント機能をトランスフォーマモデルを用いて強化した,孤立した手話ビデオを使用する。 その後、これらのリッチな特徴を最終分類層に転送する。 トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。 本モデルの評価は,連続符号とそれに対応する孤立符号の両方を含む2つの異なるデータセット上で行われ,有望な結果を示す。

Sign Language Recognition (SLR) has garnered significant attention from researchers in recent years, particularly the intricate domain of Continuous Sign Language Recognition (CSLR), which presents heightened complexity compared to Isolated Sign Language Recognition (ISLR). One of the prominent challenges in CSLR pertains to accurately detecting the boundaries of isolated signs within a continuous video stream. Additionally, the reliance on handcrafted features in existing models poses a challenge to achieving optimal accuracy. To surmount these challenges, we propose a novel approach utilizing a Transformer-based model. Unlike traditional models, our approach focuses on enhancing accuracy while eliminating the need for handcrafted features. The Transformer model is employed for both ISLR and CSLR. The training process involves using isolated sign videos, where hand keypoint features extracted from the input video are enriched using the Transformer model. Subsequently, these enriched features are forwarded to the final classification layer. The trained model, coupled with a post-processing method, is then applied to detect isolated sign boundaries within continuous sign videos. The evaluation of our model is conducted on two distinct datasets, including both continuous signs and their corresponding isolated signs, demonstrates promising results.
翻訳日:2024-02-23 14:27:10 公開日:2024-02-22
# 高エネルギー衝突型加速器におけるトラック再構成のための量子アニールインスパイアアルゴリズム

Quantum Annealing Inspired Algorithms for Track Reconstruction at High Energy Colliders ( http://arxiv.org/abs/2402.14718v1 )

ライセンス: Link先を確認
Hideki Okawa, Qing-Guo Zeng, Xian-Zhe Tao, Man-Hong Yung(参考訳) 荷電粒子再構成や軌道再構成は、高エネルギーコライダー物理学におけるパターン認識の最も重要な要素の1つである。 計算資源の膨大な消費で知られており、特に粒子乗数が高い場合である。 これは、高輝度大型ハドロン衝突型加速器やスーパープロトン陽子衝突型加速器のような将来の衝突機の条件である。 トラック再構成は2次非拘束バイナリ最適化(QUBO)問題として定式化することができ、様々な量子アルゴリズムが量子シミュレータとハードウェアの両方で検討・評価されている。 シミュレート分岐アルゴリズムは量子アニーリングにインスパイアされたアルゴリズムのセットであり、量子アニーリングや他のイジングマシンやそれらの古典的なアルゴリズムと真剣な競合関係にある。 本研究では,シミュレートされた分岐アルゴリズムを用いて粒子追跡問題の解法を提案する。 シミュレーションされた分岐アルゴリズムは古典的コンピュータ上で動作し、グラフィカル処理ユニットの並列処理や使用に適しているため、非常に大きなデータを高速に処理することができる。 これらのアルゴリズムは、再現効率と純度をシミュレートしたアニールよりも向上させるが、実行時間を最大4桁まで短縮することができる。 これらの結果から,QUBOモデルと量子アニールインスパイアされたアルゴリズムは,現在および将来の粒子追跡問題に有用であることが示唆された。

Charged particle reconstruction or track reconstruction is one of the most crucial components of pattern recognition in high energy collider physics. It is known for enormous consumption of the computing resources, especially when the particle multiplicity is high. This would indeed be the conditions at future colliders such as the High Luminosity Large Hadron Collider and Super Proton Proton Collider. Track reconstruction can be formulated as a quadratic unconstrained binary optimization (QUBO) problem, for which various quantum algorithms have been investigated and evaluated with both the quantum simulator and hardware. Simulated bifurcation algorithms are a set of quantum annealing inspired algorithms, and are serious competitors to the quantum annealing, other Ising machines and their classical counterparts. In this study, we show that the simulated bifurcation algorithms can be employed for solving the particle tracking problem. As the simulated bifurcation algorithms run on classical computers and are suitable for parallel processing and usage of the graphical processing units, they can handle significantly large data at high speed. These algorithms exhibit compatible or sometimes improved reconstruction efficiency and purity than the simulated annealing, but the running time can be reduced by as much as four orders of magnitude. These results suggest that QUBO models together with the quantum annealing inspired algorithms are valuable for the current and future particle tracking problems.
翻訳日:2024-02-23 14:26:51 公開日:2024-02-22
# 多言語大言語モデルへの効率的な語彙拡張

Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models ( http://arxiv.org/abs/2402.14714v1 )

ライセンス: Link先を確認
Seungduk Kim, Seungtaek Choi, Myeongho Jeong(参考訳) 本報告では, 韓国語による大言語モデルの適応版である「texttt{EEVE-Korean-v1.0}」を紹介する。 SOLAR-10.7B や Phi-2 のような近年の高機能な英語中心の LLM 上に構築され、非英語テキストを英語中心のトークン化器で非効率に処理する手法として、パラメータ凍結とサブワード初期化を含む効率的な語彙展開(EEVE)法を提案する。 新たな埋め込みには数十兆のトレーニングトークンが必要であるという従来の取り組みとは対照的に,本手法は20億トークンで非英語の習熟度を著しく向上させることができることを示す。 huging faceのleaderboardによると、2024年1月時点で、オープンko-llmリーダーボードのほとんどの命令調整されたllmを上回っており、我々のモデルである \texttt{eeve-korean-10.8b-v1.0} は、オープンソースコミュニティにおける韓国の事前訓練済みモデルとして位置づけられている。 私たちはHuggingfaceでモデルをオープンソース化し、さまざまな言語のオープンリサーチコミュニティを力づけています。

This report introduces \texttt{EEVE-Korean-v1.0}, a Korean adaptation of large language models that exhibit remarkable capabilities across English and Korean text understanding. Building on recent highly capable but English-centric LLMs, such as SOLAR-10.7B and Phi-2, where non-English texts are inefficiently processed with English-centric tokenizers, we present an efficient and effective vocabulary expansion (EEVE) method, which encompasses parameter freezing and subword initialization. In contrast to previous efforts that believe new embeddings require trillions of training tokens, we show that our method can significantly boost non-English proficiency within just 2 billion tokens. Surpassing most instruction-tuned LLMs on the Open Ko-LLM Leaderboard, as of January 2024, our model \texttt{EEVE-Korean-10.8B-v1.0} ranks as the leading Korean pre-trained model in the open-source community, according to Hugging Face's leaderboard. We open-source our models on Huggingface to empower the open research community in various languages.
翻訳日:2024-02-23 14:26:27 公開日:2024-02-22
# IEPile: 大規模スキーマベースの情報抽出コーパス

IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus ( http://arxiv.org/abs/2402.14710v1 )

ライセンス: Link先を確認
Honghao Gui, Hongbin Ye, Lin Yuan, Ningyu Zhang, Mengshu Sun, Lei Liang, Huajun Chen(参考訳) 大規模言語モデル(LLM)は、様々な領域において顕著なポテンシャルを示すが、情報抽出(IE)において顕著な性能差を示す。 現在のIEデータセットは、スケールが小さく、断片化され、標準化されたスキーマが欠如している。 そこで本研究では,約0.32bトークンを含む包括的多言語(英語と中国語)ie命令コーパスであるiepileを紹介する。 既存の33のieデータセットを収集・クリーニングし,大規模コーパスを発掘するためにスキーマに基づく命令生成を導入する。 LLaMA と Baichuan の実験結果から,IE 用 LLM の性能,特にゼロショットの一般化が向上することが示された。 リソースとトレーニング済みのモデルをオープンソースとして公開し、nlpコミュニティに貴重なサポートを提供したいと思っています。

Large Language Models (LLMs) demonstrate remarkable potential across various domains; however, they exhibit a significant performance gap in Information Extraction (IE). Note that high-quality instruction data is the vital key for enhancing the specific capabilities of LLMs, while current IE datasets tend to be small in scale, fragmented, and lack standardized schema. To this end, we introduce IEPile, a comprehensive bilingual (English and Chinese) IE instruction corpus, which contains approximately 0.32B tokens. We construct IEPile by collecting and cleaning 33 existing IE datasets, and introduce schema-based instruction generation to unearth a large-scale corpus. Experimental results on LLaMA and Baichuan demonstrate that using IEPile can enhance the performance of LLMs for IE, especially the zero-shot generalization. We open-source the resource and pre-trained models, hoping to provide valuable support to the NLP community.
翻訳日:2024-02-23 14:26:02 公開日:2024-02-22
# CaT-GNN:Causal Temporal Graph Neural Networkによるクレジットカード不正検出の強化

CaT-GNN: Enhancing Credit Card Fraud Detection via Causal Temporal Graph Neural Networks ( http://arxiv.org/abs/2402.14708v1 )

ライセンス: Link先を確認
Yifan Duan, Guibin Zhang, Shilong Wang, Xiaojiang Peng, Wang Ziqi, Junyuan Mao, Hao Wu, Xinke Jiang, Kun Wang(参考訳) クレジットカード詐欺は経済に重大な脅威をもたらす。 グラフニューラルネットワーク(GNN)に基づく不正検出手法はよく機能するが、ノードの局所構造が予測に与える影響を無視することが多い。 本稿では, 因果不変学習を利用してトランザクションデータに固有の相関関係を明らかにする, クレジットカード不正検出の新しい手法, \textbf{\underline{Ca}}usal \textbf{\underline{T}}emporal \textbf{\underline{G}}raph \textbf{\underline{N}}eural \textbf{N}etwork (CaT-GNN)を提案する。 問題を発見と介入フェーズに分解することで、CaT-GNNはトランザクショングラフ内の因果ノードを特定し、因果混合戦略を適用してモデルの堅牢性と解釈可能性を高める。 CaT-GNNはCausal-InspectorとCausal-Intervenerの2つの重要なコンポーネントで構成されている。 Causal-Inspectorは時間的注意機構の注意重みを利用して、追加パラメータを導入することなく因果ノードと環境ノードを識別する。 その後、Causal-Intervenerは、ノードセットに基づいた環境ノードの因果ミックスアップ拡張を実行する。 プライベートファイナンシャルデータセットと2つのパブリックデータセットを含む3つのデータセットで評価されたCaT-GNNは、既存の最先端メソッドよりも優れたパフォーマンスを示している。 金融取引における不正検出能力を改善するために,グラフニューラルネットワークと因果推論を統合する可能性に注目した。

Credit card fraud poses a significant threat to the economy. While Graph Neural Network (GNN)-based fraud detection methods perform well, they often overlook the causal effect of a node's local structure on predictions. This paper introduces a novel method for credit card fraud detection, the \textbf{\underline{Ca}}usal \textbf{\underline{T}}emporal \textbf{\underline{G}}raph \textbf{\underline{N}}eural \textbf{N}etwork (CaT-GNN), which leverages causal invariant learning to reveal inherent correlations within transaction data. By decomposing the problem into discovery and intervention phases, CaT-GNN identifies causal nodes within the transaction graph and applies a causal mixup strategy to enhance the model's robustness and interpretability. CaT-GNN consists of two key components: Causal-Inspector and Causal-Intervener. The Causal-Inspector utilizes attention weights in the temporal attention mechanism to identify causal and environment nodes without introducing additional parameters. Subsequently, the Causal-Intervener performs a causal mixup enhancement on environment nodes based on the set of nodes. Evaluated on three datasets, including a private financial dataset and two public datasets, CaT-GNN demonstrates superior performance over existing state-of-the-art methods. Our findings highlight the potential of integrating causal reasoning with graph neural networks to improve fraud detection capabilities in financial transactions.
翻訳日:2024-02-23 14:25:44 公開日:2024-02-22
# 骨盤異常スクリーニングのための2段階の細胞病理画像合成

Two-stage Cytopathological Image Synthesis for Augmenting Cervical Abnormality Screening ( http://arxiv.org/abs/2402.14707v1 )

ライセンス: Link先を確認
Zhenrong Shen, Manman Fei, Xin Wang, Jiangdong Cai, Sheng Wang, Lichi Zhang, Qian Wang(参考訳) tct検診(automated thin-prep cytologic test)は、子宮頸癌診断の正確かつ効率的な診断に向けて、病理診断者を支援する。 現在の自動TCTスクリーニングシステムは主に異常な頸部細胞検出を伴い、高い品質のアノテーションを持つ大規模で多様なトレーニングデータを必要とする。 データ収集とアノテーションの努力を最小限に抑えるため、病理画像合成が自然に行われる。 しかし, 小型の子宮頸癌細胞に対する視覚的に有望な外観の合成と同時に, 現実的な大細胞病理像の生成が困難である。 本稿では,頚椎病変スクリーニングのための合成データを作成するための2段階画像合成フレームワークを提案する。 第1回Global Image Generationの段階では、正常な画像生成装置は正常な頸細胞でいっぱいの細胞病理画像を生成するように設計されている。 第2の局所細胞編集段階では、生成した画像から正常な細胞をランダムに選択し、提案する異常細胞合成器を用いて異なる種類の異常細胞に変換する。 正常な画像生成装置と異常な細胞合成装置は、それぞれ、細胞病理画像の内容のカスタマイズと空間的レイアウト制御性の拡張のためのパラメータ効率の良い微調整法により、事前訓練された安定拡散に基づいて構築される。 本実験は, 合成フレームワークの合成画像品質, 多様性, 制御性を実証し, 異常な頸部細胞検出性能を向上させるためのデータ拡張の有効性を検証した。

Automatic thin-prep cytologic test (TCT) screening can assist pathologists in finding cervical abnormality towards accurate and efficient cervical cancer diagnosis. Current automatic TCT screening systems mostly involve abnormal cervical cell detection, which generally requires large-scale and diverse training data with high-quality annotations to achieve promising performance. Pathological image synthesis is naturally raised to minimize the efforts in data collection and annotation. However, it is challenging to generate realistic large-size cytopathological images while simultaneously synthesizing visually plausible appearances for small-size abnormal cervical cells. In this paper, we propose a two-stage image synthesis framework to create synthetic data for augmenting cervical abnormality screening. In the first Global Image Generation stage, a Normal Image Generator is designed to generate cytopathological images full of normal cervical cells. In the second Local Cell Editing stage, normal cells are randomly selected from the generated images and then are converted to different types of abnormal cells using the proposed Abnormal Cell Synthesizer. Both Normal Image Generator and Abnormal Cell Synthesizer are built upon the pre-trained Stable Diffusion via parameter-efficient fine-tuning methods for customizing cytopathological image contents and extending spatial layout controllability, respectively. Our experiments demonstrate the synthetic image quality, diversity, and controllability of the proposed synthesis framework, and validate its data augmentation effectiveness in enhancing the performance of abnormal cervical cell detection.
翻訳日:2024-02-23 14:25:13 公開日:2024-02-22
# 語彙単純化のためのLLM強化逆編集システム

An LLM-Enhanced Adversarial Editing System for Lexical Simplification ( http://arxiv.org/abs/2402.14704v1 )

ライセンス: Link先を確認
Keren Tan, Kangyang Luo, Yunshi Lan, Zheng Yuan, Jinlong Shu(参考訳) Lexical Simplification (LS) は、語彙レベルでのテキストの簡略化を目的としている。 既存のメソッドはアノテーション付きデータに大きく依存しており、低リソースのシナリオでは適用が難しい。 本稿では,並列コーパスを含まない新しいLS法を提案する。 本手法では,原文の語彙的編集を予測するために,混乱損失と不変損失から導出する逆編集システムを用いる。 一方,大規模言語モデル(LLM)からの知識の蒸留を小型LSシステムに導入するために,革新的なLLM強化損失を導入する。 そこから、文中の複雑な単語はマスクされ、難易度対応の充填モジュールはマスクされた位置を単純な単語に置き換える。 最後に,3つのベンチマークLSデータセットの広範な実験結果と解析を行い,提案手法の有効性を示した。

Lexical Simplification (LS) aims to simplify text at the lexical level. Existing methods rely heavily on annotated data, making it challenging to apply in low-resource scenarios. In this paper, we propose a novel LS method without parallel corpora. This method employs an Adversarial Editing System with guidance from a confusion loss and an invariance loss to predict lexical edits in the original sentences. Meanwhile, we introduce an innovative LLM-enhanced loss to enable the distillation of knowledge from Large Language Models (LLMs) into a small-size LS system. From that, complex words within sentences are masked and a Difficulty-aware Filling module is crafted to replace masked positions with simpler words. At last, extensive experimental results and analyses on three benchmark LS datasets demonstrate the effectiveness of our proposed method.
翻訳日:2024-02-23 14:24:46 公開日:2024-02-22
# オフ政治評価のための将来依存価値関数の将来と歴史の曲線について

On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation ( http://arxiv.org/abs/2402.14703v1 )

ライセンス: Link先を確認
Yuheng Zhang, Nan Jiang(参考訳) 複雑な観測を行う部分観測可能な環境での外部政治評価(OPE)について検討し,地平線への指数的依存を回避できる推定器の開発を目標とする。 このような推定器はMDPやPMDPを履歴ベースのMDPに変換することができるが、その推定誤差は指数的対象である変換後の履歴比となるMDPの状態密度比に依存する。 近年、上原ら(2022年)は、将来依存値関数をこの問題に対処するための有望な枠組みとして提案し、メモリレスポリシーの保証は、潜在状態空間上の密度比に依存する。 しかし、それはまた、将来依存値関数の有界性や他の関連する量にも依存しており、指数関数的長さであることを示し、この方法の利点を根絶している。 本稿では,POMDPの構造に合わせた新しいカバレッジの仮定を見いだし,その結果のカバレッジや信念のカバレッジについて述べる。 これらの仮定は、上記の量に対する多項式境界を可能にするだけでなく、補性を持つ新しいアルゴリズムの発見にも繋がる。

We study off-policy evaluation (OPE) in partially observable environments with complex observations, with the goal of developing estimators whose guarantee avoids exponential dependence on the horizon. While such estimators exist for MDPs and POMDPs can be converted to history-based MDPs, their estimation errors depend on the state-density ratio for MDPs which becomes history ratios after conversion, an exponential object. Recently, Uehara et al. (2022) proposed future-dependent value functions as a promising framework to address this issue, where the guarantee for memoryless policies depends on the density ratio over the latent state space. However, it also depends on the boundedness of the future-dependent value function and other related quantities, which we show could be exponential-in-length and thus erasing the advantage of the method. In this paper, we discover novel coverage assumptions tailored to the structure of POMDPs, such as outcome coverage and belief coverage. These assumptions not only enable polynomial bounds on the aforementioned quantities, but also lead to the discovery of new algorithms with complementary properties.
翻訳日:2024-02-23 14:24:25 公開日:2024-02-22
# inffeed: 主観的タスクのパフォーマンス向上のためのフィードバックとしての影響関数

InfFeed: Influence Functions as a Feedback to Improve the Performance of Subjective Tasks ( http://arxiv.org/abs/2402.14702v1 )

ライセンス: Link先を確認
Somnath Banerjee, Maulindu Sarkar, Punyajoy Saha, Binny Mathew, Animesh Mukherjee(参考訳) 近年、影響関数は、テスト予測に影響を与える可能性のある個々の列車インスタンスの摂動を定量化し、深層神経モデルの説明可能性を達成する装置を示す。 本論文の目的は2つある。 まず,影響関数をモデルへのフィードバックとして取り入れ,そのパフォーマンスを向上させる。 第二に、データセット拡張エクササイズでは、インフルエンス関数を使用して、既存のメソッドによって注釈付けされ、モデルパフォーマンスを改善するためにアノテーションによってクロスチェック(および修正)される必要があるデータポイントを自動的に識別する。 これらの目的を達成するため,本論文では,インフルエンサー関数を用いて対象インスタンスに対する影響インスタンスを計算するinffeedを提案する。 最初の目的に向けて、インフルエンサーラベルに基づいてターゲットインスタンスのラベルを調整する。 これを行う際、inffeedは最先端のベースライン(llmsを含む)を、ヘイトスピーチ分類で4%、スタンス分類で3.5%、皮肉で3%、皮肉検出で2%という最大マクロf1スコアマージンで上回っている。 第2の目的に向けて、負の影響を持つ拡張集合内の銀の注釈付きデータ点のみを手作業で再注釈することにより、拡張集合内のすべてのデータ点がゴールドラベルを持つシナリオに非常に近いモデル性能が大幅に向上することを示す。 これにより、銀のアノテートされた拡張データセットから、手動でアノテートする必要があるデータポイントの数を大幅に削減できる。

Recently, influence functions present an apparatus for achieving explainability for deep neural models by quantifying the perturbation of individual train instances that might impact a test prediction. Our objectives in this paper are twofold. First we incorporate influence functions as a feedback into the model to improve its performance. Second, in a dataset extension exercise, using influence functions to automatically identify data points that have been initially `silver' annotated by some existing method and need to be cross-checked (and corrected) by annotators to improve the model performance. To meet these objectives, in this paper, we introduce InfFeed, which uses influence functions to compute the influential instances for a target instance. Toward the first objective, we adjust the label of the target instance based on its influencer(s) label. In doing this, InfFeed outperforms the state-of-the-art baselines (including LLMs) by a maximum macro F1-score margin of almost 4% for hate speech classification, 3.5% for stance classification, and 3% for irony and 2% for sarcasm detection. Toward the second objective we show that manually re-annotating only those silver annotated data points in the extension set that have a negative influence can immensely improve the model performance bringing it very close to the scenario where all the data points in the extension set have gold labels. This allows for huge reduction of the number of data points that need to be manually annotated since out of the silver annotated extension dataset, the influence function scheme picks up ~1/1000 points that need manual correction.
翻訳日:2024-02-23 14:23:51 公開日:2024-02-22
# CompASS: 言語モデリングを用いた患者セラピストアライアンス戦略の計算マッピング

COMPASS: Computational Mapping of Patient-Therapist Alliance Strategies with Language Modeling ( http://arxiv.org/abs/2402.14701v1 )

ライセンス: Link先を確認
Baihan Lin, Djallel Bouneffouf, Yulia Landa, Rachel Jespersen, Cheryl Corcoran, Guillermo Cecchi(参考訳) 治療作業同盟は精神療法の成功を予測する重要な要因である。 伝統的に、ワーキングアライアンスアセスメントはセラピストと患者双方によるアンケートに依存している。 本稿では,精神療法セッションで使用される自然言語から治療作業同盟を直接推測する新しい枠組みcompassを提案する。 本手法は,高度な大規模言語モデルを用いて心理療法セッションの書き起こしを分析し,ワーキングアライアンスインベントリ内の文の分散表現と比較する。 多様な精神疾患を扱った950以上のセッションのデータセットを解析し,患者とセラピストのアライメント軌跡を微視的にマッピングし,臨床精神医学における解釈可能性を提供し,治療状況に関連する新たなパターンを同定する手法の有効性を実証した。 様々なニューラル・トピック・モデリング手法を生成言語プロンプトと組み合わせることで、異なる精神疾患の話題特性を分析し、ターンレベルの解像度でトピックの進化を捉えるために時間的モデリングを取り入れる。 この組み合わせフレームワークは、治療的相互作用の理解を深め、会話の品質に関するセラピストのタイムリーなフィードバックを可能にし、精神療法の有効性を改善するための解釈可能な洞察を提供する。

The therapeutic working alliance is a critical factor in predicting the success of psychotherapy treatment. Traditionally, working alliance assessment relies on questionnaires completed by both therapists and patients. In this paper, we present COMPASS, a novel framework to directly infer the therapeutic working alliance from the natural language used in psychotherapy sessions. Our approach utilizes advanced large language models to analyze transcripts of psychotherapy sessions and compare them with distributed representations of statements in the working alliance inventory. Analyzing a dataset of over 950 sessions covering diverse psychiatric conditions, we demonstrate the effectiveness of our method in microscopically mapping patient-therapist alignment trajectories and providing interpretability for clinical psychiatry and in identifying emerging patterns related to the condition being treated. By employing various neural topic modeling techniques in combination with generative language prompting, we analyze the topical characteristics of different psychiatric conditions and incorporate temporal modeling to capture the evolution of topics at a turn-level resolution. This combined framework enhances the understanding of therapeutic interactions, enabling timely feedback for therapists regarding conversation quality and providing interpretable insights to improve the effectiveness of psychotherapy.
翻訳日:2024-02-23 14:22:54 公開日:2024-02-22
# 大規模言語モデルにおける言語領域の展開

Unveiling Linguistic Regions in Large Language Models ( http://arxiv.org/abs/2402.14700v1 )

ライセンス: Link先を確認
Zhihao Zhang, Jun Zhao, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。 現在の研究は主にLLMの言語間一般化能力の改善に焦点を当てている。 しかし、LLMが言語間アライメントを実現するための本質的なメカニズムについてはまだ研究されていない。 本稿では,地域分割の観点から,LLMの言語能力に関するいくつかの調査を行う。 我々は,LLMの言語能力に対応する中核領域を発見し,全体のモデルパラメータの約1%を占める。 パラメータをゼロにすることでコア領域を取り除いた結果、30言語で大幅にパフォーマンスが低下する。 さらに、このコア領域は重要な次元依存性を示し、特定の次元上の単一のパラメータに対する摂動によって言語能力が失われる。 さらに,異なる単一言語族に対して異なる領域が存在することが判明し,これらの特定の領域の破壊は,対応する言語におけるLLMの習熟度を大幅に低下させる。 また,本研究は,LLMのさらなる事前訓練においてよく見られる破滅的忘れ込み (CF) の問題を緩和し,コア言語領域を凍結させることを示唆している。 全体として、LLMの機能領域の探索は、そのインテリジェンスの基礎に関する洞察を提供する。

Large Language Models (LLMs) have demonstrated considerable cross-lingual alignment and generalization ability. Current research primarily focuses on improving LLMs' cross-lingual generalization capabilities. However, there is still a lack of research on the intrinsic mechanisms of how LLMs achieve cross-lingual alignment. From the perspective of region partitioning, this paper conducts several investigations on the linguistic competence of LLMs. We discover a core region in LLMs that corresponds to linguistic competence, accounting for approximately 1% of the total model parameters. Removing this core region by setting parameters to zero results in a significant performance decrease across 30 different languages. Furthermore, this core region exhibits significant dimensional dependency, perturbations to even a single parameter on specific dimensions leading to a loss of linguistic competence. Moreover, we discover that distinct regions exist for different monolingual families, and disruption to these specific regions substantially reduces the LLMs' proficiency in those corresponding languages. Our research also indicates that freezing the core linguistic region during further pre-training can mitigate the issue of catastrophic forgetting (CF), a common occurrence observed during further pre-training of LLMs. Overall, exploring the LLMs' functional regions provides insights into the foundation of their intelligence.
翻訳日:2024-02-23 14:22:18 公開日:2024-02-22
# MT-Bench-101:多言語対話における大規模言語モデル評価のための細粒度ベンチマーク

MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues ( http://arxiv.org/abs/2402.14762v1 )

ライセンス: Link先を確認
Ge Bai, Jie Liu, Xingyuan Bu, Yancheng He, Jiaheng Liu, Zhanhui Zhou, Zhuoran Lin, Wenbo Su, Tiezheng Ge, Bo Zheng, Wanli Ouyang(参考訳) 大規模言語モデル(llm)の出現により、対話システムは大きく強化された。 しかし,LLMの対話能力の総合評価は依然として課題である。 以前のベンチマークでは、主にシングルターンダイアログや、多ターンダイアログの粗い粒度と不完全な評価に焦点を合わせており、実際の対話の複雑さときめ細かいニュアンスを見下ろしている。 MT-Bench-101は,マルチターン対話におけるLLMの微粒化能力の評価を目的としている。 実マルチターン対話データを詳細に解析することにより,1388個のタスクで4208個のターンを含む3階層の階層的能力分類を構築した。 次に,MT-Bench-101に基づく21のLLMの評価を行い,能力とタスクの両面から包括的分析を行い,様々なタスク内での対話におけるLLMのパフォーマンスの異なる傾向を観察する。 さらに分析したところ、共通アライメント技術やチャット特有の設計は、LLMのマルチターン能力の明らかな向上につながっていない。 広範なケーススタディから,設計したタスクは,対応するマルチターン能力を正確に評価できることが示唆された。

The advent of Large Language Models (LLMs) has drastically enhanced dialogue systems. However, comprehensively evaluating the dialogue abilities of LLMs remains a challenge. Previous benchmarks have primarily focused on single-turn dialogues or provided coarse-grained and incomplete assessments of multi-turn dialogues, overlooking the complexity and fine-grained nuances of real-life dialogues. To address this issue, we introduce MT-Bench-101, specifically designed to evaluate the fine-grained abilities of LLMs in multi-turn dialogues. By conducting a detailed analysis of real multi-turn dialogue data, we construct a three-tier hierarchical ability taxonomy comprising 4208 turns across 1388 multi-turn dialogues in 13 distinct tasks. We then evaluate 21 popular LLMs based on MT-Bench-101, conducting comprehensive analyses from both ability and task perspectives and observing differing trends in LLMs performance across dialogue turns within various tasks. Further analysis indicates that neither utilizing common alignment techniques nor chat-specific designs has led to obvious enhancements in the multi-turn abilities of LLMs. Extensive case studies suggest that our designed tasks accurately assess the corresponding multi-turn abilities.
翻訳日:2024-02-23 14:17:24 公開日:2024-02-22
# 配当選好学習における報酬モデリングの一般化

Generalizing Reward Modeling for Out-of-Distribution Preference Learning ( http://arxiv.org/abs/2402.14760v1 )

ライセンス: Link先を確認
Chen Jia(参考訳) 大規模言語モデル(LLM)を用いた優先度学習(PL)は、LLM世代を人間の好みに合わせることを目的としている。 人的フィードバック(RLHF)からの強化学習に関するこれまでの研究は、流通PLの有望な成果を示している。 しかし、人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。 したがって, オフ・オブ・ディストリビューション(OOD)PLは, LLMの一般化能力を高めるのに有効である。 本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。 メタトレーニング中、二段階最適化アルゴリズムを使用して、様々な分布にまたがる人間の好みに合わせてポリシー学習を導くことができる報酬モデルを学ぶ。 テスト分布に遭遇すると、メタテスト手順はPLの学習報酬モデルを用いて規則化されたポリシー最適化を行う。 理論的には、2レベル最適化アルゴリズムの収束率を合理的な仮定で示す。 さらに,20個のホルドアウトドメインにおける2つのテキスト生成タスクの実験を行い,様々な評価指標において,強固なベースラインを上回った。

Preference learning (PL) with large language models (LLMs) aims to align the LLMs' generations with human preferences. Previous work on reinforcement learning from human feedback (RLHF) has demonstrated promising results in in-distribution PL. However, due to the difficulty of obtaining human feedback, discretely training reward models for every encountered distribution is challenging. Thus, out-of-distribution (OOD) PL is practically useful for enhancing the generalization ability of LLMs with limited preference feedback. This work addresses OOD PL by optimizing a general reward model through a meta-learning approach. During meta-training, a bilevel optimization algorithm is utilized to learn a reward model capable of guiding policy learning to align with human preferences across various distributions. When encountering a test distribution, the meta-test procedure conducts regularized policy optimization using the learned reward model for PL. We theoretically demonstrate the convergence rate of the bilevel optimization algorithm under reasonable assumptions. Additionally, we conduct experiments on two text generation tasks across 20 held-out domains and outperform a variety of strong baselines across various evaluation metrics.
翻訳日:2024-02-23 14:17:03 公開日:2024-02-22
# 疫学不確実性下における統計的学習理論の一般化可能性

Generalising realisability in statistical learning theory under epistemic uncertainty ( http://arxiv.org/abs/2402.14759v1 )

ライセンス: Link先を確認
Fabio Cuzzolin(参考訳) 本研究の目的は, 確率分布の凸集合(convex set of probability distributions)である同じ潮流集合から列車および試験分布が発行されるという仮定の下で, 可逆性などの統計学習理論における中心的な概念を一般化することである。 これは、先天的な不確実性の下での統計学習のより一般的な処理への第一歩と考えることができる。

The purpose of this paper is to look into how central notions in statistical learning theory, such as realisability, generalise under the assumption that train and test distribution are issued from the same credal set, i.e., a convex set of probability distributions. This can be considered as a first step towards a more general treatment of statistical learning under epistemic uncertainty.
翻訳日:2024-02-23 14:16:43 公開日:2024-02-22
# バッチとマッチ:スコアに基づく発散を伴うブラックボックス変分推論

Batch and match: black-box variational inference with a score-based divergence ( http://arxiv.org/abs/2402.14758v1 )

ライセンス: Link先を確認
Diana Cai, Chirag Modi, Loucas Pillaud-Vivien, Charles C. Margossian, Robert M. Gower, David M. Blei, Lawrence K. Saul(参考訳) black-box variational inference (bbvi) のほとんどの主要な実装は、確率的証拠下限(elbo)の最適化に基づいている。 しかし, bbvi に対するアプローチは, 勾配推定値のばらつきが大きいため, 緩やかに収束することが多い。 本研究では,スコアに基づく分散に基づくBBVIの代替手法であるバッチ・アンド・マッチ(BaM)を提案する。 特に、このスコアに基づく発散は、完全な共分散行列を持つガウス変分族に対する閉形式近位更新によって最適化することができる。 ターゲット分布がガウス分布であるときのBaMの収束を解析し、無限バッチサイズの極限において、変動パラメータの更新はターゲット平均と共分散に指数関数的に収束することを示した。 また,階層的および深層生成モデルにおける後進推論から生じるガウス的および非ガウス的対象分布に対するbamの性能を評価する。 これらの実験では、一般にBaMはELBOの最大化に基づくBBVIの先行実装よりも、より少ない(時には著しく少ない)勾配評価で収束する。

Most leading implementations of black-box variational inference (BBVI) are based on optimizing a stochastic evidence lower bound (ELBO). But such approaches to BBVI often converge slowly due to the high variance of their gradient estimates. In this work, we propose batch and match (BaM), an alternative approach to BBVI based on a score-based divergence. Notably, this score-based divergence can be optimized by a closed-form proximal update for Gaussian variational families with full covariance matrices. We analyze the convergence of BaM when the target distribution is Gaussian, and we prove that in the limit of infinite batch size the variational parameter updates converge exponentially quickly to the target mean and covariance. We also evaluate the performance of BaM on Gaussian and non-Gaussian target distributions that arise from posterior inference in hierarchical and deep generative models. In these experiments, we find that BaM typically converges in fewer (and sometimes significantly fewer) gradient evaluations than leading implementations of BBVI based on ELBO maximization.
翻訳日:2024-02-23 14:16:35 公開日:2024-02-22
# SHM-Traffic:DRLと移動学習に基づくUAV制御による橋梁の構造健康モニタリング

SHM-Traffic: DRL and Transfer learning based UAV Control for Structural Health Monitoring of Bridges with Traffic ( http://arxiv.org/abs/2402.14757v1 )

ライセンス: Link先を確認
Divija Swetha Gadiraju, Saeed Eftekhar Azam and Deepak Khazanchi(参考訳) 本研究は,交通を伴う橋梁における構造健康モニタリング(SHM)の高度技術の利用に焦点をあてる。 本研究では,無人航空機(UAV)の深部強化学習(DRL)に基づく制御手法を提案する。 本手法は,交通が進行している間にコンクリート橋脚の調査を行い,ひび割れを検知する。 UAVは亀裂検出を行い、亀裂の位置は当初は不明である。 エッジ検出技術は2つあります。 まず,亀裂検出にキャニーエッジ検出を用いる。 また, ひび割れ検出には畳み込みニューラルネットワーク(CNN)を用い, 細いエッジ検出と比較した。 クラック画像データセットから得られた事前学習重み付きcnnを用いて転送学習を行う。 これにより、モデルのクラックの特定とローカライズにおけるパフォーマンスの向上が可能になる。 近接政策最適化(PPO)は、UAV制御および橋梁調査に適用される。 提案手法の性能を評価するため,様々なシナリオを対象とした実験を行った。 タスク完了時間や報酬収束といった重要な指標を観測して、アプローチの有効性を評価する。 カニーエッジ検出器は最大40-%のタスク完了時間を提供し、cnnは最大12-%のダメージ検出と1.8倍の報酬を提供する。

This work focuses on using advanced techniques for structural health monitoring (SHM) for bridges with Traffic. We propose an approach using deep reinforcement learning (DRL)-based control for Unmanned Aerial Vehicle (UAV). Our approach conducts a concrete bridge deck survey while traffic is ongoing and detects cracks. The UAV performs the crack detection, and the location of cracks is initially unknown. We use two edge detection techniques. First, we use canny edge detection for crack detection. We also use a Convolutional Neural Network (CNN) for crack detection and compare it with canny edge detection. Transfer learning is applied using CNN with pre-trained weights obtained from a crack image dataset. This enables the model to adapt and improve its performance in identifying and localizing cracks. Proximal Policy Optimization (PPO) is applied for UAV control and bridge surveys. The experimentation across various scenarios is performed to evaluate the performance of the proposed methodology. Key metrics such as task completion time and reward convergence are observed to gauge the effectiveness of the approach. We observe that the Canny edge detector offers up to 40\% lower task completion time, while the CNN excels in up to 12\% better damage detection and 1.8 times better rewards.
翻訳日:2024-02-23 14:16:17 公開日:2024-02-22
# 近似的絡み合い証人による絡み合い検出

Entanglement Detection by Approximate Entanglement Witnesses ( http://arxiv.org/abs/2402.14755v1 )

ライセンス: Link先を確認
Samuel Dai, Ning Bao(参考訳) 与えられた量子状態が分離可能であるかどうかを決定する問題は計算的に難しいことが知られている。 我々は凸多面体の高次元近似に基づくこの問題に対するアプローチを開発する。 超平面の多項式数から構成される凸多面体がユークリッド球を高次元で任意に近似していることを示し、多項式サイズの近似絡み合い目撃者の集合が高い確率で状態の絡み合いを決定するのに十分であることを示す。

The problem of determining whether a given quantum state is separable is known to be computationally difficult. We develop an approach to this problem based on approximations of convex polytopes in high dimensions. By showing that a convex polytope constructed from a polynomial number of hyperplanes approximates the Euclidean ball arbitrarily well in high dimensions, we find evidence that a polynomial-sized set of approximate entanglement witnesses is potentially sufficient to determine the entanglement of a state with high probability.
翻訳日:2024-02-23 14:15:59 公開日:2024-02-22
# プリトレーニングされたトランスのプロンプティングはユニバーサルな近似器になれる

Prompting a Pretrained Transformer Can Be a Universal Approximator ( http://arxiv.org/abs/2402.14753v1 )

ライセンス: Link先を確認
Aleksandar Petrov, Philip H.S. Torr, Adel Bibi(参考訳) 変圧器モデルのプロンプト、プロンプトチューニング、プレフィックスチューニングが広く採用されているにもかかわらず、これらの微調整法の理論的理解は限られている。 重要な疑問は、事前訓練されたモデルの振る舞いをプロンプトまたはプレフィックスチューニングによって任意に修正できるかどうかである。 形式的には、事前訓練されたモデルのプロンプトとプレフィックスチューニングは、シーケンス対シーケンス関数を普遍的に近似することができる。 本稿では,従来考えられていたよりもはるかに小さな事前学習モデルが,接頭辞の場合に普遍的近似子になることを示す。 実際、アテンション機構は普遍近似に一意に適しており、プレフィックスチューニングは、任意の連続関数を近似するのに十分である。 さらに、任意のシーケンス-シーケンス関数は、シーケンス長に深さ線形なトランスをプレフィックスすることで近似することができる。 これらの密度型結果に加えて、関数を所望の精度に近似するために必要となるプレフィックスの長さのジャクソン型境界も提供する。

Despite the widespread adoption of prompting, prompt tuning and prefix-tuning of transformer models, our theoretical understanding of these fine-tuning methods remains limited. A key question is whether one can arbitrarily modify the behavior of pretrained model by prompting or prefix-tuning it. Formally, whether prompting and prefix-tuning a pretrained model can universally approximate sequence-to-sequence functions. This paper answers in the affirmative and demonstrates that much smaller pretrained models than previously thought can be universal approximators when prefixed. In fact, the attention mechanism is uniquely suited for universal approximation with prefix-tuning a single attention head being sufficient to approximate any continuous function. Moreover, any sequence-to-sequence function can be approximated by prefixing a transformer with depth linear in the sequence length. Beyond these density-type results, we also offer Jackson-type bounds on the length of the prefix needed to approximate a function to a desired precision.
翻訳日:2024-02-23 14:15:50 公開日:2024-02-22
# 量子二乗法における極限と分離と量子クナップサック問題

Limitations and Separations in the Quantum Sum-of-squares, and the Quantum Knapsack Problem ( http://arxiv.org/abs/2402.14752v1 )

ライセンス: Link先を確認
M. B. Hastings(参考訳) 図1に残されているSYKモデルの平方和に関する2つの疑問に答える。 まず(「リミテーション」)、次数 4$ majorana 作用素の可換関係を考えるが、それらに他の関係を課さない二乗和の断片は、基底状態エネルギーに束縛された等級の正しい順序を与えないことを示す。 第二に(「分離」)、ref. 1 で定義されるグラフ不変量 $\psi(g)$ が独立数 $\alpha(g)$ よりも厳密に大きいことを示す。 不変な $\psi(g)$ は、グラフ $g$ によって決定される可換関係に従うハミルトニアンのノルム上の束であり、$\alpha(g)\leq \psi(g) \leq \vartheta(g)$、ただし $\vartheta(\cdot)$ はlovasz theta関数である。 SYKモデルで$q\neq 4$のケースを簡潔に論じる。 量子クナップサック問題(quantum knapsack problem)と呼ばれる問題を定義する。

We answer two questions regarding the sum-of-squares for the SYK model left open in Ref. 1, both of which are related to graphs. First (a "limitation"), we show that a fragment of the sum-of-squares, in which one considers commutation relations of degree-$4$ Majorana operators but does not impose any other relations on them, does not give the correct order of magnitude bound on the ground state energy. Second (a "separation"), we show that the graph invariant $\Psi(G)$ defined in Ref. 1 may be strictly larger than the independence number $\alpha(G)$. The invariant $\Psi(G)$ is a bound on the norm of a Hamiltonian whose terms obey commutation relations determined by the graph $G$, and it was shown that $\alpha(G)\leq \Psi(G) \leq \vartheta(G)$, where $\vartheta(\cdot)$ is the Lovasz theta function. We briefly discuss the case of $q\neq 4$ in the SYK model. Separately, we define a problem that we call the quantum knapsack problem.
翻訳日:2024-02-23 14:15:33 公開日:2024-02-22
# トーナメントにおけるキング発見のコミュニケーション複雑性について

On the communication complexity of finding a king in a tournament ( http://arxiv.org/abs/2402.14751v1 )

ライセンス: Link先を確認
Nikhil S. Mande, Manaswi Paraashar, Swagato Sanyal, Nitin Saurabh(参考訳) トーナメントは完全な有向グラフである。 トーナメントの王は頂点 v であり、他の頂点はすべて、最大 2 の経路で v から到達可能である。 各トーナメントには少なくとも1つの王がおり、そのうちの1つは最大外度頂点である。 キング、最大外度頂点、トーナメントのソースを見つけるタスクは、クエリの複雑さの文脈で比較的よく研究されている。 これらのタスクの通信複雑性について検討し、エッジを2つのプレイヤー間で分割する。 1) ソースが存在するかどうかを判断する決定論的コミュニケーションの複雑さは tilde{theta}(log^2 n) である。 2) キングを見つけるための決定論的およびランダムな通信複雑性は、Theta(n) である。 量子通信の複雑さはtilde{theta}(sqrt{n})である。 3) 最大外度頂点を求める決定論的、ランダム化、および量子通信の複雑さは、それぞれ Theta(n log n) と tilde{Theta}(n) と tilde{Theta}(sqrt{n}) である。 私たちの上界は、エッジのすべてのパーティションと、エッジの特定のパーティションの下界を保持する。 上の最初の弾丸を示すために、おそらく驚くことに、トーナメントでソースを見つけることは、無向グラフ上のよく研究されたclique vs. independent set(cis)問題と同等である。 情報源を見つけるための我々の限界は、CIS問題の複雑さに関する既知の境界から従う。 この等価性の観点から、トーナメントにおける王の発見は、CISの自然な一般化であると考えることができる。 我々の下限の1つは、愚かな集合に基づく引数を使い、他の下限の全ては、慎重に構成されたSet-Disjointnessからの還元から従う。

A tournament is a complete directed graph. A king in a tournament is a vertex v such that every other vertex is reachable from v via a path of length at most 2. It is well known that every tournament has at least one king, one of which is a maximum out-degree vertex. The tasks of finding a king, a maximum out-degree vertex and a source in a tournament has been relatively well studied in the context of query complexity. We study the communication complexity of these tasks, where the edges are partitioned between two players. The following are our main results for n-vertex tournaments: 1) The deterministic communication complexity of finding whether a source exists is tilde{Theta}(log^2 n). 2) The deterministic and randomized communication complexities of finding a king are Theta(n). The quantum communication complexity is tilde{Theta}(sqrt{n}). 3) The deterministic, randomized and quantum communication complexities of finding a maximum out-degree vertex are Theta(n log n), tilde{Theta}(n) and tilde{Theta}(sqrt{n}), respectively. Our upper bounds hold for all partitions of edges, and the lower bounds for a specific partition of the edges. To show the first bullet above, we show, perhaps surprisingly, that finding a source in a tournament is equivalent to the well-studied Clique vs. Independent Set (CIS) problem on undirected graphs. Our bounds for finding a source then follow from known bounds on the complexity of the CIS problem. In view of this equivalence, we can view the task of finding a king in a tournament to be a natural generalization of CIS. One of our lower bounds uses a fooling-set based argument, and all our other lower bounds follow from carefully-constructed reductions from Set-Disjointness.
翻訳日:2024-02-23 14:15:08 公開日:2024-02-22
# LLMのスケーリング効率

Scaling Efficient LLMs ( http://arxiv.org/abs/2402.14746v1 )

ライセンス: Link先を確認
B.N. Kausik(参考訳) 訓練されたLLMは通常、パラメータの大部分がゼロであることに乏しく、効率に関する疑問を提起する。 そこで我々は,学習コーパス上で所望の精度を達成できる最少パラメータを持つLLMを,効率的なLLMに問い合わせる。 具体的には,実規模でのトレーニング損失に対する理論的および経験的推定値を比較し,自然学習コーパスにおける固有シーケンス数の上・下限をその大きさの関数として求める。 その結果、(1)学習コーパスに表されるスキルの数を2倍にし、(2)効率の良いLCMでは3倍から5倍に、(2)パラメータの数は$N$と$D$の自然訓練コーパスのスケールは$N \sim D^{0.58}$ (3) LLMのパラメータの数がトレーニングコーパスのユニークなシーケンスの数より小さい場合、スケールアップは創発的スキルを明らかにすることができる。

Trained LLMs are typically sparse in that most of the parameters are zero, raising questions on efficiency. In response, we inquire into efficient LLMs, i.e. those with the fewest parameters that achieve the desired accuracy on a training corpus. Specifically, we compare theoretical and empirical estimates for training loss at current scale to obtain upper and lower bounds on the number of unique sequences in a natural training corpus as a function of its size. Our result implies (1) to double the number of skills represented in a training corpus, the corpus must scale roughly between three and five fold (2) for efficient LLMs, the number of parameters $N$ and the size $D$ of a natural training corpus scale as $N \sim D^{0.58}$ (3) if the number of parameters of an LLM is smaller than the number of unique sequences in the training corpus, scaling up can uncover emergent skills.
翻訳日:2024-02-23 14:14:37 公開日:2024-02-22
# 都市住民としての大規模言語モデル:パーソナルモビリティ生成のためのLLMエージェントフレームワーク

Large Language Models as Urban Residents: An LLM Agent Framework for Personal Mobility Generation ( http://arxiv.org/abs/2402.14744v1 )

ライセンス: Link先を確認
Jiawei Wang, Renhe Jiang, Chuang Yang, Zengqing Wu, Makoto Onizuka, Ryosuke Shibasaki, Chuan Xiao(参考訳) 本稿では,Large Language Models (LLM) をエージェントフレームワークに統合した,フレキシブルかつ効率的なパーソナルモビリティ生成手法を提案する。 LLMは、セマンティックデータを効率的に処理し、様々なタスクをモデリングする汎用性を提供することによって、以前のモデルの限界を克服する。 提案手法は, LLMと実世界の都市移動データとの整合性, リッチな活動データとの整合性, 信頼性の高い活動生成戦略の開発, 都市移動におけるLLM応用の探索という3つの研究課題に焦点をあてる。 主要な技術的貢献は、個々の活動パターンとモチベーションを考慮に入れた新しいLLMエージェントフレームワークであり、LLMを実世界の活動データと整合させる自己整合性アプローチや、解釈可能な活動生成のための検索強化戦略などである。 実験では,実世界のデータを用いて包括的検証を行う。 本研究は,実世界の人間活動データに基づく活動生成のためのllmエージェントフレームワークの設計の先駆的試みであり,都市移動分析に有望なツールを提供する。

This paper introduces a novel approach using Large Language Models (LLMs) integrated into an agent framework for flexible and efficient personal mobility generation. LLMs overcome the limitations of previous models by efficiently processing semantic data and offering versatility in modeling various tasks. Our approach addresses the critical need to align LLMs with real-world urban mobility data, focusing on three research questions: aligning LLMs with rich activity data, developing reliable activity generation strategies, and exploring LLM applications in urban mobility. The key technical contribution is a novel LLM agent framework that accounts for individual activity patterns and motivations, including a self-consistency approach to align LLMs with real-world activity data and a retrieval-augmented strategy for interpretable activity generation. In experimental studies, comprehensive validation is performed using real-world data. This research marks the pioneering work of designing an LLM agent framework for activity generation based on real-world human activity data, offering a promising tool for urban mobility analysis.
翻訳日:2024-02-23 14:14:16 公開日:2024-02-22
# 多言語BERTによるトルコ語の係り受けアノテーション

Dependency Annotation of Ottoman Turkish with Multilingual BERT ( http://arxiv.org/abs/2402.14743v1 )

ライセンス: Link先を確認
\c{S}aziye Bet\"ul \"Ozate\c{s}, Tar{\i}k Emre T{\i}ra\c{s}, Efe Eren Gen\c{c}, Esma Fat{\i}ma Bilgin Ta\c{s}demir(参考訳) 本研究は,トルコ初の依存性ツリーバンクに対して,事前学習した大規模言語モデルに基づくアノテーション手法を提案する。 我々の実験結果は、反復的に、 一 多言語BERTに基づく構文解析モデルを用いた擬アノテーションデータ 二 偽アノテーションを手動で訂正すること。 iii) 修正されたアノテーションでパースモデルを微調整し、依存関係のアノテーションプロセスのスピードアップと単純化を行います。 結果として生まれたツリーバンクは、universal dependencies(ud)プロジェクトの一部となり、トルコの文書の自動分析を容易にし、この歴史的遺産に埋め込まれた言語的豊かさを解き放ちます。

This study introduces a pretrained large language model-based annotation methodology for the first dependency treebank in Ottoman Turkish. Our experimental results show that, iteratively, i) pseudo-annotating data using a multilingual BERT-based parsing model, ii) manually correcting the pseudo-annotations, and iii) fine-tuning the parsing model with the corrected annotations, we speed up and simplify the challenging dependency annotation process. The resulting treebank, that will be a part of the Universal Dependencies (UD) project, will facilitate automated analysis of Ottoman Turkish documents, unlocking the linguistic richness embedded in this historical heritage.
翻訳日:2024-02-23 14:13:56 公開日:2024-02-22
# 自己教師付き学習による胸部x線におけるゼロショット小児結核検出

Zero-Shot Pediatric Tuberculosis Detection in Chest X-Rays using Self-Supervised Learning ( http://arxiv.org/abs/2402.14741v1 )

ライセンス: Link先を確認
Daniel Capell\'an-Mart\'in, Abhijeet Parida, Juan J. G\'omez-Valverde, Ramon Sanchez-Jacob, Pooneh Roshanitabrizi, Marius G. Linguraru, Mar\'ia J. Ledesma-Carbayo, Syed M. Anwar(参考訳) 結核 (TB) は依然として重要な世界的な健康上の課題であり、小児患者は大きな懸念を抱いている。 世界保健機関(WHO)は、TBスクリーニングのための胸部X線(CXR)を提唱している。 しかし、放射線医による視覚的解釈は、特に小児TBでは主観的、時間的、エラーを起こしやすい。 人工知能(AI)によるコンピュータ支援検出(CAD)ツール、特にディープラーニングを利用したツールは、肺疾患検出の強化を約束している。 しかし、データ不足と一般化性の欠如が課題となっている。 そこで本研究では,視覚変換器(ViT)を利用して,CXRにおけるTB検出を改良し,ゼロショットのTB検出を可能にする,新たな自己教師型パラダイムを提案する。 完全教師付き(非訓練型)vitモデルと比較した場合の自己教師付き事前訓練時のtb検出性能(12.7%および$\sim $13.4%)と、成人のtb検出における0.959 aucおよび0.962 auprの最高性能、ゼロショット小児tb検出における0.697 aucおよび0.607 auprの改善を実証した。 その結果,成人のcxrにおける自己教師付き学習は,小児のtb検出などの下流課題に効果的に応用できることが示された。

Tuberculosis (TB) remains a significant global health challenge, with pediatric cases posing a major concern. The World Health Organization (WHO) advocates for chest X-rays (CXRs) for TB screening. However, visual interpretation by radiologists can be subjective, time-consuming and prone to error, especially in pediatric TB. Artificial intelligence (AI)-driven computer-aided detection (CAD) tools, especially those utilizing deep learning, show promise in enhancing lung disease detection. However, challenges include data scarcity and lack of generalizability. In this context, we propose a novel self-supervised paradigm leveraging Vision Transformers (ViT) for improved TB detection in CXR, enabling zero-shot pediatric TB detection. We demonstrate improvements in TB detection performance ($\sim$12.7% and $\sim$13.4% top AUC/AUPR gains in adults and children, respectively) when conducting self-supervised pre-training when compared to fully-supervised (i.e., non pre-trained) ViT models, achieving top performances of 0.959 AUC and 0.962 AUPR in adult TB detection, and 0.697 AUC and 0.607 AUPR in zero-shot pediatric TB detection. As a result, this work demonstrates that self-supervised learning on adult CXRs effectively extends to challenging downstream tasks such as pediatric TB detection, where data are scarce.
翻訳日:2024-02-23 14:13:45 公開日:2024-02-22
# Back to Basics: LLMにおける人間のフィードバックから学ぶためにReINFORCEスタイルの最適化を再考

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs ( http://arxiv.org/abs/2402.14740v1 )

ライセンス: Link先を確認
Arash Ahmadian, Chris Cremer, Matthias Gall\'e, Marzieh Fadaee, Julia Kreutzer, Ahmet \"Ust\"un, Sara Hooker(参考訳) RLHF(Reinforcement Learning from Human Feedback)の形をしたAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われる。 ppo ( \textsc{proximal policy optimization}) は最近の文献でrlhfのrl部分の標準的手法として位置づけられている。 しかし、高い計算コストと敏感なハイパーパラメータチューニングの両方が伴う。 PPOの発展に繋がるモチベーションの原則のほとんどは、RLHFにおいて実践的な関心事ではなく、性能を保ち、さらに向上させる計算コストの低い手法を提唱している。 rl の文脈において、人間の好みからアライメントの \textit{formulation} を再検討する。 RLHF の文脈では PPO の多くのコンポーネントは不要であり、より単純なREINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。 llmsアライメント特性に対する注意深い適応は、低コストでオンラインrl最適化の利点を享受できることが示唆された。

AI alignment in the shape of Reinforcement Learning from Human Feedback (RLHF) is increasingly treated as a crucial ingredient for high performance large language models. \textsc{Proximal Policy Optimization} (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. However, it involves both high computational cost and sensitive hyperparameter tuning. We posit that most of the motivational principles that led to the development of PPO are less of a practical concern in RLHF and advocate for a less computationally expensive method that preserves and even increases performance. We revisit the \textit{formulation} of alignment from human preferences in the context of RL. Keeping simplicity as a guiding principle, we show that many components of PPO are unnecessary in an RLHF context and that far simpler REINFORCE-style optimization variants outperform both PPO and newly proposed "RL-free" methods such as DPO and RAFT. Our work suggests that careful adaptation to LLMs alignment characteristics enables benefiting from online RL optimization at low cost.
翻訳日:2024-02-23 14:13:19 公開日:2024-02-22
# 変圧器の経時変化による因果構造学習

How Transformers Learn Causal Structure with Gradient Descent ( http://arxiv.org/abs/2402.14735v1 )

ライセンス: Link先を確認
Eshaan Nichani, Alex Damian, Jason D. Lee(参考訳) シーケンスモデリングタスクにおけるトランスフォーマーの驚くべき成功は、多くの場合、シーケンスの異なる部分間で情報を転送できる自己アテンションメカニズムに起因している。 自己注意により、トランスフォーマーは因果構造をエンコードすることができ、シーケンスモデリングに特に適している。 しかし、変圧器が勾配に基づくトレーニングアルゴリズムによってそのような因果構造を学習する過程は、いまだによく分かっていない。 この過程をより深く理解するために、潜在因果構造を学習する必要がある文脈内学習タスクを導入する。 簡易な二層変圧器上の勾配降下は、第1の注意層に潜在因果グラフを符号化することにより、この課題を解くことができる。 我々の証明の重要な洞察は、注目行列の勾配がトークン間の相互情報を符号化していることである。 データ処理の不等式の結果、この勾配の最大のエントリは、潜在因果グラフのエッジに対応する。 特殊な場合として、インコンテキストマルコフ鎖からシーケンスが生成されるとき、トランスフォーマーが誘導ヘッドを学習することを証明する(olsson et al., 2022)。 コンテキスト内学習タスクでトレーニングされたトランスフォーマーが,多種多様な因果構造を回復できることを示し,理論的な知見を確認した。

The incredible success of transformers on sequence modeling tasks can be largely attributed to the self-attention mechanism, which allows information to be transferred between different parts of a sequence. Self-attention allows transformers to encode causal structure which makes them particularly suitable for sequence modeling. However, the process by which transformers learn such causal structure via gradient-based training algorithms remains poorly understood. To better understand this process, we introduce an in-context learning task that requires learning latent causal structure. We prove that gradient descent on a simplified two-layer transformer learns to solve this task by encoding the latent causal graph in the first attention layer. The key insight of our proof is that the gradient of the attention matrix encodes the mutual information between tokens. As a consequence of the data processing inequality, the largest entries of this gradient correspond to edges in the latent causal graph. As a special case, when the sequences are generated from in-context Markov chains, we prove that transformers learn an induction head (Olsson et al., 2022). We confirm our theoretical findings by showing that transformers trained on our in-context learning task are able to recover a wide variety of causal structures.
翻訳日:2024-02-23 14:12:59 公開日:2024-02-22
# ヘテロフィリーによるリンク予測:物理に触発されたグラフニューラルネットワークアプローチ

Link Prediction under Heterophily: A Physics-Inspired Graph Neural Network Approach ( http://arxiv.org/abs/2402.14802v1 )

ライセンス: Link先を確認
Andrea Giuseppe Di Francesco, Francesco Caso, Maria Sofia Bucarelli and Fabrizio Silvestri(参考訳) 過去数年間、グラフニューラルネットワーク(gnns)は、グラフとして表される現実世界の現象のモデリングの柔軟性により、さまざまなディープラーニング領域で「事実上」標準となっている。 しかし、GNNのメッセージパッシング機構は学習性と表現性の課題に直面しており、隣接ノードがしばしば異なるラベルを持つヘテロ親和性グラフ上でのハイパフォーマンスを妨げる。 これらの課題に対処する既存のソリューションのほとんどは、ノード分類タスクに焦点を当てた特定のベンチマークに限られている。 この狭い焦点は、ヘテロフィリーの下でリンク予測が、レコメンダシステムを含むいくつかのアプリケーションにもたらす潜在的影響を制限する。 例えば、ソーシャルネットワークでは、2人のユーザーが何らかの潜在的な理由で接続されている可能性がある。 GRAFFのような物理にインスパイアされたGNNは、メッセージパッシングにおける物理バイアスの導入により、ヘテロフィリーの下でのノード分類性能の向上に重要な貢献をした。 これらの知見から着想を得て,graff が採用する手法はリンク予測性能も向上できることが示唆された。 この仮説をさらに探求するため,GRAFFの拡張であるGRAFF-LPを導入する。 ヘテロフィリックグラフの最近のコレクションにおける有効性を評価し,ヘテロフィリなリンク予測のための新しいベンチマークを構築した。 我々のアプローチは、多くのデータセットにおいて、以前の手法を上回り、異なるコンテキストで強い柔軟性を示し、26.7%の相対的auroc改善を達成する。

In the past years, Graph Neural Networks (GNNs) have become the `de facto' standard in various deep learning domains, thanks to their flexibility in modeling real-world phenomena represented as graphs. However, the message-passing mechanism of GNNs faces challenges in learnability and expressivity, hindering high performance on heterophilic graphs, where adjacent nodes frequently have different labels. Most existing solutions addressing these challenges are primarily confined to specific benchmarks focused on node classification tasks. This narrow focus restricts the potential impact that link prediction under heterophily could offer in several applications, including recommender systems. For example, in social networks, two users may be connected for some latent reason, making it challenging to predict such connections in advance. Physics-Inspired GNNs such as GRAFF provided a significant contribution to enhance node classification performance under heterophily, thanks to the adoption of physics biases in the message-passing. Drawing inspiration from these findings, we advocate that the methodology employed by GRAFF can improve link prediction performance as well. To further explore this hypothesis, we introduce GRAFF-LP, an extension of GRAFF to link prediction. We evaluate its efficacy within a recent collection of heterophilic graphs, establishing a new benchmark for link prediction under heterophily. Our approach surpasses previous methods, in most of the datasets, showcasing a strong flexibility in different contexts, and achieving relative AUROC improvements of up to 26.7%.
翻訳日:2024-02-23 14:08:05 公開日:2024-02-22
# すべてのエキスパートが平等であるとは限らない: エキスパートの効率的なプルーニングとスキャッピング

Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models ( http://arxiv.org/abs/2402.14800v1 )

ライセンス: Link先を確認
Xudong Lu, Qi Liu, Yuhui Xu, Aojun Zhou, Siyuan Huang, Bo Zhang, Junchi Yan, Hongsheng Li(参考訳) 大規模言語モデル (LLM) の進展における重要な進展は、Mixture-of-Experts (MoE) LLM の出現である。 従来のLLMと比較して、MoE LLMはより少ないパラメータで高い性能を達成することができるが、パラメータサイズが大きいためデプロイは困難である。 本論文は,特定の設計ハードウェアに依存した従来の重み付け法とは違って,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率の向上を主目的とする。 具体的には,タスク非依存およびタスク特化の専門家による,MoE LLMのプルーニングとスキップのための学習後アプローチを,我々の最も優れた知識に対して初めて提案する。 広範な実験により,提案手法は,十分な性能を維持しつつ,モデルサイズを削減し,推論速度を向上できることを示した。 データとコードはhttps://github.com/Lucky-Lance/Expert_Sparsity.comで入手できる。

A pivotal advancement in the progress of large language models (LLMs) is the emergence of the Mixture-of-Experts (MoE) LLMs. Compared to traditional LLMs, MoE LLMs can achieve higher performance with fewer parameters, but it is still hard to deploy them due to their immense parameter sizes. Different from previous weight pruning methods that rely on specifically designed hardware, this paper mainly aims to enhance the deployment efficiency of MoE LLMs by introducing plug-and-play expert-level sparsification techniques. Specifically, we propose, for the first time to our best knowledge, post-training approaches for task-agnostic and task-specific expert pruning and skipping of MoE LLMs, tailored to improve deployment efficiency while maintaining model performance across a wide range of tasks. Extensive experiments show that our proposed methods can simultaneously reduce model sizes and increase the inference speed, while maintaining satisfactory performance. Data and code will be available at https://github.com/Lucky-Lance/Expert_Sparsity.
翻訳日:2024-02-23 14:07:39 公開日:2024-02-22
# インフォーマル論理を用いた体系的分解型自然言語推論の強化

Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic ( http://arxiv.org/abs/2402.14798v1 )

ライセンス: Link先を確認
Nathaniel Weir, Kate Sanders, Orion Weller, Shreya Sharma, Dongwei Jiang, Zhengping Zhang, Bhavana Dalvi Mishra, Oyvind Tafjord, Peter Jansen, Peter Clark, Benjamin Van Durme(参考訳) 現代言語モデルは、不安定な形式論理に頼ることなく、直感的で証明的なテキストエンターメントツリーの構築と評価のような、テキストによる構造化推論の新しい機会を可能にする。 しかし、この方向の進行は、有効な構成内容を決定するための明確なプロトコルの欠如によって妨げられている。 この欠如は、現代のニューロシンボリックエンジンによるノイズデータセットと限られた性能向上を引き起こす。 これらの問題に対処するため,分解包含データセットのアノテートに対する一貫した理論的なアプローチを定式化し,LLMに基づくテキスト推論への影響を評価する。 その結果得られたデータセットであるrdte( decompositional textual entailment の認識)は,従来よりもかなり高い内部一貫性(+9%)を持つことが分かった。 また,知識蒸留によるRDTE指向の係り受け分類器の訓練や,現代のニューロシンボリック推論エンジンでの活用により,他の係り受け分類器ベースラインよりも結果(精度と品質の両方)が有意に向上し,テキスト推論におけるこの進歩の実用的メリットが示される。

Contemporary language models enable new opportunities for structured reasoning with text, such as the construction and evaluation of intuitive, proof-like textual entailment trees without relying on brittle formal logic. However, progress in this direction has been hampered by a long-standing lack of a clear protocol for determining what valid compositional entailment is. This absence causes noisy datasets and limited performance gains by modern neuro-symbolic engines. To address these problems, we formulate a consistent and theoretically grounded approach to annotating decompositional entailment datasets, and evaluate its impact on LLM-based textual inference. We find that our resulting dataset, RDTE (Recognizing Decompositional Textual Entailment), has a substantially higher internal consistency (+9%) than prior decompositional entailment datasets, suggesting that RDTE is a significant step forward in the long-standing problem of forming a clear protocol for discerning entailment. We also find that training an RDTE-oriented entailment classifier via knowledge distillation and employing it in a modern neuro-symbolic reasoning engine significantly improves results (both accuracy and proof quality) over other entailment classifier baselines, illustrating the practical benefit of this advance for textual inference.
翻訳日:2024-02-23 14:07:19 公開日:2024-02-22
# Snap Video: テキスト対ビデオ合成のための時空間スケール変換器

Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis ( http://arxiv.org/abs/2402.14797v1 )

ライセンス: Link先を確認
Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov(参考訳) 画像生成の現代モデルは、顕著な品質と汎用性を示している。 これらの利点に目を向けると、研究コミュニティはビデオを制作するためにそれらを再利用する。 映像コンテンツは非常に冗長であるため、映像生成領域における画像モデルの進化は、動きの忠実度、視覚的品質、スケーラビリティを損なうと論じる。 この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。 そのために、まずEDMフレームワークを拡張して、空間的かつ時間的に冗長なピクセルを考慮し、ビデオ生成を自然にサポートする。 第2に,画像生成の背後にあるワークホースであるu-netは,ビデオ生成時のスケールが悪く,計算のオーバーヘッドが大きいことを示します。 そこで本研究では,U-Netよりも3.31倍高速で,推論時に4.5倍高速なトランスフォーマーベースアーキテクチャを提案する。 これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。 ユーザスタディでは、我々のモデルは最新の手法よりも大きなマージンで好まれていた。 サイトはhttps://snap-research.github.io/snapvideo/。

Contemporary models for generating images show remarkable quality and versatility. Swayed by these advantages, the research community repurposes them to generate videos. Since video content is highly redundant, we argue that naively bringing advances of image models to the video generation domain reduces motion fidelity, visual quality and impairs scalability. In this work, we build Snap Video, a video-first model that systematically addresses these challenges. To do that, we first extend the EDM framework to take into account spatially and temporally redundant pixels and naturally support video generation. Second, we show that a U-Net - a workhorse behind image generation - scales poorly when generating videos, requiring significant computational overhead. Hence, we propose a new transformer-based architecture that trains 3.31 times faster than U-Nets (and is ~4.5 faster at inference). This allows us to efficiently train a text-to-video model with billions of parameters for the first time, reach state-of-the-art results on a number of benchmarks, and generate videos with substantially higher quality, temporal consistency, and motion complexity. The user studies showed that our model was favored by a large margin over the most recent methods. See our website at https://snap-research.github.io/snapvideo/.
翻訳日:2024-02-23 14:06:55 公開日:2024-02-22
# cyberdemo:現実世界のデクスタース操作をシミュレーションした人間のデモを増強する

CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation ( http://arxiv.org/abs/2402.14795v1 )

ライセンス: Link先を確認
Jun Wang, Yuzhe Qin, Kaiming Kuang, Yigit Korkmaz, Akhilan Gurumoorthy, Hao Su, Xiaolong Wang(参考訳) 我々は,ロボット模倣学習への新しいアプローチであるcyberdemoを紹介する。 シミュレーション環境に広範なデータ拡張を組み込むことで、サイバーデモは、現実世界に転送された時の従来のドメイン内実世界のデモンストレーションを上回り、様々な物理的および視覚的な状況を処理する。 データ収集の可利用性や利便性に関わらず、CyberDemoは、さまざまなタスクにおける成功率の観点からベースラインメソッドを上回り、これまで目に見えないオブジェクトで一般化性を示す。 例えば、新しいテトラバルブとペンタバルブを回転させることができる。 本研究は,実世界のデクスタース操作タスクにおけるシミュレーションによる人間の実演の有意な可能性を示す。 詳細はhttps://cyber-demo.github.ioで確認できる。

We introduce CyberDemo, a novel approach to robotic imitation learning that leverages simulated human demonstrations for real-world tasks. By incorporating extensive data augmentation in a simulated environment, CyberDemo outperforms traditional in-domain real-world demonstrations when transferred to the real world, handling diverse physical and visual conditions. Regardless of its affordability and convenience in data collection, CyberDemo outperforms baseline methods in terms of success rates across various tasks and exhibits generalizability with previously unseen objects. For example, it can rotate novel tetra-valve and penta-valve, despite human demonstrations only involving tri-valves. Our research demonstrates the significant potential of simulated human demonstrations for real-world dexterous manipulation tasks. More details can be found at https://cyber-demo.github.io
翻訳日:2024-02-23 14:06:33 公開日:2024-02-22
# 慣性KMS状態の解離性と熱化におけるローレンツ対称性の役割

Disjointness of inertial KMS states and the role of Lorentz symmetry in thermalization ( http://arxiv.org/abs/2402.14794v1 )

ライセンス: Link先を確認
Albert Georg Passegger, Rainer Verch(参考訳) ミンコフスキー時空上の任意の局所的、翻訳-共変量子場理論に対して、異なる慣性参照フレームにおける慣性時間進化の下で不変であり、混合性と呼ばれる時間的クラスタ特性を満たす2つの異なる一次状態が非結合であること、すなわち、各状態が他方の摂動ではないことを証明する。 これらの条件は、自由スカラー場の慣性KMS状態によって満たされ、1つの基準フレームに対するKMS条件を満たす状態は他のフレームに対する熱平衡からは程遠いことを示す。 開量子系理論における平衡への回帰の性質を概観し、自由質量スカラー場の状態に結合した検出器系の漸近挙動に対する不整合性の影響を論じる。 熱状態の場に対して一定の速度で移動するUnruh-DeWitt検出器からなる連成系や、その励起系は、一般的な条件下では後期にKMS状態に近づくことができない。 これは、慣性系における熱浴とunruh効果の明らかな「熱浴」との物理的差異を、移動検知器の観点から示している。 この論文はまた、量子場の理論的な観点から、無質量スカラー場に結合したunruh-dewitt検出器の量子力学系を、検出器の残りのフレームに対するkms状態と比較している。

For any local, translation-covariant quantum field theory on Minkowski spacetime we prove that two distinct primary states that are invariant under the inertial time evolutions in different inertial reference frames and satisfy a timelike cluster property called the mixing property are disjoint, i.e. each state is not a perturbation of the other. These conditions are fulfilled by the inertial KMS states of the free scalar field, thus showing that a state satisfying the KMS condition relative to one reference frame is far from thermal equilibrium relative to other frames. We review the property of return to equilibrium in open quantum systems theory and discuss the implications of disjointness on the asymptotic behavior of detector systems coupled to states of a free massless scalar field. We argue that a coupled system consisting of an Unruh-DeWitt detector moving with constant velocity relative to the field in a thermal state, or an excitation thereof, cannot approach a KMS state at late times under generic conditions. This leads to an illustration of the physical differences between heat baths in inertial systems and the apparent "heat bath" of the Unruh effect from the viewpoint of moving detectors. The article also reviews, from a quantum field theoretical perspective, the quantum dynamical system of an Unruh-DeWitt detector coupled to a massless scalar field in a KMS state relative to the rest frame of the detector.
翻訳日:2024-02-23 14:06:17 公開日:2024-02-22
# マルチビュー画像編集のための注意機能の統合

Consolidating Attention Features for Multi-view Image Editing ( http://arxiv.org/abs/2402.14792v1 )

ライセンス: Link先を確認
Or Patashnik, Rinon Gal, Daniel Cohen-Or, Jun-Yan Zhu, Fernando De la Torre(参考訳) 大規模なテキストから画像へのモデルでは、テキストプロンプトや空間制御を使って、幅広い画像編集技術を可能にする。 しかし、これらの編集手法を1つのシーンを描いたマルチビュー画像に適用すると、3dに一貫性のない結果が得られる。 本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点で編集プロセスを統合する手法を提案する。 1) 生成過程を通じて一貫した特徴を維持することは、多視点編集における一貫性の維持に役立ち、(2) 自己認識層におけるクエリは、画像構造に大きな影響を及ぼす。 そこで本研究では,クエリの一貫性を強制することで,編集画像の幾何的整合性を改善することを提案する。 そこで我々は,編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場であるQNeRFを紹介する。 トレーニングが完了すると、QNeRFは3D一貫性のあるクエリをレンダリングし、生成中の自己アテンション層にソフトに注入することで、マルチビュー一貫性を大幅に改善する。 拡散時間ステップにまたがるクエリをよりよく統合する、漸進的かつ反復的な手法によってプロセスを洗練する。 提案手法を既存手法と比較し,複数視点の整合性を向上し,入力シーンに対する忠実度を向上できることを実証する。 これらの利点により、ターゲットジオメトリに合致した、より少ないビジュアルアーティファクトでnerfをトレーニングすることができます。

Large-scale text-to-image models enable a wide range of image editing techniques, using text prompts or even spatial controls. However, applying these editing methods to multi-view images depicting a single scene leads to 3D-inconsistent results. In this work, we focus on spatial control-based geometric manipulations and introduce a method to consolidate the editing process across various views. We build on two insights: (1) maintaining consistent features throughout the generative process helps attain consistency in multi-view editing, and (2) the queries in self-attention layers significantly influence the image structure. Hence, we propose to improve the geometric consistency of the edited images by enforcing the consistency of the queries. To do so, we introduce QNeRF, a neural radiance field trained on the internal query features of the edited images. Once trained, QNeRF can render 3D-consistent queries, which are then softly injected back into the self-attention layers during generation, greatly improving multi-view consistency. We refine the process through a progressive, iterative method that better consolidates queries across the diffusion timesteps. We compare our method to a range of existing techniques and demonstrate that it can achieve better multi-view consistency and higher fidelity to the input scene. These advantages allow us to train NeRFs with fewer visual artifacts, that are better aligned with the target geometry.
翻訳日:2024-02-23 14:05:50 公開日:2024-02-22
# amplified amplitude estimation: 事前知識を活用して期待値の推定を改善する

Amplified Amplitude Estimation: Exploiting Prior Knowledge to Improve Estimates of Expectation Values ( http://arxiv.org/abs/2402.14791v1 )

ライセンス: Link先を確認
Sophia Simon, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif, Nathan Wiebe(参考訳) 量子コンピュータ上での学習プロセスを高速化するために、事前知識を活用できるオペレータの期待値を推定する方法を提供する。 具体的には、プリオリティが$o(\epsilon)$であるような期待値を持つプロジェクタの簡潔な和として表現できる演算子があると仮定する。 この場合、演算子全体の期待値は、$o(1/\sqrt{\epsilon})$とスケールする多くの量子演算を使用して、エラー$\epsilon$で見積もることができる。 次に、量子化学応用におけるポテンシャルエネルギー面の学習コストを、近傍の点におけるエネルギーから得られる情報を利用して削減する方法を示す。 さらに,newton-cotes法を用いて,先行知識を用いて推定できる導関数の統合により,これらのアイデアをどのように活用してエネルギーを学習するかを示す。 これにより、方向微分作用素のブロックエンコーディングがシステムのハミルトニアンよりも小さい正規化定数を持つ場合、エネルギー推定のコストを削減できる。

We provide a method for estimating the expectation value of an operator that can utilize prior knowledge to accelerate the learning process on a quantum computer. Specifically, suppose we have an operator that can be expressed as a concise sum of projectors whose expectation values we know a priori to be $O(\epsilon)$. In that case, we can estimate the expectation value of the entire operator within error $\epsilon$ using a number of quantum operations that scales as $O(1/\sqrt{\epsilon})$. We then show how this can be used to reduce the cost of learning a potential energy surface in quantum chemistry applications by exploiting information gained from the energy at nearby points. Furthermore, we show, using Newton-Cotes methods, how these ideas can be exploited to learn the energy via integration of derivatives that we can estimate using a priori knowledge. This allows us to reduce the cost of energy estimation if the block-encodings of directional derivative operators have a smaller normalization constant than the Hamiltonian of the system.
翻訳日:2024-02-23 14:05:26 公開日:2024-02-22
# ドメイン非依存な自己教師付き学習のための自己誘導マスク自動エンコーダ

Self-Guided Masked Autoencoders for Domain-Agnostic Self-Supervised Learning ( http://arxiv.org/abs/2402.14789v1 )

ライセンス: Link先を確認
Johnathan Xie, Yoonho Lee, Annie S. Chen, Chelsea Finn(参考訳) 自己教師付き学習は、大量のラベルのないデータから学習表現を抽出し、複数のデータモダリティにまたがる成功を示す。 しかし、既存のメソッドの特異性は、対象タスクの不変性を反映したドメイン固有の拡張など、各ドメインに合わせて調整されているため、自己教師型学習を新しいモダリティに拡張するのは簡単ではない。 マスクモデリングは、入力拡張に依存しないため、自己教師あり学習のためのドメインに依存しないフレームワークとして有望であるが、マスクサンプリング手順はドメイン固有である。 本稿では,完全ドメインに依存しないマスクドモデリング手法であるsma(self-guided masked autoencoders)を提案する。 SMAは、マスクを学習してドメイン固有の仮定なしでサンプリングすることで、マスクモデリングの目的を用いて注意に基づくモデルを訓練する。 本研究では,タンパク質生物学,化学特性予測,粒子物理の3つの自己教師型学習ベンチマークでSMAを評価した。 SMAはドメイン固有の知識を使わずに表現を学習でき、これらの3つのベンチマークで最先端のパフォーマンスを達成することができる。

Self-supervised learning excels in learning representations from large amounts of unlabeled data, demonstrating success across multiple data modalities. Yet, extending self-supervised learning to new modalities is non-trivial because the specifics of existing methods are tailored to each domain, such as domain-specific augmentations which reflect the invariances in the target task. While masked modeling is promising as a domain-agnostic framework for self-supervised learning because it does not rely on input augmentations, its mask sampling procedure remains domain-specific. We present Self-guided Masked Autoencoders (SMA), a fully domain-agnostic masked modeling method. SMA trains an attention based model using a masked modeling objective, by learning masks to sample without any domain-specific assumptions. We evaluate SMA on three self-supervised learning benchmarks in protein biology, chemical property prediction, and particle physics. We find SMA is capable of learning representations without domain-specific knowledge and achieves state-of-the-art performance on these three benchmarks.
翻訳日:2024-02-23 14:05:11 公開日:2024-02-22
# ラオ黒色化ベイズ因果推論

Rao-Blackwellising Bayesian Causal Inference ( http://arxiv.org/abs/2402.14781v1 )

ライセンス: Link先を確認
Christian Toth, Christian Knoll, Franz Pernkopf, Robert Peharz(参考訳) ベイズ因果推論、すなわち下流因果推論タスクで使用する後因果モデルの推定は、文献ではあまり研究されていない難しい計算推論問題を引き起こす。 本研究では,順序に基づくMCMC構造学習と勾配に基づくグラフ学習の最近の進歩を組み合わせたベイズ因果推論フレームワークを提案する。 具体的には、因果構造を推論する問題を分解する。 (i)変数上の位相次数を推測すること、及び (ii)各変数の親集合を推論する。 変数あたりの親数を制限するとき、多項式時間で親集合を正確にマーカライズすることができる。 さらに、ガウス過程を用いて未知の因果機構をモデル化し、その正確な限界化を可能にする。 これは、勾配に基づく最適化を通じて分布を学ぶ因果順序を除いて、すべてのコンポーネントがモデルから排除されるrao-blackwellizationスキームを導入する。 rao-黒色化と因果順の逐次推定法の組み合わせは、スケールフリーおよびerdos-renyiグラフ構造を持つ線形および非線形付加雑音ベンチマークの最先端をもたらす。

Bayesian causal inference, i.e., inferring a posterior over causal models for the use in downstream causal reasoning tasks, poses a hard computational inference problem that is little explored in literature. In this work, we combine techniques from order-based MCMC structure learning with recent advances in gradient-based graph learning into an effective Bayesian causal inference framework. Specifically, we decompose the problem of inferring the causal structure into (i) inferring a topological order over variables and (ii) inferring the parent sets for each variable. When limiting the number of parents per variable, we can exactly marginalise over the parent sets in polynomial time. We further use Gaussian processes to model the unknown causal mechanisms, which also allows their exact marginalisation. This introduces a Rao-Blackwellization scheme, where all components are eliminated from the model, except for the causal order, for which we learn a distribution via gradient-based optimisation. The combination of Rao-Blackwellization with our sequential inference procedure for causal orders yields state-of-the-art on linear and non-linear additive noise benchmarks with scale-free and Erdos-Renyi graph structures.
翻訳日:2024-02-23 14:04:52 公開日:2024-02-22
# Customize-A-Video: テキスト・ビデオ拡散モデルのワンショットモーションカスタマイズ

Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models ( http://arxiv.org/abs/2402.14780v1 )

ライセンス: Link先を確認
Yixuan Ren, Yang Zhou, Jimei Yang, Jing Shi, Difan Liu, Feng Liu, Mingi Kwon, Abhinav Shrivastava(参考訳) 画像のカスタマイズはテキスト・ツー・イメージ(T2I)拡散モデルで広く研究され、印象的な結果と応用をもたらした。 text-to-video(t2v)拡散モデルが出現した現在、その時間的対応であるモーション・カスタマイゼーションはまだ十分に研究されていない。 ワンショットモーションカスタマイズの課題に対処するために,単一参照ビデオからのモーションをモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。 時間的注意層に対する低ランク適応(lora)を利用して、参照ビデオから特定の動きモデリングのために事前訓練されたt2v拡散モデルを調整する。 トレーニングパイプライン中における空間的・時間的情報を切り離すため,動作学習に先立って,元の外観を単一の参照ビデオから切り離した外観吸収器の概念を導入する。 提案手法は,プラグイン・アンド・プレイ方式で,カスタムビデオ生成・編集,映像表示のカスタマイズ,複数動作の組み合わせなど,さまざまな下流タスクに容易に拡張できる。 プロジェクトページはhttps://anonymous-314.github.ioで閲覧できます。

Image customization has been extensively studied in text-to-image (T2I) diffusion models, leading to impressive outcomes and applications. With the emergence of text-to-video (T2V) diffusion models, its temporal counterpart, motion customization, has not yet been well investigated. To address the challenge of one-shot motion customization, we propose Customize-A-Video that models the motion from a single reference video and adapting it to new subjects and scenes with both spatial and temporal varieties. It leverages low-rank adaptation (LoRA) on temporal attention layers to tailor the pre-trained T2V diffusion model for specific motion modeling from the reference videos. To disentangle the spatial and temporal information during the training pipeline, we introduce a novel concept of appearance absorbers that detach the original appearance from the single reference video prior to motion learning. Our proposed method can be easily extended to various downstream tasks, including custom video generation and editing, video appearance customization, and multiple motion combination, in a plug-and-play fashion. Our project page can be found at https://anonymous-314.github.io.
翻訳日:2024-02-23 14:04:34 公開日:2024-02-22
# 大言語モデルの命令チューニングにおけるゼロショット言語間伝達

Zero-shot cross-lingual transfer in instruction tuning of large language model ( http://arxiv.org/abs/2402.14778v1 )

ライセンス: Link先を確認
Nadezhda Chirkova, Vassilina Nikoulina(参考訳) インストラクションチューニング(IT)は、任意の命令に従うために事前訓練された大規模言語モデル(LLM)を教えるために広く使われているが、多言語設定では過小評価されている。 本研究では,LLMを英語のみのデータに基づいて指導し,他の言語のユーザプロンプトでテストする場合に,ITにおけるゼロショット言語間移動の体系的研究を行う。 モデル構成選択の影響を調査し,多言語学習における多面的評価戦略を考案する。 モデルトレーニングのすべての段階が英語中心であっても、ITにおいて言語間の移動は成功しますが、ハイパーパラメータチューニングと十分なITデータによって、多言語性が考慮される場合のみです。 英語の訓練を受けたllmは、他の言語で正しい言語、包括的、有用な応答を生成できるが、事実性が低く、時にはフラレンシーエラーが発生することがある。

Instruction tuning (IT) is widely used to teach pretrained large language models (LLMs) to follow arbitrary instructions, but is under-studied in multilingual settings. In this work, we conduct a systematic study of zero-shot cross-lingual transfer in IT, when an LLM is instruction-tuned on English-only data and then tested on user prompts in other languages. We investigate the influence of model configuration choices and devise a multi-facet evaluation strategy for multilingual instruction following. We find that cross-lingual transfer does happen successfully in IT even if all stages of model training are English-centric, but only if multiliguality is taken into account in hyperparameter tuning and with large enough IT data. English-trained LLMs are capable of generating correct-language, comprehensive and helpful responses in the other languages, but suffer from low factuality and may occasionally have fluency errors.
翻訳日:2024-02-23 14:04:12 公開日:2024-02-22
# 対実的SCMに対する因果計算:ブリッジグラフと潜在因子モデル

Causal Imputation for Counterfactual SCMs: Bridging Graphs and Latent Factor Models ( http://arxiv.org/abs/2402.14777v1 )

ライセンス: Link先を確認
Alvaro Ribot, Chandler Squires, Caroline Uhler(参考訳) 我々は因果的抑止の課題を考察し、様々な可能な状況においてある行動の集合の結果を予測することを目的としている。 実行中の例として、異なる薬物が異なる細胞タイプの細胞に与える影響を予測することを検討する。 動作とコンテキストが有限個の可能な値を持つカテゴリ変数であるインデックスのみの設定について検討する。 この単純な設定であっても、アクションコンテキスト対の小さな部分集合のみが研究されているため、現実的な課題が生じる。 したがってモデルは、アクションによってインデックス化された行、コンテキストでインデックス化された列、結果に対応するマトリックスエントリによる行列補完の形式としてフレーム化できる、新しいアクション-コンテキストペアに外挿する必要がある。 本稿では,SCMに基づく新しいモデルクラスを導入し,結果が反ファクトとして表現され,アクションが機器変数の介入として表現され,システムの初期状態に基づいてコンテキストが定義される。 線形性仮定の下では、この設定は結果行列の上に潜在因子モデルを誘導し、追加の固定効果項を持つことを示す。 このモデルクラスに基づいて因果予測を行うため、合成干渉推定器(Agarwal et al., 2020)への簡単な拡張を導入する。 PRISM 薬物再資源化データセットにおける行列補完手法の評価を行い,提案手法が他の行列補完手法よりも優れていることを示す。

We consider the task of causal imputation, where we aim to predict the outcomes of some set of actions across a wide range of possible contexts. As a running example, we consider predicting how different drugs affect cells from different cell types. We study the index-only setting, where the actions and contexts are categorical variables with a finite number of possible values. Even in this simple setting, a practical challenge arises, since often only a small subset of possible action-context pairs have been studied. Thus, models must extrapolate to novel action-context pairs, which can be framed as a form of matrix completion with rows indexed by actions, columns indexed by contexts, and matrix entries corresponding to outcomes. We introduce a novel SCM-based model class, where the outcome is expressed as a counterfactual, actions are expressed as interventions on an instrumental variable, and contexts are defined based on the initial state of the system. We show that, under a linearity assumption, this setup induces a latent factor model over the matrix of outcomes, with an additional fixed effect term. To perform causal prediction based on this model class, we introduce simple extension to the Synthetic Interventions estimator (Agarwal et al., 2020). We evaluate several matrix completion approaches on the PRISM drug repurposing dataset, showing that our method outperforms all other considered matrix completion approaches.
翻訳日:2024-02-23 14:03:56 公開日:2024-02-22
# 2次元matryoshka文埋め込み

2D Matryoshka Sentence Embeddings ( http://arxiv.org/abs/2402.14776v1 )

ライセンス: Link先を確認
Xianming Li, Zongxi Li, Jing Li, Haoran Xie, Qing Li(参考訳) 一般的なアプローチは、セマンティックテキスト類似性(STS)のような下流タスクの文埋め込みとして、言語モデルからの固定長埋め込みベクトルに依存する。 このような手法は、様々なアプリケーションにまたがる未知の計算制約や予算のために、柔軟性に制限がある。 Matryoshka Representation Learning (MRL) (Kusupati et al., 2022) は、より粒度の細かい情報を符号化する。 同様の精度は、埋め込みサイズを小さくすることで達成でき、下流タスクのスピードアップにつながる。 改善された効率にもかかわらず、MRLは組み込みを得る前にトランスフォーマーのすべての層をトラバースする必要がある。 これにより、一定数のトランスフォーマー層が表現品質に影響を及ぼすか、文表現のための中間層の使用が実現可能であるかが考慮される。 本稿では, 2次元matryoshka文埋め込み (2dmse) と呼ばれる新しい文埋め込みモデルを提案する。 埋め込みサイズとトランスフォーマー層の両方の弾性設定をサポートし、MRLよりも柔軟性と効率性が高い。 STSタスクと下流アプリケーションに関する広範な実験を行います。 実験により,提案モデルの有効性を実証し,異なる組込みサイズとトランスフォーマー層を動的にサポートすることにより,様々なシナリオに高い適応性が期待できることを示した。

Common approaches rely on fixed-length embedding vectors from language models as sentence embeddings for downstream tasks such as semantic textual similarity (STS). Such methods are limited in their flexibility due to unknown computational constraints and budgets across various applications. Matryoshka Representation Learning (MRL) (Kusupati et al., 2022) encodes information at finer granularities, i.e., with lower embedding dimensions, to adaptively accommodate ad hoc tasks. Similar accuracy can be achieved with a smaller embedding size, leading to speedups in downstream tasks. Despite its improved efficiency, MRL still requires traversing all Transformer layers before obtaining the embedding, which remains the dominant factor in time and memory consumption. This prompts consideration of whether the fixed number of Transformer layers affects representation quality and whether using intermediate layers for sentence representation is feasible. In this paper, we introduce a novel sentence embedding model called Two-dimensional Matryoshka Sentence Embedding (2DMSE). It supports elastic settings for both embedding sizes and Transformer layers, offering greater flexibility and efficiency than MRL. We conduct extensive experiments on STS tasks and downstream applications. The experimental results demonstrate the effectiveness of our proposed model in dynamically supporting different embedding sizes and Transformer layers, allowing it to be highly adaptable to various scenarios.
翻訳日:2024-02-23 14:03:31 公開日:2024-02-22
# DualFocus:マルチモーダル大言語モデルにおけるマクロとマイクロパースペクティブの統合

DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models ( http://arxiv.org/abs/2402.14767v1 )

ライセンス: Link先を確認
Yuhang Cao, Pan Zhang, Xiaoyi Dong, Dahua Lin, Jiaqi Wang(参考訳) 本稿では,マルチモーダル大規模言語モデル(mllms)にマクロおよびマイクロ視点を統合する新しいフレームワークであるdualfocusを提案する。 現在のMLLMは、通常、事前に定義された解像度で入力にのみ焦点を合わせ、局所領域を含む詳細な質問に欠陥をもたらす。 そこで我々は,マクロ視点からの画像に集中し,質問に対する応答を提示し,ズームインする適切な部分領域を識別し,マイクロ視点解析を行うデュアルフォーカス機構を導入した。 マクロとマイクロの両方の観点からの回答の統合により、このモデルはグローバル、詳細、複合的な考慮事項を含むタスクに対処できる。 MLLMにDualFocus機構を付与するため,視覚ゲノム(VG)由来のカスタマイズデータセットをキュレートし,DualFocusのトレーニングレギュレーションに適合させた。 異なるモデルサイズとベンチマークの比較研究を通じて,詳細な検査と総合的洞察のバランスを両立させ,mllmにおける幻覚インスタンスを著しく削減し,様々な視覚言語タスクでの性能を向上させることを実証した。

We present DualFocus, a novel framework for integrating macro and micro perspectives within multi-modal large language models (MLLMs) to enhance vision-language task performance. Current MLLMs typically singularly focus on inputs at a predefined resolution, resulting in deficiencies in detailed questions involving local regions. We introduced a DualFocus mechanism where the model concentrates on the image from a macro perspective, responses to the question, and identifies suitable sub-regions to zoom in for subsequent micro perspective analysis. Via the integration of answers from both macro and micro perspectives, the model is adept at addressing tasks that encompass global, detailed, and combined considerations. To endows the DualFocus mechanism in MLLMs, we curated a tailored dataset derived from the Visual Genome (VG) and adapted it to align with the training regimen of DualFocus. Through comparative studies across different model sizes and benchmarks, we demonstrate DualFocus's superiority in balancing detailed examination with holistic insight, significantly reducing hallucination instances in MLLMs and improving their performance in various vision-language tasks.
翻訳日:2024-02-23 14:03:08 公開日:2024-02-22
# palo: 5b人のための多言語大規模マルチモーダルモデル

PALO: A Polyglot Large Multimodal Model for 5B People ( http://arxiv.org/abs/2402.14818v1 )

ライセンス: Link先を確認
Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan(参考訳) より包括的な視覚言語モデル(vlms)を追求するために、本研究は \textsc{palo} と呼ばれる大きな多言語マルチモーダルモデルを導入する。 \textsc{palo} は英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論機能を提供している。 提案手法は,英語からの多モーダルな命令データセットを,微調整された大言語モデルを用いて対象言語に適応させる半自動翻訳手法により,手作業の最小化によるスケーラビリティを確保しつつ,高い言語忠実度を確保する。 多様な命令セットを組み込むことで、ヒンディー語、アラビア語、ベンガル語、ウルドゥー語など、複数の言語で全体的なパフォーマンスが向上する。 得られたモデルは3つのスケール(1.7B, 7B, 13Bパラメータ)でトレーニングされ、強力なベースラインに比べて大幅に改善されている。 また,言語間における視覚言語推論能力を評価するために,近日中に提案する多言語マルチモーダルベンチマークも提案する。 コード: https://github.com/mbzuai-oryx/palo。

In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called \textsc{Palo}. \textsc{Palo} offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of $\sim$5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
翻訳日:2024-02-23 13:58:15 公開日:2024-02-22
# カメラを光として:光拡散によるポーズ推定

Cameras as Rays: Pose Estimation via Ray Diffusion ( http://arxiv.org/abs/2402.14817v1 )

ライセンス: Link先を確認
Jason Y. Zhang, Amy Lin, Moneish Kumar, Tzu-Hsuan Yang, Deva Ramanan, Shubham Tulsiani(参考訳) カメラのポーズの推定は3次元再構成の基本的なタスクであり、スパースビューを考えると依然として困難である(10)。 カメラ外部のグローバルなパラメトリゼーションをトップダウンで予測する既存のアプローチとは対照的に,カメラを光束として扱うカメラポーズの分散表現を提案する。 この表現は、ポーズ精度を向上させる空間像特徴との密結合を可能にする。 この表現は、設定レベル変換器に自然に適しており、画像パッチを対応する光線にマッピングする回帰ベースのアプローチを開発する。 スパース・ビュー・ポーズ推論における不確かさを捉えるため,本手法を適応し,可視モードのサンプリングを可能とし,性能の向上を図る。 提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を実証し,未確認対象のカテゴリや被写体キャプチャに一般化した。

Estimating camera poses is a fundamental task for 3D reconstruction and remains challenging given sparse views (<10). In contrast to existing approaches that pursue top-down prediction of global parametrizations of camera extrinsics, we propose a distributed representation of camera pose that treats a camera as a bundle of rays. This representation allows for a tight coupling with spatial image features improving pose precision. We observe that this representation is naturally suited for set-level level transformers and develop a regression-based approach that maps image patches to corresponding rays. To capture the inherent uncertainties in sparse-view pose inference, we adapt this approach to learn a denoising diffusion model which allows us to sample plausible modes while improving performance. Our proposed methods, both regression- and diffusion-based, demonstrate state-of-the-art performance on camera pose estimation on CO3D while generalizing to unseen object categories and in-the-wild captures.
翻訳日:2024-02-23 13:57:38 公開日:2024-02-22
# ボースポーラロンの普遍量子力学

Universal quantum dynamics of Bose polarons ( http://arxiv.org/abs/2402.14816v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Etrych, Gevorg Martirosyan, Alec Cao, Christopher J. Ho, Zoran Hadzibabic, Christoph Eigen(参考訳) 量子浴に浸漬した不純物の創発的性質を予測することは、準粒子処理を否定できる基本的な課題である。 ここでは、同種ボース-アインシュタイン凝縮体に注入される移動不純物のスペクトル特性と実時間ダイナミクスを、2つのフェシュバッハ共鳴を用いて測定し、不純物-バス間相互作用とバス内相互作用の両方をチューニングする。 ポーラロン準粒子の誘電分枝と反発分枝の両方をマッピングし、強相互作用状態におけるフェシュバッハ共鳴に伴う反発分極と分子状態を解き、後者が多体性を持つことを示す。 我々の測定では、浴槽密度と1次元の相互作用パラメータによって制御され、ポーラロンはもはや適切に定義されていないが、普遍性は保たれている。

Predicting the emergent properties of impurities immersed in a quantum bath is a fundamental challenge that can defy quasiparticle treatments. Here, we measure the spectral properties and real-time dynamics of mobile impurities injected into a homogeneous Bose--Einstein condensate, using two Feshbach resonances to tune both the impurity-bath and intrabath interactions. We map out both attractive and repulsive branches of polaron quasiparticles, resolving the repulsive polaron and the molecular state associated with the Feshbach resonance in the strongly interacting regime, and show that the latter also has a many-body character. Our measurements reveal remarkably universal behavior, controlled by the bath density and a single dimensionless interaction parameter; for near-resonant interactions the polarons are no longer well defined, but the universality still holds.
翻訳日:2024-02-23 13:57:06 公開日:2024-02-22
# 医用画像におけるエキスパートレベル視覚言語基礎モデルのデモグラフィー的バイアス

Demographic Bias of Expert-Level Vision-Language Foundation Models in Medical Imaging ( http://arxiv.org/abs/2402.14815v1 )

ライセンス: Link先を確認
Yuzhe Yang, Yujia Liu, Xin Liu, Avanti Gulhane, Domenico Mastrodicasa, Wei Wu, Edward J Wang, Dushyant W Sahani, Shwetak Patel(参考訳) 人工知能(AI)の進歩は、医療画像の応用において専門家レベルのパフォーマンスを達成した。 特に、自己監督型視覚言語基礎モデルでは、明示的なトレーニングアノテーションに頼ることなく、幅広い病態を検出できる。 しかし、これらのAIモデルが人間の偏見を反映または増幅しないことを保証することが不可欠である。 このような偏見の出現は、特定の患者サブグループの必須医療を体系的に遅らせる可能性がある。 本研究では、胸部x線診断における最先端視覚言語基盤モデルのアルゴリズム的公平性について、5つのグローバルソースデータセットで検討する。 以上の結果から,黒毛和種女性患者などの交叉性サブグループでは,これらの基礎モデルが有意な診断を受けていないことが明らかとなった。 このような人口統計バイアスは、幅広い病理学と人口統計学的特性にまたがる。 モデル埋め込みのさらなる分析は、その重要な人口統計情報のエンコーディングを明らかにする。 医療画像にこれらのバイアスを持つaiシステムをデプロイすることは、既存の医療格差を増大させ、医療アクセスの公平化と臨床応用に関する倫理的疑問を提起する潜在的な課題を提起する。

Advances in artificial intelligence (AI) have achieved expert-level performance in medical imaging applications. Notably, self-supervised vision-language foundation models can detect a broad spectrum of pathologies without relying on explicit training annotations. However, it is crucial to ensure that these AI models do not mirror or amplify human biases, thereby disadvantaging historically marginalized groups such as females or Black patients. The manifestation of such biases could systematically delay essential medical care for certain patient subgroups. In this study, we investigate the algorithmic fairness of state-of-the-art vision-language foundation models in chest X-ray diagnosis across five globally-sourced datasets. Our findings reveal that compared to board-certified radiologists, these foundation models consistently underdiagnose marginalized groups, with even higher rates seen in intersectional subgroups, such as Black female patients. Such demographic biases present over a wide range of pathologies and demographic attributes. Further analysis of the model embedding uncovers its significant encoding of demographic information. Deploying AI systems with these biases in medical imaging can intensify pre-existing care disparities, posing potential challenges to equitable healthcare access and raising ethical questions about their clinical application.
翻訳日:2024-02-23 13:56:44 公開日:2024-02-22
# 2つの高速回転するフェルミオンのラウリン状態の実現

Realization of a Laughlin state of two rapidly rotating fermions ( http://arxiv.org/abs/2402.14814v1 )

ライセンス: Link先を確認
Philipp Lunt, Paul Hill, Johannes Reiter, Philipp M. Preiss, Maciej Ga{\l}ka, Selim Jochim(参考訳) 光学式ツイーザにおける2つの高速回転するフェルミオン原子のラウリン状態を実現する。 単一原子とスピン分解イメージング技術を用いて、フライリン波動関数をサンプリングし、相対運動における渦分布、粒子の相対角度の相関、粒子間相互作用の抑制などの特徴を明らかにする。 我々の研究は、回転する原子ガスにおける分数量子ホール状態の原子間結合の基礎を築いた。

We realize a Laughlin state of two rapidly rotating fermionic atoms in an optical tweezer. By utilizing a single atom and spin resolved imaging technique, we sample the Laughlin wavefunction, thereby revealing its distinctive features, including a vortex distribution in the relative motion, correlations in the particles' relative angle, and suppression of the inter-particle interactions. Our work lays the foundation for atom-by-atom assembly of fractional quantum Hall states in rotating atomic gases.
翻訳日:2024-02-23 13:56:12 公開日:2024-02-22
# WeakSAM:Segment Anythingが弱教師付きインスタンスレベルの認識に遭遇

WeakSAM: Segment Anything Meets Weakly-supervised Instance-level Recognition ( http://arxiv.org/abs/2402.14812v1 )

ライセンス: Link先を確認
Lianghui Zhu, Junwei Zhou, Yan Liu, Xin Hao, Wenyu Liu, Xinggang Wang(参考訳) inexact supervisorを用いた弱い教師付き視覚認識は、批判的だが挑戦的な学習問題である。 これは人間のラベル付けコストを大幅に削減し、伝統的にマルチインスタンス学習と擬似ラベルに依存している。 本稿では、WeakSAMを紹介し、ビジョン基礎モデルに含まれる事前学習された世界知識、すなわちSAM(Seegment Anything Model)を利用して、弱教師付きオブジェクト検出(WSOD)とセグメンテーションを解決する。 WeakSAMは、従来のWSODリトレーニングにおける2つの重要な制限、すなわち擬似基底真理(PGT)の不完全性とノイズの多いPGTインスタンスに適応PGT生成とRerea of Interest(RoI)ドロップ正規化を通じて対処する。 また、SAMが自動オブジェクト検出とセグメンテーションのためにプロンプトやカテゴリを意識しないという問題にも対処している。 WeakSAMは、WSODおよびWSISベンチマークにおいて、それぞれ7.4%と8.5%の平均的な改善という大きなマージンを持つ従来の最先端手法を著しく上回っている。 コードは \url{https://github.com/hustvl/WeakSAM} で公開されている。

Weakly supervised visual recognition using inexact supervision is a critical yet challenging learning problem. It significantly reduces human labeling costs and traditionally relies on multi-instance learning and pseudo-labeling. This paper introduces WeakSAM and solves the weakly-supervised object detection (WSOD) and segmentation by utilizing the pre-learned world knowledge contained in a vision foundation model, i.e., the Segment Anything Model (SAM). WeakSAM addresses two critical limitations in traditional WSOD retraining, i.e., pseudo ground truth (PGT) incompleteness and noisy PGT instances, through adaptive PGT generation and Region of Interest (RoI) drop regularization. It also addresses the SAM's problems of requiring prompts and category unawareness for automatic object detection and segmentation. Our results indicate that WeakSAM significantly surpasses previous state-of-the-art methods in WSOD and WSIS benchmarks with large margins, i.e. average improvements of 7.4% and 8.5%, respectively. The code is available at \url{https://github.com/hustvl/WeakSAM}.
翻訳日:2024-02-23 13:56:04 公開日:2024-02-22
# 既存メカニズムの微調整:エンティティ追跡を事例として

Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking ( http://arxiv.org/abs/2402.14811v1 )

ライセンス: Link先を確認
Nikhil Prakash, Tamar Rott Shaham, Tal Haklay, Yonatan Belinkov, David Bau(参考訳) 命令追従、コード生成、数学といった一般化されたタスクの微調整は、様々なタスクにおける言語モデルの性能を高めることが示されている。 しかし、そのような微調整がこれらのモデルの内部計算にどのように影響するかは、いまだ解明されていない。 言語モデルに実装された内部機構に微調整が与える影響について検討する。 ケーススタディとして,言語理解の重要な面であるエンティティトラッキングの特性について検討し,数学を微調整したモデルの性能向上について検討した。 我々は、エンティティ追跡を可能にするメカニズムを特定し、それを示す i) 元のモデルと細調整されたバージョンの両方において、主に同一回路がエンティティトラッキングを実装している。 実際、微調整されたバージョンのオリジナルモデルのエンティティトラッキング回路は、完全なオリジナルモデルよりもパフォーマンスが良い。 (ii) 全てのモデルの回路は、ほぼ同じ機能を実装している: エンティティのトラッキングは、元のモデルとその微調整されたバージョンの両方において正しいエンティティの位置を追跡することによって実行される。 (iii)微調整モデルの性能向上は,拡張位置情報の処理能力の向上が主因である。 これらの知見を明らかにするために、特定のセマンティクスに責任のあるモデルコンポーネントを自動的に検出するパッチパッチ(Patch Patching)と、改善されたメカニズムを明らかにするためにモデル間でアクティベーションをパッチする新しいアプローチであるCMAPを用いる。 本研究の結果から, 微調整はモデルの機械的操作を根本的に変化させるのではなく, 改善することが示唆された。

Fine-tuning on generalized tasks such as instruction following, code generation, and mathematics has been shown to enhance language models' performance on a range of tasks. Nevertheless, explanations of how such fine-tuning influences the internal computations in these models remain elusive. We study how fine-tuning affects the internal mechanisms implemented in language models. As a case study, we explore the property of entity tracking, a crucial facet of language comprehension, where models fine-tuned on mathematics have substantial performance gains. We identify the mechanism that enables entity tracking and show that (i) in both the original model and its fine-tuned versions primarily the same circuit implements entity tracking. In fact, the entity tracking circuit of the original model on the fine-tuned versions performs better than the full original model. (ii) The circuits of all the models implement roughly the same functionality: Entity tracking is performed by tracking the position of the correct entity in both the original model and its fine-tuned versions. (iii) Performance boost in the fine-tuned models is primarily attributed to its improved ability to handle the augmented positional information. To uncover these findings, we employ: Patch Patching, DCM, which automatically detects model components responsible for specific semantics, and CMAP, a new approach for patching activations across models to reveal improved mechanisms. Our findings suggest that fine-tuning enhances, rather than fundamentally alters, the mechanistic operation of the model.
翻訳日:2024-02-23 13:55:41 公開日:2024-02-22
# ジーンOH拡散 : 一般化可能な手動物体間相互作用の解法

GeneOH Diffusion: Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion ( http://arxiv.org/abs/2402.14810v1 )

ライセンス: Link先を確認
Xueyi Liu, Li Yi(参考訳) 本研究では,手動物体間相互作用(HOI)の難解化問題に取り組む。 誤った相互作用シークエンスが与えられた場合、その目的は、知覚的に現実的なシークエンスの相互作用アーティファクトを取り除くために間違った手の動きを洗練することである。 この課題には、不自然な手ポーズや不適切な手オブジェクト関係を含む複雑な相互作用ノイズと、新しい相互作用や多様なノイズパターンへの堅牢な一般化の必要性が含まれる。 我々は、GeneOHと呼ばれる革新的なコンタクト中心のHOI表現と、新しいドメイン一般化可能なデノベーションスキームという、2つの重要な設計を取り入れて、これらの課題に取り組む。 接触中心の表現 GeneOH はHOI過程を情報的にパラメータ化し、様々なHOIシナリオの一般化を促進する。 ニューデノイジング方式は,白色雑音空間からクリーンデータ多様体へノイズデータサンプルを投影するように訓練された正準デノイジングモデルと,白色雑音空間と一致させ,標準デノイザーを介してクリーニングすることにより,様々な雑音パターンの入力トラジェクタを処理する「拡散によるデノイジング」戦略とからなる。 有意なドメイン変動を有する4つのベンチマークに関する広範囲な実験により,本手法の有効性が示された。 GeneOH Diffusionは、さまざまなダウンストリームアプリケーションも約束する。 プロジェクトWebサイト: https://meowuu7.github.io/GeneOH-Diffusion/。

In this work, we tackle the challenging problem of denoising hand-object interactions (HOI). Given an erroneous interaction sequence, the objective is to refine the incorrect hand trajectory to remove interaction artifacts for a perceptually realistic sequence. This challenge involves intricate interaction noise, including unnatural hand poses and incorrect hand-object relations, alongside the necessity for robust generalization to new interactions and diverse noise patterns. We tackle those challenges through a novel approach, GeneOH Diffusion, incorporating two key designs: an innovative contact-centric HOI representation named GeneOH and a new domain-generalizable denoising scheme. The contact-centric representation GeneOH informatively parameterizes the HOI process, facilitating enhanced generalization across various HOI scenarios. The new denoising scheme consists of a canonical denoising model trained to project noisy data samples from a whitened noise space to a clean data manifold and a "denoising via diffusion" strategy which can handle input trajectories with various noise patterns by first diffusing them to align with the whitened noise space and cleaning via the canonical denoiser. Extensive experiments on four benchmarks with significant domain variations demonstrate the superior effectiveness of our method. GeneOH Diffusion also shows promise for various downstream applications. Project website: https://meowuu7.github.io/GeneOH-Diffusion/.
翻訳日:2024-02-23 13:55:18 公開日:2024-02-22
# criticbench: 批判的正しい推論のためのllmベンチマーク

CriticBench: Benchmarking LLMs for Critique-Correct Reasoning ( http://arxiv.org/abs/2402.14809v1 )

ライセンス: Link先を確認
Zicheng Lin, Zhibin Gou, Tian Liang, Ruilin Luo, Haowei Liu, Yujiu Yang(参考訳) 大規模言語モデル(LLM)がそれらの推論を批判し、洗練する能力は、評価、フィードバックのプロビジョニング、自己改善において非常に重要である。 本稿では,llms のさまざまなタスクに対する批判的・正当化能力を評価するための総合ベンチマークである criticbench について紹介する。 CriticBenchは数学、常識、記号、コーディング、アルゴリズムの5つの推論領域を含んでいる。 15のデータセットをコンパイルし、3つのLLMファミリーからのレスポンスを組み込む。 批判ベンチを活用し,世代,批判,訂正推論,すなわちgqc推論における17llmの性能を評価し,分析する。 Our findings reveal: (1) a linear relationship in GQC capabilities, with critique-focused training markedly enhancing performance; (2) a task-dependent variation in correction effectiveness, with logic-oriented tasks being more amenable to correction; (3) GQC knowledge inconsistencies that decrease as model size increases; and (4) an intriguing inter-model critiquing dynamic, where stronger models are better at critiquing weaker ones, while weaker models can surprisingly surpass stronger ones in their self-critique. LLMの微妙な批判的正しい推論に対するこれらの洞察が、LCM批判と自己改善のさらなる研究を促進することを願っている。

The ability of Large Language Models (LLMs) to critique and refine their reasoning is crucial for their application in evaluation, feedback provision, and self-improvement. This paper introduces CriticBench, a comprehensive benchmark designed to assess LLMs' abilities to critique and rectify their reasoning across a variety of tasks. CriticBench encompasses five reasoning domains: mathematical, commonsense, symbolic, coding, and algorithmic. It compiles 15 datasets and incorporates responses from three LLM families. Utilizing CriticBench, we evaluate and dissect the performance of 17 LLMs in generation, critique, and correction reasoning, i.e., GQC reasoning. Our findings reveal: (1) a linear relationship in GQC capabilities, with critique-focused training markedly enhancing performance; (2) a task-dependent variation in correction effectiveness, with logic-oriented tasks being more amenable to correction; (3) GQC knowledge inconsistencies that decrease as model size increases; and (4) an intriguing inter-model critiquing dynamic, where stronger models are better at critiquing weaker ones, while weaker models can surprisingly surpass stronger ones in their self-critique. We hope these insights into the nuanced critique-correct reasoning of LLMs will foster further research in LLM critique and self-improvement.
翻訳日:2024-02-23 13:54:52 公開日:2024-02-22
# 長いシステムプロンプトを持つ効率的な大言語モデルのリレーアテンション

RelayAttention for Efficient Large Language Model Serving with Long System Prompts ( http://arxiv.org/abs/2402.14808v1 )

ライセンス: Link先を確認
Lei Zhu, Xinjiang Wang, Wayne Zhang, Rynson W.H. Lau(参考訳) 実用的大規模言語モデル(llm)サービスには、タスクの指示、例、知識ドキュメントを指定する長いシステムプロンプトが含まれ、多数のリクエストにまたがって再利用される。 しかし、次のトークンを生成するコストがシーケンス長に比例して増加すると、長いシステムがスループット/レイテンシのボトルネックを引き起こす。 本稿では,長いシステムプロンプトを含むLCMサービスの効率化を目的とする。 我々のキーとなる観察は、既存の因果注意計算アルゴリズムにおいて、これらのシステムプロンプトの処理には大量のメモリアクセスが必要であることである。 具体的には、バッチリクエストでは、システムプロンプトのキャッシュされた隠された状態(すなわちキーと値のペア)がオフチップのDRAMからオンチップのSRAMに複数回転送される。 このような冗長性を排除するため,DRAMから複数の入力トークンを正確に1回だけ読み取ることができるアテンションアルゴリズムであるRelayAttentionを提案する。 RelayAttentionは無料のランチであり、因果的注意の数学的再構成に基づくため、モデルの再トレーニングを必要とせず、世代品質を維持している。

Practical large language model (LLM) services may involve a long system prompt, which specifies the instructions, examples, and knowledge documents of the task and is reused across numerous requests. However, the long system prompt causes throughput/latency bottlenecks as the cost of generating the next token grows w.r.t. the sequence length. This paper aims to improve the efficiency of LLM services that involve long system prompts. Our key observation is that handling these system prompts requires heavily redundant memory accesses in existing causal attention computation algorithms. Specifically, for batched requests, the cached hidden states (i.e., key-value pairs) of system prompts are transferred from off-chip DRAM to on-chip SRAM multiple times, each corresponding to an individual request. To eliminate such a redundancy, we propose RelayAttention, an attention algorithm that allows reading these hidden states from DRAM exactly once for a batch of input tokens. RelayAttention is a free lunch: it maintains the generation quality while requiring no model retraining, as it is based on a mathematical reformulation of causal attention.
翻訳日:2024-02-23 13:54:33 公開日:2024-02-22
# 公共衛生における動的レスト・マルチアーム・バンドタスクのための意思決定モデル(DLM)

A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health ( http://arxiv.org/abs/2402.14807v1 )

ライセンス: Link先を確認
Nikhil Behari, Edwin Zhang, Yunfan Zhao, Aparna Taneja, Dheeraj Nagaraj, Milind Tambe(参考訳) 主要な持続可能な開発目標(sdgターゲット3.1)である母子死亡率を下げる努力は、リスクの高い人口に重要な健康情報を広めるための予防医療プログラムに大きく依存している。 これらのプログラムは2つの重要な課題に直面している: 限られた医療資源を大規模な受益者に効率的に割り当てること、そして政策の優先順位を進化させること。 RMAB(Stepless multi-armed bandit)における以前の研究は、公衆衛生割り当てタスクの成功を示したが、進化する政策優先順位に適応する柔軟性に欠けていた。 同時に、ロボット制御やナビゲーションなど、さまざまな領域において、大規模言語モデル(llm)が適切な自動プランナーとして登場した。 本稿では,RMABのための決定言語モデルDLMを提案する。 ヒトの言語コマンドを使って公衆衛生設定に挑戦するRMABポリシーの動的微調整を可能にするため、LLMを自動プランナーとして使用し、(1)人間の政策優先のプロンプトを解釈し、(2)RMABのためのマルチエージェントRL環境のためのコード報酬関数を提案し、(3)RMABシミュレーションのフィードバックを用いて生成された報酬を反復して政策成果を効果的に適応させる。 インドを拠点とする公衆衛生機関ARMMANと共同で妊婦の予防ケアを奨励するシミュレーションを行い、DLMが人間の言語コマンドのみを入力として政策成果を動的に形成できることを示す。

Efforts to reduce maternal mortality rate, a key UN Sustainable Development target (SDG Target 3.1), rely largely on preventative care programs to spread critical health information to high-risk populations. These programs face two important challenges: efficiently allocating limited health resources to large beneficiary populations, and adapting to evolving policy priorities. While prior works in restless multi-armed bandit (RMAB) demonstrated success in public health allocation tasks, they lack flexibility to adapt to evolving policy priorities. Concurrently, Large Language Models (LLMs) have emerged as adept, automated planners in various domains, including robotic control and navigation. In this paper, we propose DLM: a Decision Language Model for RMABs. To enable dynamic fine-tuning of RMAB policies for challenging public health settings using human-language commands, we propose using LLMs as automated planners to (1) interpret human policy preference prompts, (2) propose code reward functions for a multi-agent RL environment for RMABs, and (3) iterate on the generated reward using feedback from RMAB simulations to effectively adapt policy outcomes. In collaboration with ARMMAN, an India-based public health organization promoting preventative care for pregnant mothers, we conduct a simulation study, showing DLM can dynamically shape policy outcomes using only human language commands as input.
翻訳日:2024-02-23 13:54:10 公開日:2024-02-22
# 空気質予測輸送エミュレーションの差分学習

Difference Learning for Air Quality Forecasting Transport Emulation ( http://arxiv.org/abs/2402.14806v1 )

ライセンス: Link先を確認
Reed River Chen, Christopher Ribaudo, Jennifer Sleeman, Chace Ashcraft, Collin Kofroth, Marisa Hughes, Ivanka Stajner, Kevin Viner, Kai Wang(参考訳) ヒトの健康は、呼吸器疾患や心血管疾患のリスクの増加など、空気の質の低下に悪影響を及ぼす。 近年、世界中でも地域でも極端な空気質のイベントが増えているため、これらのイベントに効果的に適応するためには、より微細な解像度の空気質予測ガイダンスが必要である。 アメリカ合衆国海洋大気局(national oceanic and atmospheric administration)は、アメリカ合衆国大陸の大気質予測ガイダンスを提供している。 彼らの大気質予測モデルは15kmの空間解像度に基づいているが、目標は3kmの空間解像度に達することである。 現在では、化学種の輸送をモデル化するための計算的要求が禁止されているため、これは実現不可能である。 本研究では,既存の数値モデルに匹敵する能力を維持しつつ,計算量を削減できるディープラーニングトランスポートエミュレータについて述べる。 本手法は,空気品質の極端なイベントが存在する場合に,いかにスキルを保ち続けるかを示し,運用上の候補となる可能性を示す。 また、このモデルが特定の種のモデル輸送の物理的性質をいかに良好に維持しているかを評価することも検討する。

Human health is negatively impacted by poor air quality including increased risk for respiratory and cardiovascular disease. Due to a recent increase in extreme air quality events, both globally and locally in the United States, finer resolution air quality forecasting guidance is needed to effectively adapt to these events. The National Oceanic and Atmospheric Administration provides air quality forecasting guidance for the Continental United States. Their air quality forecasting model is based on a 15 km spatial resolution; however, the goal is to reach a three km spatial resolution. This is currently not feasible due in part to prohibitive computational requirements for modeling the transport of chemical species. In this work, we describe a deep learning transport emulator that is able to reduce computations while maintaining skill comparable with the existing numerical model. We show how this method maintains skill in the presence of extreme air quality events, making it a potential candidate for operational use. We also explore evaluating how well this model maintains the physical properties of the modeled transport for a given set of species.
翻訳日:2024-02-23 13:53:39 公開日:2024-02-22
# 外部評価による大規模言語モデルにおける複数個性同定

Identifying Multiple Personalities in Large Language Models with External Evaluation ( http://arxiv.org/abs/2402.14805v1 )

ライセンス: Link先を確認
Xiaoyang Song, Yuta Adachi, Jessie Feng, Mouwei Lin, Linhao Yu, Frank Li, Akshat Gupta, Gopala Anumanchipalli, Simerjot Kaur(参考訳) 大規模言語モデル(LLM)は、人間の日常的アプリケーションと急速に統合されているため、LLMの振る舞いに関する社会的・倫理的懸念が数多く提起されている。 LLMの振る舞いを理解する方法の1つは、個性を分析することである。 近年の多くの研究は、人間のために作られた自己評価テストを用いてLLMの個性を定量化している。 しかし、LCMに適用した場合の自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。 本稿では,対外的評価法として,対外的評価法として,対外的評価法として,対外的評価法を用いてllmの個性について検討し,対外的機械学習モデルを用いて,対外的質問に対する応答を解析し,対人的個性を評価する。 我々はまず,Llama2-7BモデルをMBTI性格予測器として微調整し,LLMの応答を解析するためのツールとして最先端モデルより優れていた。 次に,2つの異なる役割を演じる際の個性を評価するために,llmに状況質問を促し,それぞれtwitterの投稿やコメントを生成するように依頼する。 外部人格評価手法を用いて、投稿とコメントの生成においてLLMの人格タイプが著しく異なるのに対して、人間は2つの異なる状況において一貫した人格プロファイルを示す。 これは、llmが異なるシナリオに基づいて異なるパーソナリティを示すことができることを示し、llmと人間のパーソナリティの根本的な違いを浮き彫りにする。 本研究では,LLMにおける人格定義と測定の再評価を求める。

As Large Language Models (LLMs) are integrated with human daily applications rapidly, many societal and ethical concerns are raised regarding the behavior of LLMs. One of the ways to comprehend LLMs' behavior is to analyze their personalities. Many recent studies quantify LLMs' personalities using self-assessment tests that are created for humans. Yet many critiques question the applicability and reliability of these self-assessment tests when applied to LLMs. In this paper, we investigate LLM personalities using an alternate personality measurement method, which we refer to as the external evaluation method, where instead of prompting LLMs with multiple-choice questions in the Likert scale, we evaluate LLMs' personalities by analyzing their responses toward open-ended situational questions using an external machine learning model. We first fine-tuned a Llama2-7B model as the MBTI personality predictor that outperforms the state-of-the-art models as the tool to analyze LLMs' responses. Then, we prompt the LLMs with situational questions and ask them to generate Twitter posts and comments, respectively, in order to assess their personalities when playing two different roles. Using the external personality evaluation method, we identify that the obtained personality types for LLMs are significantly different when generating posts versus comments, whereas humans show a consistent personality profile in these two different situations. This shows that LLMs can exhibit different personalities based on different scenarios, thus highlighting a fundamental difference between personality in LLMs and humans. With our work, we call for a re-evaluation of personality definition and measurement in LLMs.
翻訳日:2024-02-23 13:53:23 公開日:2024-02-22
# MATH-Vision Datasetによるマルチモーダル数学的推論の測定

Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset ( http://arxiv.org/abs/2402.14804v1 )

ライセンス: Link先を確認
Ke Wang, Junting Pan, Weikang Shi, Zimu Lu, Mingjie Zhan, Hongsheng Li(参考訳) 最近のLMM(Large Multimodal Models)の進歩は、MathVistaのような既存のベンチマークで人間レベルのパフォーマンスにアプローチするモデルによって、視覚的文脈における数学的推論において有望な結果を示している。 しかし,これらのベンチマークでは,質問の多様性や課題の幅が著しく制限されている。 この問題に対処するために,実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の厳密な収集であるMATH-Vision(MATH-V)データセットを提案する。 LMMの数学的推論能力を評価するために,16の異なる数学の分野を分類し,難易度を5段階に分類し,包括的かつ多様な課題の集合を提供する。 広汎な実験により,現在のLMMとMATH-Vにおける人的パフォーマンスの差が顕著となり,LMMのさらなる進歩が示唆された。 さらに、我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。 プロジェクトはhttps://mathvision-cuhk.github.ioで入手できる。

Recent advancements in Large Multimodal Models (LMMs) have shown promising results in mathematical reasoning within visual contexts, with models approaching human-level performance on existing benchmarks such as MathVista. However, we observe significant limitations in the diversity of questions and breadth of subjects covered by these benchmarks. To address this issue, we present the MATH-Vision (MATH-V) dataset, a meticulously curated collection of 3,040 high-quality mathematical problems with visual contexts sourced from real math competitions. Spanning 16 distinct mathematical disciplines and graded across 5 levels of difficulty, our dataset provides a comprehensive and diverse set of challenges for evaluating the mathematical reasoning abilities of LMMs. Through extensive experimentation, we unveil a notable performance gap between current LMMs and human performance on MATH-V, underscoring the imperative for further advancements in LMMs. Moreover, our detailed categorization allows for a thorough error analysis of LMMs, offering valuable insights to guide future research and development. The project is available at https://mathvision-cuhk.github.io
翻訳日:2024-02-23 13:52:58 公開日:2024-02-22
# 非適応的セキュリティを持つ疑似ランダムユニタリ

Pseudorandom unitaries with non-adaptive security ( http://arxiv.org/abs/2402.14803v1 )

ライセンス: Link先を確認
Tony Metger, Alexander Poremba, Makrand Sinha, Henry Yuen(参考訳) Pseudorandom Unitary (PRU) は、Haarランダムユニタリと区別できない効率的な実装可能なユニタリ演算子の集合である。 本稿では、ランダムなクリフォードユニタリ、擬似乱数二相演算子、擬似乱数置換演算子の結合である単純なPRU構成を提案する。 このPRU構造は、量子セキュア片方向関数の存在を前提として、非適応微分器に対して安全であることを示す。 つまり、$u^{\otimes \mathrm{poly}(n)}$の単一の応用を許される効率的な量子クエリアルゴリズムは、n$-qubitユニタリ$u$がハール測度または我々のpruアンサンブルから引き出されたかどうかを区別できない。 我々は、pru構成が適応的識別器に対して安全であり続けると仮定する。すなわち、単項多項式を並列ではなく列で何度もクエリできる識別器に対して安全である。

Pseudorandom unitaries (PRUs) are ensembles of efficiently implementable unitary operators that cannot be distinguished from Haar random unitaries by any quantum polynomial-time algorithm with query access to the unitary. We present a simple PRU construction that is a concatenation of a random Clifford unitary, a pseudorandom binary phase operator, and a pseudorandom permutation operator. We prove that this PRU construction is secure against non-adaptive distinguishers assuming the existence of quantum-secure one-way functions. This means that no efficient quantum query algorithm that is allowed a single application of $U^{\otimes \mathrm{poly}(n)}$ can distinguish whether an $n$-qubit unitary $U$ was drawn from the Haar measure or our PRU ensemble. We conjecture that our PRU construction remains secure against adaptive distinguishers, i.e. secure against distinguishers that can query the unitary polynomially many times in sequence, not just in parallel.
翻訳日:2024-02-23 13:52:38 公開日:2024-02-22
# 弱値による最適量子状態トモグラフィ

Optimal Quantum State Tomography via Weak Value ( http://arxiv.org/abs/2402.11484v2 )

ライセンス: Link先を確認
Xuanmin Zhu, Dezheng Zhang, Runping Gao, Qun wei, Lixia Liu, and Zijiang Luo(参考訳) 弱値による状態トモグラフィー戦略の効率を向上させるため,システムと測定装置の最適結合強度を探索した。 任意のd次元量子系に対して、密度行列の実部と虚部を測定するのに使用される最適な強度を求める。 状態トモグラフィーの最適効率についても平均二乗誤差を用いて検討した。 再構成密度行列における最小平均二乗誤差が導出された。 本論文で研究されている状態トモグラフィー戦略は、未知の量子状態の測定に有用である。

To improve the efficiency of the state tomography strategy via weak value, we have searched the optimal coupling strength between the system and measuring device. For an arbitrary d-dimensional quantum system, the optimal strengths being used in measuring the real and imaginary parts of the density matrix are obtained. The optimal efficiency of the state tomography has also been studied by using mean square error. The minimal mean square errors in the reconstructed density matrices have been derived. The state tomography strategy studied in this article may be useful in the measurement of the unknown quantum states.
翻訳日:2024-02-23 11:59:42 公開日:2024-02-22
# 半非同期フェデレーション学習の高速化

Accelerating Semi-Asynchronous Federated Learning ( http://arxiv.org/abs/2402.10991v3 )

ライセンス: Link先を確認
Changxin Xu, Yuxin Qiao, Zhanxin Zhou, Fanghao Ni, and Jize Xiong(参考訳) Federated Learning(FL)は、クライアントがプライバシを保持しながらデータ上でモデルをトレーニングできる分散機械学習パラダイムである。 フェデレート平均化(FedAvg)などのFLアルゴリズムは、多くのシナリオにおいてよく収束することが示されている。 しかし、これらの手法ではクライアントがローカルアップデートを同期的にサーバにアップロードする必要があるため、現実的なFL設定では遅くて信頼性が低い。 この問題に対処するため、研究者らは、クライアントが古いグローバルモデルを使用してローカルデータのトレーニングを継続できる非同期FLメソッドを開発した。 しかしながら、これらの手法のほとんどは、相対的なコントリビューションを考慮せずに、単に受信した更新をすべて集約する。 本稿では,受信した更新の安定性と統計的不均一性を考慮したコントリビューション対応非同期FL法を提案する。 本手法は,これらの要因に基づいて各更新のコントリビューションを動的に調整し,既存の方法と比較して収束を高速化する。

Federated Learning (FL) is a distributed machine learning paradigm that allows clients to train models on their data while preserving their privacy. FL algorithms, such as Federated Averaging (FedAvg) and its variants, have been shown to converge well in many scenarios. However, these methods require clients to upload their local updates to the server in a synchronous manner, which can be slow and unreliable in realistic FL settings. To address this issue, researchers have developed asynchronous FL methods that allow clients to continue training on their local data using a stale global model. However, most of these methods simply aggregate all of the received updates without considering their relative contributions, which can slow down convergence. In this paper, we propose a contribution-aware asynchronous FL method that takes into account the staleness and statistical heterogeneity of the received updates. Our method dynamically adjusts the contribution of each update based on these factors, which can speed up convergence compared to existing methods.
翻訳日:2024-02-23 11:59:34 公開日:2024-02-22
# SH2:自撮り自撮り自撮り機

SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully ( http://arxiv.org/abs/2401.05930v3 )

ライセンス: Link先を確認
Jushi Kai, Hai Hu, Zhouhan Lin(参考訳) 大規模言語モデル(LLM)はテキスト生成において優れた性能を示す。 しかし、LSMはまだ幻覚に苦しんでいる。 本研究では,LLMがより真に復号するのに役立つ推論時間法,Self-Highlighted Hesitation (SH2)を提案する。 SH2は情報理論に根ざした単純な事実に基づいており、LSMの場合、低い確率で予測されるトークンは他のトークンよりも情報に富む傾向にある。 分析の結果, LLM による確率の低いトークンは, 名詞, 固有名詞, 形容詞などの事実情報と密接に関連している可能性が示唆された。 そこで本研究では,最小確率のトークンを選択して元のコンテキストに結合することにより,これらのトークンを生成前に繰り返し読み書きし,迷わせることによる,事実情報の「ハイライト」を提案する。 復号化の際には, 重み付けによる出力確率の差を強調するために, コントラストデコーディングを採用する。 実験結果から,新たなデータやモデルを必要としないSH2は,LLMが事実知識を抽出し,幻覚的コンテキストを識別するのに役立つことが示された。 sh2はllama-7b、llama2-7b、mistral-7bを複数の幻覚タスクで改善した。

Large language models (LLMs) demonstrate great performance in text generation. However, LLMs are still suffering from hallucinations. In this work, we propose an inference-time method, Self-Highlighted Hesitation (SH2), to help LLMs decode more truthfully. SH2 is based on a simple fact rooted in information theory that for an LLM, the tokens predicted with lower probabilities are prone to be more informative than others. Our analysis shows that the tokens assigned with lower probabilities by an LLM are more likely to be closely related to factual information, such as nouns, proper nouns, and adjectives. Therefore, we propose to ''highlight'' the factual information by selecting the tokens with the lowest probabilities and concatenating them to the original context, thus forcing the model to repeatedly read and hesitate on these tokens before generation. During decoding, we also adopt contrastive decoding to emphasize the difference in the output probabilities brought by the hesitation. Experimental results demonstrate that our SH2, requiring no additional data or models, can effectively help LLMs elicit factual knowledge and distinguish hallucinated contexts. Significant and consistent improvements are achieved by SH2 for LLaMA-7b, LLaMA2-7b and Mistral-7b on multiple hallucination tasks.
翻訳日:2024-02-23 11:59:17 公開日:2024-02-22
# 条件拡散モデリングのためのフレームワークとタンパク質設計のためのモチーフ足場への応用

A framework for conditional diffusion modelling with applications in motif scaffolding for protein design ( http://arxiv.org/abs/2312.09236v3 )

ライセンス: Link先を確認
Kieran Didi, Francisco Vargas, Simon V Mathis, Vincent Dutordoir, Emile Mathieu, Urszula J Komorowska, Pietro Lio(参考訳) バインダーや酵素設計のような多くのタンパク質設計用途では、構造的モチーフを高精度に構築する必要がある。 微分拡散過程に基づく生成的モデリングパラダイムは、このモチーフ足場問題に対処する主要な候補として現れ、いくつかのケースで初期の実験的な成功を示している。 拡散パラダイムでは、モチーフスキャフォールディングは条件生成タスクとして扱われ、コンピュータビジョン文献からいくつかの条件生成プロトコルが提案または輸入された。 しかし、これらのプロトコルのほとんどがヒューリスティックな動機付けであり、例えばランジュバンダイナミクスへの類似性を通じて、異なるアプローチ間の接続を阻害する統一フレームワークが欠如している。 本研究では,数学的によく理解されたDoobのh-transformに基づいて,条件付きトレーニングと条件付きサンプリング手順を統合する。 この新たな視点は、既存のメソッド間の接続を描画し、既存の条件付きトレーニングプロトコルに新しいバリエーションを提案する。 我々は,この新たなプロトコルの有効性を,画像オーバーペイントとモチーフスキャフォールディングの両方において説明し,標準手法よりも優れていることを示す。

Many protein design applications, such as binder or enzyme design, require scaffolding a structural motif with high precision. Generative modelling paradigms based on denoising diffusion processes emerged as a leading candidate to address this motif scaffolding problem and have shown early experimental success in some cases. In the diffusion paradigm, motif scaffolding is treated as a conditional generation task, and several conditional generation protocols were proposed or imported from the Computer Vision literature. However, most of these protocols are motivated heuristically, e.g. via analogies to Langevin dynamics, and lack a unifying framework, obscuring connections between the different approaches. In this work, we unify conditional training and conditional sampling procedures under one common framework based on the mathematically well-understood Doob's h-transform. This new perspective allows us to draw connections between existing methods and propose a new variation on existing conditional training protocols. We illustrate the effectiveness of this new protocol in both, image outpainting and motif scaffolding and find that it outperforms standard methods.
翻訳日:2024-02-23 11:58:54 公開日:2024-02-22
# 時間同期配電系統状態推定に基づくディープニューラルネットワークの性能解析的検証

Analytical Verification of Performance of Deep Neural Network Based Time-Synchronized Distribution System State Estimation ( http://arxiv.org/abs/2311.06973v4 )

ライセンス: Link先を確認
Behrouz Azimian, Shiva Moshtagh, Anamitra Pal, Shanshan Ma(参考訳) 近年,リアルタイム観測不能な分散システムのためのディープニューラルネットワーク(DNN)を用いた時間同期状態推定器の成功例が報告されている。 本稿では,入力測定における摂動関数として,その状態推定器の性能に関する解析的境界を与える。 テストデータセットのみに基づいてパフォーマンスを評価することは、トレーニング済みのDNNが入力摂動を処理する能力を効果的に示すものではないことがすでに示されている。 そこで我々はDNNの堅牢性と信頼性を解析的に検証し,それらを混合整数線形プログラミング(MILP)問題として扱う。 MILP定式化のスケーラビリティ制限に対処する際のバッチ正規化の能力も強調されている。 このフレームワークは、修正されたieee 34ノードシステムと実世界の大規模分散システムに対する時間同期分布系状態推定を行い、いずれもマイクロファサー測定ユニットによって不完全に観測される。

Recently, we demonstrated success of a time-synchronized state estimator using deep neural networks (DNNs) for real-time unobservable distribution systems. In this letter, we provide analytical bounds on the performance of that state estimator as a function of perturbations in the input measurements. It has already been shown that evaluating performance based on only the test dataset might not effectively indicate a trained DNN's ability to handle input perturbations. As such, we analytically verify robustness and trustworthiness of DNNs to input perturbations by treating them as mixed-integer linear programming (MILP) problems. The ability of batch normalization in addressing the scalability limitations of the MILP formulation is also highlighted. The framework is validated by performing time-synchronized distribution system state estimation for a modified IEEE 34-node system and a real-world large distribution system, both of which are incompletely observed by micro-phasor measurement units.
翻訳日:2024-02-23 11:58:34 公開日:2024-02-22
# von Mises-Fisher混合モデルを用いた顔認識における性バイアスの緩和

Mitigating Gender Bias in Face Recognition Using the von Mises-Fisher Mixture Model ( http://arxiv.org/abs/2210.13664v3 )

ライセンス: Link先を確認
Jean-R\'emy Conti, Nathan Noiry, Vincent Despiegel, St\'ephane Gentric, St\'ephan Cl\'emen\c{c}on(参考訳) 深層学習アルゴリズムの幅広い日常的応用における高い性能と信頼性にもかかわらず、多くの研究は、多くのモデルが偏りを示し、人口の特定のサブグループ(例えば、性別、民族性)と区別していることを示している。 これにより、センシティブなグループ間で均一で比較可能なパフォーマンスを持つ公平なシステムを開発することが求められます。 本研究では,深部顔認識ネットワークの性別バイアスについて検討する。 このバイアスを測定するために、顔認識システム固有のデプロイメントニーズを反映した、$\mathrm{BFAR}$と$\mathrm{BFRR}$という2つの新しいメトリクスを導入します。 幾何学的考察により、私たちは、事前学習されたモデルの深い埋め込みを変換し、識別されたサブグループにより表現力を与える新しい後処理手法により、性別バイアスを軽減する。 浅層ニューラルネットワークを訓練し、fair von mises-fisherの損失を最小化し、そのハイパーパラメータがそれぞれの性別のクラス内分散を規定する。 興味深いことに、これらのハイパーパラメータは我々のフェアネス指標と相関している。 実際、様々なデータセットに対する広範囲な数値実験は、慎重に選択することで男女のバイアスが著しく減少することを示している。 実験に使用されたコードはhttps://github.com/JRConti/EthicalModule_vMFで見ることができる。

In spite of the high performance and reliability of deep learning algorithms in a wide range of everyday applications, many investigations tend to show that a lot of models exhibit biases, discriminating against specific subgroups of the population (e.g. gender, ethnicity). This urges the practitioner to develop fair systems with a uniform/comparable performance across sensitive groups. In this work, we investigate the gender bias of deep Face Recognition networks. In order to measure this bias, we introduce two new metrics, $\mathrm{BFAR}$ and $\mathrm{BFRR}$, that better reflect the inherent deployment needs of Face Recognition systems. Motivated by geometric considerations, we mitigate gender bias through a new post-processing methodology which transforms the deep embeddings of a pre-trained model to give more representation power to discriminated subgroups. It consists in training a shallow neural network by minimizing a Fair von Mises-Fisher loss whose hyperparameters account for the intra-class variance of each gender. Interestingly, we empirically observe that these hyperparameters are correlated with our fairness metrics. In fact, extensive numerical experiments on a variety of datasets show that a careful selection significantly reduces gender bias. The code used for the experiments can be found at https://github.com/JRConti/EthicalModule_vMF.
翻訳日:2024-02-23 11:58:20 公開日:2024-02-22
# KetGPT -- 変圧器を用いた量子回路のデータセット拡張

KetGPT -- Dataset Augmentation of Quantum Circuits using Transformers ( http://arxiv.org/abs/2402.13352v2 )

ライセンス: Link先を確認
Boran Apak, Medina Bandic, Aritra Sarkar and Sebastian Feld(参考訳) 量子回路として表される量子アルゴリズムは、量子システムの性能を評価するベンチマークとして使用できる。 この分野で広く利用されている既存のデータセットはサイズと汎用性に制限があり、研究者はランダムに生成された回路を採用するようになった。 しかし、ランダム回路は、量子システムが製造される実際の量子アルゴリズム固有の性質を欠いているため、代表的なベンチマークではない。 この 'useful' 量子ベンチマークの不足は、量子コンパイラとハードウェアの開発と比較を進める上での課題である。 本研究の目的は,Transformer 機械学習アーキテクチャを用いて,私たちが「現実的な」回路と呼ぶものを生成することによって,既存の量子回路データセットを強化することである。 この目的のために,OpenQASM言語で合成回路を生成するツールであるKetGPTを紹介した。その構造は既存の量子アルゴリズムから派生した量子回路に基づいており,人間の書き起こしたアルゴリズムベースコード(ゲートとキュービットの順序など)の典型的なパターンに従う。 マニュアルインスペクションとqiskitフレームワークの実行,トランスフォーマーベースの分類,構造解析を含む3次元検証プロセスは,アルゴリズムベースの構造と密接に一致する大量の追加回路を生成する上で,ketgptの有効性を示す。 ベンチマーク以外にも、KetGPTはAI駆動の量子コンパイラやシステムに大きく貢献すると考えています。

Quantum algorithms, represented as quantum circuits, can be used as benchmarks for assessing the performance of quantum systems. Existing datasets, widely utilized in the field, suffer from limitations in size and versatility, leading researchers to employ randomly generated circuits. Random circuits are, however, not representative benchmarks as they lack the inherent properties of real quantum algorithms for which the quantum systems are manufactured. This shortage of `useful' quantum benchmarks poses a challenge to advancing the development and comparison of quantum compilers and hardware. This research aims to enhance the existing quantum circuit datasets by generating what we refer to as `realistic-looking' circuits by employing the Transformer machine learning architecture. For this purpose, we introduce KetGPT, a tool that generates synthetic circuits in OpenQASM language, whose structure is based on quantum circuits derived from existing quantum algorithms and follows the typical patterns of human-written algorithm-based code (e.g., order of gates and qubits). Our three-fold verification process, involving manual inspection and Qiskit framework execution, transformer-based classification, and structural analysis, demonstrates the efficacy of KetGPT in producing large amounts of additional circuits that closely align with algorithm-based structures. Beyond benchmarking, we envision KetGPT contributing substantially to AI-driven quantum compilers and systems.
翻訳日:2024-02-23 11:56:26 公開日:2024-02-22
# ariaの日次活動データセット

Aria Everyday Activities Dataset ( http://arxiv.org/abs/2402.13349v2 )

ライセンス: Link先を確認
Zhaoyang Lv, Nicholas Charron, Pierre Moulon, Alexander Gamino, Cheng Peng, Chris Sweeney, Edward Miller, Huixuan Tang, Jeff Meissner, Jing Dong, Kiran Somasundaram, Luis Pesqueira, Mark Schwesinger, Omkar Parkhi, Qiao Gu, Renzo De Nardi, Shangyi Cheng, Steve Saarinen, Vijay Baiyya, Yuyang Zou, Richard Newcombe, Jakob Julian Engel, Xiaqing Pan, Carl Ren(参考訳) Aria Everyday Activity (AEA) Datasetは、Project Aria メガネを用いて記録されたエゴセントリックなマルチモーダルオープンデータセットである。 aeaは、地理的に多様な5つの場所で複数の着用者が記録した143の日常活動シーケンスを含んでいる。 各記録は、project ariaメガネを介して記録されたマルチモーダルセンサデータを含む。 さらに、AEAは、高周波のグローバルな3D軌跡、シーンポイント雲、フレームごとの3D視線ベクトル、時間順の音声書き起こしを含む機械知覚データを提供する。 本稿では,ニューラルシーン再構成やセグメンテーションの促進など,このデータセットで実現可能ないくつかの模範的な研究応用を実証する。 AEAはオープンソースのデータセットで、https://www.projectaria.com/datasets/aea/からダウンロードできる。 オープンソースの実装や、project aria tools https://github.com/facebookresearch/projectaria_toolsでデータセットを使用する方法の例も提供しています。

We present Aria Everyday Activities (AEA) Dataset, an egocentric multimodal open dataset recorded using Project Aria glasses. AEA contains 143 daily activity sequences recorded by multiple wearers in five geographically diverse indoor locations. Each of the recording contains multimodal sensor data recorded through the Project Aria glasses. In addition, AEA provides machine perception data including high frequency globally aligned 3D trajectories, scene point cloud, per-frame 3D eye gaze vector and time aligned speech transcription. In this paper, we demonstrate a few exemplar research applications enabled by this dataset, including neural scene reconstruction and prompted segmentation. AEA is an open source dataset that can be downloaded from https://www.projectaria.com/datasets/aea/. We are also providing open-source implementations and examples of how to use the dataset in Project Aria Tools https://github.com/facebookresearch/projectaria_tools.
翻訳日:2024-02-23 11:56:02 公開日:2024-02-22
# ノイズを伴うゼノ効果の量子制御

Quantum Control for Zeno effect with noises ( http://arxiv.org/abs/2402.13325v2 )

ライセンス: Link先を確認
Haorui Chen, Shengshi Pang(参考訳) 量子ゼノ効果(英: quantum zeno effect)は、量子力学における特異な現象であり、量子系の進化を妨げる頻繁な射影計測の非自明な効果を記述する。 しかし、環境騒音を受けると、量子系は消滅し、量子ゼノ効果はもはや機能しない。 本研究では,ノイズの存在下での量子ゼノ効果の減衰の物理機構を解明し,コヒーレント量子制御が雑音による初期状態におけるシステムの生存確率の低下を緩和する効果について検討した。 我々は、一般にコヒーレント量子制御による生存確率の減衰率を導出し、射影測定の周波数が大きいが有限であるとき、十分に強いハミルトニアンによる適切なコヒーレント制御が生存確率の減衰率を減少させるように設計されていることを示す。 次に、典型的なユニタリノイズと非ユニタリノイズに苦しむ2レベル量子システムは、量子ゼノ効果のノイズに対する保護におけるコヒーレント量子制御方式の効果を示すと考えられる。 雑音の存在下で生存確率の減衰率を求め、変分的アプローチにより減衰率を最小化するために、制御ハミルトニアンをさらに解析的に最適化する。 最適コヒーレント制御による量子系の進化経路は、コヒーレント制御スキームが生存確率の低下にどのように作用するかを明確に示すために、異なるシナリオに対して数値的に説明される。

The quantum Zeno effect is a distinctive phenomenon in quantum mechanics, describing the nontrivial effect of frequent projective measurements on hindering the evolution of a quantum system. However, when subjecting to environmental noises, the quantum system may dissipate and the quantum Zeno effect no longer works. This research studies the physical mechanism for the decay of the quantum Zeno effect in the presence of noises, and investigates the effect of coherent quantum controls on mitigating the decrease of the survival probability that the system stays in the initial state induced by the noises. We derive the decay rate of the survival probability with and without coherent quantum controls in general, and show that when the frequency of the projective measurements is large but finite, proper coherent controls by sufficiently strong Hamiltonians can be designed to decrease the decay rate of the survival probability. A two-level quantum system suffering from typical unitary and non-unitary noises is then considered to demonstrate the effect of the proposed coherent quantum control scheme in protecting the quantum Zeno effect against the noises. The decay rate of the survival probability is obtained in the presence of the noises, and the control Hamiltonian is further optimized analytically to minimize the decay rate by a variational approach. The evolution paths of the quantum system with the optimal coherent controls is illustrated numerically for different scenarios to explicitly show how the coherent control scheme works in lowering the decay of survival probability.
翻訳日:2024-02-23 11:55:45 公開日:2024-02-22
# UniEdit:ビデオモーションと外観編集のための統合チューニングフリーフレームワーク

UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing ( http://arxiv.org/abs/2402.13185v2 )

ライセンス: Link先を確認
Jianhong Bai, Tianyu He, Yuchi Wang, Junliang Guo, Haoji Hu, Zuozhu Liu, Jiang Bian(参考訳) テキストガイドビデオ編集の最近の進歩は、外観編集(例えばスタイライゼーション)に有望な結果をもたらしている。 しかし、映像編集と映像編集を区別する時間的次元(例えば、食事から手振りまで)の動画モーション編集は過小評価されている。 Inversion-then-generation framework内で,事前学習したテキスト・ツー・ビデオ・ジェネレータのパワーを活用することで,動画の動作と外観編集の両方をサポートするチューニング不要フレームワークUniEditを提案する。 フレーム間およびフレーム間依存関係をそれぞれコードする時間的自己注意層と空間的自己意識層とに基づいて、映像コンテンツを保存しながら、モーション編集を実現するため、テキスト誘導動作とソース特徴をそれぞれ生成するために、補助的な動き参照と再構成分岐を導入する。 得られた特徴は、時間的および空間的自己アテンション層を介して主編集経路に注入される。 広範な実験により、unieditはビデオモーション編集と様々な外観編集シナリオをカバーし、最先端の手法を上回っていることが示されている。 私たちのコードは公開されます。

Recent advances in text-guided video editing have showcased promising results in appearance editing (e.g., stylization). However, video motion editing in the temporal dimension (e.g., from eating to waving), which distinguishes video editing from image editing, is underexplored. In this work, we present UniEdit, a tuning-free framework that supports both video motion and appearance editing by harnessing the power of a pre-trained text-to-video generator within an inversion-then-generation framework. To realize motion editing while preserving source video content, based on the insights that temporal and spatial self-attention layers encode inter-frame and intra-frame dependency respectively, we introduce auxiliary motion-reference and reconstruction branches to produce text-guided motion and source features respectively. The obtained features are then injected into the main editing path via temporal and spatial self-attention layers. Extensive experiments demonstrate that UniEdit covers video motion editing and various appearance editing scenarios, and surpasses the state-of-the-art methods. Our code will be publicly available.
翻訳日:2024-02-23 11:54:53 公開日:2024-02-22
# 信頼できる再評価に向けて - シンプルだが効果的な回避メカニズム

Towards Trustworthy Reranking: A Simple yet Effective Abstention Mechanism ( http://arxiv.org/abs/2402.12997v2 )

ライセンス: Link先を確認
Hippolyte Gisserot-Boukhlef, Manuel Faysse, Emmanuel Malherbe, C\'eline Hudelot, Pierre Colombo(参考訳) NIR(Neural Information Retrieval)は、ヒューリスティックベースのIRシステムにおいて大幅に改善されている。 しかし、失敗は頻繁であり、よく使用されるモデルは、ユーザーのクエリに関連するドキュメントを取得することができない。 我々は,実世界の制約に合わせた軽量なアブステンション機構を提案することで,この課題に対処した。 ブラックボックスシナリオにおける禁忌戦略を評価するためのプロトコルを導入し、その効果を実証し、シンプルで効果的なデータ駆動機構を提案する。 実験のレプリケーションとアブステンション実装のためのオープンソースコードを提供し、多様なコンテキストにおけるより広範な採用とアプリケーションを促進します。

Neural Information Retrieval (NIR) has significantly improved upon heuristic-based IR systems. Yet, failures remain frequent, the models used often being unable to retrieve documents relevant to the user's query. We address this challenge by proposing a lightweight abstention mechanism tailored for real-world constraints, with particular emphasis placed on the reranking phase. We introduce a protocol for evaluating abstention strategies in a black-box scenario, demonstrating their efficacy, and propose a simple yet effective data-driven mechanism. We provide open-source code for experiment replication and abstention implementation, fostering wider adoption and application in diverse contexts.
翻訳日:2024-02-23 11:54:33 公開日:2024-02-22
# 特異性に基づく学習:WBICとsBICを改善する情報基準

Learning under Singularity: An Information Criterion improving WBIC and sBIC ( http://arxiv.org/abs/2402.12762v2 )

ライセンス: Link先を確認
Lirui Liu and Joe Suzuki(参考訳) 本稿では,広域ベイズ情報基準(WBIC)とSBIC(Singular Bayesian Information Criterion)の機能強化を目的とした,Singularityによる学習(LS)と呼ばれる新しい情報基準を導入する。 LSは規則性制約なしで有効であり、安定性を示す。 ワタナベは、パラメータから確率分布へのマッピングが1対1であり、そのフィッシャー情報行列が正定値であれば、統計モデルや学習機を正則と定義した。 対照的に、これらの条件を満たさないモデルは特異と呼ばれる。 過去10年間に WBIC や sBIC など,特異事例に関するいくつかの情報基準が提案されてきた。 WBICは非正規シナリオに適用できるが、大きなサンプルサイズと既知の学習係数の冗長な推定を伴う課題に直面している。 逆に、sBICは最大推定値に依存するため、より広範な応用に限られている。 LSはこれらの制限に対処し、WBICとsBICの両方の有用性を高める。 これは、統計モデルに適合する善意を表すために、広範適用可能情報基準(WAIC)からの経験的損失と、sBICと同様の罰則を組み込んだものである。 このアプローチは、規則性制約のない、柔軟で堅牢なモデル選択方法を提供する。

We introduce a novel Information Criterion (IC), termed Learning under Singularity (LS), designed to enhance the functionality of the Widely Applicable Bayes Information Criterion (WBIC) and the Singular Bayesian Information Criterion (sBIC). LS is effective without regularity constraints and demonstrates stability. Watanabe defined a statistical model or a learning machine as regular if the mapping from a parameter to a probability distribution is one-to-one and its Fisher information matrix is positive definite. In contrast, models not meeting these conditions are termed singular. Over the past decade, several information criteria for singular cases have been proposed, including WBIC and sBIC. WBIC is applicable in non-regular scenarios but faces challenges with large sample sizes and redundant estimation of known learning coefficients. Conversely, sBIC is limited in its broader application due to its dependence on maximum likelihood estimates. LS addresses these limitations by enhancing the utility of both WBIC and sBIC. It incorporates the empirical loss from the Widely Applicable Information Criterion (WAIC) to represent the goodness of fit to the statistical model, along with a penalty term similar to that of sBIC. This approach offers a flexible and robust method for model selection, free from regularity constraints.
翻訳日:2024-02-23 11:54:22 公開日:2024-02-22
# スケーラブルなヒューマンマシンポイントクラウド圧縮

Scalable Human-Machine Point Cloud Compression ( http://arxiv.org/abs/2402.12532v2 )

ライセンス: Link先を確認
Mateen Ulhaq, Ivan V. Baji\'c(参考訳) エッジデバイスの計算能力が限られているため、ディープラーニング推論は非常に高価である。 一つの対策は、サーバ側処理のためにネットワーク上でポイントクラウドデータを圧縮して送信することである。 残念ながら、このアプローチは利用可能なビットレートを含むネットワーク要因に敏感である。 幸運にも、マシンタスク特化コーデックを使用することで、推論精度を犠牲にすることなく、ビットレート要件を削減できる。 本稿では,分類の機械的タスクに特化する点クラウドデータのためのスケーラブルなコーデックを提案するとともに,人間の視聴のメカニズムも提供する。 提案するスケーラブルコーデックでは、"ベース"ビットストリームがマシンタスクをサポートし、"エンハンスメント"ビットストリームが人間の視聴における入力再構成のパフォーマンス向上に使用できる。 当社のアーキテクチャはPointNet++に基づいており、その有効性をModelNet40データセットでテストしています。 先行する非特化コーデックに対する大幅な改善を示す。

Due to the limited computational capabilities of edge devices, deep learning inference can be quite expensive. One remedy is to compress and transmit point cloud data over the network for server-side processing. Unfortunately, this approach can be sensitive to network factors, including available bitrate. Luckily, the bitrate requirements can be reduced without sacrificing inference accuracy by using a machine task-specialized codec. In this paper, we present a scalable codec for point-cloud data that is specialized for the machine task of classification, while also providing a mechanism for human viewing. In the proposed scalable codec, the "base" bitstream supports the machine task, and an "enhancement" bitstream may be used for better input reconstruction performance for human viewing. We base our architecture on PointNet++, and test its efficacy on the ModelNet40 dataset. We show significant improvements over prior non-specialized codecs.
翻訳日:2024-02-23 11:53:59 公開日:2024-02-22
# 表は画像? 表データのマルチモーダル表現におけるllmの強みと限界の検討

Tables as Images? Exploring the Strengths and Limitations of LLMs on Multimodal Representations of Tabular Data ( http://arxiv.org/abs/2402.12424v2 )

ライセンス: Link先を確認
Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea(参考訳) 本稿では,様々なプロンプト戦略とデータ形式を通して表データ解釈における様々なllmの有効性について検討する。 分析は質問応答やファクトチェックなどのテーブル関連タスクの6つのベンチマークにまたがる。 画像に基づく表表現におけるLLMの性能評価を初めて紹介する。 具体的には,5つのテキストベースと3つの画像ベーステーブル表現を比較し,LLM性能に対する表現とプロンプトの影響を示す。 本研究は、テーブル関連タスクにおけるLLMの有効利用に関する知見を提供する。

In this paper, we investigate the effectiveness of various LLMs in interpreting tabular data through different prompting strategies and data formats. Our analysis extends across six benchmarks for table-related tasks such as question-answering and fact-checking. We introduce for the first time the assessment of LLMs' performance on image-based table representations. Specifically, we compare five text-based and three image-based table representations, demonstrating the influence of representation and prompting on LLM performance. Our study provides insights into the effective use of LLMs on table-related tasks.
翻訳日:2024-02-23 11:53:46 公開日:2024-02-22
# 小さなモデルと大きな洞察:スリムなプロキシモデルを活用してllmの取得時期と取得方法を決定する

Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs ( http://arxiv.org/abs/2402.12052v2 )

ライセンス: Link先を確認
Jiejun Tan, Zhicheng Dou, Yutao Zhu, Peidong Guo, Kun Fang, Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)と検索エンジンの統合は,知識獲得手法の大幅な進化を示唆している。 しかし、llmがすでに持っている知識と検索エンジンの助けを必要とする知識を決定することは未解決の問題である。 既存のほとんどの手法は、LCM自体による予備的な答えや推論の結果によってこの問題を解決するが、計算コストが過度に高い。 本稿では,LLMの知識獲得プロセスを強化するために,スリムプロキシモデルを用いてLLMの知識不足を検出する新しい協調手法であるSlimPLMを提案する。 パラメータがはるかに少ないプロキシモデルを採用し、その回答をヒューリスティックな回答とする。 ヒューリスティックな回答は、ユーザの質問に答えるために必要な知識や、llm内の既知の、未知の知識を予測するために使用される。 LLMが知らない質問において、不足した知識の検索のみを行う。 2つのLLMを持つ5つのデータセットの大規模な実験結果から、質問応答タスクにおけるLLMのエンドツーエンド性能が顕著に向上し、LLM推論コストの低い現在の最先端モデルを達成または超えた。

The integration of large language models (LLMs) and search engines represents a significant evolution in knowledge acquisition methodologies. However, determining the knowledge that an LLM already possesses and the knowledge that requires the help of a search engine remains an unresolved issue. Most existing methods solve this problem through the results of preliminary answers or reasoning done by the LLM itself, but this incurs excessively high computational costs. This paper introduces a novel collaborative approach, namely SlimPLM, that detects missing knowledge in LLMs with a slim proxy model, to enhance the LLM's knowledge acquisition process. We employ a proxy model which has far fewer parameters, and take its answers as heuristic answers. Heuristic answers are then utilized to predict the knowledge required to answer the user question, as well as the known and unknown knowledge within the LLM. We only conduct retrieval for the missing knowledge in questions that the LLM does not know. Extensive experimental results on five datasets with two LLMs demonstrate a notable improvement in the end-to-end performance of LLMs in question-answering tasks, achieving or surpassing current state-of-the-art models with lower LLM inference costs.
翻訳日:2024-02-23 11:53:38 公開日:2024-02-22
# 語彙意味変化のための文脈付き単語埋め込みの体系的比較

A Systematic Comparison of Contextualized Word Embeddings for Lexical Semantic Change ( http://arxiv.org/abs/2402.12011v2 )

ライセンス: Link先を確認
Francesco Periti, Nina Tahmasebi(参考訳) 文脈的埋め込みは、Lexical Semantic Change (LSC) をモデリングするための好ましいツールである。 現在の評価は通常、グレード・チェンジ検出(GCD)と呼ばれる特定のタスクに焦点を当てている。 しかしながら、作業間のパフォーマンス比較は、さまざまな設定に依存するため、しばしば誤解を招く。 本稿では,同じ条件下でGCDの最先端モデルとアプローチを評価する。 さらに、LCC問題をWord-in-Context(WiC)とWord Sense Injection(WSI)タスクに分解し、これらの異なるレベルのモデルと比較する。 LSCのための8つのベンチマークで、異なる言語で評価を行い、その結果を示した。 (i)PDはGCDの他のアプローチより優れている。 (ii)XL-LEXEMEは、GPT-4と同等でありながら、WiC、WSI、GCDの他の文脈モデルよりも優れている。 (iii)意味変化の程度にのみ焦点をあてるのではなく、単語の意味のモデリングを改善し、どのように、いつ、そしてなぜその意味が変わるかに焦点を合わせる必要がある。

Contextualized embeddings are the preferred tool for modeling Lexical Semantic Change (LSC). Current evaluations typically focus on a specific task known as Graded Change Detection (GCD). However, performance comparison across work are often misleading due to their reliance on diverse settings. In this paper, we evaluate state-of-the-art models and approaches for GCD under equal conditions. We further break the LSC problem into Word-in-Context (WiC) and Word Sense Induction (WSI) tasks, and compare models across these different levels. Our evaluation is performed across different languages on eight available benchmarks for LSC, and shows that (i) APD outperforms other approaches for GCD; (ii) XL-LEXEME outperforms other contextualized models for WiC, WSI, and GCD, while being comparable to GPT-4; (iii) there is a clear need for improving the modeling of word meanings, as well as focus on how, when, and why these meanings change, rather than solely focusing on the extent of semantic change.
翻訳日:2024-02-23 11:53:15 公開日:2024-02-22
# テンソル時系列の動的マルチネットワークマイニング

Dynamic Multi-Network Mining of Tensor Time Series ( http://arxiv.org/abs/2402.11773v2 )

ライセンス: Link先を確認
Kohei Obata, Koki Kawabata, Yasuko Matsubara, Yasushi Sakurai(参考訳) 時系列のサブシーケンスクラスタリングは、データマイニングにおいて不可欠なタスクであり、結果として得られたクラスタを解釈するのもまた重要です。 したがって、タイムスタンプを含む複数のモードからなるテンソル時系列の大規模なコレクションを考えると、どのようにテンソル時系列のサブシーケンスクラスタリングを達成し、解釈可能な洞察を提供するのか? 本稿では,テンソル時系列を,l1-ノルムに制約された依存ネットワークを特徴とする,様々な長さ(すなわちクラスタ)のセグメント群に変換する新しい手法である動的マルチネットワークマイニング(dmm)を提案する。 本手法は以下の性質を有する。 (a)解釈可能:クラスタを複数のネットワークで特徴付け、それぞれが対応する非時間モードのスパース依存ネットワークであり、キー関係に対する可視的かつ解釈可能な洞察を提供する。 (b)正確:最小記述長(mdl)に従って、テンソル時系列から異なるネットワークを持つクラスタを検出する。 (c)スケーラブル:非凸問題を解く際に、セグメント数やクラスタ数を最適化するために、入力データサイズの観点から線形にスケールするので、長距離および高次元テンソルに適用できる。 合成データセットを用いた広範囲な実験により,本手法がクラスタリング精度において最先端手法よりも優れていることを確認した。 次に、実際のデータセットを用いて、DMMがテンソル時系列からの解釈可能な洞察を提供するのに役立つことを示す。

Subsequence clustering of time series is an essential task in data mining, and interpreting the resulting clusters is also crucial since we generally do not have prior knowledge of the data. Thus, given a large collection of tensor time series consisting of multiple modes, including timestamps, how can we achieve subsequence clustering for tensor time series and provide interpretable insights? In this paper, we propose a new method, Dynamic Multi-network Mining (DMM), that converts a tensor time series into a set of segment groups of various lengths (i.e., clusters) characterized by a dependency network constrained with l1-norm. Our method has the following properties. (a) Interpretable: it characterizes the cluster with multiple networks, each of which is a sparse dependency network of a corresponding non-temporal mode, and thus provides visible and interpretable insights into the key relationships. (b) Accurate: it discovers the clusters with distinct networks from tensor time series according to the minimum description length (MDL). (c) Scalable: it scales linearly in terms of the input data size when solving a non-convex problem to optimize the number of segments and clusters, and thus it is applicable to long-range and high-dimensional tensors. Extensive experiments with synthetic datasets confirm that our method outperforms the state-of-the-art methods in terms of clustering accuracy. We then use real datasets to demonstrate that DMM is useful for providing interpretable insights from tensor time series.
翻訳日:2024-02-23 11:52:58 公開日:2024-02-22
# ArtPrompt: ASCIIアートベースのジェイルブレイク攻撃

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs ( http://arxiv.org/abs/2402.11753v2 )

ライセンス: Link先を確認
Fengqing Jiang, Zhangchen Xu, Luyao Niu, Zhen Xiang, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran(参考訳) 安全性は、大きな言語モデル(LLM)の使用に不可欠である。 LLMの安全性を高めるために、データフィルタリングや教師付き微調整などの複数の技術が開発されている。 しかし、現在知られている手法では、LLMの安全アライメントに使用されるコーパスは意味論的にのみ解釈される。 しかし、この仮定は現実世界のアプリケーションには当てはまらないため、LLMの深刻な脆弱性につながる。 例えば、フォーラムのユーザは、しばしば画像情報を伝えるためにテキストベースのアートであるASCIIアートを使用する。 本稿では, ASCIIアートベースの新しいジェイルブレイク攻撃を提案し, セマンティクスでのみ解釈できないプロンプトを認識する上で, LLMの能力を評価するための総合的ベンチマークViTCを提案する。 5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。 本研究は, ASCII アート認識における LLM の貧弱な性能を活用し, 安全対策を回避し, かつ LLM から望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。 ArtPromptは被害者のLSMへのブラックボックスアクセスしか必要とせず、実用的な攻撃である。 我々は5つのSOTA LLM上でArtPromptを評価し、ArtPromptが5つのLLMすべてから望ましくない振る舞いを効果的かつ効率的に誘導できることを示した。

Safety is critical to the usage of large language models (LLMs). Multiple techniques such as data filtering and supervised fine-tuning have been developed to strengthen LLM safety. However, currently known techniques presume that corpora used for safety alignment of LLMs are solely interpreted by semantics. This assumption, however, does not hold in real-world applications, which leads to severe vulnerabilities in LLMs. For example, users of forums often use ASCII art, a form of text-based art, to convey image information. In this paper, we propose a novel ASCII art-based jailbreak attack and introduce a comprehensive benchmark Vision-in-Text Challenge (ViTC) to evaluate the capabilities of LLMs in recognizing prompts that cannot be solely interpreted by semantics. We show that five SOTA LLMs (GPT-3.5, GPT-4, Gemini, Claude, and Llama2) struggle to recognize prompts provided in the form of ASCII art. Based on this observation, we develop the jailbreak attack ArtPrompt, which leverages the poor performance of LLMs in recognizing ASCII art to bypass safety measures and elicit undesired behaviors from LLMs. ArtPrompt only requires black-box access to the victim LLMs, making it a practical attack. We evaluate ArtPrompt on five SOTA LLMs, and show that ArtPrompt can effectively and efficiently induce undesired behaviors from all five LLMs.
翻訳日:2024-02-23 11:52:31 公開日:2024-02-22
# RLHFを用いた翻訳選好モデルの改良:コスト効果ソリューションへの一歩

Advancing Translation Preference Modeling with RLHF: A Step Towards Cost-Effective Solution ( http://arxiv.org/abs/2402.11525v2 )

ライセンス: Link先を確認
Nuo Xu, Jun Zhao, Can Zu, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 忠実さ、表現力、優雅さは機械翻訳における絶え間ない追求である。 しかし、‘textit{BLEU} のような伝統的なメトリクスは、翻訳品質の人間の好みと厳密に一致しない。 本稿では,人間のフィードバックによる強化学習(\textit{RLHF})の活用による翻訳品質の向上について検討する。 特に低リソース言語において、翻訳間の人的比較の大規模な高品質データセットを収集するのは自明ではない。 この問題に対処するために,人間と機械の翻訳を区別して報酬モデルを最適化する,費用対効果の高い選好学習戦略を提案する。 このようにして、報酬モデルは人間に比べて機械翻訳の欠陥を学習し、その後の機械翻訳の改善を導く。 実験により, \textit{RLHF} は翻訳品質を効果的に向上し, この改善は, \textit{RLHF} で訓練されていない他の翻訳指導に有効であることが示された。 さらなる分析は、モデルの言語能力が嗜好学習において重要な役割を果たすことを示している。 強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをよりセンシティブに学習し、実際の人間の翻訳好みに合致することができる。

Faithfulness, expressiveness, and elegance is the constant pursuit in machine translation. However, traditional metrics like \textit{BLEU} do not strictly align with human preference of translation quality. In this paper, we explore leveraging reinforcement learning with human feedback (\textit{RLHF}) to improve translation quality. It is non-trivial to collect a large high-quality dataset of human comparisons between translations, especially for low-resource languages. To address this issue, we propose a cost-effective preference learning strategy, optimizing reward models by distinguishing between human and machine translations. In this manner, the reward model learns the deficiencies of machine translation compared to human and guides subsequent improvements in machine translation. Experimental results demonstrate that \textit{RLHF} can effectively enhance translation quality and this improvement benefits other translation directions not trained with \textit{RLHF}. Further analysis indicates that the model's language capabilities play a crucial role in preference learning. A reward model with strong language capabilities can more sensitively learn the subtle differences in translation quality and align better with real human translation preferences.
翻訳日:2024-02-23 11:51:41 公開日:2024-02-22
# 要求工学における自然言語処理タスクのための大規模言語モデルの利用:体系的ガイドライン

Using Large Language Models for Natural Language Processing Tasks in Requirements Engineering: A Systematic Guideline ( http://arxiv.org/abs/2402.13823v2 )

ライセンス: Link先を確認
Andreas Vogelsang, Jannik Fischbach(参考訳) 大規模言語モデル(LLM)をREにおけるNLP問題にターゲットとして使用するためには,(1)LLMの内部動作に関する基礎知識と(2)NLP4REタスクに対してLLMを選択し,体系的に活用する方法のガイドラインが必要である。 この章は必要な知識を確立し、第一部でLSMの基礎を紹介します。 第2部では, 学生, 研究者, 実践者を対象に, LLMの使用に関する詳細なガイドラインを提示する。

To use Large Language Models (LLMs) in a targeted way for NLP problems in RE, we require both (1) basic knowledge about the inner workings of LLMs and (2) a guideline on how to select and systematically utilize or repurpose LLMs for NLP4RE tasks. This chapter establishes the required knowledge and introduces the fundamentals of LLMs in the first part. In the second part, we present a detailed guideline for students, researchers, and practitioners on using LLMs for their purposes.
翻訳日:2024-02-23 11:45:49 公開日:2024-02-22
# オフライン政策学習のための深層生成モデル--チュートリアル,調査,今後の方向性の展望

Deep Generative Models for Offline Policy Learning: Tutorial, Survey, and Perspectives on Future Directions ( http://arxiv.org/abs/2402.13777v2 )

ライセンス: Link先を確認
Jiayu Chen, Bhargav Ganguly, Yang Xu, Yongsheng Mei, Tian Lan, Vaneet Aggarwal(参考訳) deep generative models(dgms)は、オフラインデータからトレーニングされたモデルを使用してテキスト、画像、ビデオを生成することで、さまざまなドメインで大きな成功を収めています。 同様に、データ駆動意思決定とロボット制御は、オフラインデータからジェネレータ関数を学習し、戦略やポリシーとして機能する必要がある。 この場合、オフライン政策学習に深い生成モデルを適用することは大きな可能性を示し、この方向に多くの研究がなされている。 しかし、この分野には包括的なレビューがないため、異なるブランチの開発は比較的独立している。 そこで本研究では,オフラインポリシ学習における深層生成モデルの応用について,初めて体系的なレビューを行う。 特に, 変分自動エンコーダ, 生成適応ネットワーク, 正規化フロー, トランスフォーマー, 拡散モデル, オフライン強化学習(オフラインRL) と模倣学習(IL)の5つの主要な深層生成モデルについて述べる。 オフラインRLとILは、オフラインポリシー学習の2つの主要な分野であり、シーケンシャルな意思決定のための広く採用されている技術である。 具体的には、DGMをベースとしたオフライン政策学習において、基本スキームを精算し、DGMの使用状況に基づいて関連研究を分類し、その分野におけるアルゴリズムの開発プロセスを整理する。 そこで本研究では,本研究では,本研究の今後の方向性を概観した,深層生成モデルとオフライン政策学習に関する詳細な議論を要約として提示する。 この研究は、オフラインポリシー学習のための深い生成モデルの研究の進展をハンズオンで参照し、改良されたDGMベースのオフラインRLまたはILアルゴリズムを刺激することを目的としている。

Deep generative models (DGMs) have demonstrated great success across various domains, particularly in generating texts, images, and videos using models trained from offline data. Similarly, data-driven decision-making and robotic control also necessitate learning a generator function from the offline data to serve as the strategy or policy. In this case, applying deep generative models in offline policy learning exhibits great potential, and numerous studies have explored in this direction. However, this field still lacks a comprehensive review and so developments of different branches are relatively independent. Thus, we provide the first systematic review on the applications of deep generative models for offline policy learning. In particular, we cover five mainstream deep generative models, including Variational Auto-Encoders, Generative Adversarial Networks, Normalizing Flows, Transformers, and Diffusion Models, and their applications in both offline reinforcement learning (offline RL) and imitation learning (IL). Offline RL and IL are two main branches of offline policy learning and are widely-adopted techniques for sequential decision-making. Specifically, for each type of DGM-based offline policy learning, we distill its fundamental scheme, categorize related works based on the usage of the DGM, and sort out the development process of algorithms in that field. Subsequent to the main content, we provide in-depth discussions on deep generative models and offline policy learning as a summary, based on which we present our perspectives on future research directions. This work offers a hands-on reference for the research progress in deep generative models for offline policy learning, and aims to inspire improved DGM-based offline RL or IL algorithms.
翻訳日:2024-02-23 11:45:39 公開日:2024-02-22
# CriticBench: 大規模言語モデルを批判として評価する

CriticBench: Evaluating Large Language Models as Critic ( http://arxiv.org/abs/2402.13764v2 )

ライセンス: Link先を確認
Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen, Xian-ling Mao(参考訳) 批判能力は、大規模言語モデル(LLM)のスケーラブルな監視と自己改善に不可欠である。 近年の多くの研究でllmの欠陥を判断し洗練するための批判的能力が研究されているが、llmの批判的能力を包括的かつ確実に測定する方法は未検討である。 本稿では,LLMの4つの重要な批判能力(フィードバック,比較,洗練,メタフィードバック)を包括的かつ確実に評価する新しいベンチマークであるShortnameを紹介する。 CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。 オープンソースおよびクローズドソースllmの広範な評価から,批判的能力とタスク,応答性,モデルスケールの関係が明らかとなった。 CriticBenchのデータセット、リソース、評価ツールキットは、 \url{https://github.com/open-compass/CriticBench}で公開される。

Critique ability are crucial in the scalable oversight and self-improvement of Large Language Models (LLMs). While many recent studies explore the critique ability of LLMs to judge and refine flaws in generations, how to comprehensively and reliably measure the critique abilities of LLMs is under-explored. This paper introduces \shortname, a novel benchmark designed to comprehensively and reliably evaluate four key critique ability dimensions of LLMs: feedback, comparison, refinement and meta-feedback. CriticBench encompasses nine diverse tasks, each assessing the LLMs' ability to critique responses at varying levels of quality granularity. Our extensive evaluations of open-source and closed-source LLMs reveal intriguing relationships between the critique ability and tasks, response qualities, and model scales. Datasets, resources and evaluation toolkit for CriticBench will be publicly released at \url{https://github.com/open-compass/CriticBench}.
翻訳日:2024-02-23 11:45:07 公開日:2024-02-22
# $\infty$Bench: 100万トークンを超えて長期のコンテキスト評価を拡張する

$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens ( http://arxiv.org/abs/2402.13718v2 )

ライセンス: Link先を確認
Xinrong Zhang and Yingfa Chen and Shengding Hu and Zihang Xu and Junhao Chen and Moo Khai Hao and Xu Han and Zhen Leng Thai and Shuo Wang and Zhiyuan Liu and Maosong Sun(参考訳) 長期にわたる処理と推論は、文書理解やエージェント構築など、大規模言語モデル(LLM)の多くの実践的応用にとって不可欠である。 LLMのプロセスコンテキストを100K以上のトークンで作成するという最近の取り組みにもかかわらず、この長期コンテキスト能力を評価するための標準ベンチマークが現在存在しない。 既存の公開ベンチマークは10Kトークンのコンテキストに重点を置いており、より長いコンテキストを処理する際のLCMの評価と比較を制限している。 本稿では,100K トークンを超える平均データ長を特徴とする最初の LLM ベンチマークである $\infty$Bench を提案する。 $\infty$Benchは、英語と中国語の両方で提示される様々なドメインにまたがる合成的で現実的なタスクである。 $\infty$Benchのタスクは、コンテキスト内の長い依存関係を十分に理解し、これらのタスクには不十分なコンテキストから限られた数のパスを取得するように設計されている。 我々の実験では、$\infty$Benchに基づいて、長いコンテキストの処理に適した最先端のプロプライエタリかつオープンソースのLLMを評価した。 その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。 さらに,llms処理の長期化に関する3つの興味深い解析を行った。

Processing and reasoning over long contexts is crucial for many practical applications of Large Language Models (LLMs), such as document comprehension and agent construction. Despite recent strides in making LLMs process contexts with more than 100K tokens, there is currently a lack of a standardized benchmark to evaluate this long-context capability. Existing public benchmarks typically focus on contexts around 10K tokens, limiting the assessment and comparison of LLMs in processing longer contexts. In this paper, we propose $\infty$Bench, the first LLM benchmark featuring an average data length surpassing 100K tokens. $\infty$Bench comprises synthetic and realistic tasks spanning diverse domains, presented in both English and Chinese. The tasks in $\infty$Bench are designed to require well understanding of long dependencies in contexts, and make simply retrieving a limited number of passages from contexts not sufficient for these tasks. In our experiments, based on $\infty$Bench, we evaluate the state-of-the-art proprietary and open-source LLMs tailored for processing long contexts. The results indicate that existing long context LLMs still require significant advancements to effectively process 100K+ context. We further present three intriguing analyses regarding the behavior of LLMs processing long context.
翻訳日:2024-02-23 11:44:51 公開日:2024-02-22
# dslr:リハーサルベースグラフ連続学習のための多様性向上と構造学習

DSLR: Diversity Enhancement and Structure Learning for Rehearsal-based Graph Continual Learning ( http://arxiv.org/abs/2402.13711v2 )

ライセンス: Link先を確認
Seungyoon Choi, Wonjoong Kim, Sungwon Kim, Yeonjun In, Sein Kim, Chanyoung Park(参考訳) グラフ連続学習法(GCL)におけるリハーサルベースアプローチにおけるリプレイバッファの検討を行った。 既存のリハーサルベースのGCLメソッドは、各クラスの最も代表的なノードを選択し、後続のタスクをトレーニングするためにリプレイバッファに保存する。 しかし,各リプレイノードのクラス代表性のみを考慮すれば,リプレイノードが各クラスの中心に集中することになり,その領域に存在するノードに過度に適合する可能性があり,破滅的な忘れが悪化することがわかった。 さらに、リハーサルベースのアプローチは、過去のタスクから得られた知識を保持するために、いくつかのリプレイノードに大きく依存しているため、モデルトレーニングに非関連な隣人を持つリプレイノードは、モデルパフォーマンスに重大な有害な影響を及ぼす可能性がある。 本稿では,dslrと呼ばれるgclモデルを提案する。具体的には,各ノードのクラスにおけるクラス代表性と多様性を検討するためのカバレッジベース多様性(cd)アプローチを考案する。 さらに, グラフ構造学習(GSL)を用いて, 再生ノードが真に情報のある隣人に接続されていることを保証する。 実験の結果,DSLRの有効性と有効性を示した。 ソースコードはhttps://github.com/seungyoon-choi/dslr_officialで入手できます。

We investigate the replay buffer in rehearsal-based approaches for graph continual learning (GCL) methods. Existing rehearsal-based GCL methods select the most representative nodes for each class and store them in a replay buffer for later use in training subsequent tasks. However, we discovered that considering only the class representativeness of each replayed node makes the replayed nodes to be concentrated around the center of each class, incurring a potential risk of overfitting to nodes residing in those regions, which aggravates catastrophic forgetting. Moreover, as the rehearsal-based approach heavily relies on a few replayed nodes to retain knowledge obtained from previous tasks, involving the replayed nodes that have irrelevant neighbors in the model training may have a significant detrimental impact on model performance. In this paper, we propose a GCL model named DSLR, specifically, we devise a coverage-based diversity (CD) approach to consider both the class representativeness and the diversity within each class of the replayed nodes. Moreover, we adopt graph structure learning (GSL) to ensure that the replayed nodes are connected to truly informative neighbors. Extensive experimental results demonstrate the effectiveness and efficiency of DSLR. Our source code is available at https://github.com/seungyoon-Choi/DSLR_official.
翻訳日:2024-02-23 11:44:30 公開日:2024-02-22
# テール確率のバウンディング法

A Method For Bounding Tail Probabilities ( http://arxiv.org/abs/2402.13662v2 )

ライセンス: Link先を確認
Nikola Zlatanov(参考訳) 本稿では,連続確率変数(rvs)の右尾と左尾の確率を上下に限定する手法を提案する。 確率密度関数 $f_X(x)$ を持つ RV $X$ の右テール確率 RV $X$ に対して、この方法はまず連続的かつ正で厳密に減少する関数 $g_X(x)$ を$-f_X(x)/g'_X(x)$ が減少および増大する関数であるような関数 $g_X(x)$ と、それぞれ上界と下界を生じる $\forall x>x_0$ を $-f_X(x) g_X(x)/g'_X(x)$, $\forall x>x_0$ という形で与えられる。 同様に、$X$ の左尾の確率の上限と下限について、この方法はまず連続的で正で厳密に増大する関数 $g_X(x)$ を$f_X(x)/g'_X(x)$ が増加・減少する関数 $\forall x<x_0$ で、それぞれ上限と下限が $f_X(x) g_X(x)/g'_X(x)$, $\forall x<x_0$ となるように設定する必要がある。 関数 $g_X(x)$ のよい候補をいくつか提示する。 我々はまた、新しい境界とマルコフの不等式とチャーノフの束の間の関係を確立する。 また,一定の条件下で,より強固な下界と上界を得るための反復的手法を提案する。 最後に、選択した$g_X(x)$に対して、これらの境界の厳密性を示す数値的な例を示す。

We present a method for upper and lower bounding the right and the left tail probabilities of continuous random variables (RVs). For the right tail probability of RV $X$ with probability density function $f_X(x)$, this method requires first setting a continuous, positive, and strictly decreasing function $g_X(x)$ such that $-f_X(x)/g'_X(x)$ is a decreasing and increasing function, $\forall x>x_0$, which results in upper and lower bounds, respectively, given in the form $-f_X(x) g_X(x)/g'_X(x)$, $\forall x>x_0$, where $x_0$ is some point. Similarly, for the upper and lower bounds on the left tail probability of $X$, this method requires first setting a continuous, positive, and strictly increasing function $g_X(x)$ such that $f_X(x)/g'_X(x)$ is an increasing and decreasing function, $\forall x<x_0$, which results in upper and lower bounds, respectively, given in the form $f_X(x) g_X(x)/g'_X(x)$, $\forall x<x_0$. We provide some examples of good candidates for the function $g_X(x)$. We also establish connections between the new bounds and Markov's inequality and Chernoff's bound. In addition, we provide an iterative method for obtaining ever tighter lower and upper bounds, under certain conditions. Finally, we provide numerical examples, where we show the tightness of these bounds, for some chosen $g_X(x)$.
翻訳日:2024-02-23 11:44:07 公開日:2024-02-22
# マイクロドップラーレーダ分類のためのディープニューラルネットワークのロバスト性

Robustness of Deep Neural Networks for Micro-Doppler Radar Classification ( http://arxiv.org/abs/2402.13651v2 )

ライセンス: Link先を確認
Mikolaj Czerkawski and Carmine Clemente and Craig Michie and Christos Tachtatzis(参考訳) レーダーデータ処理のための深い分類器の能力により、データセット特有の機能を学習するリスクは、うまく一般化しない。 本研究は,同一データ上で学習およびテストされた2つの深い畳み込みアーキテクチャのロバスト性を評価する。 標準的な訓練の実践に従うと、両方の分類器は入力表現の微妙な時間的シフトに対する感受性を示す。 さらに、モデルは敵の例に非常に影響を受けやすい。 小さな時間シフトと逆の例は、よく一般化しない特徴に過度に適合するモデルの結果である。 対策として, 対向的な例と時間的に強化されたサンプルのトレーニングにより, この効果が減少し, より一般化したモデルがもたらされることが示されている。 最後に、ドップラー時間よりもケイデンス・ベロシティ・ダイアグラムに基づくモデルが、逆の例に自然に免疫があることが示されている。

With the great capabilities of deep classifiers for radar data processing come the risks of learning dataset-specific features that do not generalize well. In this work, the robustness of two deep convolutional architectures, trained and tested on the same data, is evaluated. When standard training practice is followed, both classifiers exhibit sensitivity to subtle temporal shifts of the input representation, an augmentation that carries minimal semantic content. Furthermore, the models are extremely susceptible to adversarial examples. Both small temporal shifts and adversarial examples are a result of a model overfitting on features that do not generalize well. As a remedy, it is shown that training on adversarial examples and temporally augmented samples can reduce this effect and lead to models that generalise better. Finally, models operating on cadence-velocity diagram representation rather than Doppler-time are demonstrated to be naturally more immune to adversarial examples.
翻訳日:2024-02-23 11:43:26 公開日:2024-02-22
# kornat:韓国社会価値観と共通知識のllmアライメントベンチマーク

KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge ( http://arxiv.org/abs/2402.13605v2 )

ライセンス: Link先を確認
Jiyoung Lee, Minwoo Kim, Seungho Kim, Junghwan Kim, Seunghyun Won, Hwaran Lee, Edward Choi(参考訳) 大きな言語モデル(LLM)が特定の国に効果的に展開されるためには、その国の文化と基本的な知識を理解する必要がある。 この目的のために,社会価値アライメントと共通知識アライメントという2つの側面から,LLMと対象国間のアライメントを測定する全国アライメントを導入する。 社会的価値のアライメントは、モデルがいかに国家固有の社会的価値を理解するかを評価する一方、共通の知識のアライメントは、モデルが国家に関連する基本的な知識をいかに捉えるかを調べる。 韓国との国交を計測する最初の指標であるkornatを構築した。 ソーシャルバリューデータセットについては,6,174名の韓国人参加者を対象とした大規模調査から根拠真理ラベルを得た。 共通知識データセットについて,韓国の教科書とGED参照資料に基づくサンプルを構築した。 KorNATには、それぞれ社会的価値と共通知識に関する4Kと6Kの多重選択質問が含まれている。 我々のデータセット作成プロセスは、統計的サンプリング理論に基づいて慎重に設計され、複数ラウンドの人間レビューを通して洗練されている。 7つのLLM実験の結果, 基準値に適合するモデルはごくわずかであり, さらなる拡張の可能性を示した。 kornatは、データセットの品質評価を専門とする政府関連機関による評価に合格し、政府の承認を得た。 データセットのサンプルと詳細な評価プロトコルはhttps://selectstar.ai/ko/papers-national-alignmentに記載されている。

For Large Language Models (LLMs) to be effectively deployed in a specific country, they must possess an understanding of the nation's culture and basic knowledge. To this end, we introduce National Alignment, which measures an alignment between an LLM and a targeted country from two aspects: social value alignment and common knowledge alignment. Social value alignment evaluates how well the model understands nation-specific social values, while common knowledge alignment examines how well the model captures basic knowledge related to the nation. We constructed KorNAT, the first benchmark that measures national alignment with South Korea. For the social value dataset, we obtained ground truth labels from a large-scale survey involving 6,174 unique Korean participants. For the common knowledge dataset, we constructed samples based on Korean textbooks and GED reference materials. KorNAT contains 4K and 6K multiple-choice questions for social value and common knowledge, respectively. Our dataset creation process is meticulously designed and based on statistical sampling theory and was refined through multiple rounds of human review. The experiment results of seven LLMs reveal that only a few models met our reference score, indicating a potential for further enhancement. KorNAT has received government approval after passing an assessment conducted by a government-affiliated organization dedicated to evaluating dataset quality. Samples and detailed evaluation protocols of our dataset can be found in https://selectstar.ai/ko/papers-national-alignment
翻訳日:2024-02-23 11:43:09 公開日:2024-02-22
# longwanjuan: 長文品質の体系的測定に向けて

LongWanjuan: Towards Systematic Measurement for Long Text Quality ( http://arxiv.org/abs/2402.13583v2 )

ライセンス: Link先を確認
Kai Lv, Xiaoran Liu, Qipeng Guo, Hang Yan, Conghui He, Xipeng Qiu and Dahua Lin(参考訳) 基礎モデルの長文能力を高めるためには,トレーニングデータの質が不可欠である。 データの多様性と難易度に基づいたヒューリスティックなルールと評価を通じてデータ品質を洗練しようとする既存の取り組みにもかかわらず、長いテキストを評価するために特別に調整された体系的なアプローチが欠如している。 このギャップに対処するため,本研究は,コヒーレンス,コヒーレンス,複雑性という3つの基本的な言語次元を評価することにより,長文の品質を体系的に測定する。 上記の3次元から着想を得て,統計モデルと事前学習した言語モデルを基にした長文の品質評価を行うためのメトリクススイートを提案する。 これらのメトリクスを活用することで、160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたバイリンガルデータセットであるLongWanjuanを提示する。 longwanjuanでは、長いテキストを全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。 さらに,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。 コードとデータセットはhttps://github.com/openlmlab/longwanjuanで入手できる。

The quality of training data are crucial for enhancing the long-text capabilities of foundation models. Despite existing efforts to refine data quality through heuristic rules and evaluations based on data diversity and difficulty, there's a lack of systematic approaches specifically tailored for assessing long texts. Addressing this gap, our work systematically measures the quality of long texts by evaluating three fundamental linguistic dimensions: coherence, cohesion, and complexity. Drawing inspiration from the aforementioned three dimensions, we introduce a suite of metrics designed to evaluate the quality of long texts, encompassing both statistical and pre-trained language model-based ones. Leveraging these metrics, we present LongWanjuan, a bilingual dataset specifically tailored to enhance the training of language models for long-text tasks with over 160B tokens. In LongWanjuan, we categorize long texts into holistic, aggregated, and chaotic types, enabling a detailed analysis of long-text quality. Furthermore, we devise a data mixture recipe that strategically balances different types of long texts within LongWanjuan, leading to significant improvements in model performance on long-text tasks. The code and dataset are available at https://github.com/OpenLMLab/LongWanjuan.
翻訳日:2024-02-23 11:42:47 公開日:2024-02-22
# テキスト改ざん検出と認識のための2段階デュアルパスフレームワーク

A Two-Stage Dual-Path Framework for Text Tampering Detection and Recognition ( http://arxiv.org/abs/2402.13545v2 )

ライセンス: Link先を確認
Guandong Li, Xian Yang, Wenpin Ma(参考訳) 文書改ざん検出は、常に改ざん検出の重要な側面である。 深層学習の出現前は,文書改ざん検出は困難であった。 深層学習に基づくテキスト改ざん検出の分野でいくつかの探究を行った。 我々のPsタンパー検出法は,機能アシスト,監査点位置決め,タンパー認識の3段階を含む。 階層的なフィルタリングとグレード付き出力(改ざん/改ざん/改ざん/未改ざん)を含む。 人工タンパーデータの特徴を組み合わせることで、様々なシナリオ(ノイズの追加/置換、単一文字/空間置換、スメアリング/スプライシング、輝度/コントラスト調整など)におけるデータサンプルのシミュレーションと拡張を行う。 補助機能はexif/binary streamキーワード検索/ノイズで、結果に基づいて分岐検出に使用される。 監査ポイントポジショニングは、高濃度および低密度検出のためのしきい値検出フレームワークと制御を使用する。 タンパー認識は、rgbとelaストリーム特徴抽出を備えたデュアルパスデュアルストリーム認識ネットワークを採用している。 自己相関パーセンタイルプーリングによる次元減少後、融合出力はvladを介して処理され、精度0.804、リコール0.659、精度0.913となる。

Document tamper detection has always been an important aspect of tamper detection. Before the advent of deep learning, document tamper detection was difficult. We have made some explorations in the field of text tamper detection based on deep learning. Our Ps tamper detection method includes three steps: feature assistance, audit point positioning, and tamper recognition. It involves hierarchical filtering and graded output (tampered/suspected tampered/untampered). By combining artificial tamper data features, we simulate and augment data samples in various scenarios (cropping with noise addition/replacement, single character/space replacement, smearing/splicing, brightness/contrast adjustment, etc.). The auxiliary features include exif/binary stream keyword retrieval/noise, which are used for branch detection based on the results. Audit point positioning uses detection frameworks and controls thresholds for high and low density detection. Tamper recognition employs a dual-path dual-stream recognition network, with RGB and ELA stream feature extraction. After dimensionality reduction through self-correlation percentile pooling, the fused output is processed through vlad, yielding an accuracy of 0.804, recall of 0.659, and precision of 0.913.
翻訳日:2024-02-23 11:42:24 公開日:2024-02-22
# インフラストラクチャー・アンバウズマン:構造的災害対応による今後の失敗

Infrastructure Ombudsman: Mining Future Failure Concerns from Structural Disaster Response ( http://arxiv.org/abs/2402.13528v2 )

ライセンス: Link先を確認
Md Towhidul Absar Chowdhury, Soumyajit Datta, Naveen Sharma, Ashiqur R. KhudaBukhsh(参考訳) 現在の研究は、災害対応戦略を改善するための構造的失敗に関連するソーシャルメディアの議論に焦点を当てている。 しかし、予想的失敗に関する懸念を論じるソーシャルweb投稿の検出は、未検討である。 このような懸念が適切な当局に伝達されれば、潜在的なインフラ障害の予防と緩和を支援することができる。 本稿では,インフラの特定の問題を自動的に検出するインフラストラクチャ・ボンボースマンを開発する。 我々の研究は、米国における最近のいくつかの構造的失敗を考察している。 Reddit と YouTube から抽出した新しいタスクに対して,2662 のソーシャル Web インスタンスのファースト・オブ・ザ・キンドデータセットを提示する。

Current research concentrates on studying discussions on social media related to structural failures to improve disaster response strategies. However, detecting social web posts discussing concerns about anticipatory failures is under-explored. If such concerns are channeled to the appropriate authorities, it can aid in the prevention and mitigation of potential infrastructural failures. In this paper, we develop an infrastructure ombudsman -- that automatically detects specific infrastructure concerns. Our work considers several recent structural failures in the US. We present a first-of-its-kind dataset of 2,662 social web instances for this novel task mined from Reddit and YouTube.
翻訳日:2024-02-23 11:42:03 公開日:2024-02-22
# RefuteBench: 大規模言語モデルに対するRefuting命令フォローの評価

RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models ( http://arxiv.org/abs/2402.13463v2 )

ライセンス: Link先を確認
Jianhao Yan, Yun Luo, Yue Zhang(参考訳) 大規模言語モデル(LLM)の適用範囲はますます拡大している。 実際に使う場合、ユーザーはモデルの出力に基づいてフィードバックを提供し、フィードバックに応じてレスポンスを完了できるレスポンシブモデルを求めている。 モデルがユーザの否定的なフィードバックに適切に応答し、実行に一貫して追従できるかどうかは、完全には分析されていない。 そこで本稿では,質問応答,機械翻訳,電子メール書き込みなどのタスクをカバーする,包括的なベンチマークであるrefutebenchを提案する。 評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。 我々は多数のllmの評価を行い、llmが頑固であること、すなわち内部知識への傾きを示し、しばしばユーザーからのフィードバックに従わないことを発見した。 さらに、会話の長さが増加するにつれて、モデルがユーザの指定したフィードバックを徐々に忘れ、自身の応答にロールバックする。 さらに,モデルのフィードバック応答性を高めるためのシンプルかつ効果的な方法として,リコール・アンド・リピートプロンプトを提案する。

The application scope of large language models (LLMs) is increasingly expanding. In practical use, users might provide feedback based on the model's output, hoping for a responsive model that can complete responses according to their feedback. Whether the model can appropriately respond to users' refuting feedback and consistently follow through with execution has not been thoroughly analyzed. In light of this, this paper proposes a comprehensive benchmark, RefuteBench, covering tasks such as question answering, machine translation, and email writing. The evaluation aims to assess whether models can positively accept feedback in form of refuting instructions and whether they can consistently adhere to user demands throughout the conversation. We conduct evaluations on numerous LLMs and find that LLMs are stubborn, i.e. exhibit inclination to their internal knowledge, often failing to comply with user feedback. Additionally, as the length of the conversation increases, models gradually forget the user's stated feedback and roll back to their own responses. We further propose a recall-and-repeat prompts as a simple and effective way to enhance the model's responsiveness to feedback.
翻訳日:2024-02-23 11:41:54 公開日:2024-02-22
# マルコフゲームにおけるベイズ規則誘導による共有規範システムの学習と維持

Learning and Sustaining Shared Normative Systems via Bayesian Rule Induction in Markov Games ( http://arxiv.org/abs/2402.13399v2 )

ライセンス: Link先を確認
Ninell Oldenburg and Tan Zhi-Xuan(参考訳) 人間社会の普遍的な特徴は、協調的な目的のために規則と規範の体系を採用することである。 同じことをする学習エージェントをどうやって構築すれば、それらが組み込まれている人間の機関と柔軟に協力できるのか? エージェントは、たとえそれらの規範の正確な内容が分かっていなくても、ほとんどの人が個々の欲求を追求しながら遵守する共通の規範が存在すると仮定して、これを達成できると仮定する。 共有規範を仮定することで、新しく導入されたエージェントは、コンプライアンスと違反の観察から既存の人口の基準を推測することができる。 さらに、エージェントのグループは、たとえ彼らが当初ノルムが何であるかについての信念に偏っているとしても、共有ノルムの集合に収束することができる。 エージェントは規範の共通知識をブートストラップできるので、このことは規範を広く定着させ、新しい参加者がこれらの規範を迅速に学習することを可能にする。 我々はこのフレームワークをマルコフゲームの文脈で定式化し,多エージェント環境におけるその動作を,義務的および禁止的ノルムのベイズ則帰納法を用いて実証する。 本手法により, エージェントは, 資源管理規範や社会福祉の補償など, 様々な協力機関を迅速に学び, 維持することができ, エージェントが自身の利益を享受しながら, 集団福祉を促進することができる。

A universal feature of human societies is the adoption of systems of rules and norms in the service of cooperative ends. How can we build learning agents that do the same, so that they may flexibly cooperate with the human institutions they are embedded in? We hypothesize that agents can achieve this by assuming there exists a shared set of norms that most others comply with while pursuing their individual desires, even if they do not know the exact content of those norms. By assuming shared norms, a newly introduced agent can infer the norms of an existing population from observations of compliance and violation. Furthermore, groups of agents can converge to a shared set of norms, even if they initially diverge in their beliefs about what the norms are. This in turn enables the stability of the normative system: since agents can bootstrap common knowledge of the norms, this leads the norms to be widely adhered to, enabling new entrants to rapidly learn those norms. We formalize this framework in the context of Markov games and demonstrate its operation in a multi-agent environment via approximately Bayesian rule induction of obligative and prohibitive norms. Using our approach, agents are able to rapidly learn and sustain a variety of cooperative institutions, including resource management norms and compensation for pro-social labor, promoting collective welfare while still allowing agents to act in their own interests.
翻訳日:2024-02-23 11:41:35 公開日:2024-02-22
# Transformerのトリック: 最初のレイヤのプリ計算

Transformer tricks: Precomputing the first layer ( http://arxiv.org/abs/2402.13388v2 )

ライセンス: Link先を確認
Nils Graef(参考訳) このマイクロペーパーは、RoPE(LLaMA、Mistral、PaLM、Gemmaなど)でトランスフォーマーの推論を高速化するトリックを記述している。 これらのモデルでは、第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに低く、コスト対トーケンが低くなる。 このトリックは1つのレイヤのみを最適化するので、相対的な節約はレイヤの総数に依存する。 例えば、わずか4層のモデル(Whisper Smallなど)の最大節約率は25%に制限され、32層のモデル(Mistral-7Bなど)は3%に制限されている。

This micro-paper describes a trick to speed up inference of transformers with RoPE (such as LLaMA, Mistral, PaLM, and Gemma). For these models, a large portion of the first transformer layer can be precomputed, which results in slightly lower latency and lower cost-per-token. Because this trick optimizes only one layer, the relative savings depend on the total number of layers. For example, the maximum savings for a model with only 4 layers (such as Whisper tiny) is limited to 25%, while a 32-layer model (such as Mistral-7B) is limited to 3% savings.
翻訳日:2024-02-23 11:41:13 公開日:2024-02-22
# evograd: 人間の敵によるwinogradスキーマチャレンジのダイナミックな捉え方

EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human Adversaries ( http://arxiv.org/abs/2402.13372v2 )

ライセンス: Link先を確認
Jing Han Sun and Ali Emami(参考訳) 大きな言語モデル(LLMs)は、代名詞の曖昧さを通した常識推論をテストするコア参照解決タスクであるWinograd Schema Challenge(WSC)で優れているが、小さな変更やリワードを特徴とするインスタンスと競合する。 これに対処するために、我々は、このような変更されたwscインスタンスに合わせた動的データセットを作成するために、human-in-the-loopアプローチを利用するオープンソースのプラットフォームevogradを紹介します。 ChatGPTの機能を活用して、タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定します。 さらに,動的タスクにおけるモデルの安定性を評価するために,誤差深さ測定を導入する。 最高性能のLCMであるGPT-3.5でも,平均誤差深さ7.2で65.0%の精度を達成し,人的性能92。 8%の精度を示した。 これは、モデル制限の継続と、それを明らかにする際の動的データセットの価値を強調している。

While Large Language Models (LLMs) excel at the Winograd Schema Challenge (WSC), a coreference resolution task testing common-sense reasoning through pronoun disambiguation, they struggle with instances that feature minor alterations or rewording. To address this, we introduce EvoGrad, an open-source platform that harnesses a human-in-the-loop approach to create a dynamic dataset tailored to such altered WSC instances. Leveraging ChatGPT's capabilities, we expand our task instances from 182 to 3,691, setting a new benchmark for diverse common-sense reasoning datasets. Additionally, we introduce the error depth metric, assessing model stability in dynamic tasks. Our results emphasize the challenge posed by EvoGrad: Even the best performing LLM, GPT-3.5, achieves an accuracy of 65.0% with an average error depth of 7.2, a stark contrast to human performance of 92. 8% accuracy without perturbation errors. This highlights ongoing model limitations and the value of dynamic datasets in uncovering them.
翻訳日:2024-02-23 11:41:01 公開日:2024-02-22