このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241028となっている論文です。

PDF登録状況(公開日: 20241028)

TitleAuthorsAbstract論文公表日・翻訳日
# 非互換機器の定量化に関する熱力学的アプローチ

A thermodynamic approach to quantifying incompatible instruments ( http://arxiv.org/abs/2402.13080v3 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Shin-Liang Chen, (参考訳) 熱力学的制約を考慮した資源理論により,機器の非互換性を定量化するための熱力学的枠組みを考察する。 不整合性のシグネチャを消し去るのに必要な最小熱化時間を使い、不整合性を測定する。 必然的に、この時間値は、作業抽出タスクにおける非互換性上の利点と等価である。 したがって、熱化時間と抽出可能な作業の両方が、機器の非互換性を直接定量化することができる。 最後に、非マルコフ熱化において不整合シグネチャは消滅しなければならないことを示す。

We consider a thermodynamic framework to quantify instrument incompatibility via a resource theory subject to thermodynamic constraints. We use the minimal thermalisation time needed to erase incompatibility's signature to measure incompatibility. Unexpectedly, this time value is equivalent to incompatibility advantage in a work extraction task. Hence, both thermalisation time and extractable work can directly quantify instrument incompatibility. Finally, we show that incompatibility signatures must vanish in non-Markovian thermalisation.
翻訳日:2024-11-09 04:32:42 公開日:2024-10-28
# 最適学習率とバッチサイズスケーリングにおけるサージ現象

Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling ( http://arxiv.org/abs/2405.14578v4 )

ライセンス: Link先を確認
Shuaipeng Li, Penghao Zhao, Hailin Zhang, Xingwu Sun, Hao Wu, Dian Jiao, Weiyan Wang, Chengjun Liu, Zheng Fang, Jinbao Xue, Yangyu Tao, Bin Cui, Di Wang, (参考訳) 現在のディープラーニングタスクでは、Adam、Adagrad、RMSProp、Adafactor、LionといったAdamスタイルオプティマイザがSGDスタイルオプティマイザの代替として広く使用されている。 これらのオプティマイザは通常、勾配の符号を使ってモデルパラメータを更新し、より安定した収束曲線をもたらす。 学習速度とバッチサイズはオプティマイザにとって最も重要なハイパーパラメータであり、効果的な収束を実現するためには注意深いチューニングが必要である。 従来の研究では、最適学習率が線形に増加するか、SGDスタイルオプティマイザのバッチサイズに類似したルールに従うことが示されている。 しかし、この結論はAdamスタイルのオプティマイザには当てはまらない。 本稿では,Adamスタイルオプティマイザの最適学習率とバッチサイズとの関係を理論的解析と広範囲な実験により解明する。 まず, バッチサイズと最適学習率の間のスケーリング法則を勾配の符号で表し, 最適学習率が最初に上昇し, バッチサイズが大きくなるにつれて低下することを示す。 さらに、トレーニングが進むにつれて、サージのピーク値は、より大きなバッチサイズへと徐々に移動します。 第2に,各種CVおよびNLPタスクの実験を行い,スケーリング法則の正当性を検証した。

In current deep learning tasks, Adam style optimizers such as Adam, Adagrad, RMSProp, Adafactor, and Lion have been widely used as alternatives to SGD style optimizers. These optimizers typically update model parameters using the sign of gradients, resulting in more stable convergence curves. The learning rate and the batch size are the most critical hyperparameters for optimizers, which require careful tuning to enable effective convergence. Previous research has shown that the optimal learning rate increases linearly or follows similar rules with batch size for SGD style optimizers. However, this conclusion is not applicable to Adam style optimizers. In this paper, we elucidate the connection between optimal learning rates and batch sizes for Adam style optimizers through both theoretical analysis and extensive experiments. First, we raise the scaling law between batch sizes and optimal learning rates in the sign of gradient case, in which we prove that the optimal learning rate first rises and then falls as the batch size increases. Moreover, the peak value of the surge will gradually move toward the larger batch size as training progresses. Second, we conducted experiments on various CV and NLP tasks and verified the correctness of the scaling law.
翻訳日:2024-11-09 02:18:45 公開日:2024-10-28
# ロボット操作作業における指導バラエティと課題難易度の役割の検討

Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks ( http://arxiv.org/abs/2407.03967v2 )

ライセンス: Link先を確認
Amit Parekh, Nikolas Vitsakis, Alessandro Suglia, Ioannis Konstas, (参考訳) 分布外データのみの性能に基づくマルチモーダルモデルの一般化能力の評価は、真のロバスト性をとらえることに失敗する。 本研究は, アーキテクチャ設計, 言語・視覚モダリティ間の入力摂動, タスク複雑性の増大を考慮し, それらのモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。 提案フレームワークは,過度な命令摂動に対するマルチモーダルモデルのレジリエンスと観測上の変化に対する脆弱性を明らかにする。 ロボット操作タスクに対する現在のトランスフォーマーベースのマルチモーダルモデルに基づくこの評価フレームワークを利用することで,制約を明らかにするとともに,マルチモーダル入力をよりよく統合するアーキテクチャとトレーニングの革新に重点を置き,インシデント相関よりも入力コンテンツに対する感度を優先することで,モデルの一般化能力を高めることを提案する。

Evaluating the generalisation capabilities of multimodal models based solely on their performance on out-of-distribution data fails to capture their true robustness. This work introduces a comprehensive evaluation framework that systematically examines the role of instructions and inputs in the generalisation abilities of such models, considering architectural design, input perturbations across language and vision modalities, and increased task complexity. The proposed framework uncovers the resilience of multimodal models to extreme instruction perturbations and their vulnerability to observational changes, raising concerns about overfitting to spurious correlations. By employing this evaluation framework on current Transformer-based multimodal models for robotic manipulation tasks, we uncover limitations and suggest future advancements should focus on architectural and training innovations that better integrate multimodal inputs, enhancing a model's generalisation prowess by prioritising sensitivity to input content over incidental correlations.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-28
# 分散バックドアトリガーによるマルチターン会話言語モデルのセキュア化

Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers ( http://arxiv.org/abs/2407.04151v2 )

ライセンス: Link先を確認
Terry Tong, Jiashu Xu, Qin Liu, Muhao Chen, (参考訳) 大規模言語モデル(LLM)は、長い文脈長を処理し、テキストでニュアンスを理解する能力を獲得し、対話能力を単一の発話を超えて拡張した。 LLMのユーザ向けアプリケーションとしては、マルチターンチャット設定がある。 より長いチャットメモリとより良い理解は、ユーザにとって有益と思われるが、私たちの論文は、マルチターン機能とLDMの強力な学習能力を活用して、エンドユーザ、すなわちバックドアを害する脆弱性を公開している。 LLMが組合わせのバックドア表現をキャプチャできることを実証する。 トリガーの表示時にのみ、バックドアがアクティベートされる。 また、この表現がトリガー発話の位置に不変であることを実証的に検証する。 その後、データの5%の2つの発話に1つの余分なトークンを挿入すると、99%のアタック成功率(ASR)が発生する。 我々の3つのトリガによる結果は、このフレームワークが汎用化可能であり、プラグイン・アンド・プレイ方式で、相手のツールボックス内の任意のトリガと互換性があることを示します。 大規模な入力と出力スペースのため、チャット設定ではバックドアの修正が難しい場合があります。 本分析は,攻撃された入力空間の次元を多項式的に増加させることにより,分散バックドアが現在の課題を悪化させることを示す。 OnIONやBKIのような標準的なテキストの防御は、個々のトークンの前方通過を補助的に利用し、入力シーケンスの長さで指数関数的にスケーリングし、計算可能性を維持するのに苦労する。 そこで本研究では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間防衛法を提案する。

Large language models (LLMs) have acquired the ability to handle longer context lengths and understand nuances in text, expanding their dialogue capabilities beyond a single utterance. A popular user-facing application of LLMs is the multi-turn chat setting. Though longer chat memory and better understanding may seemingly benefit users, our paper exposes a vulnerability that leverages the multi-turn feature and strong learning ability of LLMs to harm the end-user: the backdoor. We demonstrate that LLMs can capture the combinational backdoor representation. Only upon presentation of triggers together does the backdoor activate. We also verify empirically that this representation is invariant to the position of the trigger utterance. Subsequently, inserting a single extra token into two utterances of 5%of the data can cause over 99% Attack Success Rate (ASR). Our results with 3 triggers demonstrate that this framework is generalizable, compatible with any trigger in an adversary's toolbox in a plug-and-play manner. Defending the backdoor can be challenging in the chat setting because of the large input and output space. Our analysis indicates that the distributed backdoor exacerbates the current challenges by polynomially increasing the dimension of the attacked input space. Canonical textual defenses like ONION and BKI leverage auxiliary model forward passes over individual tokens, scaling exponentially with the input sequence length and struggling to maintain computational feasibility. To this end, we propose a decoding time defense - decayed contrastive decoding - that scales linearly with assistant response sequence length and reduces the backdoor to as low as 0.35%.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-28
# GenArtist: 統一画像生成と編集のエージェントとしてのマルチモーダルLCM

GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing ( http://arxiv.org/abs/2407.05600v2 )

ライセンス: Link先を確認
Zhenyu Wang, Aoxue Li, Zhenguo Li, Xihui Liu, (参考訳) 既存の画像生成・編集手法の成功にもかかわらず、現在のモデルは複雑なテキストプロンプトを含む複雑な問題に苦慮しており、検証と自己補正機構がないため、生成した画像は信頼できない。 一方、単一のモデルは特定のタスクを専門化し、対応する能力を持つ傾向があり、すべてのユーザー要求を満たすのに不十分である。 我々は,マルチモーダル大言語モデル (MLLM) エージェントによって調整された統合画像生成編集システムであるGenArtistを提案する。 ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。 複雑な問題に対して、MLLMエージェントは、それをより単純なサブプロブレムに分解し、ステップバイステップの検証で生成、編集、自己補正の手順を体系的に計画するツリー構造を構築する。 位置関連入力を自動生成し、位置情報を組み込むことで、各サブプロブレムに対処する適切なツールを効果的に利用することができる。 実験によると、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを実現し、SDXLやDALL-E 3といった既存のモデルを上回ることができる。 プロジェクトページはhttps://zhenyuw16.github.io/GenArtist_page。

Despite the success achieved by existing image generation and editing methods, current models still struggle with complex problems including intricate text prompts, and the absence of verification and self-correction mechanisms makes the generated images unreliable. Meanwhile, a single model tends to specialize in particular tasks and possess the corresponding capabilities, making it inadequate for fulfilling all user requirements. We propose GenArtist, a unified image generation and editing system, coordinated by a multimodal large language model (MLLM) agent. We integrate a comprehensive range of existing models into the tool library and utilize the agent for tool selection and execution. For a complex problem, the MLLM agent decomposes it into simpler sub-problems and constructs a tree structure to systematically plan the procedure of generation, editing, and self-correction with step-by-step verification. By automatically generating missing position-related inputs and incorporating position information, the appropriate tool can be effectively employed to address each sub-problem. Experiments demonstrate that GenArtist can perform various generation and editing tasks, achieving state-of-the-art performance and surpassing existing models such as SDXL and DALL-E 3, as can be seen in Fig. 1. Project page is https://zhenyuw16.github.io/GenArtist_page.
翻訳日:2024-11-08 23:24:33 公開日:2024-10-28
# 複雑レンズによる視覚的特徴の信頼性の理解

Understanding Visual Feature Reliance through the Lens of Complexity ( http://arxiv.org/abs/2407.06076v2 )

ライセンス: Link先を確認
Thomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann, (参考訳) 近年の研究では、より単純な特徴を優先する学習モデルによる帰納的バイアスがショートカット学習の源泉である可能性が示唆されている。 しかし、モデルが学習する無数の機能の複雑さを理解することに限定的な焦点が当てられている。 本稿では,$\mathscr{V}$-informationに基づいて,特徴量の定量化のための新しい指標を提案する。 この$\mathscr{V}$-information Metricsを用いて、標準的なImageNetトレーニングされた視覚モデルから抽出された1万個の特徴の複雑さを分析した。 まず、複雑性の関数として機能がどのように見えるのかを尋ね、モデルの中に存在する単純で複雑な機能のスペクトルを見つけます。 次に、トレーニング中に機能がいつ学習されるか尋ねます。 トレーニングの初期段階では、よりシンプルな機能が支配的であり、より複雑な機能が徐々に現れます。 第三に、ネットワーク内の単純かつ複雑な特徴の流れを調査し、より単純な特徴が残差接続を介して視覚的階層をバイパスする傾向があることを明らかにする。 第4に,機能複雑性とネットワーク決定における重要性の関連について検討する。 複雑な機能は重要度が低い傾向にある。 驚くべきことに、トレーニング中に重要な機能が、沈殿プロセスのような以前のレイヤでアクセス可能になり、モデルがこれらの基礎的な要素の上に構築できるようになる。

Recent studies suggest that deep learning models inductive bias towards favoring simpler features may be one of the sources of shortcut learning. Yet, there has been limited focus on understanding the complexity of the myriad features that models learn. In this work, we introduce a new metric for quantifying feature complexity, based on $\mathscr{V}$-information and capturing whether a feature requires complex computational transformations to be extracted. Using this $\mathscr{V}$-information metric, we analyze the complexities of 10,000 features, represented as directions in the penultimate layer, that were extracted from a standard ImageNet-trained vision model. Our study addresses four key questions: First, we ask what features look like as a function of complexity and find a spectrum of simple to complex features present within the model. Second, we ask when features are learned during training. We find that simpler features dominate early in training, and more complex features emerge gradually. Third, we investigate where within the network simple and complex features flow, and find that simpler features tend to bypass the visual hierarchy via residual connections. Fourth, we explore the connection between features complexity and their importance in driving the networks decision. We find that complex features tend to be less important. Surprisingly, important features become accessible at earlier layers during training, like a sedimentation process, allowing the model to build upon these foundational elements.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-28
# 非構造化自然言語データによる終端因果効果の推定

End-To-End Causal Effect Estimation from Unstructured Natural Language Data ( http://arxiv.org/abs/2407.07018v3 )

ライセンス: Link先を確認
Nikita Dhawan, Leonardo Cotta, Karen Ullrich, Rahul G. Krishnan, Chris J. Maddison, (参考訳) 介入の効果を知ることは、人間の意思決定にとって重要であるが、因果的効果推定の現在のアプローチは、因果的仮定にかかわらず、手動のデータ収集と構造化に依存している。 これにより、研究のコストと完成までの時間の両方が増大する。 本研究では,大規模言語モデル(LLM)を用いて,適切な因果推定条件下での安価な因果効果推定を行うために,多種多様な観測テキストデータをいかに大規模にマイニングできるかを示す。 NATURALは,LLMを用いて構築され,非構造化テキストのデータセット上で動作する因果効果推定器である。 我々の推定器は、古典的因果効果推定器の計算を支援するために、LLM条件分布(テキストデータから導かれる変数)を用いる。 データキュレーションの自動化やLLMの活用など,このアイデアを実現するための技術的課題を数多く克服しています。 我々は6つの(合成と4つの実の)観測データセットを作成し、それに対応する真実をランダム化トライアルの形で組み合わせ、パイプラインの各ステップを体系的に評価した。 ナトゥラル推定器は顕著な性能を示し、実世界の第3/4相臨床試験を含め、根本的真理の3ポイント以内の因果効果を推定する。 この結果から、非構造化テキストデータは因果効果情報の豊富な情報源であり、NATURALはこのリソースを利用するための自動パイプラインへの第一歩であることを示唆した。

Knowing the effect of an intervention is critical for human decision-making, but current approaches for causal effect estimation rely on manual data collection and structuring, regardless of the causal assumptions. This increases both the cost and time-to-completion for studies. We show how large, diverse observational text data can be mined with large language models (LLMs) to produce inexpensive causal effect estimates under appropriate causal assumptions. We introduce NATURAL, a novel family of causal effect estimators built with LLMs that operate over datasets of unstructured text. Our estimators use LLM conditional distributions (over variables of interest, given the text data) to assist in the computation of classical estimators of causal effect. We overcome a number of technical challenges to realize this idea, such as automating data curation and using LLMs to impute missing information. We prepare six (two synthetic and four real) observational datasets, paired with corresponding ground truth in the form of randomized trials, which we used to systematically evaluate each step of our pipeline. NATURAL estimators demonstrate remarkable performance, yielding causal effect estimates that fall within 3 percentage points of their ground truth counterparts, including on real-world Phase 3/4 clinical trials. Our results suggest that unstructured text data is a rich source of causal effect information, and NATURAL is a first step towards an automated pipeline to tap this resource.
翻訳日:2024-11-08 22:51:20 公開日:2024-10-28
# リーマン最適化による量子符号の探索

Finding Quantum Codes via Riemannian Optimization ( http://arxiv.org/abs/2407.08423v2 )

ライセンス: Link先を確認
Miguel Casanova, Kentaro Ohki, Francesco Ticozzi, (参考訳) 本稿では、既知の量子ノイズチャネルに対して最適に修正可能な部分空間符号を求めるための新しい最適化手法を提案する。 各候補部分空間符号に対して、コードは完全に修正可能であるかのように、まずユニバーサルリカバリマップを関連付け、改良されたチャネル忠実度とより単純なコードを促進する調整可能な正規化項を組み合わせた性能関数を最大化することを目的としている。 この選択により、最適化はコードのセット上でのみ行われ、リカバリオペレータのセット上では行われない。 固定次元の符号の集合は複素数値スティーフェル多様体としてパラメータ化され、結果として得られる非凸最適化問題は勾配に基づく局所アルゴリズムによって解かれる。 完全修正可能な符号が見つからないとき、第二の最適化ルーチンは、回復クラス写像上で実行され、Stinespring表現を介して適切なスティーフェル多様体でパラメータ化される。 アプローチをテストするために、修正可能なコードは、ビットフリップエラーを受ける3つのキュービット(シングルと相関)、局所振幅減衰を受ける4つのキュービット、局所分極チャネルを受ける5つのキュービットの3つのキュービットと、異なるシナリオで検索される。 前回の例では近似符号が発見されテストされ、純正のマルコフ非強調ノイズは7/2$のスピンバスに作用し、1/2$のスピンバスと、IBMの‘texttt{ibm\_kyoto}量子コンピュータの最初の3キュービットのノイズが検出された。 忠実度は既存の反復最適化アルゴリズムと競合し、より単純なコードを取得しながら強力な計算上の優位性を維持する。

We propose a novel optimization scheme designed to find optimally correctable subspace codes for a known quantum noise channel. To each candidate subspace code we first associate a universal recovery map, as if the code was perfectly correctable, and aim to maximize a performance functional that combines a modified channel fidelity with a tuneable regularization term that promotes simpler codes. With this choice optimization is performed only over the set of codes, and not over the set of recovery operators. The set of codes of fixed dimension is parametrized as a complex-valued Stiefel manifold: the resulting non-convex optimization problem is then solved by gradient-based local algorithms. When perfectly correctable codes cannot be found, a second optimization routine is run on the recovery Kraus map, also parametrized in a suitable Stiefel manifold via Stinespring representation. To test the approach, correctable codes are sought in different scenarios and compared to existing ones: three qubits subjected to bit-flip errors (single and correlated), four qubits undergoing local amplitude damping and five qubits subjected to local depolarizing channels. Approximate codes are found and tested for the previous examples as well pure non-Markovian dephasing noise acting on a $7/2$ spin, induced by a $1/2$ spin bath, and the noise of the first three qubits of IBM's \texttt{ibm\_kyoto} quantum computer. The fidelity results are competitive with existing iterative optimization algorithms, with respect to which we maintain a strong computational advantage, while obtaining simpler codes.
翻訳日:2024-11-08 22:29:08 公開日:2024-10-28
# RIO-CPD:相関を考慮したオンライン変化点検出のためのリーマン幾何学的手法

RIO-CPD: A Riemannian Geometric Method for Correlation-aware Online Change Point Detection ( http://arxiv.org/abs/2407.09698v2 )

ライセンス: Link先を確認
Chengyuan Deng, Zhengzhang Chen, Xujiang Zhao, Haoyu Wang, Junxiang Wang, Haifeng Chen, Jie Gao, (参考訳) 変更点検出は、データシーケンス内の複数のポイントで発生する突然のシフトを特定することを目的としている。 このタスクは、データの境界分布と結合分布の両方のシフトを含む、さまざまなタイプの変更が発生するオンライン環境では特に困難になる。 本稿では,相関行列のリーマン幾何を追跡することでこれらの課題に対処し,相関力学の正確な測度として測地距離を計算する。 これは、対称正定行列の多様体のリーマン幾何学と累積和(CUSUM)統計を統合して変化点を検出する、非パラメトリック相関対応オンライン変化点検出フレームワークである。 Rio-CPDは、現在の観測と以前の観測のFr'echet平均との間の測地距離を計算することで、新しいCUSUM設計を採用している。 リーマン計量の適切な選択により、リオCPDは単純で効率的かつ計算に効率的なアルゴリズムを提供する。 合成と実世界の両方のデータセットに対する実験結果から、Rio-CPDは検出精度、平均検出遅延、効率において既存の手法より優れていることが示された。

Change point detection aims to identify abrupt shifts occurring at multiple points within a data sequence. This task becomes particularly challenging in the online setting, where different types of changes can occur, including shifts in both the marginal and joint distributions of the data. In this paper, we address these challenges by tracking the Riemannian geometry of correlation matrices, allowing Riemannian metrics to compute the geodesic distance as an accurate measure of correlation dynamics. We introduce Rio-CPD, a non-parametric, correlation-aware online change point detection framework that integrates the Riemannian geometry of the manifold of symmetric positive definite matrices with the cumulative sum (CUSUM) statistic for detecting change points. Rio-CPD employs a novel CUSUM design by computing the geodesic distance between current observations and the Fr\'echet mean of prior observations. With appropriate choices of Riemannian metrics, Rio-CPD offers a simple yet effective and computationally efficient algorithm. Experimental results on both synthetic and real-world datasets demonstrate that Rio-CPD outperforms existing methods on detection accuracy, average detection delay and efficiency.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-28
# 体系的に不変なテンソル分解による単純なフェルミオン逆流状態

Simple Fermionic backflow states via a systematically improvable tensor decomposition ( http://arxiv.org/abs/2407.11779v2 )

ライセンス: Link先を確認
Massimo Bortone, Yannic Rath, George H. Booth, (参考訳) 相関電子の波動関数に対して,機械学習のパラメータ化とテンソル階数分解の場を近づける効果的なアンザッツを提案する。 CANDECOMP/PARAFAC (CP) Tenor Factorization of a general backflow transformation in second Quantization for a simple, compact and systematically improvable Fermionic state。 これは他のテンソル分解の順序依存なしに、直接$N$ボディの相関を符号化する。 我々は,スケール縮小を$\mathcal{O}[N^{3-4}]$に体系的に影響を及ぼすために,バックフロー相関や局所エネルギー寄与量のランクと範囲において,様々な制御可能なトランケーションを考察し,明示的に示す。 小さなフェルミ・ハバードや化学系に対するベンチマークでは、他のNQSのようなモデルよりも改善されているのに対し、より大きく相関したab initio系への拡張は、現実的な長距離クーロン相互作用を持つb initio 2D水素格子上のより確立されたDMRG技術との競争精度を示している。

We present an effective ansatz for the wave function of correlated electrons that brings closer the fields of machine learning parameterizations and tensor rank decompositions. We consider a CANDECOMP/PARAFAC (CP) tensor factorization of a general backflow transformation in second quantization for a simple, compact and systematically improvable Fermionic state. This directly encodes $N$-body correlations without the ordering dependence of other tensor decompositions. We consider and explicitly demonstrate various controllable truncations, in the rank and range of the backflow correlations or magnitude of local energy contributions, in order to systematically affect scaling reductions to $\mathcal{O}[N^{3-4}]$. Benchmarking against small Fermi-Hubbard and chemical systems reveals an improvement over other NQS-like models, while extending towards larger strongly correlated ab initio systems demonstrates competitive accuracy with more established DMRG techniques on ab initio 2D hydrogenic lattices with realistic long-range Coulomb interactions.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-28
# 自動運転車評価のためのデータ選択手法

Data selection method for assessment of autonomous vehicles ( http://arxiv.org/abs/2407.12065v2 )

ライセンス: Link先を確認
Linh Trinh, Ali Anwar, Siegfried Mercelis, (参考訳) 自動運転車の人気が高まるにつれて、ISO、NHTSA、Euro NCAPといった多くの標準や規制機関は、実際の世界に配備する前に十分なレベルの安全性を確保するために、安全性の検証を必要としている。 製造業者は、この目的のために大量の公道データを収集します。 しかしながら、これらのバリデーション活動の大部分は、人間が手作業で行います。 さらに、各駆動特性を検証するために使用されるデータが異なる場合がある。 その結果、検証プロセスの高速化を図りつつ、柔軟かつ動的に検証・検証に使用できる効率的なデータ選択方法を持つことが不可欠である。 本稿では,自律走行車の評価を行う上で,実用的で柔軟かつ効率的なデータ選択手法を提案する。 我々の考えは、選択したデータのメタデータ分布と、バリデーションに期待される事前定義されたメタデータ分布との類似性を最適化することである。 BDD100Kを用いた大規模データセット実験により,提案手法が効率的にデータ選択タスクを実行できることを示す。 これらの結果から,本手法は信頼性が高く,各種安全機能の検証に有効なデータ選択に有用であることが示唆された。

As the popularity of autonomous vehicles has grown, many standards and regulators, such as ISO, NHTSA, and Euro NCAP, require safety validation to ensure a sufficient level of safety before deploying them in the real world. Manufacturers gather a large amount of public road data for this purpose. However, the majority of these validation activities are done manually by humans. Furthermore, the data used to validate each driving feature may differ. As a result, it is essential to have an efficient data selection method that can be used flexibly and dynamically for verification and validation while also accelerating the validation process. In this paper, we present a data selection method that is practical, flexible, and efficient for assessment of autonomous vehicles. Our idea is to optimize the similarity between the metadata distribution of the selected data and a predefined metadata distribution that is expected for validation. Our experiments on the large dataset BDD100K show that our method can perform data selection tasks efficiently. These results demonstrate that our methods are highly reliable and can be used to select appropriate data for the validation of various safety functions.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-28
# テキスト・画像拡散モデルの信頼性と効率的な概念消去

Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.12383v2 )

ライセンス: Link先を確認
Chao Gong, Kai Chen, Zhipeng Wei, Jingjing Chen, Yu-Gang Jiang, (参考訳) テキスト・ツー・イメージのモデルは、著作権やNSFW(Not-Safe-For-Work)コンテンツに関する懸念など、安全上の問題に直面する。 拡散モデルから不適切な概念を消去するいくつかの方法が提案されているが、しばしば不完全な消去を示し、多くの計算資源を消費し、不注意に損傷を発生させる能力を示す。 本稿では,3秒でモデルを変更する新しい手法であるReliable and Efficient Concept Erasure (RECE)を紹介する。 具体的には、RECEは、未学習モデル内で消去された概念を再生できる新しいターゲット埋め込みを導出するために、クローズドフォームソリューションを効率的に活用する。 派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。 新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。 さらに、モデルの生成能力を維持するため、RECEは導出プロセス中に追加の正規化項を導入し、消去プロセスにおける無関係な概念への影響を最小限にする。 上記のプロセスはすべてクローズド形式で、非常に効率的な消去をわずか3秒で保証します。 従来の手法と比較して,本手法は生成能力に小さなダメージを与えることなく,より効率的かつ徹底的な消去を実現し,レッドチームツールに対する堅牢性の向上を実証する。 コードは \url{https://github.com/CharlesGong12/RECE} で入手できる。

Text-to-image models encounter safety issues, including concerns related to copyright and Not-Safe-For-Work (NSFW) content. Despite several methods have been proposed for erasing inappropriate concepts from diffusion models, they often exhibit incomplete erasure, consume a lot of computing resources, and inadvertently damage generation ability. In this work, we introduce Reliable and Efficient Concept Erasure (RECE), a novel approach that modifies the model in 3 seconds without necessitating additional fine-tuning. Specifically, RECE efficiently leverages a closed-form solution to derive new target embeddings, which are capable of regenerating erased concepts within the unlearned model. To mitigate inappropriate content potentially represented by derived embeddings, RECE further aligns them with harmless concepts in cross-attention layers. The derivation and erasure of new representation embeddings are conducted iteratively to achieve a thorough erasure of inappropriate concepts. Besides, to preserve the model's generation ability, RECE introduces an additional regularization term during the derivation process, resulting in minimizing the impact on unrelated concepts during the erasure process. All the processes above are in closed-form, guaranteeing extremely efficient erasure in only 3 seconds. Benchmarking against previous approaches, our method achieves more efficient and thorough erasure with minor damage to original generation ability and demonstrates enhanced robustness against red-teaming tools. Code is available at \url{https://github.com/CharlesGong12/RECE}.
翻訳日:2024-11-08 20:36:48 公開日:2024-10-28
# グループロバスト性の詳細:純粋相関の下でのファインタニングの再考

The Group Robustness is in the Details: Revisiting Finetuning under Spurious Correlations ( http://arxiv.org/abs/2407.13957v2 )

ライセンス: Link先を確認
Tyler LaBonte, John C. Hill, Xinchen Zhang, Vidya Muthukumar, Abhishek Kumar, (参考訳) 現代の機械学習モデルは、急激な相関に過度に依存する傾向があり、しばしば少数派集団のパフォーマンスが低下する。 本稿では、視覚と言語タスクをまたいだ4つのよく確立されたベンチマークの総合的な実験を通して、最悪のグループ精度で微調整されたモデルの驚きとニュアンスな振る舞いを識別する。 まず,ミニバッチアップサンプリングと損失アップウェイトによるクラスバランス技術は,トレーニングのエポックで最悪のグループ精度(WGA)の低下を招き,クラスバランスがなければ性能が損なわれることを示した。 いくつかのシナリオでは、クラスバランスサブセットを作成するためにデータを削除することがより効果的であるが、これはグループ構造に依存し、どちらの手法よりも優れた混合手法を提案する。 次に、事前学習されたモデルのスケーリングは、一般に最悪のグループ精度において有用であるが、適切なクラスバランスと組み合わせてのみ有用であることを示す。 少数群の共分散行列は、クラス上でかつて条件付けられた多数群よりもスペクトルノルムが大きい。 以上の結果より,群強靭性を有する現代ファインチュードモデルの微妙な相互作用が以前よりも顕著に示された。 私たちのコードはhttps://github.com/tmlabonte/revisiting-finetuning.comで公開されています。

Modern machine learning models are prone to over-reliance on spurious correlations, which can often lead to poor performance on minority groups. In this paper, we identify surprising and nuanced behavior of finetuned models on worst-group accuracy via comprehensive experiments on four well-established benchmarks across vision and language tasks. We first show that the commonly used class-balancing techniques of mini-batch upsampling and loss upweighting can induce a decrease in worst-group accuracy (WGA) with training epochs, leading to performance no better than without class-balancing. While in some scenarios, removing data to create a class-balanced subset is more effective, we show this depends on group structure and propose a mixture method which can outperform both techniques. Next, we show that scaling pretrained models is generally beneficial for worst-group accuracy, but only in conjunction with appropriate class-balancing. Finally, we identify spectral imbalance in finetuning features as a potential source of group disparities -- minority group covariance matrices incur a larger spectral norm than majority groups once conditioned on the classes. Our results show more nuanced interactions of modern finetuned models with group robustness than was previously known. Our code is available at https://github.com/tmlabonte/revisiting-finetuning.
翻訳日:2024-11-08 20:01:00 公開日:2024-10-28
# 構造に基づく医薬品設計における直接選好最適化の分解

Decomposed Direct Preference Optimization for Structure-Based Drug Design ( http://arxiv.org/abs/2407.13981v2 )

ライセンス: Link先を確認
Xiwei Cheng, Xiangxin Zhou, Yuwei Yang, Yu Bao, Quanquan Gu, (参考訳) 拡散モデルは、Structure-Based Drug Design (SBDD)の有望な結果を得た。 それでも、高品質なタンパク質サブポケットとリガンドデータは比較的乏しく、モデルの生成能力を妨げている。 近年,DPO(Direct Preference Optimization)が,生成モデルと人間の嗜好を整合させる重要なツールとして登場した。 本稿では,多粒性選好ペアを用いた拡散モデルと医薬のニーズを一致させる構造に基づく最適化手法であるDecompDPOを提案する。 DecompDPOは最適化対象への分解を導入し、それぞれの目的の分解可能性に基づいて、分子または分解サブ構造レベルでの選好ペアを得る。 さらに、DecompDPOは、最適化結果に適切な分子配座を保証するために、物理学で表されたエネルギー項を導入する。 特に、DecompDPOは、(1)様々なタンパク質ファミリーにまたがる分子生成のための微調整済み拡散モデル、(2)生成後に特定のタンパク質サブポケットが与えられる分子最適化の2つの目的のために効果的に使用できる。 CrossDocked2020ベンチマークの大規模な実験によると、DecompDPOはモデルの性能を大幅に改善し、95.2%のMedを達成した。 高親和性と36.2%の成功率、100%メド。 分子最適化における高い親和性と52.1%の成功率。

Diffusion models have achieved promising results for Structure-Based Drug Design (SBDD). Nevertheless, high-quality protein subpocket and ligand data are relatively scarce, which hinders the models' generation capabilities. Recently, Direct Preference Optimization (DPO) has emerged as a pivotal tool for aligning generative models with human preferences. In this paper, we propose DecompDPO, a structure-based optimization method aligns diffusion models with pharmaceutical needs using multi-granularity preference pairs. DecompDPO introduces decomposition into the optimization objectives and obtains preference pairs at the molecule or decomposed substructure level based on each objective's decomposability. Additionally, DecompDPO introduces a physics-informed energy term to ensure reasonable molecular conformations in the optimization results. Notably, DecompDPO can be effectively used for two main purposes: (1) fine-tuning pretrained diffusion models for molecule generation across various protein families, and (2) molecular optimization given a specific protein subpocket after generation. Extensive experiments on the CrossDocked2020 benchmark show that DecompDPO significantly improves model performance, achieving up to 95.2% Med. High Affinity and a 36.2% success rate for molecule generation, and 100% Med. High Affinity and a 52.1% success rate for molecular optimization.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-28
# 視覚言語モデルからみた画像テキスト検索ベンチマークの脆さ評価

Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective ( http://arxiv.org/abs/2407.15239v3 )

ライセンス: Link先を確認
Mariya Hendriksen, Shuo Zhang, Ridho Reinanda, Mohamed Yahya, Edgar Meij, Maarten de Rijke, (参考訳) 画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。 まず、2つの一般的なベンチマークであるMS-COCOとFlickr30kを分析し、概念の粒度をキャプチャする特定の言語的特徴セットを考えると、それらを強化されたきめ細かいバージョンであるMS-COCO-FGとFlickr30k-FGと比較する。 Flickr30k-FGとMS COCO-FGは、選択したすべての機能に対して、常に高いスコアを与えている。 粒度の影響の理解を深めるために,クエリ摂動の新たな分類法を検討する。 選択したデータセットにこれらの摂動を適用する。 我々は,0ショット条件下での標準および細粒度データセットと,適用された摂動を伴わない4つの多種多様なVision-Languageモデルを評価する。 その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。 すべてのセットアップにおける相対的なパフォーマンス低下は、すべてのモデルとデータセット間で一貫しており、問題はベンチマーク自身にあることを示している。 我々は、ITR評価パイプラインを改善するためのアジェンダを提供することで結論付ける。

We examine the brittleness of the image-text retrieval (ITR) evaluation pipeline with a focus on concept granularity. We start by analyzing two common benchmarks, MS-COCO and Flickr30k, and compare them with augmented, fine-grained versions, MS-COCO-FG and Flickr30k-FG, given a specified set of linguistic features capturing concept granularity. Flickr30k-FG and MS COCO-FG consistently give rise to higher scores across all the selected features. To further our understanding of the impact of granularity we consider a novel taxonomy of query perturbations. We apply these perturbations to the selected datasets. We evaluate four diverse state-of-the-art Vision-Language models on both the standard and fine-grained datasets under zero-shot conditions, with and without the applied perturbations. The results demonstrate that although perturbations generally degrade model performance, the fine-grained datasets exhibit a smaller performance drop than their standard counterparts. The relative performance drop across all setups is consistent across all models and datasets, indicating that the issue lies within the benchmarks themselves. We conclude by providing an agenda for improving ITR evaluation pipelines.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-28
# CLIP - インクリメンタルラーニングのための強力なベースライン

CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning ( http://arxiv.org/abs/2407.15793v4 )

ライセンス: Link先を確認
Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara, (参考訳) CLIPのようなトランスフォーマーやビジョン・ランゲージ・モデル(VLM)の出現に伴い、微調整された大規模な事前学習モデルは、近年、継続的な学習において一般的な戦略となっている。 このことが、破滅的な忘れを招かずにトランスフォーマーベースのモデルに適応するための多くの急進的戦略の開発につながった。 しかしながら、これらの戦略は、事前トレーニングされたCLIPモデルの元々のゼロショット能力を損なうことが多く、事前トレーニングされたデータから著しく逸脱したドメインへの適応に苦慮する。 本稿では,CLIPを適応させながら忘れを軽減するためのシンプルで斬新な手法であるインクリメンタル・プロンプト学習のための連続的生成学習を提案する。 簡単に言えば、視覚エンコーダの埋め込み空間内のクラス条件分布を学習するために、変分オートエンコーダ(VAE)を用いる。 次に、これらの分布を利用して、新しい合成視覚埋め込みをサンプリングし、その後のタスク中に対応するクラス固有のテキストプロンプトをトレーニングする。 異なる領域に関する広範な実験を通して、このような生成的再生アプローチはゼロショット能力を改善しつつ新しいタスクに適応できることを示し、CLシナリオに適した新しいメトリクスを用いて評価する。 さらなる分析により,我々の手法は,ジョイント・プロンプト・チューニングによってギャップを埋めることができることが明らかとなった。 コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。

With the emergence of Transformers and Vision-Language Models (VLMs) such as CLIP, fine-tuning large pre-trained models has recently become a prevalent strategy in Continual Learning. This has led to the development of numerous prompting strategies to adapt transformer-based models without incurring catastrophic forgetting. However, these strategies often compromise the original zero-shot capabilities of the pre-trained CLIP model and struggle to adapt to domains that significantly deviate from the pre-training data. In this work, we propose Continual Generative training for Incremental prompt-Learning, a simple and novel approach to mitigate forgetting while adapting CLIP. Briefly, we employ Variational Autoencoders (VAEs) to learn class-conditioned distributions within the embedding space of the visual encoder. We then exploit these distributions to sample new synthetic visual embeddings and train the corresponding class-specific textual prompts during subsequent tasks. Through extensive experiments on different domains, we show that such a generative replay approach can adapt to new tasks while improving zero-shot capabilities, evaluated using a novel metric tailored for CL scenarios. Notably, further analysis reveals that our approach can bridge the gap with joint prompt tuning. The codebase is available at https://github.com/aimagelab/mammoth.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-28
# 高対話環境におけるインテリジェントエージェントのための重要サンプリング型メタトレーニング

Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments ( http://arxiv.org/abs/2407.15839v2 )

ライセンス: Link先を確認
Mansur Arief, Mike Timmerman, Jiachen Li, David Isele, Mykel J Kochenderfer, (参考訳) 高度にインタラクティブな環境をナビゲートするためのインテリジェントエージェントのトレーニングは、大きな課題を提示します。 指導的メタ強化学習(英語版)(RL)アプローチは、まず、エゴエージェントを訓練するための指導方針を訓練するが、様々なレベルの相互作用を持つシナリオにおける一般化性の向上には有効であることが証明されているが、最先端の手法は極端なケースに対して過度に敏感であり、より一般的なシナリオではエージェントのパフォーマンスを損なう傾向にある。 本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合した新たなトレーニングフレームワークを提案する。 トレーニング中に重要な相互作用を過度に強調したり、極端なケースを過度に強調する従来の方法とは異なり、本手法はIS提案分布を用いて、より困難な運転行動に向けてトレーニング分布を戦略的に調整し、その重要度をバイアスの除去に応用する。 実世界のデータセットからの自然な分布を推定し、反復的なトレーニング改善のための混合モデルを使用することで、このフレームワークは、共通および極端な駆動シナリオにまたがるバランスのとれたフォーカスを保証する。 人工的および自然的両方のデータセットを用いて行った実験は、高度に対話的な運転タスク下での加速トレーニングと性能改善の両方を実証する。

Training intelligent agents to navigate highly interactive environments presents significant challenges. While guided meta reinforcement learning (RL) approach that first trains a guiding policy to train the ego agent has proven effective in improving generalizability across scenarios with various levels of interaction, the state-of-the-art method tends to be overly sensitive to extreme cases, impairing the agents' performance in the more common scenarios. This study introduces a novel training framework that integrates guided meta RL with importance sampling (IS) to optimize training distributions iteratively for navigating highly interactive driving scenarios, such as T-intersections or roundabouts. Unlike traditional methods that may underrepresent critical interactions or overemphasize extreme cases during training, our approach strategically adjusts the training distribution towards more challenging driving behaviors using IS proposal distributions and applies the importance ratio to de-bias the result. By estimating a naturalistic distribution from real-world datasets and employing a mixture model for iterative training refinements, the framework ensures a balanced focus across common and extreme driving scenarios. Experiments conducted with both synthetic and naturalistic datasets demonstrate both accelerated training and performance improvements under highly interactive driving tasks.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-28
# エージェントスコープにおける超大規模マルチエージェントシミュレーション

Very Large-Scale Multi-Agent Simulation in AgentScope ( http://arxiv.org/abs/2407.17789v2 )

ライセンス: Link先を確認
Xuchen Pan, Dawei Gao, Yuexiang Xie, Yushuo Chen, Zhewei Wei, Yaliang Li, Bolin Ding, Ji-Rong Wen, Jingren Zhou, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、大規模シミュレーションにマルチエージェントシステムを適用するための新たな道を開いた。 しかし、スケーラビリティの制限や低効率、不満足なエージェントの多様性、努力集約的な管理プロセスなど、既存のプラットフォームでマルチエージェントシミュレーションを行う際には、いくつかの課題がある。 これらの課題に対処するため、ユーザフレンドリなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発し、非常に大規模なマルチエージェントシミュレーションをサポートするための利便性と柔軟性を高めた。 具体的には,マルチエージェントの並列実行,分散デプロイメントのためのワークフロー自動変換,エージェント間およびエージェント環境の両方のインタラクションを可能にする,さまざまな現実シナリオをシミュレートするための柔軟な環境サポートを提供する。 さらに、AgentScopeに使いやすく設定可能なツールと自動バックグラウンド生成パイプラインを統合し、多様なバックグラウンド設定でエージェントを作成するプロセスを簡単にする。 最後に、私たちは、複数のデバイスにまたがってデプロイされる可能性のある多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースを提供しています。 本稿では,AgentScopeにおけるこれらの拡張の有効性を示すための総合シミュレーションを行い,大規模シミュレーションにおけるマルチエージェントシステムの適用の可能性を明らかにするために,詳細な観察と洞察に富んだ議論を行う。 ソースコードはGitHubでhttps://github.com/modelscope/agentscope/tree/main/examples/paper_large_scale_simulationで公開されている。

Recent advances in large language models (LLMs) have opened new avenues for applying multi-agent systems in very large-scale simulations. However, there remain several challenges when conducting multi-agent simulations with existing platforms, such as limited scalability and low efficiency, unsatisfied agent diversity, and effort-intensive management processes. To address these challenges, we develop several new features and components for AgentScope, a user-friendly multi-agent platform, enhancing its convenience and flexibility for supporting very large-scale multi-agent simulations. Specifically, we propose an actor-based distributed mechanism as the underlying technological infrastructure towards great scalability and high efficiency, and provide flexible environment support for simulating various real-world scenarios, which enables parallel execution of multiple agents, automatic workflow conversion for distributed deployment, and both inter-agent and agent-environment interactions. Moreover, we integrate an easy-to-use configurable tool and an automatic background generation pipeline in AgentScope, simplifying the process of creating agents with diverse yet detailed background settings. Last but not least, we provide a web-based interface for conveniently monitoring and managing a large number of agents that might deploy across multiple devices. We conduct a comprehensive simulation to demonstrate the effectiveness of these proposed enhancements in AgentScope, and provide detailed observations and insightful discussions to highlight the great potential of applying multi-agent systems in large-scale simulations. The source code is released on GitHub at https://github.com/modelscope/agentscope/tree/main/examples/paper_large_scale_simulation to inspire further research and development in large-scale multi-agent simulations.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-28
# 量子調和振動子における隠れオントロジーの変動

The Hidden Ontological Variable in Quantum Harmonic Oscillators ( http://arxiv.org/abs/2407.18153v4 )

ライセンス: Link先を確認
Gerard t Hooft, (参考訳) 標準的な量子力学的高調波発振器は、円に沿って走る古典粒子という、完全に古典的なシステムと完全に二重の関係を持つ。 ここでの双対性は、あるモデルのすべての可観測物と他のモデルの可観測物の間に1対1の関係があることを意味する。 したがって、我々が発見した双対性は、古典理論が多くの量子モデルで見られるような量子効果を決して再現できないという通常の主張と矛盾しているように見える。 このような関係はもっとあるに違いないと提案するが、この関係はプロトタイプとしてのみ研究する。 これは古典的な「隠れた変数」がどのように機能するかを明らかにする。 古典的状態はヒルベルト空間の基礎を形成し、量子モデルを記述する際に用いられる。 量子系の波動関数は古典系の確率分布を生成する。 古典的な系が常に「確率の確率」という規則に従う場合、同じ確率は量子系の量子確率である。 量子振動子における量子 x と p の作用素がどのように古典的な意味を与えるかが示される。 量子論理との明らかな衝突がいかに説明できるかが説明される。

The standard quantum mechanical harmonic oscillator has an exact, dual relationship with a completely classical system: a classical particle running along a circle. Duality here means that there is a one-to-one relation between all observables in one model, and the observables of the other model. Thus the duality we find, appears to be in conflict with the usual assertion that classical theories can never reproduce quantum effects as observed in many quantum models. We suggest that there must be more of such relationships, but we study only this one as a prototype. It reveals how classical "hidden variables" may work. The classical states can form the basis of Hilbert space that can be adopted in describing the quantum model. Wave functions in the quantum system generate probability distributions in the classical one. One finds that, where the classical system always obeys the rule "probability in = probability out", the same probabilities are quantum probabilities in the quantum system. It is shown how the quantum x and p operators in a quantum oscillator can be given a classical meaning. It is explained how an apparent clash with quantum logic can be explained away.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-28
# 量子コンピュータにおける効率的な単一ゲート最適化のための量子ランドスケープトモグラフィ

Quantum landscape tomography for efficient single-gate optimization on quantum computers ( http://arxiv.org/abs/2407.18305v2 )

ライセンス: Link先を確認
Matan Ben-Dov, Itai Arad, Emanuele G. Dalla Torre, (参考訳) 回路最適化は、短期量子コンピュータの実用化のための基本的な課題である。 本研究では、テンソルネットワーク理論の強力なレンズを通してこの問題に対処する。 我々のアプローチは、量子ランドスケープ・トモグラフィー(quantum landscape tomography)と呼ばれる、回路全体に対する個々のゲートの影響をフルに評価することである。 このプロセスに必要な要件と十分な要件を導出し、それぞれ2単位の設計とクリフォード・テーブルローに基づく2つの実装を提案する。 後者の実装は、ショット数とトモグラフィに必要な回路数との間に都合のよいバランスをとる。 現実的な雑音モデルに基づく数値シミュレーションは、勾配自由法と勾配ベース法の両方に関して、我々のアプローチの利点を実証する。 本研究は,量子ランドスケープ・トモグラフィーによる短期量子コンピューティングアプリケーションにおける回路最適化の可能性を明らかにするものである。

Circuit optimization is a fundamental task for practical applications of near-term quantum computers. In this work we address this challenge through the powerful lenses of tensor network theory. Our approach involves the full characterization of the influence of individual gates on the entire circuit, a process we call quantum landscape tomography. We derive the necessary and sufficient requirements of this process and propose two implementations, respectively based on 2-unitary design and Clifford tableaux. The latter implementation strikes a convenient balance between the number of shots and the number of circuits needed for the tomography. Numerical simulations based on a realistic noise model demonstrate the advantage of our approach with respect to both gradient-free and gradient-based methods. Overall, our findings highlight the potential of quantum landscape tomography to enhance circuit optimization in near-term quantum computing applications.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-28
# HybridDepth: 焦点と単一画像からの深度を利用したロバストメートル深度核融合

HybridDepth: Robust Metric Depth Fusion by Leveraging Depth from Focus and Single-Image Priors ( http://arxiv.org/abs/2407.18443v2 )

ライセンス: Link先を確認
Ashkan Ganj, Hang Su, Tian Guo, (参考訳) 本稿では, ハードウェアの不均一性, 一般化性など, 深度推定における重要な課題に対処する頑健な深度推定パイプラインHYBRIDDEPTHを提案する。 HYBRIDDEPTHは、一般的なモバイルデバイスで便利なデータである焦点スタックを活用して、正確な距離深度マップを生成する。 近年の単一画像深度推定の進歩により得られた深度事前を組み込むことで,既存手法と比較して構造的詳細度の高い精度が得られる。 パイプラインをエンドツーエンドシステムとしてテストし、新たに開発されたモバイルクライアントを使用して焦点スタックをキャプチャし、深さ推定のためにGPU駆動のサーバに送信する。 包括的定量的および定性的分析により、HYBRIDDEPTHはDDFF12やNYU Depth V2のような一般的なデータセット上で、最先端(SOTA)モデルより優れていることが示された。 HYBRIDDEPTHは強いゼロショットの一般化を示す。 NYU Depth V2でトレーニングを行うと、HYBRIDDEPTHはARKitScenesでゼロショットのパフォーマンスでSOTAモデルを超え、Mobile Depthでより構造的に正確な深度マップを提供する。

We propose HYBRIDDEPTH, a robust depth estimation pipeline that addresses key challenges in depth estimation,including scale ambiguity, hardware heterogeneity, and generalizability. HYBRIDDEPTH leverages focal stack, data conveniently accessible in common mobile devices, to produce accurate metric depth maps. By incorporating depth priors afforded by recent advances in singleimage depth estimation, our model achieves a higher level of structural detail compared to existing methods. We test our pipeline as an end-to-end system, with a newly developed mobile client to capture focal stacks, which are then sent to a GPU-powered server for depth estimation. Comprehensive quantitative and qualitative analyses demonstrate that HYBRIDDEPTH outperforms state-of-the-art(SOTA) models on common datasets such as DDFF12 and NYU Depth V2. HYBRIDDEPTH also shows strong zero-shot generalization. When trained on NYU Depth V2, HYBRIDDEPTH surpasses SOTA models in zero-shot performance on ARKitScenes and delivers more structurally accurate depth maps on Mobile Depth.
翻訳日:2024-11-08 14:50:05 公開日:2024-10-28
# SAM 2: 画像とビデオのセグメンテーション

SAM 2: Segment Anything in Images and Videos ( http://arxiv.org/abs/2408.00714v2 )

ライセンス: Link先を確認
Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer, (参考訳) 本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。 ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。 我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。 データに基づいてトレーニングされたSAM 2は、幅広いタスクにわたって強力なパフォーマンスを提供します。 ビデオセグメンテーションでは,従来の手法よりも3倍少ないインタラクションを用いて,精度が向上する。 画像分割では,Segment Anything Model (SAM) よりも精度が高く,6倍高速である。 私たちは、私たちのデータ、モデル、洞察が、ビデオセグメンテーションと関連する知覚タスクにとって重要なマイルストーンとなると信じています。 私たちは、モデルトレーニングとデモのためのコードだけでなく、メインモデル、データセットをリリースしています。

We present Segment Anything Model 2 (SAM 2), a foundation model towards solving promptable visual segmentation in images and videos. We build a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. Our model is a simple transformer architecture with streaming memory for real-time video processing. SAM 2 trained on our data provides strong performance across a wide range of tasks. In video segmentation, we observe better accuracy, using 3x fewer interactions than prior approaches. In image segmentation, our model is more accurate and 6x faster than the Segment Anything Model (SAM). We believe that our data, model, and insights will serve as a significant milestone for video segmentation and related perception tasks. We are releasing our main model, dataset, as well as code for model training and our demo.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-28
# NeuralBeta: ディープラーニングを使ってベータを見積もる

NeuralBeta: Estimating Beta Using Deep Learning ( http://arxiv.org/abs/2408.01387v2 )

ライセンス: Link先を確認
Yuxin Liu, Jimin Lin, Achintya Gopal, (参考訳) ファイナンスでベータを見積もる従来のアプローチは、厳格な仮定を伴い、ベータダイナミクスを適切に捉えることができず、ヘッジのようなユースケースでの有効性を制限します。 これらの制約に対処するため,ニューラルベタと呼ばれるニューラルネットワークを用いた新しい手法を開発し,一変量と多変量の両方のシナリオを処理し,ベータの動的動作を追跡する。 解釈可能性の問題に対処するため,正規化重み付き線形回帰にインスパイアされた新たな出力層を導入し,モデルの意思決定プロセスに透明性を提供する。 我々は合成データと市場データの両方について広範な実験を行い、NeuralBetaの優れたパフォーマンスを様々なシナリオにおけるベンチマーク手法と比較した。 このモデルは、ベータ推定の分野における進歩を表すだけでなく、線形関係を前提とした他の金融状況における応用の可能性も示している。

Traditional approaches to estimating beta in finance often involve rigid assumptions and fail to adequately capture beta dynamics, limiting their effectiveness in use cases like hedging. To address these limitations, we have developed a novel method using neural networks called NeuralBeta, which is capable of handling both univariate and multivariate scenarios and tracking the dynamic behavior of beta. To address the issue of interpretability, we introduce a new output layer inspired by regularized weighted linear regression, which provides transparency into the model's decision-making process. We conducted extensive experiments on both synthetic and market data, demonstrating NeuralBeta's superior performance compared to benchmark methods across various scenarios, especially instances where beta is highly time-varying, e.g., during regime shifts in the market. This model not only represents an advancement in the field of beta estimation, but also shows potential for applications in other financial contexts that assume linear relationships.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-28
# 3つのマルチソース推論モデルによるアフリカにおけるウェルス指数予測の比較分析

A Comparative Analysis of Wealth Index Predictions in Africa between three Multi-Source Inference Models ( http://arxiv.org/abs/2408.01631v3 )

ライセンス: Link先を確認
Márton Karsai, János Kertész, Lisette Espín-Noboa, (参考訳) 貧困マップ推論は、回帰モデルから、表形式データ、衛星画像、ネットワークに適用された畳み込みニューラルネットワークまで、伝統的な技術と現代的な技術の両方を活用することで、研究の重要な焦点となっている。 トレーニングフェーズのモデルの検証には多くの注意が向けられているが、最終的な予測はより精査されていない。 本研究では,Lee and Braithwaite (2022) と Esp\'in-Noboa et al (2023) が予測した国際ウェルス指数 (IWI) と,Chi et al (2022) が推定した相対ウェルス指数 (RWI) をサブサハラアフリカ6カ国で分析した。 分析の結果,これらのモデル間の富の予測の傾向と相違点が明らかになった。 特に、トレーニングデータの違いを考慮しても、LeeとBraithwaiteの予測とEsp\'in-Noboa et alとの有意な相違と予期せぬ相違が見られた。 対照的に、Esp\in-Noboa et al と Chi et al によって予測される富分布の形状はより密接な整合性を示し、類似の歪度を示唆している。 これらの知見は、特定のモデルの妥当性に関する懸念を提起し、政策決定に使用される富の予測アルゴリズムに対する厳密な監査の重要性を強調している。 継続的検証と改善は、これらのモデルの信頼性を確保するために不可欠である。

Poverty map inference has become a critical focus of research, utilizing both traditional and modern techniques, ranging from regression models to convolutional neural networks applied to tabular data, satellite imagery, and networks. While much attention has been given to validating models during the training phase, the final predictions have received less scrutiny. In this study, we analyze the International Wealth Index (IWI) predicted by Lee and Braithwaite (2022) and Esp\'in-Noboa et al. (2023), alongside the Relative Wealth Index (RWI) inferred by Chi et al. (2022), across six Sub-Saharan African countries. Our analysis reveals trends and discrepancies in wealth predictions between these models. In particular, significant and unexpected discrepancies between the predictions of Lee and Braithwaite and Esp\'in-Noboa et al., even after accounting for differences in training data. In contrast, the shape of the wealth distributions predicted by Esp\'in-Noboa et al. and Chi et al. are more closely aligned, suggesting similar levels of skewness. These findings raise concerns about the validity of certain models and emphasize the importance of rigorous audits for wealth prediction algorithms used in policy-making. Continuous validation and refinement are essential to ensure the reliability of these models, particularly when they inform poverty alleviation strategies.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-28
# ミニモンキー:補完画像ピラミッドによる軽量MLLMのセマンティックソートゥース効果の軽減

Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid ( http://arxiv.org/abs/2408.02034v3 )

ライセンス: Link先を確認
Mingxin Huang, Yuliang Liu, Dingkang Liang, Lianwen Jin, Xiang Bai, (参考訳) 近年,マルチモーダル大規模言語モデル (MLLM) では画像の高解像度化が注目されている。 既存のプラクティスの多くは、解像度の増加に対応するために、スライディングウインドウスタイルの作付け戦略を採用しています。 しかし、このような収穫戦略は、意味的不連続をもたらすオブジェクトや連結領域を簡単に切り離すことができ、したがってMLLMが小さなまたは不規則な形をしたオブジェクトやテキストを認識することを妨げ、セマンティックソートゥース効果(semantic sawtooth effect)と呼ばれる現象を引き起こす。 この効果は軽量MLLMでは特に顕著である。 この問題に対処するために,高解像度画像処理における意味的不連続性を緩和する,シンプルで効果的かつプラグアンドプレイのソリューションであるComplementary Image Pyramid (CIP)を導入する。 特に、CIPは画像ピラミッドを動的に構築し、トリミングベースのMLLMに補完的な意味情報を提供し、すべてのレベルでセマンティクスをリッチに取得することができる。 さらに、冗長な視覚トークンを圧縮することにより、余分な計算オーバーヘッドを低減するためのスケール圧縮機構(SCM)を導入する。 我々の実験は、CIPが、様々なアーキテクチャ(例えば、MiniCPM-V-2、InternVL2、LLaVA-OneVision)、様々なモデル容量(1B$\rightarrow$8B)、様々な使用法構成(トレーニング不要および微調整)で一貫して性能を向上できることを示した。 提案したCIPとSCMを活用し,汎用マルチモーダル理解と文書理解の両面で優れた性能を発揮する軽量MLLM,Mini-Monkeyを導入する。 OCRBenchでは、2B版Mini-Monkeyが8BモデルであるInternVL2-8Bを12点上回っている。 さらに、Mini-Monkeyのトレーニングは安価で、8つのRTX 3090 GPUしか必要としない。 コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。

Recently, scaling images to high resolution has received much attention in multimodal large language models (MLLMs). Most existing practices adopt a sliding-window-style cropping strategy to adapt to resolution increase. Such a cropping strategy, however, can easily cut off objects and connected regions, which introduces semantic discontinuity and therefore impedes MLLMs from recognizing small or irregularly shaped objects or text, leading to a phenomenon we call the semantic sawtooth effect. This effect is particularly evident in lightweight MLLMs. To address this issue, we introduce a Complementary Image Pyramid (CIP), a simple, effective, and plug-and-play solution designed to mitigate semantic discontinuity during high-resolution image processing. In particular, CIP dynamically constructs an image pyramid to provide complementary semantic information for the cropping-based MLLMs, enabling them to richly acquire semantics at all levels. Furthermore, we introduce a Scale Compression Mechanism (SCM) to reduce the additional computational overhead by compressing the redundant visual tokens. Our experiments demonstrate that CIP can consistently enhance the performance across diverse architectures (e.g., MiniCPM-V-2, InternVL2, and LLaVA-OneVision), various model capacity (1B$\rightarrow$8B), and different usage configurations (training-free and fine-tuning). Leveraging the proposed CIP and SCM, we introduce a lightweight MLLM, Mini-Monkey, which achieves remarkable performance in both general multimodal understanding and document understanding. On the OCRBench, the 2B-version Mini-Monkey even surpasses the 8B model InternVL2-8B by 12 score. Additionally, training Mini-Monkey is cheap, requiring only eight RTX 3090 GPUs. The code is available at https://github.com/Yuliang-Liu/Monkey.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-28
# 言語モデルから新しい実験仮説を生成する:クロスダプティブ一般化のケーススタディ

Generating novel experimental hypotheses from language models: A case study on cross-dative generalization ( http://arxiv.org/abs/2408.05086v2 )

ライセンス: Link先を確認
Kanishka Misra, Najoung Kim, (参考訳) ニューラルネットワーク言語モデル(LM)は複雑な言語知識を捉えるのに成功している。 しかしながら、言語習得を理解するための彼らのユーティリティはまだ議論されている。 本研究は,人間と実験する新たな実験仮説を導出するために,シミュレーション学習者としてLMを用いたケーススタディを提示することによって,この議論に貢献する。 このパラダイムを横断的一般化 (CDG) 研究に応用し, 幼児指向の音声で訓練されたLMを用いて, 文脈的特徴の広い空間を包含する新規動詞の生産的一般化(ボールを取り付けたり, ボールを取り付けたりした)を考察する。 トレーニング露光の特性は、新しい動詞の(モデル化されていない)代替構文への一般化を促進するのか? そこで,本論文では,主題と受取人の特性の観点から,新約動詞が出現する露呈状況を体系的に変化させ,未モデル化約動詞構成における新約動詞の使用状況を分析した。 子どものCDGの既知のパターンを再現するLMは、新しい仮説を探求するための前提条件である。 その後のシミュレーションでは、LMのCDG上での新規動詞の露出コンテキストの特徴のニュアンスな役割が明らかにされた。 被曝条件の最初の言語的議論が固有であり, 明確で, 短く, かつ, 被曝条件の原型的アニマシー期待に適合している場合, CDGは促進される。 これらのパターンは、ディベートにおける調和的アライメントの特徴であり、談話の卓越度で上位にランクされた特徴を持つ議論は、他方に先行する傾向にある。 このことは、CDGは露出コンテキストの特徴として、特に最初の口頭弁論(英語版)は調和的に一致しているという新しい仮説を生み出した。 我々は、この仮説を子どもにテストできる将来の実験を提案して結論付ける。

Neural network language models (LMs) have been shown to successfully capture complex linguistic knowledge. However, their utility for understanding language acquisition is still debated. We contribute to this debate by presenting a case study where we use LMs as simulated learners to derive novel experimental hypotheses to be tested with humans. We apply this paradigm to study cross-dative generalization (CDG): productive generalization of novel verbs across dative constructions (she pilked me the ball/she pilked the ball to me)--acquisition of which is known to involve a large space of contextual features--using LMs trained on child-directed speech. We specifically ask: "what properties of the training exposure facilitate a novel verb's generalization to the (unmodeled) alternate construction?" To answer this, we systematically vary the exposure context in which a novel dative verb occurs in terms of the properties of the theme and recipient, and then analyze the LMs' usage of the novel verb in the unmodeled dative construction. We find LMs to replicate known patterns of children's CDG, as a precondition to exploring novel hypotheses. Subsequent simulations reveal a nuanced role of the features of the novel verbs' exposure context on the LMs' CDG. We find CDG to be facilitated when the first postverbal argument of the exposure context is pronominal, definite, short, and conforms to the prototypical animacy expectations of the exposure dative. These patterns are characteristic of harmonic alignment in datives, where the argument with features ranking higher on the discourse prominence scale tends to precede the other. This gives rise to a novel hypothesis that CDG is facilitated insofar as the features of the exposure context--in particular, its first postverbal argument--are harmonically aligned. We conclude by proposing future experiments that can test this hypothesis in children.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-28
# ブロック相互作用積状態を用いた不均一相関系の効率的なシミュレーション

Efficient simulation of inhomogeneously correlated systems using block interaction product states ( http://arxiv.org/abs/2408.07965v2 )

ライセンス: Link先を確認
Yifan Cheng, Zhaoxuan Xie, Xiaoyu Xie, Haibo Ma, (参考訳) DMRGの強さは、エネルギー的に退縮し空間的に類似している同一の部位を治療することにある。 しかし、これは大きな系の量子化学計算に適用した場合の欠点となり、絡み合った軌道はエネルギーと空間の広い範囲にまたがることが多く、特に不均一な相互作用である。 本研究では,BIPS(Multi-configurational Block Interaction Product State)フレームワークを用いて,強いフラッグメント内相関と弱いフラッグメント間相関を別々に扱うことを提案する。 強い相関関係は、フラグメントとその環境間の絡み合いを考慮して、フラグメント上の電子状態において捉えられる。 この方法は様々な化学システムでテストされ、量子化学における不均一な効果に対処する上で高い精度と効率を示す。

The strength of DMRG lies in its treatment of identical sites that are energetically degenerate and spatially similar. However, this becomes a drawback when applied to quantum chemistry calculations for large systems, as entangled orbitals often span broad ranges in energy and space, with notably inhomogeneous interactions. In this study, we propose addressing strong intra-fragment and weak inter-fragment correlations separately using a multi-configurational block interaction product state (BIPS) framework. The strong correlation is captured in electronic states on fragments, considering entanglement between fragments and their environments. This method has been tested in various chemical systems and shows high accuracy and efficiency in addressing inhomogeneous effects in quantum chemistry.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-28
# インシシットな談話関係認識のためのマルチタスク・マルチラベル分類モデル

A Multi-Task and Multi-Label Classification Model for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2408.08971v2 )

ライセンス: Link先を確認
Nelson Filipe Costa, Leila Kosseim, (参考訳) Inlicit Discourse Relation Recognition (IDRR) における本質的なあいまいさに対処するため,マルチラベルとシングルラベルの両方の言論関係の表現を学習できる新しいマルチタスク分類モデルを導入する。 本モデルはDiscoGeMコーパスでのみ訓練し,DiscoGeMとPDTB 3.0コーパスで評価した。 マルチラベルIDRR分類における最初のベンチマークを確立し,DiscoGeMコーパスを用いたシングルラベルIDRR分類におけるSOTA結果を得た。 最後に,DiscoGeMとPDTB 3.0コーパス間の移動学習の可能性について,シングルラベルIDRR分類による評価を行った。

We address the inherent ambiguity in Implicit Discourse Relation Recognition (IDRR) by introducing a novel multi-task classification model capable of learning both multi-label and single-label representations of discourse relations. Our model is trained exclusively on the DiscoGeM corpus and evaluated both on the DiscoGeM and the PDTB 3.0 corpus. We establish the first benchmark on multi-label IDRR classification and achieve SOTA results on single-label IDRR classification using the DiscoGeM corpus. Finally, we present the first evaluation on the potential of transfer learning between the DiscoGeM and the PDTB 3.0 corpus on single-label IDRR classification.
翻訳日:2024-11-08 07:07:05 公開日:2024-10-28
# 最適ペアワイズマージアルゴリズムは非負行列分解の品質と一貫性を改善する

An optimal pairwise merge algorithm improves the quality and consistency of nonnegative matrix factorization ( http://arxiv.org/abs/2408.09013v2 )

ライセンス: Link先を確認
Youdong Guo, Timothy E. Holy, (参考訳) 非負行列分解(NMF)は特徴抽出の鍵となる手法であり、ソース分離に広く用いられている。 しかし、既存のアルゴリズムは、劣悪な局所最小値や、類似の目的値を持ついくつかの最小値の1つに収束するが、特徴パラメトリゼーションが異なる。 ここでは、これらの弱点のいくつかは、高次元の特徴空間でNMFを実行し、分析的に解決可能なペアワイズマージ戦略と繰り返し組み合わせることで緩和される可能性があることを示す。 実験により,非理想的NMF解の局所最適化と解の整合性向上に寄与することを示す。 これらの余分なステップにもかかわらず,本手法はサドル点付近の「プラトー現象」の発生を低減し,確立された手法と類似した計算性能を示す。 さらに,本手法は異なるNMFアルゴリズムと互換性があることを示す。 したがって、これはNMFのほとんどのアプリケーションで好まれるアプローチとして推奨できる。

Non-negative matrix factorization (NMF) is a key technique for feature extraction and widely used in source separation. However, existing algorithms may converge to poor local minima, or to one of several minima with similar objective value but differing feature parametrizations. Here we show that some of these weaknesses may be mitigated by performing NMF in a higher-dimensional feature space and then iteratively combining components with an analytically-solvable pairwise merge strategy. Experimental results demonstrate our method helps non-ideal NMF solutions escape to better local optima and achieve greater consistency of the solutions. Despite these extra steps, our approach exhibits similar computational performance to established methods by reducing the occurrence of "plateau phenomenon" near saddle points. Moreover, the results also illustrate that our method is compatible with different NMF algorithms. Thus, this can be recommended as a preferred approach for most applications of NMF.
翻訳日:2024-11-08 07:07:05 公開日:2024-10-28
# Deepmriprep: ディープニューラルネットワークによるVoxel-based Morphometry(VBM)前処理

deepmriprep: Voxel-based Morphometry (VBM) Preprocessing via Deep Neural Networks ( http://arxiv.org/abs/2408.10656v2 )

ライセンス: Link先を確認
Lukas Fisch, Nils R. Winter, Janik Goltermann, Carlotta Barkhau, Daniel Emden, Jan Ernsting, Maximilian Konowski, Ramona Leenings, Tiana Borgers, Kira Flinkenflügel, Dominik Grotegerd, Anna Kraus, Elisabeth J. Leehr, Susanne Meinert, Frederike Stein, Lea Teutenberg, Florian Thomas-Odenthal, Paula Usemann, Marco Hermesdorf, Hamidreza Jamalabadi, Andreas Jansen, Igor Nenadic, Benjamin Straube, Tilo Kircher, Klaus Berger, Benjamin Risse, Udo Dannlowski, Tim Hahn, (参考訳) ボクセルベースのモルフォメトリー(VBM)は神経画像研究において強力なアプローチとして現れ、2000年以降7000以上の研究で利用されている。 磁気共鳴イメージング(MRI)データを用いて、VBMは脳組織の局所密度の変動を評価し、その生物学的および心理学的変数との関係を調べる。 本稿では、ディープニューラルネットワークを用いたT1重み付けMR画像のVBM分析に必要な前処理ステップをすべて行うニューラルネットワークベースのパイプラインであるDeepmriprepについて述べる。 Graphics Processing Unit (GPU)を利用することで、Deepmriprepは主要なVBM前処理ツールボックスであるCAT12の37倍高速である。 提案手法は,100以上のデータセットにわたる組織分割と画像登録の精度でCAT12と一致し,VBM結果に強い相関関係を示す。 Deepmriprepの組織分割マップは、95%以上と地上の真理地図と一致しており、その非線形登録は、教師付きSYMNetを用いて、CAT12に匹敵する滑らかな変形場を予測する。 ディープムリプの高速処理により、広範囲なデータセットの高速前処理が可能となり、VBM分析の大規模神経画像研究への応用が促進され、リアルタイム応用への扉が開ける。 最後に、Deepmriprepsの単純でモジュラーな設計により、研究者は基礎となる方法を容易に理解し、再利用し、進歩し、神経画像研究のさらなる進歩を育むことができる。 DeepmriprepはPythonパッケージとして便利にインストールでき、https://github.com/wwu-mmll/deepmriprep.comで公開されている。

Voxel-based Morphometry (VBM) has emerged as a powerful approach in neuroimaging research, utilized in over 7,000 studies since the year 2000. Using Magnetic Resonance Imaging (MRI) data, VBM assesses variations in the local density of brain tissue and examines its associations with biological and psychometric variables. Here, we present deepmriprep, a neural network-based pipeline that performs all necessary preprocessing steps for VBM analysis of T1-weighted MR images using deep neural networks. Utilizing the Graphics Processing Unit (GPU), deepmriprep is 37 times faster than CAT12, the leading VBM preprocessing toolbox. The proposed method matches CAT12 in accuracy for tissue segmentation and image registration across more than 100 datasets and shows strong correlations in VBM results. Tissue segmentation maps from deepmriprep have over 95% agreement with ground truth maps, and its non-linear registration, using supervised SYMNet, predicts smooth deformation fields comparable to CAT12. The high processing speed of deepmriprep enables rapid preprocessing of extensive datasets and thereby fosters the application of VBM analysis to large-scale neuroimaging studies and opens the door to real-time applications. Finally, deepmripreps straightforward, modular design enables researchers to easily understand, reuse, and advance the underlying methods, fostering further advancements in neuroimaging research. deepmriprep can be conveniently installed as a Python package and is publicly accessible at https://github.com/wwu-mmll/deepmriprep.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-28
# Airbnbにおけるロケーション検索の転換 - ヒューリスティックスから強化学習への旅

Transforming Location Retrieval at Airbnb: A Journey from Heuristics to Reinforcement Learning ( http://arxiv.org/abs/2408.13399v2 )

ライセンス: Link先を確認
Dillon Davis, Huiji Gao, Thomas Legrand, Weiwei Guo, Malay Haldar, Alex Deng, Han Zhao, Liwei He, Sanjeev Katariya, (参考訳) Airbnbの検索システムは、進化を続けるにつれて、多くのユニークな課題を抱えている。 我々は、地理、家庭の多様性、そして様々な好みを持つゲストによってニュアンスされた市場を監督する。 多様なゲストニーズに対応可能な効率的な検索システムを構築する一方で、関連する住宅を展示することはAirbnbの成功の核心にある。 Airbnbの検索には、他のレコメンデーションや検索システムと並行して、多くの課題がある。 住宅一覧検索の検索クエリに関連するトポロジカルマップ領域を定義する必要がある。 本研究の目的は,機械学習に基づく位置情報検索プロダクトをゼロから構築する際の方法論,課題,および影響を実証することである。 適切な機械学習ベースのアプローチが欠如しているにもかかわらず、コールドスタート、一般化、微分、アルゴリズムバイアスに取り組む。 我々はこれらの課題を解決するためのヒューリスティックス、統計学、機械学習、強化学習アプローチの有効性について詳述する。

The Airbnb search system grapples with many unique challenges as it continues to evolve. We oversee a marketplace that is nuanced by geography, diversity of homes, and guests with a variety of preferences. Crafting an efficient search system that can accommodate diverse guest needs, while showcasing relevant homes lies at the heart of Airbnb's success. Airbnb search has many challenges that parallel other recommendation and search systems but it has a unique information retrieval problem, upstream of ranking, called location retrieval. It requires defining a topological map area that is relevant to the searched query for homes listing retrieval. The purpose of this paper is to demonstrate the methodology, challenges, and impact of building a machine learning based location retrieval product from the ground up. Despite the lack of suitable, prevalent machine learning based approaches, we tackle cold start, generalization, differentiation and algorithmic bias. We detail the efficacy of heuristics, statistics, machine learning, and reinforcement learning approaches to solve these challenges, particularly for systems that are often unexplored by current literature.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-28
# 原子干渉計用キャリア抑制シングルサイドバンド(CS-SSB)モードにおけるIQ変調器のディジタル安定化

Digital stabilization of an IQ modulator in the carrier suppressed single side-band (CS-SSB) mode for atom interferometry ( http://arxiv.org/abs/2408.16678v3 )

ライセンス: Link先を確認
Arif Ullah, Samuel Legge, John D. Close, Simon A. Haine, Ryan J. Thomas, (参考訳) キャリア抑制シングルサイドバンド変調のための電気光学I/Q変調器における位相バイアスを安定化する全ディジタル方式を提案する。 S. Wald \ea, Appl で提示された手法に基づく構築 Opt テキストbf{62}, 1-7 (2023) では、赤ピタヤSTEMlab 125-14 プラットフォームを用いて、光キャリアとのビートがI/Q変調器の位相不均衡をプローブする補助電波周波数トーンをデジタル的に生成・復調する。 我々は、位相バイアスの回避不能なクロスカップリングを考慮に入れ、光パワー変動が位相安定性に影響を与えないような誤差信号を正確にゼロにロックするマルチインプット・マルチ出力積分フィードバックコントローラを実装した。 所望のサイドバンドに対する光キャリアの$>23\,\rm dB$の抑制効果を,15ドル時間および20^\circ\rm C$の温度変化に対して,+3.4\,\rm GHz$で示す。

We present an all-digital method for stabilising the phase biases in an electro-optic I/Q modulator for carrier-suppressed single-sideband modulation. Building on the method presented in S. Wald \ea, Appl. Opt. \textbf{62}, 1-7 (2023), we use the Red Pitaya STEMlab 125-14 platform to digitally generate and demodulate an auxiliary radio-frequency tone whose beat with the optical carrier probes the I/Q modulator's phase imbalances. We implement a multiple-input, multiple-output integral feedback controller which accounts for unavoidable cross-couplings in the phase biases to lock the error signals at exactly zero where optical power fluctuations have no impact on phase stability. We demonstrate $>23\,\rm dB$ suppression of the optical carrier relative to the desired sideband at $+3.4\,\rm GHz$ over a period of $15$ hours and over temperature variations of $20^\circ\rm C$.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-28
# 潜在ニューラルダイナミクスのロバスト発見のための確率分解線形力学系

Probabilistic Decomposed Linear Dynamical Systems for Robust Discovery of Latent Neural Dynamics ( http://arxiv.org/abs/2408.16862v2 )

ライセンス: Link先を確認
Yenho Chen, Noga Mudrik, Kyle A. Johnsen, Sankaraleengam Alagapan, Adam S. Charles, Christopher J. Rozell, (参考訳) 時間変化線形状態空間モデルは、ニューラルネットワークの数学的解釈可能な表現を得るための強力なツールである。 例えば、スイッチングと分解されたモデルは、単純な局所線型力学に従って進化する潜在変数を用いて複雑なシステムを記述する。 しかし、遅延変数推定のための既存の手法は、雑音感受性推論手順や限定モデル定式化による動的ノイズやシステムの非線形性に対して堅牢ではない。 これは、同様の力学を持つ信号に対する矛盾した結果をもたらし、モデルが科学的洞察を与える能力を制限する。 本研究では,これらの制約に対処し,動的雑音に対するロバスト性を改善する分解モデルにおける潜在変数推定に対する確率的アプローチを提案する。 さらに,システムの非線形性に対するロバスト性を改善するために,拡張潜在力学モデルを導入する。 実験的な脳-コンピュータインタフェース実験を含む数種類の合成力学系に対するアプローチを評価し, 様々な雑音条件を持つ非線形系において, より正確な潜伏変数推論を示す。 さらに,本手法を実世界の臨床神経生理学データセットに適用し,従来のモデルでは不可能であった解釈可能な,一貫性のある構造を識別する能力を示す。

Time-varying linear state-space models are powerful tools for obtaining mathematically interpretable representations of neural signals. For example, switching and decomposed models describe complex systems using latent variables that evolve according to simple locally linear dynamics. However, existing methods for latent variable estimation are not robust to dynamical noise and system nonlinearity due to noise-sensitive inference procedures and limited model formulations. This can lead to inconsistent results on signals with similar dynamics, limiting the model's ability to provide scientific insight. In this work, we address these limitations and propose a probabilistic approach to latent variable estimation in decomposed models that improves robustness against dynamical noise. Additionally, we introduce an extended latent dynamics model to improve robustness against system nonlinearities. We evaluate our approach on several synthetic dynamical systems, including an empirically-derived brain-computer interface experiment, and demonstrate more accurate latent variable inference in nonlinear systems with diverse noise conditions. Furthermore, we apply our method to a real-world clinical neurophysiology dataset, illustrating the ability to identify interpretable and coherent structure where previous models cannot.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-28
# 進化的ソフトアクター批判によるAIオリンピックの挑戦

AI Olympics challenge with Evolutionary Soft Actor Critic ( http://arxiv.org/abs/2409.01104v2 )

ライセンス: Link先を確認
Marco Calì, Alberto Sinigaglia, Niccolò Turcato, Ruggero Carli, Gian Antonio Susto, (参考訳) 次回報告では、IROS 2024で開催されるAIオリンピック大会の解決策について述べる。 私たちのソリューションは、モデルフリーのDeep Reinforcement Learningアプローチと進化戦略を組み合わせています。 使用済みのアルゴリズムを簡潔に記述し、そのアプローチの詳細を提供する。

In the following report, we describe the solution we propose for the AI Olympics competition held at IROS 2024. Our solution is based on a Model-free Deep Reinforcement Learning approach combined with an evolutionary strategy. We will briefly describe the algorithms that have been used and then provide details of the approach
翻訳日:2024-11-08 03:35:26 公開日:2024-10-28
# 生体力学系におけるコンフォーマル予測

Conformal Prediction in Dynamic Biological Systems ( http://arxiv.org/abs/2409.02644v2 )

ライセンス: Link先を確認
Alberto Portela, Julio R. Banga, Marcos Matabuena, (参考訳) 不確実性定量化(英: Uncertainty Quantification、UQ)は、計算モデル予測における信頼度を体系的に決定し、特徴づける過程である。 システム生物学、特に動的モデルにおいて、UQは非線形性とパラメータ感度によって生じる課題に対処するので、複雑な生物学的システムの振る舞いを適切に理解し、外挿することができる。 ここでは、決定論的非線形常微分方程式で表される動的モデルに焦点を当てる。 この分野での現在の多くのUQアプローチはベイズ統計法に依存している。 強力ではあるが、これらの方法はしばしば強い事前仕様を必要とし、生物学的システムでは常に成り立たないパラメトリックな仮定を行う。 さらに、これらの手法はサンプルサイズが制限され、統計推論が制約される領域では問題に直面し、計算速度は生物学系の大規模モデルにおいてボトルネックとなる。 代案として、共形推論法を用い、2つの新しいアルゴリズムを導入し、いくつかの場合において、漸近的でない保証を提供し、様々なアプリケーションにまたがる堅牢性とスケーラビリティを向上する。 提案手法の有効性をいくつかのシナリオで実証し,ベイズ的手法に対する優位性を強調した。 提案手法は生体データ構造やシナリオに有望な結果を示し,生体システムの動的モデルに対する不確実性を定量化するための一般的な枠組みを提供する。

Uncertainty quantification (UQ) is the process of systematically determining and characterizing the degree of confidence in computational model predictions. In the context of systems biology, especially with dynamic models, UQ is crucial because it addresses the challenges posed by nonlinearity and parameter sensitivity, allowing us to properly understand and extrapolate the behavior of complex biological systems. Here, we focus on dynamic models represented by deterministic nonlinear ordinary differential equations. Many current UQ approaches in this field rely on Bayesian statistical methods. While powerful, these methods often require strong prior specifications and make parametric assumptions that may not always hold in biological systems. Additionally, these methods face challenges in domains where sample sizes are limited, and statistical inference becomes constrained, with computational speed being a bottleneck in large models of biological systems. As an alternative, we propose the use of conformal inference methods, introducing two novel algorithms that, in some instances, offer non-asymptotic guarantees, enhancing robustness and scalability across various applications. We demonstrate the efficacy of our proposed algorithms through several scenarios, highlighting their advantages over traditional Bayesian approaches. The proposed methods show promising results for diverse biological data structures and scenarios, offering a general framework to quantify uncertainty for dynamic models of biological systems.The software for the methodology and the reproduction of the results is available at https://zenodo.org/doi/10.5281/zenodo.13644870.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-28
# 非線形パーセプトロンにおける教師付き強化学習のダイナミクス

Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron ( http://arxiv.org/abs/2409.03749v2 )

ライセンス: Link先を確認
Christian Schmid, James M. Murray, (参考訳) 脳やニューラルネットワークが効率的に学習する能力は、タスク構造と学習規則の両方に大きく依存する。 従来の研究は、学生-教師の枠組みや線形化された出力の仮定の下で、知覚論の比較的単純化された文脈で学習を記述する力学方程式を解析してきた。 これらの仮定は理論的な理解を促進する一方で、学習力学の決定における非線形性と入力データ分布の役割の詳細な理解を排除し、理論の実際の生物学的または人工知能ニューラルネットワークへの適用性を制限する。 本稿では,学習を記述する流れ方程式の導出に確率的手法を用いており,この枠組みを非線形パーセプトロンが二項分類を行う場合に適用する。 本研究では,学習ルール(教師付きあるいは強化学習,SL/RL)と入力データ分布が,知覚者の学習曲線および忘れる曲線に与える影響を,その後の課題として特徴づける。 特に、入力データノイズがSL対RLの学習速度に異なる影響を及ぼし、その後の学習によってタスクの学習がいかに早く書き直されるかを決定する。 さらに,本手法をMNISTデータセットを用いて実データで検証する。 このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。

The ability of a brain or a neural network to efficiently learn depends crucially on both the task structure and the learning rule. Previous works have analyzed the dynamical equations describing learning in the relatively simplified context of the perceptron under assumptions of a student-teacher framework or a linearized output. While these assumptions have facilitated theoretical understanding, they have precluded a detailed understanding of the roles of the nonlinearity and input-data distribution in determining the learning dynamics, limiting the applicability of the theories to real biological or artificial neural networks. Here, we use a stochastic-process approach to derive flow equations describing learning, applying this framework to the case of a nonlinear perceptron performing binary classification. We characterize the effects of the learning rule (supervised or reinforcement learning, SL/RL) and input-data distribution on the perceptron's learning curve and the forgetting curve as subsequent tasks are learned. In particular, we find that the input-data noise differently affects the learning speed under SL vs. RL, as well as determines how quickly learning of a task is overwritten by subsequent learning. Additionally, we verify our approach with real data using the MNIST dataset. This approach points a way toward analyzing learning dynamics for more-complex circuit architectures.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-28
# 創造性と視覚コミュニケーション - ロボットカメラによるスコア共有

Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera ( http://arxiv.org/abs/2409.05773v2 )

ライセンス: Link先を確認
Ross Greer, Laura Fleig, Shlomo Dubnov, (参考訳) 本稿では,「誘導ハーモニー」音楽ゲーム内にロボットカメラを実装することで,視覚コミュニケーションと音楽インタラクションの統合について検討する。 我々は,人間ミュージシャンとロボットシステムとの共創造行動を検討することを目的とする。 本研究は、即興ゲーム作品などの既存の手法を探求し、PTZカメラを用いたロボット参加を含むように、これらの概念を拡張したものである。 ロボットシステムは、ミュージシャンの非言語的手がかりを解釈し、応答し、協調的で適応的な音楽体験を作り出す。 この最初のケーススタディは、直感的な視覚コミュニケーションチャネルの重要性を浮き彫りにしている。 また、視覚的キューツールキットの精細化や、人間と機械の共創造性を更に理解するためのデータ収集手法など、今後の研究方向も提案する。 我々の発見は、人間の創造性、特に音楽的環境において、マシンインテリジェンスに対するより広範な理解に寄与する。

This paper explores the integration of visual communication and musical interaction by implementing a robotic camera within a "Guided Harmony" musical game. We aim to examine co-creative behaviors between human musicians and robotic systems. Our research explores existing methodologies like improvisational game pieces and extends these concepts to include robotic participation using a PTZ camera. The robotic system interprets and responds to nonverbal cues from musicians, creating a collaborative and adaptive musical experience. This initial case study underscores the importance of intuitive visual communication channels. We also propose future research directions, including parameters for refining the visual cue toolkit and data collection methods to understand human-machine co-creativity further. Our findings contribute to the broader understanding of machine intelligence in augmenting human creativity, particularly in musical settings.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-28
# マルチ候補投機デコードの改善

Improving Multi-candidate Speculative Decoding ( http://arxiv.org/abs/2409.10644v2 )

ライセンス: Link先を確認
Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato, (参考訳) 投機的復号法 (SD) は、より低い複雑性のドラフトモデルを用いて、より大きなターゲットモデルによって検証された候補トークンを提案することにより、Large Language Models (LLM) の推論を高速化する手法である。 さらに効率を向上させるために、MCSD(Multi-Candidate Speculative Decoding)は、各ステップでドラフトモデルから複数の候補トークンをサンプリングし、それらを並列に検証することにより、トークンを受け入れる可能性を高め、生成時間を短縮する。 既存のMCSD法は、複数の候補列を初期化し、静的長とツリーアテンション構造をドラフト生成に利用するために、ドラフトモデルに依存している。 しかし、そのようなアプローチは、特に動的生成コンテキストにおいて、ドラフトとターゲットモデルの出力分布の違いに悩まされる。 本研究では,対象モデルの初期化マルチ候補生成,動的長さ調整のための動的スライストポロジ対応因果マスク,早期停止を最適化する決定モデルを含むMCSDの新バージョンを紹介する。 我々はLlama 2-7Bとその変種について実験を行い、Llama 2-7Bをターゲットモデルとし、JackFram 68Mをドラフトモデルとした3つのベンチマークにおいて、MCSDベースラインと比較して最大27.5%のスピードアップを観測した。 さらに、異なるドラフトモデルを用いたターゲットモデル初期化マルチ候補プロセスが出力品質に及ぼす影響を評価する。

Speculative Decoding (SD) is a technique to accelerate the inference of Large Language Models (LLMs) by using a lower complexity draft model to propose candidate tokens verified by a larger target model. To further improve efficiency, Multi-Candidate Speculative Decoding (MCSD) improves upon this by sampling multiple candidate tokens from the draft model at each step and verifying them in parallel, thus increasing the chances of accepting a token and reducing generation time. Existing MCSD methods rely on the draft model to initialize the multi-candidate sequences and use static length and tree attention structure for draft generation. However, such an approach suffers from the draft and target model's output distribution differences, especially in a dynamic generation context. In this work, we introduce a new version of MCSD that includes a target model initialized multi-candidate generation, a dynamic sliced topology-aware causal mask for dynamic length adjustment, and decision models to optimize early stopping. We experimented with our method on Llama 2-7B and its variants and observed a maximum 27.5% speedup compared to our MCSD baseline across three benchmarks with Llama 2-7B as the target model and JackFram 68M as the draft model. Additionally, we evaluate the effects of using the target model initialized multi-candidate process with different draft models on output quality.
翻訳日:2024-11-07 20:24:11 公開日:2024-10-28
# 代表・複数サンプル選択による半教師付き学習の促進

Enhancing Semi-Supervised Learning via Representative and Diverse Sample Selection ( http://arxiv.org/abs/2409.11653v2 )

ライセンス: Link先を確認
Qian Shao, Jiangrui Kang, Qiyuan Chen, Zepeng Li, Hongxia Xu, Yiwen Cao, Jiajuan Liang, Jian Wu, (参考訳) 半監督学習(SSL)は、多くのディープラーニングタスクにおいて好まれるパラダイムとなり、人間の労働力の必要性を減らしている。 従来の研究は主に、ラベル付きデータやラベルなしデータを効果的に活用してパフォーマンスを向上させることに焦点を当てていた。 しかし,ラベル付けのためのサンプルの選択方法が,特に低予算環境下では,性能に大きな影響を及ぼすことが観察された。 SSLのサンプル選択タスクは、長い間検討されていない。 このギャップを埋めるために,代表サンプル選択法(RDSS)を提案する。 改良されたFrank-Wolfeアルゴリズムを採用して、新しい基準である$\alpha$-Maximum Mean Discrepancy (\alpha$-MMD)を最小化することで、RDSSはラベルなしデータから、代表的で多様なアノテーションのサブセットをサンプリングする。 我々は,$\alpha$-MMDの最小化が低予算学習の一般化能力を高めることを実証した。 実験の結果,RDSSはいくつかの一般的なSSLフレームワークの性能を一貫して改善し,制約付きアノテーション予算であっても,アクティブラーニング (AL) やセミスーパーバイザードアクティブラーニング (SSAL) で使用されている最先端のサンプル選択アプローチよりも優れていた。

Semi-Supervised Learning (SSL) has become a preferred paradigm in many deep learning tasks, which reduces the need for human labor. Previous studies primarily focus on effectively utilising the labelled and unlabeled data to improve performance. However, we observe that how to select samples for labelling also significantly impacts performance, particularly under extremely low-budget settings. The sample selection task in SSL has been under-explored for a long time. To fill in this gap, we propose a Representative and Diverse Sample Selection approach (RDSS). By adopting a modified Frank-Wolfe algorithm to minimise a novel criterion $\alpha$-Maximum Mean Discrepancy ($\alpha$-MMD), RDSS samples a representative and diverse subset for annotation from the unlabeled data. We demonstrate that minimizing $\alpha$-MMD enhances the generalization ability of low-budget learning. Experimental results show that RDSS consistently improves the performance of several popular SSL frameworks and outperforms the state-of-the-art sample selection approaches used in Active Learning (AL) and Semi-Supervised Active Learning (SSAL), even with constrained annotation budgets.
翻訳日:2024-11-07 19:50:48 公開日:2024-10-28
# 変圧器モデルによるチェスのマスタリング

Mastering Chess with a Transformer Model ( http://arxiv.org/abs/2409.12272v1 )

ライセンス: Link先を確認
Daniel Monroe, The Leela Chess Zero Team, (参考訳) トランスフォーマーモデルは、スケールで訓練された時に印象的な能力を示し、複雑な推論と合理的な意思決定を必要とする難しい認知タスクに優れています。 本稿では,アテンション機構における位置符号化の重要な役割に着目し,トランスフォーマーモデルのチェスへの応用について検討する。 チェスでは、十分な多目的な位置符号化が与えられたトランスフォーマーが、既存のチェス演奏モデルと計算コストのごく一部で一致できることが示される。 我々のアーキテクチャは、AlphaZeroを8倍のFLOPSで上回り、グランドマスターレベルのトランスフォーマーベースのエージェントを30倍のFLOPSで比較した。

Transformer models have demonstrated impressive capabilities when trained at scale, excelling at difficult cognitive tasks requiring complex reasoning and rational decision-making. In this paper, we explore the application of transformer models to chess, focusing on the critical role of the position encoding within the attention mechanism. We show that in chess, transformers endowed with a sufficiently versatile position encoding can match existing chess-playing models at a fraction of the computational cost. Our architecture significantly outperforms AlphaZero at 8x fewer FLOPS and matches prior grandmaster-level transformer-based agents at 30x fewer FLOPS.
翻訳日:2024-11-07 15:38:21 公開日:2024-10-28
# 変圧器モデルによるチェスのマスタリング

Mastering Chess with a Transformer Model ( http://arxiv.org/abs/2409.12272v2 )

ライセンス: Link先を確認
Daniel Monroe, Philip A. Chalmers, (参考訳) トランスフォーマーモデルは、スケールで訓練された時に印象的な能力を示し、複雑な推論と合理的な意思決定を必要とする難しい認知タスクに優れています。 本稿では,アテンション機構における位置表現の重要な役割に着目し,トランスフォーマーのチェスへの応用について検討する。 十分な表現力のある位置表現を付与したトランスフォーマーは,既存のチェス演奏モデルと計算コストのごく一部で一致できることを示す。 私たちのアーキテクチャは、Chessformerと呼ばれ、AlphaZeroの演奏強度とパズル解決能力の両方において8倍の計算能力で優れており、これらのメトリクスにおいて、グランドマスターレベルのトランスフォーマーベースのエージェントと30倍の計算能力で一致します。 私たちのモデルは、従来のエンジンとチェスの相違点と直交点の理解も示しています。 この研究は、ドメイン固有の拡張が、モデルスケールの必要性を大きく置き換えるだけでなく、深層学習が検索ベースの手法に支配される分野においても前進することを示した。

Transformer models have demonstrated impressive capabilities when trained at scale, excelling at difficult cognitive tasks requiring complex reasoning and rational decision-making. In this paper, we explore the application of transformers to chess, focusing on the critical role of the position representation within the attention mechanism. We show that transformers endowed with a sufficiently expressive position representation can match existing chess-playing models at a fraction of the computational cost. Our architecture, which we call the Chessformer, significantly outperforms AlphaZero in both playing strength and puzzle solving ability with 8x less computation and matches prior grandmaster-level transformer-based agents in those metrics with 30x less computation. Our models also display an understanding of chess dissimilar and orthogonal to that of top traditional engines, detecting high-level positional features like trapped pieces and fortresses that those engines struggle with. This work demonstrates that domain-specific enhancements can in large part replace the need for model scale, while also highlighting that deep learning can make strides even in areas dominated by search-based methods.
翻訳日:2024-11-07 15:38:21 公開日:2024-10-28
# バイナリ拡散を用いたタブラリデータ生成

Tabular Data Generation using Binary Diffusion ( http://arxiv.org/abs/2409.13882v1 )

ライセンス: Link先を確認
Vitaliy Kinakh, Slava Voloshynovskiy, (参考訳) 合成表データの生成は、特に実際のデータが制限されたり、センシティブな場合、機械学習において重要である。 従来の生成モデルは、混合データ型や様々な分布など、表データ特有の特徴のためにしばしば課題に直面し、複雑な前処理や大規模な事前学習モデルを必要とする。 本稿では,任意の表型データを固定サイズのバイナリ表現に変換する新しい無損失バイナリ変換法と,バイナリデータ用に特別に設計されたバイナリ拡散と呼ばれる新しい生成モデルを紹介する。 バイナリ拡散は、ノイズの追加と除去のためにXOR操作の単純さを活用し、訓練にバイナリクロスエントロピー損失を用いる。 提案手法では,広範囲な事前処理,複雑なノイズパラメータチューニング,大規模データセットの事前学習の必要性を排除している。 そこで我々は,Binary Diffusionが,Travel,Ault Income,Diabetesの既存の最先端モデルよりも大きく,サイズもかなり小さいことを実証した。

Generating synthetic tabular data is critical in machine learning, especially when real data is limited or sensitive. Traditional generative models often face challenges due to the unique characteristics of tabular data, such as mixed data types and varied distributions, and require complex preprocessing or large pretrained models. In this paper, we introduce a novel, lossless binary transformation method that converts any tabular data into fixed-size binary representations, and a corresponding new generative model called Binary Diffusion, specifically designed for binary data. Binary Diffusion leverages the simplicity of XOR operations for noise addition and removal and employs binary cross-entropy loss for training. Our approach eliminates the need for extensive preprocessing, complex noise parameter tuning, and pretraining on large datasets. We evaluate our model on several popular tabular benchmark datasets, demonstrating that Binary Diffusion outperforms existing state-of-the-art models on Travel, Adult Income, and Diabetes datasets while being significantly smaller in size.
翻訳日:2024-11-07 04:50:50 公開日:2024-10-28
# バイナリ拡散を用いたタブラリデータ生成

Tabular Data Generation using Binary Diffusion ( http://arxiv.org/abs/2409.13882v2 )

ライセンス: Link先を確認
Vitaliy Kinakh, Slava Voloshynovskiy, (参考訳) 合成表データの生成は、特に実際のデータが制限されたり、センシティブな場合、機械学習において重要である。 従来の生成モデルは、混合データ型や様々な分布など、表データ特有の特徴のためにしばしば課題に直面し、複雑な前処理や大規模な事前学習モデルを必要とする。 本稿では,任意の表型データを固定サイズのバイナリ表現に変換する新しい無損失バイナリ変換法と,バイナリデータ用に特別に設計されたバイナリ拡散と呼ばれる新しい生成モデルを紹介する。 バイナリ拡散は、ノイズの追加と除去のためにXOR操作の単純さを活用し、訓練にバイナリクロスエントロピー損失を用いる。 提案手法では,広範囲な事前処理,複雑なノイズパラメータチューニング,大規模データセットの事前学習の必要性を排除している。 そこで我々は,Binary Diffusionが,Travel,Ault Income,Diabetesの既存の最先端モデルよりも大きく,サイズもかなり小さいことを実証した。 コードとモデルは、https://github.com/vkinakh/binary-diffusion-tabular.comで入手できる。

Generating synthetic tabular data is critical in machine learning, especially when real data is limited or sensitive. Traditional generative models often face challenges due to the unique characteristics of tabular data, such as mixed data types and varied distributions, and require complex preprocessing or large pretrained models. In this paper, we introduce a novel, lossless binary transformation method that converts any tabular data into fixed-size binary representations, and a corresponding new generative model called Binary Diffusion, specifically designed for binary data. Binary Diffusion leverages the simplicity of XOR operations for noise addition and removal and employs binary cross-entropy loss for training. Our approach eliminates the need for extensive preprocessing, complex noise parameter tuning, and pretraining on large datasets. We evaluate our model on several popular tabular benchmark datasets, demonstrating that Binary Diffusion outperforms existing state-of-the-art models on Travel, Adult Income, and Diabetes datasets while being significantly smaller in size. Code and models are available at: https://github.com/vkinakh/binary-diffusion-tabular
翻訳日:2024-11-07 04:39:44 公開日:2024-10-28
# MemeCLIP: マルチモーダルミーム分類のためのCLIP表現の活用

MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification ( http://arxiv.org/abs/2409.14703v1 )

ライセンス: Link先を確認
Siddhant Bikram Shah, Shuvam Shiwakoti, Maheep Chaudhary, Haohan Wang, (参考訳) テキスト埋め込み画像の複雑さは、それらに伝達される表現の複数の側面についてマルチモーダルな理解を必要とすることを考えると、機械学習における重大な課題である。 マルチモーダル分析におけるこれまでの研究は主にヘイトスピーチとそのサブクラスのような特異な側面に焦点を当ててきたが、我々の研究は、ヘイト、ターゲット、スタンス、ユーモア検出といった言語学の様々な側面に焦点を絞っている。 LGBTQ+ プライド運動に関連するテキスト埋め込み画像からなる新しいデータセット PrideMM を導入し、既存のリソースの深刻なギャップに対処する。 タスク毎のベンチマークを確立するために,単モーダルおよびマルチモーダルのベースライン手法を用いてPrideMMを広範囲に実験する。 さらに,事前学習したCLIPモデルの知識を保ちながら,効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。 実験の結果,MemeCLIPは2つの実世界のデータセット上で提案したフレームワークと比較して優れた性能を示した。 さらに,ヘイト分類タスクにおけるMemeCLIPとゼロショットGPT-4の性能を比較した。 最後に、誤分類サンプルを定性的に分析することで、モデルの欠点について論じる。 私たちのコードとデータセットは、https://github.com/SiddhantBikram/MemeCLIP.comで公開されています。

The complexity of text-embedded images presents a formidable challenge in machine learning given the need for multimodal understanding of the multiple aspects of expression conveyed in them. While previous research in multimodal analysis has primarily focused on singular aspects such as hate speech and its subclasses, our study expands the focus to encompass multiple aspects of linguistics: hate, target, stance, and humor detection. We introduce a novel dataset PrideMM comprising text-embedded images associated with the LGBTQ+ Pride movement, thereby addressing a serious gap in existing resources. We conduct extensive experimentation on PrideMM by using unimodal and multimodal baseline methods to establish benchmarks for each task. Additionally, we propose a novel framework MemeCLIP for efficient downstream learning while preserving the knowledge of the pre-trained CLIP model. The results of our experiments show that MemeCLIP achieves superior performance compared to previously proposed frameworks on two real-world datasets. We further compare the performance of MemeCLIP and zero-shot GPT-4 on the hate classification task. Finally, we discuss the shortcomings of our model by qualitatively analyzing misclassified samples. Our code and dataset are publicly available at: https://github.com/SiddhantBikram/MemeCLIP.
翻訳日:2024-11-06 21:23:54 公開日:2024-10-28
# MemeCLIP: マルチモーダルミーム分類のためのCLIP表現の活用

MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification ( http://arxiv.org/abs/2409.14703v2 )

ライセンス: Link先を確認
Siddhant Bikram Shah, Shuvam Shiwakoti, Maheep Chaudhary, Haohan Wang, (参考訳) テキスト埋め込み画像の複雑さは、それらが伝達する複数の表現の複数の側面についてマルチモーダルな理解を必要とすることを考えると、機械学習における重大な課題である。 これまでのマルチモーダル分析の研究は主にヘイトスピーチとそのサブクラスのような特異な側面に焦点を当ててきたが、この研究は、ヘイト、ヘイト、スタンス、ユーモアといった言語学の様々な側面に焦点を絞っている。 LGBTQ+プライド運動に関連する5,063個のテキスト埋め込み画像からなる新しいデータセットPrideMMを導入し、既存のリソースの深刻なギャップに対処する。 タスク毎のベンチマークを確立するために,単モーダルおよびマルチモーダルのベースライン手法を用いてPrideMMを広範囲に実験する。 さらに,事前学習したCLIPモデルの知識を保ちながら,効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。 実験の結果,MemeCLIPは2つの実世界のデータセット上で提案したフレームワークと比較して優れた性能を示した。 さらに,ヘイト分類タスクにおけるMemeCLIPとゼロショットGPT-4の性能を比較した。 最後に、誤分類サンプルを定性的に分析することで、モデルの欠点について論じる。 私たちのコードとデータセットは、https://github.com/SiddhantBikram/MemeCLIP.comで公開されています。

The complexity of text-embedded images presents a formidable challenge in machine learning given the need for multimodal understanding of multiple aspects of expression conveyed by them. While previous research in multimodal analysis has primarily focused on singular aspects such as hate speech and its subclasses, this study expands this focus to encompass multiple aspects of linguistics: hate, targets of hate, stance, and humor. We introduce a novel dataset PrideMM comprising 5,063 text-embedded images associated with the LGBTQ+ Pride movement, thereby addressing a serious gap in existing resources. We conduct extensive experimentation on PrideMM by using unimodal and multimodal baseline methods to establish benchmarks for each task. Additionally, we propose a novel framework MemeCLIP for efficient downstream learning while preserving the knowledge of the pre-trained CLIP model. The results of our experiments show that MemeCLIP achieves superior performance compared to previously proposed frameworks on two real-world datasets. We further compare the performance of MemeCLIP and zero-shot GPT-4 on the hate classification task. Finally, we discuss the shortcomings of our model by qualitatively analyzing misclassified samples. Our code and dataset are publicly available at: https://github.com/SiddhantBikram/MemeCLIP.
翻訳日:2024-11-06 21:23:54 公開日:2024-10-28
# 大規模言語モデルに対する事前データ検出:ダイバージェンスに基づく校正法

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method ( http://arxiv.org/abs/2409.14781v1 )

ライセンス: Link先を確認
Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, (参考訳) 大規模言語モデル(LLMs)のトレーニングコーパスの規模が大きくなるにつれて、モデル開発者は、データの詳細を明らかにすることに消極的になる。 この透明性の欠如は、科学的評価と倫理的展開に課題をもたらす。 近年,所与のテキストがブラックボックスアクセスによるLLMのトレーニングデータの一部であったかどうかを推定する事前学習データ検出手法が検討されている。 最先端の結果を得たMin-K% Prob法は、訓練されていない例は、トークン確率の低いいくつかの外れた単語を含む傾向があると仮定する。 しかし、LLMによって予測される高い確率を持つ多くの共通語を含む非訓練テキストを誤分類する傾向があるため、有効性は制限される可能性がある。 この問題に対処するために,偏差からランダム化の概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。 我々は,トークン確率分布とトークン周波数分布の交叉エントロピー(分散性)を計算し,検出スコアを導出する。 提案手法が既存の手法よりも優れていることを示す。 私たちのコードとPatentMIAベンチマークはhttps://github.com/zhang-wei-chao/DC-PDDで公開されています。

As the scale of training corpora for large language models (LLMs) grows, model developers become increasingly reluctant to disclose details on their data. This lack of transparency poses challenges to scientific evaluation and ethical deployment. Recently, pretraining data detection approaches, which infer whether a given text was part of an LLM's training data through black-box access, have been explored. The Min-K% Prob method, which has achieved state-of-the-art results, assumes that a non-training example tends to contain a few outlier words with low token probabilities. However, the effectiveness may be limited as it tends to misclassify non-training texts that contain many common words with high probabilities predicted by LLMs. To address this issue, we introduce a divergence-based calibration method, inspired by the divergence-from-randomness concept, to calibrate token probabilities for pretraining data detection. We compute the cross-entropy (i.e., the divergence) between the token probability distribution and the token frequency distribution to derive a detection score.We have developed a Chinese-language benchmark, PatentMIA, to assess the performance of detection approaches for LLMs on Chinese text. Experimental results on English-language benchmarks and PatentMIA demonstrate that our proposed method significantly outperforms existing methods. Our code and PatentMIA benchmark are available at https://github.com/zhang-wei-chao/DC-PDD
翻訳日:2024-11-06 21:01:15 公開日:2024-10-28
# 大規模言語モデルに対する事前データ検出:ダイバージェンスに基づく校正法

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method ( http://arxiv.org/abs/2409.14781v2 )

ライセンス: Link先を確認
Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, (参考訳) 大規模言語モデル(LLMs)のトレーニングコーパスの規模が大きくなるにつれて、モデル開発者は、データの詳細を明らかにすることに消極的になる。 この透明性の欠如は、科学的評価と倫理的展開に課題をもたらす。 近年,所与のテキストがブラックボックスアクセスによるLLMのトレーニングデータの一部であったかどうかを推定する事前学習データ検出手法が検討されている。 最先端の結果を得たMin-K% Prob法は、訓練されていない例は、トークン確率の低いいくつかの外れた単語を含む傾向があると仮定する。 しかし、LLMによって予測される高い確率を持つ多くの共通語を含む非訓練テキストを誤分類する傾向があるため、有効性は制限される可能性がある。 この問題に対処するために,偏差からランダム化の概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。 我々は,トークン確率分布とトークン周波数分布の交叉エントロピー(分散性)を計算し,検出スコアを導出する。 提案手法が既存の手法よりも優れていることを示す。

As the scale of training corpora for large language models (LLMs) grows, model developers become increasingly reluctant to disclose details on their data. This lack of transparency poses challenges to scientific evaluation and ethical deployment. Recently, pretraining data detection approaches, which infer whether a given text was part of an LLM's training data through black-box access, have been explored. The Min-K% Prob method, which has achieved state-of-the-art results, assumes that a non-training example tends to contain a few outlier words with low token probabilities. However, the effectiveness may be limited as it tends to misclassify non-training texts that contain many common words with high probabilities predicted by LLMs. To address this issue, we introduce a divergence-based calibration method, inspired by the divergence-from-randomness concept, to calibrate token probabilities for pretraining data detection. We compute the cross-entropy (i.e., the divergence) between the token probability distribution and the token frequency distribution to derive a detection score.We have developed a Chinese-language benchmark, PatentMIA, to assess the performance of detection approaches for LLMs on Chinese text. Experimental results on English-language benchmarks and PatentMIA demonstrate that our proposed method significantly outperforms existing methods.
翻訳日:2024-11-06 21:01:15 公開日:2024-10-28
# 大規模言語モデルに対する事前データ検出:ダイバージェンスに基づく校正法

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method ( http://arxiv.org/abs/2409.14781v3 )

ライセンス: Link先を確認
Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, (参考訳) 大規模言語モデル(LLMs)のトレーニングコーパスの規模が大きくなるにつれて、モデル開発者は、データの詳細を明らかにすることに消極的になる。 この透明性の欠如は、科学的評価と倫理的展開に課題をもたらす。 近年,所与のテキストがブラックボックスアクセスによるLLMのトレーニングデータの一部であったかどうかを推定する事前学習データ検出手法が検討されている。 最先端の結果を得たMin-K\% Prob法は、訓練されていない例は、トークン確率の低いいくつかの外れた単語を含む傾向があると仮定する。 しかし、LLMによって予測される高い確率を持つ多くの共通語を含む非訓練テキストを誤分類する傾向があるため、有効性は制限される可能性がある。 この問題に対処するために,偏差からランダム化の概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。 我々は、トークン確率分布とトークン周波数分布との交叉エントロピー(すなわち分岐)を計算し、検出スコアを導出する。 我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。 提案手法が既存の手法よりも優れていることを示す。 私たちのコードとPatentMIAベンチマークは、 \url{https://github.com/zhang-wei-chao/DC-PDD}で公開されています。

As the scale of training corpora for large language models (LLMs) grows, model developers become increasingly reluctant to disclose details on their data. This lack of transparency poses challenges to scientific evaluation and ethical deployment. Recently, pretraining data detection approaches, which infer whether a given text was part of an LLM's training data through black-box access, have been explored. The Min-K\% Prob method, which has achieved state-of-the-art results, assumes that a non-training example tends to contain a few outlier words with low token probabilities. However, the effectiveness may be limited as it tends to misclassify non-training texts that contain many common words with high probabilities predicted by LLMs. To address this issue, we introduce a divergence-based calibration method, inspired by the divergence-from-randomness concept, to calibrate token probabilities for pretraining data detection. We compute the cross-entropy (i.e., the divergence) between the token probability distribution and the token frequency distribution to derive a detection score. We have developed a Chinese-language benchmark, PatentMIA, to assess the performance of detection approaches for LLMs on Chinese text. Experimental results on English-language benchmarks and PatentMIA demonstrate that our proposed method significantly outperforms existing methods. Our code and PatentMIA benchmark are available at \url{https://github.com/zhang-wei-chao/DC-PDD}.
翻訳日:2024-11-06 21:01:15 公開日:2024-10-28
# 大規模言語モデルに対する事前データ検出:ダイバージェンスに基づく校正法

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method ( http://arxiv.org/abs/2409.14781v4 )

ライセンス: Link先を確認
Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, (参考訳) 大規模言語モデル(LLMs)のトレーニングコーパスの規模が大きくなるにつれて、モデル開発者は、データの詳細を明らかにすることに消極的になる。 この透明性の欠如は、科学的評価と倫理的展開に課題をもたらす。 近年,所与のテキストがブラックボックスアクセスによるLLMのトレーニングデータの一部であったかどうかを推定する事前学習データ検出手法が検討されている。 最先端の結果を得たMin-K\% Prob法は、訓練されていない例は、トークン確率の低いいくつかの外れた単語を含む傾向があると仮定する。 しかし、LLMによって予測される高い確率を持つ多くの共通語を含む非訓練テキストを誤分類する傾向があるため、有効性は制限される可能性がある。 この問題に対処するために,偏差からランダム化の概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。 我々は、トークン確率分布とトークン周波数分布との交叉エントロピー(すなわち分岐)を計算し、検出スコアを導出する。 我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。 提案手法が既存の手法よりも優れていることを示す。 私たちのコードとPatentMIAベンチマークは、 \url{https://github.com/zhang-wei-chao/DC-PDD}で公開されています。

As the scale of training corpora for large language models (LLMs) grows, model developers become increasingly reluctant to disclose details on their data. This lack of transparency poses challenges to scientific evaluation and ethical deployment. Recently, pretraining data detection approaches, which infer whether a given text was part of an LLM's training data through black-box access, have been explored. The Min-K\% Prob method, which has achieved state-of-the-art results, assumes that a non-training example tends to contain a few outlier words with low token probabilities. However, the effectiveness may be limited as it tends to misclassify non-training texts that contain many common words with high probabilities predicted by LLMs. To address this issue, we introduce a divergence-based calibration method, inspired by the divergence-from-randomness concept, to calibrate token probabilities for pretraining data detection. We compute the cross-entropy (i.e., the divergence) between the token probability distribution and the token frequency distribution to derive a detection score. We have developed a Chinese-language benchmark, PatentMIA, to assess the performance of detection approaches for LLMs on Chinese text. Experimental results on English-language benchmarks and PatentMIA demonstrate that our proposed method significantly outperforms existing methods. Our code and PatentMIA benchmark are available at \url{https://github.com/zhang-wei-chao/DC-PDD}.
翻訳日:2024-11-06 21:01:15 公開日:2024-10-28
# TabEBM:個別クラス特化エネルギーモデルを用いた語彙データ拡張手法

TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models ( http://arxiv.org/abs/2409.16118v2 )

ライセンス: Link先を確認
Andrei Margeloiu, Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik, (参考訳) データ収集は、医学、物理学、化学といった重要な分野においてしばしば困難である。 その結果、分類法は通常これらの小さなデータセットでは性能が悪く、予測性能が低下する。 画像のデータの増大と同様、追加の合成データによるトレーニングセットの増加は、下流の分類性能を改善すると一般的に信じられている。 しかしながら、結合分布 $ p(\mathbf{x}, y) $ またはクラス条件分布 $ p(\mathbf{x} \mid y) $ を学習する現在の表表生成法は、しばしば小さなデータセットに過度に適合し、結果として、品質の悪い合成データとなり、実際のデータのみを使用するよりも分類性能が悪化する。 これらの課題を解決するために,エネルギーベースモデル(EBM)を用いた新しいクラス条件生成手法であるTabEBMを紹介する。 全てのクラス条件密度を近似するために共有モデルを使用する既存の方法とは異なり、我々の重要な革新は、クラスごとに別々のEMM生成モデルを作成し、各クラス固有のデータ分布を個別にモデル化することである。 このアプローチは、あいまいなクラス分布であっても、堅牢なエネルギーランドスケープを生み出す。 実験の結果,TabEBMは既存の手法よりも高品質で統計的忠実度の高い合成データを生成することがわかった。 データ拡張に使用する場合、我々の合成データは、様々なサイズのデータセット、特に小さなデータセットの分類性能を一貫して改善する。 コードは \url{https://github.com/andreimargeloiu/TabEBM} で公開されている。

Data collection is often difficult in critical fields such as medicine, physics, and chemistry. As a result, classification methods usually perform poorly with these small datasets, leading to weak predictive performance. Increasing the training set with additional synthetic data, similar to data augmentation in images, is commonly believed to improve downstream classification performance. However, current tabular generative methods that learn either the joint distribution $ p(\mathbf{x}, y) $ or the class-conditional distribution $ p(\mathbf{x} \mid y) $ often overfit on small datasets, resulting in poor-quality synthetic data, usually worsening classification performance compared to using real data alone. To solve these challenges, we introduce TabEBM, a novel class-conditional generative method using Energy-Based Models (EBMs). Unlike existing methods that use a shared model to approximate all class-conditional densities, our key innovation is to create distinct EBM generative models for each class, each modelling its class-specific data distribution individually. This approach creates robust energy landscapes, even in ambiguous class distributions. Our experiments show that TabEBM generates synthetic data with higher quality and better statistical fidelity than existing methods. When used for data augmentation, our synthetic data consistently improves the classification performance across diverse datasets of various sizes, especially small ones. Code is available at \url{https://github.com/andreimargeloiu/TabEBM}.
翻訳日:2024-11-06 18:04:33 公開日:2024-10-28
# 時間のひらめき:盗聴のためのIMUの時間的ミスを爆発させる

Glitch in Time: Exploiting Temporal Misalignment of IMU For Eavesdropping ( http://arxiv.org/abs/2409.16438v2 )

ライセンス: Link先を確認
Ahmed Najeeb, Abdul Rafay, Naveed Anwar Bhatti, Muhammad Hamad Alizai, (参考訳) 音声アシスタントや関連アプリケーションの利用が増加し、スマートフォンにおける慣性計測ユニット(IMU)のセキュリティに対する懸念が高まっている。 これらのデバイスは、アコースティックな盗聴攻撃に弱いため、ユーザーのプライバシーを脅かす。 これに対してGoogleは、IMUへの許可なしアクセスに対して200Hzのレート制限を課した。 本研究は,これらの保護を回避する新たなエクスプロイトであるSTAGを紹介する。 ジャイロスコープと加速度計の時間的ずれを誘発し、データを巧みに組み合わせて高いレートでサンプリングし、以前Googleのセキュリティ強化で制限されていた盗聴攻撃の可能性を復活させる。 従来の方法と比較して、STAGはワードエラー率を83.4%削減し、制限されたアクセス下でIMUデータを利用する効果を強調し、これらのセンサーに関連する永続的なセキュリティリスクを強調した。

The increasing use of voice assistants and related applications has raised significant concerns about the security of Inertial Measurement Units (IMUs) in smartphones. These devices are vulnerable to acoustic eavesdropping attacks, jeopardizing user privacy. In response, Google imposed a rate limit of 200 Hz on permission-free access to IMUs, aiming to neutralize such side-channel attacks. Our research introduces a novel exploit, STAG, which circumvents these protections. It induces a temporal misalignment between the gyroscope and accelerometer, cleverly combining their data to resample at higher rates and reviving the potential for eavesdropping attacks previously curtailed by Google's security enhancements. Compared to prior methods, STAG achieves an 83.4% reduction in word error rate, highlighting its effectiveness in exploiting IMU data under restricted access and emphasizing the persistent security risks associated with these sensors.
翻訳日:2024-11-06 17:30:16 公開日:2024-10-28
# 非エルミート量子スピンはしごの絡み合いハミルトニアンと有効温度

Entanglement Hamiltonian and effective temperature of non-Hermitian quantum spin ladders ( http://arxiv.org/abs/2409.17062v2 )

ライセンス: Link先を確認
Pei-Yun Yang, Yu-Chin Tzeng, (参考訳) 量子絡み合いは、エルミート多体系を理解するだけでなく、非エルミート量子系に対する貴重な洞察を提供する上でも重要な役割を果たす。 本稿では,非エルミートスピンはしごの絡み合いと絡み合いエネルギースペクトルを,生物直交基底における摂動理論を用いて解析的に検討する。 具体的には、結合した非エルミート量子スピン鎖間の絡み合い特性について検討する。 強い結合極限(J_\mathrm{rung}\gg1$)において、一階摂動理論は、ハミルトニアンの絡み合いは、再正規化された結合強度を持つハミルトニアンによく似ていることを示し、アドホック温度の定義を可能にする。 本研究は,非エルミート系における量子絡み合いに関する新たな知見を提供し,非エルミート系量子多体系における有限温度特性の研究のための新しいアプローチの基盤を提供する。

Quantum entanglement plays a crucial role not only in understanding Hermitian many-body systems but also in offering valuable insights into non-Hermitian quantum systems. In this paper, we analytically investigate the entanglement Hamiltonian and entanglement energy spectrum of a non-Hermitian spin ladder using perturbation theory in the biorthogonal basis. Specifically, we examine the entanglement properties between coupled non-Hermitian quantum spin chains. In the strong coupling limit ($J_\mathrm{rung}\gg1$), first-order perturbation theory reveals that the entanglement Hamiltonian closely resembles the single-chain Hamiltonian with renormalized coupling strengths, allowing for the definition of an ad hoc temperature. Our findings provide new insights into quantum entanglement in non-Hermitian systems and offer a foundation for developing novel approaches for studying finite temperature properties in non-Hermitian quantum many-body systems.
翻訳日:2024-11-06 17:00:06 公開日:2024-10-28
# 最悪性能のエージェントはパックをリードするか? : 統一分散SGDにおけるエージェントダイナミクスの解析

Does Worst-Performing Agent Lead the Pack? Analyzing Agent Dynamics in Unified Distributed SGD ( http://arxiv.org/abs/2409.17499v2 )

ライセンス: Link先を確認
Jie Hu, Yi-Ting Ma, Do Young Eun, (参考訳) データプライバシを維持しながら、異種エージェント間で機械学習アルゴリズムをトレーニングするためには、分散学習が不可欠だ。 我々は,統一分散SGD (UD-SGD) の漸近解析を行い,Federated Learning (FL) における分散SGDとローカルSGDの分散化や,FL設定における通信間隔の増加など,様々なコミュニケーションパターンを探索する。 本研究では,中央極限定理(CLT)に記載されている制限共分散行列に対するエージェントダイナミクスの影響を考慮し,サンプリング,シャッフル,マルコフサンプリングなどの異なるサンプリング戦略がUD-SGDの収束速度に与える影響を評価する。 本研究は, 線形スピードアップと漸近的ネットワーク独立に関する既存の理論を裏付けるだけでなく, 個別エージェントによる効率的なサンプリング手法がUD-SGDの総合収束にいかに貢献するかを理論的および実証的に示す。 シミュレーションにより、高効率サンプリングを用いるエージェントは、適度に改善された戦略を採用する多数派のパフォーマンスを達成または超えることができ、最悪のパフォーマンスのエージェントに焦点を当てた従来の分析以上の新たな洞察を提供する。

Distributed learning is essential to train machine learning algorithms across heterogeneous agents while maintaining data privacy. We conduct an asymptotic analysis of Unified Distributed SGD (UD-SGD), exploring a variety of communication patterns, including decentralized SGD and local SGD within Federated Learning (FL), as well as the increasing communication interval in the FL setting. In this study, we assess how different sampling strategies, such as i.i.d. sampling, shuffling, and Markovian sampling, affect the convergence speed of UD-SGD by considering the impact of agent dynamics on the limiting covariance matrix as described in the Central Limit Theorem (CLT). Our findings not only support existing theories on linear speedup and asymptotic network independence, but also theoretically and empirically show how efficient sampling strategies employed by individual agents contribute to overall convergence in UD-SGD. Simulations reveal that a few agents using highly efficient sampling can achieve or surpass the performance of the majority employing moderately improved strategies, providing new insights beyond traditional analyses focusing on the worst-performing agent.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-28
# SimVG: 分離したマルチモーダルフュージョンによる視覚的接地のためのシンプルなフレームワーク

SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion ( http://arxiv.org/abs/2409.17531v2 )

ライセンス: Link先を確認
Ming Dai, Lingfeng Yang, Yihao Xu, Zhenhua Feng, Wankou Yang, (参考訳) 視覚的接地は、画像の対応する領域に記述文を接地する、一般的な視覚課題である。 既存のほとんどの手法では、独立した画像テキストエンコーディングを使用し、複雑な手作りモジュールやエンコーダ・デコーダアーキテクチャを用いてモーダルインタラクションやクエリ推論を行っている。 しかし、複雑なテキスト表現を扱う場合、その性能は著しく低下する。 これは、前者のパラダイムがマルチモーダルな特徴融合に適合するために、限られた下流データのみを使用するためである。 したがって、文章表現が比較的単純である場合にのみ有効である。 対照的に、テキスト表現の多様性と下流トレーニングデータの独自性を考えると、視覚言語学的文脈からマルチモーダルコンテンツを抽出する既存の融合モジュールは、十分に研究されていない。 本稿では,ビジュアルグラウンドティングのためのシンプルだが頑健なトランスフォーマーベースのフレームワークSimVGを提案する。 具体的には、既存のマルチモーダル事前学習モデルを活用し、下流および事前学習タスクの深い統合を容易にするために追加のオブジェクトトークンを組み込むことにより、下流タスクと視覚言語的特徴融合を分離する。 さらに, より単純な分岐の表現能力を高めるために, 多分岐同期学習プロセスにおける動的重みバランス蒸留法を設計する。 このブランチは、構造を単純化し、推論速度を改善する軽量MLPのみで構成されている。 広く使われている6つのVGデータセット、すなわちRefCOCO/+/g、ReferIt、Flickr30K、GRefCOCOの実験は、SimVGの優位性を実証している。 最後に,提案手法は効率の向上と収束速度の向上だけでなく,これらのベンチマーク上での最先端性能の向上も達成している。 コードとモデルは \url{https://github.com/Dmmm1997/SimVG} で入手できる。

Visual grounding is a common vision task that involves grounding descriptive sentences to the corresponding regions of an image. Most existing methods use independent image-text encoding and apply complex hand-crafted modules or encoder-decoder architectures for modal interaction and query reasoning. However, their performance significantly drops when dealing with complex textual expressions. This is because the former paradigm only utilizes limited downstream data to fit the multi-modal feature fusion. Therefore, it is only effective when the textual expressions are relatively simple. In contrast, given the wide diversity of textual expressions and the uniqueness of downstream training data, the existing fusion module, which extracts multimodal content from a visual-linguistic context, has not been fully investigated. In this paper, we present a simple yet robust transformer-based framework, SimVG, for visual grounding. Specifically, we decouple visual-linguistic feature fusion from downstream tasks by leveraging existing multimodal pre-trained models and incorporating additional object tokens to facilitate deep integration of downstream and pre-training tasks. Furthermore, we design a dynamic weight-balance distillation method in the multi-branch synchronous learning process to enhance the representation capability of the simpler branch. This branch only consists of a lightweight MLP, which simplifies the structure and improves reasoning speed. Experiments on six widely used VG datasets, i.e., RefCOCO/+/g, ReferIt, Flickr30K, and GRefCOCO, demonstrate the superiority of SimVG. Finally, the proposed method not only achieves improvements in efficiency and convergence speed but also attains new state-of-the-art performance on these benchmarks. Codes and models will be available at \url{https://github.com/Dmmm1997/SimVG}.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-28
# Lotus: 高品質デンス予測のための拡散ベースビジュアルファウンデーションモデル

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction ( http://arxiv.org/abs/2409.18124v2 )

ライセンス: Link先を確認
Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Zhang, Bingbing Liu, Ying-Cong Chen, (参考訳) 事前訓練されたテキスト・ツー・イメージ拡散モデルの視覚的先行性を活用することは、密集予測タスクにおけるゼロショット一般化を強化するための有望なソリューションを提供する。 しかし、既存の手法はしばしば元の拡散定式化を非批判的に利用するが、これは密度予測と画像生成の根本的な違いのために最適ではないかもしれない。 本稿では,高密度予測のための拡散定式化の体系的解析を行い,品質と効率の両面に着目した。 また,ノイズの予測を学習する画像生成のパラメータ化タイプは,高密度な予測には有害であり,マルチステップのノイズ生成/デノナイズ拡散プロセスも不要であり,最適化が困難であることがわかった。 これらの知見に基づき,拡散に基づく視覚基盤モデルであるLotusを導入し,高密度予測のための簡易かつ効果的な適応プロトコルを提案する。 特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。 また,拡散過程を1ステップの手順に再構成し,最適化を簡素化し,推論速度を大幅に向上させる。 さらに,より正確できめ細かい予測が可能なディテール・レザーバという新しいチューニング戦略を導入する。 トレーニングデータやモデルのキャパシティをスケールアップすることなく、Lotusは、ゼロショットの深さでSoTAのパフォーマンスを達成し、さまざまなデータセットにわたって正常に見積もる。 効率も向上し、既存の拡散法よりもはるかに高速である。 Lotusの優れた品質と効率性は、ジョイント推定、シングル/マルチビュー3D再構成など、幅広い実用的な応用を可能にします。 プロジェクトページ: https://lotus3d.github.io/.com

Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also enhances efficiency, being significantly faster than most existing diffusion-based methods. Lotus' superior quality and efficiency also enable a wide range of practical applications, such as joint estimation, single/multi-view 3D reconstruction, etc. Project page: https://lotus3d.github.io/.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-28
# Lotus: 高品質デンス予測のための拡散ベースビジュアルファウンデーションモデル

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction ( http://arxiv.org/abs/2409.18124v3 )

ライセンス: Link先を確認
Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Zhang, Bingbing Liu, Ying-Cong Chen, (参考訳) 事前訓練されたテキスト・ツー・イメージ拡散モデルの視覚的先行性を活用することは、密集予測タスクにおけるゼロショット一般化を強化するための有望なソリューションを提供する。 しかし、既存の手法はしばしば元の拡散定式化を非批判的に利用するが、これは密度予測と画像生成の根本的な違いのために最適ではないかもしれない。 本稿では,高密度予測のための拡散定式化の体系的解析を行い,品質と効率の両面に着目した。 また,ノイズの予測を学習する画像生成のパラメータ化タイプは,高密度な予測には有害であり,マルチステップのノイズ生成/デノナイズ拡散プロセスも不要であり,最適化が困難であることがわかった。 これらの知見に基づき,拡散に基づく視覚基盤モデルであるLotusを導入し,高密度予測のための簡易かつ効果的な適応プロトコルを提案する。 特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。 また,拡散過程を1ステップの手順に再構成し,最適化を簡素化し,推論速度を大幅に向上させる。 さらに,より正確できめ細かい予測が可能なディテール・レザーバという新しいチューニング戦略を導入する。 トレーニングデータやモデルのキャパシティをスケールアップすることなく、Lotusは、ゼロショットの深さでSoTAのパフォーマンスを達成し、さまざまなデータセットにわたって正常に見積もる。 効率も向上し、既存の拡散法よりもはるかに高速である。 Lotusの優れた品質と効率性は、ジョイント推定、シングル/マルチビュー3D再構成など、幅広い実用的な応用を可能にします。 プロジェクトページ: https://lotus3d.github.io/.com

Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also enhances efficiency, being significantly faster than most existing diffusion-based methods. Lotus' superior quality and efficiency also enable a wide range of practical applications, such as joint estimation, single/multi-view 3D reconstruction, etc. Project page: https://lotus3d.github.io/.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-28
# Lotus: 高品質デンス予測のための拡散ベースビジュアルファウンデーションモデル

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction ( http://arxiv.org/abs/2409.18124v4 )

ライセンス: Link先を確認
Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Zhang, Bingbing Liu, Ying-Cong Chen, (参考訳) 事前訓練されたテキスト・ツー・イメージ拡散モデルの視覚的先行性を活用することは、密集予測タスクにおけるゼロショット一般化を強化するための有望なソリューションを提供する。 しかし、既存の手法はしばしば元の拡散定式化を非批判的に利用するが、これは密度予測と画像生成の根本的な違いのために最適ではないかもしれない。 本稿では,高密度予測のための拡散定式化の体系的解析を行い,品質と効率の両面に着目した。 また,ノイズの予測を学習する画像生成のパラメータ化タイプは,高密度な予測には有害であり,マルチステップのノイズ生成/デノナイズ拡散プロセスも不要であり,最適化が困難であることがわかった。 これらの知見に基づき,拡散に基づく視覚基盤モデルであるLotusを導入し,高密度予測のための簡易かつ効果的な適応プロトコルを提案する。 特にLotusは、ノイズではなくアノテーションを直接予測するように訓練されており、有害な分散を避けることができる。 また,拡散過程を1ステップの手順に再構成し,最適化を簡素化し,推論速度を大幅に向上させる。 さらに,より正確できめ細かい予測が可能なディテール・レザーバという新しいチューニング戦略を導入する。 トレーニングデータやモデルのキャパシティをスケールアップすることなく、Lotusは、ゼロショットの深さでSoTAのパフォーマンスを達成し、さまざまなデータセットにわたって正常に見積もる。 効率も向上し、既存の拡散法よりもはるかに高速である。 Lotusの優れた品質と効率性は、ジョイント推定、シングル/マルチビュー3D再構成など、幅広い実用的な応用を可能にします。 プロジェクトページ: https://lotus3d.github.io/.com

Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also enhances efficiency, being significantly faster than most existing diffusion-based methods. Lotus' superior quality and efficiency also enable a wide range of practical applications, such as joint estimation, single/multi-view 3D reconstruction, etc. Project page: https://lotus3d.github.io/.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-28
# FLEX: 信頼性の高いテキストからSQLへのベンチマークのためのエキスパートレベルのFalse-Less実行メトリクス

FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark ( http://arxiv.org/abs/2409.19014v1 )

ライセンス: Link先を確認
Heegyu Kim, Taeyang Jeon, Seunghwan Choi, Hyunsouk Cho, (参考訳) テキストからSQLへの技術は、さまざまな業界で自然言語をSQLクエリに翻訳するために欠かせないものとなり、非技術者のユーザが複雑なデータ操作を実行できるようになった。 これらのシステムがより洗練されていくにつれて、正確な評価方法の必要性が高まっている。 しかし,最も有望な評価指標であるExecution Accuracy (EX) は,人間の評価と比較して,偽陽性と陰性のかなりの部分を示していることがわかった。 そこで本研究では,大規模言語モデル(LLM)を用いてSQLクエリのエキスパートレベル評価をエミュレートする新たなアプローチであるFLEX(False-Less Execution)を提案する。 提案手法は, 人的専門家の判断と極めて高い一致を示し, コーエンのカッパを61から78.17に改善した。 FLEXを用いたスパイダーとBIRDベンチマークの上位性能モデルの再評価では、偽陽性の修正により平均性能が3.15に低下し、偽陰性への対処から6.07に向上した。 この研究は、テキスト・トゥ・SQLシステムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスに対する理解を再構築する可能性がある。

Text-to-SQL technology has become crucial for translating natural language into SQL queries in various industries, enabling non-technical users to perform complex data operations. The need for accurate evaluation methods has increased as these systems have grown more sophisticated. However, we found that the Execution Accuracy (EX), the most promising evaluation metric, still shows a substantial portion of false positives and negatives compared to human evaluation. Thus, this paper introduces FLEX (False-Less EXecution), a novel approach to evaluating text-to-SQL systems using large language models (LLMs) to emulate human expert-level evaluation of SQL queries. Our method shows significantly higher agreement with human expert judgments, improving Cohen's kappa from 61 to 78.17. Re-evaluating top-performing models on the Spider and BIRD benchmarks using FLEX reveals substantial shifts in performance rankings, with an average performance decrease of 3.15 due to false positive corrections and an increase of 6.07 from addressing false negatives. This work contributes to a more accurate and nuanced evaluation of text-to-SQL systems, potentially reshaping our understanding of state-of-the-art performance in this field.
翻訳日:2024-11-06 05:00:47 公開日:2024-10-28
# FLEX: 信頼性の高いテキストからSQLへのベンチマークのためのエキスパートレベルのFalse-Less実行メトリクス

FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark ( http://arxiv.org/abs/2409.19014v2 )

ライセンス: Link先を確認
Heegyu Kim, Taeyang Jeon, Seunghwan Choi, Seungtaek Choi, Hyunsouk Cho, (参考訳) テキストからSQLへの技術は、さまざまな業界で自然言語をSQLクエリに翻訳するために欠かせないものとなり、非技術者のユーザが複雑なデータ操作を実行できるようになった。 これらのシステムがより洗練されていくにつれて、正確な評価方法の必要性が高まっている。 しかし,最も有望な評価指標であるExecution Accuracy (EX) は,人間の評価と比較して,偽陽性と陰性のかなりの部分を示していることがわかった。 そこで本研究では,大規模言語モデル(LLM)を用いてSQLクエリのエキスパートレベル評価をエミュレートする新たなアプローチであるFLEX(False-Less Execution)を提案する。 提案手法は, 人的専門家の判断と極めて高い一致を示し, コーエンのカッパを61から78.17に改善した。 FLEXを用いたスパイダーとBIRDベンチマークの上位性能モデルの再評価では、偽陽性の修正により平均性能が3.15に低下し、偽陰性への対処から6.07に向上した。 この研究は、テキスト・トゥ・SQLシステムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスに対する理解を再構築する可能性がある。

Text-to-SQL technology has become crucial for translating natural language into SQL queries in various industries, enabling non-technical users to perform complex data operations. The need for accurate evaluation methods has increased as these systems have grown more sophisticated. However, we found that the Execution Accuracy (EX), the most promising evaluation metric, still shows a substantial portion of false positives and negatives compared to human evaluation. Thus, this paper introduces FLEX (False-Less EXecution), a novel approach to evaluating text-to-SQL systems using large language models (LLMs) to emulate human expert-level evaluation of SQL queries. Our method shows significantly higher agreement with human expert judgments, improving Cohen's kappa from 61 to 78.17. Re-evaluating top-performing models on the Spider and BIRD benchmarks using FLEX reveals substantial shifts in performance rankings, with an average performance decrease of 3.15 due to false positive corrections and an increase of 6.07 from addressing false negatives. This work contributes to a more accurate and nuanced evaluation of text-to-SQL systems, potentially reshaping our understanding of state-of-the-art performance in this field.
翻訳日:2024-11-06 04:50:50 公開日:2024-10-28
# FLEX: 信頼性の高いテキストからSQLへのベンチマークのためのエキスパートレベルのFalse-Less実行メトリクス

FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark ( http://arxiv.org/abs/2409.19014v3 )

ライセンス: Link先を確認
Heegyu Kim, Taeyang Jeon, Seunghwan Choi, Seungtaek Choi, Hyunsouk Cho, (参考訳) テキストからSQLへのシステムは、さまざまな産業で自然言語をSQLクエリに翻訳するために重要となり、技術的でないユーザが複雑なデータ操作を実行できるようになった。 これらのシステムがより洗練されていくにつれて、正確な評価方法の必要性が高まっている。 しかしながら、最も一般的な評価指標であるExecution Accuracy (EX)は、依然として多くの偽陽性と負の値を示している。 そこで本研究では,大規模言語モデル(LLM)を用いてSQLクエリのエキスパートレベル評価をエミュレートする新たなアプローチであるFLEX(False-Less Execution)を提案する。 我々の基準は、包括的文脈と洗練された基準により、人間の専門家(コーエンのカッパでは62から87.04まで)との合意を改善します。 その結果,(1)モデルの性能が平均2.6ポイント以上向上し,スパイダーやBIRDベンチマークのランキングに大きく影響している,(2)EXにおけるモデルの過小評価は,主にアノテーションの品質問題に起因する,(3)特に難解な問題におけるモデル性能は過大評価される傾向にある,という結果が得られた。 この研究は、テキスト・トゥ・SQLシステムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスに対する理解を再構築する可能性がある。

Text-to-SQL systems have become crucial for translating natural language into SQL queries in various industries, enabling non-technical users to perform complex data operations. The need for accurate evaluation methods has increased as these systems have grown more sophisticated. However, the Execution Accuracy (EX), the most prevalent evaluation metric, still shows many false positives and negatives. Thus, this paper introduces FLEX (False-Less EXecution), a novel approach to evaluating text-to-SQL systems using large language models (LLMs) to emulate human expert-level evaluation of SQL queries. Our metric improves agreement with human experts (from 62 to 87.04 in Cohen's kappa) with comprehensive context and sophisticated criteria. Our extensive experiments yield several key insights: (1) Models' performance increases by over 2.6 points on average, substantially affecting rankings on Spider and BIRD benchmarks; (2) The underestimation of models in EX primarily stems from annotation quality issues; and (3) Model performance on particularly challenging questions tends to be overestimated. This work contributes to a more accurate and nuanced evaluation of text-to-SQL systems, potentially reshaping our understanding of state-of-the-art performance in this field.
翻訳日:2024-11-06 04:50:50 公開日:2024-10-28
# FLEX: 信頼性の高いテキストからSQLへのベンチマークのためのエキスパートレベルのFalse-Less実行メトリクス

FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark ( http://arxiv.org/abs/2409.19014v4 )

ライセンス: Link先を確認
Heegyu Kim, Taeyang Jeon, Seunghwan Choi, Seungtaek Choi, Hyunsouk Cho, (参考訳) テキストからSQLへのシステムは、さまざまな産業で自然言語をSQLクエリに翻訳するために重要となり、技術的でないユーザが複雑なデータ操作を実行できるようになった。 これらのシステムがより洗練されていくにつれて、正確な評価方法の必要性が高まっている。 しかしながら、最も一般的な評価指標であるExecution Accuracy (EX)は、依然として多くの偽陽性と負の値を示している。 そこで本研究では,大規模言語モデル(LLM)を用いてSQLクエリのエキスパートレベル評価をエミュレートする新たなアプローチであるFLEX(False-Less Execution)を提案する。 我々の基準は、包括的文脈と洗練された基準により、人間の専門家(コーエンのカッパでは62から87.04まで)との合意を改善します。 その結果,(1)モデルの性能が平均2.6ポイント以上向上し,スパイダーやBIRDベンチマークのランキングに大きく影響している,(2)EXにおけるモデルの過小評価は,主にアノテーションの品質問題に起因する,(3)特に難解な問題におけるモデル性能は過大評価される傾向にある,という結果が得られた。 この研究は、テキスト・トゥ・SQLシステムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスに対する理解を再構築する可能性がある。

Text-to-SQL systems have become crucial for translating natural language into SQL queries in various industries, enabling non-technical users to perform complex data operations. The need for accurate evaluation methods has increased as these systems have grown more sophisticated. However, the Execution Accuracy (EX), the most prevalent evaluation metric, still shows many false positives and negatives. Thus, this paper introduces FLEX (False-Less EXecution), a novel approach to evaluating text-to-SQL systems using large language models (LLMs) to emulate human expert-level evaluation of SQL queries. Our metric improves agreement with human experts (from 62 to 87.04 in Cohen's kappa) with comprehensive context and sophisticated criteria. Our extensive experiments yield several key insights: (1) Models' performance increases by over 2.6 points on average, substantially affecting rankings on Spider and BIRD benchmarks; (2) The underestimation of models in EX primarily stems from annotation quality issues; and (3) Model performance on particularly challenging questions tends to be overestimated. This work contributes to a more accurate and nuanced evaluation of text-to-SQL systems, potentially reshaping our understanding of state-of-the-art performance in this field.
翻訳日:2024-11-06 04:50:50 公開日:2024-10-28
# 双対Stern-Gerlach干渉計における量子重力の絡み合いにおけるパンチャラトナム相

Pancharatnam phase as an entanglement witness for quantum gravity in dual Stern-Gerlach interferometers ( http://arxiv.org/abs/2409.19692v1 )

ライセンス: Link先を確認
Samuel Moukouri, (参考訳) 絡み合いは量子力学の基礎的なテストと実践的な応用において中心的な役割を果たす。 絡み合いは量子系特有の特徴であるため、その観測は系における量子の性質の証拠となる。 したがって、重力が量子重畳間の絡み合いを発生できるなら、これは量子振幅が場源であり、重力が量子現象であることを示している。 重力の量子的性質をテストするために提案された双対スピンワンハーフStern-Gerlach干渉計について検討し、パンチャラトナム相が重力の半古典的および量子的シグネチャを定性的に区別する特徴を示すことを示す。 系の半古典的進化は、外界における単一の干渉計(二段階系)と等価である。 この場合、測地線則から予想される位相ジャンプが観察され、これはブロッホ球における重ね合わせの非循環的進化を規定している。 対照的に、量子の場合、2つの干渉計が結合している(2レベル系)ので、位相は連続である。

Entanglement plays a central role in fundamental tests and practical applications of quantum mechanics. Because entanglement is a feature unique to quantum systems, its observation provides evidence of the quantum nature on the system. Hence, if gravity can generate entanglement between quantum superpositions, this indicates that quantum amplitudes are field sources and gravity is a quantum phenomenon. I study the dual spin-one-half Stern-Gerlach interferometers proposed to test the quantum nature of gravity and show that the Pancharatnam phase displays features that provide a qualitative distinction between semiclassical and quantum signatures of gravity. The semiclassical evolution of the system is equivalent to that of a single interferometer (a two-level system) in an external field. In this case, a phase jump was observed, as expected from the geodesic rule, which dictates the noncyclic evolution of the superposition in the Bloch sphere. In contrast, in the quantum case, the two interferometers are coupled (two two-level systems) and I find that the phase is continuous.
翻訳日:2024-11-05 21:39:30 公開日:2024-10-28
# 双対Stern-Gerlach干渉計における量子重力の絡み合いにおけるパンチャラトナム相

Pancharatnam phase as an entanglement witness for quantum gravity in dual Stern-Gerlach interferometers ( http://arxiv.org/abs/2409.19692v2 )

ライセンス: Link先を確認
Samuel Moukouri, (参考訳) 絡み合いは量子力学の基礎的なテストと実用において中心的な役割を果たす。 絡み合いは量子系特有の特徴であるため、その観測は量子性の証拠となる。 したがって、重力が量子重畳間の絡み合いを発生させることができるなら、これは量子振幅が場源であり、重力が量子であることを示している。 スピン・ワン・ハーフStern-Gerlach干渉計を2つのスピン・ワン・ハーフStern-Gerlach干渉計で研究し、Pancharatnam相が量子重力と半古典的を定性的に区別するツールであることを示した。 半古典的進化は、外界における2つの独立した干渉計のそれと同値である。 この場合、ブロッホ球の非環状進化を規定する測地線則から予想される位相ジャンプが観測された。 対照的に、量子の場合、量子振幅は重力場の源であり、2つの干渉計間の絡み合いを誘発し、位相は連続である。

Entanglement plays a central role in the fundamental tests and practical applications of quantum mechanics. Because entanglement is a feature unique to quantum systems, its observations provide evidence of quantumness. Hence, if gravity can generate entanglement between quantum superpositions, this indicates that quantum amplitudes are field sources and that gravity is quantum. I study the dual spin-one-half Stern-Gerlach interferometers and show that the Pancharatnam phase is a tool that qualitatively distinguishes semiclassical from quantum gravity. The semiclassical evolution is equivalent to that of two independent interferometers in an external field. In this case, a phase jump was observed, as expected from the geodesic rule, which dictates the noncyclic evolution in the Bloch sphere. By contrast, in the quantum case, the quantum amplitudes are the sources of the gravitational field, inducing entanglement between the two interferometers, and the phase is continuous.
翻訳日:2024-11-05 21:39:30 公開日:2024-10-28
# ベイズ決定論の観点からのストリームレベルの流れマッチング

Stream-level flow matching from a Bayesian decision theoretic perspective ( http://arxiv.org/abs/2409.20423v2 )

ライセンス: Link先を確認
Ganchao Wei, Li Ma, (参考訳) フローマッチング(英: Flow matching、FM)は、連続正規化フロー(CNF)を適合させる訓練アルゴリズムの一群である。 FMに対する標準的なアプローチである条件付きフローマッチング(CFM)は、CNFの辺ベクトル場がフローパスの一方または両側に指定されたいわゆる条件付きベクトル場に最小二乗回帰を加えることによって学習できるという事実を利用する。 我々は,パラメータ推定におけるベイズ決定論的な視点からCFMトレーニングを観ることによって,CFMアルゴリズムの一般化への扉を開くことを示す。 雑音と観測データのペアを接続する潜在確率経路の例である「ストリーム」と呼ばれる条件付き確率経路を定義することに基づくCFMアルゴリズムを導入することにより、そのような拡張を提案する。 さらに、ガウス過程(GP)を用いたこれらの潜在ストリームのモデリングを提唱する。 GPの独特な分布特性、特にGPの速度がまだGPであるという事実は、実際のストリームをシミュレートすることなく、ストリーム拡張された条件付き確率経路からサンプルを描画することができるので、CFMトレーニングの「シミュレーション不要」な性質は保存される。 本研究では, CFMの一般化により, 推定限界ベクトル場の分散を適度な計算コストで大幅に低減できることを示す。 さらに、ストリームにGPを採用することで、複数の関連するトレーニングデータポイント(例えば、時系列)を柔軟にリンクし、追加の事前情報を組み込むことができることを示す。 我々は、シミュレーションと2つの手書き画像データセットへの応用を通して、我々の主張を実証的に検証する。

Flow matching (FM) is a family of training algorithms for fitting continuous normalizing flows (CNFs). A standard approach to FM, called conditional flow matching (CFM), exploits the fact that the marginal vector field of a CNF can be learned by fitting least-square regression to the so-called conditional vector field specified given one or both ends of the flow path. We show that viewing CFM training from a Bayesian decision theoretic perspective on parameter estimation opens the door to generalizations of CFM algorithms. We propose one such extension by introducing a CFM algorithm based on defining conditional probability paths given what we refer to as ``streams'', instances of latent stochastic paths that connect pairs of noise and observed data. Further, we advocates the modeling of these latent streams using Gaussian processes (GPs). The unique distributional properties of GPs, and in particular the fact that the velocities of a GP is still a GP, allows drawing samples from the resulting stream-augmented conditional probability path without simulating the actual streams, and hence the ``simulation-free" nature of CFM training is preserved. We show that this generalization of the CFM can substantially reduce the variance in the estimated marginal vector field at a moderate computational cost, thereby improving the quality of the generated samples under common metrics. Additionally, we show that adopting the GP on the streams allows for flexibly linking multiple related training data points (e.g., time series) and incorporating additional prior information. We empirically validate our claim through both simulations and applications to two hand-written image datasets.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-28
# ベイズ決定論の観点からのストリームレベルの流れマッチング

Stream-level flow matching from a Bayesian decision theoretic perspective ( http://arxiv.org/abs/2409.20423v3 )

ライセンス: Link先を確認
Ganchao Wei, Li Ma, (参考訳) フローマッチング(英: Flow matching、FM)は、連続正規化フロー(CNF)を適合させる訓練アルゴリズムの一群である。 FMに対する標準的なアプローチである条件付きフローマッチング(CFM)は、CNFの辺ベクトル場がフローパスの一方または両側に指定されたいわゆる条件付きベクトル場に最小二乗回帰を加えることによって学習できるという事実を利用する。 我々は,パラメータ推定におけるベイズ決定論的な視点からCFMトレーニングを観ることによって,CFMアルゴリズムの一般化への扉を開くことを示す。 雑音と観測データのペアを接続する潜在確率経路の例である「ストリーム」と呼ばれる条件付き確率経路を定義することに基づくCFMアルゴリズムを導入することにより、そのような拡張を提案する。 さらに、ガウス過程(GP)を用いたこれらの潜在ストリームのモデリングを提唱する。 GPの独特な分布特性、特にGPの速度がまだGPであるという事実は、実際のストリームをシミュレートすることなく、ストリーム拡張された条件付き確率パスからサンプルを描画することができるので、CFMトレーニングの「シミュレーション不要」な性質が保存される。 本研究では, CFMの一般化により, 推定限界ベクトル場の分散を適度な計算コストで大幅に低減できることを示す。 さらに、ストリームにGPを採用することで、複数の関連するトレーニングデータポイント(例えば、時系列)を柔軟にリンクし、追加の事前情報を組み込むことができることを示す。 我々は、シミュレーションと2つの手書き画像データセットへの応用を通して、我々の主張を実証的に検証する。

Flow matching (FM) is a family of training algorithms for fitting continuous normalizing flows (CNFs). A standard approach to FM, called conditional flow matching (CFM), exploits the fact that the marginal vector field of a CNF can be learned by fitting least-square regression to the so-called conditional vector field specified given one or both ends of the flow path. We show that viewing CFM training from a Bayesian decision theoretic perspective on parameter estimation opens the door to generalizations of CFM algorithms. We propose one such extension by introducing a CFM algorithm based on defining conditional probability paths given what we refer to as ``streams'', instances of latent stochastic paths that connect pairs of noise and observed data. Further, we advocate the modeling of these latent streams using Gaussian processes (GPs). The unique distributional properties of GPs, and in particular the fact that the velocity of a GP is still a GP, allows drawing samples from the resulting stream-augmented conditional probability path without simulating the actual streams, and hence the ``simulation-free" nature of CFM training is preserved. We show that this generalization of the CFM can substantially reduce the variance in the estimated marginal vector field at a moderate computational cost, thereby improving the quality of the generated samples under common metrics. Additionally, we show that adopting the GP on the streams allows for flexibly linking multiple related training data points (e.g., time series) and incorporating additional prior information. We empirically validate our claim through both simulations and applications to two hand-written image datasets.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-28
# ベイズ決定論の観点からのストリームレベルの流れマッチング

Stream-level flow matching from a Bayesian decision theoretic perspective ( http://arxiv.org/abs/2409.20423v4 )

ライセンス: Link先を確認
Ganchao Wei, Li Ma, (参考訳) フローマッチング(英: Flow matching、FM)は、連続正規化フロー(CNF)を適合させる訓練アルゴリズムの一群である。 FMに対する標準的なアプローチである条件付きフローマッチング(CFM)は、CNFの辺ベクトル場がフローパスの一方または両側に指定されたいわゆる条件付きベクトル場に最小二乗回帰を加えることによって学習できるという事実を利用する。 我々は,パラメータ推定におけるベイズ決定論的な視点からCFMトレーニングを観ることによって,CFMアルゴリズムの一般化への扉を開くことを示す。 雑音と観測データのペアを接続する潜在確率経路の例である「ストリーム」と呼ばれる条件付き確率経路を定義することに基づくCFMアルゴリズムを導入することにより、そのような拡張を提案する。 さらに、ガウス過程(GP)を用いたこれらの潜在ストリームのモデリングを提唱する。 GPの独特な分布特性、特にGPの速度がまだGPであるという事実は、実際のストリームをシミュレートすることなく、ストリーム拡張された条件付き確率パスからサンプルを描画することができるので、CFMトレーニングの「シミュレーション不要」な性質が保存される。 本研究では, CFMの一般化により, 推定限界ベクトル場の分散を適度な計算コストで大幅に低減できることを示す。 さらに、ストリームにGPを採用することで、複数の関連するトレーニングデータポイント(例えば、時系列)を柔軟にリンクし、追加の事前情報を組み込むことができることを示す。 我々は、シミュレーションと2つの手書き画像データセットへの応用を通して、我々の主張を実証的に検証する。

Flow matching (FM) is a family of training algorithms for fitting continuous normalizing flows (CNFs). A standard approach to FM, called conditional flow matching (CFM), exploits the fact that the marginal vector field of a CNF can be learned by fitting least-square regression to the so-called conditional vector field specified given one or both ends of the flow path. We show that viewing CFM training from a Bayesian decision theoretic perspective on parameter estimation opens the door to generalizations of CFM algorithms. We propose one such extension by introducing a CFM algorithm based on defining conditional probability paths given what we refer to as ``streams'', instances of latent stochastic paths that connect pairs of noise and observed data. Further, we advocate the modeling of these latent streams using Gaussian processes (GPs). The unique distributional properties of GPs, and in particular the fact that the velocity of a GP is still a GP, allows drawing samples from the resulting stream-augmented conditional probability path without simulating the actual streams, and hence the ``simulation-free" nature of CFM training is preserved. We show that this generalization of the CFM can substantially reduce the variance in the estimated marginal vector field at a moderate computational cost, thereby improving the quality of the generated samples under common metrics. Additionally, we show that adopting the GP on the streams allows for flexibly linking multiple related training data points (e.g., time series) and incorporating additional prior information. We empirically validate our claim through both simulations and applications to two hand-written image datasets.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-28
# PointAD: ゼロショット3D異常検出のための点と点からの3D異常を補完する

PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection ( http://arxiv.org/abs/2410.00320v1 )

ライセンス: Link先を確認
Qihang Zhou, Jiangtao Yan, Shibo He, Wenchao Meng, Jiming Chen, (参考訳) ゼロショット(ZS) 3D異常検出は、プライバシ保護のような現実的な懸念のために、ターゲットの3Dトレーニングサンプルが利用できないシナリオに対処する、重要で未調査の分野である。 本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。 PointADは、ポイントとピクセルの両方から3D異常を理解するための統一されたフレームワークを提供する。 このフレームワークでは、PointADは3D異常を複数の2Dレンダリングにレンダリングし、それらを3D空間に投影する。 本稿では,3次元および2次元からの学習可能なテキストプロンプトを補助的な点雲を通して最適化するハイブリッド表現学習を提案する。 点表現と画素表現の協調最適化により,基礎となる3次元異常パターンの把握が容易となり,未知の多様な3次元物体の異常の検出とセグメンテーションに寄与する。 3D空間と2D空間のアライメントにより、我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに高めることができる。 広範囲にわたる実験により、ZS 3D異常検出におけるPointADの優位性が確認された。

Zero-shot (ZS) 3D anomaly detection is a crucial yet unexplored field that addresses scenarios where target 3D training samples are unavailable due to practical concerns like privacy protection. This paper introduces PointAD, a novel approach that transfers the strong generalization capabilities of CLIP for recognizing 3D anomalies on unseen objects. PointAD provides a unified framework to comprehend 3D anomalies from both points and pixels. In this framework, PointAD renders 3D anomalies into multiple 2D renderings and projects them back into 3D space. To capture the generic anomaly semantics into PointAD, we propose hybrid representation learning that optimizes the learnable text prompts from 3D and 2D through auxiliary point clouds. The collaboration optimization between point and pixel representations jointly facilitates our model to grasp underlying 3D anomaly patterns, contributing to detecting and segmenting anomalies of unseen diverse 3D objects. Through the alignment of 3D and 2D space, our model can directly integrate RGB information, further enhancing the understanding of 3D anomalies in a plug-and-play manner. Extensive experiments show the superiority of PointAD in ZS 3D anomaly detection across diverse unseen objects.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-28
# PointAD: ゼロショット3D異常検出のための点と点からの3D異常を補完する

PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection ( http://arxiv.org/abs/2410.00320v2 )

ライセンス: Link先を確認
Qihang Zhou, Jiangtao Yan, Shibo He, Wenchao Meng, Jiming Chen, (参考訳) ゼロショット(ZS) 3D異常検出は、プライバシ保護のような現実的な懸念のために、ターゲットの3Dトレーニングサンプルが利用できないシナリオに対処する、重要で未調査の分野である。 本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。 PointADは、ポイントとピクセルの両方から3D異常を理解するための統一されたフレームワークを提供する。 このフレームワークでは、PointADは3D異常を複数の2Dレンダリングにレンダリングし、それらを3D空間に投影する。 本稿では,3次元および2次元からの学習可能なテキストプロンプトを補助的な点雲を通して最適化するハイブリッド表現学習を提案する。 点表現と画素表現の協調最適化により,基礎となる3次元異常パターンの把握が容易となり,未知の多様な3次元物体の異常の検出とセグメンテーションに寄与する。 3D空間と2D空間のアライメントにより、我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに高めることができる。 広範囲にわたる実験により、ZS 3D異常検出におけるPointADの優位性が確認された。

Zero-shot (ZS) 3D anomaly detection is a crucial yet unexplored field that addresses scenarios where target 3D training samples are unavailable due to practical concerns like privacy protection. This paper introduces PointAD, a novel approach that transfers the strong generalization capabilities of CLIP for recognizing 3D anomalies on unseen objects. PointAD provides a unified framework to comprehend 3D anomalies from both points and pixels. In this framework, PointAD renders 3D anomalies into multiple 2D renderings and projects them back into 3D space. To capture the generic anomaly semantics into PointAD, we propose hybrid representation learning that optimizes the learnable text prompts from 3D and 2D through auxiliary point clouds. The collaboration optimization between point and pixel representations jointly facilitates our model to grasp underlying 3D anomaly patterns, contributing to detecting and segmenting anomalies of unseen diverse 3D objects. Through the alignment of 3D and 2D space, our model can directly integrate RGB information, further enhancing the understanding of 3D anomalies in a plug-and-play manner. Extensive experiments show the superiority of PointAD in ZS 3D anomaly detection across diverse unseen objects.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-28
# PointAD: ゼロショット3D異常検出のための点と点からの3D異常を補完する

PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection ( http://arxiv.org/abs/2410.00320v3 )

ライセンス: Link先を確認
Qihang Zhou, Jiangtao Yan, Shibo He, Wenchao Meng, Jiming Chen, (参考訳) ゼロショット(ZS) 3D異常検出は、プライバシ保護のような現実的な懸念のために、ターゲットの3Dトレーニングサンプルが利用できないシナリオに対処する、重要で未調査の分野である。 本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。 PointADは、ポイントとピクセルの両方から3D異常を理解するための統一されたフレームワークを提供する。 このフレームワークでは、PointADは3D異常を複数の2Dレンダリングにレンダリングし、それらを3D空間に投影する。 本稿では,3次元および2次元からの学習可能なテキストプロンプトを補助的な点雲を通して最適化するハイブリッド表現学習を提案する。 点表現と画素表現の協調最適化により,基礎となる3次元異常パターンの把握が容易となり,未知の多様な3次元物体の異常の検出とセグメンテーションに寄与する。 3D空間と2D空間のアライメントにより、我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに高めることができる。 広範囲にわたる実験により、ZS 3D異常検出におけるPointADの優位性が確認された。

Zero-shot (ZS) 3D anomaly detection is a crucial yet unexplored field that addresses scenarios where target 3D training samples are unavailable due to practical concerns like privacy protection. This paper introduces PointAD, a novel approach that transfers the strong generalization capabilities of CLIP for recognizing 3D anomalies on unseen objects. PointAD provides a unified framework to comprehend 3D anomalies from both points and pixels. In this framework, PointAD renders 3D anomalies into multiple 2D renderings and projects them back into 3D space. To capture the generic anomaly semantics into PointAD, we propose hybrid representation learning that optimizes the learnable text prompts from 3D and 2D through auxiliary point clouds. The collaboration optimization between point and pixel representations jointly facilitates our model to grasp underlying 3D anomaly patterns, contributing to detecting and segmenting anomalies of unseen diverse 3D objects. Through the alignment of 3D and 2D space, our model can directly integrate RGB information, further enhancing the understanding of 3D anomalies in a plug-and-play manner. Extensive experiments show the superiority of PointAD in ZS 3D anomaly detection across diverse unseen objects.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-28
# 回路トラクションに応用したスパースアテンション分解

Sparse Attention Decomposition Applied to Circuit Tracing ( http://arxiv.org/abs/2410.00340v1 )

ライセンス: Link先を確認
Gabriel Franco, Mark Crovella, (参考訳) 多くの論文は、注意頭は複雑なタスクを実行するために互いに協調して働くことを示した。 注意頭の間でのコミュニケーションは、トークン残基に特定の特徴を追加することによって行われるとしばしば仮定される。 本研究は,GPT-2小人数の注目者間のコミュニケーションや協調に有効な特徴を抽出し,同定することを目的とする。 この問題の鍵となるレバレッジは、これらの特徴がアテンションヘッド行列の特異ベクトルに疎結合であることを示すことである。 Indirect Object Identification (IOI) タスクに使用する場合, GPT-2 小さめの注意頭におけるこれらの信号の寸法と発生を特徴付ける。 注目ヘッド特異ベクトルによって提供される信号のスパース符号化は、残背景からの信号の効率的な分離と、注目ヘッド間の通信経路の同定を可能にする。 我々は、IOIタスクで使用される回路の一部をトレースすることで、このアプローチの有効性について検討する。 以上の結果から, GPT-2における冗長経路の性質に光を当てることにより, 従来研究には存在しなかった細部が明らかとなった。 私たちのトレースは、IOIの実行時にアテンションヘッド間の通信に使用される機能を特定することで、これまでの作業を超えています。

Many papers have shown that attention heads work in conjunction with each other to perform complex tasks. It's frequently assumed that communication between attention heads is via the addition of specific features to token residuals. In this work we seek to isolate and identify the features used to effect communication and coordination among attention heads in GPT-2 small. Our key leverage on the problem is to show that these features are very often sparsely coded in the singular vectors of attention head matrices. We characterize the dimensionality and occurrence of these signals across the attention heads in GPT-2 small when used for the Indirect Object Identification (IOI) task. The sparse encoding of signals, as provided by attention head singular vectors, allows for efficient separation of signals from the residual background and straightforward identification of communication paths between attention heads. We explore the effectiveness of this approach by tracing portions of the circuits used in the IOI task. Our traces reveal considerable detail not present in previous studies, shedding light on the nature of redundant paths present in GPT-2. And our traces go beyond previous work by identifying features used to communicate between attention heads when performing IOI.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-28
# 回路トラクションに応用したスパースアテンション分解

Sparse Attention Decomposition Applied to Circuit Tracing ( http://arxiv.org/abs/2410.00340v2 )

ライセンス: Link先を確認
Gabriel Franco, Mark Crovella, (参考訳) 多くの論文は、注意頭は複雑なタスクを実行するために互いに協調して働くことを示した。 注意頭の間でのコミュニケーションは、トークン残基に特定の特徴を追加することによって行われるとしばしば仮定される。 本研究は,GPT-2小人数の注目者間のコミュニケーションや協調に有効な特徴を抽出し,同定することを目的とする。 この問題の鍵となるレバレッジは、これらの特徴がアテンションヘッド行列の特異ベクトルに疎結合であることを示すことである。 Indirect Object Identification (IOI) タスクに使用する場合, GPT-2 小さめの注意頭におけるこれらの信号の寸法と発生を特徴付ける。 注目ヘッド特異ベクトルによって提供される信号のスパース符号化は、残背景からの信号の効率的な分離と、注目ヘッド間の通信経路の同定を可能にする。 我々は、IOIタスクで使用される回路の一部をトレースすることで、このアプローチの有効性について検討する。 以上の結果から, GPT-2における冗長経路の性質に光を当てることにより, 従来研究には存在しなかった細部が明らかとなった。 私たちのトレースは、IOIの実行時にアテンションヘッド間の通信に使用される機能を特定することで、これまでの作業を超えています。

Many papers have shown that attention heads work in conjunction with each other to perform complex tasks. It's frequently assumed that communication between attention heads is via the addition of specific features to token residuals. In this work we seek to isolate and identify the features used to effect communication and coordination among attention heads in GPT-2 small. Our key leverage on the problem is to show that these features are very often sparsely coded in the singular vectors of attention head matrices. We characterize the dimensionality and occurrence of these signals across the attention heads in GPT-2 small when used for the Indirect Object Identification (IOI) task. The sparse encoding of signals, as provided by attention head singular vectors, allows for efficient separation of signals from the residual background and straightforward identification of communication paths between attention heads. We explore the effectiveness of this approach by tracing portions of the circuits used in the IOI task. Our traces reveal considerable detail not present in previous studies, shedding light on the nature of redundant paths present in GPT-2. And our traces go beyond previous work by identifying features used to communicate between attention heads when performing IOI.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-28
# 回路トラクションに応用したスパースアテンション分解

Sparse Attention Decomposition Applied to Circuit Tracing ( http://arxiv.org/abs/2410.00340v3 )

ライセンス: Link先を確認
Gabriel Franco, Mark Crovella, (参考訳) 多くの論文は、注意頭は複雑なタスクを実行するために互いに協調して働くことを示した。 注意頭の間でのコミュニケーションは、トークン残基に特定の特徴を追加することによって行われるとしばしば仮定される。 本研究は,GPT-2小人数の注目者間のコミュニケーションや協調に有効な特徴を抽出し,同定することを目的とする。 この問題の鍵となるレバレッジは、これらの特徴がアテンションヘッド行列の特異ベクトルに疎結合であることを示すことである。 Indirect Object Identification (IOI) タスクに使用する場合, GPT-2 小さめの注意頭におけるこれらの信号の寸法と発生を特徴付ける。 注目ヘッド特異ベクトルによって提供される信号のスパース符号化は、残背景からの信号の効率的な分離と、注目ヘッド間の通信経路の同定を可能にする。 我々は、IOIタスクで使用される回路の一部をトレースすることで、このアプローチの有効性について検討する。 以上の結果から, GPT-2における冗長経路の性質に光を当てることにより, 従来研究には存在しなかった細部が明らかとなった。 私たちのトレースは、IOIの実行時にアテンションヘッド間の通信に使用される機能を特定することで、これまでの作業を超えています。

Many papers have shown that attention heads work in conjunction with each other to perform complex tasks. It's frequently assumed that communication between attention heads is via the addition of specific features to token residuals. In this work we seek to isolate and identify the features used to effect communication and coordination among attention heads in GPT-2 small. Our key leverage on the problem is to show that these features are very often sparsely coded in the singular vectors of attention head matrices. We characterize the dimensionality and occurrence of these signals across the attention heads in GPT-2 small when used for the Indirect Object Identification (IOI) task. The sparse encoding of signals, as provided by attention head singular vectors, allows for efficient separation of signals from the residual background and straightforward identification of communication paths between attention heads. We explore the effectiveness of this approach by tracing portions of the circuits used in the IOI task. Our traces reveal considerable detail not present in previous studies, shedding light on the nature of redundant paths present in GPT-2. And our traces go beyond previous work by identifying features used to communicate between attention heads when performing IOI.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-28
# 大規模言語モデルにおける思考線

Lines of Thought in Large Language Models ( http://arxiv.org/abs/2410.01545v1 )

ライセンス: Link先を確認
Raphaël Sarfati, Toni J. B. Liu, Nicolas Boullé, Christopher J. Earls, (参考訳) 大規模言語モデルは、連続するトランスフォーマー層の作用の下で、付随する埋め込み空間を越えてベクトル化されたテキスト(prompt)を転送することで、次のトーケン予測を実現する。 結果として生じる高次元軌道は、異なる文脈化、すなわち「考える」ステップを実現し、出力確率分布を完全に決定する。 我々はこれらの「思考の線」のアンサンブルの統計的性質を特徴付けることを目的としている。 我々は、低次元の非ユークリッド多様体に沿って独立な軌道群をクラスタリングし、それらの経路をデータからほとんどパラメータを抽出しない確率方程式でうまく近似することができることを観察した。 このような大きなモデルの膨大な複雑さが、より単純な形式に還元できることは驚くべきことであり、その影響を反映している。

Large Language Models achieve next-token prediction by transporting a vectorized piece of text (prompt) across an accompanying embedding space under the action of successive transformer layers. The resulting high-dimensional trajectories realize different contextualization, or 'thinking', steps, and fully determine the output probability distribution. We aim to characterize the statistical properties of ensembles of these 'lines of thought.' We observe that independent trajectories cluster along a low-dimensional, non-Euclidean manifold, and that their path can be well approximated by a stochastic equation with few parameters extracted from data. We find it remarkable that the vast complexity of such large models can be reduced to a much simpler form, and we reflect on implications.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-28
# 大規模言語モデルにおける思考線

Lines of Thought in Large Language Models ( http://arxiv.org/abs/2410.01545v2 )

ライセンス: Link先を確認
Raphaël Sarfati, Toni J. B. Liu, Nicolas Boullé, Christopher J. Earls, (参考訳) 大規模言語モデルは、連続するトランスフォーマー層の作用の下で、付随する埋め込み空間を越えてベクトル化されたテキスト(prompt)を転送することで、次のトーケン予測を実現する。 結果として生じる高次元軌道は、異なる文脈化、すなわち「考える」ステップを実現し、出力確率分布を完全に決定する。 我々はこれらの「思考の線」のアンサンブルの統計的性質を特徴付けることを目的としている。 我々は、低次元の非ユークリッド多様体に沿って独立な軌道群をクラスタリングし、それらの経路をデータからほとんどパラメータを抽出しない確率方程式でうまく近似することができることを観察した。 このような大きなモデルの膨大な複雑さが、より単純な形式に還元できることは驚くべきことであり、その影響を反映している。

Large Language Models achieve next-token prediction by transporting a vectorized piece of text (prompt) across an accompanying embedding space under the action of successive transformer layers. The resulting high-dimensional trajectories realize different contextualization, or 'thinking', steps, and fully determine the output probability distribution. We aim to characterize the statistical properties of ensembles of these 'lines of thought.' We observe that independent trajectories cluster along a low-dimensional, non-Euclidean manifold, and that their path can be well approximated by a stochastic equation with few parameters extracted from data. We find it remarkable that the vast complexity of such large models can be reduced to a much simpler form, and we reflect on implications.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-28
# 部分微分方程式としてのシーンフロー

Scene Flow as a Partial Differential Equation ( http://arxiv.org/abs/2410.02031v1 )

ライセンス: Link先を確認
Kyle Vedder, Neehar Peri, Ishan Khatri, Siyi Li, Eric Eaton, Mehmet Kocamaz, Yue Wang, Zhiding Yu, Deva Ramanan, Joachim Pehserl, (参考訳) 我々は、連続空間と時間PDEを推定する問題としてシーンフローを再構成し、観測シーケンス全体の動きをニューラル先行で表現する。 結果として得られた教師なしの手法であるEulerFlowは、大規模自律運転シーンや動的テーブルトップ設定など、複数の領域にわたる実世界のデータに高品質なシーンフローを生成する。 特に、EulerFlowは鳥やテニスボールのような小さく速く動く物体に高品質な流れを生じさせ、その推定されたPDEを長時間の地平線上で解くことによって、創発的な3D点追跡挙動を示す。 2024年のArgoverse 2 Scene Flow Challengeでは、EulerFlowはすべての先行技術より優れており、次の最高の教師なしの手法を2.5倍、次の最高の教師なしの手法を10%以上上回っている。

We reframe scene flow as the problem of estimating a continuous space and time PDE that describes motion for an entire observation sequence, represented with a neural prior. Our resulting unsupervised method, EulerFlow, produces high quality scene flow on real-world data across multiple domains, including large-scale autonomous driving scenes and dynamic tabletop settings. Notably, EulerFlow produces high quality flow on small, fast moving objects like birds and tennis balls, and exhibits emergent 3D point tracking behavior by solving its estimated PDE over long time horizons. On the Argoverse 2 2024 Scene Flow Challenge, EulerFlow outperforms all prior art, beating the next best unsupervised method by over 2.5x and the next best supervised method by over 10%.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-28
# ニューラル・ユーレリア・シーン・フロー場

Neural Eulerian Scene Flow Fields ( http://arxiv.org/abs/2410.02031v2 )

ライセンス: Link先を確認
Kyle Vedder, Neehar Peri, Ishan Khatri, Siyi Li, Eric Eaton, Mehmet Kocamaz, Yue Wang, Zhiding Yu, Deva Ramanan, Joachim Pehserl, (参考訳) 我々は,連続した時空のODEを推定するタスクとしてシーンフローを再構成し,観測シーケンス全体の動きをニューラルな先行表現で表現する。 提案手法であるEulerFlowは,このニューラル事前推定を複数の多観測再構成目標に対して最適化し,実世界のデータに対する純粋自己監督による高品質なシーンフロー推定を可能にする。 EulerFlowは、大規模な自律運転シーンや動的テーブルトップ設定など、複数のドメインをチューニングすることなく、最初から動作します。 注目すべきは、EulerFlowは鳥やテニスボールのような小型で高速に動く物体に対して高品質なフロー推定を行い、その推定されたODEを長時間の地平線上で解くことによって、創発的な3D点追跡挙動を示すことである。 2024年のArgoverse 2 Scene Flow Challengeでは、EulerFlowはすべての先行技術より優れており、次の最上位の教師なしの手法を2.5倍以上上回り、さらに次の最上位の教師なしの手法を10%以上上回っている。

We reframe scene flow as the task of estimating a continuous space-time ODE that describes motion for an entire observation sequence, represented with a neural prior. Our method, EulerFlow, optimizes this neural prior estimate against several multi-observation reconstruction objectives, enabling high quality scene flow estimation via pure self-supervision on real-world data. EulerFlow works out-of-the-box without tuning across multiple domains, including large-scale autonomous driving scenes and dynamic tabletop settings. Remarkably, EulerFlow produces high quality flow estimates on small, fast moving objects like birds and tennis balls, and exhibits emergent 3D point tracking behavior by solving its estimated ODE over long-time horizons. On the Argoverse 2 2024 Scene Flow Challenge, EulerFlow outperforms all prior art, surpassing the next-best unsupervised method by more than 2.5x, and even exceeding the next-best supervised method by over 10%.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-28
# DisEnvisioner: カスタマイズされた画像生成のためのアンタングルとリッチなビジュアルプロンプ

DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation ( http://arxiv.org/abs/2410.02067v1 )

ライセンス: Link先を確認
Jing He, Haodong Li, Yongzhe Hu, Guibao Shen, Yingjie Cai, Weichao Qiu, Ying-Cong Chen, (参考訳) 画像生成の分野では、視覚的プロンプトからカスタマイズされたイメージを、追加のテキスト命令で作成することが、有望な取り組みとして現れている。 しかし、チューニングベースとチューニングフリーの両方の既存の手法は、視覚的プロンプトから主観的属性を解釈するのに苦労している。 これにより、生成プロセスに不適切な属性が浸透し、最終的に編集性とID保存の両方においてパーソナライズ品質が向上する。 本稿では,非関連情報をフィルタリングし,例外的なカスタマイズ性能を実現し,チューニング不要で,単一の画像のみを用いて,主観的特徴を効果的に抽出・強化するための新しいアプローチであるDisEnvisionerを提案する。 具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。 IDの一貫性をさらに向上することを目的として、混乱した特徴を豊かにし、より粒度の細かい表現に彫刻します。 提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れており,DisEnvisionerの有効性と効率性を強調している。 プロジェクトページ: https://disenvisioner.github.io/.com

In the realm of image generation, creating customized images from visual prompt with additional textual instruction emerges as a promising endeavor. However, existing methods, both tuning-based and tuning-free, struggle with interpreting the subject-essential attributes from the visual prompt. This leads to subject-irrelevant attributes infiltrating the generation process, ultimately compromising the personalization quality in both editability and ID preservation. In this paper, we present DisEnvisioner, a novel approach for effectively extracting and enriching the subject-essential features while filtering out -irrelevant information, enabling exceptional customization performance, in a tuning-free manner and using only a single image. Specifically, the feature of the subject and other irrelevant components are effectively separated into distinctive visual tokens, enabling a much more accurate customization. Aiming to further improving the ID consistency, we enrich the disentangled features, sculpting them into more granular representations. Experiments demonstrate the superiority of our approach over existing methods in instruction response (editability), ID consistency, inference speed, and the overall image quality, highlighting the effectiveness and efficiency of DisEnvisioner. Project page: https://disenvisioner.github.io/.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-28
# DisEnvisioner: カスタマイズされた画像生成のためのアンタングルとリッチなビジュアルプロンプ

DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation ( http://arxiv.org/abs/2410.02067v2 )

ライセンス: Link先を確認
Jing He, Haodong Li, Yongzhe Hu, Guibao Shen, Yingjie Cai, Weichao Qiu, Ying-Cong Chen, (参考訳) 画像生成の分野では、視覚的プロンプトからカスタマイズされたイメージを、追加のテキスト命令で作成することが、有望な取り組みとして現れている。 しかし、チューニングベースとチューニングフリーの両方の既存の手法は、視覚的プロンプトから主観的属性を解釈するのに苦労している。 これにより、生成プロセスに不適切な属性が浸透し、最終的に編集性とID保存の両方においてパーソナライズ品質が向上する。 本稿では,非関連情報をフィルタリングし,例外的なカスタマイズ性能を実現し,チューニング不要で,単一の画像のみを用いて,主観的特徴を効果的に抽出・強化するための新しいアプローチであるDisEnvisionerを提案する。 具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。 IDの一貫性をさらに向上することを目的として、混乱した特徴を豊かにし、より粒度の細かい表現に彫刻します。 提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れており,DisEnvisionerの有効性と効率性を強調している。 プロジェクトページ: https://disenvisioner.github.io/.com

In the realm of image generation, creating customized images from visual prompt with additional textual instruction emerges as a promising endeavor. However, existing methods, both tuning-based and tuning-free, struggle with interpreting the subject-essential attributes from the visual prompt. This leads to subject-irrelevant attributes infiltrating the generation process, ultimately compromising the personalization quality in both editability and ID preservation. In this paper, we present DisEnvisioner, a novel approach for effectively extracting and enriching the subject-essential features while filtering out -irrelevant information, enabling exceptional customization performance, in a tuning-free manner and using only a single image. Specifically, the feature of the subject and other irrelevant components are effectively separated into distinctive visual tokens, enabling a much more accurate customization. Aiming to further improving the ID consistency, we enrich the disentangled features, sculpting them into more granular representations. Experiments demonstrate the superiority of our approach over existing methods in instruction response (editability), ID consistency, inference speed, and the overall image quality, highlighting the effectiveness and efficiency of DisEnvisioner. Project page: https://disenvisioner.github.io/.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-28
# LLMは示している以上のことを知っている: LLMの幻覚の内在的表現について

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations ( http://arxiv.org/abs/2410.02707v1 )

ライセンス: Link先を確認
Hadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov, (参考訳) 大規模言語モデル(LLM)は、事実的不正確さ、偏見、推論失敗など、しばしば「幻覚」と呼ばれる誤りを生じる。 近年の研究では、LCMの内部状態が出力の真偽に関する情報を符号化し、この情報を用いて誤りを検出することが示されている。 本研究では,LLMの内部表現が,これまで認識されていた真理性よりもはるかに多くの情報をエンコードしていることを示す。 我々はまず,真偽情報が特定のトークンに集中していることを発見し,この特性を利用することでエラー検出性能を大幅に向上させる。 しかし、そのような誤り検知器はデータセットをまたいで一般化できないことを示し、従来の主張とは対照的に、真偽の符号化は普遍的ではなくむしろ多面的であることを示唆している。 次に、モデルが生成する可能性のあるエラーの種類を予測するために内部表現が利用可能であることを示し、調整された緩和戦略の開発を容易にする。 最後に、LLMの内部符号化と外部動作の相違を明らかにし、正しい解をエンコードするが、常に正しくない解を生成する。 まとめると、これらの洞察はモデルの内部的な視点からLLMエラーの理解を深め、エラー解析と緩和に関する将来の研究を導くことができる。

Large language models (LLMs) often produce errors, including factual inaccuracies, biases, and reasoning failures, collectively referred to as "hallucinations". Recent studies have demonstrated that LLMs' internal states encode information regarding the truthfulness of their outputs, and that this information can be utilized to detect errors. In this work, we show that the internal representations of LLMs encode much more information about truthfulness than previously recognized. We first discover that the truthfulness information is concentrated in specific tokens, and leveraging this property significantly enhances error detection performance. Yet, we show that such error detectors fail to generalize across datasets, implying that -- contrary to prior claims -- truthfulness encoding is not universal but rather multifaceted. Next, we show that internal representations can also be used for predicting the types of errors the model is likely to make, facilitating the development of tailored mitigation strategies. Lastly, we reveal a discrepancy between LLMs' internal encoding and external behavior: they may encode the correct answer, yet consistently generate an incorrect one. Taken together, these insights deepen our understanding of LLM errors from the model's internal perspective, which can guide future research on enhancing error analysis and mitigation.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-28
# LLMは示している以上のことを知っている: LLMの幻覚の内在的表現について

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations ( http://arxiv.org/abs/2410.02707v2 )

ライセンス: Link先を確認
Hadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov, (参考訳) 大規模言語モデル(LLM)は、事実的不正確さ、偏見、推論失敗など、しばしば「幻覚」と呼ばれる誤りを生じる。 近年の研究では、LCMの内部状態が出力の真偽に関する情報を符号化し、この情報を用いて誤りを検出することが示されている。 本研究では,LLMの内部表現が,これまで認識されていた真理性よりもはるかに多くの情報をエンコードしていることを示す。 我々はまず,真偽情報が特定のトークンに集中していることを発見し,この特性を利用することでエラー検出性能を大幅に向上させる。 しかし、そのような誤り検知器はデータセットをまたいで一般化できないことを示し、従来の主張とは対照的に、真偽の符号化は普遍的ではなくむしろ多面的であることを示唆している。 次に、モデルが生成する可能性のあるエラーの種類を予測するために内部表現が利用可能であることを示し、調整された緩和戦略の開発を容易にする。 最後に、LLMの内部符号化と外部動作の相違を明らかにし、正しい解をエンコードするが、常に正しくない解を生成する。 まとめると、これらの洞察はモデルの内部的な視点からLLMエラーの理解を深め、エラー解析と緩和に関する将来の研究を導くことができる。

Large language models (LLMs) often produce errors, including factual inaccuracies, biases, and reasoning failures, collectively referred to as "hallucinations". Recent studies have demonstrated that LLMs' internal states encode information regarding the truthfulness of their outputs, and that this information can be utilized to detect errors. In this work, we show that the internal representations of LLMs encode much more information about truthfulness than previously recognized. We first discover that the truthfulness information is concentrated in specific tokens, and leveraging this property significantly enhances error detection performance. Yet, we show that such error detectors fail to generalize across datasets, implying that -- contrary to prior claims -- truthfulness encoding is not universal but rather multifaceted. Next, we show that internal representations can also be used for predicting the types of errors the model is likely to make, facilitating the development of tailored mitigation strategies. Lastly, we reveal a discrepancy between LLMs' internal encoding and external behavior: they may encode the correct answer, yet consistently generate an incorrect one. Taken together, these insights deepen our understanding of LLM errors from the model's internal perspective, which can guide future research on enhancing error analysis and mitigation.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-28
# LLMは示している以上のことを知っている: LLMの幻覚の内在的表現について

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations ( http://arxiv.org/abs/2410.02707v3 )

ライセンス: Link先を確認
Hadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov, (参考訳) 大規模言語モデル(LLM)は、事実的不正確さ、偏見、推論失敗など、しばしば「幻覚」と呼ばれる誤りを生じる。 近年の研究では、LCMの内部状態が出力の真偽に関する情報を符号化し、この情報を用いて誤りを検出することが示されている。 本研究では,LLMの内部表現が,これまで認識されていた真理性よりもはるかに多くの情報をエンコードしていることを示す。 我々はまず,真偽情報が特定のトークンに集中していることを発見し,この特性を利用することでエラー検出性能を大幅に向上させる。 しかし、そのような誤り検知器はデータセットをまたいで一般化できないことを示し、従来の主張とは対照的に、真偽の符号化は普遍的ではなくむしろ多面的であることを示唆している。 次に、モデルが生成する可能性のあるエラーの種類を予測するために内部表現が利用可能であることを示し、調整された緩和戦略の開発を容易にする。 最後に、LLMの内部符号化と外部動作の相違を明らかにし、正しい解をエンコードするが、常に正しくない解を生成する。 まとめると、これらの洞察はモデルの内部的な視点からLLMエラーの理解を深め、エラー解析と緩和に関する将来の研究を導くことができる。

Large language models (LLMs) often produce errors, including factual inaccuracies, biases, and reasoning failures, collectively referred to as "hallucinations". Recent studies have demonstrated that LLMs' internal states encode information regarding the truthfulness of their outputs, and that this information can be utilized to detect errors. In this work, we show that the internal representations of LLMs encode much more information about truthfulness than previously recognized. We first discover that the truthfulness information is concentrated in specific tokens, and leveraging this property significantly enhances error detection performance. Yet, we show that such error detectors fail to generalize across datasets, implying that -- contrary to prior claims -- truthfulness encoding is not universal but rather multifaceted. Next, we show that internal representations can also be used for predicting the types of errors the model is likely to make, facilitating the development of tailored mitigation strategies. Lastly, we reveal a discrepancy between LLMs' internal encoding and external behavior: they may encode the correct answer, yet consistently generate an incorrect one. Taken together, these insights deepen our understanding of LLM errors from the model's internal perspective, which can guide future research on enhancing error analysis and mitigation.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-28
# ベイズリスクの最小化によるインストラクションフォローの改善

Better Instruction-Following Through Minimum Bayes Risk ( http://arxiv.org/abs/2410.02902v1 )

ライセンス: Link先を確認
Ian Wu, Patrick Fernandes, Amanda Bertsch, Seungone Kim, Sina Pakazad, Graham Neubig, (参考訳) 人体レベルの評価が可能な汎用LSM判断器は、命令追従LSMを評価するスケーラブルで正確な方法だけでなく、その性能を監視・改善するための新たな手段も提供する。 LLMの審査員を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)復号(Minimum Bayes Risk)である。 本研究の前半では,命令追従 LLM の試験時間性能を向上させる手法として MBR 復号法について検討する。 基準に基づく LLM 判定器による MBR 復号法は, グレディ復号法よりも大幅に向上し, 基準のない判定器によるベスト・オブ・N 復号法や, AlpacaEval および MT-Bench 上での語彙的, 埋め込み的メトリクスによる MBR 復号法が大幅に向上することがわかった。 これらの利得は、最大70Bパラメータを持つLLM間で一貫性があり、より小さなLLM判事がより大きなLLMを監督するために使用できることを示す。 そこで本研究では,MBR復号化出力の反復的自己学習について検討する。 直接選好最適化を用いた自己学習は、強欲な復号化を伴う自己学習モデルと一般的に一致し、MBR復号化による基本モデルの性能を上回ることがあるなど、大幅な性能向上をもたらすことが判明した。

General-purpose LLM judges capable of human-level evaluation provide not only a scalable and accurate way of evaluating instruction-following LLMs but also new avenues for supervising and improving their performance. One promising way of leveraging LLM judges for supervision is through Minimum Bayes Risk (MBR) decoding, which uses a reference-based evaluator to select a high-quality output from amongst a set of candidate outputs. In the first part of this work, we explore using MBR decoding as a method for improving the test-time performance of instruction-following LLMs. We find that MBR decoding with reference-based LLM judges substantially improves over greedy decoding, best-of-N decoding with reference-free judges and MBR decoding with lexical and embedding-based metrics on AlpacaEval and MT-Bench. These gains are consistent across LLMs with up to 70B parameters, demonstrating that smaller LLM judges can be used to supervise much larger LLMs. Then, seeking to retain the improvements from MBR decoding while mitigating additional test-time costs, we explore iterative self-training on MBR-decoded outputs. We find that self-training using Direct Preference Optimisation leads to significant performance gains, such that the self-trained models with greedy decoding generally match and sometimes exceed the performance of their base models with MBR decoding.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-28
# ベイズリスクの最小化によるインストラクションフォローの改善

Better Instruction-Following Through Minimum Bayes Risk ( http://arxiv.org/abs/2410.02902v2 )

ライセンス: Link先を確認
Ian Wu, Patrick Fernandes, Amanda Bertsch, Seungone Kim, Sina Pakazad, Graham Neubig, (参考訳) 人体レベルの評価が可能な汎用LSM判断器は、命令追従LSMを評価するスケーラブルで正確な方法だけでなく、その性能を監視・改善するための新たな手段も提供する。 LLMの審査員を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)復号(Minimum Bayes Risk)である。 本研究の前半では,命令追従 LLM の試験時間性能を向上させる手法として MBR 復号法について検討する。 基準に基づく LLM 判定器による MBR 復号法は, グレディ復号法よりも大幅に向上し, 基準のない判定器によるベスト・オブ・N 復号法や, AlpacaEval および MT-Bench 上での語彙的, 埋め込み的メトリクスによる MBR 復号法が大幅に向上することがわかった。 これらの利得は、最大70Bパラメータを持つLLM間で一貫性があり、より小さなLLM判事がより大きなLLMを監督するために使用できることを示す。 そこで本研究では,MBR復号化出力の反復的自己学習について検討する。 直接選好最適化を用いた自己学習は、強欲な復号化を伴う自己学習モデルと一般的に一致し、MBR復号化による基本モデルの性能を上回ることがあるなど、大幅な性能向上をもたらすことが判明した。

General-purpose LLM judges capable of human-level evaluation provide not only a scalable and accurate way of evaluating instruction-following LLMs but also new avenues for supervising and improving their performance. One promising way of leveraging LLM judges for supervision is through Minimum Bayes Risk (MBR) decoding, which uses a reference-based evaluator to select a high-quality output from amongst a set of candidate outputs. In the first part of this work, we explore using MBR decoding as a method for improving the test-time performance of instruction-following LLMs. We find that MBR decoding with reference-based LLM judges substantially improves over greedy decoding, best-of-N decoding with reference-free judges and MBR decoding with lexical and embedding-based metrics on AlpacaEval and MT-Bench. These gains are consistent across LLMs with up to 70B parameters, demonstrating that smaller LLM judges can be used to supervise much larger LLMs. Then, seeking to retain the improvements from MBR decoding while mitigating additional test-time costs, we explore iterative self-training on MBR-decoded outputs. We find that self-training using Direct Preference Optimisation leads to significant performance gains, such that the self-trained models with greedy decoding generally match and sometimes exceed the performance of their base models with MBR decoding.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-28
# ベイズリスクの最小化によるインストラクションフォローの改善

Better Instruction-Following Through Minimum Bayes Risk ( http://arxiv.org/abs/2410.02902v3 )

ライセンス: Link先を確認
Ian Wu, Patrick Fernandes, Amanda Bertsch, Seungone Kim, Sina Pakazad, Graham Neubig, (参考訳) 人体レベルの評価が可能な汎用LSM判断器は、命令追従LSMを評価するスケーラブルで正確な方法だけでなく、その性能を監視・改善するための新たな手段も提供する。 LLMの審査員を監督に活用する有望な方法の1つは、最小ベイズリスク(MBR)復号(Minimum Bayes Risk)である。 本研究の前半では,命令追従 LLM の試験時間性能を向上させる手法として MBR 復号法について検討する。 基準に基づく LLM 判定器による MBR 復号法は, グレディ復号法よりも大幅に向上し, 基準のない判定器によるベスト・オブ・N 復号法や, AlpacaEval および MT-Bench 上での語彙的, 埋め込み的メトリクスによる MBR 復号法が大幅に向上することがわかった。 これらの利得は、最大70Bパラメータを持つLLM間で一貫性があり、より小さなLLM判事がより大きなLLMを監督するために使用できることを示す。 そこで本研究では,MBR復号化出力の反復的自己学習について検討する。 直接選好最適化を用いた自己学習は、強欲な復号化を伴う自己学習モデルと一般的に一致し、MBR復号化による基本モデルの性能を上回ることがあるなど、大幅な性能向上をもたらすことが判明した。

General-purpose LLM judges capable of human-level evaluation provide not only a scalable and accurate way of evaluating instruction-following LLMs but also new avenues for supervising and improving their performance. One promising way of leveraging LLM judges for supervision is through Minimum Bayes Risk (MBR) decoding, which uses a reference-based evaluator to select a high-quality output from amongst a set of candidate outputs. In the first part of this work, we explore using MBR decoding as a method for improving the test-time performance of instruction-following LLMs. We find that MBR decoding with reference-based LLM judges substantially improves over greedy decoding, best-of-N decoding with reference-free judges and MBR decoding with lexical and embedding-based metrics on AlpacaEval and MT-Bench. These gains are consistent across LLMs with up to 70B parameters, demonstrating that smaller LLM judges can be used to supervise much larger LLMs. Then, seeking to retain the improvements from MBR decoding while mitigating additional test-time costs, we explore iterative self-training on MBR-decoded outputs. We find that self-training using Direct Preference Optimisation leads to significant performance gains, such that the self-trained models with greedy decoding generally match and sometimes exceed the performance of their base models with MBR decoding.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-28
# AutoPenBench: 侵入テストのための生成エージェントのベンチマーク

AutoPenBench: Benchmarking Generative Agents for Penetration Testing ( http://arxiv.org/abs/2410.03225v1 )

ライセンス: Link先を確認
Luca Gioacchini, Marco Mellia, Idilio Drago, Alexander Delsanto, Giuseppe Siracusano, Roberto Bifulco, (参考訳) 大規模言語モデル(LLM)を利用したソフトウェアシステムであるジェネレーティブAIエージェントは、サイバーセキュリティタスクを自動化するための有望なアプローチとして浮上している。 その中には、タスクの複雑さとサイバー攻撃をシミュレートする多様な戦略があるため、侵入テストは難しい分野である。 生成剤による浸透試験の自動化に関する関心や初期の研究は増大しているが、その評価と開発のための包括的かつ標準的枠組みの形式には大きなギャップが残っている。 本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。 エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。 タスクは、インビトロや現実世界のシナリオなど、難易度を増大させる。 エージェントのパフォーマンスを汎用的で特定のマイルストーンで評価し、その結果を標準化された方法で比較し、テスト中のエージェントの限界を理解する。 完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。 私たちは彼らのパフォーマンスと限界を比較します。 例えば、完全自律エージェントは、ベンチマーク全体で21%の成功率(SR)を満足せずに達成し、単純なタスクの27%を解決し、実際のタスクは1つだけである。 対照的に、補助剤はSRの64%で大幅に改善されている。 AutoPenBenchは、GPT-4oやOpenAI o1のような異なるLLMが、タスクを完了させるエージェントの能力にどのように影響するかを観察することを可能にする。 当社のベンチマークは,共通基盤上での浸透試験エージェントを比較するための,標準的で柔軟なフレームワークとのギャップを埋めるものだと考えています。 AutoPenBenchは、リサーチコミュニティとともに、https://github.com/lucagioacchini/auto-pen-bench.comで利用可能になることを願っています。

Generative AI agents, software systems powered by Large Language Models (LLMs), are emerging as a promising approach to automate cybersecurity tasks. Among the others, penetration testing is a challenging field due to the task complexity and the diverse strategies to simulate cyber-attacks. Despite growing interest and initial studies in automating penetration testing with generative agents, there remains a significant gap in the form of a comprehensive and standard framework for their evaluation and development. This paper introduces AutoPenBench, an open benchmark for evaluating generative agents in automated penetration testing. We present a comprehensive framework that includes 33 tasks, each representing a vulnerable system that the agent has to attack. Tasks are of increasing difficulty levels, including in-vitro and real-world scenarios. We assess the agent performance with generic and specific milestones that allow us to compare results in a standardised manner and understand the limits of the agent under test. We show the benefits of AutoPenBench by testing two agent architectures: a fully autonomous and a semi-autonomous supporting human interaction. We compare their performance and limitations. For example, the fully autonomous agent performs unsatisfactorily achieving a 21% Success Rate (SR) across the benchmark, solving 27% of the simple tasks and only one real-world task. In contrast, the assisted agent demonstrates substantial improvements, with 64% of SR. AutoPenBench allows us also to observe how different LLMs like GPT-4o or OpenAI o1 impact the ability of the agents to complete the tasks. We believe that our benchmark fills the gap with a standard and flexible framework to compare penetration testing agents on a common ground. We hope to extend AutoPenBench along with the research community by making it available under https://github.com/lucagioacchini/auto-pen-bench.
翻訳日:2024-11-03 02:54:39 公開日:2024-10-28
# AutoPenBench: 侵入テストのための生成エージェントのベンチマーク

AutoPenBench: Benchmarking Generative Agents for Penetration Testing ( http://arxiv.org/abs/2410.03225v2 )

ライセンス: Link先を確認
Luca Gioacchini, Marco Mellia, Idilio Drago, Alexander Delsanto, Giuseppe Siracusano, Roberto Bifulco, (参考訳) 大規模言語モデル(LLM)を利用したソフトウェアシステムであるジェネレーティブAIエージェントは、サイバーセキュリティタスクを自動化するための有望なアプローチとして浮上している。 その中には、タスクの複雑さとサイバー攻撃をシミュレートする多様な戦略があるため、侵入テストは難しい分野である。 生成剤による浸透試験の自動化に関する関心や初期の研究は増大しているが、その評価と開発のための包括的かつ標準的枠組みの形式には大きなギャップが残っている。 本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。 エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。 タスクは、インビトロや現実世界のシナリオなど、難易度を増大させる。 エージェントのパフォーマンスを汎用的で特定のマイルストーンで評価し、その結果を標準化された方法で比較し、テスト中のエージェントの限界を理解する。 完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。 私たちは彼らのパフォーマンスと限界を比較します。 例えば、完全自律エージェントは、ベンチマーク全体で21%の成功率(SR)を満足せずに達成し、単純なタスクの27%を解決し、実際のタスクは1つだけである。 対照的に、補助剤はSRの64%で大幅に改善されている。 AutoPenBenchは、GPT-4oやOpenAI o1のような異なるLLMが、タスクを完了させるエージェントの能力にどのように影響するかを観察することを可能にする。 当社のベンチマークは,共通基盤上での浸透試験エージェントを比較するための,標準的で柔軟なフレームワークとのギャップを埋めるものだと考えています。 AutoPenBenchは、リサーチコミュニティとともに、https://github.com/lucagioacchini/auto-pen-bench.comで利用可能になることを願っています。

Generative AI agents, software systems powered by Large Language Models (LLMs), are emerging as a promising approach to automate cybersecurity tasks. Among the others, penetration testing is a challenging field due to the task complexity and the diverse strategies to simulate cyber-attacks. Despite growing interest and initial studies in automating penetration testing with generative agents, there remains a significant gap in the form of a comprehensive and standard framework for their evaluation and development. This paper introduces AutoPenBench, an open benchmark for evaluating generative agents in automated penetration testing. We present a comprehensive framework that includes 33 tasks, each representing a vulnerable system that the agent has to attack. Tasks are of increasing difficulty levels, including in-vitro and real-world scenarios. We assess the agent performance with generic and specific milestones that allow us to compare results in a standardised manner and understand the limits of the agent under test. We show the benefits of AutoPenBench by testing two agent architectures: a fully autonomous and a semi-autonomous supporting human interaction. We compare their performance and limitations. For example, the fully autonomous agent performs unsatisfactorily achieving a 21% Success Rate (SR) across the benchmark, solving 27% of the simple tasks and only one real-world task. In contrast, the assisted agent demonstrates substantial improvements, with 64% of SR. AutoPenBench allows us also to observe how different LLMs like GPT-4o or OpenAI o1 impact the ability of the agents to complete the tasks. We believe that our benchmark fills the gap with a standard and flexible framework to compare penetration testing agents on a common ground. We hope to extend AutoPenBench along with the research community by making it available under https://github.com/lucagioacchini/auto-pen-bench.
翻訳日:2024-11-03 02:54:39 公開日:2024-10-28
# Wasserstein Balls Ambiguity Setを混合した分散故障診断用分散ロバスト支持ベクトルマシン

A Federated Distributionally Robust Support Vector Machine with Mixture of Wasserstein Balls Ambiguity Set for Distributed Fault Diagnosis ( http://arxiv.org/abs/2410.03877v1 )

ライセンス: Link先を確認
Michael Ibrahim, Heraldo Rozas, Nagi Gebraeel, Weijun Xie, (参考訳) 地理的に分散したデータを用いた故障診断タスクの分類モデルの訓練は、顧客に対して長期サービス契約(LTSC)の提供を求める元部品メーカー(OEM)にとって重要な課題である。 プライバシーと帯域幅の制約のため、そのようなモデルは連合的な方法で訓練されなければならない。 さらに、厳しい産業環境のため、データは特徴やラベルの不確実性に悩まされることが多い。 そこで本研究では,中央サーバとG$クライアントで構成されるネットワーク上で,分散ロバストな(DR)サポートベクタマシン(SVM)をフェデレーション方式でトレーニングする問題について検討する。 我々は、各クライアントのローカルデータがユニークな真の分布$\mathbb{P}_g$からサンプルされ、クライアントが中央サーバとしか通信できないような設定について検討する。 本稿では,各クライアントにおけるデータの実験的分布を中心とした局所的なワッサースタイン球に依存した,ワッサースタイン球の混合(MoWB)曖昧性集合を提案する。 提案したあいまいさ集合の理論的側面を考察し,そのアウト・オブ・サンプル性能保証を導出し,DR問題の分離性を自然に実現できることを示す。 次に、グローバルFDR-SVMをトレーニングするための2つの分散最適化アルゴリズムを提案する。 一 段階的な方法に基づくアルゴリズム及び 二 乗算器(ADMM)に基づくアルゴリズムの交互方向法 我々は,各クライアントが解決すべき最適化問題を導出し,両アルゴリズムのイテレーション毎に中央サーバが実行する計算のクローズドフォーム式を提供する。 最後に,シミュレーションデータと一般的な実世界のデータセットを併用した数値実験において,提案アルゴリズムの性能を徹底的に検証した。

The training of classification models for fault diagnosis tasks using geographically dispersed data is a crucial task for original parts manufacturers (OEMs) seeking to provide long-term service contracts (LTSCs) to their customers. Due to privacy and bandwidth constraints, such models must be trained in a federated fashion. Moreover, due to harsh industrial settings the data often suffers from feature and label uncertainty. Therefore, we study the problem of training a distributionally robust (DR) support vector machine (SVM) in a federated fashion over a network comprised of a central server and $G$ clients without sharing data. We consider the setting where the local data of each client $g$ is sampled from a unique true distribution $\mathbb{P}_g$, and the clients can only communicate with the central server. We propose a novel Mixture of Wasserstein Balls (MoWB) ambiguity set that relies on local Wasserstein balls centered at the empirical distribution of the data at each client. We study theoretical aspects of the proposed ambiguity set, deriving its out-of-sample performance guarantees and demonstrating that it naturally allows for the separability of the DR problem. Subsequently, we propose two distributed optimization algorithms for training the global FDR-SVM: i) a subgradient method-based algorithm, and ii) an alternating direction method of multipliers (ADMM)-based algorithm. We derive the optimization problems to be solved by each client and provide closed-form expressions for the computations performed by the central server during each iteration for both algorithms. Finally, we thoroughly examine the performance of the proposed algorithms in a series of numerical experiments utilizing both simulation data and popular real-world datasets.
翻訳日:2024-11-02 15:40:54 公開日:2024-10-28
# Wasserstein Balls Ambiguity Setを混合した分散故障診断用分散ロバスト支持ベクトルマシン

A Federated Distributionally Robust Support Vector Machine with Mixture of Wasserstein Balls Ambiguity Set for Distributed Fault Diagnosis ( http://arxiv.org/abs/2410.03877v2 )

ライセンス: Link先を確認
Michael Ibrahim, Heraldo Rozas, Nagi Gebraeel, Weijun Xie, (参考訳) 地理的に分散したデータを用いた故障診断タスクの分類モデルの訓練は、顧客に対して長期サービス契約(LTSC)の提供を求める元となる機器メーカー(OEM)にとって重要な課題である。 プライバシーと帯域幅の制約のため、そのようなモデルは連合的な方法で訓練されなければならない。 さらに、厳しい産業環境のため、データは特徴やラベルの不確実性に悩まされることが多い。 そこで本研究では,中央サーバとG$クライアントで構成されるネットワーク上で,分散ロバストな(DR)サポートベクタマシン(SVM)をフェデレーション方式でトレーニングする問題について検討する。 我々は、各クライアントのローカルデータがユニークな真の分布$\mathbb{P}_g$からサンプルされ、クライアントが中央サーバとしか通信できないような設定について検討する。 本稿では,各クライアントにおけるデータの実験的分布を中心とした局所的なワッサースタイン球に依存した,ワッサースタイン球の混合(MoWB)曖昧性集合を提案する。 提案したあいまいさ集合の理論的側面を考察し,そのアウト・オブ・サンプル性能保証を導出し,DR問題の分離性を自然に実現できることを示す。 次に、グローバルFDR-SVMをトレーニングするための2つの分散最適化アルゴリズムを提案する。 一 段階的な方法に基づくアルゴリズム及び 二 乗算器(ADMM)に基づくアルゴリズムの交互方向法 我々は,各クライアントが解決すべき最適化問題を導出し,両アルゴリズムのイテレーション毎に中央サーバが実行する計算のクローズドフォーム式を提供する。 最後に,シミュレーションデータと一般的な実世界のデータセットを併用した数値実験において,提案アルゴリズムの性能を徹底的に検証した。

The training of classification models for fault diagnosis tasks using geographically dispersed data is a crucial task for original equipment manufacturers (OEMs) seeking to provide long-term service contracts (LTSCs) to their customers. Due to privacy and bandwidth constraints, such models must be trained in a federated fashion. Moreover, due to harsh industrial settings the data often suffers from feature and label uncertainty. Therefore, we study the problem of training a distributionally robust (DR) support vector machine (SVM) in a federated fashion over a network comprised of a central server and $G$ clients without sharing data. We consider the setting where the local data of each client $g$ is sampled from a unique true distribution $\mathbb{P}_g$, and the clients can only communicate with the central server. We propose a novel Mixture of Wasserstein Balls (MoWB) ambiguity set that relies on local Wasserstein balls centered at the empirical distribution of the data at each client. We study theoretical aspects of the proposed ambiguity set, deriving its out-of-sample performance guarantees and demonstrating that it naturally allows for the separability of the DR problem. Subsequently, we propose two distributed optimization algorithms for training the global FDR-SVM: i) a subgradient method-based algorithm, and ii) an alternating direction method of multipliers (ADMM)-based algorithm. We derive the optimization problems to be solved by each client and provide closed-form expressions for the computations performed by the central server during each iteration for both algorithms. Finally, we thoroughly examine the performance of the proposed algorithms in a series of numerical experiments utilizing both simulation data and popular real-world datasets.
翻訳日:2024-11-02 15:40:54 公開日:2024-10-28
# 基礎言語モデル解釈のための変分言語概念

Variational Language Concepts for Interpreting Foundation Language Models ( http://arxiv.org/abs/2410.03964v1 )

ライセンス: Link先を確認
Hengyi Wang, Shiwei Tan, Zhiqing Hong, Desheng Zhang, Hao Wang, (参考訳) BERTなどの基盤言語モデル(FLM)は自然言語処理において顕著な成功を収めている。 これまで、FLMの解釈可能性は主に自己注意層における注意重みに依存してきた。 しかし、これらの注意重みは単語レベルの解釈しか提供せず、より高いレベルの構造を捉えることができず、読みやすさや直感性が欠如している。 この課題に対処するために、まず概念解釈の形式的定義を提供し、次にVAriational Language Concept (VALC)と呼ばれる変分ベイズ的枠組みを提案し、単語レベルの解釈を超えて概念レベルの解釈を提供する。 我々の理論解析により,我々のVALCはFLM予測の解釈に最適な言語概念を見出した。 いくつかの実世界のデータセットにおける実験結果から,本手法がFLMの概念解釈に有効であることが示された。

Foundation Language Models (FLMs) such as BERT and its variants have achieved remarkable success in natural language processing. To date, the interpretability of FLMs has primarily relied on the attention weights in their self-attention layers. However, these attention weights only provide word-level interpretations, failing to capture higher-level structures, and are therefore lacking in readability and intuitiveness. To address this challenge, we first provide a formal definition of conceptual interpretation and then propose a variational Bayesian framework, dubbed VAriational Language Concept (VALC), to go beyond word-level interpretations and provide concept-level interpretations. Our theoretical analysis shows that our VALC finds the optimal language concepts to interpret FLM predictions. Empirical results on several real-world datasets show that our method can successfully provide conceptual interpretation for FLMs.
翻訳日:2024-11-02 15:10:07 公開日:2024-10-28
# 基礎言語モデル解釈のための変分言語概念

Variational Language Concepts for Interpreting Foundation Language Models ( http://arxiv.org/abs/2410.03964v2 )

ライセンス: Link先を確認
Hengyi Wang, Shiwei Tan, Zhiqing Hong, Desheng Zhang, Hao Wang, (参考訳) BERTなどの基盤言語モデル(FLM)は自然言語処理において顕著な成功を収めている。 これまで、FLMの解釈可能性は主に自己注意層における注意重みに依存してきた。 しかし、これらの注意重みは単語レベルの解釈しか提供せず、より高いレベルの構造を捉えることができず、読みやすさや直感性が欠如している。 この課題に対処するために、まず概念解釈の形式的定義を提供し、次にVAriational Language Concept (VALC)と呼ばれる変分ベイズ的枠組みを提案し、単語レベルの解釈を超えて概念レベルの解釈を提供する。 我々の理論解析により,我々のVALCはFLM予測の解釈に最適な言語概念を見出した。 いくつかの実世界のデータセットにおける実験結果から,本手法がFLMの概念解釈に有効であることが示された。

Foundation Language Models (FLMs) such as BERT and its variants have achieved remarkable success in natural language processing. To date, the interpretability of FLMs has primarily relied on the attention weights in their self-attention layers. However, these attention weights only provide word-level interpretations, failing to capture higher-level structures, and are therefore lacking in readability and intuitiveness. To address this challenge, we first provide a formal definition of conceptual interpretation and then propose a variational Bayesian framework, dubbed VAriational Language Concept (VALC), to go beyond word-level interpretations and provide concept-level interpretations. Our theoretical analysis shows that our VALC finds the optimal language concepts to interpret FLM predictions. Empirical results on several real-world datasets show that our method can successfully provide conceptual interpretation for FLMs.
翻訳日:2024-11-02 15:00:17 公開日:2024-10-28
# 高次フィールドを用いた情報交換

Information Scrambling with Higher-Form Fields ( http://arxiv.org/abs/2410.04625v1 )

ライセンス: Link先を確認
Sourav Maji, Karunava Sil, Stavros Christodoulou, Abhishek Chowdhury, (参考訳) 一般的な非保存局所作用素を含むOTOCの後期挙動は、カオス的な多くの身体系において指数関数的崩壊を示す。 しかし、最近、あるホログラフィック理論において、ゲージ場に対する$U(1)$保存作用素を含むOTOCは、遅くとも微分的に変化することが観察されている。 本研究は、この観測を一般化対称性として知られるより広い種類の対称性に属する高形式対称性に対応する保存作用素に一般化する。 まず、5次元のAdS-Schwarzschildブラックホール幾何学において、U(1)$の電流演算子を含むOTOCの遅延挙動を2次元の非対称な$B$-場に対して計算した。 B$-フィールドのバルク解は漸近的なAdS境界付近で対数分岐を示し、境界CFTに二重トレース変形を導入することで正則化することができる。 最後に、任意の次元で反対称$p$-形式体を持つより一般的な場合を考える。 散乱法では、OTOC は漸近的な 'in' 状態と 'out' 状態の間の内積として記述することができ、この場合、衝撃波の背景を持たない2つのバルク場の間の内積の計算に等価である。 後者のOTOCは、電荷保存が$U(1)$の高次場の普遍的な特徴であると思われる、電力法則の尾を持つ。

The late time behaviour of OTOCs involving generic non conserved local operators show exponential decay in chaotic many body systems. However, it has been recently observed that for certain holographic theories, the OTOC involving the $U(1)$ conserved operator for a gauge field instead varies diffusively at late times. The present work generalizes this observation to conserved operators corresponding to higher-form symmetries that belong to a wider class of symmetries known as generalized symmetries. We started by computing the late time behaviour of OTOCs involving $U(1)$ current operators in five dimensional AdS-Schwarzschild black hole geometry for the 2-form antisymmetric $B$-fields. The bulk solution for the $B$-field exhibits logarithmic divergences near the asymptotic AdS boundary which can be regularized by introducing a double trace deformation in the boundary CFT. Finally, we consider the more general case with antisymmetric $p$-form fields in arbitrary dimensions. In the scattering approach, the boundary OTOC can be written as an inner product between asymptotic `in' and `out' states which in our case is equivalent to computing the inner product between two bulk fields with and without a shockwave background. We observe that the late time OTOC have power law tails which seems to be a universal feature of the higher-form fields with $U(1)$ charge conservation.
翻訳日:2024-11-02 06:26:32 公開日:2024-10-28
# 高次フィールドを用いた情報交換

Information Scrambling with Higher-Form Fields ( http://arxiv.org/abs/2410.04625v2 )

ライセンス: Link先を確認
Karunava Sil, Sourav Maji, Stavros Christodoulou, Abhishek Chowdhury, (参考訳) 一般的な非保存局所作用素を含むOTOCの後期挙動は、カオス的な多くの身体系において指数関数的崩壊を示す。 しかし、最近、あるホログラフィック理論において、ゲージ場に対する$U(1)$保存電流を含むOTOCは、遅くとも微分的に変化することが観察されている。 本研究は、この観測を一般化対称性として知られるより広い種類の対称性に属する高形式対称性に対応する保存電流に一般化する。 まず、5次元のAdS-Schwarzschildブラックホール幾何学において、U(1)$の電流演算子を含むOTOCの遅延挙動を2次元の非対称な$B$-場に対して計算した。 B$-フィールドのバルク解は漸近的なAdS境界付近で対数分岐を示し、境界CFTに二重トレース変形を導入することで正則化することができる。 最後に、任意の次元で反対称$p$-形式体を持つより一般的な場合を考える。 散乱法では、OTOC は漸近的 'in' 状態と 'out' 状態の間の内積として記述することができ、この場合、衝撃波の背景を持たない2つのバルク場の間の内積を計算するのに等価である。 後期のOTOCは、$U(1)$の電荷保存を持つ高次場の普遍的な特徴であると思われる、電力法則の尾を持つ。

The late time behaviour of OTOCs involving generic non-conserved local operators show exponential decay in chaotic many body systems. However, it has been recently observed that for certain holographic theories, the OTOC involving the $U(1)$ conserved current for a gauge field instead varies diffusively at late times. The present work generalizes this observation to conserved currents corresponding to higher-form symmetries that belong to a wider class of symmetries known as generalized symmetries. We started by computing the late time behaviour of OTOCs involving $U(1)$ current operators in five dimensional AdS-Schwarzschild black hole geometry for the 2-form antisymmetric $B$-fields. The bulk solution for the $B$-field exhibits logarithmic divergences near the asymptotic AdS boundary which can be regularized by introducing a double trace deformation in the boundary CFT. Finally, we consider the more general case with antisymmetric $p$-form fields in arbitrary dimensions. In the scattering approach, the boundary OTOC can be written as an inner product between asymptotic 'in' and 'out' states which in our case is equivalent to computing the inner product between two bulk fields with and without a shockwave background. We observe that the late time OTOCs have power law tails which seems to be a universal feature of the higher-form fields with $U(1)$ charge conservation.
翻訳日:2024-11-02 06:26:32 公開日:2024-10-28
# 非真空貯水池と相互作用する多層開放系の長時間挙動

Long-time behavior of multi-level open systems interacting with non-vacuum reservoirs ( http://arxiv.org/abs/2410.05505v1 )

ライセンス: Link先を確認
A. E. Teretenkov, (参考訳) 回転波近似における非真空貯水池と相互作用する多層開量子系のモデルを考える。 系の還元密度行列に対して正確な積分表現を与える。 対角状態における同一の非相関な貯水池については、ボゴルボフ・ヴァン・ホーブ極限におけるそのような力学に対する最初の摂動補正が得られた。 初期状態再正規化の後、有限次元半群の項で完全に記述できることが示されている。 また,Bogolubov-van Hoveスケーリングによる摂動理論のさらなる順序にも適用可能である。

The model of multi-level open quantum system interacting with a non-vacuum reservoir in the rotating wave approximation is considered. We provide an exact integral representation for the reduced density matrix of the system. For identical uncorrelated reservoirs in diagonal states, we have obtained the first perturbative correction for such dynamics in the Bogolubov-van Hove limit. We have shown that after initial state renormalization, it can be completely described in terms of finite-dimensional semigroup. The method we provide can also be applied to the further orders of perturbation theory with Bogolubov-van Hove scaling.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-28
# 非真空貯水池と相互作用する多層開放系の長時間挙動

Long-time behavior of multi-level open systems interacting with non-vacuum reservoirs ( http://arxiv.org/abs/2410.05505v2 )

ライセンス: Link先を確認
A. E. Teretenkov, (参考訳) 回転波近似における非真空貯水池と相互作用する多層開量子系のモデルを考える。 系の還元密度行列に対して正確な積分表現を与える。 対角状態における同一の非相関な貯水池については、ボゴルボフ・ヴァン・ホーブ極限におけるそのような力学に対する最初の摂動補正が得られた。 初期状態再正規化の後、有限次元半群の項で完全に記述できることが示されている。 また,Bogolubov-van Hoveスケーリングによる摂動理論のさらなる順序にも適用可能である。

The model of multi-level open quantum system interacting with a non-vacuum reservoir in the rotating wave approximation is considered. We provide an exact integral representation for the reduced density matrix of the system. For identical uncorrelated reservoirs in diagonal states, we have obtained the first perturbative correction for such dynamics in the Bogolubov-van Hove limit. We have shown that after initial state renormalization, it can be completely described in terms of finite-dimensional semigroup. The method we provide can also be applied to the further orders of perturbation theory with Bogolubov-van Hove scaling.
翻訳日:2024-11-01 18:18:05 公開日:2024-10-28
# 思考の境界を解き放つ:思考の連鎖の定量化と最適化のための粒度フレームワーク

Unlocking the Boundaries of Thought: A Reasoning Granularity Framework to Quantify and Optimize Chain-of-Thought ( http://arxiv.org/abs/2410.05695v1 )

ライセンス: Link先を確認
Qiguang Chen, Libo Qin, Jiaqi Wang, Jinxuan Zhou, Wanxiang Che, (参考訳) CoT(Chain-of-Thought)推論は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上のための有望なアプローチとして現れている。 最近、CoTの基盤となるメカニズムを説明し、その効果の理解を深めようと試みている。 それにもかかわらず、既存の研究は、(1)CoT能力を評価するための定量的指標の欠如、(2)CoT性能の最適化に関するガイダンスの欠如という2つの大きな課題に直面している。 そこで本研究では,これらの課題に対処する新たな推論粒度フレームワーク(RGF)を提案する。 定量化の欠如を解決するために、まず、CoTの上界を定量化するための推論粒度(RG)を定義し、RGの組合せ法則を確立し、様々な実世界のCoTタスクに適用可能な実用的な定量的アプローチを可能にする。 最適化の欠如に対処するため,RGの3つのカテゴリを提案する。 さらに、これらのカテゴリを、CoT改善のためのRGプロモーションと推論パス最適化に焦点を当てた法則で最適化する。 25のモデルと4つのタスクに関する広範な実験を通じて、提案したフレームワークの存在と合理性を検証する。 さらに、これは10のCoT戦略の有効性を説明し、最適化を2つの観点から導く。 LLMにおける推論のための境界と最適化戦略を包括的に理解できればと思っています。 私たちのコードとデータはhttps://github.com/LightChen233/reasoning-granularity.comで公開されています。

Chain-of-Thought (CoT) reasoning has emerged as a promising approach for enhancing the performance of large language models (LLMs) on complex reasoning tasks. Recently, a series of studies attempt to explain the mechanisms underlying CoT, aiming to deepen the understanding of its efficacy. Nevertheless, the existing research faces two major challenges: (1) a lack of quantitative metrics to assess CoT capabilities and (2) a dearth of guidance on optimizing CoT performance. Motivated by this, in this work, we introduce a novel reasoning granularity framework (RGF) to address these challenges. To solve the lack of quantification, we first define a reasoning granularity (RG) to quantify the upper bound of CoT and establish a combination law for RG, enabling a practical quantitative approach applicable to various real-world CoT tasks. To address the lack of optimization, we propose three categories of RGs. We further optimize these categories with combination laws focused on RG promotion and reasoning path optimization for CoT improvement. Through extensive experiments on 25 models and 4 tasks, the study validates the existence and rationality of the proposed framework. Furthermore, it explains the effectiveness of 10 CoT strategies and guides optimization from two perspectives. We hope this work can provide a comprehensive understanding of the boundaries and optimization strategies for reasoning in LLMs. Our code and data are available at https://github.com/LightChen233/reasoning-granularity.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-28
# 思考の能力を解き放つ:思考の連鎖の定量化と最適化のための推論境界フレームワーク

Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought ( http://arxiv.org/abs/2410.05695v2 )

ライセンス: Link先を確認
Qiguang Chen, Libo Qin, Jiaqi Wang, Jinxuan Zhou, Wanxiang Che, (参考訳) CoT(Chain-of-Thought)推論は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上のための有望なアプローチとして現れている。 最近、CoTの基盤となるメカニズムを説明し、その効果の理解を深めようと試みている。 それにもかかわらず、既存の研究は、(1)CoT能力を評価するための定量的指標の欠如、(2)CoT性能の最適化に関するガイダンスの欠如という2つの大きな課題に直面している。 そこで本研究では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を導入する。 定量化の欠如を解決するために,まず推論境界(RB)を定義し,CoTの上界を定量化し,RBの組合せ法則を確立する。 最適化の欠如に対処するため,RBの3つのカテゴリを提案する。 さらに、これらのカテゴリをRB促進とCoT改善のための推論経路最適化に焦点をあてた法則で最適化する。 27のモデルと5つのタスクに関する広範な実験を通じて、提案したフレームワークの存在と合理性を検証する。 さらに、これは10のCoT戦略の有効性を説明し、最適化を2つの観点から導く。 LLMにおける推論のための境界と最適化戦略を包括的に理解できればと思っています。 私たちのコードとデータはhttps://github.com/LightChen233/reasoning-boundary.comで公開されています。

Chain-of-Thought (CoT) reasoning has emerged as a promising approach for enhancing the performance of large language models (LLMs) on complex reasoning tasks. Recently, a series of studies attempt to explain the mechanisms underlying CoT, aiming to deepen the understanding of its efficacy. Nevertheless, the existing research faces two major challenges: (1) a lack of quantitative metrics to assess CoT capabilities and (2) a dearth of guidance on optimizing CoT performance. Motivated by this, in this work, we introduce a novel reasoning boundary framework (RBF) to address these challenges. To solve the lack of quantification, we first define a reasoning boundary (RB) to quantify the upper-bound of CoT and establish a combination law for RB, enabling a practical quantitative approach applicable to various real-world CoT tasks. To address the lack of optimization, we propose three categories of RBs. We further optimize these categories with combination laws focused on RB promotion and reasoning path optimization for CoT improvement. Through extensive experiments on 27 models and 5 tasks, the study validates the existence and rationality of the proposed framework. Furthermore, it explains the effectiveness of 10 CoT strategies and guides optimization from two perspectives. We hope this work can provide a comprehensive understanding of the boundaries and optimization strategies for reasoning in LLMs. Our code and data are available at https://github.com/LightChen233/reasoning-boundary.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-28
# 知識コンパイルマップにおけるブール近傍言語

Boolean Nearest Neighbor Language in the Knowledge Compilation Map ( http://arxiv.org/abs/2410.06332v1 )

ライセンス: Link先を確認
Ondřej Čepek, Jelena Glišić, (参考訳) ブール関数のBNN(Boolean Nearest Neighbor)表現は、最近、Hajnal, Liu, Turanによって導入された。 for every positive prototype $x \in P$, $f(x)=0$ for all every negative prototype $x \in N$, and the value $f(x)$ for $x \not\in P \cup N$ is determined by the type of the most prototype。 本研究の目的は,知識コンパイルマップ(KCM)におけるBNN言語の位置を決定することである。 この目的のために、BNN言語の簡潔さをKCMからいくつかの標準言語と比較し、BNN入力のほとんどの標準クエリと変換の複雑さを判定する結果を導出する。

The Boolean Nearest Neighbor (BNN) representation of Boolean functions was recently introduced by Hajnal, Liu and Turan. A BNN representation of $f$ is a pair $(P,N)$ of sets of Boolean vectors (called positive and negative prototypes) where $f(x)=1$ for every positive prototype $x \in P$, $f(x)=0$ for all every negative prototype $x \in N$, and the value $f(x)$ for $x \not\in P \cup N$ is determined by the type of the closest prototype. The main aim of this paper is to determine the position of the BNN language in the Knowledge Compilation Map (KCM). To this end, we derive results which compare the succinctness of the BNN language to several standard languages from KCM, and determine the complexity status of most standard queries and transformations for BNN inputs.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-28
# 知識コンパイルマップにおけるブール近傍言語

Boolean Nearest Neighbor Language in the Knowledge Compilation Map ( http://arxiv.org/abs/2410.06332v2 )

ライセンス: Link先を確認
Ondřej Čepek, Jelena Glišić, (参考訳) ブール関数のBNN(Boolean Nearest Neighbor)表現は、最近、Hajnal, Liu, Turanによって導入された。 for every positive prototype $x \in P$, $f(x)=0$ for all every negative prototype $x \in N$, and the value $f(x)$ for $x \not\in P \cup N$ is determined by the type of the most prototype。 本研究の目的は,知識コンパイルマップ(KCM)におけるBNN言語の位置を決定することである。 この目的のために、BNN言語の簡潔さをKCMからいくつかの標準言語と比較し、BNN入力のほとんどの標準クエリと変換の複雑さを判定する結果を導出する。

The Boolean Nearest Neighbor (BNN) representation of Boolean functions was recently introduced by Hajnal, Liu and Turan. A BNN representation of $f$ is a pair $(P,N)$ of sets of Boolean vectors (called positive and negative prototypes) where $f(x)=1$ for every positive prototype $x \in P$, $f(x)=0$ for all every negative prototype $x \in N$, and the value $f(x)$ for $x \not\in P \cup N$ is determined by the type of the closest prototype. The main aim of this paper is to determine the position of the BNN language in the Knowledge Compilation Map (KCM). To this end, we derive results which compare the succinctness of the BNN language to several standard languages from KCM, and determine the complexity status of most standard queries and transformations for BNN inputs.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-28
# 量子信号処理のための高速位相因子探索

Fast Phase Factor Finding for Quantum Signal Processing ( http://arxiv.org/abs/2410.06409v1 )

ライセンス: Link先を確認
Hongkang Ni, Lexing Ying, (参考訳) 本稿では、多くの量子アルゴリズムの重要な構成要素である量子信号処理(QSP)において、位相因子を回復するための2つの効率的かつ安定したアルゴリズムを提案する。 非線形フーリエ解析と構造化行列の高速解法に基づく第1のアルゴリズム ``ハルフ・チョレスキー' は、全てのレシエーションに対して堅牢な性能を示す。第2のアルゴリズム ``Fast Fixed Point Iteration" は、非完全整合系においてさらに高い効率を提供する。 理論解析と数値実験の両方は、これらの新しい手法が既存の全ての手法に対して有益であることを示すものである。

This paper presents two efficient and stable algorithms for recovering phase factors in quantum signal processing (QSP), a crucial component of many quantum algorithms. The first algorithm, the ``Half Cholesky" method, which is based on nonlinear Fourier analysis and fast solvers for structured matrices, demonstrates robust performance across all regimes. The second algorithm, ``Fast Fixed Point Iteration," provides even greater efficiency in the non-fully-coherent regime. Both theoretical analysis and numerical experiments demonstrate the significant advantages of these new methods over all existing approaches.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-28
# 量子信号処理のための高速位相因子探索

Fast Phase Factor Finding for Quantum Signal Processing ( http://arxiv.org/abs/2410.06409v2 )

ライセンス: Link先を確認
Hongkang Ni, Lexing Ying, (参考訳) 本稿では、多くの量子アルゴリズムの重要な構成要素である量子信号処理(QSP)において、位相因子を回復するための2つの効率的かつ安定したアルゴリズムを提案する。 非線形フーリエ解析と構造化行列の高速解法に基づく第1のアルゴリズム ``ハルフ・チョレスキー' は、全てのレシエーションに対して堅牢な性能を示す。第2のアルゴリズム ``Fast Fixed Point Iteration" は、非完全整合系においてさらに高い効率を提供する。 理論解析と数値実験の両方は、これらの新しい手法が既存の全ての手法に対して有益であることを示すものである。

This paper presents two efficient and stable algorithms for recovering phase factors in quantum signal processing (QSP), a crucial component of many quantum algorithms. The first algorithm, the ``Half Cholesky" method, which is based on nonlinear Fourier analysis and fast solvers for structured matrices, demonstrates robust performance across all regimes. The second algorithm, ``Fast Fixed Point Iteration," provides even greater efficiency in the non-fully-coherent regime. Both theoretical analysis and numerical experiments demonstrate the significant advantages of these new methods over all existing approaches.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-28
# CoBa:大規模言語モデルのマルチタスクファインタニングのための収束バランサ

CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models ( http://arxiv.org/abs/2410.06741v1 )

ライセンス: Link先を確認
Zi Gong, Hang Yu, Cong Liao, Bingchang Liu, Chaoyu Chen, Jianguo Li, (参考訳) マルチタスク学習(MTL)は、タスク間のパフォーマンスと一般化能力を改善した単一モデルを提供することで、大きな言語モデル(LLM)の微調整の恩恵を受ける。 しかし、LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。 本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。 相対収束スコア(RCS)、絶対収束スコア(ACS)、分散係数(DF)を用いることで、CoBaはトレーニングプロセス中にタスクの重みを動的に調整し、各タスクの偏りの問題を緩和しつつ、全タスクの検証損失が偶数ペースで収束に向かって進むことを保証する。 3つの異なるデータセットを用いた実験の結果、このアプローチはタスク改善の均衡を促進させるだけでなく、LLMの性能を2番目に高いベースラインに対して最大13%向上させることを示した。 コードはhttps://github.com/codefuse-ai/MFTCoder.comで公開されている。

Multi-task learning (MTL) benefits the fine-tuning of large language models (LLMs) by providing a single model with improved performance and generalization ability across tasks, presenting a resource-efficient alternative to developing separate models for each task. Yet, existing MTL strategies for LLMs often fall short by either being computationally intensive or failing to ensure simultaneous task convergence. This paper presents CoBa, a new MTL approach designed to effectively manage task convergence balance with minimal computational overhead. Utilizing Relative Convergence Scores (RCS), Absolute Convergence Scores (ACS), and a Divergence Factor (DF), CoBa dynamically adjusts task weights during the training process, ensuring that the validation loss of all tasks progress towards convergence at an even pace while mitigating the issue of individual task divergence. The results of our experiments involving three disparate datasets underscore that this approach not only fosters equilibrium in task improvement but enhances the LLMs' performance by up to 13% relative to the second-best baselines. Code is open-sourced at https://github.com/codefuse-ai/MFTCoder.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-28
# CoBa:大規模言語モデルのマルチタスクファインタニングのための収束バランサ

CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models ( http://arxiv.org/abs/2410.06741v2 )

ライセンス: Link先を確認
Zi Gong, Hang Yu, Cong Liao, Bingchang Liu, Chaoyu Chen, Jianguo Li, (参考訳) マルチタスク学習(MTL)は、タスク間のパフォーマンスと一般化能力を改善した単一モデルを提供することで、大きな言語モデル(LLM)の微調整の恩恵を受ける。 しかし、LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。 本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。 相対収束スコア(RCS)、絶対収束スコア(ACS)、分散係数(DF)を用いることで、CoBaはトレーニングプロセス中にタスクの重みを動的に調整し、各タスクの偏りの問題を緩和しつつ、全タスクの検証損失が偶数ペースで収束に向かって進むことを保証する。 3つの異なるデータセットを用いた実験の結果、このアプローチはタスク収束の均衡を促進させるだけでなく、LLMの性能を2番目に高いベースラインに対して最大13%向上させることを示した。 コードはhttps://github.com/codefuse-ai/MFTCoder.comで公開されている。

Multi-task learning (MTL) benefits the fine-tuning of large language models (LLMs) by providing a single model with improved performance and generalization ability across tasks, presenting a resource-efficient alternative to developing separate models for each task. Yet, existing MTL strategies for LLMs often fall short by either being computationally intensive or failing to ensure simultaneous task convergence. This paper presents CoBa, a new MTL approach designed to effectively manage task convergence balance with minimal computational overhead. Utilizing Relative Convergence Scores (RCS), Absolute Convergence Scores (ACS), and a Divergence Factor (DF), CoBa dynamically adjusts task weights during the training process, ensuring that the validation loss of all tasks progress towards convergence at an even pace while mitigating the issue of individual task divergence. The results of our experiments involving three disparate datasets underscore that this approach not only fosters equilibrium in task convergence but enhances the LLMs' performance by up to 13% relative to the second-best baselines. Code is open-sourced at https://github.com/codefuse-ai/MFTCoder.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-28
# MOOSE-Chem:未知の化学仮説を再現する大規模言語モデル

MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses ( http://arxiv.org/abs/2410.07076v1 )

ライセンス: Link先を確認
Zonglin Yang, Wanhao Liu, Ben Gao, Tong Xie, Yuqiang Li, Wanli Ouyang, Soujanya Poria, Erik Cambria, Dongzhan Zhou, (参考訳) 科学的発見は、主に人間の社会の繁栄に寄与し、最近の進歩は、LSMがこの過程を触媒する可能性があることを示している。 しかし、LSMが化学において新規で有効な仮説を発見できるかどうかはまだ不明である。 LLMは、化学研究の背景(研究課題と/または背景調査を含む)のみに与えられる新規で有効な化学研究仮説を、研究課題の領域に制限を加えることなく、自動的に発見できるのか? 化学専門家との広範な議論の後、研究の背景といくつかのインスピレーションから化学仮説の大多数を導出できるという仮定を提案する。 この重要な洞察で、中心的な質問を3つの小さな基本的な質問に分割します。 簡単に言えば、(1) LLM が良いインスピレーションを得られるかどうか、(2) LLM が仮説に導くことができるかどうか、(3) LLM がそれらをより高いランク付けする適切な仮説を特定できるかどうか、といった背景質問である。 これらの問題を調査するため,我々は,自然,科学,あるいは2024年に発行された51の化学論文からなるベンチマークを構築した(すべての論文は2024年以降,オンラインでのみ公開されている)。 全ての論文は化学博士課程の学生によって背景、インスピレーション、仮説の3つの構成要素に分けられる。 目的は仮説を再発見することであり、背景と、2023年までのデータで訓練されたLLMによる基礎的な真実のインスピレーション論文からなる、大きなランダムに選択された化学文献コーパスのみを考慮に入れたものである。 また,3つの小さな質問を反映した3段階からなる仮定を活かしたLLMベースのマルチエージェントフレームワークも開発している。 提案手法は, 基礎的真理と非常によく似た多くの仮説を再発見し, 主なイノベーションを網羅する。

Scientific discovery contributes largely to human society's prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-28
# MOOSE-Chem:未知の化学仮説を再現する大規模言語モデル

MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses ( http://arxiv.org/abs/2410.07076v2 )

ライセンス: Link先を確認
Zonglin Yang, Wanhao Liu, Ben Gao, Tong Xie, Yuqiang Li, Wanli Ouyang, Soujanya Poria, Erik Cambria, Dongzhan Zhou, (参考訳) 科学的発見は、主に人間の社会の繁栄に寄与し、最近の進歩は、LSMがこの過程を触媒する可能性があることを示している。 しかし、LSMが化学において新規で有効な仮説を発見できるかどうかはまだ不明である。 LLMは、化学研究の背景(研究課題と/または背景調査を含む)のみに与えられる新規で有効な化学研究仮説を、研究課題の領域に制限を加えることなく、自動的に発見できるのか? 化学専門家との広範な議論の後、研究の背景といくつかのインスピレーションから化学仮説の大多数を導出できるという仮定を提案する。 この重要な洞察で、中心的な質問を3つの小さな基本的な質問に分割します。 簡単に言えば、(1) LLM が良いインスピレーションを得られるかどうか、(2) LLM が仮説に導くことができるかどうか、(3) LLM がそれらをより高いランク付けする適切な仮説を特定できるかどうか、といった背景質問である。 これらの問題を調査するため,我々は,自然,科学,あるいは2024年に発行された51の化学論文からなるベンチマークを構築した(すべての論文は2024年以降,オンラインでのみ公開されている)。 全ての論文は化学博士課程の学生によって背景、インスピレーション、仮説の3つの構成要素に分けられる。 目的は仮説を再発見することであり、背景と、2023年までのデータで訓練されたLLMによる基礎的な真実のインスピレーション論文からなる、大きなランダムに選択された化学文献コーパスのみを考慮に入れたものである。 また,3つの小さな質問を反映した3段階からなる仮定を活かしたLLMベースのマルチエージェントフレームワークも開発している。 提案手法は, 基礎的真理と非常によく似た多くの仮説を再発見し, 主なイノベーションを網羅する。

Scientific discovery contributes largely to human society's prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-28
# MOOSE-Chem:未知の化学仮説を再現する大規模言語モデル

MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses ( http://arxiv.org/abs/2410.07076v3 )

ライセンス: Link先を確認
Zonglin Yang, Wanhao Liu, Ben Gao, Tong Xie, Yuqiang Li, Wanli Ouyang, Soujanya Poria, Erik Cambria, Dongzhan Zhou, (参考訳) 科学的発見は、主に人間の社会の繁栄に寄与し、最近の進歩は、LSMがこの過程を触媒する可能性があることを示している。 しかし、LSMが化学において新規で有効な仮説を発見できるかどうかはまだ不明である。 LLMは、化学研究の背景(研究課題と/または背景調査を含む)のみに与えられる新規で有効な化学研究仮説を、研究課題の領域に制限を加えることなく、自動的に発見できるのか? 化学専門家との広範な議論の後、研究の背景といくつかのインスピレーションから化学仮説の大多数を導出できるという仮定を提案する。 この重要な洞察で、中心的な質問を3つの小さな基本的な質問に分割します。 簡単に言えば、(1) LLM が良いインスピレーションを得られるかどうか、(2) LLM が仮説に導くことができるかどうか、(3) LLM がそれらをより高いランク付けする適切な仮説を特定できるかどうか、といった背景質問である。 これらの問題を調査するため,我々は,自然,科学,あるいは2024年に発行された51の化学論文からなるベンチマークを構築した(すべての論文は2024年以降,オンラインでのみ公開されている)。 全ての論文は化学博士課程の学生によって背景、インスピレーション、仮説の3つの構成要素に分けられる。 目的は仮説を再発見することであり、背景と、2023年までのデータで訓練されたLLMによる基礎的な真実のインスピレーション論文からなる、大きなランダムに選択された化学文献コーパスのみを考慮に入れたものである。 また,3つの小さな質問を反映した3段階からなる仮定を活かしたLLMベースのマルチエージェントフレームワークも開発している。 提案手法は, 基礎的真理と非常によく似た多くの仮説を再発見し, 主なイノベーションを網羅する。

Scientific discovery contributes largely to human society's prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-28
# 単純さの優位性: LLMアンラーニングにおける否定的選好最適化の再考

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning ( http://arxiv.org/abs/2410.07163v1 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu, (参考訳) 本研究では、不要なデータの影響や関連するモデル機能(著作権付きデータや有害コンテンツ生成など)を、スクラッチから再学習することなく、必要不可欠なモデルユーティリティを保ちながら除去することを目的とした、大規模言語モデル(LLM)アンラーニングの問題に対処する。 LLMアンラーニングの必要性が高まっているにもかかわらず、原則化された最適化フレームワークはいまだに欠如している。 この目的のために、我々は最先端のアプローチ、負の選好最適化(NPO)を再検討し、NPOの有効性を損なう可能性のある参照モデルバイアスの問題を特定する。 そこで我々は,SimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し,参照モデルへの依存を除去する'単純さ'が,アンラーニングの恩恵をもたらすことを示した。 また、マルコフ連鎖の混合物を用いた解析により、SimNPOの利点についてより深い知見を提供する。 さらに,TOFUやMUSEなどのベンチマークにおいて,既存の未学習ベースラインよりもSimNPOの方が優れていること,再学習攻撃に対する堅牢性を検証した広範な実験を行った。 コードはhttps://github.com/OPTML-Group/Unlearn-Simpleで入手できる。

In this work, we address the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences and associated model capabilities (e.g., copyrighted data or harmful content generation) while preserving essential model utilities, without the need for retraining from scratch. Despite the growing need for LLM unlearning, a principled optimization framework remains lacking. To this end, we revisit the state-of-the-art approach, negative preference optimization (NPO), and identify the issue of reference model bias, which could undermine NPO's effectiveness, particularly when unlearning forget data of varying difficulty. Given that, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that 'simplicity' in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We also provide deeper insights into SimNPO's advantages, supported by analysis using mixtures of Markov chains. Furthermore, we present extensive experiments validating SimNPO's superiority over existing unlearning baselines in benchmarks like TOFU and MUSE, and robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-28
# 単純さの優位性: LLMアンラーニングにおける否定的選好最適化の再考

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning ( http://arxiv.org/abs/2410.07163v2 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu, (参考訳) 本研究では、不要なデータの影響や関連するモデル機能(著作権付きデータや有害コンテンツ生成など)を、スクラッチから再学習することなく、必要不可欠なモデルユーティリティを保ちながら除去することを目的とした、大規模言語モデル(LLM)アンラーニングの問題に対処する。 LLMアンラーニングの必要性が高まっているにもかかわらず、原則化された最適化フレームワークはいまだに欠如している。 この目的のために、我々は最先端のアプローチ、負の選好最適化(NPO)を再検討し、NPOの有効性を損なう可能性のある参照モデルバイアスの問題を特定する。 そこで我々は,SimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し,参照モデルへの依存を除去する'単純さ'が,アンラーニングの恩恵をもたらすことを示した。 また、マルコフ連鎖の混合物を用いた解析により、SimNPOの利点についてより深い知見を提供する。 さらに,TOFUやMUSEなどのベンチマークにおいて,既存の未学習ベースラインよりもSimNPOの方が優れていること,再学習攻撃に対する堅牢性を検証した広範な実験を行った。 コードはhttps://github.com/OPTML-Group/Unlearn-Simpleで入手できる。

In this work, we address the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences and associated model capabilities (e.g., copyrighted data or harmful content generation) while preserving essential model utilities, without the need for retraining from scratch. Despite the growing need for LLM unlearning, a principled optimization framework remains lacking. To this end, we revisit the state-of-the-art approach, negative preference optimization (NPO), and identify the issue of reference model bias, which could undermine NPO's effectiveness, particularly when unlearning forget data of varying difficulty. Given that, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that 'simplicity' in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We also provide deeper insights into SimNPO's advantages, supported by analysis using mixtures of Markov chains. Furthermore, we present extensive experiments validating SimNPO's superiority over existing unlearning baselines in benchmarks like TOFU and MUSE, and robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-28
# 個人化フェデレーション学習のためのデータ不均一性評価手法のベンチマーク

Benchmarking Data Heterogeneity Evaluation Approaches for Personalized Federated Learning ( http://arxiv.org/abs/2410.07286v1 )

ライセンス: Link先を確認
Zhilong Li, Xiaohu Wu, Xiaoli Tang, Tiantian He, Yew-Soon Ong, Mengmeng Chen, Qiqi Liu, Qicheng Lao, Xiaoxiao Li, Han Yu, (参考訳) クライアントのローカルデータセットの統計的不均一性を測定することに対する研究の関心が高まっている。 このような測定は、パーソナライズド・フェデレーション・ラーニング(PFL)モデルの協調学習に適しているかを推定するために用いられる。 現在、これらの研究はサイロで行われており、共通環境での様々なアプローチの公正かつ便利な比較を行うための統一されたベンチマークが欠如している。 この論文の重要なギャップを埋めることを目指しています。 提案されているベンチマークフレームワークには6つの代表的なアプローチが含まれている。 5つの標準の非IID FL設定でこれらのアプローチを比較するために大規模な実験が行われており、どのアプローチがどの条件下で有利であるかについての多くの知見が得られている。 提案フレームワークは,FLシステムにおける各種データ分散対策の適合性に関する有用なガイダンスを提供する。 1)PFLスキームの設計,(2)特定のFLアプリケーションシナリオに対する適切なデータ不均一性評価アプローチの選択,(3)協調モデルトレーニングにおける公平性の問題に対処する。 コードはhttps://github.com/Xiaoni-61/DH-Benchmarkで公開されている。

There is growing research interest in measuring the statistical heterogeneity of clients' local datasets. Such measurements are used to estimate the suitability for collaborative training of personalized federated learning (PFL) models. Currently, these research endeavors are taking place in silos and there is a lack of a unified benchmark to provide a fair and convenient comparison among various approaches in common settings. We aim to bridge this important gap in this paper. The proposed benchmarking framework currently includes six representative approaches. Extensive experiments have been conducted to compare these approaches under five standard non-IID FL settings, providing much needed insights into which approaches are advantageous under which settings. The proposed framework offers useful guidance on the suitability of various data divergence measures in FL systems. It is beneficial for keeping related research activities on the right track in terms of: (1) designing PFL schemes, (2) selecting appropriate data heterogeneity evaluation approaches for specific FL application scenarios, and (3) addressing fairness issues in collaborative model training. The code is available at https://github.com/Xiaoni-61/DH-Benchmark.
翻訳日:2024-10-31 21:16:56 公開日:2024-10-28
# 個人化フェデレーション学習のためのデータ不均一性評価手法のベンチマーク

Benchmarking Data Heterogeneity Evaluation Approaches for Personalized Federated Learning ( http://arxiv.org/abs/2410.07286v2 )

ライセンス: Link先を確認
Zhilong Li, Xiaohu Wu, Xiaoli Tang, Tiantian He, Yew-Soon Ong, Mengmeng Chen, Qiqi Liu, Qicheng Lao, Han Yu, (参考訳) クライアントのローカルデータセットの統計的不均一性を測定することに対する研究の関心が高まっている。 このような測定は、パーソナライズド・フェデレーション・ラーニング(PFL)モデルの協調学習に適しているかを推定するために用いられる。 現在、これらの研究はサイロで行われており、共通環境での様々なアプローチの公正かつ便利な比較を行うための統一されたベンチマークが欠如している。 この論文の重要なギャップを埋めることを目指しています。 提案されているベンチマークフレームワークには6つの代表的なアプローチが含まれている。 5つの標準の非IID FL設定でこれらのアプローチを比較するために大規模な実験が行われており、どのアプローチがどの条件下で有利であるかについての多くの知見が得られている。 提案フレームワークは,FLシステムにおける各種データ分散対策の適合性に関する有用なガイダンスを提供する。 1)PFLスキームの設計,(2)特定のFLアプリケーションシナリオに対する適切なデータ不均一性評価アプローチの選択,(3)協調モデルトレーニングにおける公平性の問題に対処する。 コードはhttps://github.com/Xiaoni-61/DH-Benchmarkで公開されている。

There is growing research interest in measuring the statistical heterogeneity of clients' local datasets. Such measurements are used to estimate the suitability for collaborative training of personalized federated learning (PFL) models. Currently, these research endeavors are taking place in silos and there is a lack of a unified benchmark to provide a fair and convenient comparison among various approaches in common settings. We aim to bridge this important gap in this paper. The proposed benchmarking framework currently includes six representative approaches. Extensive experiments have been conducted to compare these approaches under five standard non-IID FL settings, providing much needed insights into which approaches are advantageous under which settings. The proposed framework offers useful guidance on the suitability of various data divergence measures in FL systems. It is beneficial for keeping related research activities on the right track in terms of: (1) designing PFL schemes, (2) selecting appropriate data heterogeneity evaluation approaches for specific FL application scenarios, and (3) addressing fairness issues in collaborative model training. The code is available at https://github.com/Xiaoni-61/DH-Benchmark.
翻訳日:2024-10-31 21:16:56 公開日:2024-10-28
# 統計力学からのポストセレクト量子誤差補正のための閾値

Thresholds for post-selected quantum error correction from statistical mechanics ( http://arxiv.org/abs/2410.07598v1 )

ライセンス: Link先を確認
Lucas H. English, Dominic J. Williamson, Stephen D. Bartlett, (参考訳) 量子誤り訂正 (QEC) において, 選択後の精度を高く評価し, 性能向上を図る。 統計力学モデルを用いて、選択後のQECの性能と閾値を解析的に定量化し、表面コードに焦点をあてる。 これらのモデルの非平衡磁化に基づいて、デコーダを必要としないポストセレクションのための単純なヒューリスティック手法を同定する。 性能向上とともに、このヒューリスティックにより、選択後の条件付き論理しきい値と表面符号の停止しきい値に対する解析式を導出することができる。 これらの後選択QECは4つの異なる熱力学的位相によって特徴づけられ、実用的でスケーラブルな量子計算におけるこの位相空間の影響を詳述する。

We identify regimes where post-selection can be used scalably in quantum error correction (QEC) to improve performance. We use statistical mechanical models to analytically quantify the performance and thresholds of post-selected QEC, with a focus on the surface code. Based on the non-equilibrium magnetization of these models, we identify a simple heuristic technique for post-selection that does not require a decoder. Along with performance gains, this heuristic allows us to derive analytic expressions for post-selected conditional logical thresholds and abort thresholds of surface codes. We find that such post-selected QEC is characterised by four distinct thermodynamic phases, and detail the implications of this phase space for practical, scalable quantum computation.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-28
# 統計力学からのポストセレクト量子誤差補正のための閾値

Thresholds for post-selected quantum error correction from statistical mechanics ( http://arxiv.org/abs/2410.07598v2 )

ライセンス: Link先を確認
Lucas H. English, Dominic J. Williamson, Stephen D. Bartlett, (参考訳) 量子誤り訂正 (QEC) において, 選択後の精度を高く評価し, 性能向上を図る。 統計力学モデルを用いて、選択後のQECの性能と閾値を解析的に定量化し、表面コードに焦点をあてる。 これらのモデルの非平衡磁化に基づいて、デコーダを必要としないポストセレクションのための単純なヒューリスティック手法を同定する。 性能向上とともに、このヒューリスティックにより、選択後の条件付き論理しきい値と表面符号の停止しきい値に対する解析式を導出することができる。 これらの後選択QECは4つの異なる熱力学的位相によって特徴づけられ、実用的でスケーラブルな量子計算におけるこの位相空間の影響を詳述する。

We identify regimes where post-selection can be used scalably in quantum error correction (QEC) to improve performance. We use statistical mechanical models to analytically quantify the performance and thresholds of post-selected QEC, with a focus on the surface code. Based on the non-equilibrium magnetization of these models, we identify a simple heuristic technique for post-selection that does not require a decoder. Along with performance gains, this heuristic allows us to derive analytic expressions for post-selected conditional logical thresholds and abort thresholds of surface codes. We find that such post-selected QEC is characterised by four distinct thermodynamic phases, and detail the implications of this phase space for practical, scalable quantum computation.
翻訳日:2024-10-31 16:06:31 公開日:2024-10-28
# 映像からの物理に基づく人体モーションキャプチャの最適状態ダイナミクス推定

Optimal-State Dynamics Estimation for Physics-based Human Motion Capture from Videos ( http://arxiv.org/abs/2410.07795v1 )

ライセンス: Link先を確認
Cuong Le, Viktor Johansson, Manon Kok, Bastian Wandt, (参考訳) モノクラービデオからの人間のモーションキャプチャーは近年大きな進歩を遂げている。 しかし、現代のアプローチは時相的アーティファクト(例えばジッタリー運動)を生み出し、滑らかで物理的に可塑性な運動を達成するのに苦労する。 内部の力と外周のトルクという形で物理を統合することは、これらの人工物を軽減するのに役立ちます。 現在の最先端のアプローチでは、自動PDコントローラを使用して、入力キネマティクス、すなわち予め定義された骨格の関節角を再現するためにトルクと反応力を予測している。 しかし、不完全な物理モデルのため、これらの手法は良い性能を達成するために、仮定の単純化と入力キネマティクスの広範な前処理を必要とすることが多い。 そこで本研究では,ニューラルカルマンフィルタ法に着想を得て,物理モデルとキネマティックス観測をオンライン環境で選択的に統合する手法を提案する。 内部の関節トルクと外部の反応力を予測するメタPDコントローラとして制御ループを開発し,それに続いて物理に基づく運動シミュレーションを行った。 リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスさせるカルマンフィルタを実現し、最適状態ダイナミクス予測を実現する。 このフィルタリングのステップは,各入力動作の欠点のバランスをとる上で重要なものであり,正確なグローバルな動き軌跡を捉えるだけでなく,物理的にもっともらしい人間のポーズを生成する上でも重要であることを示す。 提案手法は, 物理に基づく人間のポーズ推定作業に優れ, 予測力学の物理的妥当性を, 最先端技術と比較して実証する。 コードはhttps://github.com/cuongle1206/OSDCapで入手できる。

Human motion capture from monocular videos has made significant progress in recent years. However, modern approaches often produce temporal artifacts, e.g. in form of jittery motion and struggle to achieve smooth and physically plausible motions. Explicitly integrating physics, in form of internal forces and exterior torques, helps alleviating these artifacts. Current state-of-the-art approaches make use of an automatic PD controller to predict torques and reaction forces in order to re-simulate the input kinematics, i.e. the joint angles of a predefined skeleton. However, due to imperfect physical models, these methods often require simplifying assumptions and extensive preprocessing of the input kinematics to achieve good performance. To this end, we propose a novel method to selectively incorporate the physics models with the kinematics observations in an online setting, inspired by a neural Kalman-filtering approach. We develop a control loop as a meta-PD controller to predict internal joint torques and external reaction forces, followed by a physics-based motion simulation. A recurrent neural network is introduced to realize a Kalman filter that attentively balances the kinematics input and simulated motion, resulting in an optimal-state dynamics prediction. We show that this filtering step is crucial to provide an online supervision that helps balancing the shortcoming of the respective input motions, thus being important for not only capturing accurate global motion trajectories but also producing physically plausible human poses. The proposed approach excels in the physics-based human pose estimation task and demonstrates the physical plausibility of the predictive dynamics, compared to state of the art. The code is available on https://github.com/cuongle1206/OSDCap
翻訳日:2024-10-31 14:56:00 公開日:2024-10-28
# 映像からの物理に基づく人体モーションキャプチャの最適状態ダイナミクス推定

Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos ( http://arxiv.org/abs/2410.07795v2 )

ライセンス: Link先を確認
Cuong Le, Viktor Johansson, Manon Kok, Bastian Wandt, (参考訳) モノクラービデオからの人間のモーションキャプチャーは近年大きな進歩を遂げている。 しかし、現代のアプローチは時相的アーティファクト(例えばジッタリー運動)を生み出し、滑らかで物理的に可塑性な運動を達成するのに苦労する。 内部の力と外周のトルクという形で物理を統合することは、これらの人工物を軽減するのに役立ちます。 現在の最先端のアプローチでは、自動PDコントローラを使用して、入力キネマティクス、すなわち予め定義された骨格の関節角を再現するためにトルクと反応力を予測している。 しかし、不完全な物理モデルのため、これらの手法は良い性能を達成するために、仮定の単純化と入力キネマティクスの広範な前処理を必要とすることが多い。 そこで本研究では,ニューラルカルマンフィルタ法に着想を得て,物理モデルとキネマティックス観測をオンライン環境で選択的に統合する手法を提案する。 内部の関節トルクと外部の反応力を予測するメタPDコントローラとして制御ループを開発し,それに続いて物理に基づく運動シミュレーションを行った。 リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスさせるカルマンフィルタを実現し、最適状態ダイナミクス予測を実現する。 このフィルタリングのステップは,各入力動作の欠点のバランスをとる上で重要なものであり,正確なグローバルな動き軌跡を捉えるだけでなく,物理的にもっともらしい人間のポーズを生成する上でも重要であることを示す。 提案手法は, 物理に基づく人間のポーズ推定作業に優れ, 予測力学の物理的妥当性を, 最先端技術と比較して実証する。 コードはhttps://github.com/cuongle1206/OSDCapで入手できる。

Human motion capture from monocular videos has made significant progress in recent years. However, modern approaches often produce temporal artifacts, e.g. in form of jittery motion and struggle to achieve smooth and physically plausible motions. Explicitly integrating physics, in form of internal forces and exterior torques, helps alleviating these artifacts. Current state-of-the-art approaches make use of an automatic PD controller to predict torques and reaction forces in order to re-simulate the input kinematics, i.e. the joint angles of a predefined skeleton. However, due to imperfect physical models, these methods often require simplifying assumptions and extensive preprocessing of the input kinematics to achieve good performance. To this end, we propose a novel method to selectively incorporate the physics models with the kinematics observations in an online setting, inspired by a neural Kalman-filtering approach. We develop a control loop as a meta-PD controller to predict internal joint torques and external reaction forces, followed by a physics-based motion simulation. A recurrent neural network is introduced to realize a Kalman filter that attentively balances the kinematics input and simulated motion, resulting in an optimal-state dynamics prediction. We show that this filtering step is crucial to provide an online supervision that helps balancing the shortcoming of the respective input motions, thus being important for not only capturing accurate global motion trajectories but also producing physically plausible human poses. The proposed approach excels in the physics-based human pose estimation task and demonstrates the physical plausibility of the predictive dynamics, compared to state of the art. The code is available on https://github.com/cuongle1206/OSDCap
翻訳日:2024-10-31 14:56:00 公開日:2024-10-28
# 6次元ポーズ推定による透明度が異なる実験装置の自動操作のためのロボットの枠組み

Robotic framework for autonomous manipulation of laboratory equipment with different degrees of transparency via 6D pose estimation ( http://arxiv.org/abs/2410.07801v1 )

ライセンス: Link先を確認
Maria Makarova, Daria Trinitatova, Dzmitry Tsetserukou, (参考訳) 現代のロボットシステムの多くは自律的に動作するが、環境を正確に分析し、外部条件に適応する能力が欠けていることが多い。 実験室自動化の分野では、自動化プロセスの数が増加しているが、通常は特定のタスクを実行するために開発されている。 さらに、この分野で使用される多くのオブジェクトは透明であり、視覚チャネルを用いてそれらを解析することは困難である。 この研究の貢献は、複雑なポーズの組み合わせで透明度が異なる液体で満たされた物体を操作するための自律モードのロボットフレームワークの開発である。 実験により, 自律的操作のための物体の姿勢を正確に推定する設計された視覚知覚システムの頑健さを実証し, 液体の排出などの厳密な操作におけるアルゴリズムの性能を確認した。 提案するロボット・フレームワークは、透明度や液体レベルの異なる物体のポーズを解析することで、非自明な操作作業を行う問題を解くことができ、精度と再現性が要求されるため、実験室の自動化に応用できる。

Many modern robotic systems operate autonomously, however they often lack the ability to accurately analyze the environment and adapt to changing external conditions, while teleoperation systems often require special operator skills. In the field of laboratory automation, the number of automated processes is growing, however such systems are usually developed to perform specific tasks. In addition, many of the objects used in this field are transparent, making it difficult to analyze them using visual channels. The contributions of this work include the development of a robotic framework with autonomous mode for manipulating liquid-filled objects with different degrees of transparency in complex pose combinations. The conducted experiments demonstrated the robustness of the designed visual perception system to accurately estimate object poses for autonomous manipulation, and confirmed the performance of the algorithms in dexterous operations such as liquid dispensing. The proposed robotic framework can be applied for laboratory automation, since it allows solving the problem of performing non-trivial manipulation tasks with the analysis of object poses of varying degrees of transparency and liquid levels, requiring high accuracy and repeatability.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-28
# LucidGrasp:6次元空間推定による透明度が異なる実験装置の自動操作のためのロボットフレームワーク

LucidGrasp: Robotic Framework for Autonomous Manipulation of Laboratory Equipment with Different Degrees of Transparency via 6D Pose Estimation ( http://arxiv.org/abs/2410.07801v2 )

ライセンス: Link先を確認
Maria Makarova, Daria Trinitatova, Dzmitry Tsetserukou, (参考訳) 現代のロボットシステムの多くは自律的に動作するが、環境を正確に分析し、外部条件に適応する能力が欠けていることが多い。 実験室自動化の分野では、自動化プロセスの数が増加しているが、通常は特定のタスクを実行するために開発されている。 さらに、この分野で使用される多くのオブジェクトは透明であり、視覚チャネルを用いてそれらを解析することは困難である。 この研究の貢献は、複雑なポーズの組み合わせで透明度が異なる液体で満たされた物体を操作するための自律モードのロボットフレームワークの開発である。 実験により, 自律的操作のための物体の姿勢を正確に推定する設計された視覚知覚システムの頑健さを実証し, 液体の排出などの厳密な操作におけるアルゴリズムの性能を確認した。 提案するロボット・フレームワークは、透明度や液体レベルの異なる物体のポーズを解析することで、非自明な操作作業を行う問題を解くことができ、精度と再現性が要求されるため、実験室の自動化に応用できる。

Many modern robotic systems operate autonomously, however they often lack the ability to accurately analyze the environment and adapt to changing external conditions, while teleoperation systems often require special operator skills. In the field of laboratory automation, the number of automated processes is growing, however such systems are usually developed to perform specific tasks. In addition, many of the objects used in this field are transparent, making it difficult to analyze them using visual channels. The contributions of this work include the development of a robotic framework with autonomous mode for manipulating liquid-filled objects with different degrees of transparency in complex pose combinations. The conducted experiments demonstrated the robustness of the designed visual perception system to accurately estimate object poses for autonomous manipulation, and confirmed the performance of the algorithms in dexterous operations such as liquid dispensing. The proposed robotic framework can be applied for laboratory automation, since it allows solving the problem of performing non-trivial manipulation tasks with the analysis of object poses of varying degrees of transparency and liquid levels, requiring high accuracy and repeatability.
翻訳日:2024-10-31 14:46:14 公開日:2024-10-28
# Masked Generative PriorsがWorld Models Sequence Modelling機能を改善する

Masked Generative Priors Improve World Models Sequence Modelling Capabilities ( http://arxiv.org/abs/2410.07836v1 )

ライセンス: Link先を確認
Cristian Meo, Mircea Lica, Zarif Ikram, Akihiro Nakano, Vedant Shah, Aniket Rajiv Didolkar, Dianbo Liu, Anirudh Goyal, Justin Dauwels, (参考訳) 深層強化学習(Deep Reinforcement Learning, RL)は、複雑な環境で人工エージェントを作成するための主要なアプローチとなっている。 モデルベースのアプローチは、環境力学を予測する世界モデルを備えたRL手法であり、データ効率を改善する上で最も有望な方向のひとつであり、研究と実世界のデプロイメントのギャップを埋めるための重要なステップを形成する。 特に、世界モデルは、自己監督的な方法で環境の生成シーケンスモデルを訓練する、想像力の学習によってサンプル効率を向上させる。 近年、Masked Generative Modellingは、トークンシーケンスのモデリングと生成において、より効率的で優れた帰納バイアスとして出現している。 効率的なStochastic Transformer-based World Models(STORM)アーキテクチャに基づいており、従来のMLPをMasked Generative Prior(例:MaskGIT Prior)に置き換え、GIT-STORMを導入しています。 我々は、強化学習とビデオ予測という2つの下流タスクにおいて、我々のモデルを評価する。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。 さらに,トランスフォーマーをベースとした世界モデルを連続行動環境に適用し,先行研究における大きなギャップに対処する。 これを実現するために、潜在状態表現とアクションを統合するステートミキサー関数を使用し、モデルが連続的な制御タスクを処理できるようにします。 我々はこの手法をDeepMind Control Suiteの質的,定量的な分析を通じて検証し,新しい領域におけるTransformer-based World Modelsの有効性を示す。 この結果は,MaskGITのダイナミクスの汎用性と有効性を強調し,より正確な世界モデルと効果的なRLポリシーの道を開くものである。

Deep Reinforcement Learning (RL) has become the leading approach for creating artificial agents in complex environments. Model-based approaches, which are RL methods with world models that predict environment dynamics, are among the most promising directions for improving data efficiency, forming a critical step toward bridging the gap between research and real-world deployment. In particular, world models enhance sample efficiency by learning in imagination, which involves training a generative sequence model of the environment in a self-supervised manner. Recently, Masked Generative Modelling has emerged as a more efficient and superior inductive bias for modelling and generating token sequences. Building on the Efficient Stochastic Transformer-based World Models (STORM) architecture, we replace the traditional MLP prior with a Masked Generative Prior (e.g., MaskGIT Prior) and introduce GIT-STORM. We evaluate our model on two downstream tasks: reinforcement learning and video prediction. GIT-STORM demonstrates substantial performance gains in RL tasks on the Atari 100k benchmark. Moreover, we apply Transformer-based World Models to continuous action environments for the first time, addressing a significant gap in prior research. To achieve this, we employ a state mixer function that integrates latent state representations with actions, enabling our model to handle continuous control tasks. We validate this approach through qualitative and quantitative analyses on the DeepMind Control Suite, showcasing the effectiveness of Transformer-based World Models in this new domain. Our results highlight the versatility and efficacy of the MaskGIT dynamics prior, paving the way for more accurate world models and effective RL policies.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-28
# Masked Generative PriorsがWorld Models Sequence Modelling機能を改善する

Masked Generative Priors Improve World Models Sequence Modelling Capabilities ( http://arxiv.org/abs/2410.07836v2 )

ライセンス: Link先を確認
Cristian Meo, Mircea Lica, Zarif Ikram, Akihiro Nakano, Vedant Shah, Aniket Rajiv Didolkar, Dianbo Liu, Anirudh Goyal, Justin Dauwels, (参考訳) 深層強化学習(Deep Reinforcement Learning, RL)は、複雑な環境で人工エージェントを作成するための主要なアプローチとなっている。 モデルベースのアプローチは、環境力学を予測する世界モデルを備えたRL手法であり、データ効率を改善する上で最も有望な方向のひとつであり、研究と実世界のデプロイメントのギャップを埋めるための重要なステップを形成する。 特に、世界モデルは、自己監督的な方法で環境の生成シーケンスモデルを訓練する、想像力の学習によってサンプル効率を向上させる。 近年、Masked Generative Modellingは、トークンシーケンスのモデリングと生成において、より効率的で優れた帰納バイアスとして出現している。 効率的なStochastic Transformer-based World Models(STORM)アーキテクチャに基づいており、従来のMLPをMasked Generative Prior(例:MaskGIT Prior)に置き換え、GIT-STORMを導入しています。 我々は、強化学習とビデオ予測という2つの下流タスクにおいて、我々のモデルを評価する。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。 さらに,トランスフォーマーをベースとした世界モデルを連続行動環境に適用し,先行研究における大きなギャップに対処する。 これを実現するために、潜在状態表現とアクションを統合するステートミキサー関数を使用し、モデルが連続的な制御タスクを処理できるようにします。 我々はこの手法をDeepMind Control Suiteの質的,定量的な分析を通じて検証し,新しい領域におけるTransformer-based World Modelsの有効性を示す。 この結果は,MaskGITのダイナミクスの汎用性と有効性を強調し,より正確な世界モデルと効果的なRLポリシーの道を開くものである。

Deep Reinforcement Learning (RL) has become the leading approach for creating artificial agents in complex environments. Model-based approaches, which are RL methods with world models that predict environment dynamics, are among the most promising directions for improving data efficiency, forming a critical step toward bridging the gap between research and real-world deployment. In particular, world models enhance sample efficiency by learning in imagination, which involves training a generative sequence model of the environment in a self-supervised manner. Recently, Masked Generative Modelling has emerged as a more efficient and superior inductive bias for modelling and generating token sequences. Building on the Efficient Stochastic Transformer-based World Models (STORM) architecture, we replace the traditional MLP prior with a Masked Generative Prior (e.g., MaskGIT Prior) and introduce GIT-STORM. We evaluate our model on two downstream tasks: reinforcement learning and video prediction. GIT-STORM demonstrates substantial performance gains in RL tasks on the Atari 100k benchmark. Moreover, we apply Transformer-based World Models to continuous action environments for the first time, addressing a significant gap in prior research. To achieve this, we employ a state mixer function that integrates latent state representations with actions, enabling our model to handle continuous control tasks. We validate this approach through qualitative and quantitative analyses on the DeepMind Control Suite, showcasing the effectiveness of Transformer-based World Models in this new domain. Our results highlight the versatility and efficacy of the MaskGIT dynamics prior, paving the way for more accurate world models and effective RL policies.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-28
# Masked Generative PriorsがWorld Models Sequence Modelling機能を改善する

Masked Generative Priors Improve World Models Sequence Modelling Capabilities ( http://arxiv.org/abs/2410.07836v3 )

ライセンス: Link先を確認
Cristian Meo, Mircea Lica, Zarif Ikram, Akihiro Nakano, Vedant Shah, Aniket Rajiv Didolkar, Dianbo Liu, Anirudh Goyal, Justin Dauwels, (参考訳) 深層強化学習(Deep Reinforcement Learning, RL)は、複雑な環境で人工エージェントを作成するための主要なアプローチとなっている。 モデルベースのアプローチは、環境力学を予測する世界モデルを備えたRL手法であり、データ効率を改善する上で最も有望な方向のひとつであり、研究と実世界のデプロイメントのギャップを埋めるための重要なステップを形成する。 特に、世界モデルは、自己監督的な方法で環境の生成シーケンスモデルを訓練する、想像力の学習によってサンプル効率を向上させる。 近年、Masked Generative Modellingは、トークンシーケンスのモデリングと生成において、より効率的で優れた帰納バイアスとして出現している。 効率的なStochastic Transformer-based World Models(STORM)アーキテクチャに基づいており、従来のMLPをMasked Generative Prior(例:MaskGIT Prior)に置き換え、GIT-STORMを導入しています。 我々は、強化学習とビデオ予測という2つの下流タスクにおいて、我々のモデルを評価する。 GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。 さらに,トランスフォーマーをベースとした世界モデルを連続行動環境に適用し,先行研究における大きなギャップに対処する。 これを実現するために、潜在状態表現とアクションを統合するステートミキサー関数を使用し、モデルが連続的な制御タスクを処理できるようにします。 我々はこの手法をDeepMind Control Suiteの質的,定量的な分析を通じて検証し,新しい領域におけるTransformer-based World Modelsの有効性を示す。 この結果は,MaskGITのダイナミクスの汎用性と有効性を強調し,より正確な世界モデルと効果的なRLポリシーの道を開くものである。

Deep Reinforcement Learning (RL) has become the leading approach for creating artificial agents in complex environments. Model-based approaches, which are RL methods with world models that predict environment dynamics, are among the most promising directions for improving data efficiency, forming a critical step toward bridging the gap between research and real-world deployment. In particular, world models enhance sample efficiency by learning in imagination, which involves training a generative sequence model of the environment in a self-supervised manner. Recently, Masked Generative Modelling has emerged as a more efficient and superior inductive bias for modelling and generating token sequences. Building on the Efficient Stochastic Transformer-based World Models (STORM) architecture, we replace the traditional MLP prior with a Masked Generative Prior (e.g., MaskGIT Prior) and introduce GIT-STORM. We evaluate our model on two downstream tasks: reinforcement learning and video prediction. GIT-STORM demonstrates substantial performance gains in RL tasks on the Atari 100k benchmark. Moreover, we apply Transformer-based World Models to continuous action environments for the first time, addressing a significant gap in prior research. To achieve this, we employ a state mixer function that integrates latent state representations with actions, enabling our model to handle continuous control tasks. We validate this approach through qualitative and quantitative analyses on the DeepMind Control Suite, showcasing the effectiveness of Transformer-based World Models in this new domain. Our results highlight the versatility and efficacy of the MaskGIT dynamics prior, paving the way for more accurate world models and effective RL policies.
翻訳日:2024-10-31 14:25:50 公開日:2024-10-28
# ホッジレットスペクトル特徴によるガウス過程のグラフ分類

Graph Classification Gaussian Processes via Hodgelet Spectral Features ( http://arxiv.org/abs/2410.10546v2 )

ライセンス: Link先を確認
Mathieu Alain, So Takao, Xiaowen Dong, Bastian Rieck, Emmanuel Noutahi, (参考訳) グラフを分類する問題は、機械学習においてユビキタスである。 グラフニューラルネットワークやグラフカーネル手法を適用するのが一般的であるが、ガウス過程は、グラフ領域からユークリッド領域のスペクトル特徴へ変換し、それらを入力点として利用する。 しかしながら、このアプローチは頂点上の機能のみを考慮したもので、エッジ上の機能をサポートするグラフデータセットもある。 本研究では,頂点と辺の両方の機能を利用するガウス過程に基づく分類アルゴリズムを提案する。 さらに、Hodge分解を利用して、頂点とエッジの複雑なリッチさをよりよく捉え、多様なタスクに役立ちます。

The problem of classifying graphs is ubiquitous in machine learning. While it is standard to apply graph neural networks or graph kernel methods, Gaussian processes can be employed by transforming spatial features from the graph domain into spectral features in the Euclidean domain, and using them as input points. However, this approach only takes into account features on vertices, whereas some graph datasets also support features on edges. In this work, we present a Gaussian process-based classification algorithm that can leverage one or both vertex and edges features. Furthermore, we take advantage of the Hodge decomposition to better capture the intricate richness of vertex and edge features, which can be beneficial on diverse tasks.
翻訳日:2024-10-31 03:16:22 公開日:2024-10-28
# 最大独立集合に対する硬度依存最適化量子断熱スケジューリング

Hardness-Dependent Optimized Quantum Adiabatic Schedules for Maximum Independent Sets ( http://arxiv.org/abs/2410.08995v1 )

ライセンス: Link先を確認
Sébastien Perseguers, (参考訳) 本稿では,アダバティックな量子コンピューティングのための高効率なスケジュールを設計するための数値解析手法を提案する。 小グラフの代表的なデータセットに基づいて、最適なスケジュールは、主に問題の硬さに依存し、その大きさには依存しない、という数値的な証拠を示す。 これらのスケジュールは、ベンチマークプロトコルよりもパフォーマンスが良く、ハードウェアに簡単な実装が可能である。 これにより、結果をより大きなグラフに外挿し、QuEraの量子コンピュータ ``Aquila'' を用いて100以上の原子を持つ適度に硬いインスタンスを解くことができる。 私たちは、我々のアプローチをハイブリッドアルゴリズムに拡張することが、現在の技術で最も難しい問題を解決する鍵になると信じています。

We propose a numerical approach to design highly efficient schedules for adiabatic quantum computing, focusing on the maximum independent set problem and on neutral atom platforms. Based on a representative dataset of small graphs, we present numerical evidences that the optimum schedules depend principally on the hardness of the problem and not on its size. These schedules perform better than the benchmark protocols and admit a straightforward implementation in the hardware. This allows us to extrapolate the results to larger graphs and to successfully solve moderately hard instances with more than 100 atoms using QuEra's quantum computer ``Aquila''. We believe that extending our approach to hybrid algorithms could be the key to solve the hardest problems with the current technology.
翻訳日:2024-10-30 20:36:41 公開日:2024-10-28
# アナログ量子コンピューティングのための硬度依存型断熱スケジューリング

Hardness-Dependent Adiabatic Schedules for Analog Quantum Computing ( http://arxiv.org/abs/2410.08995v2 )

ライセンス: Link先を確認
Sébastien Perseguers, (参考訳) アナログ量子コンピューティングのための高効率な断熱スケジュールを設計するための数値解析手法を提案し、最大独立集合問題と中性原子プラットフォームに着目した。 小さなグラフの代表的なデータセットに基づいて、最適なスケジュールは、そのサイズよりも問題の硬さに大きく依存する、という数値的な証拠を示す。 これらのスケジュールは、ベンチマークプロトコルよりもパフォーマンスが良く、ハードウェアに簡単な実装が可能である。 これにより、結果をより大きなグラフに外挿し、QuEraの256量子ビットAquilaコンピュータを用いて適度に難しい問題を解くことができる。 私たちは、アプローチをハイブリッドアルゴリズムに拡張することが、現在のテクノロジで最も難しいインスタンスを解決する鍵になり得ると信じています。

We propose a numerical approach to design highly efficient adiabatic schedules for analog quantum computing, focusing on the maximum independent set problem and neutral atom platforms. Based on a representative dataset of small graphs, we present numerical evidences that the optimum schedules depend principally on the hardness of the problem rather than on its size. These schedules perform better than the benchmark protocols and admit a straightforward implementation in the hardware. This allows us to extrapolate the results to larger graphs and to successfully solve moderately hard problems using QuEra's 256-qubit Aquila computer. We believe that extending our approach to hybrid algorithms could be the key to solve the hardest instances with the current technology, making yet another step toward real-world applications.
翻訳日:2024-10-30 20:36:41 公開日:2024-10-28
# 半構造化ダイナミクスモデルを用いた実世界の3分間の歩行学習

Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models ( http://arxiv.org/abs/2410.09163v1 )

ライセンス: Link先を確認
Jacob Levy, Tyler Westenbroek, David Fridovich-Keil, (参考訳) 伝統的に、モデルベース強化学習(MBRL)手法は、ニューラルネットワークをフレキシブル関数近似器として利用して、事前の未知の環境ダイナミクスを表現する。 しかし、トレーニングデータは実際にはほとんどなく、これらのブラックボックスモデルは一般化に失敗することが多い。 既知の物理を利用するモデリングアーキテクチャは、システム同定の複雑さを大幅に減らすが、接触のような複雑な現象に直面して分解する。 我々は,ブラックボックスの自動回帰モデルを用いた構造化第一原理モデリング手法をシームレスに統合した,コンタクトリッチシステムのための半構造化力学モデルを学習するための新しいフレームワークを提案する。 具体的には,外力推定のための確率モデルのアンサンブルを開発し,これらの予測を既知のラグランジアン力学を用いて統合する。 この半構造化アプローチにより、従来の手法よりもはるかに少ないデータで正確な長距離予測を行うことができる。 我々は,この能力を活用し,実世界の学習のために,サンプル複雑性境界を推し進めるシンプルなモデルベース学習フレームワークであるセミ構造化強化学習(SSRL)を提案する。 実際のUnitree Go1四足歩行ロボットに対する我々のアプローチを検証する。 https://sites.google.com/utexas.edu/ssrl

Traditionally, model-based reinforcement learning (MBRL) methods exploit neural networks as flexible function approximators to represent a priori unknown environment dynamics. However, training data are typically scarce in practice, and these black-box models often fail to generalize. Modeling architectures that leverage known physics can substantially reduce the complexity of system-identification, but break down in the face of complex phenomena such as contact. We introduce a novel framework for learning semi-structured dynamics models for contact-rich systems which seamlessly integrates structured first principles modeling techniques with black-box auto-regressive models. Specifically, we develop an ensemble of probabilistic models to estimate external forces, conditioned on historical observations and actions, and integrate these predictions using known Lagrangian dynamics. With this semi-structured approach, we can make accurate long-horizon predictions with substantially less data than prior methods. We leverage this capability and propose Semi-Structured Reinforcement Learning (SSRL) a simple model-based learning framework which pushes the sample complexity boundary for real-world learning. We validate our approach on a real-world Unitree Go1 quadruped robot, learning dynamic gaits -- from scratch -- on both hard and soft surfaces with just a few minutes of real-world data. Video and code are available at: https://sites.google.com/utexas.edu/ssrl
翻訳日:2024-10-30 16:03:11 公開日:2024-10-28
# 半構造化ダイナミクスモデルを用いた実世界の3分間の歩行学習

Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models ( http://arxiv.org/abs/2410.09163v2 )

ライセンス: Link先を確認
Jacob Levy, Tyler Westenbroek, David Fridovich-Keil, (参考訳) 伝統的に、モデルベース強化学習(MBRL)手法は、ニューラルネットワークをフレキシブル関数近似器として利用して、$\textit{a priori}$未知の環境力学を表現する。 しかし、トレーニングデータは実際にはほとんどなく、これらのブラックボックスモデルは一般化に失敗することが多い。 既知の物理を利用するモデリングアーキテクチャは、システム同定の複雑さを大幅に減らすが、接触のような複雑な現象に直面して分解する。 我々は,ブラックボックスの自動回帰モデルを用いた構造化第一原理モデリング手法をシームレスに統合した,コンタクトリッチシステムのための半構造化力学モデルを学習するための新しいフレームワークを提案する。 具体的には,外力推定のための確率モデルのアンサンブルを開発し,これらの予測を既知のラグランジアン力学を用いて統合する。 この半構造化アプローチにより、従来の手法よりもはるかに少ないデータで正確な長距離予測を行うことができる。 我々は,この能力を活用し,実世界の学習のために,サンプル複雑性境界を推し進めるシンプルなモデルベース学習フレームワークであるSSRL(Semi-Structured Reinforcement Learning)を提案する。 実際のUnitree Go1四足歩行ロボットに対する我々のアプローチを検証する。 https://sites.google.com/utexas.edu/ssrl

Traditionally, model-based reinforcement learning (MBRL) methods exploit neural networks as flexible function approximators to represent $\textit{a priori}$ unknown environment dynamics. However, training data are typically scarce in practice, and these black-box models often fail to generalize. Modeling architectures that leverage known physics can substantially reduce the complexity of system-identification, but break down in the face of complex phenomena such as contact. We introduce a novel framework for learning semi-structured dynamics models for contact-rich systems which seamlessly integrates structured first principles modeling techniques with black-box auto-regressive models. Specifically, we develop an ensemble of probabilistic models to estimate external forces, conditioned on historical observations and actions, and integrate these predictions using known Lagrangian dynamics. With this semi-structured approach, we can make accurate long-horizon predictions with substantially less data than prior methods. We leverage this capability and propose Semi-Structured Reinforcement Learning ($\texttt{SSRL}$) a simple model-based learning framework which pushes the sample complexity boundary for real-world learning. We validate our approach on a real-world Unitree Go1 quadruped robot, learning dynamic gaits -- from scratch -- on both hard and soft surfaces with just a few minutes of real-world data. Video and code are available at: https://sites.google.com/utexas.edu/ssrl
翻訳日:2024-10-30 16:03:11 公開日:2024-10-28
# ニューロモルフィックコンピューティングによる連続学習:理論,方法,応用

Continual Learning with Neuromorphic Computing: Theories, Methods, and Applications ( http://arxiv.org/abs/2410.09218v1 )

ライセンス: Link先を確認
Mishal Fatima Minhas, Rachmad Vidya Wicaksana Putra, Falah Awwad, Osman Hasan, Muhammad Shafique, (参考訳) 現実世界の力学に適応するためには、知的システムは破滅的な忘れをせずに新しい知識を同化する必要がある。 これを解決するために、自律的なシステムが新しい知識を取得し、変化する環境に動的に適応できるようにするための継続的学習の概念が提案されている。 具体的には、厳密な計算とメモリリソース予算(いわゆる自律組み込みシステム)の下での自律システムの機能を保証するために、エネルギー効率のよい連続学習が必要である。 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)を備えたニューロモルフィックコンピューティングは、自律的な組み込みシステムにおいて低消費電力/エネルギー連続学習を可能にする固有の利点を提供する。 本稿では,ニューラルネットワークにおける連続学習を実現するための基礎と手法を包括的に議論し,SNNを考慮した最先端の作業を分析する。 その後、ネットワークの複雑さ、メモリ、レイテンシ、電力/エネルギー効率といった重要な設計要素を考慮しつつ、既存の手法の比較分析を行う。 また、実世界のシナリオにおいて、SNNベースの継続的学習とオープンチャレンジの恩恵を受けることができる実践的アプリケーションについても検討する。 このようにして、我々の調査は、現実世界のアプリケーションユースケースに対するSNNベースの継続的学習の最近の進歩に関する貴重な洞察を提供する。

To adapt to real-world dynamics, intelligent systems need to assimilate new knowledge without catastrophic forgetting, where learning new tasks leads to a degradation in performance on old tasks. To address this, continual learning concept is proposed for enabling autonomous systems to acquire new knowledge and dynamically adapt to changing environments. Specifically, energy-efficient continual learning is needed to ensure the functionality of autonomous systems under tight compute and memory resource budgets (i.e., so-called autonomous embedded systems). Neuromorphic computing, with brain-inspired Spiking Neural Networks (SNNs), offers inherent advantages for enabling low-power/energy continual learning in autonomous embedded systems. In this paper, we comprehensively discuss the foundations and methods for enabling continual learning in neural networks, then analyze the state-of-the-art works considering SNNs. Afterward, comparative analyses of existing methods are conducted while considering crucial design factors, such as network complexity, memory, latency, and power/energy efficiency. We also explore the practical applications that can benefit from SNN-based continual learning and open challenges in real-world scenarios. In this manner, our survey provides valuable insights into the recent advancements of SNN-based continual learning for real-world application use-cases.
翻訳日:2024-10-30 15:43:17 公開日:2024-10-28
# ニューロモルフィックコンピューティングによる連続学習:理論,方法,応用

Continual Learning with Neuromorphic Computing: Theories, Methods, and Applications ( http://arxiv.org/abs/2410.09218v2 )

ライセンス: Link先を確認
Mishal Fatima Minhas, Rachmad Vidya Wicaksana Putra, Falah Awwad, Osman Hasan, Muhammad Shafique, (参考訳) 現実世界の力学に適応するためには、知的システムは破滅的な忘れをせずに新しい知識を同化する必要がある。 これを解決するために、自律的なシステムが新しい知識を取得し、変化する環境に動的に適応できるようにするための継続的学習の概念が提案されている。 具体的には、厳密な計算とメモリリソース予算(いわゆる自律組み込みシステム)の下での自律システムの機能を保証するために、エネルギー効率のよい連続学習が必要である。 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)を備えたニューロモルフィックコンピューティングは、自律的な組み込みシステムにおいて低消費電力/エネルギー連続学習を可能にする固有の利点を提供する。 本稿では,ニューラルネットワークにおける連続学習を実現するための基礎と手法を包括的に議論し,SNNを考慮した最先端の作業を分析する。 その後、ネットワークの複雑さ、メモリ、レイテンシ、電力/エネルギー効率といった重要な設計要素を考慮しつつ、既存の手法の比較分析を行う。 また、実世界のシナリオにおいて、SNNベースの継続的学習とオープンチャレンジの恩恵を受けることができる実践的アプリケーションについても検討する。 このようにして、我々の調査は、現実世界のアプリケーションユースケースに対するSNNベースの継続的学習の最近の進歩に関する貴重な洞察を提供する。

To adapt to real-world dynamics, intelligent systems need to assimilate new knowledge without catastrophic forgetting, where learning new tasks leads to a degradation in performance on old tasks. To address this, continual learning concept is proposed for enabling autonomous systems to acquire new knowledge and dynamically adapt to changing environments. Specifically, energy-efficient continual learning is needed to ensure the functionality of autonomous systems under tight compute and memory resource budgets (i.e., so-called autonomous embedded systems). Neuromorphic computing, with brain-inspired Spiking Neural Networks (SNNs), offers inherent advantages for enabling low-power/energy continual learning in autonomous embedded systems. In this paper, we comprehensively discuss the foundations and methods for enabling continual learning in neural networks, then analyze the state-of-the-art works considering SNNs. Afterward, comparative analyses of existing methods are conducted while considering crucial design factors, such as network complexity, memory, latency, and power/energy efficiency. We also explore the practical applications that can benefit from SNN-based continual learning and open challenges in real-world scenarios. In this manner, our survey provides valuable insights into the recent advancements of SNN-based continual learning for real-world application use-cases.
翻訳日:2024-10-30 15:43:17 公開日:2024-10-28
# 大規模LCMエージェントシミュレーションによる動的・テキストグラフ生成

Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation ( http://arxiv.org/abs/2410.09824v1 )

ライセンス: Link先を確認
Jiarui Ji, Runlin Lei, Jialing Bi, Zhewei Wei, Yankai Lin, Xuchen Pan, Yaliang Li, Bolin Ding, (参考訳) グラフ生成は、社会、技術、科学分析において広く研究されている基本的な課題である。 動的グラフの進化過程をモデル化するために、従来のルールベースの手法は、グラフ内のコミュニティ構造を捉えるのに苦労する。 これにより、既存のグラフジェネレータは、事前定義されたルールに準拠したり、トレーニングデータセットによく似たグラフを生成することができ、動的グラフ生成ではパフォーマンスが劣る。 グラフは、人間の活動におけるペアワイズ相互作用から生じる抽象的な表現であることを考えると、人間の相互作用の現実的なシミュレーションは、グラフの進化機構について深い洞察を与える可能性がある。 人行動のシミュレーションにおいて,大規模言語モデル (LLM) の認識が高まるとともに,動的グラフ生成のための新しいシミュレーションベースフレームワークである GraphAgent-Generator (GAG) を導入する。 LLMのトレーニングや微調整を行なわず,既存のグラフ拡張タスクのベースラインを31倍に越えつつ,確立されたネットワーク科学理論における7つのマクロレベルの構造特性を効果的に再現する。 ノード分類タスクを通じて、GAGは生成したテキストリッチグラフのノード単位のテキスト特徴に対して、実世界のネットワーク特性を効果的に保存する。 さらに、並列加速度を組み込むことで、GAGは大規模なLSMベースのエージェントシミュレーションにより、最大10万のノードと1000万のエッジを持つグラフの生成をサポートし、最小速度は90.4\%である。 ソースコードはhttps://anonymous.4open.science/r/GraphAgent-2206で公開されている。

Graph generation is a fundamental task that has been extensively studied in social, technological, and scientific analysis. For modeling the dynamic graph evolution process, traditional rule-based methods struggle to capture community structures within graphs, while deep learning methods only focus on fitting training graphs. This limits existing graph generators to producing graphs that adhere to predefined rules or closely resemble training datasets, achieving poor performance in dynamic graph generation. Given that graphs are abstract representations arising from pairwise interactions in human activities, a realistic simulation of human-wise interaction could provide deeper insights into the graph evolution mechanism. With the increasing recognition of large language models (LLMs) in simulating human behavior, we introduce GraphAgent-Generator (GAG), a novel simulation-based framework for dynamic graph generation. Without training or fine-tuning process of LLM, our framework effectively replicates seven macro-level structural characteristics in established network science theories while surpassing existing baselines in graph expansion tasks by 31\% on specific evaluation metrics. Through node classification task, we validate GAG effectively preserves characteristics of real-world network for node-wise textual features in generated text-rich graph. Furthermore, by incorporating parallel acceleration, GAG supports generating graphs with up to nearly 100,000 nodes or 10 million edges through large-scale LLM-based agent simulation, with a minimum speed-up of 90.4\%. The source code is available at https://anonymous.4open.science/r/GraphAgent-2206.
翻訳日:2024-10-30 04:42:49 公開日:2024-10-28
# 大規模LCMエージェントシミュレーションによる動的・テキストグラフ生成

Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation ( http://arxiv.org/abs/2410.09824v2 )

ライセンス: Link先を確認
Jiarui Ji, Runlin Lei, Jialing Bi, Zhewei Wei, Yankai Lin, Xuchen Pan, Yaliang Li, Bolin Ding, (参考訳) グラフ生成は、社会、技術、科学分析において広く研究されている基本的な課題である。 動的グラフの進化過程をモデル化するために、従来のルールベースの手法は、グラフ内のコミュニティ構造を捉えるのに苦労する。 これにより、既存のグラフジェネレータは、事前定義されたルールに準拠したり、トレーニングデータセットによく似たグラフを生成することができ、動的グラフ生成ではパフォーマンスが劣る。 グラフは、人間の活動におけるペアワイズ相互作用から生じる抽象的な表現であることを考えると、人間の相互作用の現実的なシミュレーションは、グラフの進化機構について深い洞察を与える可能性がある。 人行動のシミュレーションにおいて,大規模言語モデル (LLM) の認識が高まるとともに,動的グラフ生成のための新しいシミュレーションベースフレームワークである GraphAgent-Generator (GAG) を導入する。 LLMのトレーニングや微調整を行なわず,既存のグラフ拡張タスクのベースラインを31倍に越えつつ,確立されたネットワーク科学理論における7つのマクロレベルの構造特性を効果的に再現する。 ノード分類タスクを通じて、GAGは生成したテキストリッチグラフのノード単位のテキスト特徴に対して、実世界のネットワーク特性を効果的に保存する。 さらに、並列加速度を組み込むことで、GAGは大規模なLSMベースのエージェントシミュレーションにより、最大10万のノードと1000万のエッジを持つグラフの生成をサポートし、最小速度は90.4\%である。 ソースコードはhttps://anonymous.4open.science/r/GraphAgent-2206で公開されている。

Graph generation is a fundamental task that has been extensively studied in social, technological, and scientific analysis. For modeling the dynamic graph evolution process, traditional rule-based methods struggle to capture community structures within graphs, while deep learning methods only focus on fitting training graphs. This limits existing graph generators to producing graphs that adhere to predefined rules or closely resemble training datasets, achieving poor performance in dynamic graph generation. Given that graphs are abstract representations arising from pairwise interactions in human activities, a realistic simulation of human-wise interaction could provide deeper insights into the graph evolution mechanism. With the increasing recognition of large language models (LLMs) in simulating human behavior, we introduce GraphAgent-Generator (GAG), a novel simulation-based framework for dynamic graph generation. Without training or fine-tuning process of LLM, our framework effectively replicates seven macro-level structural characteristics in established network science theories while surpassing existing baselines in graph expansion tasks by 31\% on specific evaluation metrics. Through node classification task, we validate GAG effectively preserves characteristics of real-world network for node-wise textual features in generated text-rich graph. Furthermore, by incorporating parallel acceleration, GAG supports generating graphs with up to nearly 100,000 nodes or 10 million edges through large-scale LLM-based agent simulation, with a minimum speed-up of 90.4\%. The source code is available at https://anonymous.4open.science/r/GraphAgent-2206.
翻訳日:2024-10-30 04:42:49 公開日:2024-10-28
# クリフォードとマッチゲートの再現性の拡張

Extending Simulability of Cliffords and Matchgates ( http://arxiv.org/abs/2410.10068v1 )

ライセンス: Link先を確認
Andrew M. Projansky, Jason Neicase, James D. Whitfield, (参考訳) クリフォードとマッチゲートはどちらも古典的にシミュレート可能な回路の例であるが、異なる理由からシミュレートできると考えられている。 単一量子ビット出力に対するクリフォード共役整合回路のシミュラビリティは簡潔に検討されているが、クリフォードと整合ハイブリッド回路のシミュラビリティはこの点まで一般化されていない。 本稿では、クリフォードとマッチゲートハイブリッド回路の限界値とパウリ期待値のシミュレーション可能性について検討する。 クリフォード回路の階層構造を記述し、より一般的なクリフォード回路を考えると、ビットストリング出力のある程度の再現性を失うことが分かる。 最も重要なことは、製品状態に作用するクリフォード回路のパウリ期待値の既知のシミュラビリティが、任意の整合回路の後に作用するクリフォード回路に一般化できることである。 Cliffords と Matchgates の関係に関する一般論をまとめ、特定のフェルミオン-量子符号化の真空状態として安定化状態を理解することができると論じる。

Though Cliffords and matchgates are both examples of classically simulable circuits, they are considered simulable for different reasons. While the simulability of Clifford conjugated matchgate circuits for single qubit outputs has been briefly considered, the simulability of Clifford and matchgate hybrid circuits has not been generalized up to this point. In this paper we resolve this, studying simulability of marginals as well as Pauli expectation values of Clifford and matchgate hybrid circuits. We describe a hierarchy of Clifford circuits, and find that as we consider more general Cliffords, we lose some amount of simulability of bitstring outputs. Most importantly, we show that the known simulability of Pauli expectation values of Clifford circuits acting on product states can be generalized to Clifford circuits acting after any matchgate circuit. We conclude with some general discussion about the relationship between Cliffords and matchgates, and argue that we can understand stabilizer states as the vacuum states of particular fermion-to-qubit encodings.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-28
# クリフォードとマッチゲートの再現性の拡張

Extending Simulability of Cliffords and Matchgates ( http://arxiv.org/abs/2410.10068v2 )

ライセンス: Link先を確認
Andrew M. Projansky, Jason Necaise, James D. Whitfield, (参考訳) クリフォードとマッチゲートはどちらも古典的にシミュレート可能な回路の例であるが、異なる理由からシミュレートできると考えられている。 単一量子ビット出力に対するクリフォード共役整合回路のシミュラビリティは簡潔に検討されているが、クリフォードと整合ハイブリッド回路のシミュラビリティはこの点まで一般化されていない。 本稿では、クリフォードとマッチゲートハイブリッド回路の限界値とパウリ期待値のシミュレーション可能性について検討する。 クリフォード回路の階層構造を記述し、より一般的なクリフォード回路を考えると、ビットストリング出力のある程度の再現性を失うことが分かる。 最も重要なことは、製品状態に作用するクリフォード回路のパウリ期待値の既知のシミュラビリティが、任意の整合回路の後に作用するクリフォード回路に一般化できることである。 Cliffords と Matchgates の関係に関する一般論をまとめ、特定のフェルミオン-量子符号化の真空状態として安定化状態を理解することができると論じる。

Though Cliffords and matchgates are both examples of classically simulable circuits, they are considered simulable for different reasons. While the simulability of Clifford conjugated matchgate circuits for single qubit outputs has been briefly considered, the simulability of Clifford and matchgate hybrid circuits has not been generalized up to this point. In this paper we resolve this, studying simulability of marginals as well as Pauli expectation values of Clifford and matchgate hybrid circuits. We describe a hierarchy of Clifford circuits, and find that as we consider more general Cliffords, we lose some amount of simulability of bitstring outputs. Most importantly, we show that the known simulability of Pauli expectation values of Clifford circuits acting on product states can be generalized to Clifford circuits acting after any matchgate circuit. We conclude with some general discussion about the relationship between Cliffords and matchgates, and argue that we can understand stabilizer states as the vacuum states of particular fermion-to-qubit encodings.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-28
# Replay-and-fort-free Graph Class-Incremental Learning:タスクプロファイリングとプロンプトアプローチ

Replay-and-Forget-Free Graph Class-Incremental Learning: A Task Profiling and Prompting Approach ( http://arxiv.org/abs/2410.10341v1 )

ライセンス: Link先を確認
Chaoxi Niu, Guansong Pang, Ling Chen, Bing Liu, (参考訳) クラス増分学習(Class-incremental Learning, CIL)は、一連のタスクを連続的に学習することを目的としており、各タスクは固有のクラスで構成されている。 グラフ CIL (GCIL) は同じ設定に従うが、グラフタスク(グラフ内のノード分類など)を扱う必要がある。 CILのキーとなる特徴は、推論中にタスク識別子(ID)が存在しないことである。 タスクIDを正確に予測できることは、この問題に対処するのに役立ちますが、これは難しい問題です。 本稿では,グラフデータに対する正確なタスクID予測が,グラフ上のラプラシアスムージングに基づくグラフタスクプロファイリングアプローチによって実現可能であることを理論的に示し,グラフ上のラプラシアスムージングに基づくタスクプロトタイプによって各グラフタスクをモデル化する。 同じグラフタスクのタスクプロトタイプは、大きなスムーズなステップでほぼ同じであるのに対して、異なるタスクのプロトタイプはグラフ構造とノード属性の違いによって異なる。 さらに、従来のグラフタスクで学んだ知識の破滅的な忘れを避けるために、各タスクに対して小さな識別グラフプロンプトを学習するGCILの新しいグラフプロンプトアプローチを提案する。 プロンプト学習では、最初のタスクで1回だけ1つのグラフニューラルネットワーク(GNN)のトレーニングが必要であり、その後のデータ再生は不要である。 4つのGCILベンチマークの大規模な実験は、そのことを示している。 一 タスクプロトタイプに基づく手法は、4つのデータセットすべてに対して100%タスクID予測精度を達成できる。 二 当社のGCILモデルは、平均CIL精度を少なくとも18%上回り、最先端の競合手法を著しく上回ります。 三 私たちのモデルは、4つのデータセットを忘れてはなりません。

Class-incremental learning (CIL) aims to continually learn a sequence of tasks, with each task consisting of a set of unique classes. Graph CIL (GCIL) follows the same setting but needs to deal with graph tasks (e.g., node classification in a graph). The key characteristic of CIL lies in the absence of task identifiers (IDs) during inference, which causes a significant challenge in separating classes from different tasks (i.e., inter-task class separation). Being able to accurately predict the task IDs can help address this issue, but it is a challenging problem. In this paper, we show theoretically that accurate task ID prediction on graph data can be achieved by a Laplacian smoothing-based graph task profiling approach, in which each graph task is modeled by a task prototype based on Laplacian smoothing over the graph. It guarantees that the task prototypes of the same graph task are nearly the same with a large smoothing step, while those of different tasks are distinct due to differences in graph structure and node attributes. Further, to avoid the catastrophic forgetting of the knowledge learned in previous graph tasks, we propose a novel graph prompting approach for GCIL which learns a small discriminative graph prompt for each task, essentially resulting in a separate classification model for each task. The prompt learning requires the training of a single graph neural network (GNN) only once on the first task, and no data replay is required thereafter, thereby obtaining a GCIL model being both replay-free and forget-free. Extensive experiments on four GCIL benchmarks show that i) our task prototype-based method can achieve 100% task ID prediction accuracy on all four datasets, ii) our GCIL model significantly outperforms state-of-the-art competing methods by at least 18% in average CIL accuracy, and iii) our model is fully free of forgetting on the four datasets.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-28
# Replay-and-fort-free Graph Class-Incremental Learning:タスクプロファイリングとプロンプトアプローチ

Replay-and-Forget-Free Graph Class-Incremental Learning: A Task Profiling and Prompting Approach ( http://arxiv.org/abs/2410.10341v2 )

ライセンス: Link先を確認
Chaoxi Niu, Guansong Pang, Ling Chen, Bing Liu, (参考訳) クラス増分学習(Class-incremental Learning, CIL)は、一連のタスクを連続的に学習することを目的としており、各タスクは固有のクラスで構成されている。 グラフ CIL (GCIL) は同じ設定に従うが、グラフタスク(グラフ内のノード分類など)を扱う必要がある。 CILのキーとなる特徴は、推論中にタスク識別子(ID)が存在しないことである。 タスクIDを正確に予測できることは、この問題に対処するのに役立ちますが、これは難しい問題です。 本稿では,グラフデータに対する正確なタスクID予測が,グラフ上のラプラシアスムージングに基づくグラフタスクプロファイリングアプローチによって実現可能であることを理論的に示し,グラフ上のラプラシアスムージングに基づくタスクプロトタイプによって各グラフタスクをモデル化する。 同じグラフタスクのタスクプロトタイプは、大きなスムーズなステップでほぼ同じであるのに対して、異なるタスクのプロトタイプはグラフ構造とノード属性の違いによって異なる。 さらに、従来のグラフタスクで学んだ知識の破滅的な忘れを避けるために、各タスクに対して小さな識別グラフプロンプトを学習するGCILの新しいグラフプロンプトアプローチを提案する。 プロンプト学習では、最初のタスクで1回だけ1つのグラフニューラルネットワーク(GNN)のトレーニングが必要であり、その後のデータ再生は不要である。 4つのGCILベンチマークの大規模な実験は、そのことを示している。 一 タスクプロトタイプに基づく手法は、4つのデータセットすべてに対して100%タスクID予測精度を達成できる。 二 当社のGCILモデルは、平均CIL精度を少なくとも18%上回り、最先端の競合手法を著しく上回ります。 三 私たちのモデルは、4つのデータセットを忘れてはなりません。

Class-incremental learning (CIL) aims to continually learn a sequence of tasks, with each task consisting of a set of unique classes. Graph CIL (GCIL) follows the same setting but needs to deal with graph tasks (e.g., node classification in a graph). The key characteristic of CIL lies in the absence of task identifiers (IDs) during inference, which causes a significant challenge in separating classes from different tasks (i.e., inter-task class separation). Being able to accurately predict the task IDs can help address this issue, but it is a challenging problem. In this paper, we show theoretically that accurate task ID prediction on graph data can be achieved by a Laplacian smoothing-based graph task profiling approach, in which each graph task is modeled by a task prototype based on Laplacian smoothing over the graph. It guarantees that the task prototypes of the same graph task are nearly the same with a large smoothing step, while those of different tasks are distinct due to differences in graph structure and node attributes. Further, to avoid the catastrophic forgetting of the knowledge learned in previous graph tasks, we propose a novel graph prompting approach for GCIL which learns a small discriminative graph prompt for each task, essentially resulting in a separate classification model for each task. The prompt learning requires the training of a single graph neural network (GNN) only once on the first task, and no data replay is required thereafter, thereby obtaining a GCIL model being both replay-free and forget-free. Extensive experiments on four GCIL benchmarks show that i) our task prototype-based method can achieve 100% task ID prediction accuracy on all four datasets, ii) our GCIL model significantly outperforms state-of-the-art competing methods by at least 18% in average CIL accuracy, and iii) our model is fully free of forgetting on the four datasets.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-28