論文の概要: Interaction Dynamics as a Reward Signal for LLMs
- arxiv url: http://arxiv.org/abs/2511.08394v1
- Date: Wed, 12 Nov 2025 01:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.794502
- Title: Interaction Dynamics as a Reward Signal for LLMs
- Title(参考訳): LLMの逆信号としての相互作用ダイナミクス
- Authors: Sian Gooding, Edward Grefenstette,
- Abstract要約: エージェントのコミュニケーションは、言うほど成功の予測器だ。
この研究は、対話的な設定では、エージェントがどのように通信するかは、エージェントが言うほど成功の予測因子である、という強い証拠を提供する。
- 参考スコア(独自算出の注目度): 9.95504409344454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment of Large Language Models (LLMs) for multi-turn conversations typically relies on reward signals derived from the content of the text. This approach, however, overlooks a rich, complementary source of signal: the dynamics of the interaction itself. This paper introduces TRACE (Trajectory-based Reward for Agent Collaboration Estimation), a novel reward signal derived from the geometric properties of a dialogue's embedding trajectory--a concept we term 'conversational geometry'. Our central finding is that a reward model trained only on these structural signals achieves a pairwise accuracy (68.20%) comparable to a powerful LLM baseline that analyzes the full transcript (70.04%). Furthermore, a hybrid model combining interaction dynamics with textual analysis achieves the highest performance (80.17%), demonstrating their complementary nature. This work provides strong evidence that for interactive settings, how an agent communicates is as powerful a predictor of success as what it says, offering a new, privacy-preserving framework that not only aligns agents but also serves as a diagnostic tool for understanding the distinct interaction patterns that drive successful collaboration.
- Abstract(参考訳): マルチターン会話のための大規模言語モデル(LLM)のアライメントは、典型的にはテキストの内容から派生した報酬信号に依存する。
しかしこのアプローチは、リッチで補完的な信号源である相互作用自体のダイナミクスを見落としている。
本稿では,対話の埋め込み軌跡の幾何学的性質から導かれる新しい報酬信号であるTRACE(Trajectory-based Reward for Agent Collaboration Estimation)を紹介する。
我々の中心的な発見は、これらの構造信号でのみ訓練された報酬モデルが、全転写を解析する強力なLCMベースライン(70.04%)に匹敵するペアワイズ精度(68.20%)を達成することである。
さらに、相互作用力学とテキスト解析を組み合わせたハイブリッドモデルが最も高い性能(80.17%)を達成し、相補的な性質を示す。
この研究は、対話的な設定において、エージェントのコミュニケーション方法が、言うように成功の予測器として強力であることを示し、エージェントを整列するだけでなく、コラボレーションを成功させる異なる相互作用パターンを理解するための診断ツールとしても機能する、新たなプライバシ保護フレームワークを提供する。
関連論文リスト
- The Geometry of Dialogue: Graphing Language Models to Reveal Synergistic Teams for Multi-Agent Collaboration [0.0]
大規模言語モデル(LLM)に基づくマルチエージェントチームは、単一モデルの能力を超える有望な戦略である。
しかしながら、ほとんどのモデルの本質的な不透明さは、効果的なコラボレーションに必要な内部特性を曖昧にしているため、最適なチームを作ることは重要な課題である。
事前知識を必要としない自動チーム構成のためのインタラクション中心のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-30T11:04:15Z) - Multi-Modal Sentiment Analysis with Dynamic Attention Fusion [0.0]
本稿では,事前学習した言語モデルからの凍結したテキスト埋め込みと音声エンコーダの音響的特徴を組み合わせた軽量フレームワークである動的注意融合(DAF)を紹介する。
提案するDAFモデルは,大規模なマルチモーダルベンチマークにおいて,静的核融合と非モードベースラインの両方を一貫して上回っている。
言語情報と非言語情報を効果的に統合することにより、我々のアプローチは感情予測のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2025-09-25T09:54:04Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - Commonsense Generation and Evaluation for Dialogue Systems using Large Language Models [8.556799193001341]
本稿では,多種多様なコモンセンス関係に基づく対話システムにおけるターンレベルデータ拡張の課題について検討する。
提案手法は,事前学習されたLarge Language Models (LLM) の拡張知識とゼロショット機能を利用して命令に従う。
予備的な結果から,本手法は対話システムにおける常識推論と評価にLLMを効果的に活用することが示唆された。
論文 参考訳(メタデータ) (2025-06-24T10:18:05Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。