論文の概要: Post-training for Efficient Communication via Convention Formation
- arxiv url: http://arxiv.org/abs/2508.06482v1
- Date: Fri, 08 Aug 2025 17:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.325809
- Title: Post-training for Efficient Communication via Convention Formation
- Title(参考訳): コンベンション形成による効率的なコミュニケーションのためのポストトレーニング
- Authors: Yilun Hua, Evan Wang, Yoav Artzi,
- Abstract要約: 人間は言語を適応させ、アドホックな慣習を形成することで、多ターンインタラクションにおける効率の向上と通信する。
以前の研究は、LLMがこの振る舞いを自然に示さないことを示している。
我々は,対象とする微調整により,この能力を育成するための後学習プロセスを開発する。
- 参考スコア(独自算出の注目度): 14.983162784963337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans communicate with increasing efficiency in multi-turn interactions, by adapting their language and forming ad-hoc conventions. In contrast, prior work shows that LLMs do not naturally show this behavior. We develop a post-training process to develop this ability through targeted fine-tuning on heuristically identified demonstrations of convention formation. We evaluate with two new benchmarks focused on this capability. First, we design a focused, cognitively-motivated interaction benchmark that consistently elicits strong convention formation trends in humans. Second, we create a new document-grounded reference completion task that reflects in-the-wild convention formation behavior. Our studies show significantly improved convention formation abilities in post-trained LLMs across the two evaluation methods.
- Abstract(参考訳): 人間は言語を適応させ、アドホックな慣習を形成することで、多ターンインタラクションにおける効率の向上と通信する。
対照的に、以前の研究は、LLMがこの振る舞いを自然に示さないことを示している。
本研究は,コンベンション形成の実証実験を目標とした微調整により,この能力を育成するためのポストトレーニングプロセスを開発する。
我々はこの能力に焦点を当てた2つの新しいベンチマークで評価した。
まず、人間の強いコンベンション形成傾向を常に引き起こす、集中的、認知的動機付けのインタラクションベンチマークを設計する。
第二に、我々は新たな文書ベース参照完了タスクを作成し、このタスクは、ワイルドなコンベンション形成の振る舞いを反映する。
本研究は,2つの評価手法を用いて,訓練後LLMにおけるコンベンション形成能力を大幅に改善したことを示す。
関連論文リスト
- Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。
本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。
SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-11T14:49:33Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks [47.609417223514605]
この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。
実験により,SAIEフレームワークで微調整したモデルでは,従来の微調整手法で訓練したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-14T12:12:25Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Exploring Zero-Shot Emergent Communication in Embodied Multi-Agent
Populations [59.608216900601384]
本研究では,3次元環境下で関節を作動させることでコミュニケーションを学ぶエージェントについて検討する。
現実的な仮定、意図の非一様分布、共通知識エネルギーコストにおいて、これらのエージェントは新規パートナーに一般化するプロトコルを見つけることができることを示す。
論文 参考訳(メタデータ) (2020-10-29T19:23:10Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。