論文の概要: Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models
- arxiv url: http://arxiv.org/abs/2505.05970v1
- Date: Fri, 09 May 2025 11:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.249082
- Title: Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models
- Title(参考訳): 発達的プラウシブル・リワードに向けて:対話型言語モデルのための学習信号としてのコミュニケーション的成功
- Authors: Lennart Stöpler, Rufat Asadli, Mitja Nikolaus, Ryan Cotterell, Alex Warstadt,
- Abstract要約: 本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。
この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
- 参考スコア(独自算出の注目度): 49.22720751953838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method for training language models in an interactive setting inspired by child language acquisition. In our setting, a speaker attempts to communicate some information to a listener in a single-turn dialogue and receives a reward if communicative success is achieved. Unlike earlier related work using image--caption data for interactive reference games, we operationalize communicative success in a more abstract language-only question--answering setting. First, we present a feasibility study demonstrating that our reward provides an indirect signal about grammaticality. Second, we conduct experiments using reinforcement learning to fine-tune language models. We observe that cognitively plausible constraints on the communication channel lead to interpretable changes in speaker behavior. However, we do not yet see improvements on linguistic evaluations from our training regime. We outline potential modifications to the task design and training configuration that could better position future work to use our methodology to observe the benefits of interaction on language learning in computational cognitive models.
- Abstract(参考訳): 本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。
この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
対話型参照ゲームにおける画像キャプチャデータを用いた以前の関連作業とは異なり、より抽象的な言語のみの質問-回答設定でコミュニケーション成功を運用する。
まず,報奨が文法性に関する間接的な信号を提供することを示す。
第二に、強化学習を用いて言語モデルを微調整する実験を行う。
コミュニケーションチャネルにおける認知的確固たる制約が話者行動の解釈的変化をもたらすことを観察する。
しかし,訓練体制による言語評価の改善は,まだ見受けられていない。
計算認知モデルにおける言語学習における相互作用の利点を観察するために,我々の方法論を利用するために,今後の作業をより適切に位置づけることのできるタスク設計およびトレーニング構成の潜在的な変更について概説する。
関連論文リスト
- Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning [31.196865401472664]
自然言語の環境に関する生産的な議論を人間による実演なしで行うように、言語モデルを訓練する。
我々はエージェントの目標を利用して、コミュニケーションを誘導する高密度報酬信号として、世界の有用な情報を予測する。
我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、強力な議論を可能にすることを発見した。
論文 参考訳(メタデータ) (2025-02-09T22:44:45Z) - Communicating with Speakers and Listeners of Different Pragmatic Levels [14.94138113774852]
本稿では,言語学習のシミュレートによるコミュニケーション成功に対する可変語学能力の影響について検討する。
より明示的でリテラルな言語からの学習は、学習者の実践的能力のレベルに関係なく、有利であることがわかった。
論文 参考訳(メタデータ) (2024-10-08T09:42:37Z) - Babysit A Language Model From Scratch: Interactive Language Learning by Trials and Demonstrations [15.394018604836774]
本稿では,学生の試行,教師のデモンストレーション,および様々な発達段階における言語能力に配慮した報酬という,3つの要素を取り入れたトライアル・アンド・デモレーション(TnD)学習フレームワークを提案する。
実験の結果,TnD手法は,等数あるいは少人数の学生モデルの単語獲得を促進させ,試行錯誤と実演の両方の重要性を強調した。
この結果から,対話型言語学習は,教師による実演や積極的試行によって,言語モデルにおける効率的な単語学習を促進することが示唆された。
論文 参考訳(メタデータ) (2024-05-22T16:57:02Z) - Few-shot Dialogue Strategy Learning for Motivational Interviewing via Inductive Reasoning [21.078032718892498]
本稿では,ユーザに対して肯定的なライフスタイル変化を取り入れるための対話システム構築の課題について考察する。
専門家によるデモンストレーションから,自然言語帰納規則の形で会話戦略を学習し,適用可能なフレームワークであるDIITを提案する。
論文 参考訳(メタデータ) (2024-03-23T06:03:37Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。