論文の概要: Dialogue Is Not Enough to Make a Communicative BabyLM (But Neither Is Developmentally Inspired Reinforcement Learning)
- arxiv url: http://arxiv.org/abs/2510.20358v1
- Date: Thu, 23 Oct 2025 08:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.638316
- Title: Dialogue Is Not Enough to Make a Communicative BabyLM (But Neither Is Developmentally Inspired Reinforcement Learning)
- Title(参考訳): 会話はコミュニケーション型ベビーフィルムを作るには十分ではない(ただし、発達にインスパイアされた強化学習でもない)
- Authors: Francesca Padovani, Bastian Bunzeck, Manar Ali, Omar Momen, Arianna Bisazza, Hendrik Buschmeier, Sina Zarrieß,
- Abstract要約: 私たちは、モデルによって"よりコミュニケーションのよい"テキスト世代を強制するために、さまざまな微調整戦略を採用しています。
我々のモデルは最小ペア設定で対話継続予測に優れる。
- 参考スコア(独自算出の注目度): 14.993868947646497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether pre-training exclusively on dialogue data results in formally and functionally apt small language models. Based on this pre-trained llamalogue model, we employ a variety of fine-tuning strategies to enforce "more communicative" text generations by our models. Although our models underperform on most standard BabyLM benchmarks, they excel at dialogue continuation prediction in a minimal pair setting. While PPO fine-tuning has mixed to adversarial effects on our models, DPO fine-tuning further improves their performance on our custom dialogue benchmark.
- Abstract(参考訳): 対話データのみを対象とした事前学習が,小型言語モデルに形式的かつ機能的に適応するかどうかを検討する。
この事前学習されたラマログモデルに基づいて、我々は様々な微調整戦略を用いて、我々のモデルにより「よりコミュニケーションのよい」テキスト世代を強制する。
私たちのモデルは標準的なBabyLMベンチマークよりも優れていますが、最小ペア設定での対話継続予測に優れています。
PPOファインタニングは我々のモデルに逆効果を与えるために混合されているが、DPOファインタニングは我々のカスタムダイアログベンチマークの性能をさらに向上させる。
関連論文リスト
- Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文 参考訳(メタデータ) (2024-06-17T18:01:32Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Post-Training Dialogue Summarization using Pseudo-Paraphrasing [12.083992819138716]
本稿では,対話から物語への言い換えとして,事前訓練済み言語モデル(PLM)を提案する。
総合的な実験により,本手法は対話要約におけるバニラPLMを大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-04-28T13:42:19Z) - Representation Learning for Conversational Data using Discourse Mutual
Information Maximization [9.017156603976915]
構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さないと我々は主張する。
対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMIを提案する。
本モデルでは,対話評価タスクであるDailyDialog++において,ランダムな負のシナリオと逆のシナリオの両方において,最も有望な性能を示す。
論文 参考訳(メタデータ) (2021-12-04T13:17:07Z) - Response Generation with Context-Aware Prompt Learning [19.340498579331555]
本稿では,対話生成問題を素早い学習課題とする,事前学習型対話モデリングのための新しい手法を提案する。
限られた対話データを微調整する代わりに、我々のアプローチであるDialogPromptは、対話コンテキストに最適化された連続的なプロンプト埋め込みを学習する。
提案手法は,微調整ベースラインと汎用的なプロンプト学習法を著しく上回っている。
論文 参考訳(メタデータ) (2021-11-04T05:40:13Z) - Group-wise Contrastive Learning for Neural Dialogue Generation [29.749195182401344]
対話生成に比較学習を導入し、モデルが肯定的発話と否定的発話の差を明示的に知覚する。
ヒトの会話におけるマルチマッピング関係を管理するために,グループワイド二重サンプリングによる対照対話学習を強化した。
論文 参考訳(メタデータ) (2020-09-16T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。