論文の概要: Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models
- arxiv url: http://arxiv.org/abs/2604.02315v2
- Date: Fri, 03 Apr 2026 01:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 12:42:34.360332
- Title: Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models
- Title(参考訳): アシスタントターンを超えて:言語モデルにおけるインタラクション認識のプローブとしてのユーザターン生成
- Authors: Sarath Shekkizhar, Romain Cosentino, Adam Earle,
- Abstract要約: ユーザ・ターン・ジェネレーションはLLMの振る舞いやインタラクション・アウェアネスの次元を捉えており、現在のアシスタント・オンリー・ベンチマークでは探索されていない。
この結果から,ユーザターン生成はLLMの振る舞いやインタラクションの認識の次元を捉えていることがわかった。
- 参考スコア(独自算出の注目度): 3.9351446512514947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across $11$ open-weight LLMs (Qwen3.5, gpt-oss, GLM) and $5$ datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from $41\%$ ($0.8$B) to $96.8\%$ ($397$B-A$17$B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching $22\%$. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.
- Abstract(参考訳): 標準LCMベンチマークでは、モデルが入力に対する応答を生成し、検証者が正確性をスコアし、分析が終了する。
このパラダイムは、LLMがアシスタント応答に続くものに対する認識を符号化するかどうかを未測定のまま残している。
このギャップの探索として,ユーザ・ターン生成を提案する。ユーザ・クエリとアシスタント・レスポンスの会話コンテキストを考慮すれば,ユーザ・ロールの下でモデルを生成することができる。
モデルの重みが相互作用の認識を符号化するならば、生成されたユーザターンは、前回のコンテキストに反応する根拠付きフォローアップになります。
オープンウェイト LLM (Qwen3.5, gpt-oss, GLM) と 5$ データセット (仮推論, 後続命令, 会話) を対象とした実験により, インタラクションの認識がタスクの正確性から切り離されていることを示す。
特にQwen3.5ファミリーでは、GSM8Kの精度は$41\%(0.8$B)から$96.8\%(397$B-A-17$B)までスケールするが、決定論的生成の下での真のフォローアップレートはゼロに近いままである。
対照的に、高温サンプリングでは、相互作用の意識が潜んでいることが示され、フォローアップレートは22\%ドルに達した。
制御された摂動は,提案したプローブがモデルの実際の特性を測定し,Qwen3.5-2B上での協調指向のポストトレーニングは追従率の増加を示す。
この結果から,ユーザターン生成はLLMの振る舞いやインタラクションの認識の次元を捉えていることがわかった。
関連論文リスト
- Lightweight Visual Reasoning for Socially-Aware Robots [41.776442767736604]
視覚言語モデル(VLM)におけるLLMとビジョンエンコーダのループを閉じる軽量な言語間フィードバックモジュールを提案する。
本研究では,シミュレーション環境におけるナビゲーション,シーン記述の逐次的記述,人間意図認識という,ロボット中心の3つのタスクに対して,このアプローチを評価する。
その結果,Qwen 2.5 (7B) を$3.3%(非距離),$+0.057$記述スコア,$+2.93%$精度で改善し,さらに$3%未満のパラメータが得られた。
論文 参考訳(メタデータ) (2026-03-04T11:08:44Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。
実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文 参考訳(メタデータ) (2025-01-17T17:40:12Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。