論文の概要: Talking to a Know-It-All GPT or a Second-Guesser Claude? How Repair reveals unreliable Multi-Turn Behavior in LLMs
- arxiv url: http://arxiv.org/abs/2604.19245v2
- Date: Wed, 22 Apr 2026 07:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.451945
- Title: Talking to a Know-It-All GPT or a Second-Guesser Claude? How Repair reveals unreliable Multi-Turn Behavior in LLMs
- Title(参考訳): ノウ・イット・オールGPTか第2グエッサークロードか? : LLMにおける信頼性の低いマルチTurn挙動について
- Authors: Clara Lachenmaier, Hannah Bultmann, Sina Zarrieß,
- Abstract要約: 修復は人間と人間の会話におけるトラブルを解決するための重要な資源である。
本研究では, LLMが解答・解答不可能な数学問題に関する多ターン対話において, 対話的な修復過程にどのように関与するかを検討する。
- 参考スコア(独自算出の注目度): 10.068355434387845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repair, an important resource for resolving trouble in human-human conversation, remains underexplored in human-LLM interaction. In this study, we investigate how LLMs engage in the interactive process of repair in multi-turn dialogues around solvable and unsolvable math questions. We examine whether models initiate repair themselves and how they respond to user-initiated repair. Our results show strong differences across models: reactions range from being almost completely resistant to (appropriate) repair attempts to being highly susceptible and easily manipulated. We further demonstrate that once conversations extend beyond a single turn, model behavior becomes more distinctive and less predictable across systems. Overall, our findings indicate that each tested LLM exhibits its own characteristic form of unreliability in the context of repair.
- Abstract(参考訳): ヒトとヒトの会話におけるトラブルを解決するための重要な資源である修復は、ヒトとLLMの相互作用において過小評価されている。
本研究では, LLM が解答可能・解答不能な数学問題に関する多ターン対話において, 相互に連携して修復を行う方法について検討した。
モデルが自己修復を開始するか,ユーザ主導の修復にどのように反応するかを検討する。
反応は、ほぼ完全に(適切な)修復の試みに対する抵抗性から、非常に感受性が高く操作しやすいものまで、モデル間で強い差異が示されています。
さらに、一度会話が1ターンを超えると、モデル行動はより独特になり、システム全体で予測しにくくなります。
総じて, 各試験片は, 補修の文脈において, それぞれ独自の信頼性の欠如を呈することが明らかとなった。
関連論文リスト
- "Mm, Wat?" Detecting Other-initiated Repair Requests in Dialogue [1.0616273526777913]
本研究では,オランダ語対話における修復開始を自動的に検出するマルチモーダルモデルを提案する。
その結果,韻律的手がかりは言語的特徴を補完し,事前学習されたテキストと音声の埋め込みの結果を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-10-28T16:58:26Z) - Studying and Understanding the Effectiveness and Failures of Conversational LLM-Based Repair [3.93048798243871]
自動プログラム修復(APR)は、バグ修正のプロセスを自動化するように設計されている。
会話言語モデル(LLM)を利用した高度なAPR技術は、目覚ましい修復能力を示した。
優位性にもかかわらず、会話型APR技術は依然として多くのバグを修復することができない。
論文 参考訳(メタデータ) (2025-03-19T09:39:32Z) - Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models [48.42142115255159]
命令追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットであるBlockWorld-Repairsをリリースする。
現状のビジョンと言語モデル(VLM)を複数の設定で評価し,TPRの処理能力と正確な応答性に着目した。
以上の結果から,これらのモデルはまだマルチモーダル・コラボレーティブ・セッティングにデプロイする準備が整っていないことが示唆された。
論文 参考訳(メタデータ) (2024-09-21T21:06:25Z) - Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering [47.199078631274745]
大規模言語モデル(LLM)は質問応答タスクの習熟度を示しているが、しばしばリアルタイム知識の統合に苦慮している。
マルチホップ質問応答のためのRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:47:19Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。