論文の概要: Referential ambiguity and clarification requests: comparing human and LLM behaviour
- arxiv url: http://arxiv.org/abs/2507.10445v1
- Date: Mon, 14 Jul 2025 16:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.460575
- Title: Referential ambiguity and clarification requests: comparing human and LLM behaviour
- Title(参考訳): 相対的あいまいさと明確化要求--人間とLLMの行動の比較
- Authors: Chris Madge, Matthew Purver, Massimo Poesio,
- Abstract要約: 我々は、Minecraftダイアログコーパスの既存のアノテーションを2つ組み合わせた新しいコーパスを提示する。
これらの対話では、あいまいさと人間の間には弱い関係しか存在しないことが判明した。
LLMが明確化を問う能力は、近年の推論をシミュレートする能力に則っているかどうかを疑問視する。
- 参考スコア(独自算出の注目度): 11.336760165002831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we examine LLMs' ability to ask clarification questions in task-oriented dialogues that follow the asynchronous instruction-giver/instruction-follower format. We present a new corpus that combines two existing annotations of the Minecraft Dialogue Corpus -- one for reference and ambiguity in reference, and one for SDRT including clarifications -- into a single common format providing the necessary information to experiment with clarifications and their relation to ambiguity. With this corpus we compare LLM actions with original human-generated clarification questions, examining how both humans and LLMs act in the case of ambiguity. We find that there is only a weak link between ambiguity and humans producing clarification questions in these dialogues, and low correlation between humans and LLMs. Humans hardly ever produce clarification questions for referential ambiguity, but often do so for task-based uncertainty. Conversely, LLMs produce more clarification questions for referential ambiguity, but less so for task uncertainty. We question if LLMs' ability to ask clarification questions is predicated on their recent ability to simulate reasoning, and test this with different reasoning approaches, finding that reasoning does appear to increase question frequency and relevancy.
- Abstract(参考訳): 本研究は,LLMが非同期命令-ギバー/インストラクション-フォローラー形式に従うタスク指向対話において,明確化を問う能力について検討する。
本稿では,Minecraftダイアログコーパスの既存の2つのアノテーション(参照とあいまいさのための1つと,明細書を含むSDRT用の1つ)を,明細書と曖昧さとの関係を実験するために必要な情報を提供する単一の共通形式に組み合わせた新しいコーパスを提案する。
このコーパスでは、LLMの動作と人間生成の明確化の問題を比較し、あいまいさの場合、人間とLLMの両方がどのように振る舞うかを調べる。
これらの対話では,あいまいさと人間との相関が弱く,人間とLLMの相関が低かった。
人間は指示のあいまいさに関する明確な質問をほとんど生成しないが、しばしばタスクベースの不確実性のために行う。
逆に、LLMは参照のあいまいさについてより明確化の質問を生成するが、タスクの不確実性についてはそうではない。
LLMの質問能力は、近年の推論をシミュレートし、異なる推論アプローチでこれをテストする能力に基づいており、推論が質問頻度と関連性を高めているように見えるかどうかを疑問視する。
関連論文リスト
- Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - An Empirical Study of the Role of Incompleteness and Ambiguity in Interactions with Large Language Models [0.9856777842758593]
人間の言語モデルと大規模言語モデル(LLM)の相互作用をモデル化するニューラルシンボリック・フレームワークを提案する。
我々は質問の不完全性とあいまいさを、インタラクションで交換されたメッセージから導出可能な特性として定義する。
その結果,不完全性やあいまいな質問の比率が高いデータセットでは,マルチターンインタラクションが要求されることがわかった。
論文 参考訳(メタデータ) (2025-03-23T04:34:30Z) - Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。
本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2024-11-19T10:27:26Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - How Well Do Large Language Models Understand Syntax? An Evaluation by
Asking Natural Language Questions [25.39259677000101]
本研究は,構文のレンズを通して問題を探究する。
文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24大言語モデル(LLM)で実施された実験は、ほとんどの場合、構文的知識が限られていることを示唆している。
論文 参考訳(メタデータ) (2023-11-14T16:30:36Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。