Fugu-MT 論文翻訳(概要): What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

論文の概要: What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

arxiv url: http://arxiv.org/abs/2602.20300v1
Date: Mon, 23 Feb 2026 19:30:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.503028
Title: What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance
Title（参考訳）: 良い質問とは何か? LLM性能に及ぼす人間混在言語的特徴の影響を測る
Authors: William Watson, Nicole Cho, Sumitra Ganesh, Manuela Veloso,
Abstract要約: 本研究では,22次元の問合せ特徴ベクトルの構築により,句の複雑度,語彙の希薄度,アナフォラ,否定,応答可能性,意図的根拠を抽出し,この知見を運用する。 369,837の現実世界のクエリを使って質問します。大規模分析では、深い節のネストや不特定といった特定の特徴が高い幻覚の確率と一致している、一貫した「リスクランドスケープ」が明らかになっている。
参考スコア（独自算出の注目度）: 17.12787601890563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM) hallucinations are usually treated as defects of the model or its decoding strategy. Drawing on classical linguistics, we argue that a query's form can also shape a listener's (and model's) response. We operationalize this insight by constructing a 22-dimension query feature vector covering clause complexity, lexical rarity, and anaphora, negation, answerability, and intention grounding, all known to affect human comprehension. Using 369,837 real-world queries, we ask: Are there certain types of queries that make hallucination more likely? A large-scale analysis reveals a consistent "risk landscape": certain features such as deep clause nesting and underspecification align with higher hallucination propensity. In contrast, clear intention grounding and answerability align with lower hallucination rates. Others, including domain specificity, show mixed, dataset- and model-dependent effects. Thus, these findings establish an empirically observable query-feature representation correlated with hallucination risk, paving the way for guided query rewriting and future intervention studies.
Abstract（参考訳）: 大言語モデル(LLM)の幻覚は通常、モデルまたはその復号戦略の欠陥として扱われる。古典言語学に基づいて、クエリの形式はリスナー(およびモデル)の応答を形作ることができると論じる。本研究では,22次元の問合せ特徴ベクトルの構築により,句の複雑度,語彙の希薄度,アナフォラ,否定,回答可能性,意図的根拠の3つを構築することにより,これらの知見を運用する。 369,837の現実世界のクエリを使って質問します。大規模分析では、深い節のネストや不特定といった特定の特徴が高い幻覚の確率と一致している、一貫した「リスクランドスケープ」が明らかになっている。対照的に、明確な意図的根拠と答えやすさは幻覚率の低下と一致している。ドメインの特異性を含む他のものは、混合、データセット、モデルに依存した効果を示している。そこで,これらの知見は幻覚リスクと相関する経験的に観察可能な問合せ機能表現を確立し,ガイド付き問合せ書き換えや今後の介入研究の道を開いた。

関連論文リスト

Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文参考訳（メタデータ） (2025-09-26T09:23:08Z)
How Large Language Models are Designed to Hallucinate [0.42970700836450487]
幻覚はトランスフォーマーアーキテクチャの構造的な結果であると主張する。本研究の貢献は,(1) 既存の説明が不十分な理由を示す比較説明,(2) 提案されたベンチマークによる実存的構造に関連付けられた幻覚の予測分類,(3) 開示の欠如を抑えることの可能な「真理に制約された」アーキテクチャへの設計方針,の3つである。
論文参考訳（メタデータ） (2025-09-19T16:46:27Z)
Beyond Facts: Evaluating Intent Hallucination in Large Language Models [13.315302240710164]
FAITHQAは20,068問題を含む意図幻覚の新しいベンチマークである。我々は、最先端のモデルにおいても意図幻覚は一般的な問題であると考えている。意図の幻覚を検出するための自動LLM生成評価指標であるCONSTRAINT SCOREを導入する。
論文参考訳（メタデータ） (2025-06-06T21:10:55Z)
Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T06:34:45Z)
Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。 CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文参考訳（メタデータ） (2025-02-18T15:46:31Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Confabulation: The Surprising Value of Large Language Model Hallucinations [0.7249731529275342]
ナラティビティを認知的資源として活用するために,LLMのコミュニケーションの計測可能な意味的特性は,人間の正当性を反映している,と我々は主張する。この発見は、通常、非難の否定的な理解の中で緊張を浮き彫りにしている。
論文参考訳（メタデータ） (2024-06-06T15:32:29Z)
On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。正しい解答知識を持つLLMの現象を推論力学の観点から検討する。我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文参考訳（メタデータ） (2024-03-29T06:48:30Z)
On Hallucination and Predictive Uncertainty in Conditional Language Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文参考訳（メタデータ） (2021-03-28T00:32:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。