論文の概要: GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.19593v1
- Date: Tue, 23 Sep 2025 21:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.615585
- Title: GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models
- Title(参考訳): GuessingGame: 大規模言語モデルにおけるオープンエンド質問のインフォーマル性の測定
- Authors: Dylan Hutson, Daniel Vennemeyer, Aneesh Deshmukh, Justin Zhan, Tianyu Jiang,
- Abstract要約: 我々は,大規模言語モデル(LLM)を評価するプロトコルであるGuessingGameを紹介した。
Guesser LLMは、事前に定義された選択や候補リストなしで、Oracleに自由形式の質問をすることで、隠されたオブジェクトを特定する。
- 参考スコア(独自算出の注目度): 2.194453877288359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GuessingGame, a protocol for evaluating large language models (LLMs) as strategic question-askers in open-ended, open-domain settings. A Guesser LLM identifies a hidden object by posing free-form questions to an Oracle without predefined choices or candidate lists. To measure question quality, we propose two information gain (IG) metrics: a Bayesian method that tracks belief updates over semantic concepts using LLM-scored relevance, and an entropy-based method that filters candidates via ConceptNet. Both metrics are model-agnostic and support post hoc analysis. Across 858 games with multiple models and prompting strategies, higher IG strongly predicts efficiency: a one-standard-deviation IG increase reduces expected game length by 43\%. Prompting constraints guided by IG, such as enforcing question diversity, enable weaker models to significantly improve performance. These results show that question-asking in LLMs is both measurable and improvable, and crucial for interactive reasoning.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)を評価するプロトコルであるGuessingGameを紹介した。
Guesser LLMは、事前に定義された選択や候補リストなしで、Oracleに自由形式の質問をすることで、隠されたオブジェクトを特定する。
質問の質を測るために,LLM-scored Relevanceを用いてセマンティック概念の信念更新を追跡するベイズ法と,ConceptNetを介して候補をフィルタリングするエントロピー法という,2つの情報ゲイン(IG)指標を提案する。
どちらもモデルに依存しないメトリクスで、ポストホック分析をサポートする。
複数のモデルと戦略を駆使した858のゲームにおいて、より高いIGは効率を強く予測する: 1標準のIGは期待されるゲーム長を43\%減少させる。
IGによって導かれる制約(質問の多様性を強制するなど)により、弱いモデルによってパフォーマンスが大幅に向上する。
これらの結果から, LLMにおける質問応答は, 測定可能かつ即効性があり, 対話的推論に不可欠であることが示唆された。
関連論文リスト
- Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - IdentifyMe: A Challenging Long-Context Mention Resolution Benchmark for LLMs [22.238377215355545]
IdentifyMeは、Multiple-choice question (MCQ)形式で提示された参照解決のための新しいベンチマークである。
我々は,最先端のサブ10Bオープンモデルとクローズドモデルとの顕著な性能差を観察する。
最も高いスコア付けモデルであるGPT-4oは81.9%の精度を実現し、最先端のLCMの強力な参照能力を強調している。
論文 参考訳(メタデータ) (2024-11-12T01:05:55Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - Active Preference Inference using Language Models and Probabilistic Reasoning [13.523369679010685]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。
我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。
実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T09:58:54Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。