論文の概要: Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling
- arxiv url: http://arxiv.org/abs/2402.19471v2
- Date: Wed, 1 May 2024 19:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 21:41:12.189257
- Title: Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling
- Title(参考訳): 難解なLIPSシンク船:言語インフォームドプログラムサンプリングによる戦艦の質問
- Authors: Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum,
- Abstract要約: ボードゲーム「バトルシップ」に基づく古典的根拠付き質問応答課題におけるトレードオフについて検討する。
我々のモデルは,大規模言語モデル(LLM)を用いて自然言語の質問を生成し,それらを記号型プログラムに変換し,期待される情報取得を評価する。
驚くほど控えめなリソース予算で、このシンプルなモンテカルロ最適化戦略は、人間のパフォーマンスを反映する有意義な質問をもたらす。
- 参考スコア(独自算出の注目度): 80.64715784334936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Questions combine our mastery of language with our remarkable facility for reasoning about uncertainty. How do people navigate vast hypothesis spaces to pose informative questions given limited cognitive resources? We study these tradeoffs in a classic grounded question-asking task based on the board game Battleship. Our language-informed program sampling (LIPS) model uses large language models (LLMs) to generate natural language questions, translate them into symbolic programs, and evaluate their expected information gain. We find that with a surprisingly modest resource budget, this simple Monte Carlo optimization strategy yields informative questions that mirror human performance across varied Battleship board scenarios. In contrast, LLM-only baselines struggle to ground questions in the board state; notably, GPT-4V provides no improvement over non-visual baselines. Our results illustrate how Bayesian models of question-asking can leverage the statistics of language to capture human priors, while highlighting some shortcomings of pure LLMs as grounded reasoners.
- Abstract(参考訳): 質問は、我々の言語習得と、不確実性について推論するための際立った施設を組み合わせる。
認知資源に制限のある情報的疑問を提起するために、人々はどのように巨大な仮説空間をナビゲートするか?
本研究では,これらのトレードオフを,ボードゲーム「バトルシップ」に基づく古典的根拠付き質問応答タスクで研究する。
言語インフォームド・プログラム・サンプリング (LIPS) モデルでは,大きな言語モデル (LLM) を用いて自然言語の質問を生成し,それらをシンボリック・プログラムに変換する。
この単純なモンテカルロ最適化戦略は、驚くほど控えめなリソース予算で、バトルシップボードの様々なシナリオで人間のパフォーマンスを反映する情報的疑問をもたらす。
対照的に、LCMのみのベースラインは、ボード状態の疑問を解き明かすのに苦労しており、特にGPT-4Vは、非視覚ベースラインよりも改善しない。
以上の結果から,ベイジアンモデルが言語統計を活用すれば,人間の先行を捉えることができることを示すとともに,純粋LLMの欠点を根拠とした推論手法として強調する。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。
本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。
本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文 参考訳(メタデータ) (2024-08-25T18:47:55Z) - Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。
我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。
我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - LAMP: A Language Model on the Map [13.75316123602933]
大規模言語モデル(LLM)は、私たちの生活においてますます重要な役割を担い、幅広いタスクに補助を提供しています。
本研究では,都市固有のデータに基づいて事前学習したモデルを微調整し,正確なレコメンデーションを実現するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-14T02:56:38Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。