論文の概要: Loose LIPS Sink Ships: Asking Questions in Battleship with
Language-Informed Program Sampling
- arxiv url: http://arxiv.org/abs/2402.19471v1
- Date: Thu, 29 Feb 2024 18:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:15:26.202568
- Title: Loose LIPS Sink Ships: Asking Questions in Battleship with
Language-Informed Program Sampling
- Title(参考訳): 難解なLIPSシンク船:言語インフォームドプログラムサンプリングによる戦艦の質問
- Authors: Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum
- Abstract要約: ボードゲーム「バトルシップ」に基づく古典的根拠付き質問応答課題におけるトレードオフについて検討する。
我々のモデルは,大規模言語モデル(LLM)を用いて自然言語の質問を生成し,それらを記号型プログラムに変換し,期待される情報取得を評価する。
驚くほど控えめなリソース予算で、このシンプルなモンテカルロ最適化戦略は、人間のパフォーマンスを反映する有意義な質問をもたらす。
- 参考スコア(独自算出の注目度): 86.52197700299138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Questions combine our mastery of language with our remarkable facility for
reasoning about uncertainty. How do people navigate vast hypothesis spaces to
pose informative questions given limited cognitive resources? We study these
tradeoffs in a classic grounded question-asking task based on the board game
Battleship. Our language-informed program sampling (LIPS) model uses large
language models (LLMs) to generate natural language questions, translate them
into symbolic programs, and evaluate their expected information gain. We find
that with a surprisingly modest resource budget, this simple Monte Carlo
optimization strategy yields informative questions that mirror human
performance across varied Battleship board scenarios. In contrast, LLM-only
baselines struggle to ground questions in the board state; notably, GPT-4V
provides no improvement over non-visual baselines. Our results illustrate how
Bayesian models of question-asking can leverage the statistics of language to
capture human priors, while highlighting some shortcomings of pure LLMs as
grounded reasoners.
- Abstract(参考訳): 質問は、我々の言語習得と、不確実性に関する推論のための顕著な設備を組み合わせる。
認知資源に制限のある情報的疑問を提起するために、人々はどのように巨大な仮説空間をナビゲートするか?
これらのトレードオフをボードゲームバトルシップに基づいた古典的な接地質問課題で検討する。
言語インフォームド・プログラム・サンプリング (LIPS) モデルでは,大きな言語モデル (LLM) を用いて自然言語の質問を生成し,それらをシンボリック・プログラムに変換する。
この単純なモンテカルロ最適化戦略は、驚くほど控えめなリソース予算で、バトルシップボードの様々なシナリオで人間のパフォーマンスを反映する情報的疑問をもたらす。
対照的に、LCMのみのベースラインは、板状状態の問題を解き明かすのに苦労しており、特にGPT-4Vは、非視覚ベースラインよりも改善しない。
以上の結果から,ベイジアンモデルが言語統計を活用すれば,人間の先行を捉えることができることを示すとともに,純粋LLMの欠点を根拠とした推論手法として強調する。
関連論文リスト
- LAMP: A Language Model on the Map [13.75316123602933]
大規模言語モデル(LLM)は、私たちの生活においてますます重要な役割を担い、幅広いタスクに補助を提供しています。
本研究では,都市固有のデータに基づいて事前学習したモデルを微調整し,正確なレコメンデーションを実現するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-14T02:56:38Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking [21.480602733510256]
質問を明確にするための自然言語実践的質問(PACQ)の定義とフレームワークを提案する。
また、自然言語データセットを自己教師付きPACQデータセットに変換するためのファクトレベルマスキング(FLM)も提案する。
実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して,有用な情報を取得するための質問に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。