Fugu-MT 論文翻訳(概要): Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games

論文の概要: Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games

arxiv url: http://arxiv.org/abs/2310.01468v3
Date: Tue, 20 Feb 2024 21:24:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 20:15:26.200067
Title: Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games
Title（参考訳）: LLMのマルチターン計画能力の20質問ゲームによる検証
Authors: Yizhe Zhang, Jiarui Lu, Navdeep Jaitly
Abstract要約: 大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
参考スコア（独自算出の注目度）: 14.063311955315077
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are effective at answering questions that are clearly asked. However, when faced with ambiguous queries they can act unpredictably and produce incorrect outputs. This underscores the need for the development of intelligent agents capable of asking clarification questions to resolve ambiguities effectively. This capability requires complex understanding, state tracking, reasoning and planning over multiple conversational turns. However, directly measuring this can be challenging. In this paper, we offer a surrogate problem which assesses an LLMs's capability to deduce an entity unknown to itself, but revealed to a judge, by asking the judge a series of queries. This \textit{entity-deducing game} can serve as an evaluation framework to probe the conversational reasoning and planning capabilities of language models. We systematically evaluate various LLMs and discover significant differences in their performance on this task. We find that strong LLMs like GPT-4 outperform human players by a large margin. We further employ Behavior Cloning (BC) to examine whether a weaker model is capable of imitating a stronger model and generalizing to data or domains, using only the demonstrations from a stronger model. We finally propose to use Reinforcement Learning to enhance reasoning and planning capacity of Vicuna models through episodes of game playing, which lead to significant performance improvement. We hope that this problem offers insights into how autonomous agents could be trained to behave more intelligently in ambiguous circumstances.
Abstract（参考訳）: 大規模言語モデル(llm)は、明確に質問された質問に答えるのに有効である。しかし、あいまいなクエリに直面すると予測不能に動作し、誤った出力を生成することができる。このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。この能力は複雑な理解、状態追跡、推論、複数の会話のターンでの計画を必要とする。しかし、直接これを測定することは困難である。本稿では, LLMが未知のエンティティを自身に推論する能力の評価を行うが, 裁判官に一連のクエリーを問うことによって, 判断者に明らかにする代理問題を提案する。この \textit{entity-deducing game} は、言語モデルの会話的推論と計画能力を調査するための評価フレームワークとして機能する。我々は,様々なLLMを体系的に評価し,その性能に有意な差が認められた。 GPT-4のような強力なLLMは、人間のプレイヤーよりも大きなマージンで優れています。さらに,より弱いモデルがより強固なモデルを模倣し,より強固なモデルからのデモンストレーションのみを用いて,データやドメインに一般化できるかどうかを調べるために,行動クローニング(behavior clone, bc)も採用する。我々は最終的に、強化学習を用いて、ゲームプレイのエピソードを通じてヴィクナモデルの推論と計画能力を向上させることを提案し、性能改善につながった。この問題は、あいまいな状況において、自律的なエージェントがよりインテリジェントに振る舞うように訓練される方法に関する洞察を提供してくれることを期待しています。

関連論文リスト

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models [13.754658024896612]
我々は,LLMエージェントを説得し,合理的に警戒する大規模言語モデルの能力について検討する。 LLMでは,パズル解決性能,説得能力,警戒能力が解離能力であることがわかった。本研究は, LLMにおける説得, 警戒, タスクパフォーマンスの関連性に関する最初の調査である。
論文参考訳（メタデータ） (2026-02-24T04:09:21Z)
Do Reasoning Models Ask Better Questions? A Formal Information-Theoretic Analysis on Multi-Turn LLM Games [0.0]
大きな言語モデル(LLM)は多くのタスクで優れていますが、ユーザの要求のあいまいさを解決するための重要な能力に苦労しています。本稿では,LLMがイエス/ノー質問を通じてどのように情報を収集するかを定量的に測定する多元対話フレームワークを提案する。実験により, 評価モデルの中で, 明示的な推論能力を持つモデルでは, ターン当たりのIGが向上し, より少ないステップで解に到達することが実証された。
論文参考訳（メタデータ） (2026-01-25T06:38:15Z)
Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文参考訳（メタデータ） (2025-10-27T17:58:02Z)
Agent-Based Detection and Resolution of Incompleteness and Ambiguity in Interactions with Large Language Models [0.9856777842758593]
本稿では, LLMに基づく質問応答システムにエージェント・ベース・アーキテクチャを付加的な推論能力で活用することを検討した。我々は、不完全性と曖昧性の欠陥を検知し解決する専門家として働くエージェントを、異なるLLMに装備する。エージェントベースのアプローチを提案することは、LLMのパワーを利用してより堅牢なQAシステムを開発するための有用なメカニズムである。
論文参考訳（メタデータ） (2025-07-04T17:28:33Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文参考訳（メタデータ） (2024-07-16T08:49:35Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文参考訳（メタデータ） (2024-05-07T07:39:15Z)
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。 17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2023-11-16T09:50:53Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。 T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文参考訳（メタデータ） (2023-10-04T06:47:58Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。