論文の概要: Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2409.12618v2
- Date: Tue, 1 Oct 2024 17:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:08:12.876667
- Title: Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning
- Title(参考訳): 思考の反復:自律型大言語モデル推論における内的対話の活用
- Authors: Santosh Kumar Radha, Yasamin Nouri Jelyani, Ara Ghukasyan, Oktay Goktas,
- Abstract要約: 反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。
思考の反復(IoT)フレームワークを提案する。
静的アプローチや半静的アプローチとは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適応する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.
- Abstract(参考訳): 反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。
会話的な方法で適切に構造化されたプロンプトを使用することで、人間のユーザはLLMに効果的に影響を与え、より思慮深く正確な応答を発達させることができる。
そこで本研究では,LLM応答の「考え」を誘発するプロンプトを生成し,インプットクエリと現在のLLM応答の繰り返しを生成することにより,LLM応答を向上させるためのIteration of Thought(IoT)フレームワークを提案する。
静的あるいは半静的なアプローチとは異なり、Thought(CoT)のeg ChainやTree of Thoughts(ToT)とは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適用する。
IoTフレームワークの3つのコンポーネントは、(1)インストラクティブでコンテキスト固有のプロンプトを生成するインナーダイアログエージェント(IDA)、(2)これらのプロンプトを処理して応答を洗練させるLLMエージェント(LLMA)、(3)以前の2つのコンポーネント間の会話を実装する反復的なプロンプトループである。
LLMがいつイテレーションを中止するかを決めるAIoT(Autonomous Iteration of Thought)と、常に固定数のイテレーションを強制するGIoT(Guid Iteration of Thought)の2つのバリエーションを紹介します。
GPQAデータセットからの複雑な推論タスク、Game of 24での爆発的問題解決、Mini Crosswordsでのパズル解決、HotpotQAデータセットからのマルチホップ質問応答など、さまざまなデータセットにおけるIoTのパフォーマンスについて検討する。
以上の結果から,IoTはLCMの自律応答改善のパラダイムとして実現可能であり,CoTに対する大幅な改善が示され,人間の介入を最小限に抑えた適応的で効率的な推論システムの実現が期待できる。
関連論文リスト
- Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Exploring Interaction Patterns for Debugging: Enhancing Conversational
Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。
LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。
本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文 参考訳(メタデータ) (2024-02-09T07:44:27Z) - Empirical Study of Zero-Shot NER with ChatGPT [19.534329209433626]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて強力な能力を示した。
本研究はゼロショット情報抽出におけるLLM性能の探索に焦点をあてる。
記号的推論と算術的推論におけるLLMの顕著な推論能力に着想を得て, 代表的な推論手法をNERに適用する。
論文 参考訳(メタデータ) (2023-10-16T03:40:03Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。