論文の概要: Diving into the Inter-Consistency of Large Language Models: An
Insightful Analysis through Debate
- arxiv url: http://arxiv.org/abs/2305.11595v1
- Date: Fri, 19 May 2023 11:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:45:46.691519
- Title: Diving into the Inter-Consistency of Large Language Models: An
Insightful Analysis through Debate
- Title(参考訳): 大規模言語モデルの一貫性に潜む:議論による洞察豊かな分析
- Authors: Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、印象的なゼロショットまたは少数ショットのコモンセンス推論性能を示す。
本稿では,多種多様かつ高精度な意思決定プロセスにおいて重要な2つ以上のLCM間の整合性問題について検討する。
我々は、3段階の議論:公正な議論、不一致な議論、ラウンドテーブルな議論。
- 参考スコア(独自算出の注目度): 30.370233763119124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive zero-shot or
few-shot commonsense reasoning performance on various natural language
processing (NLP) tasks. However, despite their strong commonsense reasoning
abilities, LLMs still exhibit various kinds of inconsistency problems. While
previous researches mainly focused on the self-consistency within a single LLM,
we propose to explore the inter-consistency issue between two or more LLMs,
which is critical for diverse and precise decision-making processes. Since the
LLMs possess human-like intelligence after instruction tuning and reinforcement
learning with human feedback (RLHF), we design a formal debate framework to
delve into the inter-consistency problem among LLMs with three-stage debate:
fair debate, mismatched debate, and roundtable debate. Through extensive
experiments on 7 commonsense reasoning datasets, LLMs not only become more
inter-consistent by compromising and refuting but also achieve higher
performance and stronger interpretability. Furthermore, we find a much stronger
LLM would be dominant in mismatched debates, while it will be easily misled by
relatively weaker LLMs in a more complex debate scenario such as roundtable
debate.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、印象的なゼロショットまたは少数ショットのコモンセンス推論性能を示す。
しかし、LLMは強い常識的推論能力にもかかわらず、様々な不整合問題を呈している。
従来の研究は, 1 つの LLM 内の自己整合性に着目していたが, 多様な意思決定プロセスにおいて重要な2 つ以上の LLM 間の相互整合性問題について検討する。
LLMは、人間のフィードバックによる指導訓練と強化学習(RLHF)の後、人間のような知性を持っているため、我々は、3段階の議論である公正な議論、不一致な議論、丸みを帯びた議論において、LLM間の一貫性の問題に精通する正式な議論枠組みを設計する。
7つのコモンセンス推論データセットに関する広範な実験を通じて、llmは、妥協と反論によって一貫性が増すだけでなく、より高いパフォーマンスとより強力な解釈性を達成する。
さらに、より複雑な議論シナリオである丸みを帯びた議論において、より弱い LLM によって容易に誤解される一方、ミスマッチした議論において、より強い LLM が支配的になる。
関連論文リスト
- LLMs4OM: Matching Ontologies with Large Language Models [0.14999444543328289]
オントロジーマッチング(オントロジーマッチング、Ontology Matching、OM)は、異種データの相互運用性と知識共有を整合させる知識統合において重要なタスクである。
OMタスクにおけるLLM(Large Language Models)の有効性を評価するための新しいアプローチであるLLMs4OMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-16T06:55:45Z) - Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.541408924345408]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models [23.092480882456048]
本研究では,Pure Coordination Games の文脈におけるLarge Language Models (LLM) の詳細な解析を目的とした。
以上の結果から, GPT-4-turbo を併用した LLM エージェントは, 最先端の強化学習法に匹敵する性能を示した。
コーディネーションQAの結果は、LLMのマインド推論と共同計画能力の向上のための大きな空間を示している。
論文 参考訳(メタデータ) (2023-10-05T21:18:15Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology
View [64.43238868957813]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games [53.927705340086334]
本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate [56.23037393834715]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。