論文の概要: Diving into the Inter-Consistency of Large Language Models: An
Insightful Analysis through Debate
- arxiv url: http://arxiv.org/abs/2305.11595v1
- Date: Fri, 19 May 2023 11:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:45:46.691519
- Title: Diving into the Inter-Consistency of Large Language Models: An
Insightful Analysis through Debate
- Title(参考訳): 大規模言語モデルの一貫性に潜む:議論による洞察豊かな分析
- Authors: Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、印象的なゼロショットまたは少数ショットのコモンセンス推論性能を示す。
本稿では,多種多様かつ高精度な意思決定プロセスにおいて重要な2つ以上のLCM間の整合性問題について検討する。
我々は、3段階の議論:公正な議論、不一致な議論、ラウンドテーブルな議論。
- 参考スコア(独自算出の注目度): 30.370233763119124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive zero-shot or
few-shot commonsense reasoning performance on various natural language
processing (NLP) tasks. However, despite their strong commonsense reasoning
abilities, LLMs still exhibit various kinds of inconsistency problems. While
previous researches mainly focused on the self-consistency within a single LLM,
we propose to explore the inter-consistency issue between two or more LLMs,
which is critical for diverse and precise decision-making processes. Since the
LLMs possess human-like intelligence after instruction tuning and reinforcement
learning with human feedback (RLHF), we design a formal debate framework to
delve into the inter-consistency problem among LLMs with three-stage debate:
fair debate, mismatched debate, and roundtable debate. Through extensive
experiments on 7 commonsense reasoning datasets, LLMs not only become more
inter-consistent by compromising and refuting but also achieve higher
performance and stronger interpretability. Furthermore, we find a much stronger
LLM would be dominant in mismatched debates, while it will be easily misled by
relatively weaker LLMs in a more complex debate scenario such as roundtable
debate.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、印象的なゼロショットまたは少数ショットのコモンセンス推論性能を示す。
しかし、LLMは強い常識的推論能力にもかかわらず、様々な不整合問題を呈している。
従来の研究は, 1 つの LLM 内の自己整合性に着目していたが, 多様な意思決定プロセスにおいて重要な2 つ以上の LLM 間の相互整合性問題について検討する。
LLMは、人間のフィードバックによる指導訓練と強化学習(RLHF)の後、人間のような知性を持っているため、我々は、3段階の議論である公正な議論、不一致な議論、丸みを帯びた議論において、LLM間の一貫性の問題に精通する正式な議論枠組みを設計する。
7つのコモンセンス推論データセットに関する広範な実験を通じて、llmは、妥協と反論によって一貫性が増すだけでなく、より高いパフォーマンスとより強力な解釈性を達成する。
さらに、より複雑な議論シナリオである丸みを帯びた議論において、より弱い LLM によって容易に誤解される一方、ミスマッチした議論において、より強い LLM が支配的になる。
関連論文リスト
- When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。
既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。
コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文 参考訳(メタデータ) (2025-02-06T21:13:44Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.336273322481276]
多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。
これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。
本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
論文 参考訳(メタデータ) (2024-07-08T16:29:08Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z) - LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models [23.092480882456048]
本研究では,Pure Coordination Games の文脈におけるLarge Language Models (LLM) の詳細な解析を目的とした。
以上の結果から, GPT-4-turbo を併用した LLM エージェントは, 最先端の強化学習法に匹敵する性能を示した。
コーディネーションQAの結果は、LLMのマインド推論と共同計画能力の向上のための大きな空間を示している。
論文 参考訳(メタデータ) (2023-10-05T21:18:15Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。