論文の概要: Examining Inter-Consistency of Large Language Models Collaboration: An
In-depth Analysis via Debate
- arxiv url: http://arxiv.org/abs/2305.11595v3
- Date: Wed, 18 Oct 2023 06:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:33:58.039431
- Title: Examining Inter-Consistency of Large Language Models Collaboration: An
In-depth Analysis via Debate
- Title(参考訳): 大規模言語モデルの相互整合性の検討:ディベートによる詳細な分析
- Authors: Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin
- Abstract要約: 大きな言語モデル(LLM)は、様々なアプリケーションで印象的な機能を示しているが、それでも様々な矛盾問題に直面している。
LLMが効果的に協力して共有目標のコンセンサスを達成するためには,コモンセンス推論に焦点をあてる。
我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。
- 参考スコア(独自算出の注目度): 41.949869545423375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown impressive capabilities in various
applications, but they still face various inconsistency issues. Existing works
primarily focus on the inconsistency issues within a single LLM, while we
complementarily explore the inter-consistency among multiple LLMs for
collaboration. To examine whether LLMs can collaborate effectively to achieve a
consensus for a shared goal, we focus on commonsense reasoning, and introduce a
formal debate framework (FORD) to conduct a three-stage debate among LLMs with
real-world scenarios alignment: fair debate, mismatched debate, and roundtable
debate. Through extensive experiments on various datasets, LLMs can effectively
collaborate to reach a consensus despite noticeable inter-inconsistencies, but
imbalances in their abilities can lead to domination by superior LLMs.
Leveraging a more advanced LLM like GPT-4 as an authoritative judge can boost
collaboration performance. Our work contributes to understanding the
inter-consistency among LLMs and lays the foundation for developing future
collaboration methods. Codes and data are available at
https://github.com/Waste-Wood/FORD
- Abstract(参考訳): 大規模言語モデル(llm)は様々なアプリケーションで素晴らしい機能を見せているが、それでも様々な矛盾に直面している。
既存の作業は主に1つのLLM内の不整合の問題に焦点を合わせ、協調のために複数のLLM間の一貫性を補完的に検討する。
共有目標の合意を達成するためにLLMが効果的に協力できるかどうかを検討するために、我々はコモンセンス推論に注目し、現実のシナリオを整合させた3段階の議論を行うための公式な議論枠組み(FORD)を導入する。
様々なデータセットに関する広範な実験を通じて、LLMは顕著な矛盾にもかかわらず、効果的に協力して合意に達することができるが、それらの能力の不均衡は優れたLLMによる支配につながる。
GPT-4のような高度なLCMを権威ある裁判官として活用すれば、コラボレーションのパフォーマンスが向上する。
我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。
コードとデータはhttps://github.com/Waste-Wood/FORDで公開されている。
関連論文リスト
- CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.336273322481276]
多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。
これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。
本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
論文 参考訳(メタデータ) (2024-07-08T16:29:08Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z) - Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models [23.092480882456048]
本研究では,Pure Coordination Games の文脈におけるLarge Language Models (LLM) の詳細な解析を目的とした。
以上の結果から, GPT-4-turbo を併用した LLM エージェントは, 最先端の強化学習法に匹敵する性能を示した。
コーディネーションQAの結果は、LLMのマインド推論と共同計画能力の向上のための大きな空間を示している。
論文 参考訳(メタデータ) (2023-10-05T21:18:15Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。