論文の概要: Examining the Inter-Consistency of Large Language Models: An In-depth
Analysis via Debate
- arxiv url: http://arxiv.org/abs/2305.11595v2
- Date: Mon, 22 May 2023 10:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 11:11:23.095381
- Title: Examining the Inter-Consistency of Large Language Models: An In-depth
Analysis via Debate
- Title(参考訳): 大規模言語モデルの一貫性の検討:議論による詳細な分析
- Authors: Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin
- Abstract要約: 私たちは、公正な議論、ミスマッチした議論、ラウンドテーブルな議論という、現実世界のシナリオに沿った3段階の議論を行います。
より強い LLM が彼らの視点に固執することによって議論を支配する傾向にあるのに対し、弱い LLM は視点を変える傾向にある。
- 参考スコア(独自算出の注目度): 30.370233763119124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated human-like intelligence and
are widely used in various applications. However, LLMs still exhibit various
kinds of inconsistency problems. Existing works mainly focus on the
inconsistency issues within a single LLM, while we investigate the
inter-consistency among multiple LLMs, which is critical for collaborating to
solve a complex task. To examine whether LLMs can collaborate to ultimately
achieve a consensus for the shared goal and whether LLMs easily change their
viewpoints, we introduce a Formal Debate framework (FORD) With FORD, we conduct
a three-stage debate aligned with real-world scenarios: fair debate, mismatched
debate, and roundtable debate. Through extensive experiments on the commonsense
reasoning task, LLMs not only become more inter-consistent but also achieve
higher performance. Moreover, we observe that stronger LLMs tend to dominate
the debates by adhering to their perspectives, while weaker ones are more
likely to change viewpoints. Additionally, we highlight the importance of a
competent judge, such as GPT-4, to draw more proper conclusions. Our work
contributes to understanding the inter-consistency among LLMs and lays the
foundation for the development of future collaboration methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間のような知性を示し、様々な用途で広く利用されている。
しかし、LLMは様々な不整合問題を呈している。
既存の研究は, 1 つの LLM 内の不整合問題に主に焦点をあてる一方で, 複雑タスクの解決に重要な複数の LLM 間の整合性について検討する。
LLMが最終的に共通目標のコンセンサスを達成できるかどうかを検討するために,FORD(Formal Debate framework)を導入し,実世界のシナリオに沿った3段階の議論を行う。
常識推論タスクに関する広範な実験を通じて、LLMはより矛盾するだけでなく、高い性能を達成する。
さらに,より強いLCMは視点に固執することで議論を支配する傾向にあり,弱いLLMは視点を変える傾向にある。
さらに, GPT-4のような有能な審査員が, より適切な結論を導くことの重要性を強調した。
我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。
関連論文リスト
- CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.336273322481276]
多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。
これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。
本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
論文 参考訳(メタデータ) (2024-07-08T16:29:08Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z) - Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the
Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。
マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文 参考訳(メタデータ) (2024-02-28T12:04:05Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models [23.092480882456048]
本研究では,Pure Coordination Games の文脈におけるLarge Language Models (LLM) の詳細な解析を目的とした。
以上の結果から, GPT-4-turbo を併用した LLM エージェントは, 最先端の強化学習法に匹敵する性能を示した。
コーディネーションQAの結果は、LLMのマインド推論と共同計画能力の向上のための大きな空間を示している。
論文 参考訳(メタデータ) (2023-10-05T21:18:15Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。