Fugu-MT 論文翻訳(概要): Diving into the Inter-Consistency of Large Language Models: An Insightful Analysis through Debate

論文の概要: Diving into the Inter-Consistency of Large Language Models: An Insightful Analysis through Debate

arxiv url: http://arxiv.org/abs/2305.11595v1
Date: Fri, 19 May 2023 11:15:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 14:45:46.691519
Title: Diving into the Inter-Consistency of Large Language Models: An Insightful Analysis through Debate
Title（参考訳）: 大規模言語モデルの一貫性に潜む:議論による洞察豊かな分析
Authors: Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、印象的なゼロショットまたは少数ショットのコモンセンス推論性能を示す。本稿では,多種多様かつ高精度な意思決定プロセスにおいて重要な2つ以上のLCM間の整合性問題について検討する。我々は、3段階の議論:公正な議論、不一致な議論、ラウンドテーブルな議論。
参考スコア（独自算出の注目度）: 30.370233763119124
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated impressive zero-shot or few-shot commonsense reasoning performance on various natural language processing (NLP) tasks. However, despite their strong commonsense reasoning abilities, LLMs still exhibit various kinds of inconsistency problems. While previous researches mainly focused on the self-consistency within a single LLM, we propose to explore the inter-consistency issue between two or more LLMs, which is critical for diverse and precise decision-making processes. Since the LLMs possess human-like intelligence after instruction tuning and reinforcement learning with human feedback (RLHF), we design a formal debate framework to delve into the inter-consistency problem among LLMs with three-stage debate: fair debate, mismatched debate, and roundtable debate. Through extensive experiments on 7 commonsense reasoning datasets, LLMs not only become more inter-consistent by compromising and refuting but also achieve higher performance and stronger interpretability. Furthermore, we find a much stronger LLM would be dominant in mismatched debates, while it will be easily misled by relatively weaker LLMs in a more complex debate scenario such as roundtable debate.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、印象的なゼロショットまたは少数ショットのコモンセンス推論性能を示す。しかし、LLMは強い常識的推論能力にもかかわらず、様々な不整合問題を呈している。従来の研究は, 1 つの LLM 内の自己整合性に着目していたが, 多様な意思決定プロセスにおいて重要な2 つ以上の LLM 間の相互整合性問題について検討する。 LLMは、人間のフィードバックによる指導訓練と強化学習(RLHF)の後、人間のような知性を持っているため、我々は、3段階の議論である公正な議論、不一致な議論、丸みを帯びた議論において、LLM間の一貫性の問題に精通する正式な議論枠組みを設計する。 7つのコモンセンス推論データセットに関する広範な実験を通じて、llmは、妥協と反論によって一貫性が増すだけでなく、より高いパフォーマンスとより強力な解釈性を達成する。さらに、より複雑な議論シナリオである丸みを帯びた議論において、より弱い LLM によって容易に誤解される一方、ミスマッチした議論において、より強い LLM が支配的になる。

関連論文リスト

Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文参考訳（メタデータ） (2025-06-29T15:02:47Z)
Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
Collaboration among Multiple Large Language Models for Medical Question Answering [0.393259574660092]
本稿では,医療用マルチ選択質問データセットに基づくマルチLLM協調フレームワークを提案する。我々のフレームワークは、全てのLSMの推論能力を高め、質問間の相違を緩和することが証明されている。
論文参考訳（メタデータ） (2025-05-22T13:18:45Z)
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文参考訳（メタデータ） (2025-03-30T20:03:36Z)
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents [17.773801766612703]
大規模言語モデル(LLM)ベースのエージェントシステムは、従来のNLPタスクを超えて、現実世界のアプリケーションにおいて大きな進歩を遂げてきた。本稿では,インタラクティブ環境において,より適用性が高く,課題の多いOvercooked-AIゲーム上に構築された新しいベンチマークであるCollab-Overcookedを提案する。
論文参考訳（メタデータ） (2025-02-27T13:31:13Z)
MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning [26.736078756799635]
新しいポストトレーニングパラダイムMAPoRL(強化学習を用いた協調LLMのためのマルチエージェントポストトレーニング)を導入する。 MAPoRLでは、複数のLLMが独立して独自の応答を生成し、最終回答を協調的に改善するためのマルチターンディスカッションを行う。 MAPoRL検証器は、回答の正しさを検証するスコアを割り当てることで、回答と議論の両方を評価する。スコアはコトレーニング報酬として機能し、マルチエージェントRLによって最大化される。
論文参考訳（メタデータ） (2025-02-25T18:33:48Z)
When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文参考訳（メタデータ） (2025-02-06T21:13:44Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.336273322481276]
多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
論文参考訳（メタデータ） (2024-07-08T16:29:08Z)
LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。 LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文参考訳（メタデータ） (2024-05-10T10:19:14Z)
Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key? [84.36332588191623]
本稿では,議論機構の集合を充実させる新しいグループディスカッションフレームワークを提案する。マルチエージェントの議論は,プロンプトに実演がない場合にのみ,単一のエージェントよりも優れていることが観察された。
論文参考訳（メタデータ） (2024-02-28T12:04:05Z)
Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。 LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文参考訳（メタデータ） (2023-10-16T07:51:19Z)
LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models [23.092480882456048]
本研究では,Pure Coordination Games の文脈におけるLarge Language Models (LLM) の詳細な解析を目的とした。以上の結果から, GPT-4-turbo を併用した LLM エージェントは, 最先端の強化学習法に匹敵する性能を示した。コーディネーションQAの結果は、LLMのマインド推論と共同計画能力の向上のための大きな空間を示している。
論文参考訳（メタデータ） (2023-10-05T21:18:15Z)
Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-10-03T15:05:52Z)
Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文参考訳（メタデータ） (2023-09-30T07:11:39Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。