Fugu-MT 論文翻訳(概要): Negotiated Reasoning: On Provably Addressing Relative Over-Generalization

論文の概要: Negotiated Reasoning: On Provably Addressing Relative Over-Generalization

arxiv url: http://arxiv.org/abs/2306.05353v1
Date: Thu, 8 Jun 2023 16:57:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 13:16:01.272079
Title: Negotiated Reasoning: On Provably Addressing Relative Over-Generalization
Title（参考訳）: 交渉による推論--相対的な一般化を正当化する
Authors: Junjie Sheng, Wenhao Li, Bo Jin, Hongyuan Zha, Jun Wang, Xiangfeng Wang
Abstract要約: 過度に一般化することは認知科学における厄介な問題であり、人々は過去の経験のために過度に慎重になる可能性がある。マルチエージェント強化学習(MARL)のエージェントも、人々が行うように相対的な過剰一般化(RO)に悩まされ、準最適協力に固執している。近年, エージェントに対する推論能力の割り当てはアルゴリズム的にも経験的にもROを緩和できることが示されたが, ROの理論的理解は乏しい。
参考スコア（独自算出の注目度）: 49.5896371203566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over-generalization is a thorny issue in cognitive science, where people may become overly cautious due to past experiences. Agents in multi-agent reinforcement learning (MARL) also have been found to suffer relative over-generalization (RO) as people do and stuck to sub-optimal cooperation. Recent methods have shown that assigning reasoning ability to agents can mitigate RO algorithmically and empirically, but there has been a lack of theoretical understanding of RO, let alone designing provably RO-free methods. This paper first proves that RO can be avoided when the MARL method satisfies a consistent reasoning requirement under certain conditions. Then we introduce a novel reasoning framework, called negotiated reasoning, that first builds the connection between reasoning and RO with theoretical justifications. After that, we propose an instantiated algorithm, Stein variational negotiated reasoning (SVNR), which uses Stein variational gradient descent to derive a negotiation policy that provably avoids RO in MARL under maximum entropy policy iteration. The method is further parameterized with neural networks for amortized learning, making computation efficient. Numerical experiments on many RO-challenged environments demonstrate the superiority and efficiency of SVNR compared to state-of-the-art methods in addressing RO.
Abstract（参考訳）: 過度な一般化は認知科学における厄介な問題であり、過去の経験によって人々は過度に慎重になる可能性がある。マルチエージェント強化学習(MARL)のエージェントも、人々が行うように相対的な過剰一般化(RO)に悩まされ、準最適協力に固執している。近年の手法では, エージェントに推論能力を割り当てることによって, ROをアルゴリズム的にかつ経験的に緩和できることが示されているが, ROの理論的理解の欠如が指摘されている。本稿では,MARL法が一定の条件下で一貫した推論条件を満たす場合,ROを回避できることを最初に証明する。次に、まず理論的正当化を伴う推論とROの接続を構築する、交渉推論と呼ばれる新しい推論フレームワークを導入する。その後,svnr(stein variational negotiationd reasoning)という,最大エントロピー政策の反復でmarlのroを確実に回避するネゴシエーションポリシを導出するアルゴリズムを提案する。この手法はさらに、償却学習のためのニューラルネットワークでパラメータ化され、計算効率が向上する。多くの RO チャレング環境における数値実験により SVNR の優位性と効率性を示す。

関連論文リスト

Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文参考訳（メタデータ） (2026-01-08T15:56:44Z)
RAVR: Reference-Answer-guided Variational Reasoning for Large Language Models [21.671577399379885]
本稿では,質問のみの推論のための変分サロゲートとして応答条件推論を利用する,エンドツーエンドのフレームワークであるRAVRを紹介する。 RAVRはためらいを減らし、結論の統合を強化し、推論における問題固有の戦略を促進する。
論文参考訳（メタデータ） (2025-10-29T06:18:37Z)
Cognitive Decision Routing in Large Language Models: When to Think Fast, When to Think Slow [0.0]
大規模言語モデル(LLM)は、迅速で直感的な応答にいつ依存するか決定する上で、より遅く、より意図的な推論を行うという根本的な課題に直面します。ダニエル・カーネマン(Daniel Kahneman)の二重プロセス理論と人間の認知バイアスに関する洞察に触発され、我々は新しい認知決定ルーティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-17T01:07:58Z)
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [33.008513399946914]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。 OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文参考訳（メタデータ） (2025-06-03T03:31:30Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary? [60.725923225442095]
我々は、推論に基づくポイントワイドリランカ(ReasonRR)と、同じ訓練条件下での標準、非推論ポイントワイドリランカ(StandardRR)を比較した。 ReasonRR-NoReasonはReasonRRよりも驚くほど効果的であることがわかった。
論文参考訳（メタデータ） (2025-05-22T16:41:37Z)
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。 StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文参考訳（メタデータ） (2025-03-17T08:51:44Z)
ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。 ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文参考訳（メタデータ） (2025-01-14T05:56:26Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [79.37150041259066]
本稿では, 事実推論や数学的証明といったIR課題に対処するために, 反陽性と矛盾の論理を用いた間接推論(IR)手法を提案する。 GPT-3.5-turbo や Gemini-pro などの一般的な LLM の実験結果から,我々のIR 法は事実推論の総合的精度を27.33%,数学的証明を31.43%向上させることを示した。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T20:36:10Z)
DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文参考訳（メタデータ） (2023-10-28T10:05:51Z)
On Pitfalls of $\textit{RemOve-And-Retrain}$: Data Processing Inequality Perspective [5.8010446129208155]
本研究では,RemOve-And-Retrain(ROAR)手法の信頼性について検討した。理論的基礎と実証的研究から得られた知見から、決定関数に関するより少ない情報を含む属性がROARベンチマークにおいて優れた結果をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-26T21:43:42Z)
Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search [21.850348833971722]
我々は、占領情報比(OIR)と呼ばれる、無限水平強化学習(RL)のための情報指向型目標を提案する。 OIRは、豊富な基盤構造を享受し、スケーラブルでモデルフリーなポリシーサーチ手法が自然に適用される目的を示す。準コンカベ最適化と線形プログラミング理論をマルコフ決定過程に利用することにより、基礎となるモデルが知られている場合、OIR問題をコンカベプログラミング手法で変換・解けることを示す。
論文参考訳（メタデータ） (2022-01-21T18:40:03Z)
Cross-sentence Neural Language Models for Conversational Speech Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文参考訳（メタデータ） (2021-06-13T05:30:16Z)
Pairwise Relations Discriminator for Unsupervised Raven's Progressive Matrices [7.769102711230249]
レーヴェンのプログレッシブ・マトリクス問題に取り組むのに十分な推論能力を持つ教師なしモデルを開発するために、ペアワイズ・リレーション・ディミネータ(PRD)を導入する。 PRDは、RPM問題を関係比較タスクに再構成し、RPM問題のラベル付けを必要とせずに解決する。我々のアプローチであるPRDは、I-RAVENで55.9%の精度で、最先端の教師なし学習ベンチマークを確立する。
論文参考訳（メタデータ） (2020-11-02T20:49:46Z)
An Online Method for A Class of Distributionally Robust Optimization with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文参考訳（メタデータ） (2020-06-17T20:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。