Fugu-MT 論文翻訳(概要): Relation-R1: Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relational Comprehension

論文の概要: Relation-R1: Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relational Comprehension

arxiv url: http://arxiv.org/abs/2504.14642v1
Date: Sun, 20 Apr 2025 14:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-29 21:07:43.859283
Title: Relation-R1: Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relational Comprehension
Title（参考訳）: リレーショナルR1:統合リレーショナル理解のための認知的連鎖指導強化学習
Authors: Lin Li, Wei Chen, Jiahui Li, Long Chen,
Abstract要約: リレーショナルR1は最初の統合リレーショナル理解フレームワークである。認知連鎖(CoT)誘導監視細管(SFT)とグループ相対政策最適化(GRPO)を統合している。広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
参考スコア（独自算出の注目度）: 12.563060744760651
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in multi-modal large language models (MLLMs) have significantly improved object-level grounding and region captioning, but remain limited in visual relation understanding (\eg, scene graph generation), particularly in modeling \textit{N}-ary relationships that identify multiple semantic roles among an action event. Such a lack of \textit{semantic dependencies} modeling among multi-entities leads to unreliable outputs, intensifying MLLMs' hallucinations and over-reliance on language priors. To this end, we propose Relation-R1, the first unified relational comprehension framework that explicitly integrates cognitive chain-of-thought (CoT)-guided Supervised Fine-Tuning (SFT) and Group Relative Policy Optimization (GRPO) within a reinforcement learning (RL) paradigm. Specifically, we first establish foundational reasoning capabilities via SFT, enforcing structured outputs with thinking processes. Then, GRPO is utilized to refine these outputs via multi-reward optimization, prioritizing visual-semantic grounding over language-induced biases, thereby improving generalization capability. Extensive experiments on widely-used PSG and SWiG datasets demonstrate that Relation-R1 achieves state-of-the-art performance in both binary and \textit{N}-ary relation understanding.
Abstract（参考訳）: MLLM(Multi-modal large language model)の最近の進歩は、オブジェクトレベルの接頭辞や領域キャプションを大幅に改善しているが、視覚的関係理解(シーングラフ生成)、特にアクションイベントにおける複数のセマンティックな役割を識別する「textit{N}-ary relationship」に限られている。マルチエンティティ間での‘textit{semantic dependencies} モデリングの欠如は、MLLMの幻覚を強くし、言語事前への過度な信頼をもたらす。この目的のために,リレーショナル・リレーショナル・コングリゲーション・フレームワークであるRelation-R1を提案する。このフレームワークは,認知連鎖・オブ・シークレット(CoT)誘導スーパービジョン・ファイン・チューニング(SFT)とグループ相対政策最適化(GRPO)を,強化学習(RL)パラダイムで明示的に統合するものである。具体的には、まず、構造化された出力を思考プロセスで強制する、SFTによる基礎的推論能力を確立する。そして、GRPOを用いて、これらの出力をマルチリワード最適化により洗練し、言語によるバイアスに対する視覚的セマンティックグラウンドの優先順位付けを行い、一般化能力を向上させる。広く使われているPSGデータセットとSWiGデータセットの広範な実験により、Relation-R1はバイナリと \textit{N}-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することを示した。

関連論文リスト

CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT [9.44589968698834]
CoTZeroはアノテーションなしのパラダイムで、2つのコンポーネントがある。 CoTZeroは視覚的プリミティブを抽出し、構造化された質問推論形式に構成する。合成されたCoTデータに基づいて構築された認知対応トレーニングコンポーネントでは,認知的コヒーレントな検証リワードを導入する。
論文参考訳（メタデータ） (2026-02-09T07:26:40Z)
Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。 RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文参考訳（メタデータ） (2026-01-07T16:16:10Z)
Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文参考訳（メタデータ） (2025-10-23T17:59:31Z)
CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。 CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文参考訳（メタデータ） (2025-10-09T09:41:45Z)
Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
Retrieval over Classification: Integrating Relation Semantics for Multimodal Relation Extraction [6.478238734128006]
関係抽出(RE)は、非構造化テキストにおけるエンティティ間の意味的関係を特定することを目的としている。 underlineRetrieval underlineOver underlineClassification (ROC)は、リレーショナルセマンティクスによって駆動される検索タスクとしてマルチモーダルREを再構成する新しいフレームワークである。 ROCは、マルチモーダルエンコーダを通じてエンティティタイプと位置情報を統合し、大きな言語モデルを用いて関係ラベルを自然言語記述に拡張し、意味的類似性に基づくコントラスト学習を通じてエンティティ-リレーションペアを調整する。
論文参考訳（メタデータ） (2025-09-25T13:38:38Z)
CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文参考訳（メタデータ） (2025-07-23T02:26:33Z)
Boosting Neural Language Inference via Cascaded Interactive Reasoning [38.125341836302525]
自然言語推論(NLI)は、与えられた前提と仮説の間の論理的関係の確認に焦点を当てている。この課題は、多様な言い回し、意味的複雑さ、文脈的ニュアンスといった固有の言語的特徴により、重大な課題を提起する。 NLIにおける深い意味理解のために設計された新しいアーキテクチャであるCascaded Interactive Reasoning Network (CIRN)を紹介する。
論文参考訳（メタデータ） (2025-05-10T11:37:15Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳（メタデータ） (2025-03-08T05:41:42Z)
EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。 LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文参考訳（メタデータ） (2025-02-20T17:01:57Z)
Intrinsic Tensor Field Propagation in Large Language Models: A Novel Approach to Contextual Information Flow [0.0]
内在的場伝播は、様々な言語構造にわたる文脈的保持、依存性の解決、推論を改善する。オープンソーストランスフォーマーベースのモデルで行った実験では、様々な言語構造にわたる文脈保持、依存関係の解決、推論において測定可能な改善が提供されている。
論文参考訳（メタデータ） (2025-01-31T08:32:32Z)
DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis [41.29318462528406]
本稿では,多目的表現学習フレームワークDentangled-Language-Focused (DLF)を提案する。このモジュールは、モダリティ共有とモダリティ固有情報を分離するための機能障害モジュールを組み込んでいる。相補的モダリティ固有情報を活用することで言語表現を強化するために,Language-Focused Attractor (LFA) がさらに開発された。
論文参考訳（メタデータ） (2024-12-16T10:03:44Z)
Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文参考訳（メタデータ） (2024-07-26T15:32:21Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。 BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文参考訳（メタデータ） (2024-04-16T02:40:35Z)
How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding [18.97081348819219]
WPG(Wakly-supervised Phrase Grounding)は,微粒な句領域マッチングを推定する新たな課題である。本稿では,暗黙的な関係をモデル化する上での課題に対処するインプリシット強化因果推論手法を提案する。
論文参考訳（メタデータ） (2024-02-29T12:49:48Z)
Prompt-based Logical Semantics Enhancement for Implicit Discourse Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。 PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文参考訳（メタデータ） (2023-11-01T08:38:08Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
Improving Distantly Supervised Relation Extraction by Natural Language Inference [9.181270251524866]
本稿では,既存の知識ベースから遠ざかる監視と,事前学習した言語モデルから他のタスクへ間接的に監督するDSRE-NLIフレームワークを提案する。 DSRE-NLIは、半自動的関係言語化(SARV)機構により、市販の自然言語推論(NLI)エンジンをエネルギ化し、間接的な監視を提供する。 2つのシンプルで効果的なデータ統合戦略により、トレーニングデータの質が大幅に向上する。
論文参考訳（メタデータ） (2022-07-31T02:48:34Z)
SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文参考訳（メタデータ） (2021-09-24T17:37:35Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:35:22Z)
High-order Semantic Role Labeling [86.29371274587146]
本稿では,ニューラルセマンティックロールラベリングモデルのための高階グラフ構造を提案する。これにより、モデルは孤立述語-引数対だけでなく、述語-引数対間の相互作用も明示的に考慮することができる。 CoNLL-2009ベンチマークの7つの言語に対する実験結果から、高次構造学習技術は強力なSRLモデルに有益であることが示された。
論文参考訳（メタデータ） (2020-10-09T15:33:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。