Fugu-MT 論文翻訳(概要): Compile Scene Graphs with Reinforcement Learning

論文の概要: Compile Scene Graphs with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2504.13617v3
Date: Sun, 11 May 2025 21:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 14:13:12.94978
Title: Compile Scene Graphs with Reinforcement Learning
Title（参考訳）: 強化学習によるシーングラフのコンパイル
Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Marc Pollefeys, Chang Wen Chen,
Abstract要約: 次世代予測は大規模言語モデル(LLM)の訓練の基本原理である本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
参考スコア（独自算出の注目度）: 69.36723767339001
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Next-token prediction is the fundamental principle for training large language models (LLMs), and reinforcement learning (RL) further enhances their reasoning performance. As an effective way to model language, image, video, and other modalities, the use of LLMs for end-to-end extraction of structured visual representations, such as scene graphs, remains underexplored. It requires the model to accurately produce a set of objects and relationship triplets, rather than generating text token by token. To achieve this, we introduce R1-SGG, a multimodal LLM (M-LLM) initially trained via supervised fine-tuning (SFT) on the scene graph dataset and subsequently refined using reinforcement learning to enhance its ability to generate scene graphs in an end-to-end manner. The SFT follows a conventional prompt-response paradigm, while RL requires the design of effective reward signals. We design a set of graph-centric rewards, including three recall-based variants -- Hard Recall, Hard Recall+Relax, and Soft Recall -- which evaluate semantic and spatial alignment between predictions and ground truth at the object and relation levels. A format consistency reward further ensures that outputs follow the expected structural schema. Extensive experiments on the VG150 and PSG benchmarks show that R1-SGG substantially reduces failure rates and achieves strong performance in Recall and mean Recall, surpassing traditional SGG models and existing multimodal language models. Our code is available at https://github.com/gpt4vision/R1-SGG
Abstract（参考訳）: 次世代の予測は大規模言語モデル(LLM)を訓練するための基本原理であり、強化学習(RL)は推論性能をさらに向上させる。言語、画像、ビデオ、その他のモダリティをモデル化する効果的な方法として、シーングラフのような構造化された視覚表現のエンドツーエンド抽出にLLMを用いることは、まだ未定である。トークンによってテキストトークンを生成するのではなく、オブジェクトとリレーショナルトリガのセットを正確に生成する必要がある。そこで我々はR1-SGGというマルチモーダルLLM(M-LLM)をシーングラフデータセット上で教師付き微調整(SFT)によって訓練し,その後強化学習を用いて改良し,シーングラフをエンドツーエンドで生成する能力を向上させる。 SFTは従来のプロンプト応答のパラダイムに従っており、RLは効果的な報酬信号の設計を必要とする。我々は3つのリコールベースの変種(ハードリコール、ハードリコール+リラクス、ソフトリコール)を含むグラフ中心の報酬のセットを設計し、オブジェクトと関係レベルでの予測と基底真理の間の意味的および空間的アライメントを評価する。フォーマット整合性報酬はさらに、出力が期待される構造スキーマに従うことを保証します。 VG150とPSGベンチマークの大規模な実験により、R1-SGGは失敗率を大幅に低減し、リコールや平均リコールにおいて高いパフォーマンスを達成し、従来のSGGモデルや既存のマルチモーダル言語モデルを上回ることが示されている。私たちのコードはhttps://github.com/gpt4vision/R1-SGGで利用可能です。

関連論文リスト

GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning [33.57411612551111]
プロセス制約付き結果ベース強化学習(RL)を用いたLLMの学習による適応型GraphRAGフレームワークGraphRAG-R1を提案する。本手法は,複雑な問題を分解し,検索ツールを自律的に実行し,効果的な推論を行う。我々のフレームワークは、様々な既存の検索手法と柔軟に統合でき、継続的に性能改善を提供することができる。
論文参考訳（メタデータ） (2025-07-31T14:11:16Z)
Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。 KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文参考訳（メタデータ） (2025-06-11T12:03:52Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。 RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文参考訳（メタデータ） (2025-05-24T04:33:41Z)
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文参考訳（メタデータ） (2025-05-22T17:59:58Z)
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings [7.302176015732192]
Token Embedding-Aligned Graph Language Model (TEA-GLM) という新しいフレームワークを紹介する。我々はGNNを事前訓練し、その表現をLLMのトークン埋め込みと整列する。次に、GNNの表現を固定数のグラフトークン埋め込みに変換する線形プロジェクタを訓練する。
論文参考訳（メタデータ） (2024-08-25T04:32:45Z)
Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。 GPEFT - グラフ表現学習のための新しい手法。グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2024-04-28T18:36:59Z)
GraSAME: Injecting Token-Level Structural Information to Pretrained Language Models via Graph-guided Self-Attention Mechanism [10.573861741540853]
本研究では,事前学習型言語モデルのためのグラフ誘導型自己注意機構GraSAMEを提案する。 GraSAMEはトークンレベルの構造情報をPLMにシームレスに組み込む。グラフからテキストへの生成タスクの実験では,GraSAMEがベースラインモデルより優れ,WebNLGデータセット上での最先端(SOTA)モデルに匹敵する結果が得られることを示した。
論文参考訳（メタデータ） (2024-04-10T11:03:57Z)
Chasing Fairness in Graphs: A GNN Architecture Perspective [73.43111851492593]
グラフニューラルネットワーク(GNN)の統一最適化フレームワーク内で設計されたtextsfFair textsfMessage textsfPassing(FMP)を提案する。 FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップにより、人口集団ノードのプレゼンテーションセンタが明示的に統合される。ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と正確性の観点から、いくつかのベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-12-19T18:00:15Z)
RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。 RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-08-18T07:17:09Z)
SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文参考訳（メタデータ） (2023-08-03T07:00:04Z)
Hierarchical Memory Learning for Fine-Grained Scene Graph Generation [49.39355372599507]
本稿では,HML(Hierarchical Memory Learning)フレームワークを提案する。粗い述語と細かな述語を自律的に分割した後、モデルはまず粗い述語で訓練され、次に細かな述語を学ぶ。
論文参考訳（メタデータ） (2022-03-14T08:01:14Z)
Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文参考訳（メタデータ） (2020-01-18T09:14:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。