論文の概要: Compile Scene Graphs with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.13617v3
- Date: Sun, 11 May 2025 21:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:12.94978
- Title: Compile Scene Graphs with Reinforcement Learning
- Title(参考訳): 強化学習によるシーングラフのコンパイル
- Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Marc Pollefeys, Chang Wen Chen,
- Abstract要約: 次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
- 参考スコア(独自算出の注目度): 69.36723767339001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next-token prediction is the fundamental principle for training large language models (LLMs), and reinforcement learning (RL) further enhances their reasoning performance. As an effective way to model language, image, video, and other modalities, the use of LLMs for end-to-end extraction of structured visual representations, such as scene graphs, remains underexplored. It requires the model to accurately produce a set of objects and relationship triplets, rather than generating text token by token. To achieve this, we introduce R1-SGG, a multimodal LLM (M-LLM) initially trained via supervised fine-tuning (SFT) on the scene graph dataset and subsequently refined using reinforcement learning to enhance its ability to generate scene graphs in an end-to-end manner. The SFT follows a conventional prompt-response paradigm, while RL requires the design of effective reward signals. We design a set of graph-centric rewards, including three recall-based variants -- Hard Recall, Hard Recall+Relax, and Soft Recall -- which evaluate semantic and spatial alignment between predictions and ground truth at the object and relation levels. A format consistency reward further ensures that outputs follow the expected structural schema. Extensive experiments on the VG150 and PSG benchmarks show that R1-SGG substantially reduces failure rates and achieves strong performance in Recall and mean Recall, surpassing traditional SGG models and existing multimodal language models. Our code is available at https://github.com/gpt4vision/R1-SGG
- Abstract(参考訳): 次世代の予測は大規模言語モデル(LLM)を訓練するための基本原理であり、強化学習(RL)は推論性能をさらに向上させる。
言語、画像、ビデオ、その他のモダリティをモデル化する効果的な方法として、シーングラフのような構造化された視覚表現のエンドツーエンド抽出にLLMを用いることは、まだ未定である。
トークンによってテキストトークンを生成するのではなく、オブジェクトとリレーショナルトリガのセットを正確に生成する必要がある。
そこで我々はR1-SGGというマルチモーダルLLM(M-LLM)をシーングラフデータセット上で教師付き微調整(SFT)によって訓練し,その後強化学習を用いて改良し,シーングラフをエンドツーエンドで生成する能力を向上させる。
SFTは従来のプロンプト応答のパラダイムに従っており、RLは効果的な報酬信号の設計を必要とする。
我々は3つのリコールベースの変種(ハードリコール、ハードリコール+リラクス、ソフトリコール)を含むグラフ中心の報酬のセットを設計し、オブジェクトと関係レベルでの予測と基底真理の間の意味的および空間的アライメントを評価する。
フォーマット整合性報酬はさらに、出力が期待される構造スキーマに従うことを保証します。
VG150とPSGベンチマークの大規模な実験により、R1-SGGは失敗率を大幅に低減し、リコールや平均リコールにおいて高いパフォーマンスを達成し、従来のSGGモデルや既存のマルチモーダル言語モデルを上回ることが示されている。
私たちのコードはhttps://github.com/gpt4vision/R1-SGGで利用可能です。
関連論文リスト
- PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings [7.302176015732192]
Token Embedding-Aligned Graph Language Model (TEA-GLM) という新しいフレームワークを紹介する。
我々はGNNを事前訓練し、その表現をLLMのトークン埋め込みと整列する。
次に、GNNの表現を固定数のグラフトークン埋め込みに変換する線形プロジェクタを訓練する。
論文 参考訳(メタデータ) (2024-08-25T04:32:45Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - GraSAME: Injecting Token-Level Structural Information to Pretrained Language Models via Graph-guided Self-Attention Mechanism [10.573861741540853]
本研究では,事前学習型言語モデルのためのグラフ誘導型自己注意機構GraSAMEを提案する。
GraSAMEはトークンレベルの構造情報をPLMにシームレスに組み込む。
グラフからテキストへの生成タスクの実験では,GraSAMEがベースラインモデルより優れ,WebNLGデータセット上での最先端(SOTA)モデルに匹敵する結果が得られることを示した。
論文 参考訳(メタデータ) (2024-04-10T11:03:57Z) - Chasing Fairness in Graphs: A GNN Architecture Perspective [73.43111851492593]
グラフニューラルネットワーク(GNN)の統一最適化フレームワーク内で設計されたtextsfFair textsfMessage textsfPassing(FMP)を提案する。
FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップにより、人口集団ノードのプレゼンテーションセンタが明示的に統合される。
ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と正確性の観点から、いくつかのベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-19T18:00:15Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。
しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。
本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文 参考訳(メタデータ) (2020-01-18T09:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。