論文の概要: Compile Scene Graphs with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.13617v2
- Date: Sun, 27 Apr 2025 11:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.605238
- Title: Compile Scene Graphs with Reinforcement Learning
- Title(参考訳): 強化学習によるシーングラフのコンパイル
- Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Marc Pollefeys, Chang Wen Chen,
- Abstract要約: 次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則である
シーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
- 参考スコア(独自算出の注目度): 69.36723767339001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next token prediction is the fundamental principle for training large language models (LLMs), and reinforcement learning (RL) further enhances their reasoning performance. As an effective way to model language, image, video, and other modalities, the use of LLMs for end-to-end extraction of structured visual representations, such as scene graphs, remains underexplored. It requires the model to accurately produce a set of objects and relationship triplets, rather than generating text token by token. To achieve this, we introduce R1-SGG, a multimodal LLM (M-LLM) initially trained via supervised fine-tuning (SFT) on the scene graph dataset and subsequently refined using reinforcement learning to enhance its ability to generate scene graphs in an end-to-end manner. The SFT follows a conventional prompt-response paradigm, while RL requires the design of effective reward signals. Given the structured nature of scene graphs, we design a graph-centric reward function that integrates node-level rewards, edge-level rewards, and a format consistency reward. Our experiments demonstrate that rule-based RL substantially enhances model performance in the SGG task, achieving a zero failure rate--unlike supervised fine-tuning (SFT), which struggles to generalize effectively. Our code is available at https://github.com/gpt4vision/R1-SGG.
- Abstract(参考訳): 次のトークン予測は、大規模言語モデル(LLM)のトレーニングの基本原理であり、強化学習(RL)は推論性能をさらに向上させる。
言語、画像、ビデオ、その他のモダリティをモデル化する効果的な方法として、シーングラフのような構造化された視覚表現のエンドツーエンド抽出にLLMを用いることは、まだ未定である。
トークンによってテキストトークンを生成するのではなく、オブジェクトとリレーショナルトリガのセットを正確に生成する必要がある。
そこで我々はR1-SGGというマルチモーダルLLM(M-LLM)をシーングラフデータセット上で教師付き微調整(SFT)によって訓練し,その後強化学習を用いて改良し,シーングラフをエンドツーエンドで生成する能力を向上させる。
SFTは従来のプロンプト応答のパラダイムに従っており、RLは効果的な報酬信号の設計を必要とする。
シーングラフの構造的性質を考慮して,ノードレベルの報酬,エッジレベルの報酬,フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
本実験は,ルールベースRLがSGGタスクのモデル性能を著しく向上させることを示す。
私たちのコードはhttps://github.com/gpt4vision/R1-SGGで利用可能です。
関連論文リスト
- PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings [7.302176015732192]
Token Embedding-Aligned Graph Language Model (TEA-GLM) という新しいフレームワークを紹介する。
我々はGNNを事前訓練し、その表現をLLMのトークン埋め込みと整列する。
次に、GNNの表現を固定数のグラフトークン埋め込みに変換する線形プロジェクタを訓練する。
論文 参考訳(メタデータ) (2024-08-25T04:32:45Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - GraSAME: Injecting Token-Level Structural Information to Pretrained Language Models via Graph-guided Self-Attention Mechanism [10.573861741540853]
本研究では,事前学習型言語モデルのためのグラフ誘導型自己注意機構GraSAMEを提案する。
GraSAMEはトークンレベルの構造情報をPLMにシームレスに組み込む。
グラフからテキストへの生成タスクの実験では,GraSAMEがベースラインモデルより優れ,WebNLGデータセット上での最先端(SOTA)モデルに匹敵する結果が得られることを示した。
論文 参考訳(メタデータ) (2024-04-10T11:03:57Z) - Chasing Fairness in Graphs: A GNN Architecture Perspective [73.43111851492593]
グラフニューラルネットワーク(GNN)の統一最適化フレームワーク内で設計されたtextsfFair textsfMessage textsfPassing(FMP)を提案する。
FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップにより、人口集団ノードのプレゼンテーションセンタが明示的に統合される。
ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と正確性の観点から、いくつかのベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-19T18:00:15Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。
しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。
本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文 参考訳(メタデータ) (2020-01-18T09:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。