論文の概要: SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2412.11026v1
- Date: Sun, 15 Dec 2024 02:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:51.558941
- Title: SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation
- Title(参考訳): SceneLLM:動的シーングラフ生成のためのLLMにおける暗黙の言語推論
- Authors: Hang Zhang, Zhuoling Li, Jun Liu,
- Abstract要約: SceneLLMはビデオフレームを言語信号(シーントークン)に変換するフレームワークである
提案手法は,Action Genome (AG) ベンチマークの最先端結果を実現する。
大規模な実験は、正確な動的シーングラフの理解と生成におけるSceneLLMの有効性を示す。
- 参考スコア(独自算出の注目度): 8.768484848591168
- License:
- Abstract: Dynamic scenes contain intricate spatio-temporal information, crucial for mobile robots, UAVs, and autonomous driving systems to make informed decisions. Parsing these scenes into semantic triplets <Subject-Predicate-Object> for accurate Scene Graph Generation (SGG) is highly challenging due to the fluctuating spatio-temporal complexity. Inspired by the reasoning capabilities of Large Language Models (LLMs), we propose SceneLLM, a novel framework that leverages LLMs as powerful scene analyzers for dynamic SGG. Our framework introduces a Video-to-Language (V2L) mapping module that transforms video frames into linguistic signals (scene tokens), making the input more comprehensible for LLMs. To better encode spatial information, we devise a Spatial Information Aggregation (SIA) scheme, inspired by the structure of Chinese characters, which encodes spatial data into tokens. Using Optimal Transport (OT), we generate an implicit language signal from the frame-level token sequence that captures the video's spatio-temporal information. To further improve the LLM's ability to process this implicit linguistic input, we apply Low-Rank Adaptation (LoRA) to fine-tune the model. Finally, we use a transformer-based SGG predictor to decode the LLM's reasoning and predict semantic triplets. Our method achieves state-of-the-art results on the Action Genome (AG) benchmark, and extensive experiments show the effectiveness of SceneLLM in understanding and generating accurate dynamic scene graphs.
- Abstract(参考訳): ダイナミックなシーンには複雑な時空間情報が含まれており、移動ロボットやUAV、自律運転システムにとって重要な情報となっている。
これらのシーンをセマンティック・トリプレットにパースすること<subject-Predicate-Object>は,時空間の変動が複雑になるため,正確なシーングラフ生成(SGG)を実現するのに極めて困難である。
本研究では,Large Language Models (LLM) の推論能力に触発されて,動的SGGのための強力なシーンアナライザとして LLM を活用する新しいフレームワーク SceneLLM を提案する。
本フレームワークでは,ビデオフレームを言語信号(シーントークン)に変換するV2Lマッピングモジュールを導入し,LLMの入力をより分かりやすくする。
空間情報をよりよくエンコードするために,漢字の構造にインスパイアされた空間情報集約(SIA)方式を考案し,空間データをトークンにエンコードする。
フレームレベルのトークンシーケンスから暗黙的な言語信号を生成し、ビデオの時空間情報をキャプチャする。
この暗黙的な言語入力を処理するLLMの能力をさらに向上するため、モデルを微調整するためにLoRA(Lo-Rank Adaptation)を適用する。
最後に,変換器をベースとしたSGG予測器を用いてLLMの推論を復号し,意味三重項を予測する。
提案手法は,Action Genome(AG)ベンチマークの最先端結果を実現し,SceneLLMが正確な動的シーングラフの理解と生成に有効であることを示す。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。
本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。
本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文 参考訳(メタデータ) (2024-08-20T07:10:40Z) - Aligning Actions and Walking to LLM-Generated Textual Descriptions [3.1049440318608568]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
本研究は, 動作パターンと歩行パターンの両方を包含して, 動作シーケンスのリッチなテキスト記述を生成するLLMの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T13:56:03Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Large Language Model with Graph Convolution for Recommendation [21.145230388035277]
テキスト情報は、時々品質の低いものになり、現実世界のアプリケーションにとってその効果を阻害する。
大きな言語モデルにカプセル化された知識と推論機能によって、LCMを活用することが、記述改善の有望な方法として現れます。
本稿では,ユーザ・イテムグラフの高次関係を捉えるために,LLMを抽出するグラフ対応畳み込みLLM法を提案する。
論文 参考訳(メタデータ) (2024-02-14T00:04:33Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision [44.13777026011408]
我々は,高レベルな論理仕様を利用して,映像データの空間的・時間的リッチな特徴を捉えるセマンティックな特性を学習する。
20BN-Something-GEN, MUGEN, OpenPVSG という, 空間表現と時間仕様の豊富な3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2023-04-15T22:24:05Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。