論文の概要: DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2505.03581v1
- Date: Tue, 06 May 2025 14:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.431559
- Title: DyGEnc: Encoding a Sequence of Textual Scene Graphs to Reason and Answer Questions in Dynamic Scenes
- Title(参考訳): DyGEnc:動的シーンにおける推論と回答のためのテキストシーングラフのシーケンスをエンコードする
- Authors: Sergey Linok, Vadim Semenov, Anastasia Trunova, Oleg Bulichev, Dmitry Yudin,
- Abstract要約: 我々は新しい方法であるDyGEncを紹介する。
動的グラフ。
本手法は,圧縮時空間構造観察と大規模言語モデルの認知能力を統合する。
DyGEncは、人間とオブジェクトの相互作用の歴史に関する問い合わせに対して、15~25%の差で既存の視覚的手法より優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The analysis of events in dynamic environments poses a fundamental challenge in the development of intelligent agents and robots capable of interacting with humans. Current approaches predominantly utilize visual models. However, these methods often capture information implicitly from images, lacking interpretable spatial-temporal object representations. To address this issue we introduce DyGEnc - a novel method for Encoding a Dynamic Graph. This method integrates compressed spatial-temporal structural observation representation with the cognitive capabilities of large language models. The purpose of this integration is to enable advanced question answering based on a sequence of textual scene graphs. Extended evaluations on the STAR and AGQA datasets indicate that DyGEnc outperforms existing visual methods by a large margin of 15-25% in addressing queries regarding the history of human-to-object interactions. Furthermore, the proposed method can be seamlessly extended to process raw input images utilizing foundational models for extracting explicit textual scene graphs, as substantiated by the results of a robotic experiment conducted with a wheeled manipulator platform. We hope that these findings will contribute to the implementation of robust and compressed graph-based robotic memory for long-horizon reasoning. Code is available at github.com/linukc/DyGEnc.
- Abstract(参考訳): 動的環境における事象の分析は、人間と対話できるインテリジェントエージェントやロボットの開発において、根本的な課題となっている。
現在のアプローチは主に視覚モデルを利用している。
しかし、これらの手法はしばしば画像から暗黙的に情報をキャプチャし、解釈可能な時空間オブジェクト表現を欠いている。
この問題に対処するために、動的グラフをエンコードする新しい方法であるDyGEncを紹介します。
本手法は,圧縮時空間構造観察表現と大規模言語モデルの認知能力を統合する。
この統合の目的は、テキストシーングラフのシーケンスに基づいて高度な質問応答を可能にすることである。
STARとAGQAデータセットのさらなる評価は、DyGEncが既存の視覚的手法よりも15~25%優れており、人間と物体の相互作用の歴史に関するクエリに対処していることを示している。
さらに,本提案手法は,車輪式マニピュレータプラットフォームを用いたロボット実験の結果から,明示的なテキストシーングラフを抽出するための基礎モデルを用いた原入力画像の処理をシームレスに行うことができる。
これらの知見が、長期的推論のための堅牢で圧縮されたグラフベースのロボットメモリの実装に寄与することを期待している。
コードはgithub.com/linukc/DyGEncで入手できる。
関連論文リスト
- Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Modeling Dynamic Environments with Scene Graph Memory [46.587536843634055]
本稿では,部分的に観測可能な動的グラフ上でのリンク予測という,新しいタイプのリンク予測問題を提案する。
私たちのグラフは、部屋とオブジェクトがノードであり、それらの関係がエッジにエンコードされるシーンの表現です。
エージェントの蓄積した観測結果をキャプチャする新しい状態表現 -- SGM (Scene Graph Memory) を提案する。
家庭で一般的に見られるセマンティックなパターンに従って,多様な動的グラフを生成する新しいベンチマークであるDynamic House Simulatorで,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T17:39:38Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer
Learning for Telepresence Robotics [124.08684545010664]
画像からのシーングラフ生成は、ロボット工学のようなアプリケーションに非常に関心を持つタスクである。
オントロジー誘導シーングラフ生成(OG-SGG)と呼ばれるフレームワークの初期近似を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:23:15Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。