論文の概要: Omni-SILA: Towards Omni-scene Driven Visual Sentiment Identifying, Locating and Attributing in Videos
- arxiv url: http://arxiv.org/abs/2503.00049v1
- Date: Wed, 26 Feb 2025 12:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:27.499130
- Title: Omni-SILA: Towards Omni-scene Driven Visual Sentiment Identifying, Locating and Attributing in Videos
- Title(参考訳): Omni-SILA:ビデオにおけるOmni-scene駆動型視覚知覚の識別、位置特定、属性化を目指して
- Authors: Jiamin Luo, Jingjing Wang, Junxiao Ma, Yujie Jin, Shoushan Li, Guodong Zhou,
- Abstract要約: 本稿では,ビデオ(Omni-SILA)タスクにおける新しいOmni-scene駆動型視覚知覚識別,位置同定,属性化を提案する。
明示的なシーン情報と暗黙的なシーン情報の両方を通して、視覚的感情を対話的かつ正確に識別し、発見し、属性付けすることを目的としている。
本稿では,Omni-SILAタスクに対処するためのICM(Inmplicit-enhanced Causal MoE)アプローチを提案する。
- 参考スコア(独自算出の注目度): 23.762606512288478
- License:
- Abstract: Prior studies on Visual Sentiment Understanding (VSU) primarily rely on the explicit scene information (e.g., facial expression) to judge visual sentiments, which largely ignore implicit scene information (e.g., human action, objection relation and visual background), while such information is critical for precisely discovering visual sentiments. Motivated by this, this paper proposes a new Omni-scene driven visual Sentiment Identifying, Locating and Attributing in videos (Omni-SILA) task, aiming to interactively and precisely identify, locate and attribute visual sentiments through both explicit and implicit scene information. Furthermore, this paper believes that this Omni-SILA task faces two key challenges: modeling scene and highlighting implicit scene beyond explicit. To this end, this paper proposes an Implicit-enhanced Causal MoE (ICM) approach for addressing the Omni-SILA task. Specifically, a Scene-Balanced MoE (SBM) and an Implicit-Enhanced Causal (IEC) blocks are tailored to model scene information and highlight the implicit scene information beyond explicit, respectively. Extensive experimental results on our constructed explicit and implicit Omni-SILA datasets demonstrate the great advantage of the proposed ICM approach over advanced Video-LLMs.
- Abstract(参考訳): 視覚知覚理解(VSU)の先行研究は、視覚的感情を正確に検出するためには、暗黙的なシーン情報(例えば、人間の行動、客観的関係、視覚的背景)をほとんど無視する、視覚的感情を判断するための明示的なシーン情報(例えば、表情)に依存していた。
そこで本研究では,映像情報と暗黙的シーン情報の両方を通じて,視覚的感情を対話的かつ正確に識別し,特定し,属性付けすることを目的とした,新たなOmni-sceneによる視覚的感性識別,位置特定,映像の属性化(Omni-SILA)を提案する。
さらに、このOmni-SILAタスクは、モデリングシーンと明示的でない暗黙的なシーンの強調という2つの大きな課題に直面していると信じている。
そこで本研究では,Omni-SILAタスクに対処するためのICM(Inmplicit-enhanced Causal MoE)アプローチを提案する。
具体的には、SBM(Scene-Balanced MoE)とIEC(Implicit-Enhanced Causal)ブロックをそれぞれ、シーン情報をモデル化し、暗黙のシーン情報を明示的を超えて強調するように調整する。
構築したOmni-SILAデータセットの大規模な実験結果から,高度なビデオLLMに対して提案したICMアプローチの大きな利点が示された。
関連論文リスト
- Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing [46.701439459096235]
我々はtextittextbfG2 という新しいビジュアルコモンセンス推論手法を提案する。
まず、画像パッチとLCMを使用して、位置のないシーングラフを構築し、シーングラフの情報に基づいて回答と説明を行う。
また、トレーニング中に貴重なシーングラフ情報を吸収するためのシーングラフの自動フィルタリングと選択戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:00:36Z) - LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences [70.0873383646651]
LSceneLLMはタスク関連領域を自動的に識別する適応型フレームワークである。
濃密なトークンセレクタは、LDMの注意マップを調べて、命令入力の視覚的嗜好を特定する。
適応自己保持モジュールを利用して、粗い粒度と選択されたきめ細かい視覚情報を融合する。
論文 参考訳(メタデータ) (2024-12-02T09:07:57Z) - EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning [26.95442405140093]
本研究は,情緒的文脈に関連する指導の理解と定着におけるモデルの能力向上に焦点を当てる。
本稿では,感情の視覚的インストラクションデータを生成するための新しいGPT支援パイプラインを提案する。
提案するEmoVITアーキテクチャは感情固有の命令データを組み込んで,大規模言語モデルの強力な機能を活用している。
論文 参考訳(メタデータ) (2024-04-25T15:15:36Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Interpretable End-to-End Driving Model for Implicit Scene Understanding [3.4248756007722987]
暗黙的な高次元シーン特徴を抽出するエンド・ツー・エンドのインプリケート・インプリケート・ドライビング・シーン理解(II-DSU)モデルを提案する。
提案手法は,新しい最先端技術を実現し,運転に関連するよりリッチなシーン情報を具現化したシーン特徴を得ることができる。
論文 参考訳(メタデータ) (2023-08-02T14:43:08Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。