論文の概要: ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report
- arxiv url: http://arxiv.org/abs/2407.09760v1
- Date: Sat, 13 Jul 2024 03:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:58:50.140306
- Title: ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report
- Title(参考訳): ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report
- Authors: Yixiao Yuan, Yingzhe Peng,
- Abstract要約: 我々のアプローチは、言語モデル(LM)やLVLM(Large Vision Language Model)を含む最先端のマルチモーダルモデルを組み合わせる。
これらのモデルを活用することで、既存のベンチマークを上回り、ICCV23 Visual-Dialog Based Emotion Explanation Generation Challengeの上位ランクを確保します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Visual-Dialog Based Emotion Explanation Generation Challenge focuses on generating emotion explanations through visual-dialog interactions in art discussions. Our approach combines state-of-the-art multi-modal models, including Language Model (LM) and Large Vision Language Model (LVLM), to achieve superior performance. By leveraging these models, we outperform existing benchmarks, securing the top rank in the ICCV23 Visual-Dialog Based Emotion Explanation Generation Challenge, which is part of the 5th Workshop On Closing The Loop Between Vision And Language (CLCV) with significant scores in F1 and BLEU metrics. Our method demonstrates exceptional ability in generating accurate emotion explanations, advancing our understanding of emotional impacts in art.
- Abstract(参考訳): The Visual-Dialog Based Emotion Explanation Generation Challengeは、アートディスカッションにおけるビジュアル・ダイアログのインタラクションを通じて感情の説明を生成することに焦点を当てている。
提案手法は,言語モデル (LM) やLVLM (Large Vision Language Model) など,最先端のマルチモーダルモデルを組み合わせることで,優れた性能を実現する。
これらのモデルを活用することで、既存のベンチマークを上回り、ICCV23 Visual-Dialog Based Emotion Explanation Generation Challengeの最高ランクを確保しました。
本手法は, 感情の正確な説明を導き, 芸術における感情的影響の理解を深める上で, 極めて優れた能力を示すものである。
関連論文リスト
- VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [105.88658935310605]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。
画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:52Z) - LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space [31.617532479091757]
LES-Talker(英語版)は、高い解釈性を有する新規なワンショット音声ヘッド生成モデルである。
本手法は,多面的,解釈可能な微粒な感情編集とともに,視覚的品質を向上し,主流の手法より優れる。
論文 参考訳(メタデータ) (2024-11-14T08:12:16Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning [26.95442405140093]
本研究は,情緒的文脈に関連する指導の理解と定着におけるモデルの能力向上に焦点を当てる。
本稿では,感情の視覚的インストラクションデータを生成するための新しいGPT支援パイプラインを提案する。
提案するEmoVITアーキテクチャは感情固有の命令データを組み込んで,大規模言語モデルの強力な機能を活用している。
論文 参考訳(メタデータ) (2024-04-25T15:15:36Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Leveraging TCN and Transformer for effective visual-audio fusion in
continuous emotion recognition [0.5370906227996627]
本稿では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeを提案する。
本稿では、時間的畳み込みネットワーク(TCN)とトランスフォーマーを利用して、連続的な感情認識の性能を向上させる新しいマルチモーダル融合モデルを提案する。
論文 参考訳(メタデータ) (2023-03-15T04:15:57Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Emotion Understanding in Videos Through Body, Context, and
Visual-Semantic Embedding Loss [42.789372692286484]
我々は,第1回身体表現的感情理解国際ワークショップ(BEEU)に応募する。
近年の文脈・環境が感情に与える影響に関する文献に基づいて,時間セグメントネットワークの枠組みを拡張した。
本手法はBody Language dataset(BOLD)の検証セット上で検証され,テストセット上で0.26235感情認識スコアを達成し,前回の0.2530を上回った。
論文 参考訳(メタデータ) (2020-10-30T17:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。