Fugu-MT 論文翻訳(概要): Large Vision-Language Models as Emotion Recognizers in Context Awareness

論文の概要: Large Vision-Language Models as Emotion Recognizers in Context Awareness

arxiv url: http://arxiv.org/abs/2407.11300v1
Date: Tue, 16 Jul 2024 01:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 18:52:01.261462
Title: Large Vision-Language Models as Emotion Recognizers in Context Awareness
Title（参考訳）: 文脈認識における感情認識としての大規模視覚言語モデル
Authors: Yuxuan Lei, Dingkang Yang, Zhaoyu Chen, Jiawei Chen, Peng Zhai, Lihua Zhang,
Abstract要約: 文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
参考スコア（独自算出の注目度）: 14.85890824622433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context-aware emotion recognition (CAER) is a complex and significant task that requires perceiving emotions from various contextual cues. Previous approaches primarily focus on designing sophisticated architectures to extract emotional cues from images. However, their knowledge is confined to specific training datasets and may reflect the subjective emotional biases of the annotators. Furthermore, acquiring large amounts of labeled data is often challenging in real-world applications. In this paper, we systematically explore the potential of leveraging Large Vision-Language Models (LVLMs) to empower the CAER task from three paradigms: 1) We fine-tune LVLMs on two CAER datasets, which is the most common way to transfer large models to downstream tasks. 2) We design zero-shot and few-shot patterns to evaluate the performance of LVLMs in scenarios with limited data or even completely unseen. In this case, a training-free framework is proposed to fully exploit the In-Context Learning (ICL) capabilities of LVLMs. Specifically, we develop an image similarity-based ranking algorithm to retrieve examples; subsequently, the instructions, retrieved examples, and the test example are combined to feed LVLMs to obtain the corresponding sentiment judgment. 3) To leverage the rich knowledge base of LVLMs, we incorporate Chain-of-Thought (CoT) into our framework to enhance the model's reasoning ability and provide interpretable results. Extensive experiments and analyses demonstrate that LVLMs achieve competitive performance in the CAER task across different paradigms. Notably, the superior performance in few-shot settings indicates the feasibility of LVLMs for accomplishing specific tasks without extensive training.
Abstract（参考訳）: 文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。しかし、それらの知識は特定の訓練データセットに限定されており、アノテータの主観的な感情バイアスを反映する可能性がある。さらに、大量のラベル付きデータを取得することは、現実世界のアプリケーションではしばしば困難である。本稿では、3つのパラダイムからCAERタスクを強化するためにLVLM(Large Vision-Language Models)を活用する可能性について体系的に検討する。 1) 大規模モデルを下流タスクに転送する最も一般的な方法である2つのCAERデータセット上でLVLMを微調整する。 2) 限られたデータや全く見えないシナリオにおいて, LVLMの性能を評価するため, ゼロショットと少数ショットのパターンを設計する。この場合、LVLMのIn-Context Learning(ICL)機能を完全に活用するために、トレーニング不要のフレームワークが提案されている。具体的には、画像類似度に基づくランキングアルゴリズムを開発し、サンプルを検索し、次に命令、サンプルを検索し、テスト例を組み合わせてLVLMをフィードし、対応する感情判断を得る。 3) LVLMの豊富な知識基盤を活用するため, モデルの推論能力を高め, 解釈可能な結果を提供するために, フレームワークにChain-of-Thought(CoT)を組み込んだ。大規模な実験と分析により、LVLMは異なるパラダイムにわたるCAERタスクにおいて競争性能を達成することを示した。特に、数ショット設定での優れた性能は、広範囲のトレーニングを伴わずに特定のタスクを達成するためのLVLMの実現可能性を示している。

関連論文リスト

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文参考訳（メタデータ） (2025-01-18T17:43:05Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
Improving Generalization in Visual Reasoning via Self-Ensemble [0.0]
本稿では,パラメータを更新せずにモデルの一般化と視覚的推論を改善する手法であるセルフアンサンブルを提案する。私たちの重要な洞察は、LVLM自体が他のLVLMを必要とせずにアンサンブルできるということです。
論文参考訳（メタデータ） (2024-10-28T10:04:40Z)
RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文参考訳（メタデータ） (2024-10-11T14:51:00Z)
Making Large Vision Language Models to be Good Few-shot Learners [11.204701216476815]
FSC(Few-shot Classification)は、コンピュータビジョンにおける基本的な課題である。 LVLMは、サポートデータから有用な情報を効果的に抽出するのではなく、特定の応答形式を学習するリスクを負う。本稿では,FSCにおけるLVLMの性能について検討し,学習不足や重度の位置バイアスの有無などの重要な問題を明らかにする。
論文参考訳（メタデータ） (2024-08-21T03:01:11Z)
In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文参考訳（メタデータ） (2024-07-22T09:03:29Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。文脈内学習の有効性は、選択した例の品質に大きく依存する。高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-14T05:23:08Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。