論文の概要: Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering
- arxiv url: http://arxiv.org/abs/2503.21190v1
- Date: Thu, 27 Mar 2025 06:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:42.638706
- Title: Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering
- Title(参考訳): ビデオ質問応答におけるソーシャルインテリジェンス向上のための反復ループ構造を用いたLCMの活用
- Authors: Erika Mori, Yue Qiu, Hirokatsu Kataoka, Yoshimitsu Aoki,
- Abstract要約: 社会的知性は効果的なコミュニケーションと適応応答に不可欠である。
現在のソーシャルインテリジェンスのためのビデオベースの手法は、一般的なビデオ認識や感情認識技術に依存している。
本稿では,大規模言語モデルと視覚情報を統合したLooped Video Debatingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.775516653315103
- License:
- Abstract: Social intelligence, the ability to interpret emotions, intentions, and behaviors, is essential for effective communication and adaptive responses. As robots and AI systems become more prevalent in caregiving, healthcare, and education, the demand for AI that can interact naturally with humans grows. However, creating AI that seamlessly integrates multiple modalities, such as vision and speech, remains a challenge. Current video-based methods for social intelligence rely on general video recognition or emotion recognition techniques, often overlook the unique elements inherent in human interactions. To address this, we propose the Looped Video Debating (LVD) framework, which integrates Large Language Models (LLMs) with visual information, such as facial expressions and body movements, to enhance the transparency and reliability of question-answering tasks involving human interaction videos. Our results on the Social-IQ 2.0 benchmark show that LVD achieves state-of-the-art performance without fine-tuning. Furthermore, supplementary human annotations on existing datasets provide insights into the model's accuracy, guiding future improvements in AI-driven social intelligence.
- Abstract(参考訳): 社会的知性、感情、意図、行動を理解する能力は効果的なコミュニケーションと適応的な反応に不可欠である。
ロボットやAIシステムが介護、医療、教育で普及するにつれ、人間と自然に対話できるAIの需要が高まっている。
しかし、視覚や音声などの複数のモダリティをシームレスに統合するAIを作成することは、依然として課題である。
現在のソーシャルインテリジェンスのためのビデオベースの手法は、一般的なビデオ認識や感情認識技術に依存しており、しばしば人間の相互作用に固有のユニークな要素を見落としている。
そこで我々は,LVD(Looped Video Debating)フレームワークを提案する。LVD(Looped Video Debating)フレームワークは,LVD(Large Language Models)を顔の表情や身体の動きなどの視覚情報と統合し,ヒューマンインタラクションビデオを含む質問応答タスクの透明性と信頼性を高める。
我々のSocial-IQ 2.0ベンチマークの結果から,LVDは微調整なしで最先端の性能を達成できることがわかった。
さらに、既存のデータセットに対する補足的なヒューマンアノテーションは、モデルの正確性に関する洞察を与え、AI駆動型ソーシャルインテリジェンスの将来的な改善を導く。
関連論文リスト
- HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - The AI Interface: Designing for the Ideal Machine-Human Experience (Editorial) [1.8074330674710588]
本論では,AI体験デザインの心理学を探求する特集を紹介する。
このコレクションの論文は、人間とAIの相互作用における信頼、透明性、感情的な感受性の複雑さを強調している。
8つの多様な研究から得られた知見により、この論説は、効率と共感のバランスをとるためのAIインターフェースの必要性を強調している。
論文 参考訳(メタデータ) (2024-11-29T15:17:32Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - IMAGINE: An Integrated Model of Artificial Intelligence-Mediated
Communication Effects [0.0]
人工知能を用いたコミュニケーション効果統合モデル(IMAGINE)の提案
提案されている概念的枠組みは、メディアに対する人々の反応の測定とコンテンツのAI生成の間の連続的なリアルタイム接続のシナリオにおいて、研究者が研究を理論化し、行うのを支援することを目的としている。
論文 参考訳(メタデータ) (2022-12-13T19:48:38Z) - Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。
本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。
本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文 参考訳(メタデータ) (2022-01-02T01:43:24Z) - Human in the Loop for Machine Creativity [0.0]
我々は、創造的アプリケーションのための既存のHuman-in-the-loop(HITL)アプローチを概念化する。
モデル,インターフェース,機械の創造性に対する長期的影響について検討し,考察する。
テキスト,視覚,音,その他の情報を結合し,人や環境の自動解析を行うマルチモーダルHITLプロセスを提案する。
論文 参考訳(メタデータ) (2021-10-07T15:42:18Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z) - Future Trends for Human-AI Collaboration: A Comprehensive Taxonomy of
AI/AGI Using Multiple Intelligences and Learning Styles [95.58955174499371]
我々は、複数の人間の知性と学習スタイルの様々な側面を説明し、様々なAI問題領域に影響を及ぼす可能性がある。
未来のAIシステムは、人間のユーザと互いにコミュニケーションするだけでなく、知識と知恵を効率的に交換できる。
論文 参考訳(メタデータ) (2020-08-07T21:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。