Fugu-MT 論文翻訳(概要): Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering

論文の概要: Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering

arxiv url: http://arxiv.org/abs/2503.21190v1
Date: Thu, 27 Mar 2025 06:14:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.410201
Title: Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering
Title（参考訳）: ビデオ質問応答におけるソーシャルインテリジェンス向上のための反復ループ構造を用いたLCMの活用
Authors: Erika Mori, Yue Qiu, Hirokatsu Kataoka, Yoshimitsu Aoki,
Abstract要約: 社会的知性は効果的なコミュニケーションと適応応答に不可欠である。現在のソーシャルインテリジェンスのためのビデオベースの手法は、一般的なビデオ認識や感情認識技術に依存している。本稿では,大規模言語モデルと視覚情報を統合したLooped Video Debatingフレームワークを提案する。
参考スコア（独自算出の注目度）: 13.775516653315103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social intelligence, the ability to interpret emotions, intentions, and behaviors, is essential for effective communication and adaptive responses. As robots and AI systems become more prevalent in caregiving, healthcare, and education, the demand for AI that can interact naturally with humans grows. However, creating AI that seamlessly integrates multiple modalities, such as vision and speech, remains a challenge. Current video-based methods for social intelligence rely on general video recognition or emotion recognition techniques, often overlook the unique elements inherent in human interactions. To address this, we propose the Looped Video Debating (LVD) framework, which integrates Large Language Models (LLMs) with visual information, such as facial expressions and body movements, to enhance the transparency and reliability of question-answering tasks involving human interaction videos. Our results on the Social-IQ 2.0 benchmark show that LVD achieves state-of-the-art performance without fine-tuning. Furthermore, supplementary human annotations on existing datasets provide insights into the model's accuracy, guiding future improvements in AI-driven social intelligence.
Abstract（参考訳）: 社会的知性、感情、意図、行動を理解する能力は効果的なコミュニケーションと適応的な反応に不可欠である。ロボットやAIシステムが介護、医療、教育で普及するにつれ、人間と自然に対話できるAIの需要が高まっている。しかし、視覚や音声などの複数のモダリティをシームレスに統合するAIを作成することは、依然として課題である。現在のソーシャルインテリジェンスのためのビデオベースの手法は、一般的なビデオ認識や感情認識技術に依存しており、しばしば人間の相互作用に固有のユニークな要素を見落としている。そこで我々は,LVD(Looped Video Debating)フレームワークを提案する。LVD(Looped Video Debating)フレームワークは,LVD(Large Language Models)を顔の表情や身体の動きなどの視覚情報と統合し,ヒューマンインタラクションビデオを含む質問応答タスクの透明性と信頼性を高める。我々のSocial-IQ 2.0ベンチマークの結果から,LVDは微調整なしで最先端の性能を達成できることがわかった。さらに、既存のデータセットに対する補足的なヒューマンアノテーションは、モデルの正確性に関する洞察を与え、AI駆動型ソーシャルインテリジェンスの将来的な改善を導く。

関連論文リスト

A Human Digital Twin Architecture for Knowledge-based Interactions and Context-Aware Conversations [0.9580312063277943]
人工知能(AI)と機械学習(ML)の最近の進歩は、HAT(Human-Autonomy Teaming)の新しい機会を生み出している。本稿では,知識報告,回答,レコメンデーションのためのLarge Language Models(LLM)を統合したリアルタイムHuman Digital Twin(HDT)アーキテクチャを提案する。 HDTは、トレーニングからデプロイメント、アフターアクションレビューまで、ミッションライフサイクル全体を通して統合された、視覚的で行動的に現実的なチームメンバーとして機能します。
論文参考訳（メタデータ） (2025-04-04T03:56:26Z)
MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models [27.930709161679424]
非言語的、社会的相互作用に富んだデータをタップします -- マイムビデオ。最新のビデオ大言語モデル (vLLMs) を評価し, 全体的な精度は15～30%であった。我々の分析によると、vLLMは、しばしば想像されたオブジェクトをグラウンディングしたり、テキストプロンプトを過度にリライズしたりしながら、微妙な非言語的相互作用を無視したりする。
論文参考訳（メタデータ） (2025-02-23T18:05:49Z)
HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。 HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。 22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文参考訳（メタデータ） (2024-12-23T13:45:56Z)
Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文参考訳（メタデータ） (2024-09-13T18:28:12Z)
MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。 4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文参考訳（メタデータ） (2024-07-25T16:39:21Z)
Social Life Simulation for Non-Cognitive Skills Learning [7.730401608473805]
大型言語モデル(LLM)によって実現された対話型プラットフォームであるSimulife++を紹介する。このシステムでは、ユーザーは主人公として行動し、1つまたは複数のAIベースのキャラクターをさまざまな社会的シナリオで作り出すことができる。特に,人間-AIインタラクションを,傍観者として行動するSage Agentを含む人間-AI-AIコラボレーションに拡張した。
論文参考訳（メタデータ） (2024-05-01T01:45:50Z)
SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。 SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文参考訳（メタデータ） (2024-02-20T14:02:45Z)
Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文参考訳（メタデータ） (2023-11-13T21:20:17Z)
Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文参考訳（メタデータ） (2022-01-02T01:43:24Z)
Human in the Loop for Machine Creativity [0.0]
我々は、創造的アプリケーションのための既存のHuman-in-the-loop(HITL)アプローチを概念化する。モデル,インターフェース,機械の創造性に対する長期的影響について検討し,考察する。テキスト,視覚,音,その他の情報を結合し,人や環境の自動解析を行うマルチモーダルHITLプロセスを提案する。
論文参考訳（メタデータ） (2021-10-07T15:42:18Z)
AEGIS: A real-time multimodal augmented reality computer vision based system to assist facial expression recognition for individuals with autism spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文参考訳（メタデータ） (2020-10-22T17:20:38Z)
Future Trends for Human-AI Collaboration: A Comprehensive Taxonomy of AI/AGI Using Multiple Intelligences and Learning Styles [95.58955174499371]
我々は、複数の人間の知性と学習スタイルの様々な側面を説明し、様々なAI問題領域に影響を及ぼす可能性がある。未来のAIシステムは、人間のユーザと互いにコミュニケーションするだけでなく、知識と知恵を効率的に交換できる。
論文参考訳（メタデータ） (2020-08-07T21:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。