Fugu-MT 論文翻訳(概要): Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression

論文の概要: Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression

arxiv url: http://arxiv.org/abs/2503.05109v1
Date: Fri, 07 Mar 2025 03:06:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.865052
Title: Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression
Title（参考訳）: 大規模言語モデルによる視覚的概念の把握 : 抑うつに関するYouTubeショートを事例として
Authors: Jiaying "Lizzy" Liu, Yiheng Su, Praneel Seth,
Abstract要約: 我々はAIの解釈を抽象概念の人間の理解と比較する。我々はLLaVA-1.6 Mistral 7Bを用いて、ビデオによる自己開示に関する4つの抽象概念を解釈する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly used to assist computational social science research. While prior efforts have focused on text, the potential of leveraging multimodal LLMs (MLLMs) for online video studies remains underexplored. We conduct one of the first case studies on MLLM-assisted video content analysis, comparing AI's interpretations to human understanding of abstract concepts. We leverage LLaVA-1.6 Mistral 7B to interpret four abstract concepts regarding video-mediated self-disclosure, analyzing 725 keyframes from 142 depression-related YouTube short videos. We perform a qualitative analysis of MLLM's self-generated explanations and found that the degree of operationalization can influence MLLM's interpretations. Interestingly, greater detail does not necessarily increase human-AI alignment. We also identify other factors affecting AI alignment with human understanding, such as concept complexity and versatility of video genres. Our exploratory study highlights the need to customize prompts for specific concepts and calls for researchers to incorporate more human-centered evaluations when working with AI systems in a multimodal context.
Abstract（参考訳）: 大規模言語モデル (LLMs) は、計算社会科学研究を支援するためにますます使われている。これまではテキストに重点を置いてきたが、オンラインビデオ研究にMLLM(Multimodal LLMs)を活用する可能性はまだ未定である。 MLLMによる映像コンテンツ分析における最初の事例研究の1つとして,AIの解釈と抽象概念の人間的理解を比較した。我々はLLaVA-1.6 Mistral 7Bを用いて、ビデオによる自己開示に関する4つの抽象概念を解釈し、142のうつ病関連YouTubeショートビデオから725のキーフレームを分析した。 MLLMの自己生成説明の質的分析を行い,操作の程度がMLLMの解釈に影響を及ぼすことを示した。興味深いことに、より詳細なことは必ずしも人間とAIのアライメントを増加させるとは限らない。また、ビデオジャンルの概念の複雑さや汎用性など、人間の理解とAIの整合性に影響を与える他の要因も特定する。我々の探索的研究は、特定の概念のプロンプトをカスタマイズする必要性を強調し、研究者がマルチモーダルなコンテキストでAIシステムを扱う際に、より人間中心の評価を取り入れるよう求めている。

関連論文リスト

SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。 SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文参考訳（メタデータ） (2025-06-05T05:51:35Z)
Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark [27.487587901232057]
0.5Bから40Bパラメータの90以上のオープンソースおよびプロプライエタリモデルを評価した。本結果は,これらの講義で提示される認知的課題に対処する上で,現在のモデルが持つ限界を強調するものである。
論文参考訳（メタデータ） (2025-04-20T17:58:46Z)
Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文参考訳（メタデータ） (2025-04-16T22:14:27Z)
Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation [19.4261670152456]
モデルが補助線,点,角などの視覚的キーポイントを識別できるかどうかを評価し,これらのキー要素を組み込んだ説明を生成するためのマルチモーダルソリューション説明タスクを提案する。我々の経験的結果は、最近の大規模オープンソースおよびクローズドソースモデル、ほとんどの一般オープンソースモデル、数学特殊主義モデルを除いて、マルチモーダルソリューションの説明タスクに苦戦していることを示している。このことは、現在のLLMの教育的文脈における視覚的基盤による推論と説明能力において、大きなギャップを浮き彫りにしている。
論文参考訳（メタデータ） (2025-04-04T06:03:13Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。 HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文参考訳（メタデータ） (2024-12-23T13:45:56Z)
A Perspective on Large Language Models, Intelligent Machines, and Knowledge Acquisition [0.6138671548064355]
大言語モデル(LLM)は「知識」を生成できることで知られている。しかし、抽象概念と推論を理解するためのLLMと人間の能力の間には大きなギャップがある。我々はこれらの問題を、人間の知識獲得とチューリングテストの哲学的な文脈で論じる。
論文参考訳（メタデータ） (2024-08-13T03:25:49Z)
Harnessing LLMs for Automated Video Content Analysis: An Exploratory Workflow of Short Videos on Depression [8.640838598568605]
我々は,Large Language Models (LLMs) を用いたマルチモーダルコンテンツ分析の新しいワークフローに従って,ケーススタディを実施している。 LLMのビデオアノテーション機能をテストするために,うつ病に関する25の短いビデオから抽出した203を解析した。
論文参考訳（メタデータ） (2024-06-27T21:03:56Z)
Towards Generalist Robot Learning from Internet Video: A Survey [56.621902345314645]
本稿では,LfV(Learning from Videos)の新たな分野について概説する。 LfVは、従来のロボットデータを大規模なインターネットビデオデータで強化することで、ロボットデータのボトルネックに対処することを目指している。本稿では、大規模インターネットビデオから知識を抽出し、LfVにおける重要な課題に対処し、映像データを用いて下流ロボットと強化学習を促進するための現在の手法についてレビューする。
論文参考訳（メタデータ） (2024-04-30T15:57:41Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文参考訳（メタデータ） (2023-11-03T12:19:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。