Fugu-MT 論文翻訳(概要): PolySmart @ TRECVid 2024 Video-To-Text

論文の概要: PolySmart @ TRECVid 2024 Video-To-Text

arxiv url: http://arxiv.org/abs/2412.15509v1
Date: Fri, 20 Dec 2024 02:45:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.785147
Title: PolySmart @ TRECVid 2024 Video-To-Text
Title（参考訳）: PolySmart @TRECVid 2024 Video-to-Text
Authors: Jiaxin Wu, Wengyu Zhang, Xiao-Yong Wei, Qing Li,
Abstract要約: 本稿では,TRECVid 2024におけるVTT(Video-To-Text)タスクの方法と結果について述べる。 VTTデータセットに対する微調整型視覚言語モデル(VLM)の影響について検討し,記述精度,文脈的関連性,言語的整合性について検討した。
参考スコア（独自算出の注目度）: 12.163505770774337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present our methods and results for the Video-To-Text (VTT) task at TRECVid 2024, exploring the capabilities of Vision-Language Models (VLMs) like LLaVA and LLaVA-NeXT-Video in generating natural language descriptions for video content. We investigate the impact of fine-tuning VLMs on VTT datasets to enhance description accuracy, contextual relevance, and linguistic consistency. Our analysis reveals that fine-tuning substantially improves the model's ability to produce more detailed and domain-aligned text, bridging the gap between generic VLM tasks and the specialized needs of VTT. Experimental results demonstrate that our fine-tuned model outperforms baseline VLMs across various evaluation metrics, underscoring the importance of domain-specific tuning for complex VTT tasks.
Abstract（参考訳）: 本稿では,TRECVid 2024におけるVTT(Video-To-Text)タスクの手法と結果について,LLaVAやLLaVA-NeXT-Videoのような視覚言語モデル(VLM)の映像コンテンツの自然言語記述生成機能について検討する。細調整VLMがVTTデータセットに与える影響について検討し、記述精度、文脈的関連性、言語的整合性を高める。解析の結果、微調整により、より詳細でドメインに整ったテキストを生成する能力が大幅に向上し、汎用VLMタスクとVTTの専門的ニーズとのギャップを埋めることが明らかとなった。実験結果から, 複雑なVTTタスクにおいて, ドメイン固有チューニングの重要性が強調され, 各種評価指標のベースラインVLMよりも優れていたことが示唆された。

関連論文リスト

Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文参考訳（メタデータ） (2025-07-10T15:26:41Z)
Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure [5.332290080594085]
視覚言語モデル(VLM)は、視覚情報とテキスト情報を複数のフォーマットで処理することができる。テキストの多いマルチモーダル文書から要約を生成するための費用対効果戦略を提案する。
論文参考訳（メタデータ） (2025-04-14T09:55:01Z)
OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment [5.215417164787923]
視覚言語モデル(VLM)は、オープン語彙の視覚的関係の検出に役立つが、多くの場合、様々な視覚領域とそれらの関係との関係を見落としている。本稿では,オープン語彙のVidVRDフレームワークであるOpenVidVRDを提案する。
論文参考訳（メタデータ） (2025-03-12T14:13:17Z)
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文参考訳（メタデータ） (2025-03-08T01:22:10Z)
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文参考訳（メタデータ） (2024-12-04T20:35:07Z)
Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文参考訳（メタデータ） (2024-10-03T17:36:49Z)
DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM [23.551036494221222]
我々は,VLTとSOTの5つのベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。セマンティック情報の範囲と密度を考慮して、ベンチマークで4つのテキストを提供する。我々はDTVLTの総合的な実験分析を行い、多種多様なテキストが追跡性能に与える影響を評価する。
論文参考訳（メタデータ） (2024-10-03T13:57:07Z)
ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文参考訳（メタデータ） (2024-10-01T08:27:56Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文参考訳（メタデータ） (2023-11-14T14:02:32Z)
One does not fit all! On the Complementarity of Vision Encoders for Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文参考訳（メタデータ） (2022-10-12T16:31:39Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文参考訳（メタデータ） (2021-11-19T17:36:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。