Fugu-MT 論文翻訳(概要): An Overview of Challenges in Egocentric Text-Video Retrieval

論文の概要: An Overview of Challenges in Egocentric Text-Video Retrieval

arxiv url: http://arxiv.org/abs/2306.04345v1
Date: Wed, 7 Jun 2023 11:20:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 14:49:15.082460
Title: An Overview of Challenges in Egocentric Text-Video Retrieval
Title（参考訳）: Egocentric Text-Video Retrievalにおける課題の概要
Authors: Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
Abstract要約: 議論を開くために、イラストでサポートされているものをいくつか取り上げる。私たちは、非常にインクリメンタルだが有望な増加をもたらす単純な方法によって、バイアスの1つ、フレーム長のバイアスに対処します。
参考スコア（独自算出の注目度）: 66.2075707179047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-video retrieval contains various challenges, including biases coming from diverse sources. We highlight some of them supported by illustrations to open a discussion. Besides, we address one of the biases, frame length bias, with a simple method which brings a very incremental but promising increase. We conclude with future directions.
Abstract（参考訳）: テキストビデオ検索には様々な課題が含まれている。議論を開くためにイラストでサポートされているものをいくつか取り上げる。さらに、フレーム長バイアスというバイアスの1つに、非常にインクリメンタルだが有望な増加をもたらすシンプルな手法で対処する。私たちは今後の方向で結論づける。

関連論文リスト

From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [17.769963004697047]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-07-03T16:54:32Z)
Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文参考訳（メタデータ） (2024-12-09T03:41:28Z)
The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective [4.471962177124311]
ストーリーテリングの観点からテキスト・ビデオ生成について検討するが,研究はほとんど行われていない。本稿では,映像のストーリーテリングに関する評価フレームワークを提案し,今後の方向性について論じる。
論文参考訳（メタデータ） (2024-05-13T02:25:08Z)
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文参考訳（メタデータ） (2024-01-18T13:23:51Z)
Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文参考訳（メタデータ） (2024-01-03T16:38:56Z)
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文参考訳（メタデータ） (2023-05-29T17:38:18Z)
Video as Conditional Graph Hierarchy for Multi-Granular Question Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文参考訳（メタデータ） (2021-12-12T10:35:19Z)
Bridging Vision and Language from the Video-to-Text Perspective: A Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文参考訳（メタデータ） (2021-03-27T02:12:28Z)
A Multi-modal Approach to Fine-grained Opinion Mining on Video Reviews [47.726065950436585]
本稿では,ビデオレビューから詳細な意見をマイニングするためのマルチモーダル手法を提案する。私たちのアプローチは、時間アノテーションを必要とせずに、文レベルで機能します。
論文参考訳（メタデータ） (2020-05-27T13:46:11Z)
Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。 MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2017-08-31T11:18:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。