Fugu-MT 論文翻訳(概要): The Role of the Input in Natural Language Video Description

論文の概要: The Role of the Input in Natural Language Video Description

arxiv url: http://arxiv.org/abs/2102.05067v1
Date: Tue, 9 Feb 2021 19:00:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-11 14:43:24.146350
Title: The Role of the Input in Natural Language Video Description
Title（参考訳）: 自然言語ビデオ記述における入力の役割
Authors: Silvia Cascianelli, Gabriele Costante, Alessandro Devo, Thomas A. Ciarfuglia, Paolo Valigi, Mario L. Fravolini
Abstract要約: 自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。 t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
参考スコア（独自算出の注目度）: 60.03448250024277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural Language Video Description (NLVD) has recently received strong interest in the Computer Vision, Natural Language Processing (NLP), Multimedia, and Autonomous Robotics communities. The State-of-the-Art (SotA) approaches obtained remarkable results when tested on the benchmark datasets. However, those approaches poorly generalize to new datasets. In addition, none of the existing works focus on the processing of the input to the NLVD systems, which is both visual and textual. In this work, it is presented an extensive study dealing with the role of the visual input, evaluated with respect to the overall NLP performance. This is achieved performing data augmentation of the visual component, applying common transformations to model camera distortions, noise, lighting, and camera positioning, that are typical in real-world operative scenarios. A t-SNE based analysis is proposed to evaluate the effects of the considered transformations on the overall visual data distribution. For this study, it is considered the English subset of Microsoft Research Video Description (MSVD) dataset, which is used commonly for NLVD. It was observed that this dataset contains a relevant amount of syntactic and semantic errors. These errors have been amended manually, and the new version of the dataset (called MSVD-v2) is used in the experimentation. The MSVD-v2 dataset is released to help to gain insight into the NLVD problem.
Abstract（参考訳）: 自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理(NLP)、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。 State-of-the-Art(SotA)アプローチは、ベンチマークデータセットでテストした場合、顕著な結果を得た。しかし、これらのアプローチは新しいデータセットにあまり一般化しない。さらに、既存の作品は、視覚とテキストの両方であるNLVDシステムへの入力の処理に焦点を当てていません。本研究では, 視覚入力の役割に関する広範な研究を行い, 全体的なNLP性能について評価した。これは、現実の作業シナリオで典型的な、カメラの歪み、ノイズ、照明、カメラ位置決めのモデルに共通の変換を適用することで、視覚成分のデータ拡張を実現する。 t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。この研究では、NLVDで一般的に使用されているMicrosoft Research Video Description (MSVD)データセットの英語のサブセットと考えられています。このデータセットには関連する構文と意味的エラーが含まれていることが観察された。これらのエラーは手動で修正され、新しいバージョンのデータセット(MSVD-v2)が実験に使用される。 MSVD-v2データセットがリリースされ、NLVD問題に関する洞察を得るのに役立つ。

関連論文リスト

Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文参考訳（メタデータ） (2025-03-08T01:22:10Z)
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [1.7051307941715268]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文参考訳（メタデータ） (2025-03-06T14:52:34Z)
REO-VLM: Transforming VLM to Meet Regression Challenges in Earth Observation [58.91579272882073]
本稿では,地球観測領域に特有な回帰・生成タスクを統合するために,textbfREO-Instructと呼ばれる新しいベンチマークデータセットを提案する。我々は,回帰機能を従来の生成関数とシームレスに統合する基盤モデルであるtextbfREO-VLM を開発した。
論文参考訳（メタデータ） (2024-12-21T11:17:15Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文参考訳（メタデータ） (2024-05-27T08:26:58Z)
Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文参考訳（メタデータ） (2024-04-26T03:25:35Z)
DimVis: Interpreting Visual Clusters in Dimensionality Reduction With Explainable Boosting Machine [3.2748787252933442]
DimVisは、DRプロジェクションの解釈アシスタントとして、教師付きExplainable Boosting Machine(EBM)モデルを使用するツールである。本ツールは,視覚的クラスタにおける特徴関連性の解釈を提供することにより,高次元データ解析を容易にする。
論文参考訳（メタデータ） (2024-02-10T04:50:36Z)
How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection [25.506346503624894]
我々は,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識の評価を導入する。データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
論文参考訳（メタデータ） (2023-08-25T04:54:32Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)
TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。 TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文参考訳（メタデータ） (2021-11-21T07:22:44Z)
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2021-05-08T18:46:33Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。