論文の概要: Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering
- arxiv url: http://arxiv.org/abs/2401.01510v1
- Date: Wed, 3 Jan 2024 02:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:22:03.621553
- Title: Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering
- Title(参考訳): 不確かさから不確かさへの答え:ビデオ質問応答のための不確かさを意識したカリキュラム学習
- Authors: Haopeng Li, Qiuhong Ke, Mingming Gong, and Tom Drummond
- Abstract要約: 不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
- 参考スコア(独自算出の注目度): 63.12469700986452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While significant advancements have been made in video question answering
(VideoQA), the potential benefits of enhancing model generalization through
tailored difficulty scheduling have been largely overlooked in existing
research. This paper seeks to bridge that gap by incorporating VideoQA into a
curriculum learning (CL) framework that progressively trains models from
simpler to more complex data. Recognizing that conventional self-paced CL
methods rely on training loss for difficulty measurement, which might not
accurately reflect the intricacies of video-question pairs, we introduce the
concept of uncertainty-aware CL. Here, uncertainty serves as the guiding
principle for dynamically adjusting the difficulty. Furthermore, we address the
challenge posed by uncertainty by presenting a probabilistic modeling approach
for VideoQA. Specifically, we conceptualize VideoQA as a stochastic computation
graph, where the hidden representations are treated as stochastic variables.
This yields two distinct types of uncertainty: one related to the inherent
uncertainty in the data and another pertaining to the model's confidence. In
practice, we seamlessly integrate the VideoQA model into our framework and
conduct comprehensive experiments. The findings affirm that our approach not
only achieves enhanced performance but also effectively quantifies uncertainty
in the context of VideoQA.
- Abstract(参考訳): ビデオ質問応答 (VideoQA) では大きな進歩があったが、調整困難スケジューリングによるモデル一般化の強化の潜在的な利点は、既存の研究でほとんど見落とされてきた。
本稿では,ビデオqaをカリキュラム学習(cl)フレームワークに取り入れ,より単純なデータからより複雑なデータへとモデルを段階的にトレーニングすることで,そのギャップを埋めることを目的とする。
従来の自己ペースcl手法が難易度測定の訓練損失に依存していることを認識し,不確実性対応clの概念を紹介する。
ここで不確実性は、困難を動的に調整するための指針となる。
さらに,ビデオQAの確率論的モデリング手法を提案することにより,不確実性に起因する課題に対処する。
具体的には,ビデオQAを確率計算グラフとして概念化し,隠れ表現を確率変数として扱う。
これは、データに固有の不確実性に関連するものと、モデルの信頼性に関連するものとの2つの異なるタイプの不確実性をもたらす。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
その結果,本手法は性能向上だけでなく,ビデオQAの文脈における不確かさの定量化にも有効であることがわかった。
関連論文リスト
- LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting [15.161997580529075]
本稿では,連続学習フレームワークにおけるビデオQAの新たな課題について考察する。
我々は,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合した協調的プロンプト(ColPro)を提案する。
NExT-QAデータセットとDramaQAデータセットの実験的結果は、ColProが既存のアプローチよりも優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-10-01T15:07:07Z) - Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding [49.973156959947346]
既存のビデオ時間グラウンド(VTG)モデルは精度は優れているが、オープン語彙クエリや未トリミングビデオによって引き起こされるオープンワールドの課題を見落としていることが多い。
2段階のクロスモーダルアライメントタスクの恩恵を受ける頑健なネットワークモジュールを導入する。
Deep Evidential Regression (DER)を統合して、トレーニング中の不確実性を明確かつ徹底的に定量化する。
これに対し,我々は,不確実性学習フレームワークをゼロから強化する簡易かつ効果的なGeom-regularizerを開発した。
論文 参考訳(メタデータ) (2024-08-29T05:32:03Z) - Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation [24.32551050538683]
Embodied AIは、探索されていない環境での行動に大きな進歩を遂げた。
我々は、日付付き知覚モデルに焦点をあて、時間的集約を無視し、地上の真実からテスト時にノイズの多い知覚へと直接移行する。
本研究は,アグリゲーション間の知覚確率と不確かさを校正し,決定を下すことによって,同定された問題に対処する。
論文 参考訳(メタデータ) (2024-08-05T08:14:28Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。