論文の概要: HLTCOE Evaluation Team at TREC 2025: VQA Track
- arxiv url: http://arxiv.org/abs/2512.07738v1
- Date: Mon, 08 Dec 2025 17:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.981171
- Title: HLTCOE Evaluation Team at TREC 2025: VQA Track
- Title(参考訳): TREC2025のHLTCOE評価チーム:VQAトラック
- Authors: Dengjia Zhang, Charles Weng, Katherine Guerrerio, Yi Lu, Kenton Murray, Alexander Martin, Reno Kriz, Benjamin Van Durme,
- Abstract要約: HLT評価チームはTREC VQAのAnswer Generation (AG)タスクに参加した。
回答生成における意味的精度とランキングの整合性を改善することを目的としたリストワイズ学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 76.85337417923331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The HLTCOE Evaluation team participated in TREC VQA's Answer Generation (AG) task, for which we developed a listwise learning framework that aims to improve semantic precision and ranking consistency in answer generation. Given a video-question pair, a base multimodal model first generates multiple candidate answers, which are then reranked using a model trained with a novel Masked Pointer Cross-Entropy Loss with Rank Weights. This objective integrates pointer-based candidate selection, rank-dependent weighting, and masked cross-entropy under vocabulary restriction, enabling stable and interpretable listwise optimization. By bridging generative modeling with discriminative ranking, our method produces coherent, fine-grained answer lists. Experiments reveal consistent gains in accuracy and ranking stability, especially for questions requiring temporal reasoning and semantic disambiguation.
- Abstract(参考訳): HLTCOE 評価チームは TREC VQA の Answer Generation (AG) タスクに参加した。
ビデオ検索ペアが与えられた場合、ベースマルチモーダルモデルはまず複数の候補回答を生成し、その後、新しいMasked Pointer Cross-Entropy Loss with Rank Weightsでトレーニングされたモデルを用いて再ランクされる。
この目的は、語彙制限の下でポインタベースの候補選択、ランク依存重み付け、マスク付きクロスエントロピーを統合し、安定かつ解釈可能なリストワイズ最適化を可能にする。
本手法は,識別的ランク付けによる生成モデルの作成により,コーヒーレントできめ細かな回答リストを生成する。
実験では、特に時間的推論と意味的曖昧さを必要とする質問に対して、精度とランク安定性が一貫した向上を示す。
関連論文リスト
- LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - KEPR: Knowledge Enhancement and Plausibility Ranking for Generative
Commonsense Question Answering [11.537283115693432]
本稿では,ジェネレート・Then-Rankパイプラインアーキテクチャに基づく知識向上と可視性ランキング手法を提案する。
具体的には、キーワードのWiktionary Commonsense知識の観点から質問を拡張し、正規化パターンで修正する。
ELECTRAに基づく回答ランキングモデルを構築し、学習中にロジスティック回帰を行う。
論文 参考訳(メタデータ) (2023-05-15T04:58:37Z) - Learning to Rank Question Answer Pairs with Bilateral Contrastive Data
Augmentation [39.22166065525888]
本稿では,バイラテラル生成(Bilateral Generation, BiG)という,新鮮で使いやすいデータ拡張戦略を提案する。
拡張データセットを用いて、質問応答ペアのランク付けを学習するための対照的な訓練目標を設計する。
TREC-QA,WikiQA,AntiQUEの3つのベンチマークデータセットによる実験結果から,本手法はランキングモデルの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-06-21T13:29:43Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。