論文の概要: Coling-UniA at SciVQA 2025: Few-Shot Example Retrieval and Confidence-Informed Ensembling for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2507.02357v1
- Date: Thu, 03 Jul 2025 06:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.775868
- Title: Coling-UniA at SciVQA 2025: Few-Shot Example Retrieval and Confidence-Informed Ensembling for Multimodal Large Language Models
- Title(参考訳): SciVQA 2025におけるColing-UniA: マルチモーダルな大規模言語モデルのための検索と信頼インフォーマリング
- Authors: Christian Jaumann, Annemarie Friedrich, Rainer Lienhart,
- Abstract要約: 本稿では,SciVQA 2025Shared Task on Scientific Visual Question Answeringについて述べる。
本システムでは,2つのマルチモーダル大言語モデルと,様々なサンプル検索手法をアンサンブルとして採用している。
ブラインドテストデータでは,ROUGE-1,ROUGE-L,BERTSで平均F1スコア85.12の7つ中3位にランクインした。
- 参考スコア(独自算出の注目度): 10.899493419708651
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes our system for the SciVQA 2025 Shared Task on Scientific Visual Question Answering. Our system employs an ensemble of two Multimodal Large Language Models and various few-shot example retrieval strategies. The model and few-shot setting are selected based on the figure and question type. We also select answers based on the models' confidence levels. On the blind test data, our system ranks third out of seven with an average F1 score of 85.12 across ROUGE-1, ROUGE-L, and BERTS. Our code is publicly available.
- Abstract(参考訳): 本稿では,SciVQA 2025Shared Task on Scientific Visual Question Answeringについて述べる。
本システムでは,2つのマルチモーダル大言語モデルと,様々なサンプル検索手法をアンサンブルとして採用している。
モデルと少数ショット設定は、図形と質問タイプに基づいて選択される。
モデルの信頼性レベルに基づいた回答も選択します。
ブラインドテストデータでは,ROUGE-1,ROUGE-L,BERTSで平均F1スコア85.12の7つ中3位にランクインした。
私たちのコードは公開されています。
関連論文リスト
- BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense [0.04096453902709291]
本稿では,SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Senseについて概説する。
データセットには、モデルに「ボックスの外」を考えるよう挑戦する、複数選択の質問が含まれている。
提案手法は,文パズルのサブタスクにおいて,全体の85%の精度を実現する。
論文 参考訳(メタデータ) (2024-06-07T14:01:56Z) - AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T06:25:47Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - DOMINO: A Dual-System for Multi-step Visual Language Reasoning [76.69157235928594]
視覚情報抽出のための「System-1」ステップと、意図的な推論のための「System-2」ステップからなる多段階マルチモーダル推論のためのデュアルシステムを提案する。
事前学習した System-2 モジュールを用いた本手法は, 配当データと配当データの先行処理と比較して, 競合的に動作する。
論文 参考訳(メタデータ) (2023-10-04T13:29:47Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - Joint Models for Answer Verification in Question Answering Systems [85.93456768689404]
我々は3方向のマルチクラス化器を構築し、解答が他の解答をサポートするか、反証するか、あるいは中立かを決定する。
私たちは、WikiQA、TREC-QA、実世界のデータセットでモデルをテストしました。
論文 参考訳(メタデータ) (2021-07-09T05:34:36Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Sequential Neural Networks for Noetic End-to-End Response Selection [4.996858281980058]
本稿では,この課題の下で両データセットの上位1位にランクされたシステムについて述べる。
多ターン応答選択のための連鎖列のみに基づく逐次マッチングモデルについて検討する。
この結果から, 逐次マッチング手法のポテンシャルは, 多ターン応答選択においてまだ十分に活用されていないことが示唆された。
論文 参考訳(メタデータ) (2020-03-03T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。