論文の概要: The Automatic Verification of Image-Text Claims (AVerImaTeC) Shared Task
- arxiv url: http://arxiv.org/abs/2602.11221v1
- Date: Wed, 11 Feb 2026 12:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.465827
- Title: The Automatic Verification of Image-Text Claims (AVerImaTeC) Shared Task
- Title(参考訳): 画像テキストクレーム(AVerImaTeC)共有タスクの自動検証
- Authors: Rui Cao, Zhenyun Deng, Yulong Chen, Michael Schlichtkrull, Andreas Vlachos,
- Abstract要約: 画像テキストクレームの自動検証(AVerImaTeC)タスクは、証拠の検索と実世界の画像テキストクレームの検証のためのシステム開発を促進することを目的としている。
優勝したHUMANEはAVerImaTeCスコア0.5455を獲得した。
- 参考スコア(独自算出の注目度): 16.405055912314232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Automatic Verification of Image-Text Claims (AVerImaTeC) shared task aims to advance system development for retrieving evidence and verifying real-world image-text claims. Participants were allowed to either employ external knowledge sources, such as web search engines, or leverage the curated knowledge store provided by the organizers. System performance was evaluated using the AVerImaTeC score, defined as a conditional verdict accuracy in which a verdict is considered correct only when the associated evidence score exceeds a predefined threshold. The shared task attracted 14 submissions during the development phase and 6 submissions during the testing phase. All participating systems in the testing phase outperformed the baseline provided. The winning team, HUMANE, achieved an AVerImaTeC score of 0.5455. This paper provides a detailed description of the shared task, presents the complete evaluation results, and discusses key insights and lessons learned.
- Abstract(参考訳): The Automatic Verification of Image-Text Claims (AVerImaTeC) shared task to advance system development for retrieveing evidence and confirmeding real-world image-text claims。
参加者は、Web検索エンジンなどの外部知識ソースを利用するか、主催者が提供するキュレートされた知識ストアを利用するかのどちらかが許された。
AVerImaTeCスコアを条件付き判定精度として評価し、関連する証拠スコアが予め定義された閾値を超えた場合にのみ、判定が正しいと判断した。
共有タスクは開発フェーズで14の応募、テストフェーズで6の応募を惹きつけた。
テストフェーズのすべての参加システムは、提供されたベースラインよりも優れていた。
優勝したHUMANEはAVerImaTeCスコア0.5455を獲得した。
本稿では,共有タスクの詳細な説明,評価結果の完全化,重要な洞察と教訓について論じる。
関連論文リスト
- VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration [10.712719361607753]
VILLAINは画像テキストのクレームを検証するマルチモーダルなファクトチェックシステムである。
私たちのシステムは、すべての評価指標でトップボードにランクインしました。
論文 参考訳(メタデータ) (2026-02-04T14:12:55Z) - OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。
回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。
OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文 参考訳(メタデータ) (2026-01-04T15:48:51Z) - DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [36.38599923075882]
DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - The Automated Verification of Textual Claims (AVeriTeC) Shared Task [29.535143881116472]
共有されたタスクは、参加者に証拠を回収し、ファクトチェッカーによってチェックされた現実世界のクレームの正確性を予測するよう依頼した。
証拠は検索エンジン経由で、またはオーガナイザが提供する知識ストア経由で見つけることができる。
優勝チームはTUDA_MAIで、AVeriTeCスコアは63%だった。
論文 参考訳(メタデータ) (2024-10-31T12:01:12Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Overview of the CLEF-2019 CheckThat!: Automatic Identification and
Verification of Claims [26.96108180116284]
CheckThat!ラボでは、英語とアラビア語の2つの異なる言語で2つのタスクをこなした。
Task 1の最も成功したアプローチは、さまざまなニューラルネットワークとロジスティック回帰を使用した。
ラーニング・トゥ・ランクは、サブタスクAの最高スコアランで使用された。
論文 参考訳(メタデータ) (2021-09-25T16:08:09Z) - Generation Challenges: Results of the Accuracy Evaluation Shared Task [0.0]
4つのチームがこのタスクの評価手法を提出しました。
最高のパフォーマンスの応募は、この難しいタスクで励まされた。
すべての自動提出は、意味的にまたは実用的に複雑である事実的エラーを検出するのに苦労した。
論文 参考訳(メタデータ) (2021-08-12T10:24:34Z) - ICDAR 2021 Competition on Components Segmentation Task of Document
Photos [63.289361617237944]
3つの課題タスクが提案され、提供されたデータセット上で異なるセグメンテーションの割り当てが実行される。
収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。
さまざまなディープラーニングモデルが、各タスクで最高の結果を得るために、さまざまな戦略を持つ参加者によって適用されました。
論文 参考訳(メタデータ) (2021-06-16T00:49:58Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z) - Overview of the TREC 2019 Fair Ranking Track [65.15263872493799]
TREC Fair Ranking トラックの目標は、異なるコンテンツプロバイダに対する公正性の観点から、検索システムを評価するベンチマークを開発することであった。
本稿では,タスク定義やデータ記述,アノテーションプロセスなどを含むトラックの概要について述べる。
論文 参考訳(メタデータ) (2020-03-25T21:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。