Fugu-MT 論文翻訳(概要): Quality Assured: Rethinking Annotation Strategies in Imaging AI

論文の概要: Quality Assured: Rethinking Annotation Strategies in Imaging AI

arxiv url: http://arxiv.org/abs/2407.17596v2
Date: Fri, 26 Jul 2024 11:26:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 12:30:11.170533
Title: Quality Assured: Rethinking Annotation Strategies in Imaging AI
Title（参考訳）: 品質保証:AIイメージングにおけるアノテーション戦略の再考
Authors: Tim Rädsch, Annika Reinke, Vivienn Weru, Minu D. Tizabi, Nicholas Heller, Fabian Isensee, Annette Kopp-Schneider, Lena Maier-Hein,
Abstract要約: アノテーション会社によるQAがアノテーションの品質に与える影響を評価する。私たちの研究によって、研究者は固定されたアノテーション予算からかなり多くの価値を導き出すことができます。
参考スコア（独自算出の注目度）: 0.939815774582493
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper does not describe a novel method. Instead, it studies an essential foundation for reliable benchmarking and ultimately real-world application of AI-based image analysis: generating high-quality reference annotations. Previous research has focused on crowdsourcing as a means of outsourcing annotations. However, little attention has so far been given to annotation companies, specifically regarding their internal quality assurance (QA) processes. Therefore, our aim is to evaluate the influence of QA employed by annotation companies on annotation quality and devise methodologies for maximizing data annotation efficacy. Based on a total of 57,648 instance segmented images obtained from a total of 924 annotators and 34 QA workers from four annotation companies and Amazon Mechanical Turk (MTurk), we derived the following insights: (1) Annotation companies perform better both in terms of quantity and quality compared to the widely used platform MTurk. (2) Annotation companies' internal QA only provides marginal improvements, if any. However, improving labeling instructions instead of investing in QA can substantially boost annotation performance. (3) The benefit of internal QA depends on specific image characteristics. Our work could enable researchers to derive substantially more value from a fixed annotation budget and change the way annotation companies conduct internal QA.
Abstract（参考訳）: 本稿では,新しい手法について述べる。代わりに、信頼性の高いベンチマークと、最終的にはAIベースの画像分析の現実的な応用のための重要な基盤、すなわち高品質な参照アノテーションを生成する。これまでの研究は、アノテーションをアウトソーシングする手段としてクラウドソーシングに重点を置いてきた。しかしながら、アノテーション会社、特に内部品質保証(QA)プロセスについてはほとんど注目されていない。そこで本研究の目的は、アノテーション会社によるQAがアノテーションの品質に与える影響を評価し、データアノテーションの有効性を最大化するための方法論を考案することである。アノテーション会社4社とアマゾン・メカニカル・トルク(MTurk)の計924社と34人のQAワーカーから得られた57,648件のインスタンス分割画像から,(1)アノテーション会社は,広く使用されているMTurkと比較して,量と品質の両面で優れているという知見を得た。 2 アノテーション会社の内部QAは、もしあれば、限界的な改善しか提供しない。しかし、QAに投資する代わりにラベリング命令を改善することで、アノテーションのパフォーマンスを大幅に向上させることができる。 3) 内部QAの利点は, 特定の画像特性に依存する。我々の研究により、研究者は固定されたアノテーション予算からかなり多くの価値を導き出し、アノテーション会社が内部のQAを行う方法を変えることができます。

関連論文リスト

Data Annotation Quality Problems in AI-Enabled Perception System Development [3.716862357836751]
データアノテーションは、AI対応の知覚システムの開発において必須であるが、非常にエラーを起こしやすい。我々は3つのデータ品質次元にまたがる18の繰り返しアノテーションエラーの分類法を開発した。この研究は、信頼できるAI対応認識システムを構築するための共有語彙、診断ツールセット、行動可能なガイダンスを提供することで、SE4AIに貢献する。
論文参考訳（メタデータ） (2025-11-20T14:30:51Z)
AI-Boosted Video Annotation: Assessing the Process Enhancement [0.4893345190925178]
この研究は、アノテーションプロセスの実践的意味、AIコンポーネントの統合、そしてその成果の評価を掘り下げている。 Label Studio と AI を利用したゼロショット事前アノテーションを用いたシングルイテレーション方式を実装した。また,類似のアノテーションを持つアノテーションの70%に対して,アノテーション時間を35%短縮した。
論文参考訳（メタデータ） (2025-10-20T16:10:11Z)
AURA Score: A Metric For Holistic Audio Question Answering Evaluation [57.042210272137396]
AQAメトリクスのシステマティックなベンチマークを可能にするために、AQEvalを導入します。これはこの種の最初のベンチマークであり、その正確さと妥当性のために、複数の人間が注釈付けした10kモデル応答で構成されている。第2に、既存のAQAメトリクスをAQEval上で総合的に分析し、人間の判断と弱い相関を明らかにする。第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
論文参考訳（メタデータ） (2025-10-06T15:41:34Z)
Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap [44.608160256874726]
本調査では,人間の知能のレンズを通して人為的評価パラダイムを導入する。実践的な価値を得るために、経済の生存可能性、社会的影響、倫理的整合性、環境持続可能性を評価する価値指向評価(VQ)フレームワークを開拓した。
論文参考訳（メタデータ） (2025-08-26T03:43:05Z)
Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
FADE: Why Bad Descriptions Happen to Good Features [14.00042287629001]
FADE: 特徴アライメントを記述評価に導入する。 FADEは機能記述アライメントを評価するためのスケーラブルなフレームワークである。既存のオープンソース機能記述を分析し、自動解釈可能性パイプラインの重要なコンポーネントを評価するためにFADEを適用した。
論文参考訳（メタデータ） (2025-02-24T09:28:35Z)
Context Filtering with Reward Modeling in Question Answering [7.668954669688971]
Reward Modelingを通して重要コンテンツを要約し、非重要詳細を除去するコンテキストフィルタリング手法を導入する。 EMパートークン(EPT)の6.8倍の増大により,本手法がベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-12-16T12:29:24Z)
Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文参考訳（メタデータ） (2024-07-01T09:06:57Z)
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。 BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文参考訳（メタデータ） (2023-04-28T08:06:05Z)
Exploring Opinion-unaware Video Quality Assessment with Semantic Affinity Criterion [52.07084862209754]
コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。 The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
論文参考訳（メタデータ） (2023-02-26T08:46:07Z)
The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文参考訳（メタデータ） (2023-02-14T18:59:02Z)
QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文参考訳（メタデータ） (2021-12-16T00:38:35Z)
Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文参考訳（メタデータ） (2021-12-13T18:45:42Z)
Creating a Domain-diverse Corpus for Theory-based Argument Quality Assessment [6.654552816487819]
GAQCorpus は理論ベース AQ の最初の大領域多元アノテートコーパスである。本稿では,クラウドソーシングによる多数の判断を確実に収集するアノテーションタスクの設計方法について論じる。本研究は,理論に基づく議論アノテーションの研究を報告し,より多様なコーパスを作成して計算AQアセスメントを支援することを目的とする。
論文参考訳（メタデータ） (2020-11-03T09:40:25Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)
Asking and Answering Questions to Evaluate the Factual Consistency of Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。 QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。 QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文参考訳（メタデータ） (2020-04-08T20:01:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。