論文の概要: Are generative AI text annotations systematically biased?
- arxiv url: http://arxiv.org/abs/2512.08404v1
- Date: Tue, 09 Dec 2025 09:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.896921
- Title: Are generative AI text annotations systematically biased?
- Title(参考訳): 生成AIテキストアノテーションは体系的にバイアスがあるか?
- Authors: Sjoerd B. Stolwijk, Mark Boukes, Damian Trilling,
- Abstract要約: 本稿では,Bukesの手動アノテーションを概念的に複製したGLLMアノテーションのバイアスについて検討する(2024年)。
GLLMはF1スコアの点で十分な性能を発揮するが、頻度の点で手動アノテーションと異なり、ダウンストリームの結果が瞬時に異なることを示し、手動アノテーションよりも相互に重なるという体系的なバイアスを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates bias in GLLM annotations by conceptually replicating manual annotations of Boukes (2024). Using various GLLMs (Llama3.1:8b, Llama3.3:70b, GPT4o, Qwen2.5:72b) in combination with five different prompts for five concepts (political content, interactivity, rationality, incivility, and ideology). We find GLLMs perform adequate in terms of F1 scores, but differ from manual annotations in terms of prevalence, yield substantively different downstream results, and display systematic bias in that they overlap more with each other than with manual annotations. Differences in F1 scores fail to account for the degree of bias.
- Abstract(参考訳): 本稿では,Bukesのマニュアルアノテーションを概念的に複製したGLLMアノテーションのバイアスについて検討する(2024年)。
様々なGLLM (Llama3.1:8b, Llama3.3:70b, GPT4o, Qwen2.5:72b) と5つの概念(政治内容、相互作用性、合理性、市民性、イデオロギー)の5つの異なるプロンプトを組み合わせる。
GLLMはF1スコアの点で十分な性能を発揮するが、頻度の点で手動アノテーションと異なり、ダウンストリームの結果が瞬時に異なることを示し、手動アノテーションよりも相互に重なるという体系的なバイアスを示す。
F1スコアの違いはバイアスの度合いを考慮しない。
関連論文リスト
- Input Order Shapes LLM Semantic Alignment in Multi-Document Summarization [9.343188274671851]
大規模言語モデル(LLM)は現在、GoogleのAI概要などの設定で使用されている。
我々は、40個のプロ中性コン記事三重項を作成し、各三重項を6つの入力順序にパーミュレートし、Gemini 2.5 Flashに中立的な概要を生成するよう促す。
ROUGE-L (lexical overlap)、BERTScore(semantic similarity)、SummaC(SummaC)を用いて、ソース記事に対する各要約を評価する。
論文 参考訳(メタデータ) (2025-12-02T11:36:13Z) - Exploring Automated Recognition of Instructional Activity and Discourse from Multimodal Classroom Data [8.014320244550243]
本研究は,マルチモーダル・インストラクショナル・アクティビティと談話認識に着目した,授業記録のAIによる分析について考察する。
164時間のビデオと68のレッスン書き起こしの高密度な注釈付きデータセットを使用して、並列なモダリティ固有のパイプラインを設計する。
微調整されたモデルはプロンプトベースのアプローチを一貫して上回り、マクロF1スコアはビデオで0.577、書き起こしで0.460である。
論文 参考訳(メタデータ) (2025-11-26T11:57:22Z) - SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations [10.409447852574907]
SPOTは、停止点という社会学的概念を再現可能なNLPタスクに翻訳する最初の注釈付きコーパスである。
このコーパスには、フランスのFacebookコメントを手動で注釈付けした43,305件が含まれている。
我々は、様々なプロンプト戦略の下で、細調整エンコーダモデル(CamemBERT)と命令調整LLMをベンチマークする。
論文 参考訳(メタデータ) (2025-11-10T18:54:40Z) - Spot the BlindSpots: Systematic Identification and Quantification of Fine-Grained LLM Biases in Contact Center Summaries [3.4205390087622582]
BlindSpotは15の運用バイアス次元の分類に基づいて構築されたフレームワークである。
BlindSpotは、一対の転写文とその要約において、各バイアス次元のカテゴリ分布を生成する。
分析の結果、バイアスは、サイズや家族に関係なく、すべての評価モデルにまたがって体系的であり、存在することが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T17:31:03Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Iterative Graph Alignment [0.27309692684728604]
イテレーティブグラフアライメント(IGA)は、アノテーションのないルールベースのアライメントアルゴリズムである。
応答をこれらの参照と整合させることにより、局所的な知識ギャップを識別する。
評価の結果,Claude Sonnet 3.5では73.12%のアライメント改善,Llama3-8B-Instructでは86.20%の改善が得られた。
論文 参考訳(メタデータ) (2024-08-29T16:15:01Z) - Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。
はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。
本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T03:38:55Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。