論文の概要: Large language models struggle with ethnographic text annotation
- arxiv url: http://arxiv.org/abs/2601.12099v1
- Date: Sat, 17 Jan 2026 16:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.463257
- Title: Large language models struggle with ethnographic text annotation
- Title(参考訳): 大規模言語モデルはエスノグラフィテキストアノテーションに苦しむ
- Authors: Leonardo S. Goodall, Dor Shilton, Daniel A. Mullins, Harvey Whitehouse,
- Abstract要約: 大規模言語モデル(LLM)は自動テキストアノテーションの約束を示す。
567点の抽出液に121点の儀式的特徴を付加する能力について,最先端のLDM7点について検討した。
パフォーマンスは制限され、信頼性の高い自動アノテーションに必要なレベルを大きく下回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise for automated text annotation, raising hopes that they might accelerate cross-cultural research by extracting structured data from ethnographic texts. We evaluated 7 state-of-the-art LLMs on their ability to annotate 121 ritual features across 567 ethnographic excerpts. Performance was limited, falling well below levels required for reliable automated annotation. Longer texts, features requiring ordinal distinctions, and ambiguous constructs proved particularly difficult. Human inter-coder reliability set an approximate ceiling on LLM accuracy: features that human coders found difficult to agree upon were also difficult for LLMs. Yet even on features where humans reliably agreed, models fell short of human performance. Our findings suggest that LLMs cannot yet substitute for human expertise in ethnographic annotation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動テキストアノテーションの可能性を示しており、エスノグラフィテキストから構造化されたデータを抽出することで、異文化間の研究を加速させることを期待している。
567例のエトノグラフ抜粋に121例の儀式的特徴を付加する能力について7例の評価を行った。
パフォーマンスは制限され、信頼性の高い自動アノテーションに必要なレベルを大きく下回った。
より長いテキスト、順序の区別を必要とする特徴、曖昧な構成は特に困難であった。
人間のコーダ間の信頼性は、LLMの精度に近似した天井を設定した。
しかし、人間が確実に同意した機能でさえ、モデルは人間のパフォーマンスに欠けていた。
以上の結果から,LSMは人為的専門知識の代用には至っていないことが示唆された。
関連論文リスト
- Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - Large Language Models as Span Annotators [5.488183187190419]
大規模言語モデル(LLM)は柔軟性とコスト効率のよいアノテーションバックボーンとして機能することを示す。
出力アノテーションあたりのコストのごく一部で,LLMが人間のアノテーションに匹敵するアノテータ間合意(IAA)を達成することを示す。
論文 参考訳(メタデータ) (2025-04-11T17:04:51Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。
解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。
提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-03-05T15:33:52Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。