論文の概要: Automated Annotation of Evolving Corpora for Augmenting Longitudinal Network Data: A Framework Integrating Large Language Models and Expert Knowledge
- arxiv url: http://arxiv.org/abs/2503.01672v1
- Date: Mon, 03 Mar 2025 15:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:07.413732
- Title: Automated Annotation of Evolving Corpora for Augmenting Longitudinal Network Data: A Framework Integrating Large Language Models and Expert Knowledge
- Title(参考訳): 長期ネットワークデータ増大のための進化コーパスの自動アノテーション:大規模言語モデルとエキスパート知識の統合フレームワーク
- Authors: Xiao Liu, Zirui Wu, Jiayi Li, Zhicheng Shao, Xun Pang, Yansong Feng,
- Abstract要約: 本稿では,Large Language Models (LLMs) と歴史的注釈付きデータと専門家によるコードブックを組み合わせることで,データセットを将来的な期間に拡張するExpert-Augmented LLM (EALA) アプローチを提案する。
以上の結果から,EALAは交渉当事者間のあいまいな相互作用を効果的に予測し,時間とともにトピックの進化を捉えていることが明らかとなった。
コードブックと注釈付きデータセットが広く利用可能であることを考えると、EALAは政治科学以上の研究を進めるための大きな約束を持っている。
- 参考スコア(独自算出の注目度): 27.879485905967577
- License:
- Abstract: Longitudinal network data are essential for analyzing political, economic, and social systems and processes. In political science, these datasets are often generated through human annotation or supervised machine learning applied to evolving corpora. However, as semantic contexts shift over time, inferring dynamic interaction types on emerging issues among a diverse set of entities poses significant challenges, particularly in maintaining timely and consistent annotations. This paper presents the Expert-Augmented LLM Annotation (EALA) approach, which leverages Large Language Models (LLMs) in combination with historically annotated data and expert-constructed codebooks to extrapolate and extend datasets into future periods. We evaluate the performance and reliability of EALA using a dataset of climate negotiations. Our findings demonstrate that EALA effectively predicts nuanced interactions between negotiation parties and captures the evolution of topics over time. At the same time, we identify several limitations inherent to LLM-based annotation, highlighting areas for further improvement. Given the wide availability of codebooks and annotated datasets, EALA holds substantial promise for advancing research in political science and beyond.
- Abstract(参考訳): 縦断的ネットワークデータは、政治的、経済的、社会的なシステムやプロセスを分析するのに不可欠である。
政治学では、これらのデータセットは、進化するコーパスに適用される人間のアノテーションや教師あり機械学習を通じて生成されることが多い。
しかし、セマンティックコンテキストが時間とともに変化するにつれて、多様なエンティティの集合の中で出現する問題に対する動的な相互作用タイプを推論することは、特にタイムリーで一貫性のあるアノテーションを維持する上で、重大な課題を引き起こす。
本稿では,従来の注釈付きデータと専門家によるコードブックを組み合わせた大規模言語モデル(LLM)を利用して,データセットを将来的な期間に外挿・拡張するEALA(Expert-Augmented LLM Annotation)アプローチを提案する。
気候交渉のデータセットを用いてEALAの性能と信頼性を評価する。
以上の結果から,EALAは交渉当事者間のあいまいな相互作用を効果的に予測し,時間とともにトピックの進化を捉えていることが明らかとなった。
同時に、LLMベースのアノテーションに固有のいくつかの制限を特定し、さらなる改善の領域を強調した。
コードブックと注釈付きデータセットが広く利用可能であることを考えると、EALAは政治科学などの研究を進めるための大きな約束を持っている。
関連論文リスト
- The dynamics of meaning through time: Assessment of Large Language Models [2.5864824580604515]
本研究では,様々な大規模言語モデル(LLM)が意味の時間的ダイナミクスを捉える能力を評価することを目的とする。
比較分析にはChatGPT、GPT-4、Claude、Bard、Gemini、Llamaといった著名なモデルが含まれています。
発見は、各モデルの歴史的文脈と意味的シフトの扱いにおいて顕著な違いを示し、時間的意味的理解における強みと制限の両方を強調した。
論文 参考訳(メタデータ) (2025-01-09T19:56:44Z) - Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - GATGPT: A Pre-trained Large Language Model with Graph Attention Network
for Spatiotemporal Imputation [19.371155159744934]
実世界の環境では、センサーの故障やデータ転送エラーなどの問題により、そのようなデータには欠落する要素がしばしば含まれる。
時間的計算の目的は、観測された時系列における固有の空間的および時間的関係を理解することによって、これらの欠落値を推定することである。
伝統的に、複雑な時間的計算は特定のアーキテクチャに依存しており、適用可能性の制限と高い計算複雑性に悩まされている。
対照的に、我々のアプローチは、事前訓練された大規模言語モデル(LLM)を複雑な時間的インプットに統合し、画期的なフレームワークであるGATGPTを導入している。
論文 参考訳(メタデータ) (2023-11-24T08:15:11Z) - Data Distribution Bottlenecks in Grounding Language Models to Knowledge
Bases [9.610231090476857]
言語モデル(LM)は、自然言語と形式言語の両方を理解し、生成する際、すでに顕著な能力を示している。
本論文は,知識ベース質問応答(KBQA)を課題として,LMが直面する課題を明らかにすることを目的とした実験的研究である。
実験の結果,提案手法を応用しても,様々な次元において,先進的な小・大規模言語モデルの性能が低下していることが判明した。
論文 参考訳(メタデータ) (2023-09-15T12:06:45Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Detecting ESG topics using domain-specific language models and data
augmentation approaches [3.3332986505989446]
金融分野における自然言語処理タスクは、適切にラベル付けされたデータのあいまいさのため、依然として困難なままである。
本稿では,これらの問題を緩和するための2つのアプローチについて検討する。
まず、ビジネスおよび財務ニュースから大量のドメイン内データを用いて、さらなる言語モデルの事前学習実験を行う。
次に、モデル微調整のためのデータセットのサイズを増やすために拡張アプローチを適用します。
論文 参考訳(メタデータ) (2020-10-16T11:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。