論文の概要: ThatiAR: Subjectivity Detection in Arabic News Sentences
- arxiv url: http://arxiv.org/abs/2406.05559v1
- Date: Sat, 8 Jun 2024 19:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:06:24.476616
- Title: ThatiAR: Subjectivity Detection in Arabic News Sentences
- Title(参考訳): ThatiAR:アラビア語ニュース文における主観性検出
- Authors: Reem Suwaileh, Maram Hasanain, Fatema Hubail, Wajdi Zaghouani, Firoj Alam,
- Abstract要約: 本研究では,アラビア語における主観性検出のための最初の大規模データセットを提案する。
3.6K の注釈付き文と GPT-4o に基づく説明で構成されている。
データセット、アノテーションプロセス、および広範なベンチマーク結果を詳細に分析する。
- 参考スコア(独自算出の注目度): 10.334164786614696
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Detecting subjectivity in news sentences is crucial for identifying media bias, enhancing credibility, and combating misinformation by flagging opinion-based content. It provides insights into public sentiment, empowers readers to make informed decisions, and encourages critical thinking. While research has developed methods and systems for this purpose, most efforts have focused on English and other high-resourced languages. In this study, we present the first large dataset for subjectivity detection in Arabic, consisting of ~3.6K manually annotated sentences, and GPT-4o based explanation. In addition, we included instructions (both in English and Arabic) to facilitate LLM based fine-tuning. We provide an in-depth analysis of the dataset, annotation process, and extensive benchmark results, including PLMs and LLMs. Our analysis of the annotation process highlights that annotators were strongly influenced by their political, cultural, and religious backgrounds, especially at the beginning of the annotation process. The experimental results suggest that LLMs with in-context learning provide better performance. We aim to release the dataset and resources for the community.
- Abstract(参考訳): ニュース文における主観性の検出は、メディアバイアスを特定し、信頼性を高め、意見に基づくコンテンツにフラグを付けることで誤情報と戦うために重要である。
大衆の感情に対する洞察を与え、読者にインフォームドな判断を与え、批判的な思考を促す。
研究はこの目的のために方法やシステムを開発してきたが、ほとんどの取り組みは英語やその他の高リソース言語に焦点を当ててきた。
本研究では,アラビア語における主観性検出のための最初の大規模データセットについて述べる。
さらに、LLMに基づく微調整を促進するための指示(英語とアラビア語の両方)も含んでいた。
PLM や LLM などを含むデータセット,アノテーションプロセス,広範なベンチマーク結果の詳細な分析を行う。
注記過程の分析は,注釈者の政治的背景,文化的背景,宗教的背景,特に注記過程の開始に強く影響されたことを強調している。
実験結果から,文脈内学習を用いたLLMの方が性能が向上することが示唆された。
コミュニティのためにデータセットとリソースをリリースすることを目指しています。
関連論文リスト
- Enhancing Entertainment Translation for Indian Languages using Adaptive Context, Style and LLMs [3.55026004901472]
本稿では,現在のセッションの文脈とスタイルを推定するアルゴリズムを導入し,これらの推定値を用いてLLM(Large Language Model)を誘導し,高品質な翻訳を生成するプロンプトを生成する。
本手法はLLMに依存しない言語であり,汎用ツールである。
論文 参考訳(メタデータ) (2024-12-29T11:33:51Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges [2.2751168722976587]
VLBiasは、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を活用して、ニュースコンテンツの言語的および視覚的バイアスを検出するフレームワークである。
本稿では,多様なニュースソースからのテキストコンテンツと対応する画像からなるマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-22T15:05:30Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Investigating Annotator Bias in Large Language Models for Hate Speech Detection [5.589665886212444]
本稿では,ヘイトスピーチデータに注釈をつける際に,Large Language Models (LLMs) に存在するバイアスについて考察する。
具体的には、これらのカテゴリ内の非常に脆弱なグループを対象として、アノテータバイアスを分析します。
我々は,この研究を行うために,独自のヘイトスピーチ検出データセットであるHateBiasNetを紹介した。
論文 参考訳(メタデータ) (2024-06-17T00:18:31Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese
Media Bias Detection [16.343223974292908]
我々は、新たに設計されたシステムによって注釈付けされた新型コロナウイルスに関する中国のニュースと共にデータセットを構築します。
データ拡張コンテキストエンリッチメント(DACE)では、トレーニングデータを拡大し、Retrieval-Augmentedコンテキストエンリッチメント(RACE)では、貴重な情報を選択するための情報検索方法を改善する。
以上の結果から, RACE法の方が効率が高く, 可能性も高いことがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:29:49Z) - Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning [10.897468059705238]
監督されたパラフレーズは、意味と意図を維持するために大量のラベル付きデータに大きく依存している。
本稿では,大規模言語モデル(LLM)を用いたICL(In-Context Learning)を探索し,実践者を支援することを目的とする。
本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。
論文 参考訳(メタデータ) (2023-10-16T16:18:55Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。