Fugu-MT 論文翻訳(概要): BrainStorm @ iREL at SMM4H 2024: Leveraging Translation and Topical Embeddings for Annotation Detection in Tweets

論文の概要: BrainStorm @ iREL at SMM4H 2024: Leveraging Translation and Topical Embeddings for Annotation Detection in Tweets

arxiv url: http://arxiv.org/abs/2405.11192v1
Date: Sat, 18 May 2024 06:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 18:57:45.938754
Title: BrainStorm @ iREL at SMM4H 2024: Leveraging Translation and Topical Embeddings for Annotation Detection in Tweets
Title（参考訳）: BrainStorm @ iREL - SMM4H 2024: ツイート中のアノテーション検出のための翻訳とトピック埋め込みを活用する
Authors: Manav Chaudhary, Harshit Gupta, Vasudeva Varma,
Abstract要約: 本稿では、BrainStorm @iRELのSMM4H 2024共有タスクに対するアプローチを示す。本稿では,アノテーションを識別・分類する新しい手法を提案し,注釈付きデータの信頼性を高めることを目的とする。
参考スコア（独自算出の注目度）: 10.863665703829401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of LLMs in various NLP tasks has sparked debates regarding their reliability, particularly in annotation tasks where biases and hallucinations may arise. In this shared task, we address the challenge of distinguishing annotations made by LLMs from those made by human domain experts in the context of COVID-19 symptom detection from tweets in Latin American Spanish. This paper presents BrainStorm @ iREL's approach to the SMM4H 2024 Shared Task, leveraging the inherent topical information in tweets, we propose a novel approach to identify and classify annotations, aiming to enhance the trustworthiness of annotated data.
Abstract（参考訳）: 様々なNLPタスクにおけるLSMの増殖は、特にバイアスや幻覚が生じる可能性のあるアノテーションタスクにおいて、その信頼性に関する議論を引き起こしている。この共有タスクでは、ラテンアメリカスペイン語のつぶやきからCOVID-19の症状を検出するという文脈において、LLMによるアノテーションと人間のドメインの専門家によるアノテーションを区別するという課題に対処する。本稿では,SMM4H 2024共有タスクに対するBrainStorm @iRELのアプローチを提案する。

関連論文リスト

Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity [16.065963688326242]
中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
論文参考訳（メタデータ） (2025-07-30T21:50:19Z)
TUM-MiKaNi at SemEval-2025 Task 3: Towards Multilingual and Knowledge-Aware Non-factual Hallucination Identification [2.3999111269325266]
本稿では,SemEval-2025 Task-3, Mu-SHROOM, Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。本稿では,Wikipediaに対する検索に基づく事実検証と,共通幻覚パターンを識別するBERTベースのシステムを組み合わせた2部パイプラインを提案する。
論文参考訳（メタデータ） (2025-07-01T09:00:50Z)
Span-Level Hallucination Detection for LLM-Generated Answers [0.0]
本稿では,SemEval-2025共有タスクのための,英語とアラビア語のテキストに着目したスパンレベルの幻覚検出フレームワークを提案する。提案手法はセマンティック・ロール・ラベルリング(SRL)を統合して解答をアトミック・ロールに分解し,抽出した参照コンテキストと比較する。 DeBERTaに基づくテキスト・エンテーメント・モデルを用いて,各ロールのセマンティック・アライメントと検索したコンテキストとのアライメントを評価する。
論文参考訳（メタデータ） (2025-04-25T18:35:25Z)
SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes [72.61348252096413]
そこで本研究では,M Mu-SHROOM共有タスクを提案する。このタスクは,命令調整型大規模言語モデル(LLM)の出力における幻覚やその他の過剰生成ミスの検出に重点を置いている。 Mu-SHROOMは14言語で汎用LLMに対処し、幻覚検出問題をスパンラベルタスクとしてフレーム化する。私たちは43の参加チームから2,618件の提出を受けました。
論文参考訳（メタデータ） (2025-04-16T11:15:26Z)
On the Implications of Verbose LLM Outputs: A Case Study in Translation Evaluation [39.77242056425876]
我々は、安全、著作権上の懸念、短い入力クエリにおけるコンテキストの不足など、冗長性の主要な引き金を特定する。この行為を無視することは、自動評価と人的評価の両方に応じて、より冗長なLLMを罰することを示します。
論文参考訳（メタデータ） (2024-10-01T16:59:01Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。私たちの評価は幻覚を構成するものに関して微妙な点を呈する。既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文参考訳（メタデータ） (2024-06-05T17:49:47Z)
ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。 ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文参考訳（メタデータ） (2024-05-30T17:54:40Z)
Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文参考訳（メタデータ） (2024-05-01T17:24:42Z)
FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。 LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文参考訳（メタデータ） (2024-04-01T17:33:38Z)
Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T11:55:40Z)
INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection [39.52923659121416]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文参考訳（メタデータ） (2024-02-06T06:23:12Z)
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文参考訳（メタデータ） (2024-01-02T17:56:30Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
Little Giants: Exploring the Potential of Small LLMs as Evaluation Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文参考訳（メタデータ） (2023-11-01T17:44:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。