Fugu-MT 論文翻訳(概要): Zero-Shot Belief: A Hard Problem for LLMs

論文の概要: Zero-Shot Belief: A Hard Problem for LLMs

arxiv url: http://arxiv.org/abs/2502.08777v1
Date: Wed, 12 Feb 2025 20:39:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:34.995434
Title: Zero-Shot Belief: A Hard Problem for LLMs
Title（参考訳）: Zero-Shot Belief: LLMの難題
Authors: John Murzaku, Owen Rambow,
Abstract要約: 我々はFactBank上でゼロショットのソース・アンド・ターゲットの信念予測に2つのアプローチを提案する。統一されたシステムは、単一パス内のイベント、ソース、信念ラベルを識別し、イベント検出に微調整されたDeBERTaタグを使用するハイブリッドアプローチを使用する。我々のアプローチは、イタリアの信仰団体 ModaFact で検証される。
参考スコア（独自算出の注目度）: 6.365802395342737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present two LLM-based approaches to zero-shot source-and-target belief prediction on FactBank: a unified system that identifies events, sources, and belief labels in a single pass, and a hybrid approach that uses a fine-tuned DeBERTa tagger for event detection. We show that multiple open-sourced, closed-source, and reasoning-based LLMs struggle with the task. Using the hybrid approach, we achieve new state-of-the-art results on FactBank and offer a detailed error analysis. Our approach is then tested on the Italian belief corpus ModaFact.
Abstract（参考訳）: 本稿では,FactBank上でのゼロショットのソース・アンド・ターゲットの信念予測に対するLLMベースの2つのアプローチを提案する。複数のオープンソース、クローズドソース、および推論ベースのLCMがこのタスクに苦労していることを示す。ハイブリッドアプローチを用いて,FactBank上での最先端の成果を新たに達成し,詳細なエラー解析を行う。我々のアプローチは、イタリアの信仰団体 ModaFact で検証される。

関連論文リスト

Collaborative Stance Detection via Small-Large Language Model Consistency Verification [8.223369871697592]
ソーシャルメディア上のスタンス検出は、特定のターゲットに対するツイートで表される態度を特定することを目的としている。スタンス検出にLLM(Large Language Models)を多用することは、現実のソーシャルメディア監視システムでは現実的ではない。スモールラージ言語モデル一貫性を用いたtextbfunderlineCollaborative Stance Detectionを提案する。
論文参考訳（メタデータ） (2025-02-27T10:30:50Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
"I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-02-18T11:00:28Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
MOSAIC: Multiple Observers Spotting AI Content [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。本研究では,人文テキストから人工的に生成したテキストを自動的に識別する手法を提案する。種々のジェネレータLSMを用いて実験を行った結果,本手法は各モデルの強度を効果的に活用できることが示唆された。
論文参考訳（メタデータ） (2024-09-11T20:55:12Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Detect, Investigate, Judge and Determine: A Novel LLM-based Framework for Few-shot Fake News Detection [47.01850264003063]
Few-Shot Fake News Detectionは、極めて低リソースのシナリオにおいて、不正確なニュースを実際のニュースと区別することを目的としている。ソーシャルメディア上でのフェイクニュースの拡散や有害な影響により、このタスクは注目を集めている。そこで本稿では,大規模言語モデルの拡張を目的としたDual-perspective Augmented Fake News Detectionモデルを提案する。
論文参考訳（メタデータ） (2024-07-12T03:15:01Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。 BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文参考訳（メタデータ） (2024-06-11T05:21:37Z)
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。私たちの評価は幻覚を構成するものに関して微妙な点を呈する。既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文参考訳（メタデータ） (2024-06-05T17:49:47Z)
SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文参考訳（メタデータ） (2024-05-30T21:51:01Z)
$\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文参考訳（メタデータ） (2024-03-27T08:08:00Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。