論文の概要: Benchmarking Source-Sensitive Reasoning in Turkish: Humans and LLMs under Evidential Trust Manipulation
- arxiv url: http://arxiv.org/abs/2604.24665v1
- Date: Mon, 27 Apr 2026 16:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.165531
- Title: Benchmarking Source-Sensitive Reasoning in Turkish: Humans and LLMs under Evidential Trust Manipulation
- Title(参考訳): トルコにおけるソース・センシティブな推論--証拠信頼操作による人間とLLM
- Authors: Sercan Karakaş, Yusuf Şimşek,
- Abstract要約: 本稿では,トルコ語の明らかな形態のソース形状と,この感度を追従する大規模言語モデルについて検討する。
情報ソースが極端に外部にある制御されたクローゼコンテキストにおいて、-DIと-mIのドメイン間の過去のコントラストについて検討する。
人為的な生産実験では、トルコの母語話者は堅牢な信頼感を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates whether source trustworthiness shapes Turkish evidential morphology and whether large language models (LLMs) track this sensitivity. We study the past-domain contrast between -DI and -mIs in controlled cloze contexts where the information source is overtly external, while only its perceived reliability is manipulated (High-Trust vs. Low-Trust). In a human production experiment, native speakers of Turkish show a robust trust effect: High-Trust contexts yield relatively more -DI, whereas Low-Trust contexts yield relatively more -mIs, with the pattern remaining stable across sensitivity analyses. We then evaluate 10 LLMs in three prompting paradigms (open gap-fill, explicit past-tense gap-fill, and forced-choice A/B selection). LLM behavior is highly model- and prompt-dependent: some models show weak or local trust-consistent shifts, but effects are generally unstable, often reversed, and frequently overshadowed by output-compliance problems and strong base-rate suffix preferences. The results provide new evidence for a trust-/commitment-based account of Turkish evidentiality and reveal a clear human-LLM gap in source-sensitive evidential reasoning.
- Abstract(参考訳): 本稿では,トルコの証拠形態を形作る情報源の信頼性と,この感度を大規模言語モデル(LLM)が追跡するか否かを考察する。
情報ソースが極端に外部にある制御クローズコンテキストにおいて、-DIと-mIのドメイン間の過去のコントラストについて検討し、その信頼性のみを操作した(High-Trust vs. Low-Trust)。
一方、低トラストの文脈は相対的に -DI となり、低トラストの文脈は相対的に -mI となり、パターンは感度分析全体で安定している。
次に,3つのパラダイム(オープンギャップ充填,オープンパスセンスギャップ充填,強制選択A/B選択)で10個のLDMを評価した。
LLMの挙動は、非常にモデルに依存しており、いくつかのモデルは、弱いまたは局所的な信頼と一貫性のあるシフトを示すが、一般的には不安定であり、しばしば逆転し、出力準拠の問題や強いベースレートの接尾辞の好みによって、しばしば過度に影が隠れている。
その結果,トルコの確証性に関する信頼・コミットメントに基づく新たな証拠が得られ,情報源に敏感な確証的推論における人間とLLMの明確なギャップが明らかになった。
関連論文リスト
- FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not [0.0]
あいまいさ解消の過程で,大規模言語モデルが世界知識と統語的構造を人間的,構造に敏感な方法で統合するかどうかを検証した。
我々は、構文構成を固定し、両方の構文解析が実用的に可能であることを保証する曖昧な項目を構築する。
高速な強制選択理解実験では、人間は大きな、正確に指示された可視性効果を示す。
モデル全体では、可視性駆動のシフトは弱く、不安定で、逆転している。
論文 参考訳(メタデータ) (2026-04-06T16:27:06Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - Exposing the Cracks: Vulnerabilities of Retrieval-Augmented LLM-based Machine Translation [40.37732389445079]
本稿では,REAL-MTのロバスト性を評価するために,雑音合成フレームワークと新しい指標を提案する。
その結果,検索した文脈に強く依存する低リソース言語ペアは,雑音下では劣化しやすくなった。
LRMには推論能力が強化されているが、誤り訂正の改善は見られず、さらにノイズの影響を受けやすい。
論文 参考訳(メタデータ) (2025-10-01T12:43:55Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - Unbiased Reasoning for Knowledge-Intensive Tasks in Large Language Models via Conditional Front-Door Adjustment [14.539964360184086]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示しているが、知識集約的なタスクではうまく機能しない。
本稿では,クエリと応答間の因果効果の偏りのない推定を可能にする,新しい因果的プロンプトフレームワークである条件付きフロントドアプロンプト(CFD-Prompting)を提案する。
論文 参考訳(メタデータ) (2025-08-23T05:52:39Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。