Fugu-MT 論文翻訳(概要): Can Deception Detection Go Deeper? Dataset, Evaluation, and Benchmark for Deception Reasoning

論文の概要: Can Deception Detection Go Deeper? Dataset, Evaluation, and Benchmark for Deception Reasoning

arxiv url: http://arxiv.org/abs/2402.11432v1
Date: Sun, 18 Feb 2024 02:52:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 21:25:45.819065
Title: Can Deception Detection Go Deeper? Dataset, Evaluation, and Benchmark for Deception Reasoning
Title（参考訳）: 偽造検出はより深くできるか? 認識推論のためのデータセット, 評価, ベンチマーク
Authors: Kang Chen, Zheng Lian, Haiyang Sun, Bin Liu, Jianhua Tao
Abstract要約: GPT-4を用いて被疑者と警察官のロールプレイをシミュレートする。尋問中、容疑者は犯罪の責任を逃れるために警察官に嘘をつき、警察官は真実を知り、証拠を収集する。このデータセットは、現在の大規模言語モデルの複雑な推論能力を評価するためにも使用できる。
参考スコア（独自算出の注目度）: 41.991583196611536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deception detection has attracted increasing attention due to its importance in many practical scenarios. Currently, data scarcity harms the development of this field. On the one hand, it is costly to hire participants to simulate deception scenarios. On the other hand, it is difficult to collect videos containing deceptive behaviors on the Internet. To address data scarcity, this paper proposes a new data collection pipeline. Specifically, we use GPT-4 to simulate a role-play between a suspect and a police officer. During interrogation, the suspect lies to the police officer to evade responsibility for the crime, while the police officer uncovers the truth and gathers evidence. Compared with previous datasets, this strategy reduces data collection costs, providing a promising way to increase the dataset size. Meanwhile, we extend the traditional deception detection task to deception reasoning, further providing evidence for deceptive parts. This dataset can also be used to evaluate the complex reasoning capability of current large language models and serve as a reasoning benchmark for further research.
Abstract（参考訳）: 偽造検出は、多くの実践シナリオにおいてその重要性から注目を集めている。現在、データ不足はこの分野の発展に悪影響を及ぼす。一方、虚偽のシナリオをシミュレートするために参加者を雇うのはコストがかかる。一方,インターネット上での偽装行動を含む動画の収集は困難である。本稿では,データ不足に対処するため,新しいデータ収集パイプラインを提案する。具体的には、GPT-4を用いて被疑者と警察官のロールプレイをシミュレートする。尋問中、容疑者は犯罪の責任を逃れるために警察官に嘘をつき、警察官は真実を知り、証拠を収集する。以前のデータセットと比較して、この戦略はデータ収集コストを削減し、データセットのサイズを増加させる有望な方法を提供する。一方,従来の偽装検出タスクを偽装推論に拡張し,さらに偽装部品のエビデンスを提供する。このデータセットは、現在の大規模言語モデルの複雑な推論能力を評価するためにも使用でき、さらなる研究のための推論ベンチマークとして役立ちます。

関連論文リスト

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision [25.382800247901827]
DeepfakeJudgeはスケーラブルな推論の監視と評価のためのフレームワークです。これは、最近の生成および編集のフォージェリー、視覚的推論ラベルを持つ人間の注釈付きサブセット、および一連の評価モデルを含む、配布外ベンチマークを統合している。
論文参考訳（メタデータ） (2026-02-23T11:08:46Z)
Revisiting Salient Object Detection from an Observer-Centric Perspective [48.99721284788945]
そこで我々は,視覚的手がかりだけでなく,その嗜好や意図など,観察者固有の要因を考慮し,有意な領域を予測できるオブザーバ中心の有意物体検出(OC-SOD)を提案する。結果として、この定式化は本質的なあいまいさと人間の知覚の多様性を捉え、パーソナライズされ、文脈に合ったサリエンシの予測を可能にする。
論文参考訳（メタデータ） (2026-02-06T03:53:01Z)
Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文参考訳（メタデータ） (2025-08-27T15:39:46Z)
What if Deception Cannot be Detected? A Cross-Linguistic Study on the Limits of Deception Detection from Text [10.912953196817554]
著者の主張と真実の信念の相違として, 虚偽を定め, 信念に基づく虚偽の枠組みを導入する。我々は3つのコーパスを構築し、総称してDeFaBelとよばれる。これらのコーパスを用いて、一般的に報告されている偽装の言語的手がかりを評価する。
論文参考訳（メタデータ） (2025-05-19T14:12:05Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
How Entangled is Factuality and Deception in German? [10.790059579736276]
偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。
論文参考訳（メタデータ） (2024-09-30T10:23:13Z)
On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文参考訳（メタデータ） (2024-04-12T15:35:20Z)
To Tell The Truth: Language of Deception and Language Models [6.80186731352488]
我々は,ハイテイク環境における会話が嘘をつくような,新しいテレビ番組データを分析する。客観的な真理の存在下での偽りの潜在的な検証可能な言語手がかりの顕在化について検討する。人間の被験者と同じような真理検出性能を持つ検出器群(アルゴリズム)が存在することを示す。
論文参考訳（メタデータ） (2023-11-13T05:40:11Z)
Guiding Computational Stance Detection with Expanded Stance Triangle Framework [25.2980607215715]
スタンス検出は、テキストの著者が指定されたターゲットに対して有利か、反対か、中立かを決定する。本稿では,言語的観点からスタンス検出タスクを分解し,このタスクにおける重要な構成要素と推論経路について検討する。
論文参考訳（メタデータ） (2023-05-31T13:33:29Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Rethinking Offensive Text Detection as a Multi-Hop Reasoning Problem [15.476899850339395]
対話における暗黙的な攻撃的テキスト検出の課題について紹介する。我々は、このより広い種類の攻撃的発話を理解するためには、推論が不可欠であると主張する。このタスクの研究を支援するデータセットであるSLIGHTをリリースする。
論文参考訳（メタデータ） (2022-04-22T06:20:15Z)
Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文参考訳（メタデータ） (2022-03-26T10:17:03Z)
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning [113.25016899663191]
人間は、画像のリテラルの内容を超えるものについて、誘惑的に推論し仮説を立てる能力がある。本稿では,103K画像の注釈付きコーパスであるSherlockについて述べる。
論文参考訳（メタデータ） (2022-02-10T02:26:45Z)
Fact-driven Logical Reasoning for Machine Reading Comprehension [82.58857437343974]
私たちは、常識と一時的な知識のヒントの両方を階層的にカバーする動機があります。具体的には,文の背骨成分を抽出し,知識単位の一般的な定式化を提案する。次に、事実単位の上にスーパーグラフを構築し、文レベル(事実群間の関係)と実体レベルの相互作用の利点を享受する。
論文参考訳（メタデータ） (2021-05-21T13:11:13Z)
Generalized Zero-shot Intent Detection via Commonsense Knowledge [5.398580049917152]
学習データ不足の問題を克服するために,教師なしの方法でコモンセンス知識を活用する意図検出モデル RIDE を提案する。 RIDEは、発話と意図ラベルの間の深い意味的関係をキャプチャする、堅牢で一般化可能な関係メタ機能を計算する。広範に使用されている3つのインテント検出ベンチマークに関する広範囲な実験的分析により、関係メタ機能により、目に見えないインテントと見えないインテントの両方を検出する精度が著しく向上することが示された。
論文参考訳（メタデータ） (2021-02-04T23:36:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。