Fugu-MT 論文翻訳(概要): Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models?

論文の概要: Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models?

arxiv url: http://arxiv.org/abs/2407.12725v2
Date: Sat, 24 Aug 2024 14:44:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 22:47:47.390259
Title: Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models?
Title（参考訳）: サルカスム検出は大規模言語モデルにおけるステップバイステップ推論プロセスか?
Authors: Ben Yao, Yazhou Zhang, Qiuchi Li, Jing Qin,
Abstract要約: 4つのサブメソッドを含む新しいプロンプトフレームワーク(SarcasmCue)を導入する。シーケンシャルおよび非シーケンシャルなプロンプト法を考慮し、人間の皮肉を検出するために、大きな言語モデル(LLM)を用いる。我々のフレームワークは、4つのデータセットでF1スコアの4.2%、2.0%、29.7%、58.2%を継続的に最先端(ToT)にプッシュします。
参考スコア（独自算出の注目度）: 13.222198659253056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Elaborating a series of intermediate reasoning steps significantly improves the ability of large language models (LLMs) to solve complex problems, as such steps would evoke LLMs to think sequentially. However, human sarcasm understanding is often considered an intuitive and holistic cognitive process, in which various linguistic, contextual, and emotional cues are integrated to form a comprehensive understanding, in a way that does not necessarily follow a step-by-step fashion. To verify the validity of this argument, we introduce a new prompting framework (called SarcasmCue) containing four sub-methods, viz. chain of contradiction (CoC), graph of cues (GoC), bagging of cues (BoC) and tensor of cues (ToC), which elicits LLMs to detect human sarcasm by considering sequential and non-sequential prompting methods. Through a comprehensive empirical comparison on four benchmarks, we highlight three key findings: (1) CoC and GoC show superior performance with more advanced models like GPT-4 and Claude 3.5, with an improvement of 3.5%. (2) ToC significantly outperforms other methods when smaller LLMs are evaluated, boosting the F1 score by 29.7% over the best baseline. (3) Our proposed framework consistently pushes the state-of-the-art (i.e., ToT) by 4.2%, 2.0%, 29.7%, and 58.2% in F1 scores across four datasets. This demonstrates the effectiveness and stability of the proposed framework.
Abstract（参考訳）: 一連の中間推論ステップを共同作業することで、LLMを逐次的に考えさせるような複雑な問題を解くための大きな言語モデル(LLM)の能力が大幅に向上する。しかしながら、人間の皮肉理解は直感的で全体論的認知過程と見なされ、様々な言語的、文脈的、感情的な手がかりが統合され、必ずしもステップバイステップのやり方に従わないような包括的理解を形成する。本論の妥当性を検証するために,4つのサブメソッド,Viz. chain of contradiction (CoC), Graph of cues (GoC), bagging of cues (BoC), tensor of cues (ToC) を含む新たなプロンプトフレームワーク(SarcasmCue)を導入する。 1) CoC と GoC は GPT-4 や Claude 3.5 といったより高度なモデルで優れた性能を示し,3.5% の改善を実現した。 2)ToCはLLMが小さく評価された場合,F1スコアが最良基準値に対して29.7%向上するなど,他の手法よりも優れていた。 (3)提案したフレームワークは、4つのデータセットでF1スコアの4.2%、2.0%、29.7%、58.2%を継続的に最先端(ToT)にプッシュします。これは提案したフレームワークの有効性と安定性を示している。

関連論文リスト

Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
SKALD: Learning-Based Shot Assembly for Coherent Multi-Shot Video Creation [12.89690489768177]
候補画像からコヒーレントなビデオシーケンスを構成するマルチショットビデオアセンブリであるSKALDを提案する。我々は、複数のショットと学習クリップアセンブリスコアで導かれる効率的なビーム探索アルゴリズムを組み合わせるという指数関数的な複雑さに対処する。 VSPDと当社のキュレートしたMSV3Cデータセットの実験により、SKALDはIoUで最大48.6%の改善を実現し、最先端の手法よりも43%高速化された。
論文参考訳（メタデータ） (2025-03-11T03:25:44Z)
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-18T15:38:03Z)
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文参考訳（メタデータ） (2025-01-10T18:59:51Z)
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。 AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文参考訳（メタデータ） (2025-01-06T18:59:13Z)
SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding [19.412462224847086]
異なるプロンプト手法を用いて,広く使用されている6つのベンチマークデータセットの評価を行った。 GPT-4 は様々なプロンプト法で他の LLM よりも一貫して著しく優れている。ゼロショットIOプロンプト法は、ゼロショットIOと少数ショットCoTという2つの方法より優れている。
論文参考訳（メタデータ） (2024-08-21T03:59:51Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-06T01:13:53Z)
Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning [15.088675135566646]
自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
論文参考訳（メタデータ） (2024-01-19T04:03:59Z)
Quartet Logic: A Four-Step Reasoning (QLFR) framework for advancing Short Text Classification [5.561563686684933]
短いテキスト分類(STC)は、現代デジタルプラットフォームで広く普及している短いが実質的な内容の処理と理解に不可欠である。 LLM(Large Language Models)とCoT(Chain-of-Thought)の出現により、複雑な推論タスクのパフォーマンスが大幅に向上した。本稿では、Quartet Logic: A Four-Step Reasoning (QLFR)フレームワークについて紹介する。
論文参考訳（メタデータ） (2024-01-06T08:28:20Z)
L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文参考訳（メタデータ） (2023-11-11T06:59:50Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
Cumulative Reasoning (CR)は、大規模言語モデル(LLM)問題解決を強化する構造化フレームワークである。 CRはLLMを3つの異なる役割 - Proposer、Verifier(s)、Reporter - タスクを体系的に分解し、中間的推論ステップを生成し、検証し、ソリューションに構成する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)
Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文参考訳（メタデータ） (2023-01-31T03:04:26Z)
Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文参考訳（メタデータ） (2022-03-21T17:48:52Z)
FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.92513889132825]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文参考訳（メタデータ） (2021-09-27T00:57:30Z)
A Framework For Contrastive Self-Supervised Learning And Designing A New Approach [78.62764948912502]
コントラスト型自己教師学習(コントラスト型自己教師学習、Contrastive self-supervised learning、CSL)は、プレテキストタスクを解くことで有用な表現を学習する手法である。本稿では,CSLアプローチを5つの側面で特徴付ける概念的枠組みを提案する。
論文参考訳（メタデータ） (2020-08-31T21:11:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。