論文の概要: Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.16635v1
- Date: Wed, 25 Sep 2024 05:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:23:25.886637
- Title: Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models
- Title(参考訳): 思考の判断:大言語モデルにおける二項論理推論の法廷
- Authors: Sungjune Park, Daeseon Choi,
- Abstract要約: 本稿では,二項論理推論タスクに特化して設計された,素早い工学手法について述べる。
この枠組みでは、裁判官、検察官、弁護士が、より信頼性が高く正確な推論を容易にするためにこの技術を利用する。
実験結果から,本手法は既存手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 7.535219325248997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel prompt engineering technique called Judgment of Thought (JoT) that is specifically tailored for binary logical reasoning tasks. JoT employs three roles$\unicode{x2014}$lawyer, prosecutor, and judge$\unicode{x2014}$to facilitate more reliable and accurate reasoning by the model. In this framework, the judge utilizes a high$\unicode{x2010}$level model, while the lawyer and prosecutor utilize low$\unicode{x2010}$level models. This structure helps the judge better understand the responses from both the lawyer and prosecutor, enabling a more accurate judgment. Experimental results on large language model (LLM) benchmark datasets, such as BigBenchHard and Winogrande, demonstrate that JoT outperforms existing methods, including Chain of Thought (CoT) and Self$\unicode{x2010}$Consistency (SC), in binary logical reasoning tasks. Additionally, in real$\unicode{x2010}$world tasks, such as Fake News Detection and SMS Spam Detection, JoT shows comparable or improved performance compared to existing techniques. JoT significantly enhances the accuracy and reliability of models in binary reasoning tasks and show potential for practical applicability across various domains. Future research should aim to further broaden the applicability of JoT and optimize its implementation for real$\unicode{x2010}$world problem$\unicode{x2010}$solving.
- Abstract(参考訳): 本稿では,二項論理推論タスクに特化して最適化されたJedgment of Thought(JoT)と呼ばれる新しいプロンプトエンジニアリング手法を提案する。
JoTには3つの役割がある:$\unicode{x2014}$lawyer、検察官、および審査員$\unicode{x2014}$Tは、モデルによるより信頼性と正確な推論を容易にする。
この枠組みでは、裁判官は高い$\unicode{x2010}$levelモデルを使用し、弁護士と検察官は低い$\unicode{x2010}$levelモデルを使用する。
この構造は、裁判官が弁護士と検察官の両方からの反応をよりよく理解し、より正確な判断を可能にする。
BigBenchHardやWinograndeといった大規模言語モデル(LLM)ベンチマークデータセットの実験結果は、JoTがバイナリ論理的推論タスクにおいてChain of Thought(CoT)やSelf$\unicode{x2010}$Consistency(SC)など、既存のメソッドよりも優れていることを示している。
さらに、Fake News DetectionやSMS Spam Detectionのような実際の$\unicode{x2010}$worldタスクでは、JoTは既存の技術と比べて同等または改善されたパフォーマンスを示している。
JoTは、バイナリ推論タスクにおけるモデルの精度と信頼性を大幅に向上させ、様々な領域にわたる実用的な適用可能性を示す。
将来の研究は、JoTの適用性をさらに拡大し、その実装を Real$\unicode{x2010}$world problem$\unicode{x2010}$solving に最適化することを目的としている。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Toward Adversarial Training on Contextualized Language Representation [78.39805974043321]
本稿では, PLMエンコーダが出力する文脈化言語表現の観点から, 対人訓練(AT)について検討する。
そこで我々は, テキストコンテキスト適応型表現-逆訓練(CreAT)を提案し, 攻撃を明示的に最適化し, エンコーダの文脈化表現を逸脱させる。
CreATは幅広いタスクで一貫したパフォーマンス向上を実現しており、エンコーダ部分のみを下流タスクに保持する言語事前トレーニングに有効であることが証明されている。
論文 参考訳(メタデータ) (2023-05-08T08:56:51Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Inconsistent Few-Shot Relation Classification via Cross-Attentional
Prototype Networks with Contrastive Learning [16.128652726698522]
本稿では,Prototype Network-based Cross-attention contrastive Learning (ProtoCACL)を提案する。
実験結果から,我々のProtoCACLは,非一貫性な$K$と非一貫性な$N$設定の両方で,最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T07:47:13Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。