Fugu-MT 論文翻訳(概要): An automatically discovered chain-of-thought prompt generalizes to novel models and datasets

論文の概要: An automatically discovered chain-of-thought prompt generalizes to novel models and datasets

arxiv url: http://arxiv.org/abs/2305.02897v1
Date: Thu, 4 May 2023 15:07:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 15:04:31.050410
Title: An automatically discovered chain-of-thought prompt generalizes to novel models and datasets
Title（参考訳）: 自動的に発見された連鎖的思考プロンプトは、新しいモデルとデータセットに一般化する
Authors: Konstantin Hebenstreit, Robert Praas, Louis P Kiesewetter, Matthias Samwald
Abstract要約: Chain-of-Thought(CoT)機能は、大規模言語モデルのパフォーマンスと説明可能性を向上させることを約束する。我々は,最近リリースされた6つのLLMに対して,CoT推論を誘導する一連のゼロショットプロンプトの性能を比較した。自動的なプロンプト発見によって以前に発見されたCoTプロンプトは,実験条件間で堅牢な性能を示すことがわかった。
参考スコア（独自算出の注目度）: 4.693905948827508
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emergent chain-of-thought (CoT) reasoning capabilities promise to improve performance and explainability of large language models (LLMs). However, uncertainties remain about how prompting strategies formulated for previous model generations generalize to new model generations and different datasets. In this small-scale study we compare the performance of a range of zero-shot prompts for inducing CoT reasoning across six recently released LLMs (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a mixture of six question-answering datasets, including datasets from scientific and medical domains. We find that a CoT prompt that was previously discovered through automated prompt discovery shows robust performance across experimental conditions and produces best results when applied to the state-of-the-art model GPT-4.
Abstract（参考訳）: emergent chain-of-thought (cot) 推論能力は、大規模言語モデル(llm)のパフォーマンスと説明可能性を改善することを約束する。しかし、以前のモデル世代で定式化された戦略がどのように新しいモデル世代と異なるデータセットに一般化するかについては不確実性が残っている。本研究では,最近リリースされた6つのLCM(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl, Cohere command-xlarge)を,科学的領域と医学領域のデータセットを含む6つの問合せデータセットで比較した。また, 自動急速検出により検出されたCoTプロンプトは, 実験条件間で頑健な性能を示し, 最先端モデル GPT-4 に適用した場合の最良の結果が得られた。

関連論文リスト

ERNIE 5.0 Technical Report [244.36480708815316]
ERNIE 5.0は、テキスト、画像、ビデオ、オーディオをまたいだ統合されたマルチモーダル理解と生成のための統合された自己回帰基盤モデルである。 ERNIE 5.0は、多様なリソース制約下での大規模デプロイメントの実践的な課題に対処するため、新しい弾力性トレーニングパラダイムを採用している。 ERNIE 5.0は、複数のモードで強い、バランスの取れた性能を実現する。
論文参考訳（メタデータ） (2026-02-04T16:18:15Z)
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文参考訳（メタデータ） (2025-10-05T13:38:31Z)
NanoFlux: Adversarial Dual-LLM Evaluation and Distillation For Multi-Domain Reasoning [5.461464418720756]
NanoFluxは、LLM推論を改善するために、ターゲットとするトレーニングデータを生成するための、新しい逆のフレームワークである。このフレームワークは、ツール強化された審査員が監督する、アタッカーとデフェンダーとを交互に使用するモデル間の競合ダイナミクスを採用している。 NanoFluxの生成したデータに対する4B-パラメータの微調整は、フルベンチマークの微調整と比較して、様々な領域におけるパフォーマンス向上をもたらす。
論文参考訳（メタデータ） (2025-09-27T11:05:46Z)
Evaluating Retrieval-Augmented Generation Strategies for Large Language Models in Travel Mode Choice Prediction [5.638676750474513]
本研究では,旅行モード選択予測に対する,より柔軟でコンテキスト対応なアプローチとして,LLM(Large Language Models)の可能性を検討する。我々は,LLMに基づく旅行モード選択予測にRAG(Retrieval-Augmented Generation)を統合するモジュールフレームワークを開発した。 2023年ピュージェット・サウンド地域旅行調査データを用いて,モデル性能を評価するための一連の実験を行った。
論文参考訳（メタデータ） (2025-08-24T21:20:55Z)
EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。 EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文参考訳（メタデータ） (2025-06-04T02:11:54Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models [17.673293240849787]
我々は、小言語モデル(SLM)における推論を強化する自己進化型データ生成パイプラインSPHEREを紹介する。 SPHEREは、 (i) 自己生成(Self-Generation)、 (ii) 自己補正(Self-Correction)、 (iii) 多様性誘導(diversity induction)、そして、複数の有効な推論軌道を通じて堅牢性を改善する。本研究では,SPHERE学習モデルがベースバージョンよりも大幅に向上し,特定のベンチマークでGPT-4oにマッチすることを示す。
論文参考訳（メタデータ） (2025-03-04T14:43:25Z)
Evaluating the Effectiveness of XAI Techniques for Encoder-Based Language Models [6.349503549199403]
本研究は,人間関係協定(HA),ロバスト性,一貫性,コントラスト性という,4つの主要な指標を用いた一般的な評価枠組みを提案する。 5種類のXAIカテゴリから6つの説明可能性手法の有効性を評価した。その結果,モデルの単純化に基づくXAI法(LIME)は,複数の指標やモデルに対して一貫して優れていた。
論文参考訳（メタデータ） (2025-01-26T03:08:34Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文参考訳（メタデータ） (2024-12-12T16:04:31Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models [14.023953508288628]
検索拡張生成(RAG)パイプラインは、質問応答(QA)などのタスクで一般的に使用される。本稿では,利用可能な文書から合成データを生成する新しい手法であるREFINEを提案する。
論文参考訳（メタデータ） (2024-10-16T08:43:39Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-26T13:55:21Z)
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs [38.127313175508746]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。 7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。 MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文参考訳（メタデータ） (2024-02-26T07:17:25Z)
Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection [10.301985230669684]
本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。
論文参考訳（メタデータ） (2024-02-18T15:27:48Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models [7.428199805959228]
DINO V2は、様々なデータセットや適応手法において、他のモデルよりも大きなマージンで優れていることを示す。一方、適応法は得られた結果にほとんど相違がなく、単純な線形プローブはより高度でより計算集約的な代替手段と競合する可能性があることを示唆している。
論文参考訳（メタデータ） (2024-01-20T19:50:51Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文参考訳（メタデータ） (2023-03-18T14:02:04Z)
S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。 6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文参考訳（メタデータ） (2020-08-18T11:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。