Fugu-MT 論文翻訳(概要): Mothman at SemEval-2024 Task 9: An Iterative System for Chain-of-Thought Prompt Optimization

論文の概要: Mothman at SemEval-2024 Task 9: An Iterative System for Chain-of-Thought Prompt Optimization

arxiv url: http://arxiv.org/abs/2405.02517v1
Date: Fri, 3 May 2024 23:04:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 19:40:24.010077
Title: Mothman at SemEval-2024 Task 9: An Iterative System for Chain-of-Thought Prompt Optimization
Title（参考訳）: SemEval-2024 Task 9: Chain-of-Thought Prompt Optimization の反復システム
Authors: Alvin Po-Chun Chen, Ray Groshan, Sean von Bayern,
Abstract要約: BrainTeaserは、横方向の思考に関するタスクテストを共有し、暗記を防ぐために敵のデータセットを使用している。そこで本研究では,人間による評価を用いてプロンプトを最適化する,反復的・連鎖的プロンプトエンジニアリングシステムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Extensive research exists on the performance of large language models on logic-based tasks, whereas relatively little has been done on their ability to generate creative solutions on lateral thinking tasks. The BrainTeaser shared task tests lateral thinking and uses adversarial datasets to prevent memorization, resulting in poor performance for out-of-the-box models. We propose a system for iterative, chain-of-thought prompt engineering which optimizes prompts using human evaluation. Using this shared task, we demonstrate our system's ability to significantly improve model performance by optimizing prompts and evaluate the input dataset.
Abstract（参考訳）: 論理に基づくタスクにおける大規模言語モデルの性能に関する広範な研究は存在するが、横方向の思考タスク上で創造的なソリューションを生成する能力についてはほとんど研究されていない。 BrainTeaserはタスクテストを横方向の思考で共有し、敵のデータセットを使用して記憶を防ぐ。本稿では,人間による評価を用いてプロンプトを最適化する,反復的・連鎖的プロンプトエンジニアリングシステムを提案する。この共有タスクを用いて,プロンプトを最適化し,入力データセットを評価することにより,モデル性能を大幅に向上するシステムの能力を実証する。

関連論文リスト

Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T21:14:04Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning [9.507070656654632]
大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。現在のトレーニングアプローチでは、標準的なクロスエントロピー損失と、広範なデータ、人間のフィードバック、あるいはパフォーマンス向上のためのアドホックメソッドを組み合わせる。本研究では,自然言語生成におけるセマンティックセグメンテーションの損失関数を用いた,汎用的で実用的でスケーラブルなソリューションの構築について検討する。
論文参考訳（メタデータ） (2024-09-20T16:46:17Z)
Deep Symbolic Optimization for Combinatorial Optimization: Accelerating Node Selection by Discovering Potential Heuristics [10.22111332588471]
本稿では,その利点を生かした,新しい記号的最適化学習フレームワークを提案する。 Dso4NSは高次元離散記号空間内の数学的表現の探索をガイドし、最高性能の数学的表現を解法に組み込む。実験では、Dso4NSが高品質な表現の学習に有効であることを示し、CPUマシンにおける既存のアプローチよりも優れていた。
論文参考訳（メタデータ） (2024-06-14T06:02:14Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文参考訳（メタデータ） (2022-03-29T19:03:10Z)
Building an Efficient and Effective Retrieval-based Dialogue System via Mutual Learning [27.04857039060308]
検索システムを構築するために,両世界の長所を組み合わせることを提案する。従来の機能ベースの事前検索モデルを置き換えるために、高速なバイエンコーダを使用します。我々は、相互学習を通じて、事前検索モデルと再評価モデルとを同時に訓練する。
論文参考訳（メタデータ） (2021-10-01T01:32:33Z)
Which Model to Transfer? Finding the Needle in the Growing Haystack [27.660318887140203]
我々は後悔というよく知られた概念を通じてこの問題の形式化を提供する。タスク非依存とタスク認識の両方の手法が,後悔を招きかねないことを示す。そこで我々は,既存の手法よりも優れた,シンプルで効率的なハイブリッド検索戦略を提案する。
論文参考訳（メタデータ） (2020-10-13T14:00:22Z)
Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文参考訳（メタデータ） (2020-10-10T14:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。