論文の概要: Automatic Model Selection with Large Language Models for Reasoning
- arxiv url: http://arxiv.org/abs/2305.14333v2
- Date: Mon, 23 Oct 2023 14:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:55:06.024746
- Title: Automatic Model Selection with Large Language Models for Reasoning
- Title(参考訳): 推論のための大規模言語モデルを用いたモデル自動選択
- Authors: James Xu Zhao, Yuxi Xie, Kenji Kawaguchi, Junxian He, Michael Qizhe
Xie
- Abstract要約: Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
- 参考スコア(独自算出の注目度): 33.93807127935167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) and Program-Aided Language Models (PAL) represent two
distinct reasoning methods, each with its own strengths. CoT employs natural
language, offering flexibility and interpretability, while PAL utilizes
programming language, yielding more structured and rigorous logic. We introduce
a model selection method to combine the best of both worlds by employing a
large language model (LLM) to dynamically select between them. Our theoretical
analysis underscores the feasibility of this method, which is further
corroborated by empirical results. Our proposed method demonstrates significant
performance improvements across eight reasoning datasets with Codex, ChatGPT,
and GPT-4. Additionally, our method is complementary to self-consistency; when
integrated, it can further enhance performance while significantly reducing
computation costs. Moreover, we achieve new state-of-the-art results on GSM8K
and SVAMP, with respective accuracies of 96.8% and 93.7%. Our code, data and
prompts are available at https://github.com/XuZhao0/Model-Selection-Reasoning
- Abstract(参考訳): chain-of-thought (cot) と program-aided language model (pal) は、2つの異なる推論方法を示している。
CoTは自然言語を使用し、柔軟性と解釈性を提供し、PALはプログラミング言語を使用し、より構造化され厳密な論理を生成する。
本稿では,大言語モデル(LLM)を用いて両世界の長所を動的に選択するモデル選択手法を提案する。
我々の理論解析は, 実験結果によってさらに裏付けられるこの手法の実現可能性を強調している。
提案手法は,Codex, ChatGPT, GPT-4を用いた8つの推論データセットにおいて,大幅な性能向上を示す。
さらに,本手法は自己整合性に相補的であり,統合されると,計算コストを大幅に削減し,性能をさらに向上させることができる。
さらに, GSM8KとSVAMPのそれぞれ96.8%と93.7%の精度で, 新たな最先端結果が得られる。
私たちのコード、データ、プロンプトはhttps://github.com/XuZhao0/Model-Selection-Reasoningで利用可能です。
関連論文リスト
- Revisiting Demonstration Selection Strategies in In-Context Learning [69.43198898396211]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Reranking Machine Translation Hypotheses with Structured and Web-based
Language Models [11.363601836199331]
N-best Rescoringには2つの構造化言語モデルが適用される。
これらの言語モデルの組み合わせにより、BLEUのスコアはブラインドテストセットで完全に1.6%まで上昇する。
論文 参考訳(メタデータ) (2021-04-25T22:09:03Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。