Fugu-MT 論文翻訳(概要): Revisiting Instruction Fine-tuned Model Evaluation to Guide Industrial Applications

論文の概要: Revisiting Instruction Fine-tuned Model Evaluation to Guide Industrial Applications

arxiv url: http://arxiv.org/abs/2310.14103v1
Date: Sat, 21 Oct 2023 20:04:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 01:52:55.322947
Title: Revisiting Instruction Fine-tuned Model Evaluation to Guide Industrial Applications
Title（参考訳）: 産業応用指導のための教師の微調整モデル評価の再検討
Authors: Manuel Faysse, Gautier Viaud, C\'eline Hudelot, Pierre Colombo
Abstract要約: インストラクションファインチューニング(IFT)は、大規模言語モデル(LLM)のゼロショット機能を強化する強力なパラダイムである。 LLMに基づくメトリクスをこれらの要件に適合させることを示し、それらを活用してタスク特殊化戦略の調査を行う。本研究は,実世界のIFTモデル展開の実践者に対して,実用的な洞察を与えるものである。
参考スコア（独自算出の注目度）: 11.035667183761207
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Instruction Fine-Tuning (IFT) is a powerful paradigm that strengthens the zero-shot capabilities of Large Language Models (LLMs), but in doing so induces new evaluation metric requirements. We show LLM-based metrics to be well adapted to these requirements, and leverage them to conduct an investigation of task-specialization strategies, quantifying the trade-offs that emerge in practical industrial settings. Our findings offer practitioners actionable insights for real-world IFT model deployment.
Abstract（参考訳）: Instruction Fine-Tuning (IFT) は、Large Language Models (LLMs) のゼロショット能力を強化する強力なパラダイムであるが、新しい評価基準を導き出す。 LLMをベースとしたメトリクスをこれらの要件に適合させることを示し、それらを活用してタスク特殊化戦略の調査を行い、実践的な産業環境で発生するトレードオフを定量化する。この結果から,実世界のIFTモデル展開に対する実践者の実用的な洞察が得られた。

関連論文リスト

Estimating the Effects of Sample Training Orders for Large Language Models without Retraining [49.59675538160363]
大規模言語モデル(LLM)において,サンプルの訓練順序が重要な役割を担っている従来の手法では、様々なサンプル順序でモデルを再訓練する必要がある。リトレーニングフリーのフレームワークを設計することで従来の手法を改善します。
論文参考訳（メタデータ） (2025-05-28T07:07:02Z)
A MIND for Reasoning: Meta-learning for In-context Deduction [3.4383794581359184]
In-context Deduction (MIND) のためのメタラーニングを提案する。以上の結果から,MINDは1.5Bから7Bまでの小さなLMの一般化を著しく改善することが示された。注目すべきは、このタスクにおいてMINDで微調整された小さなモデルは、GPT-4oやo3-miniのような最先端のLLMよりも優れていることである。
論文参考訳（メタデータ） (2025-05-20T13:00:48Z)
Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Beyond Next Word Prediction: Developing Comprehensive Evaluation Frameworks for measuring LLM performance on real world applications [3.686808512438363]
大規模言語モデル (LLM) には多くのユースケースがあり、すでにかなりの数の企業採用を獲得している。本稿では,従来のゲームおよびツールベースのアーキテクチャに基づく,より包括的な評価フレームワークの基礎を提供する。
論文参考訳（メタデータ） (2025-03-05T06:44:38Z)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
Can LLMs Predict Citation Intent? An Experimental Analysis of In-context Learning and Fine-tuning on Open LLMs [0.464982780843177]
本研究では,Large Language Models (LLMs) を用いて,文脈内学習と微調整による引用意図の予測を行う。ゼロ, 1, few, many-shot の 5 つのオープン LLM ファミリーにまたがる12 種類のモデル変動を評価し,シナリオ間の性能評価を行う。結果は、引用意図を認識する上でのLLMの強みと限界を強調し、モデル選択と迅速なエンジニアリングのための貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-02-20T13:45:42Z)
Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。 Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文参考訳（メタデータ） (2025-02-05T08:35:55Z)
Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-11-18T19:14:36Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
Towards Synthetic Trace Generation of Modeling Operations using In-Context Learning Approach [1.8874331450711404]
本稿では,イベントログのモデリング,インテリジェントなモデリングアシスタント,モデリング操作の生成を組み合わせた概念的フレームワークを提案する。特に、アーキテクチャは、設計者がシステムを指定するのを助け、その操作をグラフィカルなモデリング環境内で記録し、関連する操作を自動的に推奨する、モデリングコンポーネントから構成される。
論文参考訳（メタデータ） (2024-08-26T13:26:44Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。 FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。
論文参考訳（メタデータ） (2024-04-26T16:41:24Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。