Fugu-MT 論文翻訳(概要): Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning

論文の概要: Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning

arxiv url: http://arxiv.org/abs/2409.13641v1
Date: Fri, 20 Sep 2024 16:46:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 06:08:43.912019
Title: Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning
Title（参考訳）: 精度最適化を超えて:大規模言語モデルファインチューニングのためのコンピュータビジョンの損失
Authors: Daniele Rege Cambrin, Giuseppe Gallipoli, Irene Benedetto, Luca Cagliero, Paolo Garza,
Abstract要約: 大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。現在のトレーニングアプローチでは、標準的なクロスエントロピー損失と、広範なデータ、人間のフィードバック、あるいはパフォーマンス向上のためのアドホックメソッドを組み合わせる。本研究では,自然言語生成におけるセマンティックセグメンテーションの損失関数を用いた,汎用的で実用的でスケーラブルなソリューションの構築について検討する。
参考スコア（独自算出の注目度）: 9.507070656654632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated impressive performance across various tasks. However, current training approaches combine standard cross-entropy loss with extensive data, human feedback, or ad hoc methods to enhance performance. These solutions are often not scalable or feasible due to their associated costs, complexity, or resource requirements. This study investigates the use of established semantic segmentation loss functions in natural language generation to create a versatile, practical, and scalable solution for fine-tuning different architectures. We evaluate their effectiveness in solving Math Word Problems and question answering across different models of varying sizes. For the analyzed tasks, we found that the traditional Cross-Entropy loss represents a sub-optimal choice, while models trained to minimize alternative (task-dependent) losses, such as Focal or Lov\'asz, achieve a mean improvement of +42% on exact match without requiring additional data or human feedback. These findings suggest a promising pathway for more efficient and accessible training processes.
Abstract（参考訳）: 大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。しかしながら、現在のトレーニングアプローチでは、標準的なクロスエントロピー損失と、広範なデータ、人間のフィードバック、あるいはパフォーマンスを高めるためのアドホックメソッドを組み合わせる。これらのソリューションは、コスト、複雑さ、あるいはリソース要件のために、スケーラビリティや実現不可能な場合が多い。本研究では,自然言語生成におけるセマンティックセグメンテーションの損失関数の利用について検討した。本研究は,様々な大きさのモデルにまたがって,数学的単語問題と質問応答の解法の有効性を評価する。分析結果から,従来のクロスエントロピー損失は準最適選択であり,FocalやLov\'aszなどの代替(タスク依存)損失を最小限に抑えるために訓練されたモデルでは,追加データや人的フィードバックを必要とせず,正確な一致で+42%向上することがわかった。これらの結果は、より効率的でアクセスしやすいトレーニングプロセスのための、有望な経路であることを示唆している。

関連論文リスト

Offline Learning and Forgetting for Reasoning with Large Language Models [23.384882158333156]
本稿では,未完成かつ失敗に終わった推論経路を微調整することで,検索機能をモデルに直接統合する効果的な手法を提案する。挑戦的なGame-of-24とCountdown推論ベンチマークの実験では、CoT生成データをオフラインの微調整のために検索生成データに置き換えることで、推論時検索ベースラインよりも約23%成功率を向上させることが示されている。私たちの学習と忘れは、教師付き微調整と嗜好に基づく方法の両方で一貫して優れています。
論文参考訳（メタデータ） (2025-04-15T16:30:02Z)
Loss Functions in Deep Learning: A Comprehensive Review [3.8001666556614446]
損失関数はディープラーニングの中心であり、モデルがどのように学習し、さまざまなタスクで実行するかを形作る。本稿では, 損失関数の包括的レビューを行い, 平均二乗誤差やクロスエントロピーといった基本的な指標を, 逆数や拡散損失などの高度な関数に適用する。
論文参考訳（メタデータ） (2025-04-05T18:07:20Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文参考訳（メタデータ） (2024-10-25T20:50:32Z)
Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Self-Supervised Learning with Lie Symmetries for Partial Differential Equations [25.584036829191902]
我々は、自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、PDEの汎用表現を学習する。我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、また、ニューラルソルバのタイムステッピング性能も向上している。提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。
論文参考訳（メタデータ） (2023-07-11T16:52:22Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Analyzing the Performance of Deep Encoder-Decoder Networks as Surrogates for a Diffusion Equation [0.0]
本研究では,エンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)を定常拡散解法の代用として利用することを検討した。その結果,トレーニングセットのサイズが大きくなると,性能変動や全体的な誤差の低減に大きく影響することが示唆された。
論文参考訳（メタデータ） (2023-02-07T22:53:19Z)
Matching DNN Compression and Cooperative Training with Resources and Data Availability [20.329698347331075]
MLモデルをどの程度、いつ圧縮し、どこでトレーニングを実行するべきかをエミュレートするかは、難しい決定です。我々はDNNの訓練に焦点をあてたネットワークシステムをモデル化し、多次元問題を定式化し、近似動的プログラミング問題を定式化する。我々は、PACTの解が所望の最適値に近づくことができることを証明し、時間的複雑さの増大を犠牲にして証明する。
論文参考訳（メタデータ） (2022-12-02T09:52:18Z)
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文参考訳（メタデータ） (2022-03-29T19:03:10Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。