論文の概要: A gentle push funziona benissimo: making instructed models in Italian via contrastive activation steering
- arxiv url: http://arxiv.org/abs/2411.18247v1
- Date: Wed, 27 Nov 2024 11:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:21.574299
- Title: A gentle push funziona benissimo: making instructed models in Italian via contrastive activation steering
- Title(参考訳): 緩やかなプッシュ・ファンジオナ・ベニシモ : 対照的なアクティベーション・ステアリングを通してイタリア語で指示されたモデルを作る
- Authors: Daniel Scalena, Elisabetta Fersini, Malvina Nissim,
- Abstract要約: イタリアのステアリングが様々なモデルに適用可能であることを示す。
イタリアのステアリングは、イタリアの微調整モデルに匹敵する、あるいはそれ以上に優れたパフォーマンスを達成していることを示す。
- 参考スコア(独自算出の注目度): 12.758739787930507
- License:
- Abstract: Adapting models to a language that was only partially present in the pre-training data requires fine-tuning, which is expensive in terms of both data and computational resources. As an alternative to fine-tuning, we explore the potential of activation steering-based techniques to enhance model performance on Italian tasks. Through our experiments we show that Italian steering (i) can be successfully applied to different models, (ii) achieves performances comparable to, or even better than, fine-tuned models for Italian, and (iii) yields higher quality and consistency in Italian generations. We also discuss the utility of steering and fine-tuning in the contemporary LLM landscape where models are anyway getting high Italian performances even if not explicitly trained in this language.
- Abstract(参考訳): 事前学習データに部分的にしか存在しない言語にモデルを適応させるには、微調整が必要である。
ファインチューニングの代替として,イタリアタスクにおけるモデル性能を向上させるために,アクティベーションステアリングに基づく技術の可能性を検討する。
私たちの実験を通して、イタリアのステアリングは
(i)は、異なるモデルにうまく適用できる。
(ii)イタリア語の細調整モデルに匹敵する、あるいはそれ以上の性能を達成する
(三)イタリア世代において高品質で整合性が高い。
また,現代LLMランドスケープにおけるステアリングと微調整の有用性についても論じる。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Advanced Natural-based interaction for the ITAlian language: LLaMAntino-3-ANITA [3.195234044113248]
本稿では,新しいメタLLaMA-3モデル,LLaMAntino-3-ANITA-8B-Inst-DPO-ITAに基づくLarge Language Model(LLM)を紹介する。
英語とイタリア語のデータセットにスーパーバイザード・ファイン・チューニング(SFT)技術を用いて,元の8Bパラメータのチューニングモデルを微調整した。
動的選好最適化(DPO)プロセスは、選好の調整、危険で不適切な回答の回避、バイアスと偏見の制限に使用されている。
論文 参考訳(メタデータ) (2024-05-11T22:02:55Z) - Nyonic Technical Report [20.826424998392696]
Wonton 7Bモデルは、多言語および英語のベンチマークで競合性能を示した。
モデルのアーキテクチャは、ロータリー位置埋め込み(Rotary Positional Embeddings)、QK-LayerNorm(QK-LayerNorm)、特別に製作された多言語トークンーザ(multilingual tokenizer)などの最先端技術で強化されている。
論文 参考訳(メタデータ) (2024-04-24T07:38:44Z) - Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent [10.998608318944985]
マルチモーダルAIエージェントは、さまざまなタイプのデータから処理および学習する能力によって特徴付けられる。
本稿では,AIエージェントアプリケーション用に設計された関数トークンの概念を取り入れたマルチモーダルモデルを提案する。
我々はこのモデルがRaspberry Piのように制約のある幅広いエッジデバイス上で効率的に動作可能であることを実証した。
論文 参考訳(メタデータ) (2024-04-17T15:07:06Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Continual Knowledge Distillation for Neural Machine Translation [74.03622486218597]
並列コーパスは、データ著作権、データプライバシ、競争上の差別化の理由から、一般にはアクセスできない。
本稿では,既存の翻訳モデルを利用して,関心の1つのモデルを改善するための連続的知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-12-18T14:41:13Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。