論文の概要: The PLLuM Instruction Corpus
- arxiv url: http://arxiv.org/abs/2511.17161v1
- Date: Fri, 21 Nov 2025 11:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.990744
- Title: The PLLuM Instruction Corpus
- Title(参考訳): PLLuMインストラクションコーパス
- Authors: Piotr Pęzik, Filip Żarnecki, Konrad Kaczyński, Anna Cichosz, Zuzanna Deckert, Monika Garnys, Izabela Grabarczyk, Wojciech Janowski, Sylwia Karasińska, Aleksandra Kujawiak, Piotr Misztela, Maria Szymańska, Karolina Walkusz, Igor Siek, Maciej Chrabąszcz, Anna Kołos, Agnieszka Karlińska, Karolina Seweryn, Aleksandra Krasnodębska, Paula Betscher, Zofia Cieślińska, Katarzyna Kowol, Artur Wilczek, Maciej Trzciński, Katarzyna Dziewulska, Roman Roszko, Tomasz Bernaś, Jurgita Vaičenonienė, Danuta Roszko, Paweł Levchuk, Paweł Kowalski, Irena Prawdzic-Jankowska, Marek Kozłowski, Sławomir Dadas, Rafał Poświata, Alina Wróblewska, Katarzyna Krasnowska-Kieraś, Maciej Ogrodniczuk, Michał Rudolf, Piotr Rybak, Karolina Saputa, Joanna Wołoszyn, Marcin Oleksy, Bartłomiej Koptyra, Teddy Ferdinan, Stanisław Woźniak, Maciej Piasecki, Paweł Walkowiak, Konrad Wojtasik, Arkadiusz Janz, Przemysław Kazienko, Julia Moska, Jan Kocoń,
- Abstract要約: 本稿では,euMプロジェクトで開発された変圧器を用いた大規模言語モデル(LLM)の集合を微調整するために使用する命令データセットについて述べる。
- 参考スコア(独自算出の注目度): 44.36837444957078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the instruction dataset used to fine-tune a set of transformer-based large language models (LLMs) developed in the PLLuM (Polish Large Language Model) project. We present a functional typology of the organic, converted, and synthetic instructions used in PLLuM and share some observations about the implications of using human-authored versus synthetic instruction datasets in the linguistic adaptation of base LLMs. Additionally, we release the first representative subset of the PLLuM instruction corpus (PLLuMIC), which we believe to be useful in guiding and planning the development of similar datasets for other LLMs.
- Abstract(参考訳): 本稿では,PLLuM(Polish Large Language Model)プロジェクトで開発された変圧器を用いた大規模言語モデル(LLM)の集合を微調整するために使用する命令データセットについて述べる。
本稿では, PLLuMで使用される有機的, 変換的, 合成的命令の関数型化について述べる。
さらに,PLLuM命令コーパス(PLLuMIC)の最初の代表的サブセットもリリースした。
関連論文リスト
- Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models [22.16558378953053]
我々は、人間による命令から得られた最先端の命令チューニングデータセットを構築した。
LLMは私たちのデータセットで微調整され、既存のデータセットで微調整されています。
分析によれば、新しい言語での命令チューニングにより、LLMは命令に従うことができるが、チューニングされたモデルは、その言語における文化固有の知識の欠如を顕著に示している。
論文 参考訳(メタデータ) (2025-03-31T04:28:38Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。