論文の概要: Large Language Model Sourcing: A Survey
- arxiv url: http://arxiv.org/abs/2510.10161v1
- Date: Sat, 11 Oct 2025 10:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.818588
- Title: Large Language Model Sourcing: A Survey
- Title(参考訳): 大規模言語モデルソーシング: サーベイ
- Authors: Liang Pang, Kangxi Wu, Sunhao Dai, Zihao Wei, Zenghao Duan, Jia Gu, Xiang Li, Zhiyi Yin, Jun Xu, Huawei Shen, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLM)は人工知能に革命をもたらし、目的的タスクのサポートから主観的な意思決定の強化へと移行した。
LLMのブラックボックスの性質と生成したコンテンツの人間的品質のため、幻覚、偏見、不公平さ、著作権侵害などの問題が重要になる。
本研究は,4つの相互関連次元を中心に整理されたLCMによるコンテンツの出所追跡について,系統的研究を行った。
- 参考スコア(独自算出の注目度): 84.63438376832471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has revolutionized artificial intelligence, shifting from supporting objective tasks (e.g., recognition) to empowering subjective decision-making (e.g., planning, decision). This marks the dawn of general and powerful AI, with applications spanning a wide range of fields, including programming, education, healthcare, finance, and law. However, their deployment introduces multifaceted risks. Due to the black-box nature of LLMs and the human-like quality of their generated content, issues such as hallucinations, bias, unfairness, and copyright infringement become particularly significant. In this context, sourcing information from multiple perspectives is essential. This survey presents a systematic investigation into provenance tracking for content generated by LLMs, organized around four interrelated dimensions that together capture both model- and data-centric perspectives. From the model perspective, Model Sourcing treats the model as a whole, aiming to distinguish content generated by specific LLMs from content authored by humans. Model Structure Sourcing delves into the internal generative mechanisms, analyzing architectural components that shape the outputs of model. From the data perspective, Training Data Sourcing focuses on internal attribution, tracing the origins of generated content back to the training data of model. In contrast, External Data Sourcing emphasizes external validation, identifying external information used to support or influence the responses of model. Moreover, we also propose a dual-paradigm taxonomy that classifies existing sourcing methods into prior-based (proactive traceability embedding) and posterior-based (retrospective inference) approaches. Traceability across these dimensions enhances the transparency, accountability, and trustworthiness of LLMs deployment in real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は人工知能に革命をもたらし、目的的タスク(例えば認識)のサポートから主観的な意思決定(例えば計画、決定)の強化へと移行した。
プログラミング、教育、ヘルスケア、ファイナンス、法律など、幅広い分野にまたがるアプリケーションだ。
しかし、そのデプロイメントには多面的なリスクが伴う。
LLMのブラックボックスの性質と生成したコンテンツの人間的品質のため、幻覚、偏見、不公平さ、著作権侵害などの問題が特に重要となる。
この文脈では、複数の視点から情報を引き出すことが不可欠である。
本調査では,LLMが生成するコンテンツについて,モデル視点とデータ中心視点の両面を総合的に捉えた4つの相互関連次元を包括的に調査する。
モデルの観点からは、モデルソーシングはモデル全体を扱い、特定のLCMによって生成されたコンテンツと人間が作成したコンテンツとを区別することを目的としている。
モデル構造 モデルのアウトプットを形成するアーキテクチャコンポーネントを分析する。
データの観点からは、トレーニングデータソーシングは内部属性に焦点を当て、生成されたコンテンツの起源をモデルのトレーニングデータに遡る。
対照的に、外部データソーシングは外部検証を強調し、モデルの応答をサポートしたり影響したりするのに使われる外部情報を識別する。
さらに,既存のソーシング手法を,事前のトレーサビリティ埋め込み(proactive traceability embedded)と後方の(retrospective inference)アプローチに分類する二パラダイム分類法を提案する。
これらの領域にわたるトレーサビリティは、現実のアプリケーションにおけるLLMの透明性、説明責任、信頼性を高める。
関連論文リスト
- Knowledge-Driven Hallucination in Large Language Models: An Empirical Study on Process Modeling [46.05103857535919]
解析的タスクにおける大規模言語モデルの実用性は、その膨大な事前訓練された知識に根ざしている。
この能力は、私たちが知識駆動幻覚と呼ぶものに対して、重大なリスクをもたらします。
本稿では,自動プロセスモデリングのタスクにおけるLCMの評価により,この現象を考察する。
論文 参考訳(メタデータ) (2025-09-18T18:27:30Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - HuggingGraph: Understanding the Supply Chain of LLM Ecosystem [6.131279654327215]
大規模言語モデル(LLM)は、単語のシーケンスを処理および予測するためにディープラーニングアーキテクチャを活用する。
LLMは、以前のモデルやデータセットに存在する脆弱性やバイアス、悪意のあるコンポーネントを継承することができる。
このプロジェクトの目的は、モデルとデータセットの関係を研究することである。
論文 参考訳(メタデータ) (2025-07-17T17:34:13Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。