論文の概要: Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations
- arxiv url: http://arxiv.org/abs/2604.18724v2
- Date: Wed, 22 Apr 2026 18:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.023749
- Title: Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations
- Title(参考訳): 1つのアウトプットを超えて: 言語モデル生成の分布を可視化し比較する
- Authors: Emily Reif, Claire Yang, Jared Hwang, Deniz Nazar, Noah A. Smith, Jeff Heer,
- Abstract要約: GROVEはインタラクティブな視覚化であり、複数の世代をテキストグラフを通じて重複するパスとして表現する。
相補的な分散タスクを対象とするクラウドソーシング型ユーザスタディを3つ評価する。
- 参考スコア(独自算出の注目度): 41.44731948887627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users typically interact with and evaluate language models via single outputs, but each output is just one sample from a broad distribution of possible completions. This interaction hides distributional structure such as modes, uncommon edge cases, and sensitivity to small prompt changes, leading users to over-generalize from anecdotes when iterating on prompts for open-ended tasks. Informed by a formative study with researchers who use LMs (n=13) examining when stochasticity matters in practice, how they reason about distributions over language, and where current workflows break down, we introduce GROVE. GROVE is an interactive visualization that represents multiple LM generations as overlapping paths through a text graph, revealing shared structure, branching points, and clusters while preserving access to raw outputs. We evaluate across three crowdsourced user studies (N=47, 44, and 40 participants) targeting complementary distributional tasks. Our results support a hybrid workflow: graph summaries improve structural judgments such as assessing diversity, while direct output inspection remains stronger for detail-oriented questions.
- Abstract(参考訳): 通常、ユーザーは単一の出力で言語モデルと対話し、評価するが、それぞれの出力は可能な完了の広い分布からの1つのサンプルである。
この相互作用は、モード、異常なエッジケース、小さなプロンプト変更に対する感度などの分布構造を隠蔽し、ユーザーがオープンエンドタスクのプロンプトを繰り返すと、逸話から過度に一般化する。
LMs (n=13) を用いたフォーマティブな研究により、確率性が実際にいつ重要か、どのように言語上の分布を判断するか、そして現在のワークフローがどこで壊れているのかを検証し、GROVEを紹介した。
GROVEはインタラクティブな可視化であり、複数のLM世代をテキストグラフを通じて重なり合うパスとして表現し、生出力へのアクセスを維持しながら共有構造、分岐点、クラスタを明らかにする。
本研究は,3つのクラウドソース型ユーザスタディ (N=47, 44, 40) において, 相補的分散タスクを対象として評価を行った。
グラフ要約は多様性の評価などの構造的判断を改善する一方、直接出力検査は詳細志向の質問に対して強くなる。
関連論文リスト
- On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [51.74607395697567]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。
我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。
このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文 参考訳(メタデータ) (2025-03-31T18:33:55Z) - generAItor: Tree-in-the-Loop Text Generation for Language Model
Explainability and Adaptation [28.715001906405362]
大規模言語モデル(LLM)は、自動補完、補助的な書き込み、チャットベースのテキスト生成など、様々な下流タスクに広くデプロイされている。
本稿では,ビーム探索ツリーの視覚的表現を解析,説明,適応する中心的な要素とする,ループ内ツリーのアプローチを提案することで,この欠点に対処する。
視覚解析技術であるGenerAItorを,タスク固有のウィジェットで中央ビーム探索木を拡大し,ターゲットとした可視化とインタラクションの可能性を提供する。
論文 参考訳(メタデータ) (2024-03-12T13:09:15Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Visual Auditor: Interactive Visualization for Detection and
Summarization of Model Biases [18.434430375939755]
機械学習(ML)システムがますます普及するにつれて、これらのシステムをデプロイ前にバイアスとして監査する必要がある。
近年の研究では、データのサブセット(またはスライス)を解釈可能で過小評価する形で、交差点バイアスを効果的に識別するアルゴリズムが開発されている。
モデルバイアスを監査・要約するための対話型可視化ツールであるVisual Auditorを提案する。
論文 参考訳(メタデータ) (2022-06-25T02:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。