論文の概要: Towards Observation Lakehouses: Living, Interactive Archives of Software Behavior
- arxiv url: http://arxiv.org/abs/2512.02795v1
- Date: Tue, 02 Dec 2025 14:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.913383
- Title: Towards Observation Lakehouses: Living, Interactive Archives of Software Behavior
- Title(参考訳): レイクハウスの観察に向けて - ソフトウェア行動のインタラクティブなアーカイブ
- Authors: Marcus Kessel,
- Abstract要約: 先行研究では,Sequence Sheets,StimulusResponse Matrices,StimulusResponse Cubesを用いて表現を行った。
本稿では,連続SRCを運用する観測用レイクハウスについて紹介する。
制御パイプライン(SOLAS)とCILASからデータを取り込み、n-versionアセスメント、行動クラスタリング、コンセンサスオラクルを可能にします。
- 参考スコア(独自算出の注目度): 2.6397379133308214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-generating LLMs are trained largely on static artifacts (source, comments, specifications) and rarely on materializations of run-time behavior. As a result, they readily internalize buggy or mislabeled code. Since non-trivial semantic properties are undecidable in general, the only practical way to obtain ground-truth functionality is by dynamic observation of executions. In prior work, we addressed representation with Sequence Sheets, Stimulus-Response Matrices (SRMs), and Stimulus-Response Cubes (SRCs) to capture and compare behavior across tests, implementations, and contexts. These structures make observation data analyzable offline and reusable, but they do not by themselves provide persistence, evolution, or interactive analytics at scale. In this paper, therefore, we introduce observation lakehouses that operationalize continual SRCs: a tall, append-only observations table storing every actuation (stimulus, response, context) and SQL queries that materialize SRC slices on demand. Built on Apache Parquet + Iceberg + DuckDB, the lakehouse ingests data from controlled pipelines (LASSO) and CI pipelines (e.g., unit test executions), enabling n-version assessment, behavioral clustering, and consensus oracles without re-execution. On a 509-problem benchmark, we ingest $\approx$8.6M observation rows ($<$51MiB) and reconstruct SRM/SRC views and clusters in $<$100ms on a laptop, demonstrating that continual behavior mining is practical without a distributed cluster of machines. This makes behavioral ground truth first-class alongside other run-time data and provides an infrastructure path toward behavior-aware evaluation and training. The Observation Lakehouse, together with the accompanying dataset, is publicly available as an open-source project on GitHub: https://github.com/SoftwareObservatorium/observation-lakehouse
- Abstract(参考訳): コード生成 LLM は主に静的アーティファクト(ソース、コメント、仕様)に基づいて訓練され、実行時の振る舞いの実体化はめったにない。
結果として、バグだらけのコードやラベルが間違えたコードを簡単に内部化できる。
非自明なセマンティックな性質は一般に決定不可能であるため、基底真実性を得るための唯一の実践方法は実行の動的観察である。
先行研究では、SRM(Stimulus-Response Matrices)、SRM(Stimulus-Response Cubes)を用いて、テスト、実装、コンテキスト間の振る舞いをキャプチャし比較した。
これらの構造は、観測データをオフラインで、再利用可能なものにしますが、それ自体は、持続性、進化性、大規模でインタラクティブな分析を提供していません。
そこで本研究では,SRCスライスを要求に応じて生成する,すべてのアクティベーション(刺激,応答,コンテキスト)とSQLクエリを格納した高高度で付加のみの観測テーブルである,連続的なSRCを運用する観測用レイクハウスを紹介する。
Apache Parquet + Iceberg + DuckDB上に構築されたLakehouseは、コントロールパイプライン(LASSO)とCIパイプライン(ユニットテスト実行など)からデータを取り込み、n-versionアセスメント、振る舞いクラスタリング、再実行不要のコンセンサスオラクルを可能にする。
509プロブレムのベンチマークでは、$\approx$8.6Mの観察行($<51MiB)を取り込み、ラップトップ上のSRM/SRCビューとクラスタを$<100msで再構築し、マシンの分散クラスタなしで連続的な行動マイニングが実用的なことを実証した。
これにより、行動基盤の真理を他の実行時データとともに第一級にし、行動認識評価とトレーニングに向けたインフラストラクチャパスを提供する。
Observation Lakehouseは関連するデータセットとともに、GitHub上のオープンソースプロジェクトとして公開されている。
関連論文リスト
- CausalVerse: Benchmarking Causal Representation Learning with Configurable High-Fidelity Simulations [14.751682308668391]
因果表現学習は、データ生成プロセスを明らかにし、基礎となる因果変数と関係を特定することを目的としている。
データセットは4つのドメインで24のサブシーンにわたる約2万の画像と300万のビデオフレームで構成されている。
論文 参考訳(メタデータ) (2025-10-15T19:39:22Z) - QueryGym: Step-by-Step Interaction with Relational Databases [30.757678338337055]
本稿では,LLMベースのクエリ計画エージェントの構築,テスト,評価を行う対話型環境であるQueryGymを紹介する。
既存のフレームワークは、エージェントを特定のクエリ言語方言に結びつけることや、それらの推論を曖昧にすることが多い。
QueryGymは、関係代数演算の明示的なシーケンスを構築するためにエージェントを必要とする。
論文 参考訳(メタデータ) (2025-09-25T22:48:49Z) - PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries [19.780108308260214]
本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。
我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されています。
並列戦略とシリアル戦略をベンチマークし、レイテンシ、構造的忠実度、セマンティック忠実度を計測する実行スイートを提供する。
論文 参考訳(メタデータ) (2025-06-23T15:05:54Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。