論文の概要: Towards Observation Lakehouses: Living, Interactive Archives of Software Behavior
- arxiv url: http://arxiv.org/abs/2512.02795v1
- Date: Tue, 02 Dec 2025 14:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.913383
- Title: Towards Observation Lakehouses: Living, Interactive Archives of Software Behavior
- Title(参考訳): レイクハウスの観察に向けて - ソフトウェア行動のインタラクティブなアーカイブ
- Authors: Marcus Kessel,
- Abstract要約: 先行研究では,Sequence Sheets,StimulusResponse Matrices,StimulusResponse Cubesを用いて表現を行った。
本稿では,連続SRCを運用する観測用レイクハウスについて紹介する。
制御パイプライン(SOLAS)とCILASからデータを取り込み、n-versionアセスメント、行動クラスタリング、コンセンサスオラクルを可能にします。
- 参考スコア(独自算出の注目度): 2.6397379133308214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-generating LLMs are trained largely on static artifacts (source, comments, specifications) and rarely on materializations of run-time behavior. As a result, they readily internalize buggy or mislabeled code. Since non-trivial semantic properties are undecidable in general, the only practical way to obtain ground-truth functionality is by dynamic observation of executions. In prior work, we addressed representation with Sequence Sheets, Stimulus-Response Matrices (SRMs), and Stimulus-Response Cubes (SRCs) to capture and compare behavior across tests, implementations, and contexts. These structures make observation data analyzable offline and reusable, but they do not by themselves provide persistence, evolution, or interactive analytics at scale. In this paper, therefore, we introduce observation lakehouses that operationalize continual SRCs: a tall, append-only observations table storing every actuation (stimulus, response, context) and SQL queries that materialize SRC slices on demand. Built on Apache Parquet + Iceberg + DuckDB, the lakehouse ingests data from controlled pipelines (LASSO) and CI pipelines (e.g., unit test executions), enabling n-version assessment, behavioral clustering, and consensus oracles without re-execution. On a 509-problem benchmark, we ingest $\approx$8.6M observation rows ($<$51MiB) and reconstruct SRM/SRC views and clusters in $<$100ms on a laptop, demonstrating that continual behavior mining is practical without a distributed cluster of machines. This makes behavioral ground truth first-class alongside other run-time data and provides an infrastructure path toward behavior-aware evaluation and training. The Observation Lakehouse, together with the accompanying dataset, is publicly available as an open-source project on GitHub: https://github.com/SoftwareObservatorium/observation-lakehouse
- Abstract(参考訳): コード生成 LLM は主に静的アーティファクト(ソース、コメント、仕様)に基づいて訓練され、実行時の振る舞いの実体化はめったにない。
結果として、バグだらけのコードやラベルが間違えたコードを簡単に内部化できる。
非自明なセマンティックな性質は一般に決定不可能であるため、基底真実性を得るための唯一の実践方法は実行の動的観察である。
先行研究では、SRM(Stimulus-Response Matrices)、SRM(Stimulus-Response Cubes)を用いて、テスト、実装、コンテキスト間の振る舞いをキャプチャし比較した。
これらの構造は、観測データをオフラインで、再利用可能なものにしますが、それ自体は、持続性、進化性、大規模でインタラクティブな分析を提供していません。
そこで本研究では,SRCスライスを要求に応じて生成する,すべてのアクティベーション(刺激,応答,コンテキスト)とSQLクエリを格納した高高度で付加のみの観測テーブルである,連続的なSRCを運用する観測用レイクハウスを紹介する。
Apache Parquet + Iceberg + DuckDB上に構築されたLakehouseは、コントロールパイプライン(LASSO)とCIパイプライン(ユニットテスト実行など)からデータを取り込み、n-versionアセスメント、振る舞いクラスタリング、再実行不要のコンセンサスオラクルを可能にする。
509プロブレムのベンチマークでは、$\approx$8.6Mの観察行($<51MiB)を取り込み、ラップトップ上のSRM/SRCビューとクラスタを$<100msで再構築し、マシンの分散クラスタなしで連続的な行動マイニングが実用的なことを実証した。
これにより、行動基盤の真理を他の実行時データとともに第一級にし、行動認識評価とトレーニングに向けたインフラストラクチャパスを提供する。
Observation Lakehouseは関連するデータセットとともに、GitHub上のオープンソースプロジェクトとして公開されている。
関連論文リスト
- AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness [0.4893345190925178]
大型言語モデル (LLM) は人間のシミュレータとしてますます使われている。
Naive "act-as-a-user" はしばしば冗長で非現実的な発話をもたらす。
ユーザプロキシを評価するベンチマークフレームワークであるMIRRORBENCHについて述べる。
論文 参考訳(メタデータ) (2026-01-13T01:16:13Z) - EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation [9.472124187479915]
オンチェーントランザクションのシナリオでは、小さなエラーでさえ、ユーザにとって不可逆的な損失を引き起こす可能性がある。
EVM-QuestBenchは自然言語トランザクションスクリプト生成のための実行基盤ベンチマークである。
単一動作精度と複数ステップのワークフロー完了の間に永続的な非対称性を示す分割スコアを用いて,20のモデルを評価し,大きな性能ギャップを求める。
論文 参考訳(メタデータ) (2026-01-10T13:25:27Z) - RAGVUE: A Diagnostic View for Explainable and Automated Evaluation of Retrieval-Augmented Generation [1.564663326217051]
RAGVUEはRetrieval-Augmented Generation (RAG)システムを評価するためのフレームワークである。
RAGの振る舞いを検索品質、回答の妥当性と完全性、厳格なクレームレベルの忠実さ、および判断の校正に分解する。
RAGVUEは手動のメートル法選択と完全に自動化されたエージェント評価の両方をサポートしている。
論文 参考訳(メタデータ) (2025-12-03T07:42:49Z) - CausalVerse: Benchmarking Causal Representation Learning with Configurable High-Fidelity Simulations [14.751682308668391]
因果表現学習は、データ生成プロセスを明らかにし、基礎となる因果変数と関係を特定することを目的としている。
データセットは4つのドメインで24のサブシーンにわたる約2万の画像と300万のビデオフレームで構成されている。
論文 参考訳(メタデータ) (2025-10-15T19:39:22Z) - QueryGym: Step-by-Step Interaction with Relational Databases [30.757678338337055]
本稿では,LLMベースのクエリ計画エージェントの構築,テスト,評価を行う対話型環境であるQueryGymを紹介する。
既存のフレームワークは、エージェントを特定のクエリ言語方言に結びつけることや、それらの推論を曖昧にすることが多い。
QueryGymは、関係代数演算の明示的なシーケンスを構築するためにエージェントを必要とする。
論文 参考訳(メタデータ) (2025-09-25T22:48:49Z) - PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries [19.780108308260214]
本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。
我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されています。
並列戦略とシリアル戦略をベンチマークし、レイテンシ、構造的忠実度、セマンティック忠実度を計測する実行スイートを提供する。
論文 参考訳(メタデータ) (2025-06-23T15:05:54Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。