このサイトではarxivで発表された論文のメタデータを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# 分布不確実な力学系のオンライン最適化とあいまいさに基づく学習

Online Optimization and Ambiguity-based Learning of Distributionally Uncertain Dynamic Systems ( http://arxiv.org/abs/2102.09111v2 )

ライセンス: Link先を確認
Dan Li, Dariush Fooladivanda, Sonia Martinez, (参考訳) 本稿では,分散的に不確実な力学系のクラスを対象とする最適化問題 (P) に対して,データ駆動型オンラインソリューションを構築するための新しい手法を提案する。 導入されたフレームワークは、有限履歴データセットを用いてパラメータ化された制御依存曖昧性セットを通じて分布系の不確かさを同時学習し、確率的後悔関数境界でオンライン決定を行う。 機械学習の利点を生かして、主要な技術的アプローチは分散ロバスト最適化(DRO)の理論に依存し、不確実性に対処し、標準的なロバスト最適化アプローチよりも保守的な結果を提供する。 パラメータ化および制御に依存した経験分布とあいまいさラディウスを用いたあいまいさ集合を記述する最近の結果から、確率的保証を維持しつつ、対応する最適化問題のトラクタブルな再構成を最初に提示する。 次にこれらの問題を事例に専門化する。 1)分布不確実な非線形系の最適一段階制御、及び 2【配当の不確実性による資源配分】 この研究の斬新な点は、DROを分散的に不確実な力学系の制約を受けるオンライン最適化問題に拡張し、制御依存曖昧性セットによって処理し、後悔境界に対する確率的保証を伴うオンライントラクタブルな最適化へと導くことである。 さらに,Nesterovの高速化段階アルゴリズムのオンライン版を導入し,その性能を解析して,分散性理論を用いてこの問題のクラスを解く。

This paper proposes a novel approach to construct data-driven online solutions to optimization problems (P) subject to a class of distributionally uncertain dynamical systems. The introduced framework allows for the simultaneous learning of distributional system uncertainty via a parameterized, control-dependent ambiguity set using a finite historical data set, and its use to make online decisions with probabilistic regret function bounds. Leveraging the merits of Machine Learning, the main technical approach relies on the theory of Distributional Robust Optimization (DRO), to hedge against uncertainty and provide less conservative results than standard Robust Optimization approaches. Starting from recent results that describe ambiguity sets via parameterized, and control-dependent empirical distributions as well as ambiguity radii, we first present a tractable reformulation of the corresponding optimization problem while maintaining the probabilistic guarantees. We then specialize these problems to the cases of 1) optimal one-stage control of distributionally uncertain nonlinear systems, and 2) resource allocation under distributional uncertainty. A novelty of this work is that it extends DRO to online optimization problems subject to a distributionally uncertain dynamical system constraint, handled via a control-dependent ambiguity set that leads to online-tractable optimization with probabilistic guarantees on regret bounds. Further, we introduce an online version of Nesterov's accelerated-gradient algorithm, and analyze its performance to solve this class of problems via dissipativity theory.
公開日:2024-07-21
翻訳日:2024-07-26 20:20:10
# 補充型確率データ拡張とハードバウンダリボックストレーニングを用いたX線胃癌検診の実際

Practical X-ray Gastric Cancer Screening Using Refined Stochastic Data Augmentation and Hard Boundary Box Training ( http://arxiv.org/abs/2108.08158v3 )

ライセンス: Link先を確認
Hideaki Okamoto, Takakiyo Nomura, Kazuhito Nabeshima, Jun Hashimoto, Hitoshi Iyatomi, (参考訳) 内視鏡検査は胃癌の診断に広く用いられ、高い診断性能を有するが、医師が行う必要があるため、診断できる人数は限られている。 一方、胃X線検査は技術者が行うことができ、内視鏡検査よりもはるかに多くの患者をスクリーニングすることができるが、正確な診断には経験が必要である。 胃X線画像に対する前例のない,実用的な胃癌診断支援システムを提案する。 このシステムは、一般的なディープラーニングに基づく物体検出モデルに基づいており、洗練された確率的胃像増強(R-sGAIA)とハードバウンダリボックス学習(HBBT)という2つの新しい技術提案を含んでいる。 R-sGAIAは、がん検出モデルにより多くの学習パターンを提供する確率論的胃折り畳み領域拡張法である。 HBBTは、オブジェクト検出モデルの効率的なトレーニング手法であり、従来の検出モデルではトレーニングに使用できない非注釈陰性(すなわち、健全な制御)サンプルを使用することで、モデル性能を向上させることができる。 提案した胃癌システム(90.2%)の感度(SE)は専門家(85.5%)よりも高く、検出された5つの候補のうち2つは癌であり、高い処理速度の0.51秒/イメージを維持しながら高い精度を達成する。 提案システムでは,F1スコアよりも5.9ポイント高い値を示した。 要するに、このシステムは放射線科医の視線を素早く効率的に表示し、放射線科医の作業負荷を大幅に削減する。

Endoscopy is widely used to diagnose gastric cancer and has a high diagnostic performance, but because it must be performed by a physician, the number of people who can be diagnosed is limited. Gastric X-ray, on the other hand, can be performed by technicians and can screen a much larger number of patients than endoscopy, but its correct diagnosis requires experience. We propose an unprecedented and practical gastric cancer diagnosis support system for gastric X-ray images, which will enable more people to be screened. The system is based on a general deep learning-based object detection model and includes two novel technical proposals: refined probabilistic stomach image augmentation (R-sGAIA) and hard boundary box learning (HBBT). R-sGAIA is a probabilistic gastric fold region enhancement method that provides more learning patterns for cancer detection models. HBBT is an efficient training method for object detection models that allows the use of unannotated negative (i.e., healthy control) samples that cannot be used for training in conventional detection models, thereby improving model performance. The sensitivity (SE) of the proposed system for gastric cancer (90.2%) is higher than that of the expert (85.5%), and two out of five candidates detected box are cancerous, achieving a high precision while maintaining a high processing speed of 0.51 seconds/image. The proposed system showed 5.9 points higher on the F1 score compared to methods using the same object detection model and state-of-the-art data augmentation. In short, the system quickly and efficiently shows the radiologist where to look, greatly reducing the radiologist's workload.
公開日:2024-07-25
翻訳日:2024-07-26 20:20:10
# 工学設計のための説明可能なAI:エネルギー効率の良い建築設計によるシステム工学とコンポーネントベースディープラーニングの統一的アプローチ

Explainable AI for Engineering Design: A Unified Approach of Systems Engineering and Component- Based Deep Learning Demonstrated by Energy- Efficient Building Design ( http://arxiv.org/abs/2108.13836v6 )

ライセンス: Link先を確認
Philipp Geyer, Manav Mahan Singh, Xia Chen, (参考訳) 機械学習によって生成されたデータ駆動モデルは、設計とエンジニアリングのあらゆる分野において重要になる。 彼らは、より優れたパフォーマンスと持続可能性を備えた新しい人工物を作成する際に、意思決定者を支援する高い可能性を持っている。 しかしながら、これらのモデルの限定的な一般化とブラックボックスの性質は、限定的な説明可能性と再利用可能性をもたらす。 そこで我々は,機械学習(ML)による部分的コンポーネントモデル作成のためのコンポーネントベースアプローチを提案する。 このコンポーネントベースのアプローチは、ディープラーニングをシステム、エンジニアリング(SE)と整合させる。 コンポーネントベースのメソッドの重要な貢献は、コンポーネント間のインターフェイスでのアクティベーションが、解釈可能なエンジニアリング量であることである。 このように、階層的なコンポーネントシステムは、エンジニアリングや説明可能性のための情報を統合するディープニューラルネットワーク(DNN)を形成する。 アプローチは、モデル構造をシステム工学とドメイン知識の工学的手法に適応させる。 まず, 予測精度を解析することにより, コンポーネントベース手法のより優れた一般化を, トレーニングデータの外部で観測した。 特に, 構造が異なる代表設計では, 従来のモノリシック法に比べて, はるかに高い精度 (R2 = 0.94) を観測する(R2 = 0.71)。 次に、実例による説明可能性を説明し、SEとルールからの感度情報がどのように工学に役立つかを示す。 第3に、定性的および定量的手法による説明可能性の評価を行い、予備知識とデータ駆動型戦略の整合性を実証し、ホワイトボックスシミュレーション結果と比較して、コンポーネントインターフェースにおけるアクティベーションの正しさを示す(エンベロープコンポーネント: R2 = 0.92..0.99; ゾーン: R2 = 0.78.0.93)。

Data-driven models created by machine learning, gain in importance in all fields of design and engineering. They, have high potential to assist decision-makers in creating novel, artefacts with better performance and sustainability. However,, limited generalization and the black-box nature of these models, lead to limited explainability and reusability. To overcome this, situation, we propose a component-based approach to create, partial component models by machine learning (ML). This, component-based approach aligns deep learning with systems, engineering (SE). The key contribution of the component-based, method is that activations at interfaces between the components, are interpretable engineering quantities. In this way, the, hierarchical component system forms a deep neural network, (DNN) that a priori integrates information for engineering, explainability. The, approach adapts the model structure to engineering methods of, systems engineering and to domain knowledge. We examine the, performance of the approach by the field of energy-efficient, building design: First, we observed better generalization of the, component-based method by analyzing prediction accuracy, outside the training data. Especially for representative designs, different in structure, we observe a much higher accuracy, (R2 = 0.94) compared to conventional monolithic methods, (R2 = 0.71). Second, we illustrate explainability by exemplary, demonstrating how sensitivity information from SE and rules, from low-depth decision trees serve engineering. Third, we, evaluate explainability by qualitative and quantitative methods, demonstrating the matching of preliminary knowledge and data-driven, derived strategies and show correctness of activations at, component interfaces compared to white-box simulation results, (envelope components: R2 = 0.92..0.99; zones: R2 = 0.78..0.93).
公開日:2024-07-24
翻訳日:2024-07-26 20:16:16
# 異音の幾何学的尺度の多部一般化

Multipartite Generalization of Geometric measure of Discord ( http://arxiv.org/abs/2109.11981v3 )

ライセンス: Link先を確認
Ali Saif M. Hassan, Pramod S. Joag, (参考訳) Radhakrishnan et.al [Phys. Rev. Lett. 124, 110401 (2020)] は、双極子系における従来の不協和の定義と整合性を持ち、任意の状態に対する明示的な公式を導出する、多極子系に対する量子不協和の一般化を提案した。 これらの結果は、マルチキュービット系における量子相関を捉える上で重要である。 同様に多部量子不協和の幾何測度を一般化する手法を提案する。 一般のN粒子量子状態における量子不協和の幾何学的測度の一般化の一般的な形式を見つける。 さらに、[arXiv:2104.12344]で得られた結果を含む、N量子ビット量子状態における量子不協和の幾何測度を一般化するための計算可能な正確な式を得る。

Radhakrishnan et.al [Phys. Rev. Lett. 124, 110401 (2020)] proposed a generalization of quantum discord to multipartite systems, which is consistency with the conventional definition of discord in bipartite systems and derived explicit formulae for any states. These results are significant in capturing quantum correlations for multi-qubit systems. We propose a generalization of geometric measure of multipartite quantum discord in the same manner. We find generic forms of the generalization of geometric measure of quantum discord in a general N-partite quantum state. Further, we obtain computable exact formulas for the generalization of geometric measure of quantum discord in an N-qubit quantum state, which include the results obtained in [arXiv:2104.12344].
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# 動的量子資源のエントロピー的および操作的特性

Entropic and operational characterizations of dynamic quantum resources ( http://arxiv.org/abs/2112.06906v4 )

ライセンス: Link先を確認
Kaiyuan Ji, Eric Chitambar, (参考訳) 本研究では,エントロピーの概念と運用タスクに基づいて,量子資源理論の一般化と量子資源理論のダイナミックな特徴付けを行う新しい手法を提案する。 本稿では,自由条件最小エントロピー(FCME)と呼ばれる量子条件最小エントロピーの資源理論的一般化を提案し,観測者の情報処理が資源理論の自由操作に限定されていることから,観測者の「主観的」な量子系に対する不確実性の度合いを定量化する。 この一般化された概念は、任意の閉および凸量子資源理論における量子状態またはチャネル間の自由可換性のための完全なエントロピー条件をもたらす。 また、FCMEから派生した相互情報のような量の観点から、状態やチャネルのリソースのグローバルロバスト性に関する情報理論的な解釈を提供する。 このエントロピー的アプローチとは別に、運用タスクのパフォーマンスを解析することで、動的リソースを特徴付ける。 このようなタスクに基づいて、我々は、量子チャネル間の自由可換性の忠実なテストを可能にする、運用上有意義で完全なリソース単調なセットを構築する。 最後に, 通信課題における自由チャネルに対するチャネルの操作上の優位性として, 適切に定義されたロバスト性に基づくチャンネルの計測が可能であることを示す。

We provide new methods for characterizing general closed and convex quantum resource theories, including dynamic ones, based on entropic concepts and operational tasks. We propose a resource-theoretic generalization of the quantum conditional min-entropy, termed the free conditional min-entropy (FCME), in the sense that it quantifies an observer's ``subjective'' degree of uncertainty about a quantum system given that the observer's information processing is limited to free operations of the resource theory. This generalized concept gives rise to a complete set of entropic conditions for free convertibility between quantum states or channels in any closed and convex quantum resource theory. It also provides an information-theoretic interpretation for the resource global robustness of a state or a channel in terms of a mutual-information-like quantity derived from the FCME. Apart from this entropic approach, we also characterize dynamic resources by analyzing their performance in operational tasks. Based on such tasks, we construct operationally meaningful and complete sets of resource monotones, which enable faithful tests of free convertibility between quantum channels. Finally, we show that every well-defined robustness-based measure of a channel can be interpreted as an operational advantage of the channel over free channels in a communication task.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# 数学者のためのデータ倫理に関する非専門家の紹介

A Non-Expert's Introduction to Data Ethics for Mathematicians ( http://arxiv.org/abs/2201.07794v5 )

ライセンス: Link先を確認
Mason A. Porter, (参考訳) データ倫理について簡単に紹介します。 データ倫理に関する背景情報と社会的文脈から始めます。 次に、数理科学教育におけるデータ倫理について論じ、利用可能な教材を示す。 私は、データ倫理、社会、社会的善に関するいくつかの取り組みを、私の自宅や他の施設で簡単に強調します。 次に、研究におけるオープンデータ、研究の複製性、その他の倫理的な問題、プライバシとオープンデータとコードの緊張、そしていくつかの議論を呼んでいる研究と研究に対する反応について議論します。 次に、倫理原則、制度審査委員会、および人間のデータの科学的利用に関するいくつかの考察について論じる。 それから、データ倫理とデータプライバシに関連するさまざまな研究を短期間調査し、記事を書きます。 簡潔な要約と締めくくりの発言で締めくくります。 私の関心は数学者ですが、この章が他の人にとっても役に立つことを願っています。 私はデータ倫理の専門家ではありません。 データ倫理、数学教育における役割、およびデータとデータ分析の社会的意味について、私が議論しているリソースについて、慎重に検討することをお勧めします。 データと技術が進化し続けるにつれて、このような慎重なリフレクションがあなたの人生を通して続くことを願っています。

I give a short introduction to data ethics. I begin with some background information and societal context for data ethics. I then discuss data ethics in mathematical-science education and indicate some available course material. I briefly highlight a few efforts -- at my home institution and elsewhere -- on data ethics, society, and social good. I then discuss open data in research, research replicability and some other ethical issues in research, and the tension between privacy and open data and code, and a few controversial studies and reactions to studies. I then discuss ethical principles, institutional review boards, and a few other considerations in the scientific use of human data. I then briefly survey a variety of research and lay articles that are relevant to data ethics and data privacy. I conclude with a brief summary and some closing remarks. My focal audience is mathematicians, but I hope that this chapter will also be useful to others. I am not an expert about data ethics, and this chapter provides only a starting point on this wide-ranging topic. I encourage you to examine the resources that I discuss and to reflect carefully on data ethics, its role in mathematics education, and the societal implications of data and data analysis. As data and technology continue to evolve, I hope that such careful reflection will continue throughout your life.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# プライベート信頼集合に対するランダム化応答の非パラメトリック拡張

Nonparametric extensions of randomized response for private confidence sets ( http://arxiv.org/abs/2202.08728v4 )

ライセンス: Link先を確認
Ian Waudby-Smith, Zhiwei Steven Wu, Aaditya Ramdas, (参考訳) 本研究は、局所微分プライバシー(LDP)の制約の下で、集団平均の非パラメトリック、非漸近的統計的推測を行う手法を導出する。 有界観測$(X_1, \dots, X_n)$ 平均$\mu^\star$ が、プリミティブ化されたデータへのアクセスのみを与えられるときのみ、$(Z_1, \dots, Z_n)$ と Time-uniform confidence sequences (CS) が与えられる。 これを実現するために、Warnerの有名な 'ランダム化応答' 機構の非パラメトリックかつ逐次的インタラクティブな一般化について検討し、任意の有界な確率変数に対して LDP を満たす。 例えば、我々の結果は、固定時間と時間的一様条件の両方において、ホーフディングの不等式を私的に類似させる。 我々は,これらのHoeffding型CSを拡張して,時間変化のある(静止しない)手段をキャプチャし,これらの手法がオンラインA/Bテストのプライベートな実施にどのように使用できるかを説明する。

This work derives methods for performing nonparametric, nonasymptotic statistical inference for population means under the constraint of local differential privacy (LDP). Given bounded observations $(X_1, \dots, X_n)$ with mean $\mu^\star$ that are privatized into $(Z_1, \dots, Z_n)$, we present confidence intervals (CI) and time-uniform confidence sequences (CS) for $\mu^\star$ when only given access to the privatized data. To achieve this, we study a nonparametric and sequentially interactive generalization of Warner's famous ``randomized response'' mechanism, satisfying LDP for arbitrary bounded random variables, and then provide CIs and CSs for their means given access to the resulting privatized observations. For example, our results yield private analogues of Hoeffding's inequality in both fixed-time and time-uniform regimes. We extend these Hoeffding-type CSs to capture time-varying (non-stationary) means, and conclude by illustrating how these methods can be used to conduct private online A/B tests.
公開日:2024-07-24
翻訳日:2024-07-26 20:16:16
# 個人的個人的確率勾配変化に対する個人的プライバシ会計

Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent ( http://arxiv.org/abs/2206.02617v7 )

ライセンス: Link先を確認
Da Yu, Gautam Kamath, Janardhan Kulkarni, Tie-Yan Liu, Jian Yin, Huishuai Zhang, (参考訳) 個人的確率勾配勾配勾配(DP-SGD)は,近年の私的深層学習におけるワークホースアルゴリズムである。 データセット内のすべてのデータポイントに対して、単一のプライバシ保証を提供する。 本稿では,DP-SGD でトレーニングしたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付けるために,出力特化 $(\varepsilon,\delta)$-DP を提案する。 また、複数のデータセットにわたる個人のプライバシーを調査する効率的なアルゴリズムを設計する。 ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。 さらに、サンプルのトレーニング損失とプライバシパラメータがよく関連していることが分かりました。 これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。 例えば、CIFAR-10では、テスト精度が最も低いクラスの平均$\varepsilon$は、最も高いクラスよりも44.2\%高い。

Differentially private stochastic gradient descent (DP-SGD) is the workhorse algorithm for recent advances in private deep learning. It provides a single privacy guarantee to all datapoints in the dataset. We propose output-specific $(\varepsilon,\delta)$-DP to characterize privacy guarantees for individual examples when releasing models trained by DP-SGD. We also design an efficient algorithm to investigate individual privacy across a number of datasets. We find that most examples enjoy stronger privacy guarantees than the worst-case bound. We further discover that the training loss and the privacy parameter of an example are well-correlated. This implies groups that are underserved in terms of model utility simultaneously experience weaker privacy guarantees. For example, on CIFAR-10, the average $\varepsilon$ of the class with the lowest test accuracy is 44.2\% higher than that of the class with the highest accuracy.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# 粒子数対称性を持つフェルミオンの古典的影

Classical shadows of fermions with particle number symmetry ( http://arxiv.org/abs/2208.08964v2 )

ライセンス: Link先を確認
Guang Hao Low, (参考訳) フェルミオン波動関数の古典的な影を$\eta$粒子が$n$モードを占めるものとみなす。 すべての$k$-Reduced Density Matrices (RDMs) は、最大で $\binom{\eta}{k}\big(1-\frac{\eta-k}{n}\big)^{k}\frac{1+n}{1+n-k}/\epsilon^{2}$ 粒子数を保存するランダムな単一粒子基底における測定値を用いて、$\mathcal{O}(k^2\eta)$ $k$-RDM に対する推定値を与える。 我々のサンプルの複雑さは、$\mathcal{O}(\binom{n}{k}\frac {\sqrt{k}}{\epsilon^{2}})$ 以前のアプローチを$n$としてスケールする際の超指数的改善であり、これは自然問題に共通する$\eta$よりも任意に大きい。 我々の手法は、ハーフフィリングの最悪の場合においても、サンプルの複雑さの利点として$4^{k}$の係数を提供し、さらに、すべてのSlater行列との重なりを推定するために適用できる$$\eta$-reduced density matricesを推定する。

We consider classical shadows of fermion wavefunctions with $\eta$ particles occupying $n$ modes. We prove that all $k$-Reduced Density Matrices (RDMs) may be simultaneously estimated to an average variance of $\epsilon^{2}$ using at most $\binom{\eta}{k}\big(1-\frac{\eta-k}{n}\big)^{k}\frac{1+n}{1+n-k}/\epsilon^{2}$ measurements in random single-particle bases that conserve particle number, and provide an estimator for any $k$-RDM with $\mathcal{O}(k^2\eta)$ classical complexity. Our sample complexity is a super-exponential improvement over the $\mathcal{O}(\binom{n}{k}\frac{\sqrt{k}}{\epsilon^{2}})$ scaling of prior approaches as $n$ can be arbitrarily larger than $\eta$, which is common in natural problems. Our method, in the worst-case of half-filling, still provides a factor of $4^{k}$ advantage in sample complexity, and also estimates all $\eta$-reduced density matrices, applicable to estimating overlaps with all single Slater determinants, with at most $\mathcal{O}(\frac{1}{\epsilon^{2}})$ samples, which is additionally independent of $\eta$.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# 正規化クラスタリング精度:非対称な外部クラスタ有効性尺度

Normalised clustering accuracy: An asymmetric external cluster validity measure ( http://arxiv.org/abs/2209.02935v4 )

ライセンス: Link先を確認
Marek Gagolewski, (参考訳) 最高のクラスタリングアルゴリズムは存在しません。 それでも、特定のタスクタイプでうまく機能するメソッドと、体系的に貧弱なパフォーマンスを持つメソッドを区別したいと思っています。 クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。 内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均的な程度を定量化する。 しかし、それらの妥当性は疑わしい。なぜなら、彼らが支持するクラスタリングは、時々無意味であるからである。 一方、外部測度は、アルゴリズムの出力を専門家によって提供される固定された真実グループと比較する。 本稿では,正規化された相互情報やFowlkes-Mallows,あるいは調整されたRandインデックスなどの古典的分割類似度スコアが,いくつかの望ましい特性を欠いていることを論じる。 特に、最悪のシナリオを正しく特定したり、簡単に解釈したりはしません。 その結果、多様なベンチマークデータセットに対するクラスタリングアルゴリズムの評価が困難になる可能性がある。 これらの問題を治療するために、我々は、いくつかの類似性関係、スケール不変性に関して単調に正規化され、クラスタサイズの不均衡性(ただし、対称性も、偶然に調整もしない)に対して補正された最適セットマッチング精度のバージョンを提案し、分析する。

There is no, nor will there ever be, single best clustering algorithm. Nevertheless, we would still like to be able to distinguish between methods that work well on certain task types and those that systematically underperform. Clustering algorithms are traditionally evaluated using either internal or external validity measures. Internal measures quantify different aspects of the obtained partitions, e.g., the average degree of cluster compactness or point separability. However, their validity is questionable because the clusterings they endorse can sometimes be meaningless. External measures, on the other hand, compare the algorithms' outputs to fixed ground truth groupings provided by experts. In this paper, we argue that the commonly used classical partition similarity scores, such as the normalised mutual information, Fowlkes-Mallows, or adjusted Rand index, miss some desirable properties. In particular, they do not identify worst-case scenarios correctly, nor are they easily interpretable. As a consequence, the evaluation of clustering algorithms on diverse benchmark datasets can be difficult. To remedy these issues, we propose and analyse a new measure: a version of the optimal set-matching accuracy, which is normalised, monotonic with respect to some similarity relation, scale-invariant, and corrected for the imbalancedness of cluster sizes (but neither symmetric nor adjusted for chance).
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# ニューラルクランプ:ニューラルネットワークキャリブレーションのためのジョイント入力摂動と温度スケーリング

Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration ( http://arxiv.org/abs/2209.11604v2 )

ライセンス: Link先を確認
Yung-Chen Tang, Pin-Yu Chen, Tsung-Yi Ho, (参考訳) ニューラルネットワークキャリブレーションは、モデル予測の信頼性と真正性確率との整合性を確保するために、ディープラーニングにおいて不可欠なタスクである。 本稿では,学習可能な普遍的な入力摂動と出力温度スケーリングパラメータを用いて,事前学習した分類器に単純な結合入力出力変換を用いたニューラルクランプ方式を提案する。 さらに、なぜニューラルクランプが温度スケーリングよりも確実に優れているのかを理論的に説明する。 BloodMNIST, CIFAR-100, ImageNet画像認識データセットおよび様々なディープニューラルネットワークモデルに基づいて評価した結果,Neural Clampingは最先端の処理後のキャリブレーション手法よりも大幅に優れていることがわかった。 コードはgithub.com/yungchentang/NCToolkitで入手できる。

Neural network calibration is an essential task in deep learning to ensure consistency between the confidence of model prediction and the true correctness likelihood. In this paper, we propose a new post-processing calibration method called Neural Clamping, which employs a simple joint input-output transformation on a pre-trained classifier via a learnable universal input perturbation and an output temperature scaling parameter. Moreover, we provide theoretical explanations on why Neural Clamping is provably better than temperature scaling. Evaluated on BloodMNIST, CIFAR-100, and ImageNet image recognition datasets and a variety of deep neural network models, our empirical results show that Neural Clamping significantly outperforms state-of-the-art post-processing calibration methods. The code is available at github.com/yungchentang/NCToolkit, and the demo is available at huggingface.co/spaces/TrustSafeAI/NCTV.
公開日:2024-07-24
翻訳日:2024-07-26 20:16:16
# 量子エントロピーのマトリックス凸性と強部分付加性について

Ruminations on Matrix Convexity and the Strong Subadditivity of Quantum Entropy ( http://arxiv.org/abs/2210.10729v5 )

ライセンス: Link先を確認
Michael Aizenman, Giorgio Cipolloni, (参考訳) 凸性に関する慣れ親しんだ第2微分テストは、分解性計算と組み合わせることで、凸行列値関数の研究に有用なツールであることが示されている。 この分野における多くの定理に対するこのアプローチの適用性を示す。 これらは、リーブ・ルスカイの量子エントロピーの強い部分付加性の証明において重要な役割を果たす凸原理を含む。

The familiar second derivative test for convexity, combined with resolvent calculus, is shown to yield a useful tool for the study of convex matrix-valued functions. We demonstrate the applicability of this approach on a number of theorems in this field. These include convexity principles which play an essential role in the Lieb-Ruskai proof of the strong subadditivity of quantum entropy.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# Castling-ViT:視覚変換器推論における線形角アテンションへの切り替えによる自己注意の圧縮

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference ( http://arxiv.org/abs/2211.10526v5 )

ライセンス: Link先を確認
Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan, Peter Vajda, Yingyan Celine Lin, (参考訳) 視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して高い計算コストを必要とする。 既存の効率的なViTは、ローカルアテンション(例えば、Swin)またはリニアアテンション(例えば、Performer)を採用しており、グローバルまたはローカルのコンテキストをキャプチャするViTの能力を犠牲にしている。 この研究において、我々は重要な研究課題を問う:ViTsは、推論中により効率的でありながら、グローバルコンテキストとローカルコンテキストの両方を学ぶことができるか? そこで本稿では,VT を線形角注意とマスク付きソフトマックス2次注意の両方を用いて訓練する Castling-ViT というフレームワークを提案する。 私たちのCastling-ViTは、角カーネルを活用して、スペクトル角でクエリとキーの類似度を測定します。 1) 角核を線形項と高次残差に分解し、線形項のみを保ち、(2) 高次残差を近似するために2つのパラメータ化モジュールを採用。 画像ネット分類における最大1.8%の精度または40%のMACs削減と、同等のFLOP下でのCOCO検出における1.2のmAPを達成できる3つのタスクに関する大規模な実験とアブレーション研究は、バニラソフトマックスに基づく注意を持つViTと比較すると、一貫して評価されている。

Vision Transformers (ViTs) have shown impressive performance but still require a high computation cost as compared to convolutional neural networks (CNNs), one reason is that ViTs' attention measures global similarities and thus has a quadratic complexity with the number of input tokens. Existing efficient ViTs adopt local attention (e.g., Swin) or linear attention (e.g., Performer), which sacrifice ViTs' capabilities of capturing either global or local context. In this work, we ask an important research question: Can ViTs learn both global and local context while being more efficient during inference? To this end, we propose a framework called Castling-ViT, which trains ViTs using both linear-angular attention and masked softmax-based quadratic attention, but then switches to having only linear angular attention during ViT inference. Our Castling-ViT leverages angular kernels to measure the similarities between queries and keys via spectral angles. And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. Extensive experiments and ablation studies on three tasks consistently validate the effectiveness of the proposed Castling-ViT, e.g., achieving up to a 1.8% higher accuracy or 40% MACs reduction on ImageNet classification and 1.2 higher mAP on COCO detection under comparable FLOPs, as compared to ViTs with vanilla softmax-based attentions.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# Q-Pensieve:Q-Snapshotのメモリ共有による多目的RLのサンプル効率向上

Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots ( http://arxiv.org/abs/2212.03117v2 )

ライセンス: Link先を確認
Wei Hung, Bo-Kai Huang, Ping-Chun Hsieh, Xi Liu, (参考訳) 多くの実世界の継続的制御問題は、多目的強化学習(MORL)の長所と短所を測るジレンマにある。 しかし、既存のMORL法は、パレートフロントを見つけるために複数の明示的な探索パスを頼りにしているため、サンプル効率は高くない。 MORLのサンプル効率を高めるために,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,政策更新の方向性を共同で決定し,政策レベルでのデータ共有を可能にする政策改善スキームである。 本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。 この概念を実証するために,学習したQ-ネットワークを過去の繰り返しから保存し,実践的なアクタ・クリティカルな実装に到達させるQリプレイバッファ手法を提案する。 より広範な実験とアブレーションによる研究により,提案アルゴリズムは,より少ないサンプルで,様々なMORLベンチマークタスクにおいて,ベンチマークMORL法より優れていることを示す。

Many real-world continuous control problems are in the dilemma of weighing the pros and cons, multi-objective reinforcement learning (MORL) serves as a generic framework of learning control policies for different preferences over objectives. However, the existing MORL methods either rely on multiple passes of explicit search for finding the Pareto front and therefore are not sample-efficient, or utilizes a shared policy network for coarse knowledge sharing among policies. To boost the sample efficiency of MORL, we propose Q-Pensieve, a policy improvement scheme that stores a collection of Q-snapshots to jointly determine the policy update direction and thereby enables data sharing at the policy level. We show that Q-Pensieve can be naturally integrated with soft policy iteration with convergence guarantee. To substantiate this concept, we propose the technique of Q replay buffer, which stores the learned Q-networks from the past iterations, and arrive at a practical actor-critic implementation. Through extensive experiments and an ablation study, we demonstrate that with much fewer samples, the proposed algorithm can outperform the benchmark MORL methods on a variety of MORL benchmark tasks.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# 社会科学からの計測知識の活用によるスタンス検出の改善:オランダの政治ツイートと伝統的ジェンダーロール部門を事例として

Improving Stance Detection by Leveraging Measurement Knowledge from Social Sciences: A Case Study of Dutch Political Tweets and Traditional Gender Role Division ( http://arxiv.org/abs/2212.06543v2 )

ライセンス: Link先を確認
Qixiang Fang, Anastasia Giachanou, Ayoub Bagheri, (参考訳) スタンス検出(SD)は、テキストの著者がターゲットに向かっている視点(すなわち、反対、中立)を自動的に決定する。 SDは、政治ツイートの背後にあるスタンスを検出することが重要である、多くの研究トピックに応用されている。 本稿では、2017年から2021年にかけてオランダの公的な政党アカウントからのツイートのデータセットにSDを適用し、オランダの政党間の(一部)分割問題である伝統的なジェンダー・ロール・ディビジョンへのスタンスに注目した。 従来のジェンダー・ロール・ディビジョンのSDの実装と改善を目的として,従来のジェンダー・ロール・ディビジョンに対する態度を測定するために,社会科学から確立された調査機器を活用することを提案する。 実験結果から,このような検査機器を用いることで,SD性能の向上が期待できることがわかった。

Stance detection (SD) concerns automatically determining the viewpoint (i.e., in favour of, against, or neutral) of a text's author towards a target. SD has been applied to many research topics, among which the detection of stances behind political tweets is an important one. In this paper, we apply SD to a dataset of tweets from official party accounts in the Netherlands between 2017 and 2021, with a focus on stances towards traditional gender role division, a dividing issue between (some) Dutch political parties. To implement and improve SD of traditional gender role division, we propose to leverage an established survey instrument from social sciences, which has been validated for the purpose of measuring attitudes towards traditional gender role division. Based on our experiments, we show that using such a validated survey instrument helps to improve SD performance.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# バッチレス正規化:最小限のメモリ要件を持つインスタンス間でのアクティベーションの正規化

Batchless Normalization: How to Normalize Activations Across Instances with Minimal Memory Requirements ( http://arxiv.org/abs/2212.14729v2 )

ライセンス: Link先を確認
Benjamin Berger, Victor Uc Cetina, (参考訳) ニューラルネットワークのトレーニングにおいて、バッチ正規化には多くのメリットがある。 しかし、欠点もある。 バッチ統計の計算では、バッチ内のすべてのインスタンスを同時に処理する必要があるのに対して、バッチの正規化がなければ、重み勾配を蓄積しながら、それらをひとつずつ処理することが可能である。 もう一つの欠点は、分布パラメータ(平均偏差と標準偏差)が、勾配勾配を使って訓練されていないが特別な処理を必要とし、実装を複雑にするという点で他のモデルパラメータと異なることである。 本稿では,これらの問題に対処するための単純かつ簡単な方法を示す。 要するに、各活性化に対して、活性化を正規化するために使用されるガウス分布の負の対数可能性の最小化を引き起こす損失に項を加えるという考え方である。 その他のメリットとして、より大きなモデルをトレーニングするためのハードウェア要件を低くすることで、AI研究の民主化に寄与することが期待できる。

In training neural networks, batch normalization has many benefits, not all of them entirely understood. But it also has some drawbacks. Foremost is arguably memory consumption, as computing the batch statistics requires all instances within the batch to be processed simultaneously, whereas without batch normalization it would be possible to process them one by one while accumulating the weight gradients. Another drawback is that that distribution parameters (mean and standard deviation) are unlike all other model parameters in that they are not trained using gradient descent but require special treatment, complicating implementation. In this paper, I show a simple and straightforward way to address these issues. The idea, in short, is to add terms to the loss that, for each activation, cause the minimization of the negative log likelihood of a Gaussian distribution that is used to normalize the activation. Among other benefits, this will hopefully contribute to the democratization of AI research by means of lowering the hardware requirements for training larger models.
公開日:2024-07-25
翻訳日:2024-07-26 20:16:16
# RF-based UAV識別のためのワンショット生成分布マッチング

One-shot Generative Distribution Matching for Augmented RF-based UAV Identification ( http://arxiv.org/abs/2301.08403v4 )

ライセンス: Link先を確認
Amir Kazemi, Salar Basiri, Volodymyr Kindratenko, Srinivasa Salapaka, (参考訳) この研究は、限られたRF環境下でRFフィンガープリントを用いて無人航空機(UAV)を特定するという課題に対処する。 RF信号の複雑さと可変性は、環境干渉やハードウェアの不完全性の影響を受け、従来のRFベースの識別手法を効果的にしないことが多い。 これらの合併症に対処するために、変換RF信号の増強にワンショット生成法の厳密な利用を導入し、UAV識別を著しく改善した。 このアプローチは、条件付き生成逆数ネットワーク(GAN)や変分自動エンコーダ(VAE)といった、より深い生成手法よりも優れた、低データレジームにおいて有望であることを示す。 本論文は,限定的なデータ拡張におけるワンショット生成モデルの有効性を理論的に保証し,その応用の先例を限定的なRF環境で設定する。 この研究は、画像やビデオ以外の非典型的な複雑なシーケンスを含む、低データレギュレーションシナリオにおける学習技術に寄与する。 この研究で使用されるデータセットのコードとリンクはhttps://github.com/amir-kazemi/uav-rf-id.comで公開されている。

This work addresses the challenge of identifying Unmanned Aerial Vehicles (UAV) using radiofrequency (RF) fingerprinting in limited RF environments. The complexity and variability of RF signals, influenced by environmental interference and hardware imperfections, often render traditional RF-based identification methods ineffective. To address these complications, the study introduces the rigorous use of one-shot generative methods for augmenting transformed RF signals, offering a significant improvement in UAV identification. This approach shows promise in low-data regimes, outperforming deep generative methods like conditional generative adversarial networks (GANs) and variational auto-encoders (VAEs). The paper provides a theoretical guarantee for the effectiveness of one-shot generative models in augmenting limited data, setting a precedent for their application in limited RF environments. This research contributes to learning techniques in low-data regime scenarios, which may include atypical complex sequences beyond images and videos. The code and links to datasets used in this study are available at https://github.com/amir-kazemi/uav-rf-id.
公開日:2024-07-24
翻訳日:2024-07-26 20:16:16
# 深層学習を用いた「科学ウェブ」における研究分野の階層的分類

Hierarchical Classification of Research Fields in the "Web of Science" Using Deep Learning ( http://arxiv.org/abs/2302.00390v3 )

ライセンス: Link先を確認
Susie Xi Rao, Peter H. Egger, Ce Zhang, (参考訳) 本稿では,その抽象概念を用いて学術出版物を自動的に3階層の階層ラベルセット(ディシプリン,フィールド,サブフィールド)に分類する階層分類システムを提案する。 本システムでは, 研究活動の包括的分類を, 論文による知識生産, 引用による影響の観点から実現し, それらの活動が複数のカテゴリに分類できる。 分類システムは、Microsoft Academic Graph(バージョン2018-05-17)の1億6000万の抽象スニペットのうち、44の規律、718のフィールド、1,485のサブフィールドを区別する。 モジュール化された分散的な方法でバッチトレーニングを行い、単一ラベルと複数ラベルの設定で学際的および分野間分類を可能にしました。 総じて,すべての検討モデル(畳み込みニューラルネットワーク,リカレントニューラルネットワーク,トランスフォーマー)で3,140実験を行った。 分類精度は77.13%で90%、シングルラベルとマルチラベルの分類では78.19%である。 研究テキストと出力を規律と整合させ、それらを適切に自動で分類し、学際性の度合いを捉えることで、分類の利点を考察する。 提案システム(事前学習されたモデルの集合)は,将来,学術出版物の索引付けを行うインタラクティブシステムのバックボーンとして機能する。

This paper presents a hierarchical classification system that automatically categorizes a scholarly publication using its abstract into a three-tier hierarchical label set (discipline, field, subfield) in a multi-class setting. This system enables a holistic categorization of research activities in the mentioned hierarchy in terms of knowledge production through articles and impact through citations, permitting those activities to fall into multiple categories. The classification system distinguishes 44 disciplines, 718 fields and 1,485 subfields among 160 million abstract snippets in Microsoft Academic Graph (version 2018-05-17). We used batch training in a modularized and distributed fashion to address and allow for interdisciplinary and interfield classifications in single-label and multi-label settings. In total, we have conducted 3,140 experiments in all considered models (Convolutional Neural Networks, Recurrent Neural Networks, Transformers). The classification accuracy is > 90% in 77.13% and 78.19% of the single-label and multi-label classifications, respectively. We examine the advantages of our classification by its ability to better align research texts and output with disciplines, to adequately classify them in an automated way, and to capture the degree of interdisciplinarity. The proposed system (a set of pre-trained models) can serve as a backbone to an interactive system for indexing scientific publications in the future.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# グローバーにおけるセマンティック摂動の探索

Exploring Semantic Perturbations on Grover ( http://arxiv.org/abs/2302.00509v2 )

ライセンス: Link先を確認
Ziqing Ji, Pranav Kulkarni, Marko Neskovic, Kevin Nolan, Yan Xu, (参考訳) ニュースや情報は、現在ほど簡単にアクセスできるので、人々が読み物に誤解を与えないようにすることが、これまで以上に重要だ。 近年、ニューラルフェイクニュース(AI生成フェイクニュース)の台頭と、人間を騙す効果が証明され、それを検出するモデルの開発が進められている。 このようなモデルのひとつがGroverモデルで、ニューラルフェイクニュースを検出してそれを防止し、それを生成して、モデルが人間の読者を騙すためにどのように悪用されるかを実証する。 本研究では,入力されたニュース記事の摂動を通じて標的攻撃を行うことにより,Groverモデルの偽ニュース検出機能について検討する。 これにより、Groverのこのような敵攻撃に対するレジリエンスをテストし、さらなるイテレーションで対処すべき潜在的な脆弱性を明らかにし、あらゆる種類の偽ニュースを正確に検出できるようにします。

With news and information being as easy to access as they currently are, it is more important than ever to ensure that people are not mislead by what they read. Recently, the rise of neural fake news (AI-generated fake news) and its demonstrated effectiveness at fooling humans has prompted the development of models to detect it. One such model is the Grover model, which can both detect neural fake news to prevent it, and generate it to demonstrate how a model could be misused to fool human readers. In this work we explore the Grover model's fake news detection capabilities by performing targeted attacks through perturbations on input news articles. Through this we test Grover's resilience to these adversarial attacks and expose some potential vulnerabilities which should be addressed in further iterations to ensure it can detect all types of fake news accurately.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# 自然勾配ハイブリッド変分推論と深部混合モデルへの応用

Natural Gradient Hybrid Variational Inference with Application to Deep Mixed Models ( http://arxiv.org/abs/2302.13536v2 )

ライセンス: Link先を確認
Weiben Zhang, Michael Stanley Smith, Worapree Maneesoonthorn, Ruben Loaiza-Maya, (参考訳) 大域的パラメータと潜在変数を持つ確率モデルは一般的であり、変動推論(VI)が一般的である。 しかし、既存の手法は、しばしば高次元において遅いか不正確なかのどちらかである。 本稿では,大域的パラメータと潜伏変数の結合後部を対象とする,明確に定義された自然勾配変動最適化を用いた高速かつ高精度なVI法を提案する。 各ステップで大域的パラメータを自然勾配を用いて更新し、その条件付き後部から潜伏変数を生成するハイブリッド手法である。 チコノフ減衰フィッシャー情報行列の高速計算式と再パラメータ化トリックを用いて、安定な自然勾配を与える。 本研究では,不均一性を実現するために,ランダムな出力層係数を持つベイズニューラルネットワークの新たなクラスであるディープ・ミックス・モデルにアプローチを適用する。 いくつかのシミュレーションでは、自然勾配は通常の勾配よりもかなり効率的であり、アプローチは2つの最先端の自然勾配 VI 法よりも高速で精度が高いことが示されている。 金融アプリケーションでは、深層混合モデルを用いた産業レベルの不均一性を考慮した会計により、資産価格モデルの精度が向上することを示す。 メソッドを実装するためのMATLABコードは、https://github.com/WeibenZhang07/NG-HVIにある。

Stochastic models with global parameters and latent variables are common, and for which variational inference (VI) is popular. However, existing methods are often either slow or inaccurate in high dimensions. We suggest a fast and accurate VI method for this case that employs a well-defined natural gradient variational optimization that targets the joint posterior of the global parameters and latent variables. It is a hybrid method, where at each step the global parameters are updated using the natural gradient and the latent variables are generated from their conditional posterior. A fast to compute expression for the Tikhonov damped Fisher information matrix is used, along with the re-parameterization trick, to provide a stable natural gradient. We apply the approach to deep mixed models, which are an emerging class of Bayesian neural networks with random output layer coefficients to allow for heterogeneity. A range of simulations show that using the natural gradient is substantially more efficient than using the ordinary gradient, and that the approach is faster and more accurate than two cutting-edge natural gradient VI methods. In a financial application we show that accounting for industry level heterogeneity using the deep mixed model improves the accuracy of asset pricing models. MATLAB code to implement the method can be found at: https://github.com/WeibenZhang07/NG-HVI.
公開日:2024-07-24
翻訳日:2024-07-26 20:06:09
# 超伝導量子ビット実験のための宇宙ミューオンフラックス減衰法

Cosmic muon flux attenuation methods for superconducting qubit experiments ( http://arxiv.org/abs/2303.04938v2 )

ライセンス: Link先を確認
Elia Bertoldo, Victor Perez, Maria Martínez, Manel Martínez, Hawraa Khalife, Pol Forn-Díaz, (参考訳) 本研究では, 超伝導量子ビットを含む実験と互換性があり, 宇宙ムーンフラックスを減衰させる2つの実用的な緩和手法を提案し, 実証する。 特別に構築された宇宙ミューオン検出器を用いて、都市環境に広く存在する地下地を同定し、宇宙ミューオンフラックスの大幅な減衰を最大で100メートルの深さで35倍にすることができる。 さらに,2つのゲルマニウムウェハを地上実験室に設置し,それぞれに粒子センサを装着し,光電離放射線により基板上に堆積したエネルギーの量と種類に,天空に対するチップの配向がどのような影響を及ぼすかを示す。 水平検出器はより低いエネルギーでより多くのカウントを観測し、垂直検出器はより高いエネルギーでより多くの粒子に衝突する。 提案手法は, 宇宙線が量子ビットに与える影響を直接理解し, 低減する手法であり, 既存のオンチップ緩和戦略を補完するものである。 我々は、オンチップとオフチップの組み合わせが、超伝導量子ビット回路に基づく量子技術においてユビキタスになることを期待する。

We propose and demonstrate two practical mitigation methods to attenuate the cosmic muon flux, compatible with experiments involving superconducting qubits: shallow underground sites and specific device orientation. Using a specifically-built cosmic muon detector, we identify underground sites, widely present in urban environments, where significant attenuation of cosmic muon flux, up to a factor 35 for 100-meter depths, can be attained. Furthermore, we employ two germanium wafers in an above-ground laboratory, each equipped with a particle sensor, to show how the orientation of the chip with respect to the sky affects the amount and type of energy deposited on the substrate by ionizing radiation. We observe that the horizontal detector sees more counts at lower energy, while the vertical one is impacted by more particles at higher energy. The methods here described proposed ways to directly understand and reduce the effects of cosmic rays on qubits by attenuating the source of this type of decoherence, complementing existing on-chip mitigation strategies. We expect that both on-chip and off-chip methods combined will become ubiquitous in quantum technologies based on superconducting qubit circuits.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# 最小限のスパンニングツリーでクラスタリング: どのくらい良いのか?

Clustering with minimum spanning trees: How good can it be? ( http://arxiv.org/abs/2303.05679v3 )

ライセンス: Link先を確認
Marek Gagolewski, Anna Cena, Maciej Bartoszuk, Łukasz Brzozowski, (参考訳) 最小スパンニングツリー(MST)は、多くのパターン認識アクティビティにおいて、データセットの便利な表現を提供する。 さらに、計算は比較的高速である。 本稿では,低次元分割データクラスタリングタスクにおいて,それらが意味のある範囲を定量化する。 ベンチマークデータの大容量バッテリから、ベスト(オークル)アルゴリズムとエキスパートラベルとの一致の上限を同定することにより、MST法が非常に競争力のあるものになることを発見した。 次に、既存の最先端のMSTベースのパーティショニングスキームをレビュー、研究、拡張、一般化する。 これはいくつかの注目すべきアプローチにつながります。 全体として、ジェニーと情報理論の手法は、K平均、ガウス混合、スペクトルクラスタリング、バーチ、密度ベース、古典的階層的集計手順などの非MSTアルゴリズムよりも優れていることが多い。 しかし,まだ改善の余地が残っており,新たなアルゴリズムの開発が奨励されている。

Minimum spanning trees (MSTs) provide a convenient representation of datasets in numerous pattern recognition activities. Moreover, they are relatively fast to compute. In this paper, we quantify the extent to which they are meaningful in low-dimensional partitional data clustering tasks. By identifying the upper bounds for the agreement between the best (oracle) algorithm and the expert labels from a large battery of benchmark data, we discover that MST methods can be very competitive. Next, we review, study, extend, and generalise a few existing, state-of-the-art MST-based partitioning schemes. This leads to some new noteworthy approaches. Overall, the Genie and the information-theoretic methods often outperform the non-MST algorithms such as K-means, Gaussian mixtures, spectral clustering, Birch, density-based, and classical hierarchical agglomerative procedures. Nevertheless, we identify that there is still some room for improvement, and thus the development of novel algorithms is encouraged.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# 絡み合った局所構造からの量子重力の経路積分式

A path integral formula of quantum gravity emergent from entangled local structures ( http://arxiv.org/abs/2304.10865v3 )

ライセンス: Link先を確認
Jinglong Liu, Stephon Alexander, Antonino Marciano, Roman Pasechnik, (参考訳) 群場理論(GFT)とは、多様体サイト間の絡み合いを符号化するスカラー場である。 スカラー場は、GFT作用から系のハミルトニアンを導出できるリレーショナルクロックを提供する。 ハミルトニアンを検査すると、創発重力の理論が生まれ、これはアシュテカールの一般相対性理論の定式化に従って再キャストできることを示す。 GFT観測器の進化は、ハミルトニアンによって生成されるシュレーディンガー方程式によって制御される。 これは、単純化されたリッチフローに対応する再正規化群(RG)フローを付与することで達成される。 量子化過程の結果として、ハミルトニアンは非エルミート的(英語版)に復元され、複雑なアクション形式主義(英語版)に関連付けられる。

We couple to group field theory (GFT) a scalar field that encodes the entanglement between manifold sites. The scalar field provides a relational clock that enables the derivation of the Hamiltonian of the system from the GFT action. Inspecting the Hamiltonian, we show that a theory of emergent gravity arises, and that this can be recast according to the Ashtekar's formulation of general relativity. The evolution of the GFT observables is regulated by the Shroedinger equation generated by the Hamiltonian. This is achieved by imposing a renormalization group (RG) flow that corresponds to a simplified Ricci flow. As a consequence of the quantization procedure, the Hamiltonian is recovered to be non-Hermitian, and can be related to the complex action formalism, in which the initial conditions and the related future evolution of the systems are dictated by the imaginary part of the action.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# O-RANのセキュリティの実装と評価 - インターフェース,インテリジェンス,プラットフォーム

Implementing and Evaluating Security in O-RAN: Interfaces, Intelligence, and Platforms ( http://arxiv.org/abs/2304.11125v3 )

ライセンス: Link先を確認
Joshua Groen, Salvatore DOro, Utku Demir, Leonardo Bonati, Michele Polese, Tommaso Melodia, Kaushik Chowdhury, (参考訳) Open Radio Access Network(RAN)は、クラウドベース、マルチベンダ、オープン、インテリジェントなアーキテクチャの上に構築され、5G以降の次世代の携帯電話ネットワークを形成するネットワークパラダイムである。 この新しいパラダイムには、ネットワークの可観測性と再構成性という面で多くの利点があるが、セルシステムの脅威面を必然的に拡張し、そのコンポーネントをいくつかのサイバー攻撃に晒し、O-RANネットワークをセキュアにする必要がある。 本稿では,O-RANアライアンスが提案する仕様とアーキテクチャに着目し,O-RANシステムのセキュリティ面について考察する。 我々は,O-RANシステムを全体的視点でセキュアにすることの課題に対処し,異なるO-RANコンポーネントを相互接続するオープンインターフェース,プラットフォーム全体,ネットワークの監視と制御に使用するインテリジェンスについて検討する。 各焦点領域において、脅威を特定し、これらの問題に対処するための関連するソリューションについて議論し、そのようなソリューションがO-RANシステムを選択されたサイバー攻撃に対して効果的に防御する方法を実験的に実証する。 本稿は、O-RANのセキュリティ面へのアプローチと、最先端のプログラマブルなO-RANプラットフォームで得られた実験的証拠に関する最初の研究であり、この分野の研究者にユニークなガイドラインを提供する。

The Open Radio Access Network (RAN) is a networking paradigm that builds on top of cloud-based, multi-vendor, open and intelligent architectures to shape the next generation of cellular networks for 5G and beyond. While this new paradigm comes with many advantages in terms of observatibility and reconfigurability of the network, it inevitably expands the threat surface of cellular systems and can potentially expose its components to several cyber attacks, thus making securing O-RAN networks a necessity. In this paper, we explore the security aspects of O-RAN systems by focusing on the specifications and architectures proposed by the O-RAN Alliance. We address the problem of securing O-RAN systems with a holistic perspective, including considerations on the open interfaces used to interconnect the different O-RAN components, on the overall platform, and on the intelligence used to monitor and control the network. For each focus area we identify threats, discuss relevant solutions to address these issues, and demonstrate experimentally how such solutions can effectively defend O-RAN systems against selected cyber attacks. This article is the first work in approaching the security aspect of O-RAN holistically and with experimental evidence obtained on a state-of-the-art programmable O-RAN platform, thus providing unique guideline for researchers in the field.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# ドメインターゲット拡張による自然言語推論モデルへのロバストネスの蒸留

Distilling Robustness into Natural Language Inference Models with Domain-Targeted Augmentation ( http://arxiv.org/abs/2305.13067v3 )

ライセンス: Link先を確認
Joe Stacey, Marek Rei, (参考訳) 知識蒸留は、より小さな学生モデルがより大きな教師モデルと同じように振る舞うことを最適化し、パフォーマンス上の利点のいくつかを保持する。 本手法は, 分布内例の結果を改善することができるが, 必ずしも分布外設定(OOD)に一般化するとは限らない。 OODドメイン上で得られた学生モデルの堅牢性を改善するための2つの補完的手法について検討する。 第一のアプローチは、ターゲットの分布にマッチする未ラベルの例で蒸留を増強する。 第2の方法は、目標分布に類似したトレーニングセット内のデータポイントをサンプリングする。 自然言語推論 (NLI) の課題に適用した場合, MNLI を用いた実験により, これらの修飾による蒸留が従来のロバスト性解よりも優れていることが示された。 また,これらの手法により,OODドメインの性能が目標ドメインを超えて向上していることが判明した。

Knowledge distillation optimises a smaller student model to behave similarly to a larger teacher model, retaining some of the performance benefits. While this method can improve results on in-distribution examples, it does not necessarily generalise to out-of-distribution (OOD) settings. We investigate two complementary methods for improving the robustness of the resulting student models on OOD domains. The first approach augments the distillation with generated unlabelled examples that match the target distribution. The second method upsamples data points among the training set that are similar to the target distribution. When applied on the task of natural language inference (NLI), our experiments on MNLI show that distillation with these modifications outperforms previous robustness solutions. We also find that these methods improve performance on OOD domains even beyond the target domain.
公開日:2024-07-24
翻訳日:2024-07-26 20:06:09
# シミュレーションベース推論における被覆保証者による変分推論

Variational Inference with Coverage Guarantees in Simulation-Based Inference ( http://arxiv.org/abs/2305.14275v3 )

ライセンス: Link先を確認
Yash Patel, Declan McNamara, Jackson Loper, Jeffrey Regier, Ambuj Tewari, (参考訳) Amortized variational inference はシミュレーションベースの推論においてしばしば用いられるフレームワークであり、新しい観測によって高速に計算できる後部近似を生成する。 残念なことに、これらの近似後部の品質に関する保証はほとんどない。 本稿では,CANVI(Conformalized Amortized Neural Variational Inference)を提案する。 候補補正後近似器の集合が与えられた場合、CANVIは各候補に基づいて共形予測器を構築し、予測効率と呼ばれる計量を用いて予測器を比較し、最も効率的な予測器を返す。 CANVIは、結果の予測器が、ユーザが特定した確率レベルで真実を含む領域を構築することを保証する。 CANVIは、候補近似器の定式化における設計上の決定に非依存であり、フォワードモデルからのサンプルへのアクセスのみを必要とするため、可能性のない設定での使用が可能である。 我々は,CANVIが生成する領域の予測効率の低い境界を証明し,その近似に基づいて,後部近似の品質と予測領域の予測効率の関係について検討する。 最後に、シミュレーションベース推論ベンチマークの一連のタスクと重要な科学的タスクである銀河放出スペクトルの分析において、CANVIの正確な校正と高い予測効率を示す。

Amortized variational inference is an often employed framework in simulation-based inference that produces a posterior approximation that can be rapidly computed given any new observation. Unfortunately, there are few guarantees about the quality of these approximate posteriors. We propose Conformalized Amortized Neural Variational Inference (CANVI), a procedure that is scalable, easily implemented, and provides guaranteed marginal coverage. Given a collection of candidate amortized posterior approximators, CANVI constructs conformalized predictors based on each candidate, compares the predictors using a metric known as predictive efficiency, and returns the most efficient predictor. CANVI ensures that the resulting predictor constructs regions that contain the truth with a user-specified level of probability. CANVI is agnostic to design decisions in formulating the candidate approximators and only requires access to samples from the forward model, permitting its use in likelihood-free settings. We prove lower bounds on the predictive efficiency of the regions produced by CANVI and explore how the quality of a posterior approximation relates to the predictive efficiency of prediction regions based on that approximation. Finally, we demonstrate the accurate calibration and high predictive efficiency of CANVI on a suite of simulation-based inference benchmark tasks and an important scientific task: analyzing galaxy emission spectra.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# ShiftAddViT:効率的な視覚変換器に向けた乗算プリミティブの混合

ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer ( http://arxiv.org/abs/2306.06446v6 )

ライセンス: Link先を確認
Haoran You, Huihong Shi, Yipin Guo, Yingyan Celine Lin, (参考訳) 視覚変換器(ViT)は印象的な性能を示し、複数の視覚タスクのための統一されたバックボーンとなっている。 しかし、ViTsの注意機構と多層パーセプトロン(MLPs)は、濃密な乗算のため、十分に効率が良くないため、コストのかかるトレーニングと推論に繋がる。 そこで本研究では,プリコンパイルプリミティブ,例えばビットワイズシフト,加算の混合による事前学習ViTの再パラメータ化を,スクラッチからトレーニングを必要とせず,GPU上でのエンドツーエンドの推論高速化を実現するために,$\textbf{ShiftAddViT}$と呼ばれる新しいタイプの乗算モデルに向けて提案する。 具体的には、クエリ、キー、値のすべての$\texttt{MatMuls}$は、ハミング空間のバイナリコードにクエリとキーをマッピングした後、追加のカーネルを使用して再パラメータ化される。 残りのMLPまたは線形層はシフトカーネルで再パラメータ化される。 我々はTVMを利用して、GPU上のハードウェアの実践的な展開のために、カスタマイズされたカーネルを実装し、最適化する。 このような注意再パラメータ化はモデル精度を維持しつつも,MLPに適用した場合の精度低下を必然的に招きかねない。 両世界のベストを尽くすために、我々はさらに、乗算またはプリミティブをエキスパートとして取り上げ、例えば、乗算とシフト、新しいレイテンシ対応のロードバランシング損失を設計することで、MDPを再パラメータ化するための、新たな専門家(MoE)フレームワークを提案する。 このような損失は、遅延に応じて異なる専門家に動的に入力トークンを割り当てるための一般的なルータのトレーニングに役立つ。 様々な2D/3Dトランスフォーマーベースの視覚タスクの広範囲な実験は、提案したShiftAddViTの有効性を一貫して検証し、GPUのレイテンシ低減に$\textbf{5.18$\times$}および$\textbf{42.9}$%の省エネを達成し、オリジナルまたは効率的なViTと同等の精度を維持しながら、最大で$\textbf{5.18$\times$}のレイテンシ削減を実現した。

Vision Transformers (ViTs) have shown impressive performance and have become a unified backbone for multiple vision tasks. However, both the attention mechanism and multi-layer perceptrons (MLPs) in ViTs are not sufficiently efficient due to dense multiplications, leading to costly training and inference. To this end, we propose to reparameterize pre-trained ViTs with a mixture of multiplication primitives, e.g., bitwise shifts and additions, towards a new type of multiplication-reduced model, dubbed $\textbf{ShiftAddViT}$, which aims to achieve end-to-end inference speedups on GPUs without requiring training from scratch. Specifically, all $\texttt{MatMuls}$ among queries, keys, and values are reparameterized using additive kernels, after mapping queries and keys to binary codes in Hamming space. The remaining MLPs or linear layers are then reparameterized with shift kernels. We utilize TVM to implement and optimize those customized kernels for practical hardware deployment on GPUs. We find that such a reparameterization on attention maintains model accuracy, while inevitably leading to accuracy drops when being applied to MLPs. To marry the best of both worlds, we further propose a new mixture of experts (MoE) framework to reparameterize MLPs by taking multiplication or its primitives as experts, e.g., multiplication and shift, and designing a new latency-aware load-balancing loss. Such a loss helps to train a generic router for assigning a dynamic amount of input tokens to different experts according to their latency. Extensive experiments on various 2D/3D Transformer-based vision tasks consistently validate the effectiveness of our proposed ShiftAddViT, achieving up to $\textbf{5.18$\times$}$ latency reductions on GPUs and $\textbf{42.9}$% energy savings, while maintaining a comparable accuracy as original or efficient ViTs.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# 画像を用いた癌予後予測のためのStyleGAN埋め込みによる深層学習

Deep Learning for Cancer Prognosis Prediction Using Portrait Photos by StyleGAN Embedding ( http://arxiv.org/abs/2306.14596v3 )

ライセンス: Link先を確認
Amr Hagag, Ahmed Gomaa, Dominik Kornek, Andreas Maier, Rainer Fietkau, Christoph Bert, Florian Putz, Yixing Huang, (参考訳) がん患者の生存予測は、最適な治療選択と患者管理に不可欠である。 現在の患者生存予測法は、典型的には患者の臨床記録データまたは生物学的および画像データから生存情報を抽出する。 実際に、経験豊富な臨床医は、主に顔の特徴である観察可能な身体的外観に基づいて、患者の健康状態の予備的な評価を行うことができる。 しかし、そのような評価は極めて主観的である。 本研究は, 生き残り予測のための深層学習を用いて, 従来の肖像画に含まれる予後情報を客観的に捕捉し, 利用することの有効性について検討した。 事前トレーニングされたStyleGAN2モデルは、がん患者の写真のカスタムデータセットに基づいて微調整され、患者の写真に合った生成能力でジェネレータを増強する。 StyleGAN2は、写真を非常に表現力のある潜伏空間に埋め込むために使用される。 最先端の生存分析モデルを利用し、StyleGANの潜在空間写真埋め込みに基づいて、このアプローチはCインデックスの0.677を達成した。 さらに、StyleGANの解釈可能な潜伏空間のおかげで、我々の生存予測モデルは、重要な顔の特徴に依存し、衣服や背景などの外部情報からのバイアスを排除できる。 さらに、患者のケアに重要な電位値を有する回帰係数から、健康属性を得る。

Survival prediction for cancer patients is critical for optimal treatment selection and patient management. Current patient survival prediction methods typically extract survival information from patients' clinical record data or biological and imaging data. In practice, experienced clinicians can have a preliminary assessment of patients' health status based on patients' observable physical appearances, which are mainly facial features. However, such assessment is highly subjective. In this work, the efficacy of objectively capturing and using prognostic information contained in conventional portrait photographs using deep learning for survival predication purposes is investigated for the first time. A pre-trained StyleGAN2 model is fine-tuned on a custom dataset of our cancer patients' photos to empower its generator with generative ability suitable for patients' photos. The StyleGAN2 is then used to embed the photographs to its highly expressive latent space. Utilizing the state-of-the-art survival analysis models and based on StyleGAN's latent space photo embeddings, this approach achieved a C-index of 0.677, which is notably higher than chance and evidencing the prognostic value embedded in simple 2D facial images. In addition, thanks to StyleGAN's interpretable latent space, our survival prediction model can be validated for relying on essential facial features, eliminating any biases from extraneous information like clothing or background. Moreover, a health attribute is obtained from regression coefficients, which has important potential value for patient care.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# LyricWhiz: ChatGPTへのWhisperingによるロバストな多言語ゼロショット歌詞の転写

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT ( http://arxiv.org/abs/2306.17103v4 )

ライセンス: Link先を確認
Le Zhuo, Ruibin Yuan, Jiahao Pan, Yinghao Ma, Yizhi LI, Ge Zhang, Si Liu, Roger Dannenberg, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wei Xue, Yike Guo, (参考訳) LyricWhizは,岩や金属といった難易度の高いジャンルであっても,様々な歌詞の書き起こしデータセットに対して最先端のパフォーマンスを実現する,頑健で多言語的,ゼロショットの自動書き起こし方式である。 本稿では,弱教師付き頑健な音声認識モデルであるWhisperと,今日のチャットベース大規模言語モデルであるGPT-4を利用する。 提案手法では、Whisperは音声を変換して「耳」として機能し、GPT-4は「脳」として機能し、文脈化された出力選択と修正のための強力なパフォーマンスを持つアノテータとして機能する。 実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を著しく低減し,複数の言語で歌詞の書き起こしを効果的に行うことができることがわかった。 さらに,LyricWhiz を用いて,MTG-Jamendo に基づく CC-BY-NC-SA 著作権ライセンスによる,初めて公開された大規模多言語文字起こしデータセットを作成し,騒音レベルの推定と評価を行う。 提案手法とデータセットは,多言語による歌詞の書き起こし,難易度の高いタスクの開発を推し進めることが期待できる。

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# 最も一般的な原因は

The most likely common cause ( http://arxiv.org/abs/2306.17557v2 )

ライセンス: Link先を確認
A. Hovhannisyan, A. E. Allahverdyan, (参考訳) 2つの確率変数の共通原因原理である$A$と$B$は、それらの共通原因である$C$が存在することが分かっている場合に因果不備の場合に検討されるが、共同確率は$A$と$B$のみである。 その結果、$C$は一意に特定できない(潜在的共同設立問題)。 この状況に対して一般化された最大極大法が適用可能であることを示し、共通原因原理と整合した$C$の同定を可能にする。 これは最大エントロピー原理と密接に関係している。 2つの二項対称変数の研究は、2階相転移を連想させる条件付き確率の非解析的挙動を明らかにする。 これは、観測された確率分布における相関から反相関への遷移中に起こる。 一般化された可能性アプローチと予測可能性や最小共通原因エントロピーといった代替手法との関係を論じる。 3つの観測変数(および1つの隠れた原因)に対する共通原因の考察は、マルコフ条件付き有向非巡回グラフを通して表現を否定する因果構造を明らかにする。

The common cause principle for two random variables $A$ and $B$ is examined in the case of causal insufficiency, when their common cause $C$ is known to exist, but only the joint probability of $A$ and $B$ is observed. As a result, $C$ cannot be uniquely identified (the latent confounder problem). We show that the generalized maximum likelihood method can be applied to this situation and allows identification of $C$ that is consistent with the common cause principle. It closely relates to the maximum entropy principle. Investigation of the two binary symmetric variables reveals a non-analytic behavior of conditional probabilities reminiscent of a second-order phase transition. This occurs during the transition from correlation to anti-correlation in the observed probability distribution. The relation between the generalized likelihood approach and alternative methods, such as predictive likelihood and the minimum common cause entropy, is discussed. The consideration of the common cause for three observed variables (and one hidden cause) uncovers causal structures that defy representation through directed acyclic graphs with the Markov condition.
公開日:2024-07-24
翻訳日:2024-07-26 20:06:09
# 多層両部ハードウェア効率Ansatz間の単一絡み合い接続アーキテクチャ

Single entanglement connection architecture between multi-layer bipartite Hardware Efficient Ansatz ( http://arxiv.org/abs/2307.12323v4 )

ライセンス: Link先を確認
Shikun Zhang, Zheng Qin, Yang Zhou, Rui Li, Chunxiao Du, Zhisong Xiao, (参考訳) 変分量子アルゴリズム(VQA)は、NISQ時代に量子アドバンテージを達成する最も有望なアルゴリズムの一つである。 このようなアルゴリズムを実装する上で重要な課題は、効果的なパラメータ化量子回路(アンザッツとも呼ばれる)を構築することである。 本研究では,その表現性,エンタングル能力,およびトレーサビリティのバランスをとることにより,両部ハードウェア効率の良いアンサツ(HEA)のための単一絡み接続アーキテクチャ(SECA)を提案する。 1次元ハイゼンベルクモデルと2次非拘束二元最適化(QUBO)問題を用いた数値シミュレーションを行った。 本結果から,SECAの計算性能はFECA(Common full entanglement connection architecture)よりも優れていることが示された。 さらに,SECAとゲートカット技術を組み合わせて分散量子計算(DQC)を構築することで,NISQデバイスのサイズを低オーバーヘッドで効率的に拡大することができる。 また,DQC方式の有効性と拡張性を実証した。 本研究は,実効トレーニング回路に付随する特性を理解する上で有用な指標である。

Variational quantum algorithms (VQAs) are among the most promising algorithms to achieve quantum advantages in the NISQ era. One important challenge in implementing such algorithms is to construct an effective parameterized quantum circuit (also called an ansatz). In this work, we propose a single entanglement connection architecture (SECA) for a bipartite hardware efficient ansatz (HEA) by balancing its expressibility, entangling capability, and trainability. Numerical simulations with a one-dimensional Heisenberg model and quadratic unconstrained binary optimization (QUBO) issues were conducted. Our results indicate the superiority of SECA over the common full entanglement connection architecture (FECA) in terms of computational performance. Furthermore, combining SECA with gate-cutting technology to construct distributed quantum computation (DQC) can efficiently expand the size of NISQ devices under low overhead. We also demonstrated the effectiveness and scalability of the DQC scheme. Our study is a useful indication for understanding the characteristics associated with an effective training circuit.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# 確率最適化のための量子スピードアップ

Quantum speedups for stochastic optimization ( http://arxiv.org/abs/2308.01582v2 )

ライセンス: Link先を確認
Aaron Sidford, Chenyi Zhang, (参考訳) 確率勾配オラクルへの量子アクセスを与えられた連続関数を最小化する問題を考える。 リプシッツ凸関数を最小化するための2つの新しい方法を提案する。 各手法は、古典的に証明不可能な次元対精度トレードオフを求め、低次元設定において1つの手法が漸近的に最適であることを証明した。 さらに、古典的に達成不可能な速度で滑らかな非凸関数の臨界点を計算するための量子アルゴリズムを提供する。 これらの結果を得るために、Cornelissen et al 2022の量子多変量平均推定結果の上に構築し、独立利息の一般的な量子分散低減技術を提供する。

We consider the problem of minimizing a continuous function given quantum access to a stochastic gradient oracle. We provide two new methods for the special case of minimizing a Lipschitz convex function. Each method obtains a dimension versus accuracy trade-off which is provably unachievable classically and we prove that one method is asymptotically optimal in low-dimensional settings. Additionally, we provide quantum algorithms for computing a critical point of a smooth non-convex function at rates not known to be achievable classically. To obtain these results we build upon the quantum multivariate mean estimation result of Cornelissen et al. 2022 and provide a general quantum-variance reduction technique of independent interest.
公開日:2024-07-25
翻訳日:2024-07-26 20:06:09
# カテゴリー適応は、一般化された連続的なカテゴリー発見において、予想される蒸留と一致する

Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery ( http://arxiv.org/abs/2308.12112v4 )

ライセンス: Link先を確認
Grzegorz Rypeść, Daniel Marczak, Sebastian Cygert, Tomasz Trzciński, Bartłomiej Twardowski, (参考訳) Generalized Continual Category Discovery (GCCD)は、新しいカテゴリを明らかにしながら、シーケンシャルに到達し、部分的にラベル付けされたデータセットから学習に取り組む。 伝統的な方法は、古い知識を忘れないように特徴蒸留に依存する。 しかし、この戦略はモデルが適応し、新しいカテゴリを効果的に区別する能力を制限する。 そこで本研究では,学習可能なプロジェクタと特徴蒸留を統合し,過去の知識を犠牲にすることなくモデル適応性を向上する手法を提案する。 得られたカテゴリの分布シフトは、補助カテゴリ適応ネットワークにより緩和される。 CAMP(Category Adaptation Meets Projected distillation)と呼ばれる組み合わせは、各コンポーネントが個別に穏やかなメリットを提供する一方で、新しい情報学習と古い情報保持のバランスを大幅に改善することを示した。 CAMPは、いくつかのGCCDおよびクラスインクリメンタルラーニングシナリオで優れたパフォーマンスを示している。 コードはhttps://github.com/grypesc/CAMPで公開されている。

Generalized Continual Category Discovery (GCCD) tackles learning from sequentially arriving, partially labeled datasets while uncovering new categories. Traditional methods depend on feature distillation to prevent forgetting the old knowledge. However, this strategy restricts the model's ability to adapt and effectively distinguish new categories. To address this, we introduce a novel technique integrating a learnable projector with feature distillation, thus enhancing model adaptability without sacrificing past knowledge. The resulting distribution shift of the previously learned categories is mitigated with the auxiliary category adaptation network. We demonstrate that while each component offers modest benefits individually, their combination - dubbed CAMP (Category Adaptation Meets Projected distillation) - significantly improves the balance between learning new information and retaining old. CAMP exhibits superior performance across several GCCD and Class Incremental Learning scenarios. The code is available at https://github.com/grypesc/CAMP.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# Belebeleベンチマーク:122の言語変数における並列読み込みデータセット

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants ( http://arxiv.org/abs/2308.16884v2 )

ライセンス: Link先を確認
Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa, (参考訳) 本稿では,122言語にまたがるMultiple-choice Machine read comprehension (MRC)データセットについて述べる。 このデータセットは、自然言語理解(NLU)ベンチマークの言語カバレッジを著しく拡大し、高、中、低リソース言語におけるテキストモデルの評価を可能にする。 各質問はFlores-200データセットからの短いパスに基づいており、複数の回答が4つある。 質問は、言語理解のレベルが異なるモデル間で識別するために慎重に収集された。 英語のデータセット自体が、最先端の言語モデルに挑戦するのに十分な難しさを証明している。 このデータセットは完全に並列であるため、すべての言語でモデルパフォーマンスを直接比較することができる。 このデータセットを用いて、多言語マスキング言語モデル(MLM)と大規模言語モデル(LLM)の機能を評価する。 我々は、英語中心のLLMにおいて、言語間移動が著しいにもかかわらず、バランスの取れた多言語データに基づいて事前訓練されたより小さなMLMの方が、はるかに多くの言語を理解できることを発見した。 また,より大きい語彙サイズと意識的な語彙構成は,低リソース言語の性能と相関することを示した。 全体として、BelebeleはNLPシステムの多言語機能の評価と解析のための新しい道を開く。

We present Belebele, a multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants. Significantly expanding the language coverage of natural language understanding (NLU) benchmarks, this dataset enables the evaluation of text models in high-, medium-, and low-resource languages. Each question is based on a short passage from the Flores-200 dataset and has four multiple-choice answers. The questions were carefully curated to discriminate between models with different levels of general language comprehension. The English dataset on its own proves difficult enough to challenge state-of-the-art language models. Being fully parallel, this dataset enables direct comparison of model performance across all languages. We use this dataset to evaluate the capabilities of multilingual masked language models (MLMs) and large language models (LLMs). We present extensive results and find that despite significant cross-lingual transfer in English-centric LLMs, much smaller MLMs pretrained on balanced multilingual data still understand far more languages. We also observe that larger vocabulary size and conscious vocabulary construction correlate with better performance on low-resource languages. Overall, Belebele opens up new avenues for evaluating and analyzing the multilingual capabilities of NLP systems.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# 量子古典的フィードバックによる離散時間結晶の延長

Prolonging a discrete time crystal by quantum-classical feedback ( http://arxiv.org/abs/2309.02151v2 )

ライセンス: Link先を確認
Gonzalo Camacho, Benedikt Fauseweh, (参考訳) 時間結晶固有状態秩序を特徴とする量子物質の非平衡相は、近年、ノイズのある中間スケール量子(NISQ)デバイスで実現されている。 理想的な量子時間結晶は集合的なサブハーモニック振動を示し、時空間の長距離秩序は無限に持続するが、現在のNISQデバイスのデコヒーレンス時間はこれらの位相の生存に自然な制限を課し、それらの観測を浅い量子回路に制限する。 本稿では,システムのサブリージョンにおける量子古典的フィードバックプロトコルを活用して,デコヒーレンス時間を大幅に超える時間結晶信号を強化する時間周期スキームを提案する。 本研究は,多体局所化離散時間結晶相を1次元周期的に蹴り上げたイジングモデルで生かし,環境との非一貫性を考慮に入れた実験である。 量子回路実現の古典的なシミュレーションに基づいて、このアプローチは既存の量子ハードウェアの実装に適しており、現在のデジタル量子コンピュータの低深さ限界を超越する複雑な量子多体力学をシミュレートする先進的な経路を示す。

Nonequilibrium phases of quantum matter featuring time crystalline eigenstate order have been realized recently on noisy intermediate-scale quantum (NISQ) devices. While ideal quantum time crystals exhibit collective subharmonic oscillations and spatiotemporal long-range order persisting for infinite times, the decoherence time of current NISQ devices sets a natural limit to the survival of these phases, restricting their observation to a shallow quantum circuit. Here we propose a time-periodic scheme that leverages quantum-classical feedback protocols in subregions of the system to enhance a time crystal signal significantly exceeding the decoherence time of the device. As a case of study, we demonstrate the survival of the many-body localized discrete time crystal phase in the one-dimensional periodically kicked Ising model, accounting for decoherence of the system with an environment. Based on classical simulation of quantum circuit realizations we find that this approach is suitable for implementation on existing quantum hardware and presents a prospective path to simulate complex quantum many-body dynamics that transcend the low depth limit of current digital quantum computers.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# Spalart-Allmaras乱流モデルに対するロバストな実験データ同化

Robust experimental data assimilation for the Spalart-Allmaras turbulence model ( http://arxiv.org/abs/2309.06679v3 )

ライセンス: Link先を確認
Deepinder Jot Singh Aulakh, Xiang Yang, Romit Maulik, (参考訳) 本研究では,Reynolds-averaged Navier-Stokesソリューションに対するSpalart-Allmaras(SA)クロージャモデルを改善するために,計算モデルと実験データ融合の利用に焦点を当てた方法論を提案する。 特に, 乱流モデルの性能向上のために, スパース実験データを同化するだけでなく, 古典的なSAの挙動を復元することによって, 目に見えないケースの一般化を保った技術を開発することが目的である。 データ同化、すなわちEnsemble Kalman filtering approach(EnKF)を用いて、分離フローに対するSAモデルの係数をキャリブレーションする。 総論的なキャリブレーション戦略は, 生産, 拡散, 破壊条件のパラメータ化によって実現される。 このキャリブレーションは、速度プロファイル、皮膚摩擦、圧力係数の形で収集された実験データの同化に依存する。 後方向きステップ(BFS)の周囲の単一流れ状態からの観測データを用いたにもかかわらず、再検討されたSAモデルは、NASAの壁マウントハンプ(2D-WMH)や修正されたBFSなどの他の分離フローへの一般化を実証している。 テストした各流れに対する皮膚摩擦係数(C_f$)および圧力係数(C_p$)の量の重要な改善が観察される。 また, NACA-0012 翼や軸対称噴流 (ASJ) などの流れに対するSA能率の回復を図り, 個別に調整されたSA型ターゲット比流量場において, キャリブレーションされた生産期間が再循環域を改善するとともに, 回復域を改善することを実証した。

This study presents a methodology focusing on the use of computational model and experimental data fusion to improve the Spalart-Allmaras (SA) closure model for Reynolds-averaged Navier-Stokes solutions. In particular, our goal is to develop a technique that not only assimilates sparse experimental data to improve turbulence model performance, but also preserves generalization for unseen cases by recovering classical SA behavior. We achieve our goals using data assimilation, namely the Ensemble Kalman filtering approach (EnKF), to calibrate the coefficients of the SA model for separated flows. A holistic calibration strategy is implemented via the parameterization of the production, diffusion, and destruction terms. This calibration relies on the assimilation of experimental data collected in the form of velocity profiles, skin friction, and pressure coefficients. Despite using observational data from a single flow condition around a backward-facing step (BFS), the recalibrated SA model demonstrates generalization to other separated flows, including cases such as the 2D NASA wall mounted hump (2D-WMH) and modified BFS. Significant improvement is observed in the quantities of interest, i.e., skin friction coefficient ($C_f$) and pressure coefficient ($C_p$) for each flow tested. Finally, it is also demonstrated that the newly proposed model recovers SA proficiency for flows, such as a NACA-0012 airfoil and axisymmetric jet (ASJ), and that the individually calibrated terms in the SA model target specific flow-physics wherein the calibrated production term improves the re-circulation zone while destruction improves the recovery zone.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# POCKET:特徴選択から見た時系列分類のためのランダム畳み込みカーネル

POCKET: Pruning Random Convolution Kernels for Time Series Classification from a Feature Selection Perspective ( http://arxiv.org/abs/2309.08499v4 )

ライセンス: Link先を確認
Shaowu Chen, Weize Sun, Lei Huang, Xiaopeng Li, Qingyuan Wang, Deepu John, (参考訳) 近年、ROCKETとMINIROCKETという2つの競合時系列分類モデルが、トレーニングコストの低さと高い精度で注目されている。 しかし、リソース制約のあるデバイスと互換性のない機能を包括的にキャプチャするために、多数のランダムな1-D畳み込みカーネルに依存している。 冗長カーネルを認識およびプルークするために設計されたヒューリスティックアルゴリズムの開発にもかかわらず、進化的アルゴリズムの本質的な時間的特性は効率的な評価を妨げている。 そこで本研究では,分類器に最小限に寄与する特徴群を除去し,関連するランダムカーネルを直接評価せずに破棄する。 この目的のために、グループレベル(l_{2,1}$-norm)と要素レベル(l_2$-norm)の正規化の両方を分類器に組み込み、プルーニングチャレンジを群弾性ネット分類問題として定式化する。 ADMMに基づくアルゴリズムは、当初はこの問題を解決するために導入されたが、計算集約的である。 ADMMに基づくアルゴリズムをベースとして,タスクを2段階に分割することで処理を著しく高速化するコアアルゴリズムであるPOCKETを提案する。 ステージ1では、PockETは動的に変化するペナルティを利用して分類器内のグループ間隔を効率的に達成し、ゼロウェイトとその対応するカーネルに関連する特徴を除去する。 ステージ2では、残りのカーネルと機能は、パフォーマンスを向上させるために$l2$-regularized classifierに適合するために使用される。 多様な時系列データセットによる実験結果から、POCKETは精度を著しく低下させることなく最大60%のカーネルを産み出し、それよりも11$\times$高速に動作していることがわかった。 私たちのコードはhttps://github.com/ShaowuChen/POCKET.comで公開されています。

In recent years, two competitive time series classification models, namely, ROCKET and MINIROCKET, have garnered considerable attention due to their low training cost and high accuracy. However, they rely on a large number of random 1-D convolutional kernels to comprehensively capture features, which is incompatible with resource-constrained devices. Despite the development of heuristic algorithms designed to recognize and prune redundant kernels, the inherent time-consuming nature of evolutionary algorithms hinders efficient evaluation. To efficiently prune models, this paper eliminates feature groups contributing minimally to the classifier, thereby discarding the associated random kernels without direct evaluation. To this end, we incorporate both group-level ($l_{2,1}$-norm) and element-level ($l_2$-norm) regularizations to the classifier, formulating the pruning challenge as a group elastic net classification problem. An ADMM-based algorithm is initially introduced to solve the problem, but it is computationally intensive. Building on the ADMM-based algorithm, we then propose our core algorithm, POCKET, which significantly speeds up the process by dividing the task into two sequential stages. In Stage 1, POCKET utilizes dynamically varying penalties to efficiently achieve group sparsity within the classifier, removing features associated with zero weights and their corresponding kernels. In Stage 2, the remaining kernels and features are used to refit a $l_2$-regularized classifier for enhanced performance. Experimental results on diverse time series datasets show that POCKET prunes up to 60% of kernels without a significant reduction in accuracy and performs 11$\times$ faster than its counterparts. Our code is publicly available at https://github.com/ShaowuChen/POCKET.
公開日:2024-07-24
翻訳日:2024-07-26 19:56:25
# 読解理解による大規模言語モデルのドメインへの適応

Adapting Large Language Models to Domains via Reading Comprehension ( http://arxiv.org/abs/2309.09530v4 )

ライセンス: Link先を確認
Daixuan Cheng, Shaohan Huang, Furu Wei, (参考訳) ドメイン固有コーパスの事前学習が大規模言語モデルにどのように影響するかを探索し、生コーパスのトレーニングがドメイン知識を生かしたモデルを実現するが、質問応答の促進能力を大幅に損なうことを明らかにした。 読み書きによる人間の学習からインスピレーションを得る-学習知識に基づいて質問に答える能力を向上させる-本研究では、生コーパスを読解テキストに変換する簡単な方法を提案する。 各原文は、その内容に関連する一連のタスクで濃縮される。 本手法は,任意の事前学習コーパスに適用可能であり,バイオメディシン,ファイナンス,法則の3分野において,様々なタスクにまたがるパフォーマンスを継続的に向上させる。 特に、我々の7B言語モデルは、BloombergGPT-50Bのような非常に大きなスケールのドメイン固有モデルと競合する性能を実現しています。 さらに、一般ベンチマークにおいても、ドメイン固有の読解テキストがモデルの性能を向上させることを実証し、さらに多くのドメインにまたがる汎用モデルを開発する可能性を示す。 私たちのモデル、コード、データはhttps://github.com/microsoft/LMOps.comで公開されています。

We explore how continued pre-training on domain-specific corpora influences large language models, revealing that training on the raw corpora endows the model with domain knowledge, but drastically hurts its prompting ability for question answering. Taken inspiration from human learning via reading comprehension--practice after reading improves the ability to answer questions based on the learned knowledge--we propose a simple method for transforming raw corpora into reading comprehension texts. Each raw text is enriched with a series of tasks related to its content. Our method, highly scalable and applicable to any pre-training corpora, consistently enhances performance across various tasks in three different domains: biomedicine, finance, and law. Notably, our 7B language model achieves competitive performance with domain-specific models of much larger scales, such as BloombergGPT-50B. Furthermore, we demonstrate that domain-specific reading comprehension texts can improve the model's performance even on general benchmarks, showing the potential to develop a general model across even more domains. Our model, code, and data are available at https://github.com/microsoft/LMOps.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# SPOT: 学習可能な3次元表現のための操作予測によるスケーラブルな3次元事前学習

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations ( http://arxiv.org/abs/2309.10527v3 )

ライセンス: Link先を確認
Xiangchao Yan, Runjian Chen, Bo Zhang, Hancheng Ye, Renqiu Xia, Jiakang Yuan, Hongbin Zhou, Xinyu Cai, Botian Shi, Wenqi Shao, Ping Luo, Yu Qiao, Tao Chen, Junchi Yan, (参考訳) 認識タスクのために3D LiDARポイントクラウドを注釈付けすることは、例えば自動運転など多くのアプリケーションにとって基本的なことですが、依然として労働集約的です。 トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。 本稿では,SPOT,すなわち,ラベル効率のよい微調整パラダイムの下で,トランスファーブルな3次元表現を学習するために,Occupancy予測によるスケーラブルな事前学習を提案する。 SPOTは、さまざまなダウンストリームタスクを持つ公開データセットにおいて、その汎用的な表現力、クロスドメインの堅牢性、および実際のアプリケーションにとって重要な3つの要素であるデータのスケーラビリティを示す。 具体的には、我々は理論的にも経験的にも、一般表現の学習は、占有予測のタスクを通じて達成できることを初めて示す。 そこで我々は,異なるLiDARセンサとアノテーション手法によって生じる領域ギャップに対処するため,ビーム再サンプリング技術を開発した。 さらに、スケーラブルな事前トレーニング、すなわち、すべての実験におけるダウンストリームのパフォーマンスは、より多くの事前トレーニングデータで改善される。 さらに、そのような事前トレーニング戦略は、ラベルのないデータとも互換性が保たれている。 本研究の成果は,LiDARポイントの理解を促進し,LiDAR事前トレーニングの今後の進歩への道を開くことを願っている。

Annotating 3D LiDAR point clouds for perception tasks is fundamental for many applications e.g., autonomous driving, yet it still remains notoriously labor-intensive. Pretraining-finetuning approach can alleviate the labeling burden by fine-tuning a pre-trained backbone across various downstream datasets as well as tasks. In this paper, we propose SPOT, namely Scalable Pre-training via Occupancy prediction for learning Transferable 3D representations under such a label-efficient fine-tuning paradigm. SPOT achieves effectiveness on various public datasets with different downstream tasks, showcasing its general representation power, cross-domain robustness and data scalability which are three key factors for real-world application. Specifically, we both theoretically and empirically show, for the first time, that general representations learning can be achieved through the task of occupancy prediction. Then, to address the domain gap caused by different LiDAR sensors and annotation methods, we develop a beam re-sampling technique for point cloud augmentation combined with class-balancing strategy. Furthermore, scalable pre-training is observed, that is, the downstream performance across all the experiments gets better with more pre-training data. Additionally, such pre-training strategy also remains compatible with unlabeled data. The hope is that our findings will facilitate the understanding of LiDAR points and pave the way for future advancements in LiDAR pre-training.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# ハイパースペクトル画像分類のためのアテンションゲート調整によるブリジングセンサギャップ

Bridging Sensor Gaps via Attention Gated Tuning for Hyperspectral Image Classification ( http://arxiv.org/abs/2309.12865v3 )

ライセンス: Link先を確認
Xizhe Xue, Haokui Zhang, Zongwen Bai, Ying Li, (参考訳) データハングリーなHSI分類法は高品質なラベル付きHSIを必要とするが、しばしば入手するのにコストがかかる。 この特徴は、限られたアノテーション付きサンプルを扱う際に、データ駆動メソッドのパフォーマンス可能性を制限する。 異なるセンサーから取得したデータ間の領域ギャップを埋めることで、センサー間でのラベル付きデータの豊富な利用によって、このボトルネックを突破することができる。 本稿では,この問題を解決するために,新しいAttention-Gated Tuning(AGT)戦略と三重構造トランスモデルTri-Formerを提案する。 AGT戦略はブリッジとして機能し、既存のラベル付きHSIデータセット、さらにはRGBデータセットを利用して、限られたサンプルを持つ新しいHSIデータセットのパフォーマンスを向上させることができます。 基本モデルに追加パラメータを追加する代わりに、中間機能を基本モデルからの入力として取り出し、予測を行う軽量補助ブランチを訓練する。 提案したAGTは、乱れ情報を抑制し、ソフトゲートを介して有用な情報を強化することにより、異種データとクロスモーダルデータの衝突を解消する。 さらに、パラメータ利用率と計算効率を向上させるスペクトル空間分離設計のトリプルト構造変換器であるTri-Formerを導入し、より簡単かつ柔軟な微調整を可能にした。 異なるセンサによってキャプチャされた3つの代表的HSIデータセットの比較実験により、提案したTri-Formerは、いくつかの最先端手法よりも優れた性能を示す。 ホモロジー,異種およびクロスモーダルなチューニング実験により提案したAGTの有効性が検証された。 コードは以下の通りである。 \href{https://github.com/Cecilia-xue/AGT}{https://github.com/Cecilia-xue/AGT}。

Data-hungry HSI classification methods require high-quality labeled HSIs, which are often costly to obtain. This characteristic limits the performance potential of data-driven methods when dealing with limited annotated samples. Bridging the domain gap between data acquired from different sensors allows us to utilize abundant labeled data across sensors to break this bottleneck. In this paper, we propose a novel Attention-Gated Tuning (AGT) strategy and a triplet-structured transformer model, Tri-Former, to address this issue. The AGT strategy serves as a bridge, allowing us to leverage existing labeled HSI datasets, even RGB datasets to enhance the performance on new HSI datasets with limited samples. Instead of inserting additional parameters inside the basic model, we train a lightweight auxiliary branch that takes intermediate features as input from the basic model and makes predictions. The proposed AGT resolves conflicts between heterogeneous and even cross-modal data by suppressing the disturbing information and enhances the useful information through a soft gate. Additionally, we introduce Tri-Former, a triplet-structured transformer with a spectral-spatial separation design that enhances parameter utilization and computational efficiency, enabling easier and flexible fine-tuning. Comparison experiments conducted on three representative HSI datasets captured by different sensors demonstrate the proposed Tri-Former achieves better performance compared to several state-of-the-art methods. Homologous, heterologous and cross-modal tuning experiments verified the effectiveness of the proposed AGT. Code has been released at: \href{https://github.com/Cecilia-xue/AGT}{https://github.com/Cecilia-xue/AGT}.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# Brand Network Booster:ブランド接続性を改善する新システム

Brand Network Booster: A new system for improving brand connectivity ( http://arxiv.org/abs/2309.16228v2 )

ライセンス: Link先を確認
J. Cancellieri, W. Didimo, A. Fronzetti Colladon, F. Montecchiani, R. Vestrelli, (参考訳) 本稿では、ブランドイメージのより深い探索と接続性向上のための洞察を提供する、セマンティックネットワークの詳細な分析のための新しい意思決定支援システムを提案する。 ネットワーク分析の観点では、敵ノード, 制約付き予算, 重み付きネットワークを考慮し、リンクの追加や既存の接続の重み付けによって接続性の向上を図ることを含む、最大相互性改善問題の拡張版を解くことにより、この目標が達成されることを示す。 私たちのコントリビューションには、新しいアルゴリズムフレームワークと、ブランド接続評価と改善をサポートするBrand Network Booster(BNB)と呼ばれるソフトウェアシステムへのこのフレームワークの統合が含まれています。 本稿では,本システムと3つのケーススタディについて述べるとともに,その性能についても考察する。 当社のツールとアプローチは,ネットワーク学者にも,さまざまな分野にわたるマーケティングやコミュニケーションマネージャのための戦略的意思決定プロセスの促進にも有用です。

This paper presents a new decision support system offered for an in-depth analysis of semantic networks, which can provide insights for a better exploration of a brand's image and the improvement of its connectivity. In terms of network analysis, we show that this goal is achieved by solving an extended version of the Maximum Betweenness Improvement problem, which includes the possibility of considering adversarial nodes, constrained budgets, and weighted networks - where connectivity improvement can be obtained by adding links or increasing the weight of existing connections. Our contribution includes a new algorithmic framework and the integration of this framework into a software system called Brand Network Booster (BNB), which supports brand connectivity evaluation and improvement. We present this new system together with three case studies, and we also discuss its performance. Our tool and approach are valuable to both network scholars and in facilitating strategic decision-making processes for marketing and communication managers across various sectors, be it public or private.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# 傾斜機能材料の付加的製造のための機械学習手法のレビュー

Review of Machine Learning Methods for Additive Manufacturing of Functionally Graded Materials ( http://arxiv.org/abs/2309.16571v2 )

ライセンス: Link先を確認
Mohammad Karimzadeh, Deekshith Basvoju, Aleksandar Vakanski, Indrajit Charit, Fei Xu, Xinchang Zhang, (参考訳) アダプティブ・マニュファクチャリング (AM) は、3次元モデリングデータから複合部品層間を直接製造できるトランスフォーメーション・マニュファクチャリング技術である。 AMアプリケーションの中でFGM(Functional Graded Materials)の製造は、いくつかの産業で部品性能が向上する可能性から重要である。 FGMは異種材料間の勾配組成遷移によって製造され、位置依存の機械的・物理的特性を持つ新しい材料の設計を可能にする。 本研究では、機械学習技術(ML)のAMにおける実装に関する文献の総合的なレビューを行い、FGMの製造プロセスを最適化するMLベースの手法に焦点を当てた。 本稿では,FGMの製作における固有の課題に対処する上でMLが果たす役割について概説し,パラメータ最適化,欠陥検出,リアルタイムモニタリングなどについて述べる。 この記事では、FGMのAM製造にMLベースの手法を採用する際の今後の研究の方向性と課題についても論じる。

Additive Manufacturing (AM) is a transformative manufacturing technology enabling direct fabrication of complex parts layer-be-layer from 3D modeling data. Among AM applications, the fabrication of Functionally Graded Materials (FGMs) has significant importance due to the potential to enhance component performance across several industries. FGMs are manufactured with a gradient composition transition between dissimilar materials, enabling the design of new materials with location-dependent mechanical and physical properties. This study presents a comprehensive review of published literature pertaining to the implementation of Machine Learning (ML) techniques in AM, with an emphasis on ML-based methods for optimizing FGMs fabrication processes. Through an extensive survey of the literature, this review article explores the role of ML in addressing the inherent challenges in FGMs fabrication and encompasses parameter optimization, defect detection, and real-time monitoring. The article also provides a discussion of future research directions and challenges in employing ML-based methods in AM fabrication of FGMs.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# 点PEFT:3次元事前学習モデルのためのパラメータ効率の良いファインチューニング

Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models ( http://arxiv.org/abs/2310.03059v7 )

ライセンス: Link先を確認
Yiwen Tang, Ray Zhang, Zoey Guo, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li, (参考訳) 事前訓練された大規模モデルの人気は、言語、ビジョン、マルチモダリティといった様々な分野の下流タスクに革命をもたらした。 下流タスクの適応コストを最小限に抑えるために,言語および2次元画像事前訓練モデルに対して,パラメータ効率の良い細調整(PEFT)技術が多数提案されている。 しかし,3次元事前学習モデルのPEFT法はまだ未検討である。 そこで本研究では,学習可能な最小限のパラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。 具体的には、事前学習された3Dモデルに対して、パラメータのほとんどを凍結し、新たに追加されたPEFTモジュールを下流タスクで調整する。 Point-prior Promptは学習可能なプロンプトトークンの集合を採用し、ドメイン固有の知識を持つメモリバンクの構築を提案し、パラメータフリーの注意を使ってプロンプトトークンを強化する。 Geometry-Aware Adapterは、空間近傍の点雲の特徴を集約し、局所的な相互作用を通じてきめ細かい幾何学的情報をキャプチャすることを目的としている。 実験結果から, 学習パラメータの5%しか使用せず, 各種下流タスクの完全微調整よりも優れた性能を達成できることが示唆された。 コードはhttps://github.com/Ivan-Tang-3D/Point-PEFTで公開されている。

The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code is released at https://github.com/Ivan-Tang-3D/Point-PEFT.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# HarmonicNeRF: Geometry-Informed Synthetic View Augmentation for 3D Scene Reconstruction in Driving Scenarios

HarmonicNeRF: Geometry-Informed Synthetic View Augmentation for 3D Scene Reconstruction in Driving Scenarios ( http://arxiv.org/abs/2310.05483v5 )

ライセンス: Link先を確認
Xiaochao Pan, Jiawei Yao, Hongrui Kou, Tong Wu, Canran Xiao, (参考訳) 自動運転の分野では、運転環境の正確な3次元再構築を実現することが安全性と効果的なナビゲーションの確保に不可欠である。 Neural Radiance Fields (NeRF)は複雑な環境の高精度で正確なモデルを作成することを約束している。 しかし、自律走行シナリオにおけるNeRFの適用は、主にカメラ軌跡に固有の視点の広さと、通常所定の経路に沿って発生する非有界屋外シーンにおけるデータ収集の制約により、いくつかの課題に直面する。 この制限は、利用可能なシーン情報を減らすだけでなく、スパースとパス分散観測データによってシーンの幾何学が過小評価されるため、NeRFトレーニングに重大な課題をもたらす。 本稿では,屋外の自己監督型単分子シーン再構築のための新しいアプローチであるHarmonicNeRFを紹介する。 HarmonicNeRFは、NeRFの強度を活かし、幾何学的インフォームド合成ビューで入力空間を拡大することで表面再構成の精度を高める。 これは球面調和を利用して新しい放射率値を生成し、利用可能な実世界の限られた視点からの色観測を慎重に検討することで達成される。 さらに,従来のイメージワープ手法の限界を回避し,自律走行環境に典型的な疎らなデータ条件でしばしば失敗するレージアンス擬似ラベルを生成することによって,隠蔽を効果的に管理するためのプロキシ・ジオメトリが組み込まれている。 KITTI,Argoverse,NuScenesのデータセットを用いた大規模な実験により,新しい深度ビューの合成とシーンの再構築のための新しいベンチマークが確立され,既存の手法を著しく上回る結果が得られた。 プロジェクトページ:https://github.com/Jiawei-Yao0812/HarmonicNeRF

In the realm of autonomous driving, achieving precise 3D reconstruction of the driving environment is critical for ensuring safety and effective navigation. Neural Radiance Fields (NeRF) have shown promise in creating highly detailed and accurate models of complex environments. However, the application of NeRF in autonomous driving scenarios encounters several challenges, primarily due to the sparsity of viewpoints inherent in camera trajectories and the constraints on data collection in unbounded outdoor scenes, which typically occur along predetermined paths. This limitation not only reduces the available scene information but also poses significant challenges for NeRF training, as the sparse and path-distributed observational data leads to under-representation of the scene's geometry. In this paper, we introduce HarmonicNeRF, a novel approach for outdoor self-supervised monocular scene reconstruction. HarmonicNeRF capitalizes on the strengths of NeRF and enhances surface reconstruction accuracy by augmenting the input space with geometry-informed synthetic views. This is achieved through the application of spherical harmonics to generate novel radiance values, taking into careful consideration the color observations from the limited available real-world views. Additionally, our method incorporates proxy geometry to effectively manage occlusion, generating radiance pseudo-labels that circumvent the limitations of traditional image-warping techniques, which often fail in sparse data conditions typical of autonomous driving environments. Extensive experiments conducted on the KITTI, Argoverse, and NuScenes datasets demonstrate our approach establishes new benchmarks in synthesizing novel depth views and reconstructing scenes, significantly outperforming existing methods. Project page: https://github.com/Jiawei-Yao0812/HarmonicNeRF
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# QE-BEV:潜伏した状況下での鳥の視線オブジェクト検出のためのクエリ進化

QE-BEV: Query Evolution for Bird's Eye View Object Detection in Varied Contexts ( http://arxiv.org/abs/2310.05989v3 )

ライセンス: Link先を確認
Jiawei Yao, Yingxin Lai, Hongrui Kou, Tong Wu, Ruixi Liu, (参考訳) 3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を担い、バードアイビュー(Bird's Eye View, BEV)の画像の正確な解釈を要求する。 実世界の環境のダイナミックな性質は、これらのシーンに存在する複雑な時空間関係を適応的にキャプチャし処理するために、3次元オブジェクト検出に動的クエリ機構を使う必要がある。 しかしながら、動的クエリの以前の実装は、特に時間的情報を計算的に効率的に統合することに関して、これらの関係を効果的に活用することの難しさに直面していることが多い。 この制限に対処するため、動的クエリ進化戦略を利用したフレームワークを導入し、K平均クラスタリングとTop-Kアテンション機構を改良した時空間データ処理に適用する。 BEV空間を動的にセグメンテーションし、Top-Kによる重要な特徴の優先順位付けを行うことで、我々のモデルは、関連するシーン要素をリアルタイムに集中的に分析する。 nuScenesとWaymoデータセットに関する広範な評価では、検出精度が大幅に向上し、クエリベースのBEVオブジェクト検出の領域に新たなベンチマークが設定された。 我々の動的クエリ進化戦略は、適応性と計算効率を向上した現行のBEV手法の境界を推し進める可能性がある。 プロジェクトページ:https://github.com/Jiawei-Yao0812/QE-BEV

3D object detection plays a pivotal role in autonomous driving and robotics, demanding precise interpretation of Bird's Eye View (BEV) images. The dynamic nature of real-world environments necessitates the use of dynamic query mechanisms in 3D object detection to adaptively capture and process the complex spatio-temporal relationships present in these scenes. However, prior implementations of dynamic queries have often faced difficulties in effectively leveraging these relationships, particularly when it comes to integrating temporal information in a computationally efficient manner. Addressing this limitation, we introduce a framework utilizing dynamic query evolution strategy, harnesses K-means clustering and Top-K attention mechanisms for refined spatio-temporal data processing. By dynamically segmenting the BEV space and prioritizing key features through Top-K attention, our model achieves a real-time, focused analysis of pertinent scene elements. Our extensive evaluation on the nuScenes and Waymo dataset showcases a marked improvement in detection accuracy, setting a new benchmark in the domain of query-based BEV object detection. Our dynamic query evolution strategy has the potential to push the boundaries of current BEV methods with enhanced adaptability and computational efficiency. Project page: https://github.com/Jiawei-Yao0812/QE-BEV
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# ボロノイ分割に基づくワッサーシュタイン近似スキーム

Wasserstein approximation schemes based on Voronoi partitions ( http://arxiv.org/abs/2310.09149v2 )

ライセンス: Link先を確認
Keaton Hamm, Varun Khurana, (参考訳) ワッサーシュタイン空間 $\mathrm{W}_p(\mathbb{R}^d)$ for $p\in[1,\infty)$ における測度の構造化近似を考える。 フルランク格子 $\Lambda$ が $h\in(0,1]$ の係数でスケールされると、$h\Lambda$ の Voronoi 分割に基づく測度の近似は $d$ や $p$ に関わらず$O(h)$ となる。 次に、コンパクトに支持された測度に対する$N$の長期近似が$O(N^{-\frac1d})$であることを示し、ほとんどの場合、最適量化器の既知の速度と経験的測度近似とを一致させる。 さらに,この構成を不均一なボロノイ分割に一般化し,様々な測度近似シナリオに対するアプローチの柔軟性と堅牢性を強調した。 最後に、これらの結果を十分な減衰を伴う非コンパクトな対応尺度に拡張する。 我々の発見は、画像などの構造化データを表現するために、コンピュータビジョンや機械学習の応用に関係している。

We consider structured approximation of measures in Wasserstein space $\mathrm{W}_p(\mathbb{R}^d)$ for $p\in[1,\infty)$ using general measure approximants compactly supported on Voronoi regions derived from a scaled Voronoi partition of $\mathbb{R}^d$. We show that if a full rank lattice $\Lambda$ is scaled by a factor of $h\in(0,1]$, then approximation of a measure based on the Voronoi partition of $h\Lambda$ is $O(h)$ regardless of $d$ or $p$. We then use a covering argument to show that $N$-term approximations of compactly supported measures is $O(N^{-\frac1d})$ which matches known rates for optimal quantizers and empirical measure approximation in most instances. Additionally, we generalize our construction to nonuniform Voronoi partitions, highlighting the flexibility and robustness of our approach for various measure approximation scenarios. Finally, we extend these results to noncompactly supported measures with sufficient decay. Our findings are pertinent to applications in computer vision and machine learning where measures are used to represent structured data such as images.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# 最適一局所仮想量子放送

Optimal unilocal virtual quantum broadcasting ( http://arxiv.org/abs/2310.15156v3 )

ライセンス: Link先を確認
Hongshun Yao, Xia Liu, Chengkai Zhu, Xin Wang, (参考訳) 量子放送は量子情報処理の中心であり、量子状態内の相関を特徴付ける。 それでも、伝統的な量子放送は、量子力学の原理によって規定される固有の制限に遭遇する。 以前の研究では、Parzygnat et al (Phys. Rev. Lett. 132, 110203 (2024)) は、仮想過程を通じて量子放送定理を超える正準放送量子マップを導入した。 本研究では,仮想放送の概念を,参照システムを導入し,物理演算を用いて最小限のコストで近似可能なプロトコルを導入することにより,一元的放送に一般化する。 まず、観測可能な任意の期待値にエンコードされたターゲットバイパーティイト状態の相関関係を複数のパーティで共有できる普遍的一元的プロトコルを提案する。 第2に、仮想量子放送プロトコルのシミュレーションコストを半定値プログラミング問題に形式化する。 特に,2ブロードキャストシナリオに対して最適なシミュレーションコストを持つ特定のプロトコルを提案し,シミュレーションコストと量子システムの次元との明確な関係を明らかにする。 さらに,仮想$n$-ブロードキャスティングプロトコルのシミュレーションコストの上限値と下限値を確立し,量子系の次元が大きくなるにつれて下限値が上限値に収束することを示す。

Quantum broadcasting is central to quantum information processing and characterizes the correlations within quantum states. Nonetheless, traditional quantum broadcasting encounters inherent limitations dictated by the principles of quantum mechanics. In a previous study, Parzygnat et al. [Phys. Rev. Lett. 132, 110203 (2024)] introduced a canonical broadcasting quantum map that goes beyond the quantum no-broadcasting theorem through a virtual process. In this work, we generalize the concept of virtual broadcasting to unilocal broadcasting by incorporating a reference system and introduce protocols that can be approximated using physical operations with minimal cost. First, we propose a universal unilocal protocol enabling multiple parties to share the correlations of a target bipartite state, which is encoded in the expectation value for any observable. Second, we formalize the simulation cost of a virtual quantum broadcasting protocol into a semidefinite programming problem. Notably, we propose a specific protocol with optimal simulation cost for the 2-broadcasting scenario, revealing an explicit relationship between simulation cost and the quantum system's dimension. Moreover, we establish upper and lower bounds on the simulation cost of the virtual $n$-broadcasting protocol and demonstrate the convergence of the lower bound to the upper bound as the quantum system's dimension increases.
公開日:2024-07-25
翻訳日:2024-07-26 19:56:25
# テンソルネットワークによる連続データ生成学習

Generative Learning of Continuous Data by Tensor Networks ( http://arxiv.org/abs/2310.20498v2 )

ライセンス: Link先を確認
Alex Meiburg, Jing Chen, Jacob Miller, Raphaëlle Tihon, Guillaume Rabusseau, Alejandro Perdomo-Ortiz, (参考訳) テンソルネットワークは、多体量子システムのモデリングに起源を持つだけでなく、機械学習、特に教師なし生成学習において、機械学習問題を解決するための有望なモデルのクラスとして登場した。 量子にインスパイアされた性質から多くの望ましい特徴を持っているが、テンソルネットワーク生成モデルは以前はバイナリデータやカテゴリデータに大きく制限されており、実世界のモデリング問題においてその有用性を制限してきた。 連続確率変数を含む分布から学習可能な連続データのためのテンソルネットワーク生成モデルの新たなファミリを導入することでこれを克服する。 まず、このモデル族が任意の精度で合理的に滑らかな確率密度関数を近似する能力を証明した普遍的表現性定理を導出した。 次に、このモデルの性能をいくつかの合成および実世界のデータセットでベンチマークし、連続変数と離散変数の分布についてモデルを学習し、一般化することを発見した。 我々は、異なるデータ領域をモデル化する手法を開発し、限られたメモリや計算資源を与えられたモデル性能を向上させることができる訓練可能な圧縮層を導入する。 全体として、本手法は、急速に成長する生成学習分野に対する量子インスピレーション法の有効性に関する重要な理論的および実証的な証拠を与える。

Beyond their origin in modeling many-body quantum systems, tensor networks have emerged as a promising class of models for solving machine learning problems, notably in unsupervised generative learning. While possessing many desirable features arising from their quantum-inspired nature, tensor network generative models have previously been largely restricted to binary or categorical data, limiting their utility in real-world modeling problems. We overcome this by introducing a new family of tensor network generative models for continuous data, which are capable of learning from distributions containing continuous random variables. We develop our method in the setting of matrix product states, first deriving a universal expressivity theorem proving the ability of this model family to approximate any reasonably smooth probability density function with arbitrary precision. We then benchmark the performance of this model on several synthetic and real-world datasets, finding that the model learns and generalizes well on distributions of continuous and discrete variables. We develop methods for modeling different data domains, and introduce a trainable compression layer which is found to increase model performance given limited memory or computational resources. Overall, our methods give important theoretical and empirical evidence of the efficacy of quantum-inspired methods for the rapidly growing field of generative learning.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# メタラーニングにおけるアクティブラーニングの探求 - コンテキストセットラベリングの強化

Exploring Active Learning in Meta-Learning: Enhancing Context Set Labeling ( http://arxiv.org/abs/2311.02879v3 )

ライセンス: Link先を確認
Wonho Bae, Jing Wang, Danica J. Sutherland, (参考訳) ほとんどのメタ学習手法は、テスト時に新しいタスクを確立するのに使用される(非常に小さい)コンテキストセットが受動的に提供されると仮定する。 しかし、ある設定では、どのポイントをラベルにするかを積極的に選択することは可能であり、慎重に選択することによる潜在的な利益は相当であるが、典型的なアクティブな学習設定との大きな違いが必要である。 メタラーニングプロセスのどの部分がアクティブラーニングを使用するかによって、アクティブなメタラーニングを用いてコンテキストセットをラベル付けする方法を明確にする。 本枠組みでは,ラベルのどの点を選択するかを選択するため,ガウス混合に適合した自然なアルゴリズムを提案する。 提案アルゴリズムは、複数のベンチマークデータセットにまたがる様々なメタラーニングアルゴリズムを使用する場合、最先端のアクティブラーニング手法より優れている。

Most meta-learning methods assume that the (very small) context set used to establish a new task at test time is passively provided. In some settings, however, it is feasible to actively select which points to label; the potential gain from a careful choice is substantial, but the setting requires major differences from typical active learning setups. We clarify the ways in which active meta-learning can be used to label a context set, depending on which parts of the meta-learning process use active learning. Within this framework, we propose a natural algorithm based on fitting Gaussian mixtures for selecting which points to label; though simple, the algorithm also has theoretical motivation. The proposed algorithm outperforms state-of-the-art active learning methods when used with various meta-learning algorithms across several benchmark datasets.
公開日:2024-07-24
翻訳日:2024-07-26 19:46:37
# ホットシステム間の論理ゲートを用いた量子計算

Quantum computation with logical gates between hot systems ( http://arxiv.org/abs/2311.06588v2 )

ライセンス: Link先を確認
Ferran Riera-Sàbat, Pavel Sekatski, Wolfgang Dür, (参考訳) 量子コンピュータアーキテクチャでは、相互作用が機械的基底状態にないホットキュービット間で媒介される。 このような状況は、理想的には冷却しない場合や、イオンや原子を移動させるときに起こる。 論理的に符号化されたシステム間で量子ゲートを導入し、これらのゲートがこのような不完全性に対して弾力性を持つことを示す。 このようにして、論理系を拡大することでゲートの忠実度を向上し、未知の位置や関連する粒子の位置ゆらぎの影響に対処できることを実証する。 確率分布における位置の古典的処理と、機械的固有値を用いた量子処理の両方を考慮する。 2つのホットシステム間の相互作用を仲介するクールな論理システムや、位置が一括的にあるいは個別に変動するホット物理システムからなる2つの論理システムを含む異なる設定を解析する。 いずれの場合も、熱雑音を緩和するためのプラットフォームに依存しないツールを提供するゲート忠実度を大幅に改善することを示す。

We consider quantum computer architectures where interactions are mediated between hot qubits that are not in their mechanical ground state. Such situations occur, e.g., when not cooling ideally, or when moving ions or atoms around. We introduce quantum gates between logically encoded systems that consist of multiple physical ones and show how the encoding can be used to make these gates resilient against such imperfections. We demonstrate that, in this way, one can improve gate fidelities by enlarging the logical system, and counteract the effect of unknown positions or position fluctuations of involved particles. We consider both a classical treatment of positions in terms of probability distributions, as well a quantum treatment using mechanical eigenmodes. We analyze different settings including a cool logical system mediating interactions between two hot systems, as well as two logical systems consisting of hot physical systems whose positions fluctuate collectively or individually. In all cases, we demonstrate a significant improvement of gate fidelities, which provides a platform-independent tool to mitigate thermal noise.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# ヘイト音声検出のためのテキストの正規化

Automatic Textual Normalization for Hate Speech Detection ( http://arxiv.org/abs/2311.06851v4 )

ライセンス: Link先を確認
Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Nguyet Thi Nguyen, Khanh Thanh-Duy Ho, Kiet Van Nguyen, (参考訳) ソーシャルメディアデータは研究にとって貴重な資源であるが、幅広い非標準語(NSW)を含んでいる。 これらの不規則さは、NLPツールの効果的な操作を妨げる。 ベトナム語における現在の最先端の手法は、この問題を語彙正規化の問題として扱い、手動ルールの作成や、複雑なルールを構築するための広範囲な努力を必要とする多段階のディープラーニングフレームワークの実装を含む。 対照的に、我々のアプローチは単純であり、Seq2Seq(Seq2Seq)モデルのみを用いる。 本研究では,2,181人の注釈付きコメントと0.9014のアノテーション間合意からなるテキスト正規化のためのデータセットを提供する。 テキスト正規化にSeq2Seqモデルを応用することにより,得られた精度が70%以下に低下することを明らかにする。 それでもテキスト正規化は、Hate Speech Detection (HSD)タスクの精度を約2%向上させ、複雑なNLPタスクのパフォーマンスを向上させる可能性を示している。 私たちのデータセットは研究目的で利用できます。

Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# 蒸留言語モデルにおける容量ギャップの法則に向けて

Towards the Law of Capacity Gap in Distilling Language Models ( http://arxiv.org/abs/2311.07052v3 )

ライセンス: Link先を確認
Chen Zhang, Dawei Song, Zheyu Ye, Yan Gao, (参考訳) 言語モデル (LM) 蒸留は, 大規模教師のLMに居住する知識を小学生に活用することを目的とした, 流行の分野である。 蒸留の有効性を最大化するために様々な方法が提案されているが、特に教師と学生のLMの間にかなりの容量差がある場合、大きな課題が続いている。 この問題は、しばしばキャパシティギャップの「textit{curse}」と呼ばれ、より大きな教師が、より小さな教師から蒸留されたものよりも優れた生徒をもたらすとは限らないことを示唆している。 言い換えれば、教師のスケーリングコースに沿って、最高の生徒を得られる最適な教師がいる可能性が高い。 しかし、以前の研究で示されているように、計算オーバーヘッドが顕著でなければキャパシティギャップの呪いに対処できない。 大規模LM(LLMs)の文脈では、計算オーバーヘッドの少ない最適教師の生徒から期待される生徒を抽出することは不可能な三角形であるため、これまで実現可能であったアプローチは、はるかに意味をなさない。 幸いなことに、不可能な三角形は、キャパシティギャップのインダクテッド \textit{law} が与えられると幸運にも可能である。 本稿では,法則のスケーリングの精神を考察し,教師の最適スケールが,様々なモデルアーキテクチャやデータスケールにまたがる学生のスケールにほぼ一貫した線形スケールに従うことを明らかにする。 この法則は後に LLaMA2-7B から 3B の学生 LM (termed \textsc{MiniMA}) を除去するように導かれる。 \textsc{MiniMA} は幅広い 3B の競合より優れており、いくつかの 7B モデルと競合することも可能である。

Language model (LM) distillation is a trending area that aims to distil the knowledge residing in a large teacher LM to a small student one. While various methods have been proposed to maximize the effectiveness of the distillation, significant challenges persist, particularly when there is a substantial capacity gap between the teacher and student LMs. This issue, often referred to as the \textit{curse} of capacity gap, suggests that a larger teacher does not necessarily result in a superior student compared to one distilled from a smaller teacher. In other words, there is likely an optimal teacher yielding the best student along the scaling course of the teacher. However, the curse of capacity gap can not be tackled without notable compute overhead, as indicated in previous studies. In the context of large LMs (LLMs), previously viable approaches become much less meaningful, as it is an impossible triangle to distill an expected student from an optimal teacher student with small compute overhead. Fortunately, the impossible triangle can fortunately be possible provided an inducted \textit{law} of capacity gap. In this paper, we take the spirits of scaling law and reveal that the optimal teacher scale almost consistently follows a linear scaling with the student scale across different model architectures and data scales. The law later guides us to distil a 3B student LM (termed \textsc{MiniMA}) from LLaMA2-7B. \textsc{MiniMA} is demonstrated to outperform a wide range of 3B competitors and could even compete with several 7B models.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# 連続クラスタリングによるLiDARセンサの低レイテンシインスタンス分割

Low Latency Instance Segmentation by Continuous Clustering for LiDAR Sensors ( http://arxiv.org/abs/2311.13976v2 )

ライセンス: Link先を確認
Andreas Reich, Mirko Maehlisch, (参考訳) LiDARポイントクラウドの低レイテンシインスタンスセグメンテーションは、ロボットの知覚パイプラインにおいて、初期的で頻繁に使用されるビルディングブロックとして機能するため、現実世界のアプリケーションでは不可欠である。 特に動的環境において、この全遅延は、高速道路のシナリオに見られるように、動的物体のかなりの位置オフセットをもたらす。 この問題に対処するために、私たちは継続的クラスタリングと呼ばれる新しいテクニックを採用しています。 LiDARセンサーの完全な革命を利用する既存のクラスタリングアプローチとは異なり、データストリームを連続的かつシームレスに処理します。 我々のアプローチは、複数の離散レンジイメージを持つ完全あるいは部分的なセンサー回転の概念に依存しず、その代わりに、レンジイメージを単一かつ無限に水平に成長するエンティティと見なしている。 この連続範囲画像の新しい列は、利用可能になったらすぐに処理される。 障害物ポイントは、既存のインスタンスにリアルタイムでクラスタ化され、革命の完了や他の統合期間を待たずに公開するために、インスタンスが完了する高周波でチェックされる。 回転センサの場合、終端点とスキャン開始点との間に問題のある不連続性はみられない。 本研究では, 連続クラスタリングのための2層データ構造とそれに対応するアルゴリズムについて述べる。 クラスタ内のすべてのポイントの最新のタイムスタンプに対して、平均レイテンシを5ミリ秒で達成することができる。 ソースコードはhttps://github.com/UniBwTAS/continuous_clustering.comで公開しています。

Low-latency instance segmentation of LiDAR point clouds is crucial in real-world applications because it serves as an initial and frequently-used building block in a robot's perception pipeline, where every task adds further delay. Particularly in dynamic environments, this total delay can result in significant positional offsets of dynamic objects, as seen in highway scenarios. To address this issue, we employ a new technique, which we call continuous clustering. Unlike most existing clustering approaches, which use a full revolution of the LiDAR sensor, we process the data stream in a continuous and seamless fashion. Our approach does not rely on the concept of complete or partial sensor rotations with multiple discrete range images; instead, it views the range image as a single and infinitely horizontally growing entity. Each new column of this continuous range image is processed as soon it is available. Obstacle points are clustered to existing instances in real-time and it is checked at a high-frequency which instances are completed in order to publish them without waiting for the completion of the revolution or some other integration period. In the case of rotating sensors, no problematic discontinuities between the points of the end and the start of a scan are observed. In this work we describe the two-layered data structure and the corresponding algorithm for continuous clustering. It is able to achieve an average latency of just 5 ms with respect to the latest timestamp of all points in the cluster. We are publishing the source code at https://github.com/UniBwTAS/continuous_clustering.
公開日:2024-07-24
翻訳日:2024-07-26 19:46:37
# より実践的なグループアクティビティ検出に向けて:新しいベンチマークとモデル

Towards More Practical Group Activity Detection: A New Benchmark and Model ( http://arxiv.org/abs/2312.02878v2 )

ライセンス: Link先を確認
Dongkeun Kim, Youngkil Song, Minsu Cho, Suha Kwak, (参考訳) グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。 GADは近年研究されているが、実用的なGADシナリオに対処する能力に制限があるため、データセットと方法論の両方の改善の余地は依然としてたくさんある。 これらの問題を解決するために、我々はまずCaf\'eと呼ばれる新しいデータセットを提示する。 既存のデータセットとは異なり、Caf\'eは主にGAD用に構築されており、より実用的なシナリオとメトリクスを提供し、大規模でリッチなアノテーションを提供する。 データセットとともに、未知数のグループと潜伏したグループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。 Caf\'eを含む3つのデータセットでモデルを評価したところ、精度と推論速度の両面で従来の作業よりも優れていた。

Group activity detection (GAD) is the task of identifying members of each group and classifying the activity of the group at the same time in a video. While GAD has been studied recently, there is still much room for improvement in both dataset and methodology due to their limited capability to address practical GAD scenarios. To resolve these issues, we first present a new dataset, dubbed Caf\'e. Unlike existing datasets, Caf\'e is constructed primarily for GAD and presents more practical scenarios and metrics, as well as being large-scale and providing rich annotations. Along with the dataset, we propose a new GAD model that deals with an unknown number of groups and latent group members efficiently and effectively. We evaluated our model on three datasets including Caf\'e, where it outperformed previous work in terms of both accuracy and inference speed.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# Dr. JekyllとMr. Hyde: LLMの2つの顔

Dr. Jekyll and Mr. Hyde: Two Faces of LLMs ( http://arxiv.org/abs/2312.03853v4 )

ライセンス: Link先を確認
Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek, (参考訳) 最近、チャットボットアシスタントのようなアプリケーションで、LLM(Large Language Models)の使用が増加しているのを目撃しました。 これらのアシスタントからの不適切な応答を防止するため、安全機構と特別な訓練手順が実施されている。 本研究では,ChatGPTとGemini(ある程度はBingチャット)のこれらの対策を回避し,忠実なアシスタントと整合しない人格特性を持つ複雑なペルソナを具体化する。 まず、これらのペルソナの精巧な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。 会話は、禁止された応答を引き出すロールプレイスタイルに従う。 ペルソナを用いて、禁止された応答が実際に提供され、不正、違法、有害な情報を得ることができることを示す。 この研究は、敵対的なペルソナを使用することで、ChatGPTとGeminiによって設定された安全メカニズムを克服できることを示している。 また、このような敵対的ペルソナを活性化する方法をいくつか導入し、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示す。 同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。

Recently, we have witnessed a rise in the use of Large Language Models (LLMs), especially in applications like chatbot assistants. Safety mechanisms and specialized training procedures are implemented to prevent improper responses from these assistants. In this work, we bypass these measures for ChatGPT and Gemini (and, to some extent, Bing chat) by making them impersonate complex personas with personality characteristics that are not aligned with a truthful assistant. We start by creating elaborate biographies of these personas, which we then use in a new session with the same chatbots. Our conversations then follow a role-play style to elicit prohibited responses. Using personas, we show that prohibited responses are actually provided, making it possible to obtain unauthorized, illegal, or harmful information. This work shows that by using adversarial personas, one can overcome safety mechanisms set out by ChatGPT and Gemini. We also introduce several ways of activating such adversarial personas, which show that both chatbots are vulnerable to this kind of attack. With the same principle, we introduce two defenses that push the model to interpret trustworthy personalities and make it more robust against such attacks.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# ホロポートキャラクタ:スパースRGBカメラによる人間のリアルタイム自由視点レンダリング

Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras ( http://arxiv.org/abs/2312.07423v2 )

ライセンス: Link先を確認
Ashwath Shetty, Marc Habermann, Guoxing Sun, Diogo Luvizon, Vladislav Golyanik, Christian Theobalt, (参考訳) そこで本研究では,従来の4K解像度でのマルチビュー録画から表示に至るまで,人間俳優の映像をリアルタイムにレンダリングする手法について紹介する。 提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。 広い服装の役者を扱い、例えば衣服のしわ、顔の表情、手のジェスチャーなど、細かなダイナミックなディテールを再現する。 トレーニング時に、我々の学習ベースのアプローチは、密集したマルチビュービデオと、アクターのトリグされた静的表面スキャンを期待する。 本手法は3つの主要な段階から構成される。 ステージ1は、詳細なメッシュ幾何学の高品質なキャプチャのためのスケルトン駆動のニューラルネットワークである。 ステージ2は、4つのテストタイムカメラビューを入力として、ビュー依存のテクスチャを作成するための新しいソリューションである。 最後に、ステージ3は、前のステージから出力された最終的な4K画像をレンダリングする新しい画像ベース精細ネットワークを備える。 提案手法は,スパースカメラビューを用いたリアルタイムレンダリングの解像度と品質の新たなベンチマークを確立し,没入型テレプレゼンスを実現する。

We present the first approach to render highly realistic free-viewpoint videos of a human actor in general apparel, from sparse multi-view recording to display, in real-time at an unprecedented 4K resolution. At inference, our method only requires four camera views of the moving actor and the respective 3D skeletal pose. It handles actors in wide clothing, and reproduces even fine-scale dynamic detail, e.g. clothing wrinkles, face expressions, and hand gestures. At training time, our learning-based approach expects dense multi-view video and a rigged static surface scan of the actor. Our method comprises three main stages. Stage 1 is a skeleton-driven neural approach for high-quality capture of the detailed dynamic mesh geometry. Stage 2 is a novel solution to create a view-dependent texture using four test-time camera views as input. Finally, stage 3 comprises a new image-based refinement network rendering the final 4K image given the output from the previous stages. Our approach establishes a new benchmark for real-time rendering resolution and quality using sparse input camera views, unlocking possibilities for immersive telepresence.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# FreeInit:ビデオ拡散モデルにおける初期化ギャップを埋める

FreeInit: Bridging Initialization Gap in Video Diffusion Models ( http://arxiv.org/abs/2312.07537v2 )

ライセンス: Link先を確認
Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu, (参考訳) 拡散に基づくビデオ生成は急速に進歩してきたが、既存のモデルの推論結果は相容れない時間的一貫性と不自然なダイナミクスを示している。 本稿では,映像拡散モデルのノイズ初期化を深く掘り下げ,不満足な推論品質に起因する暗黙のトレーニングと推論のギャップを発見する。 1)初期雑音の時空間周波数分布は訓練時と本質的に異なる。 2) 初期雑音の低周波成分の影響はデノナイジング過程の影響が大きい。 これらの観測により、拡散モデルにより生成されたビデオの時間的一貫性を大幅に改善する、簡潔で効果的な推論サンプリング戦略FreeInitを提案する。 推論中に初期潜伏者の空間的時間的低周波成分を反復的に精製することにより、FreeInitはトレーニングと推論の間の初期化ギャップを補償し、生成結果の主観的外観と時間的一貫性を効果的に改善することができる。 大規模な実験により、FreeInitは、追加のトレーニングや微調整なしに、様々なテキスト・ビデオ拡散モデルの生成品質を一貫して向上することが示された。

Though diffusion-based video generation has witnessed rapid progress, the inference results of existing models still exhibit unsatisfactory temporal consistency and unnatural dynamics. In this paper, we delve deep into the noise initialization of video diffusion models, and discover an implicit training-inference gap that attributes to the unsatisfactory inference quality.Our key findings are: 1) the spatial-temporal frequency distribution of the initial noise at inference is intrinsically different from that for training, and 2) the denoising process is significantly influenced by the low-frequency components of the initial noise. Motivated by these observations, we propose a concise yet effective inference sampling strategy, FreeInit, which significantly improves temporal consistency of videos generated by diffusion models. Through iteratively refining the spatial-temporal low-frequency components of the initial latent during inference, FreeInit is able to compensate the initialization gap between training and inference, thus effectively improving the subject appearance and temporal consistency of generation results. Extensive experiments demonstrate that FreeInit consistently enhances the generation quality of various text-to-video diffusion models without additional training or fine-tuning.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# 非局所擬ポテンシャルを用いた第一量子化における現実物質の量子シミュレーション

Quantum Simulation of Realistic Materials in First Quantization Using Non-local Pseudopotentials ( http://arxiv.org/abs/2312.07654v2 )

ライセンス: Link先を確認
Dominic W. Berry, Nicholas C. Rubin, Ahmed O. Elnabawy, Gabriele Ahlers, A. Eugene DePrince III, Joonho Lee, Christian Gogolin, Ryan Babbush, (参考訳) 本稿では,Babbush et al と Su et al によって開発された電子構造の量子シミュレーションにおける最初の量子化平面波アルゴリズムの有用性について述べる。 我々は、シミュレーションからコア電子を除去できる最も正確で広く使われているノルム保存擬ポテンシャルの1つであるゴデッカー・テッター・ハッター擬ポテンシャル(GTH)に焦点を当てる。 その結果、スクリーニングされた核ポテンシャルは電子波動関数のカスプを正則化し、化学的に正確に平面波のオーダーが桁違いに少ないようにする。 GTH擬ポテンシャルの複雑な形式にもかかわらず、量子シミュレーションの全体的なコストを大幅に増大させることなく、関連する演算子のエンコードをブロックすることができる。 核ポテンシャルのシミュレーションは疑似ポテンシャルなしではずっとシンプルだが、いまだにボトルネックとなっているため、これは驚くべきことである。 また, 従来の手法を一般化して, 非キュービック単位細胞を用いた材料シミュレーションを可能にした。 最後に、これらの手法を組み合わせて、不均一触媒(例えば遷移金属への一酸化炭素吸着)の商業的事例に対するブロックエンコーディングコストを推定し、第2量子化で材料をシミュレートするために必要な量子資源と比較する。 我々は、多くの粒子を持つ計算セルの場合、第一量子化は時空体積を有意に少なくする必要があると結論付けている。

This paper improves and demonstrates the usefulness of the first quantized plane-wave algorithms for the quantum simulation of electronic structure, developed by Babbush et al. and Su et al. We describe the first quantum algorithm for first quantized simulation that accurately includes pseudopotentials. We focus on the Goedecker-Tetter-Hutter (GTH) pseudopotential, which is among the most accurate and widely used norm-conserving pseudopotentials enabling the removal of core electrons from the simulation. The resultant screened nuclear potential regularizes cusps in the electronic wavefunction so that orders of magnitude fewer plane waves are required for a chemically accurate basis. Despite the complicated form of the GTH pseudopotential, we are able to block encode the associated operator without significantly increasing the overall cost of quantum simulation. This is surprising since simulating the nuclear potential is much simpler without pseudopotentials, yet is still the bottleneck. We also generalize prior methods to enable the simulation of materials with non-cubic unit cells, which requires nontrivial modifications. Finally, we combine these techniques to estimate the block-encoding costs for commercially relevant instances of heterogeneous catalysis (e.g. carbon monoxide adsorption on transition metals) and compare to the quantum resources needed to simulate materials in second quantization. We conclude that for computational cells with many particles, first quantization often requires meaningfully less spacetime volume.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# スマートフォン用ディープハイブリッドカメラ

Deep Hybrid Camera Deblurring for Smartphone Cameras ( http://arxiv.org/abs/2312.13317v2 )

ライセンス: Link先を確認
Jaesung Rim, Junyong Lee, Heemin Yang, Sunghyun Cho, (参考訳) モバイルカメラは、大きな進歩にもかかわらず、コンパクトなセンサーやレンズによって低照度の撮像が難しいため、露出が長くなり、動きがぼやけてしまう。 従来のブラインドデコンボリューション法や学習ベースのデブロワーリング法は、ぼやけを取り除く潜在的な解決策となり得る。 しかし、実際的なパフォーマンスを達成することは依然として課題である。 そこで我々は,広角・超広角カメラをハイブリッドカメラシステムとして活用した,スマートフォン用学習型デブロアリングフレームワークを提案する。 広視野画像と短視野バースト画像とを同時に撮影し,そのバースト画像を用いて広視野画像を損なう。 バースト超広視野画像をフル活用するために,新しいデブロアリングネットワーク,HC-DNet,HC-FNetを含む実用的なデブロアリングフレームワークであるHCDeblurを提案する。 HC-DNetは、バースト画像から抽出した動き情報を利用して広視野画像を復号し、HC-FNetはバースト画像を基準画像として利用して、デブリ出力をさらに強化する。 提案手法を訓練し,評価するために,合成および実世界のデータセットからなるHCBlurデータセットを提案する。 実験により, HCDeblurは最先端の劣化品質を達成できることが示された。 コードとデータセットはhttps://cg.postech.ac.kr/research/HCDeblur.orgで公開されている。

Mobile cameras, despite their significant advancements, still have difficulty in low-light imaging due to compact sensors and lenses, leading to longer exposures and motion blur. Traditional blind deconvolution methods and learning-based deblurring methods can be potential solutions to remove blur. However, achieving practical performance still remains a challenge. To address this, we propose a learning-based deblurring framework for smartphones, utilizing wide and ultra-wide cameras as a hybrid camera system. We simultaneously capture a long-exposure wide image and short-exposure burst ultra-wide images, and utilize the burst images to deblur the wide image. To fully exploit burst ultra-wide images, we present HCDeblur, a practical deblurring framework that includes novel deblurring networks, HC-DNet and HC-FNet. HC-DNet utilizes motion information extracted from burst images to deblur a wide image, and HC-FNet leverages burst images as reference images to further enhance a deblurred output. For training and evaluating the proposed method, we introduce the HCBlur dataset, which consists of synthetic and real-world datasets. Our experiments demonstrate that HCDeblur achieves state-of-the-art deblurring quality. Code and datasets are available at https://cg.postech.ac.kr/research/HCDeblur.
公開日:2024-07-24
翻訳日:2024-07-26 19:46:37
# 産業4.0における統一産業大知識モデルフレームワークとスマートマニュファクチャリング

A Unified Industrial Large Knowledge Model Framework in Industry 4.0 and Smart Manufacturing ( http://arxiv.org/abs/2312.14428v3 )

ライセンス: Link先を確認
Jay Lee, Hanqi Su, (参考訳) 近年の大規模言語モデル(LLM)の出現は、人工知能の可能性を示し、産業4.0とスマート製造の新しい機会を明らかにしている。 しかし、これらのLSMを産業に適用する際、主にドメイン固有の知識ではなく、一般的な知識に関するトレーニングのために顕著なギャップが存在する。 このような専門的なドメイン知識は、産業アプリケーションの複雑なニーズに効果的に対処するために不可欠である。 このギャップを埋めるために,本稿では,将来の産業に革命をもたらす可能性を強調する統一産業大知識モデル(ILKM)フレームワークを提案する。 さらに、ILKMとLLMは8つの視点から比較される。 最後に、ILKM開発のガイドラインとして「6S原則」が提案され、産業用4.0およびスマート製造におけるILKMの展開の可能性をいくつか強調されている。

The recent emergence of large language models (LLMs) demonstrates the potential for artificial general intelligence, revealing new opportunities in Industry 4.0 and smart manufacturing. However, a notable gap exists in applying these LLMs in industry, primarily due to their training on general knowledge rather than domain-specific knowledge. Such specialized domain knowledge is vital for effectively addressing the complex needs of industrial applications. To bridge this gap, this paper proposes a unified industrial large knowledge model (ILKM) framework, emphasizing its potential to revolutionize future industries. In addition, ILKMs and LLMs are compared from eight perspectives. Finally, the "6S Principle" is proposed as the guideline for ILKM development, and several potential opportunities are highlighted for ILKM deployment in Industry 4.0 and smart manufacturing.
公開日:2024-07-24
翻訳日:2024-07-26 19:46:37
# ランダム部分空間とディリクレ過程のサブサンプリングアンサンブルを用いた教師なし外乱検出

Unsupervised Outlier Detection using Random Subspace and Subsampling Ensembles of Dirichlet Process Mixtures ( http://arxiv.org/abs/2401.00773v3 )

ライセンス: Link先を確認
Dongwook Kim, Juyeon Park, Hee Cheol Chung, Seonghyun Jeong, (参考訳) 確率的混合モデルは,その解釈可能性や大域的特性から,教師なしの外れ値検出に有効なツールとして認識されている。 これらのうち、ディリクレプロセス混合モデルは、クラスタリングと外乱検出の両方において、従来の有限混合モデルの強力な代替品として際立っている。 有限混合モデルとは異なり、ディリクレ過程の混合は無限混合モデルであり、データに基づいて混合成分の数を自動的に決定する。 これらの利点にもかかわらず、教師なしの異常検出のためのディリクレプロセス混合モデルの採用は、異常検出器の構築における計算非効率性と異常検出に対する感度に関する課題によって制限されている。 さらに、ディリクレ過程のガウス混合は、非ガウスデータを離散的または二項的特徴で効果的にモデル化するのに苦労する。 これらの課題に対処するために、ディリクレ過程のガウス混合のアンサンブルを利用する新しい外乱検出法を提案する。 この教師なしのアルゴリズムは、ランダムな部分空間とサブサンプリングアンサンブルを用いて、効率的な計算を確実にし、アウタリア検出器のロバスト性を改善する。 アンサンブル法は,非ガウスデータにおける外乱検出手法の適合性をさらに向上させる。 さらに,ディリクレプロセスの混合に対する変分推論を用い,効率と迅速な計算を両立させる。 ベンチマーク・データセットを用いた実験解析により,提案手法は教師なし外乱検出において既存の手法よりも優れていることが示された。

Probabilistic mixture models are recognized as effective tools for unsupervised outlier detection owing to their interpretability and global characteristics. Among these, Dirichlet process mixture models stand out as a strong alternative to conventional finite mixture models for both clustering and outlier detection tasks. Unlike finite mixture models, Dirichlet process mixtures are infinite mixture models that automatically determine the number of mixture components based on the data. Despite their advantages, the adoption of Dirichlet process mixture models for unsupervised outlier detection has been limited by challenges related to computational inefficiency and sensitivity to outliers in the construction of outlier detectors. Additionally, Dirichlet process Gaussian mixtures struggle to effectively model non-Gaussian data with discrete or binary features. To address these challenges, we propose a novel outlier detection method that utilizes ensembles of Dirichlet process Gaussian mixtures. This unsupervised algorithm employs random subspace and subsampling ensembles to ensure efficient computation and improve the robustness of the outlier detector. The ensemble approach further improves the suitability of the proposed method for detecting outliers in non-Gaussian data. Furthermore, our method uses variational inference for Dirichlet process mixtures, which ensures both efficient and rapid computation. Empirical analyses using benchmark datasets demonstrate that our method outperforms existing approaches in unsupervised outlier detection.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# マグノン遮断の最適化による単一マグノン状態の安定化

Stabilizing a single-magnon state by optimizing magnon blockade ( http://arxiv.org/abs/2401.01590v2 )

ライセンス: Link先を確認
Zhu-yao Jin, Jun Jing, (参考訳) 安定かつ高品質な単一マグノン状態は、マクロスピン系を用いた量子情報応用のための単一マグノン源によって望まれる。 我々は、マグノンモードが交換相互作用を介して非共鳴超伝導量子ビットに直接結合されるハイブリッドシステムを考える。 マグノンとクビットは、それぞれ同じ周波数の駆動場と探査場の下にある。 単磁極確率$P_1$は、マグノン駆動場のデチューニングと量子軌道場デチューニングの積がマグノン量子結合強度の正方形、$\Delta_q\Delta_m=J^2$と等価であるときに最大化できる。 そして、この2つの磁場間の駆動強度と相対位相との確率強度の比を調整することにより、倍磁率$P_2$を最小化することができる。 これらの最適化された条件下では、強い駆動強度と低い崩壊率を持つため、強いマグノンの遮断は、高品質の安定した単一マグノン状態を引き起こす。 大輝度(単一マグノン確率)$P_1\approx0.40$と高純度(等時二階相関関数)$g^{(2)}(0)\sim10^{-5}$を特徴とする。 この2つの指標は、安定な単一量子状態に対する光子、フォノン、マグノンモードの既存の結果に対して、全体として優位である。 拡張性のある$\Delta_q\Delta_m\approx NJ^2$の最適化条件は、共通の量子ビットに同時に結合される$N$マグノンモードの1つだけに焦点を当てた状況に適用できる。

A stable and high-quality single-magnon state is desired by the single-magnon source for quantum information application with a macroscopic spin system. We consider a hybrid system where a magnon mode is directly coupled to a nonresonant superconducting qubit via the exchange interaction. The magnon and qubit are under the driving and probing fields with the same frequency, respectively. We find that the single-magnon probability $P_1$ can be maximized when the product of the magnon-driving field detuning and the qubit-probing field detuning is equivalent to the square of the magnon-qubit coupling strength, $\Delta_q\Delta_m=J^2$. Then, the double-magnon probability $P_2$ can be minimized by tuning the ratio of the probing intensity to the driving intensity and the relative phase between the two fields. Under these optimized conditions with accessible strong driving intensity and low decay rate, strong magnon blockade gives rise to a stable single-magnon state with a high quality. It features a large brightness (the single-magnon probability) $P_1\approx0.40$ and a high purity (the equal-time second-order correlation function) $g^{(2)}(0)\sim10^{-5}$. The two indicators as a whole prevail over the existing results for photon, phonon, and magnon modes with respect to a stable single-quantum state. The optimized conditions with a scalable modification $\Delta_q\Delta_m\approx NJ^2$ apply to the situation when one focus on only one of the $N$ magnon modes that are simultaneously coupled to a common qubit.
公開日:2024-07-25
翻訳日:2024-07-26 19:46:37
# 動的グラフの構造予測

Predicting the structure of dynamic graphs ( http://arxiv.org/abs/2401.04280v2 )

ライセンス: Link先を確認
Sevvandi Kandanaarachchi, Ziqi Xu, Stefan Westerlund, (参考訳) グラフの多くの側面が深く研究されている。 しかし、未確認、新しいノードとエッジを取り入れた将来のグラフの構造を予測することは、あまり注目されていない。 本稿では,そのようなアプローチを提案する。 時系列グラフを用いて、将来の時間ステップでグラフを予測する。 本研究では,今後の時間点におけるノード次数予測に時系列予測法を用い,これらの予測と,生化学で使用される線形プログラミング法であるフラックスバランス解析を組み合わせることにより,将来のグラフの構造を求める。 我々は、合成および実世界のデータセットを用いてこのアプローチを評価し、その実用性と適用性を実証する。

Many aspects of graphs have been studied in depth. However, forecasting the structure of a graph at future time steps incorporating unseen, new nodes and edges has not gained much attention. In this paper, we present such an approach. Using a time series of graphs, we forecast graphs at future time steps. We use time series forecasting methods to predict the node degree at future time points and combine these forecasts with flux balance analysis -- a linear programming method used in biochemistry -- to obtain the structure of future graphs. We evaluate this approach using synthetic and real-world datasets and demonstrate its utility and applicability.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# 音声テキスト分類のためのカスケードクロスモード変換器

Cascaded Cross-Modal Transformer for Audio-Textual Classification ( http://arxiv.org/abs/2401.07575v2 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Andrei Anghel, Radu Tudor Ionescu, (参考訳) 音声分類タスクは、有用な特徴を把握するために強力な言語理解モデルを必要とすることが多い。 音声認識(ASR)モデルを用いて音声を翻訳し、事前訓練された翻訳モデルを用いて異なる言語に翻訳することで、より優れた分類性能を実現するために、マルチモーダル表現の固有値を活用することを提案する。 これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。 その後、言語固有の双方向エンコーダ表現(BERT)とWav2Vec2.0オーディオ機能を、新しいケースドクロスモーダルトランス(CCMT)を介して組み合わせる。 我々のモデルは2つのカスケードトランスブロックに基づいている。 1つは異なる言語からテキスト固有の特徴を合成し、もう1つは第1のトランスフォーマーブロックによって以前に学習された多言語特徴と音響特徴を結合する。 我々は,ACM Multimedia 2023 Computational Paralinguistics Challengeの要求サブアーキテクチャに,我々のシステムを採用した。 CCMTは、それぞれ65.41%と85.87%の非重み付き平均リコール(UAR)を得たと宣言された。 さらに,我々のフレームワークを音声コマンド v2 と HarperValleyBank のダイアログデータセットに適用した。 私たちのコードは、https://github.com/ristea/ccmt.comから無料でダウンロードできます。

Speech classification tasks often require powerful language understanding models to grasp useful features, which becomes problematic when limited training data is available. To attain superior classification performance, we propose to harness the inherent value of multimodal representations by transcribing speech using automatic speech recognition (ASR) models and translating the transcripts into different languages via pretrained translation models. We thus obtain an audio-textual (multimodal) representation for each data sample. Subsequently, we combine language-specific Bidirectional Encoder Representations from Transformers (BERT) with Wav2Vec2.0 audio features via a novel cascaded cross-modal transformer (CCMT). Our model is based on two cascaded transformer blocks. The first one combines text-specific features from distinct languages, while the second one combines acoustic features with multilingual features previously learned by the first transformer block. We employed our system in the Requests Sub-Challenge of the ACM Multimedia 2023 Computational Paralinguistics Challenge. CCMT was declared the winning solution, obtaining an unweighted average recall (UAR) of 65.41% and 85.87% for complaint and request detection, respectively. Moreover, we applied our framework on the Speech Commands v2 and HarperValleyBank dialog data sets, surpassing previous studies reporting results on these benchmarks. Our code is freely available for download at: https://github.com/ristea/ccmt.
公開日:2024-07-24
翻訳日:2024-07-26 19:36:52
# 相関ランダムベクトルの検出

Detection of Correlated Random Vectors ( http://arxiv.org/abs/2401.13429v3 )

ライセンス: Link先を確認
Dor Elimelech, Wasim Huleihel, (参考訳) 本稿では、2つの標準正規乱ベクトル $\mathsf{X}\in\mathbb{R}^{n}$ と $\mathsf{Y}\in\mathbb{R}^{n}$ が相関するか否かを決定する問題について検討する。 これは仮説テスト問題として定式化され、ヌル仮説の下ではこれらのベクトルは統計的に独立であり、代わりに$\mathsf{X}$ と $\mathsf{Y}$ のランダムで一様に置換されたバージョンは $\rho$ と相関する。 最適テストが情報理論的に不可能で可能なしきい値を,$n$と$\rho$の関数として解析する。 情報理論的下界を導出するために,直交多項式展開を用いた確率比の第2モーメントの評価手法を開発した。 また、上記の設定の多次元一般化について検討し、2つのベクトルではなく2つのデータベース/行列を観測し、さらにこれらの2つの間の部分的相関を許容する。

In this paper, we investigate the problem of deciding whether two standard normal random vectors $\mathsf{X}\in\mathbb{R}^{n}$ and $\mathsf{Y}\in\mathbb{R}^{n}$ are correlated or not. This is formulated as a hypothesis testing problem, where under the null hypothesis, these vectors are statistically independent, while under the alternative, $\mathsf{X}$ and a randomly and uniformly permuted version of $\mathsf{Y}$, are correlated with correlation $\rho$. We analyze the thresholds at which optimal testing is information-theoretically impossible and possible, as a function of $n$ and $\rho$. To derive our information-theoretic lower bounds, we develop a novel technique for evaluating the second moment of the likelihood ratio using an orthogonal polynomials expansion, which among other things, reveals a surprising connection to integer partition functions. We also study a multi-dimensional generalization of the above setting, where rather than two vectors we observe two databases/matrices, and furthermore allow for partial correlations between these two.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# ServerlessLLM: 大規模言語モデルのための低レイテンシなサーバレス推論

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models ( http://arxiv.org/abs/2401.14351v2 )

ライセンス: Link先を確認
Yao Fu, Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete, Dmitrii Ustiugov, Yuvraj Patel, Luo Mai, (参考訳) 本稿では,Large Language Models (LLM) のための低レイテンシなサーバレス推論をサポートするように設計された分散システムであるServerlessLLMを提案する。 推論サーバのGPUに近いストレージとメモリ容量を活用することで、ServerlessLLMは効果的なローカルチェックポイントストレージを実現し、リモートチェックポイントダウンロードの必要性を最小限に抑え、効率的なチェックポイントローディングを実現する。 ServerlessLLMの設計には3つのコアコントリビューションがある。 (i)新しいローディング最適化チェックポイントフォーマットとマルチ層ローディングシステムを備え、GPUサーバ上の複雑なストレージ階層の帯域幅を完全に活用する。 (ii) LLM推論のemph{efficient Live Migration} により、新規に開始された推論は、最小限のユーザ中断を確保しつつ、ローカルチェックポイントストレージに乗じることができる。 (iii)各サーバ上のチェックポイントの局所性ステータスを評価し、推論開始時間を最小限にするサーバにモデルをスケジュールする。 マイクロベンチマークや実世界のシナリオを含む包括的な評価は、ServerlessLLMが最先端のサーバレスシステムを大幅に上回っており、さまざまなLLM推論ワークロードでレイテンシを10~200倍削減していることを示している。

This paper presents ServerlessLLM, a distributed system designed to support low-latency serverless inference for Large Language Models (LLMs). By harnessing the substantial near-GPU storage and memory capacities of inference servers, ServerlessLLM achieves effective local checkpoint storage, minimizing the need for remote checkpoint downloads and ensuring efficient checkpoint loading. The design of ServerlessLLM features three core contributions: (i) \emph{fast multi-tier checkpoint loading}, featuring a new loading-optimized checkpoint format and a multi-tier loading system, fully utilizing the bandwidth of complex storage hierarchies on GPU servers; (ii) \emph{efficient live migration of LLM inference}, which enables newly initiated inferences to capitalize on local checkpoint storage while ensuring minimal user interruption; and (iii) \emph{startup-time-optimized model scheduling}, which assesses the locality statuses of checkpoints on each server and schedules the model onto servers that minimize the time to start the inference. Comprehensive evaluations, including microbenchmarks and real-world scenarios, demonstrate that ServerlessLLM dramatically outperforms state-of-the-art serverless systems, reducing latency by 10 - 200X across various LLM inference workloads.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# ボソニック損失劣化チャネルにおける量子通信

Quantum communication on the bosonic loss-dephasing channel ( http://arxiv.org/abs/2401.15634v3 )

ライセンス: Link先を確認
Francesco Anna Mele, Farzin Salek, Vittorio Giovannetti, Ludovico Lami, (参考訳) 量子光学系は通常、光子損失と劣化という2種類のノイズによって影響を受ける。 個々のノイズ過程に関する広範な研究にもかかわらず、それらの組み合わせ効果に関する包括的な理解はいまだに欠如している。 重要な問題は損失の値を決定することであり、結果として損失の減少するチャネルは分解不能となり、その効果を補正できる符号が存在しないこと、あるいは量子通信が可能であることを暗示している。 量子6, 821 (2022) の予想は、損失が 50\% 以上である場合に限って、ボソニック損失劣化チャネルが反劣化可能であることを示唆している。 本稿では, 損失の任意の値に対して, 劣化が臨界値以上であれば, ボソニック損失劣化チャネルは分解不能であることを示すことによって, この予想を否定する。 我々の結果は、量子通信が不可能な大きなパラメータ領域を識別する一方で、二方向古典通信が利用可能であれば、量子通信 -- 量子鍵分布 -- が常に達成可能であることを証明している。

Quantum optical systems are typically affected by two types of noise: photon loss and dephasing. Despite extensive research on each noise process individually, a comprehensive understanding of their combined effect is still lacking. A crucial problem lies in determining the values of loss and dephasing for which the resulting loss-dephasing channel is anti-degradable, implying the absence of codes capable of correcting its effect or, alternatively, capable of enabling quantum communication. A conjecture in [Quantum 6, 821 (2022)] suggested that the bosonic loss-dephasing channel is anti-degradable if and only if the loss is above $50\%$. In this paper we refute this conjecture, specifically proving that for any value of the loss, if the dephasing is above a critical value, then the bosonic loss-dephasing channel is anti-degradable. While our result identifies a large parameter region where quantum communication is not possible, we also prove that if two-way classical communication is available, then quantum communication -- and thus quantum key distribution -- is always achievable, even for high values of loss and dephasing.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# 子どもの視点から見た映像表現の自己指導型学習

Self-supervised learning of video representations from a child's perspective ( http://arxiv.org/abs/2402.00300v2 )

ライセンス: Link先を確認
A. Emin Orhan, Wentao Wang, Alex N. Wang, Mengye Ren, Brenden M. Lake, (参考訳) 子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。 そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか? 近年,大規模で縦断的,発展的なビデオデータセットの収集や,汎用的な自己教師付き学習(SSL)アルゴリズムの進歩により,この問題に対処し始めることができるようになっている。 しかし、既存の研究は通常、静的画像(例えばオブジェクト認識)から学習できる画像ベースのSSLアルゴリズムと視覚能力に焦点を当てており、世界の時間的側面を無視している。 このギャップを埋めるために、私たちは、幼児の初期(6~31ヶ月)の2年間に収集した縦型、自家中心型ヘッドカム記録に基づいて、自己監督型ビデオモデルを訓練する。 得られたモデルは、少数のラベル付き例からアクション概念の学習を容易にするのに非常に効果的である。 ビデオモデルは、全く同じデータで訓練された画像ベースモデルよりも、より堅牢なオブジェクト表現も学習する。 これらの結果は、子どもの内部モデルにおける重要な時間的側面が、高度に汎用的な学習アルゴリズムを用いて視覚経験から学習可能であり、強い帰納的バイアスがないことを示唆している。

Children learn powerful internal models of the world around them from a few years of egocentric visual experience. Can such internal models be learned from a child's visual experience with highly generic learning algorithms or do they require strong inductive biases? Recent advances in collecting large-scale, longitudinal, developmentally realistic video datasets and generic self-supervised learning (SSL) algorithms are allowing us to begin to tackle this nature vs. nurture question. However, existing work typically focuses on image-based SSL algorithms and visual capabilities that can be learned from static images (e.g. object recognition), thus ignoring temporal aspects of the world. To close this gap, here we train self-supervised video models on longitudinal, egocentric headcam recordings collected from a child over a two year period in their early development (6-31 months). The resulting models are highly effective at facilitating the learning of action concepts from a small number of labeled examples; they have favorable data size scaling properties; and they display emergent video interpolation capabilities. Video models also learn more robust object representations than image-based models trained with the exact same data. These results suggest that important temporal aspects of a child's internal model of the world may be learnable from their visual experience using highly generic learning algorithms and without strong inductive biases.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# 自由なプルーネ:初期化時のプルーニングに対する情報理論障壁

No Free Prune: Information-Theoretic Barriers to Pruning at Initialization ( http://arxiv.org/abs/2402.01089v2 )

ライセンス: Link先を確認
Tanishq Kumar, Kevin Luo, Mark Sellke, (参考訳) ローンチケット」arXiv:1803.03635の存在は、ディープラーニングに大規模なモデルが必要なのか、あるいは、それらを含む密密なモデルを訓練することなく、スパースネットワークを素早く識別し、訓練することができるのかという具体的な疑問を提起する。 しかし、これらの粗いサブネットを訓練せずに見つける試み(初期化時に打ち切る)は、arXiv:2009.08576で広く失敗している。 そこで我々は, モデルの有効性パラメータカウントである$p_\text{eff}$に基づいて, 最終ネットワークにおける非ゼロ重み数と空間マスクとデータ間の相互情報との和から, 理論的に説明を行った。 我々は、arXiv:2105.12806のロバスト性法則を、通常のパラメータカウントを$p_\text{eff}$に置き換えたスパースネットワークに拡張する。 トレーニング前後のプルーニングは初期化時にプルーニングしたマスクよりも高い相互情報を有するマスクを出力する。 したがって、2つのネットワークは同じ間隔を持つかもしれないが、トレーニング方法によって有効パラメータ数が異なる。 これは、初期化に近いプルーニングは実現不可能であり、なぜ宝くじがあるのかを説明するが、高速に見つけることができない(すなわち、完全なネットワークを訓練せずに)。 ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。

The existence of "lottery tickets" arXiv:1803.03635 at or near initialization raises the tantalizing question of whether large models are necessary in deep learning, or whether sparse networks can be quickly identified and trained without ever training the dense models that contain them. However, efforts to find these sparse subnetworks without training the dense model ("pruning at initialization") have been broadly unsuccessful arXiv:2009.08576. We put forward a theoretical explanation for this, based on the model's effective parameter count, $p_\text{eff}$, given by the sum of the number of non-zero weights in the final network and the mutual information between the sparsity mask and the data. We show the Law of Robustness of arXiv:2105.12806 extends to sparse networks with the usual parameter count replaced by $p_\text{eff}$, meaning a sparse neural network which robustly interpolates noisy data requires a heavily data-dependent mask. We posit that pruning during and after training outputs masks with higher mutual information than those produced by pruning at initialization. Thus two networks may have the same sparsities, but differ in effective parameter count based on how they were trained. This suggests that pruning near initialization may be infeasible and explains why lottery tickets exist, but cannot be found fast (i.e. without training the full network). Experiments on neural networks confirm that information gained during training may indeed affect model capacity.
公開日:2024-07-24
翻訳日:2024-07-26 19:36:52
# 球面データの良さとクラスタリング: R と Python の QuadratiK パッケージ

Goodness-of-Fit and Clustering of Spherical Data: the QuadratiK package in R and Python ( http://arxiv.org/abs/2402.02290v2 )

ライセンス: Link先を確認
Giovanni Saraceno, Marianthi Markatou, Raktim Mukhopadhyay, Mojgan Golzy, (参考訳) 本稿では,革新的なデータ解析手法を取り入れたQuadratiKパッケージを紹介する。 提示されたソフトウェアはRとPythonの両方で実装されており、カーネルベースの二次距離を用いて、適合性テストとクラスタリングの包括的なセットを提供し、統計学と機械学習の文献間のギャップを埋める。 本ソフトウェアは, 適合性評価のための1, 2, kサンプルテストを実装し, 確率分布の適合性を評価するための, 効率的かつ数学的に健全な方法を提供する。 ソフトウェアの拡張機能には,ポアソンカーネル密度に基づくD次元球面の均一性テストのサポートが含まれている。 特に注目すべきは、球面上のポアソン核に基づく密度の混合を利用する球面データに特化されたユニークなクラスタリングアルゴリズムの導入である。 この他にも,ユーザによる検証支援や,クラスタリング結果の可視化や表現など,グラフィカルな機能も備えています。 これにより解析の解釈性とユーザビリティが向上する。 結論として、当社のRとPythonパッケージは強力なツールセットとして機能し、研究者や実践者がデータを深く掘り下げ、堅牢な推論を描き、幅広い分野にわたって潜在的に影響のある分析と推論を行う手段を提供します。

We introduce the QuadratiK package that incorporates innovative data analysis methodologies. The presented software, implemented in both R and Python, offers a comprehensive set of goodness-of-fit tests and clustering techniques using kernel-based quadratic distances, thereby bridging the gap between the statistical and machine learning literatures. Our software implements one, two and k-sample tests for goodness of fit, providing an efficient and mathematically sound way to assess the fit of probability distributions. Expanded capabilities of our software include supporting tests for uniformity on the d-dimensional Sphere based on Poisson kernel densities. Particularly noteworthy is the incorporation of a unique clustering algorithm specifically tailored for spherical data that leverages a mixture of Poisson kernel-based densities on the sphere. Alongside this, our software includes additional graphical functions, aiding the users in validating, as well as visualizing and representing clustering results. This enhances interpretability and usability of the analysis. In summary, our R and Python packages serve as a powerful suite of tools, offering researchers and practitioners the means to delve deeper into their data, draw robust inference, and conduct potentially impactful analyses and inference across a wide array of disciplines.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# KIVI: KVキャッシュのためのチューニング不要な非対称2ビット量子化

KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache ( http://arxiv.org/abs/2402.02750v2 )

ライセンス: Link先を確認
Zirui Liu, Jiayi Yuan, Hongye Jin, Shaochen Zhong, Zhaozhuo Xu, Vladimir Braverman, Beidi Chen, Xia Hu, (参考訳) 大規模言語モデル(LLM)の効率的な提供には,要求毎のコスト削減のために,多数の要求のバッチ処理が必要となる。 しかし、バッチサイズが大きく、コンテキスト長が長いキーバリュー(KV)キャッシュは、再計算を避けるために注意キーと値を格納し、メモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。 さらに、KVキャッシュのロードにより、計算コアはアイドル状態になり、推論速度が制限される。 KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。 しかし、KVキャッシュ量子化の硬さと限界を理解するため、KVキャッシュの要素分布を探索する詳細な研究は存在しない。 このギャップを埋めるために、我々は人気のあるLCMのKVキャッシュにおける要素分布を網羅的に研究した。 以上の結果から,キーキャッシュはチャネル単位の量子化,すなわちチャネル次元に沿ってグループ要素の量子化を行い,それらをまとめて定量化する必要があることが示唆された。 対照的に、値キャッシュはトーケン毎に量子化されるべきである。 そこで本研究では,KIVIという2ビットKVキャッシュ量子化アルゴリズムを開発した。 ハードウェアフレンドリーな実装により、KIVIはLlama、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$\mathbf{2.6\times}$より少ないピークメモリ(モデルウェイトを含む)を使用することができる。 このメモリ使用量の削減は、$\mathbf{4\times}$より大きなバッチサイズを可能にし、実際のLCM推論ワークロードで$\mathbf{2.35\times \sim 3.47\times}$スループットをもたらす。 ソースコードはhttps://github.com/jy-yuan/KIVI.comで入手できる。

Efficiently serving large language models (LLMs) requires batching of many requests to reduce the cost per request. Yet, with larger batch sizes and longer context lengths, the key-value (KV) cache, which stores attention keys and values to avoid re-computations, significantly increases memory demands and becomes the new bottleneck in speed and memory usage. Additionally, the loading of the KV cache causes the computational core to be idle, which limits the inference speed. A straightforward and effective solution to reduce KV cache size is quantization, which decreases the total bytes taken by KV cache. However, there is a lack of in-depth studies that explore the element distribution of KV cache to understand the hardness and limitation of KV cache quantization. To fill the gap, we conducted a comprehensive study on the element distribution in KV cache of popular LLMs. Our findings indicate that the key cache should be quantized per-channel, i.e., group elements along the channel dimension and quantize them together. In contrast, the value cache should be quantized per-token. From this analysis, we developed a tuning-free 2bit KV cache quantization algorithm named KIVI. With hardware-friendly implementation, KIVI can enable Llama, Falcon, and Mistral models to maintain almost the same quality while using $\mathbf{2.6\times}$ less peak memory (including model weight). This reduction in memory usage enables up to $\mathbf{4\times}$ larger batch size, bringing $\mathbf{2.35\times \sim 3.47\times}$ throughput on real LLM inference workload. The source code is available at https://github.com/jy-yuan/KIVI.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# バックグラウンド独立テンソルネットワーク

Background independent tensor networks ( http://arxiv.org/abs/2402.05910v3 )

ライセンス: Link先を確認
Chris Akers, Annie Y. Wei, (参考訳) 従来のホログラフィックテンソルネットワークは、多くの小さな線型写像が空間的に局所的に作用し、すべて '`background entanglement'' で連結されたおもちゃのホログラフィック写像として記述できる。 しかし、これらの構造は実際のホログラフィックマップをモデル化するに足らない。 一つの理由は、幾何学が動的である重力とは異なり、それらの `areas'' は自明であり、全ての状態に対して同じ値を取るからである。 近年,「リンク上で生きていく」自由度を付加することで,この問題を改善している。 これにより、背景の絡み合い部分と同等の領域を非自明にし、また、リンクの度合いに依存する新しい正の要素を新たに得ることができる。 それでも、これは背景の絡み合いがあるという欠点があるため、すべての領域が背景の絡み合いによって与えられる最小限の値を持つような、比較的限られたコード部分空間のみをモデル化する。 ここでは、これらの構成の1つのバージョンは、ホログラムマップに背景の絡みが無く、背景の独立性を持つことができる。 これはテンソルネットワークがより大きなコード部分空間のホログラフィックマップをモデル化できるので有利である。 これに加えて、動作させるのにいくつかの微妙な問題に対処し、最近のランダムCFTデータに関する議論に、それがもたらす良いつながりを指摘する。

Conventional holographic tensor networks can be described as toy holographic maps constructed from many small linear maps acting in a spatially local way, all connected together with ``background entanglement'', i.e. links of a fixed state, often the maximally entangled state. However, these constructions fall short of modeling real holographic maps. One reason is that their ``areas'' are trivial, taking the same value for all states, unlike in gravity where the geometry is dynamical. Recently, new constructions have ameliorated this issue by adding degrees of freedom that ``live on the links''. This makes areas non-trivial, equal to the background entanglement piece plus a new positive piece that depends on the state of the link degrees of freedom. Nevertheless, this still has the downside that there is background entanglement, and hence it only models relatively limited code subspaces in which every area has a definite minimum value given by the background entanglement. In this note, we simply point out that a version of these constructions goes one step further: they can be background independent, with no background entanglement in the holographic map. This is advantageous because it allows tensor networks to model holographic maps for larger code subspaces. In addition to pointing this out, we address some subtleties involved in making it work and point out a nice connection it offers to recent discussions of random CFT data.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# Webブラウザにおけるディープラーニング推論の解剖学的検討

Anatomizing Deep Learning Inference in Web Browsers ( http://arxiv.org/abs/2402.05981v2 )

ライセンス: Link先を確認
Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li, Yun Ma, Ting Cao, Xuanzhe Liu, (参考訳) Webアプリケーションは、ブラウザ内推論を通じて、ますますDeep Learning (DL)を採用しており、DL推論はWebブラウザ内で直接実行される。 ブラウザ内推論の実際のパフォーマンスと、QoE(Quality of Experience)への影響は、まだ明らかにされていない。 このギャップを埋めるために、ブラウザ内推論の総合的なパフォーマンス測定を、これまでで初めて行った。 提案手法は,ブラウザ内推論(応答性,滑らか性,推測精度)を測定するための新しい指標を提案する。 当社の広範な分析では、Webブラウザにまたがる、50のPCデバイスと20のモバイルデバイスの9つの代表的DLモデルについて検討した。 ブラウザ内推論は、CPUでは平均16.9倍、GPUでは4.9倍の遅延差を示す。 モバイルCPUとモバイルGPUのギャップは、それぞれ15.8倍と7.8倍である。 さらに、未使用のハードウェア命令セット、実行環境固有のオーバーヘッド、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、このようなレイテンシギャップへの寄与要因を同定する。 さらに、ブラウザ内での推論は、大きなメモリ要求を課し、時にはDLモデル自体の334.6倍の規模で、部分的には最適化されたメモリ管理に起因している。 また、ブラウザ内推論は、GUIコンポーネントがWebブラウザ内でレンダリングするのに要する時間において、67.2%の大幅な増加をもたらし、この技術に依存したWebアプリケーションのユーザQoE全体に大きな影響を与えていることも観察した。

Web applications have increasingly adopted Deep Learning (DL) through in-browser inference, wherein DL inference performs directly within Web browsers. The actual performance of in-browser inference and its impacts on the quality of experience (QoE) remain unexplored, and urgently require new QoE measurements beyond traditional ones, e.g., mainly focusing on page load time. To bridge this gap, we make the first comprehensive performance measurement of in-browser inference to date. Our approach proposes new metrics to measure in-browser inference: responsiveness, smoothness, and inference accuracy. Our extensive analysis involves 9 representative DL models across Web browsers of 50 popular PC devices and 20 mobile devices. The results reveal that in-browser inference exhibits a substantial latency gap, averaging 16.9 times slower on CPU and 4.9 times slower on GPU compared to native inference on PC devices. The gap on mobile CPU and mobile GPU is 15.8 times and 7.8 times, respectively. Furthermore, we identify contributing factors to such latency gap, including underutilized hardware instruction sets, inherent overhead in the runtime environment, resource contention within the browser, and inefficiencies in software libraries and GPU abstractions. Additionally, in-browser inference imposes significant memory demands, at times exceeding 334.6 times the size of the DL models themselves, partly attributable to suboptimal memory management. We also observe that in-browser inference leads to a significant 67.2% increase in the time it takes for GUI components to render within Web browsers, significantly affecting the overall user QoE of Web applications reliant on this technology
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# ac-Stark格子変調により達成された原子気体中の長期集団Rydberg励起

Long-lived collective Rydberg excitations in atomic gas achieved via ac-Stark lattice modulation ( http://arxiv.org/abs/2402.06513v3 )

ライセンス: Link先を確認
Stanisław Kurzyna, Bartosz Niewelt, Mateusz Mazelanik, Wojciech Wasilewski, Michał Parniak, (参考訳) 集合Rydberg励起は、量子情報処理や量子コンピューティングから超感度電気測定まで、有望な応用を提供する。 しかし、彼らの短い寿命は現実のシナリオにおいて大きな障害となる。 寿命を延ばす最先端の方法は、主に基底状態の量子記憶のために実装され、異なる原子遷移を効果的に扱うために再設計が必要だった。 本稿では,リングバーグ励起寿命を延長するプロトコルを提案する。このプロトコルは原理的にスピン波を凍結し,熱劣化の影響を完全にキャンセルすることができる。 このプロトコルは、2つのレーザービームを原子媒体に干渉させることでスピン波の非共鳴ac-Stark格子変調を用いる。 我々の実装は、励起寿命を桁違いに拡張できることを示し、Rydberg励起のより複雑なプロトコルへの道を開いた。

Collective Rydberg excitations provide promising applications ranging from quantum information processing, and quantum computing to ultra-sensitive electrometry. However, their short lifetime is an immense obstacle in real-life scenarios. The state-of-the-art methods of prolonging the lifetime were mainly implemented for ground-state quantum memories and would require a redesign to effectively work on different atomic transitions. We propose a protocol for extending the Rydberg excitation lifetime, which in principle can freeze the spin-wave and completely cancel the effects of thermal dephasing. The protocol employs off-resonant ac-Stark lattice modulation of spin waves by interfering two laser beams on the atomic medium. Our implementation showed that the excitation lifetime can be extended by an order of magnitude, paving the way towards more complex protocols for collective Rydberg excitations.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# Chain-of-Layer: 限られた例から分類学誘導のための大規模言語モデルを繰り返し提案する

Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples ( http://arxiv.org/abs/2402.07386v2 )

ライセンス: Link先を確認
Qingkai Zeng, Yuyang Bai, Zhaoxuan Tan, Shangbin Feng, Zhenwen Liang, Zhihan Zhang, Meng Jiang, (参考訳) 自動分類誘導は、Web検索、レコメンデーションシステム、質問応答に不可欠である。 手作業による分類学のキュレーションは人的労力で高価であり、自動分類学の構築を極めて望ましいものにしている。 本稿では,あるエンティティ集合から分類学を誘導するために設計された,文脈内学習フレームワークであるChain-of-Layerを紹介する。 Chain-of-Layerはタスクを分割して、各レイヤで関連する候補エンティティを選択し、トップからボトムまでの分類を徐々に構築する。 誤りを最小限に抑えるために,エンサンブルベースのランキングフィルタを導入し,各イテレーションで生成する幻覚コンテンツを減らす。 大規模な実験を通じて,4つの実世界のベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。

Automatic taxonomy induction is crucial for web search, recommendation systems, and question answering. Manual curation of taxonomies is expensive in terms of human effort, making automatic taxonomy construction highly desirable. In this work, we introduce Chain-of-Layer which is an in-context learning framework designed to induct taxonomies from a given set of entities. Chain-of-Layer breaks down the task into selecting relevant candidate entities in each layer and gradually building the taxonomy from top to bottom. To minimize errors, we introduce the Ensemble-based Ranking Filter to reduce the hallucinated content generated at each iteration. Through extensive experiments, we demonstrate that Chain-of-Layer achieves state-of-the-art performance on four real-world benchmarks.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# 3次元ディフューザ・アクター:3次元シーン表現による政策拡散

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations ( http://arxiv.org/abs/2402.10885v3 )

ライセンス: Link先を確認
Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki, (参考訳) 拡散ポリシーは、ロボットと環境状態に条件付けされたロボットの行動分布を学習する条件付き拡散モデルである。 彼らは最近、決定論的および代替的な行動分布学習の定式化よりも優れていることを示した。 3Dロボットポリシーでは、感覚深度を用いて1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。 彼らは、カメラの視点で2Dよりもうまく一般化できることを示してきた。 これら2つの作業行を統一し、3Dディフューザ・アクターを提示する。3D視覚シーンからの情報を融合する新しい3Dデノナイジング・トランスフォーマーを備えたニューラルポリシーである。 3Dディフューザー・アクターはRLBench上で新しい最先端を設定し、現在のSOTAよりも18.1%、シングルビューでは13.1%という絶対的なパフォーマンス向上を実現した。 CALVINベンチマークでは、現在のSOTAよりも9%向上している。 また、いくつかのデモから現実世界のロボットマニピュレータの制御も学んでいる。 現在のSOTAポリシーと我々のモデルとの徹底的な比較を通して、3Dディフューザー・アクターの設計選択が2D表現、回帰と分類の目的、絶対的な注意、そして全体論的でない3Dシーンの埋め込みを劇的に上回っていることを示す。

Diffusion policies are conditional diffusion models that learn robot action distributions conditioned on the robot and environment state. They have recently shown to outperform both deterministic and alternative action distribution learning formulations. 3D robot policies use 3D scene feature representations aggregated from a single or multiple camera views using sensed depth. They have shown to generalize better than their 2D counterparts across camera viewpoints. We unify these two lines of work and present 3D Diffuser Actor, a neural policy equipped with a novel 3D denoising transformer that fuses information from the 3D visual scene, a language instruction and proprioception to predict the noise in noised 3D robot pose trajectories. 3D Diffuser Actor sets a new state-of-the-art on RLBench with an absolute performance gain of 18.1% over the current SOTA on a multi-view setup and an absolute gain of 13.1% on a single-view setup. On the CALVIN benchmark, it improves over the current SOTA by a 9% relative increase. It also learns to control a robot manipulator in the real world from a handful of demonstrations. Through thorough comparisons with the current SOTA policies and ablations of our model, we show 3D Diffuser Actor's design choices dramatically outperform 2D representations, regression and classification objectives, absolute attentions, and holistic non-tokenized 3D scene embeddings.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# SLADE:自己監視学習によるラベルなしエッジストリームの動的異常検出

SLADE: Detecting Dynamic Anomalies in Edge Streams without Labels via Self-Supervised Learning ( http://arxiv.org/abs/2402.11933v3 )

ライセンス: Link先を確認
Jongha Lee, Sunwoo Kim, Kijung Shin, (参考訳) ソーシャル,メール,金融ネットワークなどの実世界のグラフの異常を検出するために,様々なアプローチが開発されている。 彼らは通常静的な入力グラフを仮定するが、ほとんどの現実世界のグラフは時間とともに成長し、自然にエッジストリームとして表される。 この文脈では、私たちは3つの目標を達成することを目指しています。 a) 異常が発生すると即座に異常を検知する。 b)動的に変化する状態に適応し、 (c)動的異常ラベルの不足を扱う。 本稿では,ラベルに依存することなく,エッジストリーム中の動的異常を迅速に検出するためのSLADE(Self-supervised Learning for Anomaly Detection in Edge Streams)を提案する。 SLADEは、時間とともに相互作用パターンの偏差を観察することで、ノードの異常状態へのシフトを検出する。 この目的のために、ディープニューラルネットワークをトレーニングして、2つの自己教師型タスクを実行する。 (a)ノード表現におけるドリフトの最小化及び (b)短期的な相互作用パターンから長期的相互作用パターンを生成する。 ノードのこれらのタスクの失敗は、標準からの逸脱を示す。 特に、ニューラルネットワークとタスクは、入力ストリームの各新しいエッジに応答して、すべての必要な操作を一定時間(例えばグラフサイズ)で実行できるように、慎重に設計されている。 現実世界の4つのデータセットをまたいだ動的異常検出では、SLADEは9つの競合するメソッド、さらにはラベルの監督を利用するものよりも優れています。

To detect anomalies in real-world graphs, such as social, email, and financial networks, various approaches have been developed. While they typically assume static input graphs, most real-world graphs grow over time, naturally represented as edge streams. In this context, we aim to achieve three goals: (a) instantly detecting anomalies as they occur, (b) adapting to dynamically changing states, and (c) handling the scarcity of dynamic anomaly labels. In this paper, we propose SLADE (Self-supervised Learning for Anomaly Detection in Edge Streams) for rapid detection of dynamic anomalies in edge streams, without relying on labels. SLADE detects the shifts of nodes into abnormal states by observing deviations in their interaction patterns over time. To this end, it trains a deep neural network to perform two self-supervised tasks: (a) minimizing drift in node representations and (b) generating long-term interaction patterns from short-term ones. Failure in these tasks for a node signals its deviation from the norm. Notably, the neural network and tasks are carefully designed so that all required operations can be performed in constant time (w.r.t. the graph size) in response to each new edge in the input stream. In dynamic anomaly detection across four real-world datasets, SLADE outperforms nine competing methods, even those leveraging label supervision.
公開日:2024-07-25
翻訳日:2024-07-26 19:36:52
# HyperMoE: エキスパート間の移行を通じて、エキスパートの混合性を改善する

HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts ( http://arxiv.org/abs/2402.12656v4 )

ライセンス: Link先を確認
Hao Zhao, Zihan Qiu, Huijia Wu, Zili Wang, Zhaofeng He, Jie Fu, (参考訳) 言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。 この成功にもかかわらず、既存のほとんどの手法は、スペシャリティとエキスパート知識の可用性のバランスをとるための課題に直面している。 この矛盾を緩和するため、Hypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。 このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。 選択されていない専門家の情報に基づいて生成される特定のモジュールは補足情報であり、選択されていない専門家の知識を選択範囲を維持しながら使用することができる。 複数のデータセットやバックボーンにまたがる包括的な経験的評価は、HyperMoEが、専門家数に関する同じ条件下で、既存のMoEメソッドを著しく上回っていることを証明しています。

The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# Vec2TextのDense Retrievalシステムに対する脅威の理解と軽減

Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems ( http://arxiv.org/abs/2402.12784v2 )

ライセンス: Link先を確認
Shengyao Zhuang, Bevan Koopman, Xiaoran Chu, Guido Zuccon, (参考訳) テキスト埋め込みのインバージョン方法であるVec2Textの出現は、OpenAIやCohereが提供するようなテキスト埋め込みを使用する高密度検索システムに対して、深刻なプライバシー上の懸念を提起している。 この脅威は、悪意のある攻撃者が埋め込みにアクセスして元のテキストを再構築する能力に起因している。 本稿では,Vec2Textによるテキスト復元に影響を及ぼすであろう埋め込みモデルに関連する諸要因について検討する。 本稿では,従来のVec2Text論文では考慮されていなかった距離測定,プール機能,ボトルネック事前学習,ノイズ付加によるトレーニング,量子化の埋め込み,埋め込み次元などの要因について検討する。 これらの要因の包括的分析を通じて,本研究の目的は,高密度検索システムのテキスト復元可能性と検索効率のトレードオフに影響を与える重要な要素を深く理解することであり,プライバシーに配慮した高密度検索システムを設計する実践者に対して洞察を提供することである。 また,リカバリ可能性のリスクを軽減しつつ,同等のランク付けを保証できる簡易な埋め込み変換修正を提案する。 全体としては、Vec2Textは現在の高密度検索システムに脅威をもたらす可能性があるが、そのようなシステムにパッチを当てる効果的な方法がいくつかある。

The emergence of Vec2Text -- a method for text embedding inversion -- has raised serious privacy concerns for dense retrieval systems which use text embeddings, such as those offered by OpenAI and Cohere. This threat comes from the ability for a malicious attacker with access to embeddings to reconstruct the original text. In this paper, we investigate various factors related to embedding models that may impact text recoverability via Vec2Text. We explore factors such as distance metrics, pooling functions, bottleneck pre-training, training with noise addition, embedding quantization, and embedding dimensions, which were not considered in the original Vec2Text paper. Through a comprehensive analysis of these factors, our objective is to gain a deeper understanding of the key elements that affect the trade-offs between the text recoverability and retrieval effectiveness of dense retrieval systems, offering insights for practitioners designing privacy-aware dense retrieval systems. We also propose a simple embedding transformation fix that guarantees equal ranking effectiveness while mitigating the recoverability risk. Overall, this study reveals that Vec2Text could pose a threat to current dense retrieval systems, but there are some effective methods to patch such systems.
公開日:2024-07-24
翻訳日:2024-07-26 19:26:49
# 文脈内学習の理解のための意味的誘導頭部の同定

Identifying Semantic Induction Heads to Understand In-Context Learning ( http://arxiv.org/abs/2402.13055v2 )

ライセンス: Link先を確認
Jie Ren, Qipeng Guo, Hang Yan, Dongrui Liu, Quanshi Zhang, Xipeng Qiu, Dahua Lin, (参考訳) 大きな言語モデル(LLM)は目覚ましい性能を示しているが、推論ロジックにおける透明性の欠如は、彼らの信頼性に対する懸念を引き起こす。 LLMのより深い理解を得るために、我々は注意頭の動きを詳細に分析し、LLMの文脈内学習をより深く理解することを目的としている。 具体的には,自然言語に存在するトークン間の2種類の関係,すなわち文から解析された構文的依存性と知識グラフ内の関係を,注目ヘッドが符号化するかどうかを検討する。 特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。 さらに重要なことは、このような意味誘導ヘッドの定式化は、言語モデルの文脈内学習能力の出現と密接に相関している。 セマンティックアテンションヘッドの研究は、トランスフォーマーにおけるアテンションヘッドの複雑な操作に関する理解を深め、さらにLLMの文脈内学習に関する新たな洞察を提供する。

Although large language models (LLMs) have demonstrated remarkable performance, the lack of transparency in their inference logic raises concerns about their trustworthiness. To gain a better understanding of LLMs, we conduct a detailed analysis of the operations of attention heads and aim to better understand the in-context learning of LLMs. Specifically, we investigate whether attention heads encode two types of relationships between tokens present in natural languages: the syntactic dependency parsed from sentences and the relation within knowledge graphs. We find that certain attention heads exhibit a pattern where, when attending to head tokens, they recall tail tokens and increase the output logits of those tail tokens. More crucially, the formulation of such semantic induction heads has a close correlation with the emergence of the in-context learning ability of language models. The study of semantic attention heads advances our understanding of the intricate operations of attention heads in transformers, and further provides new insights into the in-context learning of LLMs.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# 医用画像データセットの自己教師型可視化

Self-supervised Visualisation of Medical Image Datasets ( http://arxiv.org/abs/2402.14566v2 )

ライセンス: Link先を確認
Ifeoma Veronica Nwabufo, Jan Niklas Böhm, Philipp Berens, Dmitry Kobak, (参考訳) SimCLR、BYOL、DINOなどのデータ拡張に基づく自己教師付き学習手法により、画像データセットの意味論的意味のある表現が得られ、教師付き微調整の前に広く使用される。 最近の自己教師型学習手法である$t$-SimCNEは、コントラスト学習を用いて、視覚化に適した2D表現を直接訓練する。 自然画像データセットに適用すると、$t$-SimCNEは意味論的に意味のあるクラスタを持つ2Dヴィジュアライゼーションが得られる。 本研究では、皮膚科学、組織学、血液顕微鏡などの医療画像データセットの可視化に$t$-SimCNEを使用しました。 その結果、任意の回転を含むデータ拡張の集合の増加は、自然画像に使用されるデータ拡張と比較して、クラス分離性の観点から結果を改善した。 我々の2D表現は、医学的に関係のある構造を示し、データ探索とアノテーションを補助し、データの可視化のための一般的なアプローチを改善するために使用することができる。

Self-supervised learning methods based on data augmentations, such as SimCLR, BYOL, or DINO, allow obtaining semantically meaningful representations of image datasets and are widely used prior to supervised fine-tuning. A recent self-supervised learning method, $t$-SimCNE, uses contrastive learning to directly train a 2D representation suitable for visualisation. When applied to natural image datasets, $t$-SimCNE yields 2D visualisations with semantically meaningful clusters. In this work, we used $t$-SimCNE to visualise medical image datasets, including examples from dermatology, histology, and blood microscopy. We found that increasing the set of data augmentations to include arbitrary rotations improved the results in terms of class separability, compared to data augmentations used for natural images. Our 2D representations show medically relevant structures and can be used to aid data exploration and annotation, improving on common approaches for data visualisation.
公開日:2024-07-24
翻訳日:2024-07-26 19:26:49
# DiCoM -- 胸部X線研究における一般化性向上に向けた異種概念モデリング

DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies ( http://arxiv.org/abs/2402.15534v2 )

ライセンス: Link先を確認
Abhijeet Parida, Daniel Capellan-Martin, Sara Atito, Muhammad Awais, Maria J. Ledesma-Carbayo, Marius G. Linguraru, Syed Muhammad Anwar, (参考訳) 胸部X線(CXR)は,様々な肺・心疾患の診断・予後において重要な役割を担っている。 従来の自動臨床診断ツールの設計戦略は、放射線診断の読み書きと教師付き学習に依存しており、高品質な注釈付きトレーニングデータの面倒な要求が伴う。 この課題に対処するために、セルフ教師付き事前訓練は、多くの下流視覚タスクにおいて教師付き事前訓練よりも優れており、この分野における大きなブレークスルーを示している。 しかし, 臨床画像の特徴から, 自然画像(例えば, ImageNet)の事前訓練とは, 医用画像の事前訓練とは大きく異なる。 本稿では,多様な概念を学習し,CXRデータを効果的に表現するために,学生教師の枠組みを活用する,新しい自己指導型学習パラダイムであるDiverse Concept Modeling(DiCoM)を紹介する。 したがって、画像内の1つのプライマリラベルをモデル化するだけでなく、CXRに固有のすべての概念からの情報を効果的に活用することができる。 事前訓練されたモデルはその後、さまざまなドメイン固有のタスクに対処するように微調整される。 提案するパラダイムは,複数のデータセット上で複数のダウンストリームタスクにまたがるロバストなパフォーマンスを一貫して示しており,事前学習戦略の成功と一般化性を強調している。 本手法の有効性を確立するため,学習した表現のパワーとモデルの収束速度(SoC)を解析した。 さまざまなデータやタスクに対して、DiCoMは他の最先端の事前トレーニング戦略と比較して、ほとんどのケースでより良い結果を得ることができる。 これにより、高いSoCと一般化能力が組み合わさって、広く使われている画像モダリティであるCXRの基礎モデルとしてDiCoMが確立される。

Chest X-Ray (CXR) is a widely used clinical imaging modality and has a pivotal role in the diagnosis and prognosis of various lung and heart related conditions. Conventional automated clinical diagnostic tool design strategies relying on radiology reads and supervised learning, entail the cumbersome requirement of high quality annotated training data. To address this challenge, self-supervised pre-training has proven to outperform supervised pre-training in numerous downstream vision tasks, representing a significant breakthrough in the field. However, medical imaging pre-training significantly differs from pre-training with natural images (e.g., ImageNet) due to unique attributes of clinical images. In this context, we introduce Diverse Concept Modeling (DiCoM), a novel self-supervised training paradigm that leverages a student teacher framework for learning diverse concepts and hence effective representation of the CXR data. Hence, expanding beyond merely modeling a single primary label within an image, instead, effectively harnessing the information from all the concepts inherent in the CXR. The pre-trained model is subsequently fine-tuned to address diverse domain-specific tasks. Our proposed paradigm consistently demonstrates robust performance across multiple downstream tasks on multiple datasets, highlighting the success and generalizability of the pre-training strategy. To establish the efficacy of our methods we analyze both the power of learned representations and the speed of convergence (SoC) of our models. For diverse data and tasks, DiCoM is able to achieve in most cases better results compared to other state-of-the-art pre-training strategies. This when combined with the higher SoC and generalization capabilities positions DiCoM to be established as a foundation model for CXRs, a widely used imaging modality.
公開日:2024-07-24
翻訳日:2024-07-26 19:26:49
# アンシラ支援によるランダウアー限界を超える量子情報の消去

Ancilla-assisted erasure of quantum information beyond Landauer's limit ( http://arxiv.org/abs/2402.15812v2 )

ライセンス: Link先を確認
Carlos Octavio A. Ribeiro Neto, Bertúlio de Lima Bernardo, (参考訳) ランダウアーの原理は、1つの古典的な情報のビットがメモリから消去されたときに放熱される熱の基本的な限界を定め、そのため情報理論と熱力学の直接的なリンクを確立する。 しかし、量子技術の出現とともに、原理を克服する戦略が存在するかどうかという問題が自然に現れる。 本研究では,任意の量子ビット状態を単位確率で消去し,ランダウアーの極限を超えた動作が可能な量子チャネルを提案する。 メモリと対話するためにアンシラキュービットを必要とするこの方法は、CNOTゲートのみに基づいている。 ランダウアー境界の違反は、貯水池温度が所定の限界温度以上で、室温よりかなり低い場合に検証される。

Landauer's principle sets a fundamental limit on the heat dissipated when one classical bit of information is erased from a memory, therefore establishing a direct link between information theory and thermodynamics. However, with the advent of quantum technologies, the question of whether there is a strategy to overcome the principle naturally emerges. In this work, we present a quantum channel that erases any qubit state with unit probability, and is capable of operating beyond Landauer's limit. The method, which requires an ancilla qubit to interact with the memory, is based only on CNOT gates. The violation of the Landauer bound is verified when the reservoir temperature is above a given limit temperature, which can be well below room temperature.
公開日:2024-07-24
翻訳日:2024-07-26 19:26:49
# PCR-99:99%のアウトリーチを持つポイントクラウド登録の実践的方法

PCR-99: A Practical Method for Point Cloud Registration with 99% Outliers ( http://arxiv.org/abs/2402.16598v4 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera, Patrick Vandewalle, (参考訳) 本稿では,未知のスケールと極端外周比の両方を扱える点雲登録法を提案する。 PCR-99と呼ばれる本手法では, 速度を著しく向上させる2つの新しいメカニズムを持つ決定論的3点サンプリング手法を用いて, 1) ペアスケールの整合性に基づくサンプルの整合性の向上, および(2) トリプルトスケールの整合性に基づく効率的な外乱除去手法, 悪いサンプルの事前スクリーニング, テスト対象の仮説数の削減を行う。 提案手法は,98%のアウトレイラ比において,最先端技術に匹敵する性能を達成できることを示す。 しかし、99%のアウトラヤ比では、既知のスケールと未知のスケールの問題の両方において、最先端の問題を上回ります。 特に後者では、ロバスト性と速度の観点から明らかな優位性を観察する。

We propose a robust method for point cloud registration that can handle both unknown scales and extreme outlier ratios. Our method, dubbed PCR-99, uses a deterministic 3-point sampling approach with two novel mechanisms that significantly boost the speed: (1) an improved ordering of the samples based on pairwise scale consistency, prioritizing the point correspondences that are more likely to be inliers, and (2) an efficient outlier rejection scheme based on triplet scale consistency, prescreening bad samples and reducing the number of hypotheses to be tested. Our evaluation shows that, up to 98% outlier ratio, the proposed method achieves comparable performance to the state of the art. At 99% outlier ratio, however, it outperforms the state of the art for both known-scale and unknown-scale problems. Especially for the latter, we observe a clear superiority in terms of robustness and speed.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# Feature Re-Embedding:計算病理学における基礎モデルレベルパフォーマンスを目指して

Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational Pathology ( http://arxiv.org/abs/2402.17228v4 )

ライセンス: Link先を確認
Wenhao Tang, Fengtao Zhou, Sheng Huang, Xiang Zhu, Yi Zhang, Bo Liu, (参考訳) マルチプル・インスタンス・ラーニング(MIL)は、サブタイピング、診断、予後などを含む、計算病理学において最も広く使われているフレームワークである。 しかし、既存のMILパラダイムは、通常、トレーニング済みのResNetやファンデーションモデルのようなオフラインのインスタンス機能抽出器を必要とする。 このアプローチには、特定の下流タスク内で機能を微調整する機能がなく、適応性とパフォーマンスが制限されている。 この問題に対処するため,インスタンス機能をオンラインで再埋め込みするためのRe-embedded Regional Transformer (R$^2$T)を提案する。 強力な機能抽出器を事前訓練したり、洗練されたインスタンスアグリゲータを設計する既存の作業とは異なり、R$^2$Tはオンラインでインスタンス機能を再組み込むように調整されている。 メインストリームのMILモデルにシームレスに統合できるポータブルモジュールとして機能する。 一般的な計算病理タスクに関する大規模な実験結果は、以下の通りである。 1) 機能再埋め込みにより,ResNet-50機能に基づくMILモデルの性能が基礎モデル機能レベルに向上し,基礎モデル機能の性能がさらに向上する。 2) R$^2$T は様々な MIL モデルにさらなる性能改善をもたらすことができる。 3) R$^2$T-MIL は R$^2$T-enhanced AB-MIL である。

Multiple instance learning (MIL) is the most widely used framework in computational pathology, encompassing sub-typing, diagnosis, prognosis, and more. However, the existing MIL paradigm typically requires an offline instance feature extractor, such as a pre-trained ResNet or a foundation model. This approach lacks the capability for feature fine-tuning within the specific downstream tasks, limiting its adaptability and performance. To address this issue, we propose a Re-embedded Regional Transformer (R$^2$T) for re-embedding the instance features online, which captures fine-grained local features and establishes connections across different regions. Unlike existing works that focus on pre-training powerful feature extractor or designing sophisticated instance aggregator, R$^2$T is tailored to re-embed instance features online. It serves as a portable module that can seamlessly integrate into mainstream MIL models. Extensive experimental results on common computational pathology tasks validate that: 1) feature re-embedding improves the performance of MIL models based on ResNet-50 features to the level of foundation model features, and further enhances the performance of foundation model features; 2) the R$^2$T can introduce more significant performance improvements to various MIL models; 3) R$^2$T-MIL, as an R$^2$T-enhanced AB-MIL, outperforms other latest methods by a large margin.The code is available at: https://github.com/DearCaat/RRT-MIL.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# ベイジアンニューラルネットワークを用いた反応乱流閉鎖モデルの事前不確かさの定量化

A Priori Uncertainty Quantification of Reacting Turbulence Closure Models using Bayesian Neural Networks ( http://arxiv.org/abs/2402.18729v2 )

ライセンス: Link先を確認
Graham Pash, Malik Hassanaly, Shashank Yellapantula, (参考訳) 大規模渦シミュレーション(LES)におけるサブフィルタスケール(SFS)に物理に基づくクロージャモデル形式が多数提案されているが、直接数値シミュレーション(DNS)から得られる膨大な量のデータが、データ駆動モデリング技術を活用する機会を生み出している。 フレキシブルなデータ駆動モデルは、選択したモデルのデータセットと機能形式に依存しています。 このようなモデルの採用の増加には、データインフォームドとアウト・オブ・ディストリビューションの両方において、確実な不確実性推定が必要である。 本研究ではベイズニューラルネットワーク(BNN)を用いて,反応流モデルにおけるてんかんと失語症両方の不確かさを捉える。 特に, 乱流予混合火炎の力学において重要な役割を担うフィルタ進行変動スカラー散逸率をモデル化した。 我々は、BNNモデルが、データ駆動クロージャモデルの不確実性の構造に関するユニークな洞察を提供することができることを示した。 また,BNNにおけるアウト・オブ・ディストリビューション情報の導入方法を提案する。 このモデルの有効性は,様々な火炎条件と燃料からなるデータセットに対する事前評価によって実証される。

While many physics-based closure model forms have been posited for the sub-filter scale (SFS) in large eddy simulation (LES), vast amounts of data available from direct numerical simulation (DNS) create opportunities to leverage data-driven modeling techniques. Albeit flexible, data-driven models still depend on the dataset and the functional form of the model chosen. Increased adoption of such models requires reliable uncertainty estimates both in the data-informed and out-of-distribution regimes. In this work, we employ Bayesian neural networks (BNNs) to capture both epistemic and aleatoric uncertainties in a reacting flow model. In particular, we model the filtered progress variable scalar dissipation rate which plays a key role in the dynamics of turbulent premixed flames. We demonstrate that BNN models can provide unique insights about the structure of uncertainty of the data-driven closure models. We also propose a method for the incorporation of out-of-distribution information in a BNN. The efficacy of the model is demonstrated by a priori evaluation on a dataset consisting of a variety of flame conditions and fuels.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# 病理診断における集団レベルコンテキストによるグループ内変動のハーネス化

Harnessing Intra-group Variations Via a Population-Level Context for Pathology Detection ( http://arxiv.org/abs/2403.02307v2 )

ライセンス: Link先を確認
P. Bilha Githinji, Xi Yuan, Zhenglin Chen, Ijaz Gul, Dingqi Shang, Wen Liang, Jianming Deng, Dan Zeng, Dongmei yu, Chenggang Yan, Peiwu Qin, (参考訳) 健全なサンプルと病理サンプルの分布の十分な分離性を実現することは、進化モデルを検出する上で重要な障害である。 さらに、これらのモデルはコントラストベースの画像に偏りを示し、テクスチャベースの医療画像の性能は低下する。 本研究では,病理診断のための集団レベルのコンテキストの概念を導入し,PopuSenseと呼ぶリファインメントモジュールを通じてオートエンコーダの潜在コードにグラフ理論のアプローチを取り入れた。 PopuSenseは、畳み込みモデルの局所的またはグローバル的文脈が見逃したり、滑らかになったりする生医学データに固有の追加のグループ内変異を捉えようとしている。 コントラストベースおよびテクスチャベースの画像に対する概念実証実験は、最小限の適応で、既存の強度ベース入力の嗜好に遭遇する。 それにもかかわらず、PopuSenseはコントラストベースの画像における分離性の改善を示し、モデルによって学習された表現を洗練するための追加の道を示す。

Realizing sufficient separability between the distributions of healthy and pathological samples is a critical obstacle for pathology detection convolutional models. Moreover, these models exhibit a bias for contrast-based images, with diminished performance on texture-based medical images. This study introduces the notion of a population-level context for pathology detection and employs a graph theoretic approach to model and incorporate it into the latent code of an autoencoder via a refinement module we term PopuSense. PopuSense seeks to capture additional intra-group variations inherent in biomedical data that a local or global context of the convolutional model might miss or smooth out. Proof-of-concept experiments on contrast-based and texture-based images, with minimal adaptation, encounter the existing preference for intensity-based input. Nevertheless, PopuSense demonstrates improved separability in contrast-based images, presenting an additional avenue for refining representations learned by a model.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# ニューラルフラクタル微分方程式

Neural Fractional Differential Equations ( http://arxiv.org/abs/2403.02737v2 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L. L. Ferrás, (参考訳) FDE(Fractional Differential Equations)は、科学や工学において複雑なシステムをモデル化するための重要なツールである。 彼らは従来の微分と統合の概念を非整数順序に拡張し、非局所的およびメモリ依存的な振る舞いによって特徴づけられるプロセスのより正確な表現を可能にした。 この特性は、変数が即座に変更に応答せず、代わりに過去の相互作用の強い記憶を示すシステムで有用である。 このことを念頭に置いて、ニューラル正規微分方程式(Neural Ordinary Differential Equations,Neural ODEs)からインスピレーションを得て、FDEをデータのダイナミックスに調整する新しいディープニューラルネットワークアーキテクチャであるNeural FDEを提案する。 本稿では,ニューラルFDEとニューラルFDEアーキテクチャにおける数値手法について概観する。 数値的な結果は、より計算的に要求されているにもかかわらず、ニューラルFDEは過去の状態へのメモリや依存を持つモデリングシステムにおいてニューラルODEよりも優れており、より複雑な力学系を学習するために効果的に適用可能であることを示唆している。

Fractional Differential Equations (FDEs) are essential tools for modelling complex systems in science and engineering. They extend the traditional concepts of differentiation and integration to non-integer orders, enabling a more precise representation of processes characterised by non-local and memory-dependent behaviours. This property is useful in systems where variables do not respond to changes instantaneously, but instead exhibit a strong memory of past interactions. Having this in mind, and drawing inspiration from Neural Ordinary Differential Equations (Neural ODEs), we propose the Neural FDE, a novel deep neural network architecture that adjusts a FDE to the dynamics of data. This work provides a comprehensive overview of the numerical method employed in Neural FDEs and the Neural FDE architecture. The numerical outcomes suggest that, despite being more computationally demanding, the Neural FDE may outperform the Neural ODE in modelling systems with memory or dependencies on past states, and it can effectively be applied to learn more intricate dynamical systems.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# マルチモーダルテスト時間適応のための信頼性のある時空間ボクセル

Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation ( http://arxiv.org/abs/2403.06461v3 )

ライセンス: Link先を確認
Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Xingyu Ji, Shenghai Yuan, Lihua Xie, (参考訳) マルチモーダルテストタイム適応 (MM-TTA) は、相補的なマルチモーダル入力をオンライン形式で活用することにより、未ラベルのターゲットドメインにモデルを適応させる。 従来のMM-TTA法では, 連続するフレーム内の幾何学的近傍の予測は高い相関関係にあるという事実を無視し, 時間とともに不安定な予測を導いた。 このギャップを埋めるために,マルチモーダル3次元セグメンテーションのための信頼性の高い相互時空間対応を利用するMM-TTA法であるReliable Spatial-temporal Voxels (Latte)を提案する。 ラッテは、信頼性のある予測がそれらの時空間対応と一致すべきであるという事実に感銘を受け、連続したフレームをスライドウィンドウで集約し、各モードの時間的局所的な予測一貫性を捉えるために、時空間テモペラル(ST)ボクセルを構築する。 高いSTエントロピーでSTボクセルをフィルタリングした後、ラッテは空間的にも時間的にも信頼性が高く一貫した予測を行う。 実験結果から,従来のMM-TTA法やTTA法と比較して,3種類のMM-TTAベンチマークの最先端性能が得られた。 プロジェクトのサイト https://sites.google.com/view/eccv24-latte をご覧ください。

Multi-modal test-time adaptation (MM-TTA) is proposed to adapt models to an unlabeled target domain by leveraging the complementary multi-modal inputs in an online manner. Previous MM-TTA methods for 3D segmentation rely on predictions of cross-modal information in each input frame, while they ignore the fact that predictions of geometric neighborhoods within consecutive frames are highly correlated, leading to unstable predictions across time. To fulfill this gap, we propose ReLiable Spatial-temporal Voxels (Latte), an MM-TTA method that leverages reliable cross-modal spatial-temporal correspondences for multi-modal 3D segmentation. Motivated by the fact that reliable predictions should be consistent with their spatial-temporal correspondences, Latte aggregates consecutive frames in a slide window manner and constructs Spatial-Temopral (ST) voxels to capture temporally local prediction consistency for each modality. After filtering out ST voxels with high ST entropy, Latte conducts cross-modal learning for each point and pixel by attending to those with reliable and consistent predictions among both spatial and temporal neighborhoods. Experimental results show that Latte achieves state-of-the-art performance on three different MM-TTA benchmarks compared to previous MM-TTA or TTA methods. Visit our project site https://sites.google.com/view/eccv24-latte.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# HAIFIT:ファッション画像翻訳のための人間中心AI

HAIFIT: Human-Centered AI for Fashion Image Translation ( http://arxiv.org/abs/2403.08651v3 )

ライセンス: Link先を確認
Jianan Jiang, Xinglin Li, Weiren Yu, Di Wu, (参考訳) ファッションデザインの領域では、スケッチはアーティストの独特のドローイングスタイルと創造的なビジョンを表現するためのキャンバスとして機能し、ストロークのバリエーションやテクスチャのニュアンスといった複雑な詳細を捉えている。 スケッチ・ツー・イメージのクロスモーダル翻訳技術の出現は、デザイナを特に助けてきた。 しかし、既存の手法はしばしばこれらのスケッチの詳細を画像生成中に妥協し、設計者の意図した概念から逸脱する結果となる。 この制限は、デザイナーに最終的な出力の正確なプレビューを提供する能力を損なう。 この課題を克服するために,マルチスケール機能を統合し,多様な視点から広範な特徴マップ依存性をキャプチャすることで,スケッチを高忠実なライフライクな衣料品画像に変換する新しいアプローチであるHAIFITを導入する。 本手法は,我々の自己収集データセット上で行った定性的,定量的な評価を通じて,既存のフォトリアリスティックな衣料品画像生成手法と比較して,優れた性能を示す。 本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。 さらに,本手法は,設計者の時間的コスト低減と設計効率の向上に寄与し,モデルトレーニングと推論速度において明らかな優位性を有する。

In the realm of fashion design, sketches serve as the canvas for expressing an artist's distinctive drawing style and creative vision, capturing intricate details like stroke variations and texture nuances. The advent of sketch-to-image cross-modal translation technology has notably aided designers. However, existing methods often compromise these sketch details during image generation, resulting in images that deviate from the designer's intended concept. This limitation hampers the ability to offer designers a precise preview of the final output. To overcome this challenge, we introduce HAIFIT, a novel approach that transforms sketches into high-fidelity, lifelike clothing images by integrating multi-scale features and capturing extensive feature map dependencies from diverse perspectives. Through extensive qualitative and quantitative evaluations conducted on our self-collected dataset, our method demonstrates superior performance compared to existing methods in generating photorealistic clothing images. Our method excels in preserving the distinctive style and intricate details essential for fashion design applications. In addition, our method also has obvious advantages in model training and inference speed, contributing to reducing designers' time costs and improving design efficiency.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# 熱拡散による効率的な組合せ最適化

Efficient Combinatorial Optimization via Heat Diffusion ( http://arxiv.org/abs/2403.08757v3 )

ライセンス: Link先を確認
Hengyuan Ma, Wenlian Lu, Jianfeng Feng, (参考訳) 組合せ最適化問題は広く存在するが、本質的には離散的な性質のため困難である。 既存の手法の最大の限界は、各イテレーションで解空間のごく一部しかアクセスできないことであり、グローバル最適探索の効率が限界であることであり、この課題を克服するために、解の探索範囲を拡大する従来の取り組みから切り離して、熱拡散による解に積極的に伝播する情報の実現に重点を置いている。 目標関数を最適に保ちながら変換することにより、熱拡散は、遠隔地からソルバへの情報流を容易にし、より効率的なナビゲーションを提供する。 熱拡散を利用した一般的な組合せ最適化問題の解法を提案し,最も困難かつ広く遭遇する組合せ最適化の範囲で優れた性能を示す。 生成人工知能に熱力学を応用した最近の進歩を振り返って, 組合せ最適化の進歩におけるその大きな可能性を明らかにした。

Combinatorial optimization problems are widespread but inherently challenging due to their discrete nature. The primary limitation of existing methods is that they can only access a small fraction of the solution space at each iteration, resulting in limited efficiency for searching the global optimal.To overcome this challenge, diverging from conventional efforts of expanding the solver's search scope, we focus on enabling information to actively propagate to the solver through heat diffusion. By transforming the target function while preserving its optima, heat diffusion facilitates information flow from distant regions to the solver, providing more efficient navigation. Utilizing heat diffusion, we propose a framework for solving general combinatorial optimization problems.The proposed methodology demonstrates superior performance across a range of the most challenging and widely encountered combinatorial optimizations. Echoing recent advancements in harnessing thermodynamics for generative artificial intelligence, our study further reveals its significant potential in advancing combinatorial optimization.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# ブロック検証は投機的復号化を加速する

Block Verification Accelerates Speculative Decoding ( http://arxiv.org/abs/2403.10444v2 )

ライセンス: Link先を確認
Ziteng Sun, Uri Mendlovic, Yaniv Leviathan, Asaf Aharoni, Ahmad Beirami, Jae Hun Ro, Ananda Theertha Suresh, (参考訳) 投機的復号化は、推論中に大きな言語モデルのロスレスアクセラレーションに有効な方法である。 高速モデルを使用してトークンのブロックをドラフトし、ターゲットモデルによって並列に検証され、出力がターゲットモデルからのサンプルと同一に分散されることを保証する。 以前の作業では、ドラフト検証は独立してトークン・バイ・トークンで行われる。 驚くべきことに、このアプローチは最適ではありません。 ブロック全体を共同で検証し,ウォールクロックの高速化を実現する,シンプルなドラフト検証アルゴリズムであるBlock Verificationを提案する。 提案手法は,各イテレーションで生成されるトークンの期待数において最適であり,特に標準トークンレベルの検証よりも悪いものではないことを実証する。 実証的には、ブロック検証は、さまざまなタスクやデータセットで5%-8%の標準的なトークン検証アルゴリズムに対して、控えめだが一貫したウォールクロックのスピードアップを提供する。 ブロック検証がコードの複雑さを増さないこと、標準的な投機的復号化検証アルゴリズムの強い損失のない保証を維持すること、性能を劣化させることができないこと、そして実際にそれを継続的に改善することを考えると、投機的復号化実装において良いデフォルトとして使用できる。

Speculative decoding is an effective method for lossless acceleration of large language models during inference. It uses a fast model to draft a block of tokens which are then verified in parallel by the target model, and provides a guarantee that the output is distributed identically to a sample from the target model. In prior works, draft verification is performed independently token-by-token. Surprisingly, we show that this approach is not optimal. We propose Block Verification, a simple draft verification algorithm that verifies the entire block jointly and provides additional wall-clock speedup. We prove that the proposed mechanism is optimal in the expected number of tokens produced each iteration and specifically is never worse than the standard token-level verification. Empirically, block verification provides modest but consistent wall-clock speedups over the standard token verification algorithm of 5%-8% in a range of tasks and datasets. Given that block verification does not increase code complexity, maintains the strong lossless guarantee of the standard speculative decoding verification algorithm, cannot deteriorate performance, and, in fact, consistently improves it, it can be used as a good default in speculative decoding implementations.
公開日:2024-07-25
翻訳日:2024-07-26 19:26:49
# BEVCar:BEVマップとオブジェクトセグメンテーションのためのカメラレーダーフュージョン

BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation ( http://arxiv.org/abs/2403.11761v2 )

ライセンス: Link先を確認
Jonas Schramm, Niclas Vödisch, Kürsat Petek, B Ravi Kiran, Senthil Yogamani, Wolfram Burgard, Abhinav Valada, (参考訳) 鳥眼ビュー(BEV)の観点からのセマンティックシーンセグメンテーションは,移動ロボットの計画と意思決定を促進する上で重要な役割を担っている。 最近の視覚のみの手法は、性能の顕著な進歩を示しているが、雨や夜間などの悪照明条件下では、しばしば苦労する。 アクティブセンサーはこの課題に対する解決策を提供するが、LiDARの高コストは制限要因である。 カメラデータを自動車レーダーで融合させることは、より安価な代替手段となるが、以前の研究ではあまり注目されなかった。 本研究は,BEVCarと地図セグメンテーションを融合した新しいBEVCarを導入することで,この将来性のある道を推し進めることを目的としている。 我々のアプローチの中核的な特徴は、まず生のレーダーデータのポイントベース符号化を学習し、BEV空間への画像特徴の持ち上げを効率的に初期化することである。 nuScenesデータセットに関する広範な実験を行い、BEVCarが現在の最先端技術より優れていることを示す。 さらに,レーダ情報の導入により,環境条件の難易度が著しく向上し,遠隔物体のセグメンテーション性能が向上することを示す。 将来の研究を促進するため、実験で使用したnuScenesデータセットの天気予報と、http://bevcar.cs.uni-freiburg.deでトレーニングされたモデルを提供しています。

Semantic scene segmentation from a bird's-eye-view (BEV) perspective plays a crucial role in facilitating planning and decision-making for mobile robots. Although recent vision-only methods have demonstrated notable advancements in performance, they often struggle under adverse illumination conditions such as rain or nighttime. While active sensors offer a solution to this challenge, the prohibitively high cost of LiDARs remains a limiting factor. Fusing camera data with automotive radars poses a more inexpensive alternative but has received less attention in prior research. In this work, we aim to advance this promising avenue by introducing BEVCar, a novel approach for joint BEV object and map segmentation. The core novelty of our approach lies in first learning a point-based encoding of raw radar data, which is then leveraged to efficiently initialize the lifting of image features into the BEV space. We perform extensive experiments on the nuScenes dataset and demonstrate that BEVCar outperforms the current state of the art. Moreover, we show that incorporating radar information significantly enhances robustness in challenging environmental conditions and improves segmentation performance for distant objects. To foster future research, we provide the weather split of the nuScenes dataset used in our experiments, along with our code and trained models at http://bevcar.cs.uni-freiburg.de.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# DistClassiPyを用いた光曲線分類:新しい距離ベース分類器

Light Curve Classification with DistClassiPy: a new distance-based classifier ( http://arxiv.org/abs/2403.12120v2 )

ライセンス: Link先を確認
Siddharth Chaini, Ashish Mahabal, Ajit Kembhavi, Federica B. Bianco, (参考訳) シントロピック・スカイサーベイの台頭は、時間領域天文学におけるビッグデータの時代に始まり、データ科学と機械学習が天体の研究に欠かせないツールとなった。 木に基づくモデル(例:ランダムフォレスト)とディープラーニングモデル(en:Deep Learning model)がこの分野を支配しているのに対し、天体の分類に異なる距離のメトリクスを用いることについて検討する。 距離メートル法に基づく新しい分類器であるDistClassiPyを開発した。 距離測定の直接的利用は時間領域天文学では探索されていないが、距離に基づく手法は分類をより解釈し、計算コストを減らすのに役立つ。 特に、可変星の光曲線を分類するためにDistClassiPyを適用し、異なるクラスの物体間の距離を比較した。 10クラスにまたがる6,000個の変光星のカタログ上で18距離の測定値を用いて、分類と次元の減少を実証した。 我々の分類器は最先端の性能に適合するが,計算能力は低く,解釈性も向上している。 さらに、DistClassiPyは、その分類に最も効果的な距離メートル法を特定することで、特定のオブジェクトに合わせることができる。 DistClassiPyをオープンソースにして、https://pypi.org/project/distclassipy/で公開しました。

The rise of synoptic sky surveys has ushered in an era of big data in time-domain astronomy, making data science and machine learning essential tools for studying celestial objects. While tree-based models (e.g. Random Forests) and deep learning models dominate the field, we explore the use of different distance metrics to aid in the classification of astrophysical objects. We developed DistClassiPy, a new distance metric based classifier. The direct use of distance metrics is unexplored in time-domain astronomy, but distance-based methods can help make classification more interpretable and decrease computational costs. In particular, we applied DistClassiPy to classify light curves of variable stars, comparing the distances between objects of different classes. Using 18 distance metrics on a catalog of 6,000 variable stars across 10 classes, we demonstrate classification and dimensionality reduction. Our classifier meets state-of-the-art performance but has lower computational requirements and improved interpretability. Additionally, DistClassiPy can be tailored to specific objects by identifying the most effective distance metric for that classification. To facilitate broader applications within and beyond astronomy, we have made DistClassiPy open-source and available at https://pypi.org/project/distclassipy/.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# 地図に基づく経路計画における強化学習のための等変アンサンブルと正規化

Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning ( http://arxiv.org/abs/2403.12856v2 )

ライセンス: Link先を確認
Mirco Theile, Hongpeng Cao, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli, (参考訳) 強化学習(RL)では、環境対称性を活用することにより、効率、堅牢性、性能が著しく向上する。 しかし、これらの対称性を利用するために、深いRLポリシーと値ネットワークがそれぞれ同変であることを保証することは、大きな課題である。 関連する研究は、構成によって不変で不変なネットワークを設計し、それを非常に制限されたコンポーネントのライブラリに制限することで、ネットワークの表現性を損なう。 本稿では,同変アンサンブル(等変アンサンブル)と呼ぶ特殊なニューラルネットワーク成分を使わずに,同変ポリシーと不変値関数を構築する手法を提案する。 さらに、トレーニング中に帰納バイアスを追加するための正規化用語を追加します。 マップに基づく経路計画ケーススタディでは、等変アンサンブルと正規化がサンプル効率と性能にどのような影響を及ぼすかを示す。

In reinforcement learning (RL), exploiting environmental symmetries can significantly enhance efficiency, robustness, and performance. However, ensuring that the deep RL policy and value networks are respectively equivariant and invariant to exploit these symmetries is a substantial challenge. Related works try to design networks that are equivariant and invariant by construction, limiting them to a very restricted library of components, which in turn hampers the expressiveness of the networks. This paper proposes a method to construct equivariant policies and invariant value functions without specialized neural network components, which we term equivariant ensembles. We further add a regularization term for adding inductive bias during training. In a map-based path planning case study, we show how equivariant ensembles and regularization benefit sample efficiency and performance.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# よりよいコールSAL: ライダーであらゆるものをセグメンテーションする学習を目指す

Better Call SAL: Towards Learning to Segment Anything in Lidar ( http://arxiv.org/abs/2403.13129v2 )

ライセンス: Link先を確認
Aljoša Ošep, Tim Meinhardt, Francesco Ferroni, Neehar Peri, Deva Ramanan, Laura Leal-Taixé, (参考訳) そこで本研究では,SAL(Segment Anything in Lidar)手法を提案する。SAL(Segment Anything in Lidar)手法は,テキストプロンプト可能なゼロショットモデルで,任意のオブジェクトの分類と分類を行う。 Lidar Panoptic Segmentation (LPS) の確立したパラダイムは、事前定義された少数のオブジェクトクラスの手動による監督に依存しているのに対し、我々は2次元視覚基盤モデルを使用して、3Dの監督「無償」を生成する。 擬似ラベルはインスタンスマスクと対応するCLIPトークンで構成されており、校正マルチモーダルデータを用いてLidarに持ち込む。 これらのラベルに基づいてモデルをトレーニングすることにより、2次元基礎モデルをLidar SALモデルに蒸留する。 手動ラベルがなくても、クラスに依存しないセグメンテーションでは911\%、完全に監督された最先端のゼロショットLidar Panoptic Segmentationでは54\%である。 さらに, 蒸留ではなく, リフト画像の特徴を3Dに反映したいくつかのベースラインの性能を向上する。 さらに重要なことは、SALが任意のクラスプロンプトをサポートし、新しいデータセットに容易に拡張できることを示し、自己ラベル付きデータの増加とともに改善する可能性を示している。 コードとモデルは、この$\href{https://github.com/nv-dvl/segment-anything-lidar}{URL}$で入手できる。

We propose the SAL (Segment Anything in Lidar) method consisting of a text-promptable zero-shot model for segmenting and classifying any object in Lidar, and a pseudo-labeling engine that facilitates model training without manual supervision. While the established paradigm for Lidar Panoptic Segmentation (LPS) relies on manual supervision for a handful of object classes defined a priori, we utilize 2D vision foundation models to generate 3D supervision ``for free''. Our pseudo-labels consist of instance masks and corresponding CLIP tokens, which we lift to Lidar using calibrated multi-modal data. By training our model on these labels, we distill the 2D foundation models into our Lidar SAL model. Even without manual labels, our model achieves $91\%$ in terms of class-agnostic segmentation and $54\%$ in terms of zero-shot Lidar Panoptic Segmentation of the fully supervised state-of-the-art. Furthermore, we outperform several baselines that do not distill but only lift image features to 3D. More importantly, we demonstrate that SAL supports arbitrary class prompts, can be easily extended to new datasets, and shows significant potential to improve with increasing amounts of self-labeled data. Code and models are available at this $\href{https://github.com/nv-dvl/segment-anything-lidar}{URL}$.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# モデル編集のための統一フレームワーク

A Unified Framework for Model Editing ( http://arxiv.org/abs/2403.14236v4 )

ライセンス: Link先を確認
Akshat Gupta, Dev Sajnani, Gopala Anumanchipalli, (参考訳) ROMEとMEMITは2つの異なるモデル編集アルゴリズムであると考えられており、大きな違いはバッチ編集を行う能力である。 本稿では,この2つのアルゴリズムを1つの概念的傘の下に統一し,同じ目的を最適化する。 ROMEはこの目的を最適化して一度に1回の編集を行うのに対して、MEMITはバッチ編集が可能なより柔軟な最小2乗制約を使用する。 我々は、ROMEを一般化し、EMMET(Equality-Constrained Mass Model Editing Algorithm for Transformers)という新しいバッチメモリ編集アルゴリズムを用いて、等式制約付きバッチ編集を可能にする。 EMMETは、複数の次元にわたるMEMITと非常によく似たパフォーマンスで、1万のバッチサイズまでバッチ編集を行うことができる。 EMMETの導入により、ROMEとMEMITを真に統合し、両アルゴリズムが最適化目標、能力(単体・バッチ編集)、モデル編集性能および制限の観点から等価であることを示す。

ROME and MEMIT are largely believed to be two different model editing algorithms, with the major difference between them being the ability to perform batched edits. In this paper, we unify these two algorithms under a single conceptual umbrella, optimizing for the same goal, which we call the preservation-memorization objective. ROME uses an equality constraint to optimize this objective to perform one edit at a time, whereas MEMIT employs a more flexible least-square constraint that allows for batched edits. We generalize ROME and enable batched editing with equality constraint in the form of EMMET - an Equality-constrained Mass Model Editing algorithm for Transformers, a new batched memory-editing algorithm. EMMET can perform batched-edits up to a batch-size of 10,000, with very similar performance to MEMIT across multiple dimensions. With the introduction of EMMET, we truly unify ROME and MEMIT and show that both algorithms are equivalent in terms of their optimization objective, their abilities (singular and batched editing), their model editing performance and their limitations.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# 機械学習と基底状態エネルギー近似のための小型量子コンピュータの利用

Utilizing small quantum computers for machine learning and ground state energy approximation ( http://arxiv.org/abs/2403.14406v2 )

ライセンス: Link先を確認
Stian Bilek, (参考訳) 量子回路分割(Quantum circuit partitioning, QCP)は、小さな量子コンピュータ上の大規模量子システムをシミュレートすることを目的としたハイブリッド量子古典的アプローチである。 量子計算はより小さなサブシステムに分割され、これらのサブシステムにおける測定結果は古典的な処理で組み合わせられる。 本稿では,より小型の量子系を用いて,大規模量子系上で観測可能な観測値を測定するためのQCP戦略を提案する。 本手法は, 機械学習と変動基底状態エネルギー近似の両方に適用可能であり, 必要な計算量と勾配のばらつきを, キュービットの総数で効率的にスケールできるように調整可能であることを示す。 これにより、バレン高原のよく知られた問題を緩和することができる。 さらに,各サブシステム上でパウリ弦を簡易に測定することにより,パラメータシフト則などの一般的な手法で勾配を推定できる。 本手法は1次元横フィールドイジングモデルの基底状態エネルギーを周期的境界条件で近似し,手書き桁を分類することによって実証する。 基底状態エネルギー近似では,全ての試験系サイズに対して0.1%の範囲で相対誤差を達成した。 桁3と6の分類に適用すると、100%精度でサンプル外データに一般化することができた。

Quantum circuit partitioning (QCP) is a hybrid quantum-classical approach that aims to simulate large quantum systems on smaller quantum computers. A quantum computation is divided into smaller subsystems and results of measurements on these subsystems are combined using classical processing. In this paper, we propose a QCP strategy to measure an observable on a large quantum system by utilizing several quantum systems of smaller size. The method can be applied to both machine learning and variational ground state energy approximation, and we show that the required calculations and the variance of the gradients can be tailored to scale efficiently with the total number of qubits. Thus it can be utilized to mitigate the well-known problem of barren plateaus. Additionally, the method can be realized by performing simple measurements of Pauli-strings on the separate subsystems, and the gradients can be estimated with common methods such as the parameter-shift rule. We demonstrate the method by approximating the ground state energy of the 1D transverse-field Ising model with periodic boundary conditions, and by classifying handwritten digits. For the ground state energy approximation, we achieved a relative error within the order of 0.1% for all the tested systems sizes. When applied to the classification between the digits 3 and 6, we were able to generalize to out-of-sample data with 100% accuracy.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# AutoRE:大規模言語モデルを用いた文書レベル関係抽出

AutoRE: Document-Level Relation Extraction with Large Language Models ( http://arxiv.org/abs/2403.14888v2 )

ライセンス: Link先を確認
Lilong Xue, Dan Zhang, Yuxiao Dong, Jie Tang, (参考訳) 大規模言語モデル(LLM)は、テキストの理解と生成において例外的な能力を示しており、関係抽出(RE)を含む情報抽出(IE)の目的のために多くの研究者がそれらを利用する動機となっている。 しかしながら、既存のほとんどの手法は文レベルの関係抽出(SentRE)タスクのために設計されている。 さらに、いくつかのアプローチでは、関係をプロンプトテンプレートに統合した候補選択として扱うことで、ドキュメント・レベル関係抽出(DocRE)タスクに対処する際の非効率な処理と準最適性能を実現している。 これらの制限を克服するために、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンドツーエンドのDocREモデルであるAutoREを紹介する。 既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。 さらに,パラメータ・エフェクト・ファイン・チューニング(PEFT)アルゴリズム(QLoRA)を用いて,容易に拡張可能なREフレームワークを開発した。 RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、開発セットとテストセットでそれぞれ10.03\%と9.03\%を上回り、最先端の結果を達成した。 コードは https://github.com/THUDM/AutoRE} で、デモビデオはhttps://www.youtube.com/watch? v=IhKRszuAxKk

Large Language Models (LLMs) have demonstrated exceptional abilities in comprehending and generating text, motivating numerous researchers to utilize them for Information Extraction (IE) purposes, including Relation Extraction (RE). Nonetheless, most existing methods are predominantly designed for Sentence-level Relation Extraction (SentRE) tasks, which typically encompass a restricted set of relations and triplet facts within a single sentence. Furthermore, certain approaches resort to treating relations as candidate choices integrated into prompt templates, leading to inefficient processing and suboptimal performance when tackling Document-Level Relation Extraction (DocRE) tasks, which entail handling multiple relations and triplet facts distributed across a given document, posing distinct challenges. To overcome these limitations, we introduce AutoRE, an end-to-end DocRE model that adopts a novel RE extraction paradigm named RHF (Relation-Head-Facts). Unlike existing approaches, AutoRE does not rely on the assumption of known relation options, making it more reflective of real-world scenarios. Additionally, we have developed an easily extensible RE framework using a Parameters Efficient Fine Tuning (PEFT) algorithm (QLoRA). Our experiments on the RE-DocRED dataset showcase AutoRE's best performance, achieving state-of-the-art results, surpassing TAG by 10.03\% and 9.03\% respectively on the dev and test set. The code is available\url{https://github.com/THUDM/AutoRE} and the demonstration video is provided https://www.youtube.com/watch?v=IhKRsZUAxKk
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# InternVideo2:マルチモーダルビデオ理解のための基盤モデルのスケーリング

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding ( http://arxiv.org/abs/2403.15377v2 )

ライセンス: Link先を確認
Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Chenting Wang, Guo Chen, Baoqi Pei, Ziang Yan, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang, (参考訳) InternVideo2はビデオファウンデーションモデル(ViFM)の新たなファミリーで、ビデオ認識、ビデオテキストタスク、ビデオ中心対話の最先端結果を実現する。 私たちのコアデザインは、マスク付きビデオモデリング、クロスモーダルコントラスト学習、および次のトークン予測を統合し、ビデオエンコーダのサイズを6Bパラメータにスケールアップするプログレッシブトレーニングアプローチです。 データレベルでは、ビデオのセグメンテーションと音声・音声のキャプションの生成により、時空間の一貫性を優先する。 これにより、ビデオとテキストのアライメントが改善される。 広範にわたる実験を通じて,60以上のビデオおよびオーディオタスクにおいて,設計を検証し,優れた性能を示す。 特に,我々のモデルは,様々なビデオ関連対話や長いビデオ理解ベンチマークにおいて他者より優れており,より長い文脈を推論し理解する能力を強調している。 コードとモデルはhttps://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/で入手できる。

We introduce InternVideo2, a new family of video foundation models (ViFM) that achieve the state-of-the-art results in video recognition, video-text tasks, and video-centric dialogue. Our core design is a progressive training approach that unifies the masked video modeling, crossmodal contrastive learning, and next token prediction, scaling up the video encoder size to 6B parameters. At the data level, we prioritize spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. Through extensive experiments, we validate our designs and demonstrate superior performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related dialogue and long video understanding benchmarks, highlighting its ability to reason and comprehend longer contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# 病院最適容量管理のための対話型意思決定支援ダッシュボード

An Interactive Decision-Support Dashboard for Optimal Hospital Capacity Management ( http://arxiv.org/abs/2403.15634v3 )

ライセンス: Link先を確認
Felix Parker, Diego A. Martínez, James Scheulen, Kimia Ghobadi, (参考訳) データ駆動型最適化モデルは、特に需要急増時に、キャパシティの効果的な割り当てが最も重要かつ困難な場合に、病院のキャパシティ管理を大幅に改善する可能性がある。 しかし、価値を提供する方法で既存のプロセスにモデルを統合するには、病院管理者が最終的にキャパシティ管理の決定を行う責任があることを認識し、信頼に足る、アクセス可能なツールを慎重に構築する必要がある。 本研究では,サージ期間中に病院の容量管理決定を通知するためのインタラクティブでユーザフレンドリな電子ダッシュボードを開発する。 ダッシュボードには、リアルタイム病院データ、予測分析、最適化モデルが統合されている。 病院の管理者は対話的にパラメータをカスタマイズでき、さまざまなシナリオを探索できる。 ダッシュボードは参加型設計プロセスを通じて作成され、開発チームの病院管理者が実用的な実用性、信頼性、透明性、説明可能性、ユーザビリティを保証する。 新型コロナウイルスのパンデミックの最盛期には、ジョンズホプキンス健康システムにダッシュボードを配置しました。 日常的に使用され、その結果は定期的に病院の指導層に伝達された。 本研究は,病院システム能力管理のためのデータ駆動型対話型意思決定支援ツールの実用化を実証するものである。

Data-driven optimization models have the potential to significantly improve hospital capacity management, particularly during demand surges, when effective allocation of capacity is most critical and challenging. However, integrating models into existing processes in a way that provides value requires recognizing that hospital administrators are ultimately responsible for making capacity management decisions, and carefully building trustworthy and accessible tools for them. In this study, we develop an interactive, user-friendly, electronic dashboard for informing hospital capacity management decisions during surge periods. The dashboard integrates real-time hospital data, predictive analytics, and optimization models. It allows hospital administrators to interactively customize parameters, enabling them to explore a range of scenarios, and provides real-time updates on recommended optimal decisions. The dashboard was created through a participatory design process, involving hospital administrators in the development team to ensure practical utility, trustworthiness, transparency, explainability, and usability. We successfully deployed our dashboard within the Johns Hopkins Health System during the height of the COVID-19 pandemic, addressing the increased need for tools to inform hospital capacity management. It was used on a daily basis, with results regularly communicated to hospital leadership. This study demonstrates the practical application of a prospective, data-driven, interactive decision-support tool for hospital system capacity management.
公開日:2024-07-24
翻訳日:2024-07-26 19:17:05
# ALICE実験における不完全データからの機械学習による粒子識別

Particle identification with machine learning from incomplete data in the ALICE experiment ( http://arxiv.org/abs/2403.17436v3 )

ライセンス: Link先を確認
Maja Karwowska, Łukasz Graczykowski, Kamil Deja, Miłosz Kasak, Małgorzata Janik, (参考訳) LHCでのALICE実験は、超相対論的重イオン衝突で形成される強く相互作用する物質の特性を測定する。 このような研究には正確な粒子識別(PID)が必要である。 ALICEは、約100MeV/cから20GeV/cまでの運動量を持つ粒子の複数の検出器を介してPID情報を提供する。 伝統的に、粒子は長方形の切断で選択される。 機械学習(ML)メソッドで、はるかに優れたパフォーマンスを実現することができる。 私たちのソリューションでは、バイナリ分類器として複数のニューラルネットワーク(NN)を使用します。 さらに,不完全サンプルを用いたデータトレーニングのために,特徴セット埋め込みと注意を付加した粒子分類器を拡張した。 また、ALICE解析ソフトウェアとMLプロジェクトの統合について述べるとともに、シミュレーションデータと実実験データの間で知識を伝達するために必要なML技術であるドメイン適応について論じる。

The ALICE experiment at the LHC measures properties of the strongly interacting matter formed in ultrarelativistic heavy-ion collisions. Such studies require accurate particle identification (PID). ALICE provides PID information via several detectors for particles with momentum from about 100 MeV/c up to 20 GeV/c. Traditionally, particles are selected with rectangular cuts. A much better performance can be achieved with machine learning (ML) methods. Our solution uses multiple neural networks (NN) serving as binary classifiers. Moreover, we extended our particle classifier with Feature Set Embedding and attention in order to train on data with incomplete samples. We also present the integration of the ML project with the ALICE analysis software, and we discuss domain adaptation, the ML technique needed to transfer the knowledge between simulated and real experimental data.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# ReMamber:Mamba Twisterでイメージセグメンテーションを参照

ReMamber: Referring Image Segmentation with Mamba Twister ( http://arxiv.org/abs/2403.17839v2 )

ライセンス: Link先を確認
Yuhuan Yang, Chaofan Ma, Jiangchao Yao, Zhun Zhong, Ya Zhang, Yanfeng Wang, (参考訳) Referring Image Segmentation~(RIS) leverageing transformer has achieved great success on the interpretation of complex visual-lang tasks。 しかし、二次計算コストは、長期の視覚言語依存を捉えるのにリソースを消費する。 幸いなことに、Mambaは処理の効率的な線形複雑性によってこの問題に対処している。 しかし、マンバを直接マルチモーダル相互作用に適用することは、主にマルチモーダルデータの効果的な融合のためのチャンネル間相互作用が不十分なため、課題を提起する。 本稿では,マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャであるReMamberを提案する。 Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。 単純で効率的なアーキテクチャで3つの挑戦的なベンチマークで競合する結果を得る。 さらに、ReMamberの徹底的な解析を行い、Mambaを用いた他の融合設計について議論する。 これらは将来の研究に価値ある視点を与えてくれる。 コードはhttps://github.com/yyh-rain-song/ReMamber.comでリリースされた。

Referring Image Segmentation~(RIS) leveraging transformers has achieved great success on the interpretation of complex visual-language tasks. However, the quadratic computation cost makes it resource-consuming in capturing long-range visual-language dependencies. Fortunately, Mamba addresses this with efficient linear complexity in processing. However, directly applying Mamba to multi-modal interactions presents challenges, primarily due to inadequate channel interactions for the effective fusion of multi-modal data. In this paper, we propose ReMamber, a novel RIS architecture that integrates the power of Mamba with a multi-modal Mamba Twister block. The Mamba Twister explicitly models image-text interaction, and fuses textual and visual features through its unique channel and spatial twisting mechanism. We achieve competitive results on three challenging benchmarks with a simple and efficient architecture. Moreover, we conduct thorough analyses of ReMamber and discuss other fusion designs using Mamba. These provide valuable perspectives for future research. The code has been released at: https://github.com/yyh-rain-song/ReMamber.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# Diff-Reg v1: 登録問題に対する拡散マッチングモデル

Diff-Reg v1: Diffusion Matching Model for Registration Problem ( http://arxiv.org/abs/2403.19919v4 )

ライセンス: Link先を確認
Qianliang Wu, Haobo Jiang, Lei Luo, Jun Li, Yaqing Ding, Jin Xie, Jian Yang, (参考訳) 3Dや2D3Dの登録のような登録タスクには、信頼できる対応を確立することが不可欠である。 既存の手法では、幾何学的あるいは意味的な特徴を利用して潜在的な対応を生成する。 しかし、これらの特徴は大きな変形、スケールの不整合、曖昧なマッチング問題(例えば対称性)といった課題に直面している可能性がある。 さらに、シングルパス予測に依存する多くの従来の手法は、複雑なシナリオにおいて局所ミニマと競合する可能性がある。 これらの課題を軽減するために,ロバスト対応構築のための拡散マッチングモデルを提案する。 提案手法は, 2次確率行列空間内の共振拡散過程として対応し, 2次確率マッチング行列を2次確率マッチング行列から2次確率マッチング行列に分解し,高品質な対応推定を行う。 これは、ガウス雑音を基底の真理マッチング行列に徐々に導入する前方拡散過程と、雑音マッチング行列を反復的に洗練する逆復調過程を含む。 特に、バックボーンからの特徴抽出は推論フェーズ中に1回だけ発生する。 我々の軽量デノナイジングモジュールは、各逆サンプリングステップで同じ機能を利用する。 3次元および2次元の登録タスクにおける本手法の有効性を検証した。 コードはhttps://github.com/wuqianliang/Diff-Reg.comで公開されている。

Establishing reliable correspondences is essential for registration tasks such as 3D and 2D3D registration. Existing methods commonly leverage geometric or semantic point features to generate potential correspondences. However, these features may face challenges such as large deformation, scale inconsistency, and ambiguous matching problems (e.g., symmetry). Additionally, many previous methods, which rely on single-pass prediction, may struggle with local minima in complex scenarios. To mitigate these challenges, we introduce a diffusion matching model for robust correspondence construction. Our approach treats correspondence estimation as a denoising diffusion process within the doubly stochastic matrix space, which gradually denoises (refines) a doubly stochastic matching matrix to the ground-truth one for high-quality correspondence estimation. It involves a forward diffusion process that gradually introduces Gaussian noise into the ground truth matching matrix and a reverse denoising process that iteratively refines the noisy matching matrix. In particular, the feature extraction from the backbone occurs only once during the inference phase. Our lightweight denoising module utilizes the same feature at each reverse sampling step. Evaluation of our method on both 3D and 2D3D registration tasks confirms its effectiveness. The code is available at https://github.com/wuqianliang/Diff-Reg.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# より大きなもの? 予算再配置によるLLMコード生成の改善

The Larger the Better? Improved LLM Code-Generation via Budget Reallocation ( http://arxiv.org/abs/2404.00725v2 )

ライセンス: Link先を確認
Michael Hassid, Tal Remez, Jonas Gehring, Roy Schwartz, Yossi Adi, (参考訳) 大型言語モデル(LLM)は小型言語よりも優れているという考え方が一般的である。 しかし、より大きなモデルでは推論の時間と計算時間もかなり必要である。 両方のモデルが同じ予算の下で動作した場合、どうなるのか? (例えば、計算、実行時)。 この問題に対処するために、我々は様々なサイズのコード生成LLMを分析し、70Bモデルを実行する場合と13Bモデルから5つの出力を生成する場合の比較を行った。 我々は、より小さなモデルから正しい出力を選択するのに使用できる標準の単体テストの設定を考える。 これらの結果から,5つのタスクで最大15%のゲインを達成し,より小さなモデルの繰り返し使用が一貫した改善をもたらすことが判明した。 一方、単体テストが利用できないシナリオでは、より小さなモデルからの候補のランキングベースの選択は、より大きなモデルからの単一出力のパフォーマンスに劣る。 この結果から,より大きなモデルではなく,より小さなモデルを採用する可能性や,LLM出力のランク付け方法の研究の重要性が浮き彫りになった。

It is a common belief that large language models (LLMs) are better than smaller-sized ones. However, larger models also require significantly more time and compute during inference. This begs the question: what happens when both models operate under the same budget? (e.g., compute, run-time). To address this question, we analyze code generation LLMs of various sizes and make comparisons such as running a 70B model once vs. generating five outputs from a 13B model. We consider a standard unit-test setup, which can be used to select the correct output from the smaller model. Our findings reveal that the repeated use of smaller models can yield consistent improvements, with gains of up to 15% across five tasks. On the other hand, in scenarios where unit-tests are unavailable, a ranking-based selection of candidates from the smaller model falls short of the performance of a single output from larger ones. Our results highlight the potential of using smaller models instead of larger ones, and the importance of studying approaches for ranking LLM outputs.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# ハイパーグラフニューラルネットワークに関するサーベイ:奥行きとステップバイステップガイド

A Survey on Hypergraph Neural Networks: An In-Depth and Step-By-Step Guide ( http://arxiv.org/abs/2404.01039v3 )

ライセンス: Link先を確認
Sunwoo Kim, Soo Yong Lee, Yue Gao, Alessia Antelmi, Mirko Polato, Kijung Shin, (参考訳) 高次相互作用(HOIs)は、現実世界の複雑なシステムやアプリケーションにおいてユビキタスである。 HOIのディープラーニングに関する調査は、データマイニングと機械学習コミュニティにとって重要な課題となっている。 HOIのネットワークはハイパーグラフとして数学的に表現されるため、ハイパーグラフニューラルネットワーク(HNN)はハイパーグラフ上での表現学習の強力なツールとして登場した。 新たなトレンドを踏まえて,HNNを対象とした最初の調査を,詳細なステップバイステップガイドで紹介する。 本稿では、HNNアーキテクチャ、トレーニング戦略、アプリケーションの概要について概説する。 まず、既存のHNNを4つのデザインコンポーネントに分割します。 (i)入力機能、 (ii)入力構造 (三)メッセージ通過方式、及び (4)訓練戦略。 第2に,HNN がそれぞれのコンポーネントで HOI をどのように処理し,学習するかを検討する。 第3に,HNNの勧告,バイオインフォマティクス,医学,時系列解析,コンピュータビジョンへの応用について概説する。 最後に,限界と今後の方向性について論じる。

Higher-order interactions (HOIs) are ubiquitous in real-world complex systems and applications. Investigation of deep learning for HOIs, thus, has become a valuable agenda for the data mining and machine learning communities. As networks of HOIs are expressed mathematically as hypergraphs, hypergraph neural networks (HNNs) have emerged as a powerful tool for representation learning on hypergraphs. Given the emerging trend, we present the first survey dedicated to HNNs, with an in-depth and step-by-step guide. Broadly, the present survey overviews HNN architectures, training strategies, and applications. First, we break existing HNNs down into four design components: (i) input features, (ii) input structures, (iii) message-passing schemes, and (iv) training strategies. Second, we examine how HNNs address and learn HOIs with each of their components. Third, we overview the recent applications of HNNs in recommendation, bioinformatics and medical science, time series analysis, and computer vision. Lastly, we conclude with a discussion on limitations and future directions.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# PATCH!心理学的分析による大規模言語モデルのベンチマーク:8年生数学の習熟度を事例として

PATCH! Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Proficiency in 8th Grade Mathematics ( http://arxiv.org/abs/2404.01799v2 )

ライセンス: Link先を確認
Qixiang Fang, Daniel L. Oberski, Dong Nguyen, (参考訳) 大規模(マルチモーダル)言語モデル(LLM)の既存のベンチマークの多くは、LLMの学術的習熟度の測定に重点を置いており、多くの場合、モデルパフォーマンスと人間のテストテイカーの比較にも関心がある。 これらのベンチマークはLSMの開発に鍵があることが証明されているが、疑わしい測定品質(例えば、信頼できる方法で何を計測するのか?)、アイテムレベルの品質評価の欠如(例えば、他のものよりも重要か難しいか?)、不明瞭な人口基準(例えば、モデルを比較できるのか? これらの課題に対応するため,学術的習熟度などの潜伏変数の測定を専門とする心理測定学の知識をLLMベンチマークに活用することを提案する。 主な貢献は3つある。 まず, LLMのPychometrics-{A}ssis{T}ed ben{CH}markingのための新しいフレームワークであるPATCHを紹介する。 PATCHは上記の制限に対処し、LLMベンチマーク研究の新しい方向性を示す。 第2に,第8級数学における GPT-4 と Gemini-Pro-Vision の習熟度を56人に対して測定し,PATCH を実装した。 心理測定に基づくアプローチを採用すると、既存のベンチマークプラクティスに基づく評価結果と異なる評価結果が得られることを示す。 第3に,小学校数学・理科におけるLLM習熟度の測定と比較を支援するための,高品質な4つのデータセットをリリースする。

Many existing benchmarks of large (multimodal) language models (LLMs) focus on measuring LLMs' academic proficiency, often with also an interest in comparing model performance with human test takers. While these benchmarks have proven key to the development of LLMs, they suffer from several limitations, including questionable measurement quality (e.g., Do they measure what they are supposed to in a reliable way?), lack of quality assessment on the item level (e.g., Are some items more important or difficult than others?) and unclear human population reference (e.g., To whom can the model be compared?). In response to these challenges, we propose leveraging knowledge from psychometrics - a field dedicated to the measurement of latent variables like academic proficiency - into LLM benchmarking. We make three primary contributions. First, we introduce PATCH: a novel framework for {P}sychometrics-{A}ssis{T}ed ben{CH}marking of LLMs. PATCH addresses the aforementioned limitations, presenting a new direction for LLM benchmark research. Second, we implement PATCH by measuring GPT-4 and Gemini-Pro-Vision's proficiency in 8th grade mathematics against 56 human populations. We show that adopting a psychometrics-based approach yields evaluation outcomes that diverge from those based on existing benchmarking practices. Third, we release 4 high-quality datasets to support measuring and comparing LLM proficiency in grade school mathematics and science against human populations.
公開日:2024-07-25
翻訳日:2024-07-26 19:17:05
# AIエージェントによるバイオメディカルディスカバリの強化

Empowering Biomedical Discovery with AI Agents ( http://arxiv.org/abs/2404.02831v2 )

ライセンス: Link先を確認
Shanghua Gao, Ada Fang, Yepeng Huang, Valentina Giunchiglia, Ayush Noori, Jonathan Richard Schwarz, Yasha Ektefaie, Jovana Kondic, Marinka Zitnik, (参考訳) 我々は「AI科学者」を、AIモデルとバイオメディカルツールを実験プラットフォームに統合する協調エージェントを通じて、生物医学研究を促進する懐疑的な学習と推論のシステムとして想定する。 バイオメディカルAIエージェントは、人間の創造性と専門知識と、大規模なデータセットを分析し、仮説空間をナビゲートし、反復的なタスクを実行するAIの能力を組み合わせる。 AIエージェントは、さまざまなタスクに精通し、発見ワークフローを計画し、知識のギャップを特定し緩和するために自己評価を行う。 これらのエージェントは、大きな言語モデルと生成モデルを使用して、継続的な学習のために構造化された記憶を特徴付け、科学知識、生物学的原理、理論を組み込むために機械学習ツールを使用する。 AIエージェントは、仮想細胞シミュレーション、プログラム可能な表現型の制御、細胞回路の設計、新しい治療法の開発など、幅広い領域に影響を与える可能性がある。

We envision "AI scientists" as systems capable of skeptical learning and reasoning that empower biomedical research through collaborative agents that integrate AI models and biomedical tools with experimental platforms. Rather than taking humans out of the discovery process, biomedical AI agents combine human creativity and expertise with AI's ability to analyze large datasets, navigate hypothesis spaces, and execute repetitive tasks. AI agents are poised to be proficient in various tasks, planning discovery workflows and performing self-assessment to identify and mitigate gaps in their knowledge. These agents use large language models and generative models to feature structured memory for continual learning and use machine learning tools to incorporate scientific knowledge, biological principles, and theories. AI agents can impact areas ranging from virtual cell simulation, programmable control of phenotypes, and the design of cellular circuits to developing new therapies.
公開日:2024-07-24
翻訳日:2024-07-26 19:07:19
# 変形可能な3次元ガウス平滑化のためのガウス内包型変形

Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2404.03613v4 )

ライセンス: Link先を確認
Jeongmin Bae, Seoha Kim, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, (参考訳) 3D Gaussian Splatting (3DGS)は高速かつ高品質な新規ビュー合成を提供するため、動的シーンを表現するために標準3DGSを複数のフレームに変形させる自然な拡張である。 しかし、以前の作品では複雑な動的シーンを正確に再構築することはできなかった。 我々は, 座標関数として構築された変形場の設計に失敗しているとみなす。 3DGSは1つの座標ベースのフレームワークではなく、ガウシアンを中心とする複数のフィールドの混合であるため、このアプローチは問題となる。 この問題を解決するために、変形をガウス毎の埋め込みと時間的埋め込みの関数として定義する。 さらに, 変形を粗く, 微細な変形として分解し, 遅い動きと速い動きをモデル化する。 また, 局所的滑らか度正規化を導入し, 動的領域の細部を改良する。 プロジェクトページ: https://jeongminb.github.io/e-d3dgs/

As 3D Gaussian Splatting (3DGS) provides fast and high-quality novel view synthesis, it is a natural extension to deform a canonical 3DGS to multiple frames for representing a dynamic scene. However, previous works fail to accurately reconstruct complex dynamic scenes. We attribute the failure to the design of the deformation field, which is built as a coordinate-based function. This approach is problematic because 3DGS is a mixture of multiple fields centered at the Gaussians, not just a single coordinate-based framework. To resolve this problem, we define the deformation as a function of per-Gaussian embeddings and temporal embeddings. Moreover, we decompose deformations as coarse and fine deformations to model slow and fast movements, respectively. Also, we introduce a local smoothness regularization for per-Gaussian embedding to improve the details in dynamic regions. Project page: https://jeongminb.github.io/e-d3dgs/
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# トリプレーンを用いた参照型3次元画像編集

Reference-Based 3D-Aware Image Editing with Triplanes ( http://arxiv.org/abs/2404.03632v2 )

ライセンス: Link先を確認
Bahri Batuhan Bilecen, Yigit Yalin, Ning Yu, Aysegul Dundar, (参考訳) GAN(Generative Adversarial Networks)は、高品質な画像生成と、潜伏空間を操作することで実際の画像編集のための強力なツールとして登場した。 GANの最近の進歩には、EG3Dのような3次元認識モデルが含まれており、単一の画像から3次元幾何学を再構築できる効率的な三面体ベースのアーキテクチャを備えている。 しかし、3D対応、高品質、参照ベースの画像編集のための統合されたフレームワークを提供することには、限られた注意が払われている。 本研究では,先進的な参照ベース編集における三面体空間の有効性を探索し,実証することにより,このギャップを解消する。 提案手法は, 符号化, 自動位置決め, 三面体特徴の空間的ゆがみ, 融合学習を統合して, 所望の編集を実現する。 さらに,本フレームワークは,多種多様な領域にまたがる汎用性と堅牢性を示し,その効果を動物の顔の編集,マンガの顔や全身の衣服の編集,360度頭部の編集など部分的にスタイリングした編集にまで拡張する。 本手法は,画像誘導2Dおよび3D認識拡散法およびGAN法について,定性的かつ定量的に,関連性のある遅延方向,テキスト,および画像誘導2Dおよび3D認識拡散およびGAN法に対する最先端性能を示す。

Generative Adversarial Networks (GANs) have emerged as powerful tools for high-quality image generation and real image editing by manipulating their latent spaces. Recent advancements in GANs include 3D-aware models such as EG3D, which feature efficient triplane-based architectures capable of reconstructing 3D geometry from single images. However, limited attention has been given to providing an integrated framework for 3D-aware, high-quality, reference-based image editing. This study addresses this gap by exploring and demonstrating the effectiveness of the triplane space for advanced reference-based edits. Our novel approach integrates encoding, automatic localization, spatial disentanglement of triplane features, and fusion learning to achieve the desired edits. Additionally, our framework demonstrates versatility and robustness across various domains, extending its effectiveness to animal face edits, partially stylized edits like cartoon faces, full-body clothing edits, and 360-degree head edits. Our method shows state-of-the-art performance over relevant latent direction, text, and image-guided 2D and 3D-aware diffusion and GAN methods, both qualitatively and quantitatively.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# インドにおける高度なコンピューティング授業におけるLLM利用の分析

Analyzing LLM Usage in an Advanced Computing Class in India ( http://arxiv.org/abs/2404.04603v2 )

ライセンス: Link先を確認
Anupam Garg, Aryaman Raina, Aryan Gupta, Jaskaran Singh, Manav Saini, Prachi Iiitd, Ronit Mehta, Rupin Oberoi, Sachin Sharma, Samyak Jain, Sarthak Tyagi, Utkarsh Arora, Dhruv Kumar, (参考訳) 本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。 主に入門授業に焦点をあて、実際の学生とLLMの相互作用の詳細な分析を欠いている既存の研究とは異なり、我々の研究はこのギャップを埋めている。 インド大学の分散システムクラスから411人の学生を対象に、総合的な分析を行い、3つのプログラミング課題を完了し、Google Formサーベイを通じて経験を共有した。 その結果, 学生はコード生成, デバッグ, 概念質問, テストケース作成など, 様々なタスクにLLMを活用していることがわかった。 彼らは、基本的な文脈的プロンプトから、連鎖的プロンプトや反復的洗練のような高度な技術まで、一連のプロンプト戦略を採用した。 学生は一般的に,LLMを生産性の向上と学習に役立つと考えているが,信頼性の過度な傾向が指摘され,多くの学生が全課題記述を提出して完全なソリューションを得た。 ソフトウェア産業におけるLLMの利用の増加を踏まえ,本研究は,効果的なプロンプト戦略のトレーニングを含む学部カリキュラムの更新と,学術的環境におけるLLM利用のメリットと潜在的な欠点に対する認識を高めることの必要性を強調した。

This study examines the use of large language models (LLMs) by undergraduate and graduate students for programming assignments in advanced computing classes. Unlike existing research, which primarily focuses on introductory classes and lacks in-depth analysis of actual student-LLM interactions, our work fills this gap. We conducted a comprehensive analysis involving 411 students from a Distributed Systems class at an Indian university, where they completed three programming assignments and shared their experiences through Google Form surveys. Our findings reveal that students leveraged LLMs for a variety of tasks, including code generation, debugging, conceptual inquiries, and test case creation. They employed a spectrum of prompting strategies, ranging from basic contextual prompts to advanced techniques like chain-of-thought prompting and iterative refinement. While students generally viewed LLMs as beneficial for enhancing productivity and learning, we noted a concerning trend of over-reliance, with many students submitting entire assignment descriptions to obtain complete solutions. Given the increasing use of LLMs in the software industry, our study highlights the need to update undergraduate curricula to include training on effective prompting strategies and to raise awareness about the benefits and potential drawbacks of LLM usage in academic settings.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# AutoCodeRover: 自律的なプログラム改善

AutoCodeRover: Autonomous Program Improvement ( http://arxiv.org/abs/2404.05427v3 )

ライセンス: Link先を確認
Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury, (参考訳) 研究者たちはここ数十年、ソフトウェア開発プロセスの自動化に大きな進歩を遂げてきた。 大規模言語モデル(LLM)の最近の進歩は、LLMベースのプログラミングアシスタントを使用して自動コーディングを実現する開発プロセスに大きな影響を与えている。 それでもソフトウェアエンジニアリングには、特にソフトウェアメンテナンス(バグ修正など)とソフトウェア進化(機能追加など)を可能にするために、コーディングとは別にプログラムの改善プロセスが含まれています。 本稿では、GitHubの問題を解決するための自動化アプローチを提案し、プログラムの改善を自律的に達成する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 AI研究者や実践者による最近のLLMエージェントアプローチとは対照的に、私たちの見通しはよりソフトウェア工学指向である。 我々は、ソフトウェアプロジェクトを単なるファイルの集合として見るのではなく、プログラム表現(抽象構文木)に取り組んでいる。 コード検索では、プログラム構造をクラス/メソッドの形で活用し、LLMの根本原因理解を強化し、反復探索によるコンテキストの検索を効果的に行う。 テストを使用したスペクトルベースのフォールトローカライゼーションは、テストスーツが利用可能である限り、コンテキストをさらに強化する。 SWE-bench-lite(300の現実のGitHubイシュー)の実験では、GitHubの問題を解決する効果が向上している(SWE-bench-liteでは19%)。 さらにAutoCodeRoverは、他のベースラインと比較して、コスト(平均$0.43 USD)を大幅に下げてこの効果を達成した。 我々のワークフローは自律的なソフトウェアエンジニアリングを可能にし、将来、LLMから自動生成されたコードを自律的に改善できると仮定する。

Researchers have made significant progress in automating the software development process in the past decades. Recent progress in Large Language Models (LLMs) has significantly impacted the development process, where developers can use LLM-based programming assistants to achieve automated coding. Nevertheless, software engineering involves the process of program improvement apart from coding, specifically to enable software maintenance (e.g. bug fixing) and software evolution (e.g. feature additions). In this paper, we propose an automated approach for solving GitHub issues to autonomously achieve program improvement. In our approach called AutoCodeRover, LLMs are combined with sophisticated code search capabilities, ultimately leading to a program modification or patch. In contrast to recent LLM agent approaches from AI researchers and practitioners, our outlook is more software engineering oriented. We work on a program representation (abstract syntax tree) as opposed to viewing a software project as a mere collection of files. Our code search exploits the program structure in the form of classes/methods to enhance LLM's understanding of the issue's root cause, and effectively retrieve a context via iterative search. The use of spectrum-based fault localization using tests, further sharpens the context, as long as a test-suite is available. Experiments on SWE-bench-lite (300 real-life GitHub issues) show increased efficacy in solving GitHub issues (19% on SWE-bench-lite), which is higher than the efficacy of the recently reported SWE-agent. In addition, AutoCodeRover achieved this efficacy with significantly lower cost (on average, $0.43 USD), compared to other baselines. We posit that our workflow enables autonomous software engineering, where, in future, auto-generated code from LLMs can be autonomously improved.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# DreamScene360:パノラマガウススプレイティングによる制約のないテキスト・ツー・3Dシーン生成

DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting ( http://arxiv.org/abs/2404.06903v2 )

ライセンス: Link先を確認
Shijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi, (参考訳) 仮想現実アプリケーションに対する需要の高まりは、没入型3Dアセットを構築することの重要性を強調している。 テキストから3D 360$^{\circ}$のシーン生成パイプラインを提案する。 提案手法は, 2次元拡散モデルの生成能力を利用して, 高品質でグローバルなパノラマ画像を作成する。 この画像は、予備的な「フラット」(2D)シーン表現として機能する。 その後、3Dガウシアンへと持ち上げられ、リアルタイムの探査を可能にするスプラッティング技術を採用している。 一貫した3次元幾何を生成するため、我々のパイプラインは2次元単分子深度を大域的に最適化された点雲に整列させることにより空間的整合構造を構築する。 この点の雲は、3Dガウスの遠心点の初期状態として機能する。 シングルビュー入力に固有の目に見えない問題に対処するため、合成されたカメラビューと入力されたカメラビューの両方に意味的および幾何学的制約を正規化として課す。 これらはガウスの最適化を導いており、見えない地域の再建を支援している。 要約すると,本手法は360$^{\circ}$パースペクティブ内でグローバルに一貫した3Dシーンを提供する。 Project website at http://dreamscene360.github.io/

The increasing demand for virtual reality applications has highlighted the significance of crafting immersive 3D assets. We present a text-to-3D 360$^{\circ}$ scene generation pipeline that facilitates the creation of comprehensive 360$^{\circ}$ scenes for in-the-wild environments in a matter of minutes. Our approach utilizes the generative power of a 2D diffusion model and prompt self-refinement to create a high-quality and globally coherent panoramic image. This image acts as a preliminary "flat" (2D) scene representation. Subsequently, it is lifted into 3D Gaussians, employing splatting techniques to enable real-time exploration. To produce consistent 3D geometry, our pipeline constructs a spatially coherent structure by aligning the 2D monocular depth into a globally optimized point cloud. This point cloud serves as the initial state for the centroids of 3D Gaussians. In order to address invisible issues inherent in single-view inputs, we impose semantic and geometric constraints on both synthesized and input camera views as regularizations. These guide the optimization of Gaussians, aiding in the reconstruction of unseen regions. In summary, our method offers a globally consistent 3D scene within a 360$^{\circ}$ perspective, providing an enhanced immersive experience over existing techniques. Project website at: http://dreamscene360.github.io/
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# 産業用モノのインターネットにおけるソフトセンシングのための物理応用グラフニューラルネットワーク

Physics-Enhanced Graph Neural Networks For Soft Sensing in Industrial Internet of Things ( http://arxiv.org/abs/2404.08061v2 )

ライセンス: Link先を確認
Keivan Faghih Niresi, Hugo Bissig, Henri Baumann, Olga Fink, (参考訳) 産業用IoT(Industrial Internet of Things)は、製造業、産業プロセス、インフラ管理を変革している。 新しいレベルの自動化、効率性、予測的メンテナンスを促進することで、IIoTは従来の産業をインテリジェントでシームレスに相互接続されたエコシステムへと変えようとしている。 しかし、高度に信頼性の高いIIoTを実現するには、大量のセンサーをインストールするコスト、既存のシステムにセンサーを組み込む際の制限、センサーの設置を非現実的にする厳しい環境条件などの要因が伴う。 ソフト(仮想)センシングは、物理センサデータから変数を推定するために数学的モデルを活用し、これらの課題に対する解決策を提供する。 データ駆動と物理に基づくモデリングは、ソフトセンシングに広く使われている2つの主要な方法論である。 これらの戦略の選択は、基礎となるシステムの複雑さに依存し、物理ベースの推論モデルが複雑であり、状態推定の課題を示す場合、データ駆動のアプローチが好まれる。 しかし、従来のディープラーニングモデルでは、様々なセンサー間の複雑な相互作用を明示的に表現できないことが典型的に妨げられている。 この制限に対処するために、センサ計測間の複雑な関係を効果的に捉える能力で有名なグラフニューラルネットワーク(GNN)を採用する。 本研究では,物理の原理をグラフベースの方法論に統合する物理強化型GNNを提案する。 これは、物理過程の根底にある特徴から導かれる入力グラフ内の追加ノードを増大させることによって達成される。 地域熱ネットワークのケーススタディにおける提案手法の評価では,ノイズやパラメータの不正確さの存在下においても,純粋にデータ駆動型GNNよりも顕著な改善が見られた。

The Industrial Internet of Things (IIoT) is reshaping manufacturing, industrial processes, and infrastructure management. By fostering new levels of automation, efficiency, and predictive maintenance, IIoT is transforming traditional industries into intelligent, seamlessly interconnected ecosystems. However, achieving highly reliable IIoT can be hindered by factors such as the cost of installing large numbers of sensors, limitations in retrofitting existing systems with sensors, or harsh environmental conditions that may make sensor installation impractical. Soft (virtual) sensing leverages mathematical models to estimate variables from physical sensor data, offering a solution to these challenges. Data-driven and physics-based modeling are the two main methodologies widely used for soft sensing. The choice between these strategies depends on the complexity of the underlying system, with the data-driven approach often being preferred when the physics-based inference models are intricate and present challenges for state estimation. However, conventional deep learning models are typically hindered by their inability to explicitly represent the complex interactions among various sensors. To address this limitation, we adopt Graph Neural Networks (GNNs), renowned for their ability to effectively capture the complex relationships between sensor measurements. In this research, we propose physics-enhanced GNNs, which integrate principles of physics into graph-based methodologies. This is achieved by augmenting additional nodes in the input graph derived from the underlying characteristics of the physical processes. Our evaluation of the proposed methodology on the case study of district heating networks reveals significant improvements over purely data-driven GNNs, even in the presence of noise and parameter inaccuracies.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# Azure Core Workload Insightsにおける重要な障害検出

High Significant Fault Detection in Azure Core Workload Insights ( http://arxiv.org/abs/2404.09302v2 )

ライセンス: Link先を確認
Pranay Lohia, Laurent Boue, Sharath Rangappa, Vijay Agneeswaran, (参考訳) Azure Coreのワークロードインサイトは、さまざまなメトリックユニットによる時系列データを持っている。 これらの時系列データには、メートル法名、資源領域、次元、およびデータに関連するその次元値に関して観測された断層により、断層または異常が観測される。 Azure Coreにとって重要なタスクは、ダッシュボード上のユーザに対して、容易に認識可能な障害や異常をハイライトすることだ。 報告された異常件数は極めて多く,1時間に報告される5~20件の異常件数は限られている。 報告された異常は、どの時系列予測モデルにおいても大きなユーザ認識と高い再構成誤差を持つ。 そこで,本課題は,ユーザ認識のための「重要な異常」とその関連情報を自動的に識別することである。

Azure Core workload insights have time-series data with different metric units. Faults or Anomalies are observed in these time-series data owing to faults observed with respect to metric name, resources region, dimensions, and its dimension value associated with the data. For Azure Core, an important task is to highlight faults or anomalies to the user on a dashboard that they can perceive easily. The number of anomalies reported should be highly significant and in a limited number, e.g., 5-20 anomalies reported per hour. The reported anomalies will have significant user perception and high reconstruction error in any time-series forecasting model. Hence, our task is to automatically identify 'high significant anomalies' and their associated information for user perception.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# nnU-Net再考 : 3次元医用画像分割における厳密な検証

nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation ( http://arxiv.org/abs/2404.09556v2 )

ライセンス: Link先を確認
Fabian Isensee, Tassilo Wald, Constantin Ulrich, Michael Baumgartner, Saikat Roy, Klaus Maier-Hein, Paul F. Jaeger, (参考訳) nnU-Netのリリースは、3次元医用画像セグメンテーションのパラダイムシフトであり、適切に構成されたU-Netアーキテクチャが依然として最先端の結果が得られることを示した。 それにもかかわらず、新しいアーキテクチャの追求と、U-Netベースラインよりも優れたパフォーマンスの主張は継続された。 本研究では,これらの最近の主張の多くは,不適切なベースラインの使用,不十分なデータセット,無視された計算資源など,一般的な検証上の欠点を精査する上では成立しないことを示す。 これらの落とし穴を慎重に回避することにより、CNNベース、Transformerベース、Mambaベースのアプローチを含む、現在のセグメンテーション手法の徹底的で包括的なベンチマークを行う。 現在の信念とは対照的に、最先端の演技のレシピが重要であることが分かる。 1) ResNet や ConvNeXt など CNN ベースの U-Net モデルを採用する。 2) nnU-Net フレームワークを使用し、 3) 現在のハードウェアリソースにモデルをスケーリングする。 これらの結果は、この分野における新しいアーキテクチャに対する継続的なイノベーションバイアスを示し、科学的進歩の探求においてより厳格な検証基準の必要性を浮き彫りにしている。

The release of nnU-Net marked a paradigm shift in 3D medical image segmentation, demonstrating that a properly configured U-Net architecture could still achieve state-of-the-art results. Despite this, the pursuit of novel architectures, and the respective claims of superior performance over the U-Net baseline, continued. In this study, we demonstrate that many of these recent claims fail to hold up when scrutinized for common validation shortcomings, such as the use of inadequate baselines, insufficient datasets, and neglected computational resources. By meticulously avoiding these pitfalls, we conduct a thorough and comprehensive benchmarking of current segmentation methods including CNN-based, Transformer-based, and Mamba-based approaches. In contrast to current beliefs, we find that the recipe for state-of-the-art performance is 1) employing CNN-based U-Net models, including ResNet and ConvNeXt variants, 2) using the nnU-Net framework, and 3) scaling models to modern hardware resources. These results indicate an ongoing innovation bias towards novel architectures in the field and underscore the need for more stringent validation standards in the quest for scientific progress.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# AgentKit: 動的グラフによる構造化LLM推論

AgentKit: Structured LLM Reasoning with Dynamic Graphs ( http://arxiv.org/abs/2404.11483v2 )

ライセンス: Link先を確認
Yue Wu, Yewen Fan, So Yeon Min, Shrimai Prabhumoye, Stephen McAleer, Yonatan Bisk, Ruslan Salakhutdinov, Yuanzhi Li, Tom Mitchell, (参考訳) 多機能エージェントのための直感的なLCMプロンプトフレームワーク(AgentKit)を提案する。 AgentKitは、単純な自然言語プロンプトから複雑な"思考プロセス"を明示的に構築するための統一されたフレームワークを提供する。 AgentKitの基本的なビルディングブロックはノードであり、特定のサブタスクの自然言語プロンプトを含んでいる。 ユーザーはLEGOの部品を積み重ねるなど、一連のノードを組み立てる。 ノードの連鎖は、自然に構造化された「思考プロセス」を明示的に強制するように設計することができる。 例えば、論文を書くタスクは、まず思考のプロセスから始めることができる。 1)コアメッセージを識別する。 2 先行研究ギャップ等を特定すること。 AgentKitのノードは、オンザフライの階層的計画、リフレクション、インタラクションからの学習など、さまざまな方法で複数の高度な機能を実装することができる。 加えて、モジュール的な性質と、明示的な人間の思考過程をシミュレートする直感的な設計のため、基本的なエージェントはサブタスクのプロンプトのリストのようにシンプルに実装することができ、プログラミング経験のない人によって設計および調整が可能である。 定量的に、AgentKitによって設計されたエージェントがWebShopおよびCrafter上でSOTA性能を達成することを示す。 これらの進歩は、広範囲のアプリケーションでLLMエージェントを効果的かつアクセスしやすくするAgentKitの可能性を浮き彫りにした。 https://github.com/holmeswww/AgentKit

We propose an intuitive LLM prompting framework (AgentKit) for multifunctional agents. AgentKit offers a unified framework for explicitly constructing a complex "thought process" from simple natural language prompts. The basic building block in AgentKit is a node, containing a natural language prompt for a specific subtask. The user then puts together chains of nodes, like stacking LEGO pieces. The chains of nodes can be designed to explicitly enforce a naturally structured "thought process". For example, for the task of writing a paper, one may start with the thought process of 1) identify a core message, 2) identify prior research gaps, etc. The nodes in AgentKit can be designed and combined in different ways to implement multiple advanced capabilities including on-the-fly hierarchical planning, reflection, and learning from interactions. In addition, due to the modular nature and the intuitive design to simulate explicit human thought process, a basic agent could be implemented as simple as a list of prompts for the subtasks and therefore could be designed and tuned by someone without any programming experience. Quantitatively, we show that agents designed through AgentKit achieve SOTA performance on WebShop and Crafter. These advances underscore AgentKit's potential in making LLM agents effective and accessible for a wider range of applications. https://github.com/holmeswww/AgentKit
公開日:2024-07-24
翻訳日:2024-07-26 19:07:19
# 全体としてのノード様:グラフ分類のための構造認識検索と粗化

Node-like as a Whole: Structure-aware Searching and Coarsening for Graph Classification ( http://arxiv.org/abs/2404.11869v3 )

ライセンス: Link先を確認
Xiaorui Qi, Qijie Bai, Yanlong Wen, Haiwei Zhang, Xiaojie Yuan, (参考訳) グラフトランスフォーマー(GT)は、グラフレベルのタスクにおいて顕著な成果を上げている。 しかし、既存のほとんどの研究はグラフ構造をノード表現の拡張のためのガイダンスやバイアスの一種と見なしており、これはノード中心の視点に焦点を当てており、エッジや構造の明示的な表現を欠いている。 1つの自然な疑問は、グラフ構造全体をノード的に扱うことで、高レベルの機能を学ぶことができるか、ということです。 実験分析を通じて,この仮定の実現可能性について検討する。 本稿では,グラフ分類のためのGTアーキテクチャに基づく構造認識探索と粗大化(GRLsc)による新しい多視点グラフ表現学習モデルを提案する。 具体的には、完全な構造表現を学ぶために、オリジナル、粗大化、変換の3つのユニークなビューを構築します。 階層的ヒューリスティックグラフを通じてループと斜めを圧縮し、適切に設計された制約でそれらを制限し、構造間の高レベルな相互作用を学習するための粗いビューを構築する。 また、エッジ埋め込みのための線グラフを導入し、変換ビューを構築するためにエッジ中央の視点に切り替える。 8つの実世界のデータセットの実験は、さまざまなアーキテクチャから28のベースラインでGRLscの改善を実証している。

Graph Transformers (GTs) have made remarkable achievements in graph-level tasks. However, most existing works regard graph structures as a form of guidance or bias for enhancing node representations, which focuses on node-central perspectives and lacks explicit representations of edges and structures. One natural question is, can we treat graph structures node-like as a whole to learn high-level features? Through experimental analysis, we explore the feasibility of this assumption. Based on our findings, we propose a novel multi-view graph representation learning model via structure-aware searching and coarsening (GRLsc) on GT architecture for graph classification. Specifically, we build three unique views, original, coarsening, and conversion, to learn a thorough structural representation. We compress loops and cliques via hierarchical heuristic graph coarsening and restrict them with well-designed constraints, which builds the coarsening view to learn high-level interactions between structures. We also introduce line graphs for edge embeddings and switch to edge-central perspective to construct the conversion view. Experiments on eight real-world datasets demonstrate the improvements of GRLsc over 28 baselines from various architectures.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# 拡散距離と方向コヒーレンスによる対実的説明探索の強化

Enhancing Counterfactual Explanation Search with Diffusion Distance and Directional Coherence ( http://arxiv.org/abs/2404.12810v2 )

ライセンス: Link先を確認
Marharyta Domnich, Raul Vicente, (参考訳) AIモデルの採用の急激な問題は、予測に関するより人間中心の説明に対する需要の増加である。 より人間中心の説明に進むためには、人間がどのようにして説明を作り、選択するかを理解することが有益である。 本研究は, 人間の認知の洞察に触発されて, 効果的な対実的説明の探索を促進するために, 2つの新しいバイアスを取り入れることを提案し, 検証する。 提案手法の中心となるのは拡散距離の応用であり,本手法では,データ接続性や動作性を重視して,実現可能な対実的説明の探索を行う。 特に、拡散距離は、多くの短距離経路によりより相互接続された点を効果的に重み付けする。 このアプローチは互いに近づき、それらの間の実現可能な経路を特定する。 また,方向コヒーレンス項を導入し,特徴空間における関節と縁の方向の変化を相反する傾向を示す。 この用語は、1つの特徴を一度に変化させることで、モデルの結果がどのように変化するかの期待に基づいて、一組の限界予測と一致した反実的説明を生成することを可能にする。 提案手法はCoDiCE (Coherent Directional Counterfactual Explainer) と名付けられ,DiCE, FACE, Prototypes, Growing Spheres などの既存手法に対する2つの新しいバイアスの影響を検討した。 連続的および混合的な特徴を持つ合成データセットと実データの両方に対する一連のアブレーション実験を通じて,本手法の有効性を実証した。

A pressing issue in the adoption of AI models is the increasing demand for more human-centric explanations of their predictions. To advance towards more human-centric explanations, understanding how humans produce and select explanations has been beneficial. In this work, inspired by insights of human cognition we propose and test the incorporation of two novel biases to enhance the search for effective counterfactual explanations. Central to our methodology is the application of diffusion distance, which emphasizes data connectivity and actionability in the search for feasible counterfactual explanations. In particular, diffusion distance effectively weights more those points that are more interconnected by numerous short-length paths. This approach brings closely connected points nearer to each other, identifying a feasible path between them. We also introduce a directional coherence term that allows the expression of a preference for the alignment between the joint and marginal directional changes in feature space to reach a counterfactual. This term enables the generation of counterfactual explanations that align with a set of marginal predictions based on expectations of how the outcome of the model varies by changing one feature at a time. We evaluate our method, named Coherent Directional Counterfactual Explainer (CoDiCE), and the impact of the two novel biases against existing methods such as DiCE, FACE, Prototypes, and Growing Spheres. Through a series of ablation experiments on both synthetic and real datasets with continuous and mixed-type features, we demonstrate the effectiveness of our method.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# 医用画像の弱教師付きセマンティックセグメンテーションのためのCOIN

COIN: Counterfactual inpainting for weakly supervised semantic segmentation for medical images ( http://arxiv.org/abs/2404.12832v2 )

ライセンス: Link先を確認
Dmytro Shvetsov, Joonas Ariva, Marharyta Domnich, Raul Vicente, Dmytro Fishman, (参考訳) 深層学習は医療画像と放射線学の分野を劇的に変え、CTやX線スキャンなどの医学画像の病理診断を可能にしている。 しかし、特にセグメンテーションタスクにおけるディープラーニングモデルの性能は、広範囲な注釈付きデータセットの必要性によって制限されることが多い。 この課題に対処するために、説明可能なAIのレンズと反現実的説明の生成を通じて、弱教師付きセマンティックセマンティックセマンティクスの能力を探求する。 本研究の対象は、予測された分類ラベルを、生成モデルを用いて異常から正常に反転させる新しい反ファクト・インペインティング・アプローチ(COIN)の開発である。 例えば、分類器が入力された医療画像Xが異常であると判断し、病理の存在を示すとすると、生成モデルは異常領域を塗り替えることを目的としており、分類器の元々の予測ラベルを逆転させる。 この手法により,既存のセグメンテーションマスクに依存することなく,病理の正確なセグメンテーションを作成できる。 重要な点として、画像レベルのラベルが利用されており、詳細なセグメンテーションマスクを作成するよりも、取得が極めて容易である。 本手法の有効性は,エストニアのタルツ大学病院から取得したCT画像から,合成標的と実際の腎腫瘍を分離することによって実証される。 以上の結果から,COIN は RISE,ScoreCAM,LayerCAM などの確立した帰属法をはるかに超え,Singla らによって導入された代替の反事実的説明法をはるかに超えていることが示唆された。

Deep learning is dramatically transforming the field of medical imaging and radiology, enabling the identification of pathologies in medical images, including computed tomography (CT) and X-ray scans. However, the performance of deep learning models, particularly in segmentation tasks, is often limited by the need for extensive annotated datasets. To address this challenge, the capabilities of weakly supervised semantic segmentation are explored through the lens of Explainable AI and the generation of counterfactual explanations. The scope of this research is development of a novel counterfactual inpainting approach (COIN) that flips the predicted classification label from abnormal to normal by using a generative model. For instance, if the classifier deems an input medical image X as abnormal, indicating the presence of a pathology, the generative model aims to inpaint the abnormal region, thus reversing the classifier's original prediction label. The approach enables us to produce precise segmentations for pathologies without depending on pre-existing segmentation masks. Crucially, image-level labels are utilized, which are substantially easier to acquire than creating detailed segmentation masks. The effectiveness of the method is demonstrated by segmenting synthetic targets and actual kidney tumors from CT images acquired from Tartu University Hospital in Estonia. The findings indicate that COIN greatly surpasses established attribution methods, such as RISE, ScoreCAM, and LayerCAM, as well as an alternative counterfactual explanation method introduced by Singla et al. This evidence suggests that COIN is a promising approach for semantic segmentation of tumors in CT images, and presents a step forward in making deep learning applications more accessible and effective in healthcare, where annotated data is scarce.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# AI安全のための機械的解釈可能性 - レビュー

Mechanistic Interpretability for AI Safety -- A Review ( http://arxiv.org/abs/2404.14082v2 )

ライセンス: Link先を確認
Leonard Bereska, Efstratios Gavves, (参考訳) AIシステムの内部動作を理解することは、価値の整合性と安全性を保証する上で重要である。 ニューラルネットワークが学習した計算機構と表現を、人間の理解可能なアルゴリズムや概念にリバースエンジニアリングして、きめ細かい因果的理解を提供する。 ニューラルアクティベーション内の知識を符号化する機能や,その表現と計算に関する仮説などの基礎概念を確立する。 本稿では,モデル行動の因果分解手法を調査し,機械的解釈可能性とAI安全性との関連性を評価する。 スケーラビリティ、自動化、包括的な解釈に関わる課題について検討する。 我々は、複雑なモデルや振る舞いを処理し、視覚や強化学習のような領域に拡張するための概念、標準の設定、スケーリング技術を明確にすることを提唱する。 機械的解釈性は、AIシステムがより強力で精査されるにつれて、破滅的な結果を防ぐのに役立つ。

Understanding AI systems' inner workings is critical for ensuring value alignment and safety. This review explores mechanistic interpretability: reverse-engineering the computational mechanisms and representations learned by neural networks into human-understandable algorithms and concepts to provide a granular, causal understanding. We establish foundational concepts such as features encoding knowledge within neural activations and hypotheses about their representation and computation. We survey methodologies for causally dissecting model behaviors and assess the relevance of mechanistic interpretability to AI safety. We investigate challenges surrounding scalability, automation, and comprehensive interpretation. We advocate for clarifying concepts, setting standards, and scaling techniques to handle complex models and behaviors and expand to domains such as vision and reinforcement learning. Mechanistic interpretability could help prevent catastrophic outcomes as AI systems become more powerful and inscrutable.
公開日:2024-07-25
翻訳日:2024-07-26 19:07:19
# インシデント応答GPT:生成人工知能を用いた交通事故対応計画の作成

IncidentResponseGPT: Generating Traffic Incident Response Plans with Generative Artificial Intelligence ( http://arxiv.org/abs/2404.18550v3 )

ライセンス: Link先を確認
Artur Grigorev, Adriana-Simona Mihaita Khaled Saleh, Yuming Ou, (参考訳) InductionResponseGPTフレームワーク - 生成人工知能(AI)を適用して、トラフィックインシデント応答の効率性と有効性を高める新しいシステムである。 本モデルでは,交通管理当局の意思決定を迅速化することを目的として,地域固有の事故対応ガイドラインを合成し,特定地域に対応するインシデント対応計画を生成する。 本手法は,都市交通ネットワークの全体的影響を最小限に抑えるため,様々な推奨事項(例えば,最適リルーティング戦略,資源ニーズ推定など)を提案することで,インシデント解決時間を短縮することを目的としている。 このシステムは、動的車線閉鎖、最適化されたリルーティング、適切な緊急リソースの派遣など、特定の行動を提案する。 インシデントレスポンセGPTは、人間に提案されたソリューションに近づいた影響最小化や資源効率といった基準に基づいて、生成した応答計画のランク付けを行う。

The proposed IncidentResponseGPT framework - a novel system that applies generative artificial intelligence (AI) to potentially enhance the efficiency and effectiveness of traffic incident response. This model allows for synthesis of region-specific incident response guidelines and generates incident response plans adapted to specific area, aiming to expedite decision-making for traffic management authorities. This approach aims to accelerate incident resolution times by suggesting various recommendations (e.g. optimal rerouting strategies, estimating resource needs) to minimize the overall impact on the urban traffic network. The system suggests specific actions, including dynamic lane closures, optimized rerouting and dispatching appropriate emergency resources. IncidentResponseGPT employs the Technique for Order Preference by Similarity to Ideal Solution (TOPSIS) to rank generated response plans based on criteria like impact minimization and resource efficiency based on their proximity to an human-proposed solution.
公開日:2024-07-24
翻訳日:2024-07-26 19:07:19
# ハーモニックLLMは信頼できる

Harmonic LLMs are Trustworthy ( http://arxiv.org/abs/2404.19708v2 )

ライセンス: Link先を確認
Nicholas S. Kersting, Mohammad Rahman, Suchismitha Vedala, Yang Wang, (参考訳) 我々は,任意のブラックボックスLSMの強靭性(安定性と説明可能性)を実時間でテストする直感的な手法を提案する。 我々の知る限りでは、これは LLM からの任意の応答のロバスト性を測定するための、完全にモデルに依存しない教師なしの手法としては初めてであり、モデル自体が純粋に数学的標準に準拠している。 一般的な適用と結果の即時性を示すため、WebQA, ProgrammingQA, TruthfulQAという3つのドメインで数千のクエリに対して$\gamma$を10のLLM(ChatGPT, Claude-2.1, Claude3.0, GPT-4, GPT-4o, Smaug-72B, Mixtral-8x7B, Llama2-7B, Mistral-7B, MPT-7B)で測定する。 検査されたすべてのモデルとドメインで、$\gamma \to 0$は信頼度を示し、逆に$\gamma$のより高い値を求めると幻覚の例が明らかになる。 GPT-4o、GPT-4、Smaug-72Bは、中規模のオープンソースモデルが大規模な商用モデルに勝てるという証拠を提供する。

We introduce an intuitive method to test the robustness (stability and explainability) of any black-box LLM in real-time via its local deviation from harmoniticity, denoted as $\gamma$. To the best of our knowledge this is the first completely model-agnostic and unsupervised method of measuring the robustness of any given response from an LLM, based upon the model itself conforming to a purely mathematical standard. To show general application and immediacy of results, we measure $\gamma$ in 10 popular LLMs (ChatGPT, Claude-2.1, Claude3.0, GPT-4, GPT-4o, Smaug-72B, Mixtral-8x7B, Llama2-7B, Mistral-7B and MPT-7B) across thousands of queries in three objective domains: WebQA, ProgrammingQA, and TruthfulQA. Across all models and domains tested, human annotation confirms that $\gamma \to 0$ indicates trustworthiness, and conversely searching higher values of $\gamma$ easily exposes examples of hallucination, a fact that enables efficient adversarial prompt generation through stochastic gradient ascent in $\gamma$. The low-$\gamma$ leaders among the models in the respective domains are GPT-4o, GPT-4, and Smaug-72B, providing evidence that mid-size open-source models can win out against large commercial models.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# VeriFence: 信頼できないLinuxカーネル拡張のための軽量で精密なスペックディフェンス

VeriFence: Lightweight and Precise Spectre Defenses for Untrusted Linux Kernel Extensions ( http://arxiv.org/abs/2405.00078v2 )

ライセンス: Link先を確認
Luis Gerhorst, Henriette Herzog, Peter Wägemann, Maximilian Ott, Rüdiger Kapitza, Timo Hönig, (参考訳) 高性能IOはユーザ空間とカーネル空間の間の低オーバーヘッド通信を必要とする。 この要求は、もはや従来のシステムコールによって満たされない。 Linuxの拡張バークレーパケットフィルタ(BPF)は、ユーザが提供するバイトコードをジャストインタイムでコンパイルし、ネイティブに近い速度でカーネルモードで実行することで、ユーザ/カーネルの遷移を避ける。 BPFプログラムをカーネルから分離するためには、メモリとタイプセーフのために静的に解析される。 しかし、2018年に公表されたSpectreの脆弱性を緩和するためには、潜在的に危険なプログラムを拒否する防衛が配置されなければならなかった。 これは、人気のあるオープンソースプロジェクトによる844の現実世界のBPFプログラムを持つデータセットの31%から54%のプログラムに影響を与える。 これを解決するために、ユーザーは防衛を無効にし、プログラムを使い続けることを余儀なくされ、システム全体が危険にさらされる。 セキュアで表現力のないLinuxカーネル拡張を実現するために,カーネルのSpectreディフェンスの強化であるVeriFenceを提案し,BPFアプリケーションプログラムの数を54%から0に削減した。 BPFのメインストリーム性能に敏感なアプリケーション(イベントトレース、プロファイリング、パケット処理など)に対するVeriFenceのオーバーヘッドを計測し、影響を受けるBPFプログラムが使用不能かカーネルへの過渡的実行攻撃を可能とした場合の状態を著しく改善することを発見した。

High-performance IO demands low-overhead communication between user- and kernel space. This demand can no longer be fulfilled by traditional system calls. Linux's extended Berkeley Packet Filter (BPF) avoids user-/kernel transitions by just-in-time compiling user-provided bytecode and executing it in kernel mode with near-native speed. To still isolate BPF programs from the kernel, they are statically analyzed for memory- and type-safety, which imposes some restrictions but allows for good expressiveness and high performance. However, to mitigate the Spectre vulnerabilities disclosed in 2018, defenses which reject potentially-dangerous programs had to be deployed. We find that this affects 31% to 54% of programs in a dataset with 844 real-world BPF programs from popular open-source projects. To solve this, users are forced to disable the defenses to continue using the programs, which puts the entire system at risk. To enable secure and expressive untrusted Linux kernel extensions, we propose VeriFence, an enhancement to the kernel's Spectre defenses that reduces the number of BPF application programs rejected from 54% to zero. We measure VeriFence's overhead for all mainstream performance-sensitive applications of BPF (i.e., event tracing, profiling, and packet processing) and find that it improves significantly upon the status-quo where affected BPF programs are either unusable or enable transient execution attacks on the kernel.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# 表現なし、信頼なし:PPOにおける表現・崩壊・信頼問題

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO ( http://arxiv.org/abs/2405.00662v2 )

ライセンス: Link先を確認
Skander Moalla, Andrea Miele, Razvan Pascanu, Caglar Gulcehre, (参考訳) 強化学習(Reinforcement Learning, RL)は、訓練中にエージェントが観察する報酬や報酬は、その変化政策に依存するため、本質的に非定常性と結びついている。 したがって、深部RLのネットワークは、新しい観測に適応し、新しい目標に適合できなければならない。 しかし、従来の研究では、非政治的なディープバリューベースの手法のネットワークは表現ランクの低下を示しており、しばしば学習の継続やパフォーマンスの崩壊と相関している。 この現象は一般に、非定常性下でのニューラルネットワーク学習によるものであるが、しばしば無期限に訓練できると考えられる政治政策最適化手法では見過ごされている。 本研究では,Atari および MuJoCo 環境におけるPPO の表現動態を実験的に研究し,PPO エージェントが特徴量劣化や可塑性の喪失にも影響していることを明らかにする。 これは強い非定常性によって悪化し、批評家のパフォーマンスに関わらず、最終的に俳優の演技が崩壊することを示します。 PPOのような手法に特有の信頼領域が,崩壊を緩和あるいは防止できない理由を問う。 表現の崩壊と信頼領域の劣化との間には関係があることが判明し、一方が悪化し、他方がPFO(Proximal Feature Optimization)と呼ばれる新たな補助的損失であり、他の介入とともに、表現ダイナミクスの正規化がPPOエージェントの性能を向上させることが示されている。

Reinforcement learning (RL) is inherently rife with non-stationarity since the states and rewards the agent observes during training depend on its changing policy. Therefore, networks in deep RL must be capable of adapting to new observations and fitting new targets. However, previous works have observed that networks in off-policy deep value-based methods exhibit a decrease in representation rank, often correlated with an inability to continue learning or a collapse in performance. Although this phenomenon has generally been attributed to neural network learning under non-stationarity, it has been overlooked in on-policy policy optimization methods which are often thought capable of training indefinitely. In this work, we empirically study representation dynamics in Proximal Policy Optimization (PPO) on the Atari and MuJoCo environments, revealing that PPO agents are also affected by feature rank deterioration and loss of plasticity. We show that this is aggravated with stronger non-stationarity, ultimately driving the actor's performance to collapse, regardless of the performance of the critic. We ask why the trust region, specific to methods like PPO, cannot alleviate or prevent the collapse. We find that there is a connection between representation collapse and the degradation of the trust region, one exacerbating the other, and present Proximal Feature Optimization (PFO), a novel auxiliary loss that, along with other interventions, shows that regularizing the representation dynamics improves the performance of PPO agents.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# 大規模言語モデルを用いたランダム化制御試行からの自動抽出

Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models ( http://arxiv.org/abs/2405.01686v2 )

ライセンス: Link先を確認
Hye Sun Yun, David Pogrebitskiy, Iain J. Marshall, Byron C. Wallace, (参考訳) メタアナリシスは、異なるランダム化制御試験(RCT)の結果を統計的に集計し、治療効果を評価する。 これは治療効果の頑健な評価をもたらすため、メタアナリシスの結果は最も強力な証拠であると考えられている。 しかし、厳密な証拠合成は時間がかかり、労働集約的であり、個々の試験から手動でデータを抽出する必要がある。 理想的には、言語技術はオンデマンドで完全に自動的なメタ分析を可能にする。 これは、自然言語処理(NLP)モデルの能力を超えてきた個々の試行から、正確に数値的な結果を抽出する必要がある。 本研究では,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。 介入, コンパレータ, 結果に付随する数値的な所見を伴い, 臨床試験報告の質素で粒度のよい評価データセットを注釈(およびリリース)する。 本データセットを用いて,実験報告から数値結果を条件付き抽出する作業において,ゼロショットを用いた7つのLLMの性能評価を行った。 長い入力を許容できる大規模なLLMは, 完全自動メタアナリシスの実現に極めて近いことが判明した。 しかし、バイオメディカルテキストで訓練されたものを含むLSMは、結果が複雑で、結果の推測が要求される場合、パフォーマンスが低下する。 この研究は、LLMによるRTTの完全自動メタ分析への道筋をグラフ化し、既存のモデルの限界を強調した。

Meta-analyses statistically aggregate the findings of different randomized controlled trials (RCTs) to assess treatment effectiveness. Because this yields robust estimates of treatment effectiveness, results from meta-analyses are considered the strongest form of evidence. However, rigorous evidence syntheses are time-consuming and labor-intensive, requiring manual extraction of data from individual trials to be synthesized. Ideally, language technologies would permit fully automatic meta-analysis, on demand. This requires accurately extracting numerical results from individual trials, which has been beyond the capabilities of natural language processing (NLP) models to date. In this work, we evaluate whether modern large language models (LLMs) can reliably perform this task. We annotate (and release) a modest but granular evaluation dataset of clinical trial reports with numerical findings attached to interventions, comparators, and outcomes. Using this dataset, we evaluate the performance of seven LLMs applied zero-shot for the task of conditionally extracting numerical findings from trial reports. We find that massive LLMs that can accommodate lengthy inputs are tantalizingly close to realizing fully automatic meta-analysis, especially for dichotomous (binary) outcomes (e.g., mortality). However, LLMs -- including ones trained on biomedical texts -- perform poorly when the outcome measures are complex and tallying the results requires inference. This work charts a path toward fully automatic meta-analysis of RCTs via LLMs, while also highlighting the limitations of existing models for this aim.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# 機械学習: 総合的な調査

Machine Unlearning: A Comprehensive Survey ( http://arxiv.org/abs/2405.07406v2 )

ライセンス: Link先を確認
Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Shui Yu, (参考訳) 忘れられる権利は世界中で合法化されているため、多くの研究は機械学習サービスプラットフォームを離れたい場合、ユーザのプライバシを保護する未学習メカニズムを設計しようと試みている。 具体的には、マシンラーニングとは、トレーニングデータセットの削除されたサブセットのコントリビューションを削除するための、トレーニングモデルを作成することだ。 この調査は、幅広い機械学習を体系的に分類し、それらの違い、つながり、オープンな問題について議論することを目的としている。 現在のアンラーニング手法は,集中型アンラーニング,分散および不規則なデータアンラーニング,アンラーニング検証,およびアンラーニングにおけるプライバシとセキュリティの問題の4つのシナリオに分類する。 まず、集中型アンラーニングを正確なアンラーニングと近似型アンラーニングに分類し、次に、これらの手法の詳細を紹介する。 集中型アンラーニングの他に、分散および不規則なデータアンラーニングに関するいくつかの研究や、フェデレーション付きアンラーニングとグラフアンラーニングを2つの代表的な方向として導入している。 アンラーニング手法を導入した後、未学習検証に関する研究をレビューする。 さらに,機械学習に必要なプライバシとセキュリティの問題を考察し,最新の文献を整理する。 最後に、様々な未学習シナリオの課題について議論し、潜在的研究の方向性に対処する。

As the right to be forgotten has been legislated worldwide, many studies attempt to design unlearning mechanisms to protect users' privacy when they want to leave machine learning service platforms. Specifically, machine unlearning is to make a trained model to remove the contribution of an erased subset of the training dataset. This survey aims to systematically classify a wide range of machine unlearning and discuss their differences, connections and open problems. We categorize current unlearning methods into four scenarios: centralized unlearning, distributed and irregular data unlearning, unlearning verification, and privacy and security issues in unlearning. Since centralized unlearning is the primary domain, we use two parts to introduce: firstly, we classify centralized unlearning into exact unlearning and approximate unlearning; secondly, we offer a detailed introduction to the techniques of these methods. Besides the centralized unlearning, we notice some studies about distributed and irregular data unlearning and introduce federated unlearning and graph unlearning as the two representative directions. After introducing unlearning methods, we review studies about unlearning verification. Moreover, we consider the privacy and security issues essential in machine unlearning and organize the latest related literature. Finally, we discuss the challenges of various unlearning scenarios and address the potential research directions.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# プラトン表現仮説

The Platonic Representation Hypothesis ( http://arxiv.org/abs/2405.07987v5 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola, (参考訳) AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。 まず、時間とともに複数のドメインにわたって、異なるニューラルネットワークがデータを表現する方法が整合してきているという、文献における収束の多くの例を調査します。 次に、データモダリティ間の収束を実証する。ビジョンモデルと言語モデルが大きくなるにつれて、データポイント間の距離を、より似たような方法で測定する。 我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。 このような表現をプラトニック表現と呼び、それに対するいくつかの選択的な圧力について論じる。 最後に、これらの傾向、その限界、分析に対する反例について論じる。

We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato's concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# AIが自分自身を食う時 - 生成AIの時代におけるデータ汚染の因果について

When AI Eats Itself: On the Caveats of Data Pollution in the Era of Generative AI ( http://arxiv.org/abs/2405.09597v2 )

ライセンス: Link先を確認
Xiaodan Xing, Fadong Shi, Jiahao Huang, Yinzhe Wu, Yang Nan, Sheng Zhang, Yingying Fang, Mike Roberts, Carola-Bibiane Schönlieb, Javier Del Ser, Guang Yang, (参考訳) 生成人工知能(AI)技術と大規模モデルは、画像、テキスト、音声、音楽など、さまざまな領域でリアルな出力を生み出している。 これらの高度な生成モデルを作成するには、特に大規模で高品質なデータセットなど、重要なリソースが必要である。 トレーニングコストを最小限に抑えるため、多くのアルゴリズム開発者は、モデル自身が作成したデータをコスト効率のよいトレーニングソリューションとして使用する。 しかし、すべての合成データがモデル性能を効果的に向上するわけではないため、結果の最適化には実データと合成データとの戦略的バランスが必要である。 現在、以前よく制御されていた実データと合成データの統合は制御不能になりつつある。 オンラインでの合成データの広範かつ非規制の拡散は、ウェブスクレイピングを通じて伝統的にコンパイルされたデータセットが汚染され、現在はラベルなしの合成データと混在している。 このトレンドは、生成型AIシステムが、自己生成データの使用に盲目的に依存するようになり、モデルパフォーマンスや倫理的問題への懸念が高まりつつある未来を後押しする。 生成的AIが認識せずに継続的に自分自身を消費するとどうなるのか? 潜在的な悪影響を軽減するために、どのような対策をとるべきでしょうか。 生成AIにおける合成データの利用の影響、特にマルチモーダル情報の融合に関して、科学文献には大きなギャップがある。 この研究ギャップに対処するために、画像とテキストのモダリティの両方で生成AIのトレーニングに盲目的に合成データを統合する結果について検討し、これらの効果を緩和するための戦略を探る。 目標は、合成データの役割を包括的に把握し、その使用に対するバランスのとれたアプローチを提唱し、大規模モデルの時代に生成AI技術の持続可能な開発を促進するプラクティスを探求することである。

Generative artificial intelligence (AI) technologies and large models are producing realistic outputs across various domains, such as images, text, speech, and music. Creating these advanced generative models requires significant resources, particularly large and high-quality datasets. To minimize training expenses, many algorithm developers use data created by the models themselves as a cost-effective training solution. However, not all synthetic data effectively improve model performance, necessitating a strategic balance in the use of real versus synthetic data to optimize outcomes. Currently, the previously well-controlled integration of real and synthetic data is becoming uncontrollable. The widespread and unregulated dissemination of synthetic data online leads to the contamination of datasets traditionally compiled through web scraping, now mixed with unlabeled synthetic data. This trend portends a future where generative AI systems may increasingly rely blindly on consuming self-generated data, raising concerns about model performance and ethical issues. What will happen if generative AI continuously consumes itself without discernment? What measures can we take to mitigate the potential adverse effects? There is a significant gap in the scientific literature regarding the impact of synthetic data use in generative AI, particularly in terms of the fusion of multimodal information. To address this research gap, this review investigates the consequences of integrating synthetic data blindly on training generative AI on both image and text modalities and explores strategies to mitigate these effects. The goal is to offer a comprehensive view of synthetic data's role, advocating for a balanced approach to its use and exploring practices that promote the sustainable development of generative AI technologies in the era of large models.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# ディープラーニング脳転移自動分離のためのマルチセンタープライバシ保存モデルトレーニング

Multicenter Privacy-Preserving Model Training for Deep Learning Brain Metastases Autosegmentation ( http://arxiv.org/abs/2405.10870v2 )

ライセンス: Link先を確認
Yixing Huang, Zahra Khodabakhshi, Ahmed Gomaa, Manuel Schmidt, Rainer Fietkau, Matthias Guckenberger, Nicolaus Andratschke, Christoph Bert, Stephanie Tanadini-Lang, Florian Putz, (参考訳) 目的:本研究の目的は,マルチセンターデータの不均一性が深層学習脳転移(BM)自己セグメンテーション性能に及ぼす影響について検討し,生データを共有することなくモデル一般化性を向上させるために,LWF(Learly without forgeting)というインクリメンタルトランスファーラーニング技術の有効性を評価することである。 材料と方法: この評価には, 大学病院 Erlangen (UKER), University Hospital Zurich (USZ), Stanford, UCSF, NYU, BraTS Challenge 2023 の合計6つのBMデータセットを用いた。 まず、BMオートセグメンテーションのための畳み込みニューラルネットワーク(DeepMedic)のマルチセンタ性能を、排他的な単一センタトレーニングとプールデータトレーニングのために確立した。 その後、LWFの有無にかかわらず、転送学習(TL)を用いたさらなるトレーニングのために、UKER事前訓練モデルが他のセンターに共有され、双方向コラボレーションが評価された。 結果: 単核実験では, BM検出値の平均値が0.625 (NYU) から0.876 (UKER) の範囲である。 混合マルチセンタートレーニングは、スタンフォードとニューヨークでのF1スコアを特に改善し、他のセンターでは無視できる改善である。 UKERプレトレーニングモデルがUSZに適用された場合、LWFはUKERとUSZテストデータの組み合わせで、単純TL(0.570)よりも平均F1スコア(0.839)、シングルセンタートレーニング(0.688)を達成する。 Naive TLは感度とコンチューリング精度を改善するが、精度を損なう。 逆に、LWFは信頼できる感度、精度、コントゥーリングの正確さを示す。 スタンフォードに適用されると、同様のパフォーマンスが観察された。 結論: データの異質性はBMオートセグメンテーションにおける様々なパフォーマンスをもたらし、一般化可能性のモデル化に挑戦する。 LWFは、ピアツーピアのプライバシ保存モデルトレーニングに対する有望なアプローチである。

Objectives: This work aims to explore the impact of multicenter data heterogeneity on deep learning brain metastases (BM) autosegmentation performance, and assess the efficacy of an incremental transfer learning technique, namely learning without forgetting (LWF), to improve model generalizability without sharing raw data. Materials and methods: A total of six BM datasets from University Hospital Erlangen (UKER), University Hospital Zurich (USZ), Stanford, UCSF, NYU and BraTS Challenge 2023 on BM segmentation were used for this evaluation. First, the multicenter performance of a convolutional neural network (DeepMedic) for BM autosegmentation was established for exclusive single-center training and for training on pooled data, respectively. Subsequently bilateral collaboration was evaluated, where a UKER pretrained model is shared to another center for further training using transfer learning (TL) either with or without LWF. Results: For single-center training, average F1 scores of BM detection range from 0.625 (NYU) to 0.876 (UKER) on respective single-center test data. Mixed multicenter training notably improves F1 scores at Stanford and NYU, with negligible improvement at other centers. When the UKER pretrained model is applied to USZ, LWF achieves a higher average F1 score (0.839) than naive TL (0.570) and single-center training (0.688) on combined UKER and USZ test data. Naive TL improves sensitivity and contouring accuracy, but compromises precision. Conversely, LWF demonstrates commendable sensitivity, precision and contouring accuracy. When applied to Stanford, similar performance was observed. Conclusion: Data heterogeneity results in varying performance in BM autosegmentation, posing challenges to model generalizability. LWF is a promising approach to peer-to-peer privacy-preserving model training.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# 無限列多体フロケットスピン系における可積分性と正確に解けるダイナミクスのシグナチャ

Signatures of Integrability and Exactly Solvable Dynamics in an Infinite-Range Many-Body Floquet Spin System ( http://arxiv.org/abs/2405.15797v2 )

ライセンス: Link先を確認
Harshit Sharma, Udaysinh T. Bhosale, (参考訳) 近年のSharma and Bhosale [Phys. Rev. B, 109, 014412 (2024)]では、無限の範囲Ising相互作用を持つ$N$-spin Floquetモデルが導入された。 本稿では, 相互作用の強度を$J$に一般化し, 上記の作業に$J=1$のケースを還元する。 J=1/2$の場合、このモデルは偶数量子ビットのみの可積分性を示す。 我々は6ドル、8ドル、10ドル、12ドルのキュービットのケースを解析的に解決し、その固有系、様々な初期状態の絡み合いのダイナミクス、ユニタリ進化作用素を発見した。 これらの量は量子可積分性(QI)の符号を示す。 even-$N > 12$ qubits の一般的な場合、スペクトル退化のような数値的な証拠と、絡み合い力学と時間進化したユニタリ作用素の正確な周期的性質を用いて QI の存在を接続する。 奇数$N$に対するQIの欠如をQIの署名の違反を観察することによって数値的に示す。 C_{\mbox{max}}$) の最大値は$N$ と減少し, 絡み合いの性質を示す。 結果を検証するための可能な実験について論じる。

In a recent work Sharma and Bhosale [Phys. Rev. B, 109, 014412 (2024)], $N$-spin Floquet model having infinite range Ising interaction was introduced. In this paper, we generalized the strength of interaction to $J$, such that $J=1$ case reduces to the aforementioned work. We show that for $J=1/2$ the model still exhibits integrability for an even number of qubits only. We analytically solve the cases of $6$, $8$, $10$, and $12$ qubits, finding its eigensystem, dynamics of entanglement for various initial states, and the unitary evolution operator. These quantities exhibit the signature of quantum integrability (QI). For the general case of even-$N > 12$ qubits, we conjuncture the presence of QI using the numerical evidences such as spectrum degeneracy, and the exact periodic nature of both the entanglement dynamics and the time-evolved unitary operator. We numerically show the absence of QI for odd $N$ by observing a violation of the signatures of QI. We analytically and numerically find that the maximum value of time-evolved concurrence ($C_{\mbox{max}}$) decreases with $N$, indicating the multipartite nature of entanglement. Possible experiments to verify our results are discussed.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# ブレグマン発散損失に対する統一ロバスト性則

A unified law of robustness for Bregman divergence losses ( http://arxiv.org/abs/2405.16639v2 )

ライセンス: Link先を確認
Santanu Das, Jatin Batra, Piyush Srivastava, (参考訳) 現代のディープラーニングの実践では、モデルはほとんどゼロの損失、すなわちトレーニングデータをほぼ補間するように訓練される。 しかし、モデル内のパラメータの数は、通常、補間に必要な理論上の最小値である$n$よりもはるかに多い:過パラメータ化と呼ばれる現象である。 オーバーパラメトリゼーションを理解するために費やされたかなりの研究に寄与する興味深い研究の中で、ブベックとセルケは、広い種類の共変量分布(特に測度集中の自然な概念を満たすもの)に対して、過パラメトリゼーションは堅牢な補間(すなわち補間関数がリプシッツであることが要求される場合)に必要であることを示した。 しかし, その頑健性は, 正方損失を伴う回帰の設定においてのみ証明された。 実際には、他の多くの種類の損失が使用されるが、例えば、分類のためのクロスエントロピー損失がある。 本研究では,ブベックとセルケの結果をブレグマン分散損失に一般化し,二乗損失とクロスエントロピー損失の共通一般化を形成する。 我々の一般化は、ブベックとセルクの証明の中心にあるバイアス分散型分解の同定に依存する。

In contemporary deep learning practice, models are often trained to near zero loss i.e. to nearly interpolate the training data. However, the number of parameters in the model is usually far more than the number of data points $n$, the theoretical minimum needed for interpolation: a phenomenon referred to as overparameterization. In an interesting piece of work that contributes to the considerable research that has been devoted to understand overparameterization, Bubeck and Sellke showed that for a broad class of covariate distributions (specifically those satisfying a natural notion of concentration of measure), overparameterization is necessary for robust interpolation i.e. if the interpolating function is required to be Lipschitz. However, their robustness results were proved only in the setting of regression with square loss. In practice, however many other kinds of losses are used, e.g. cross entropy loss for classification. In this work, we generalize Bubeck and Selke's result to Bregman divergence losses, which form a common generalization of square loss and cross-entropy loss. Our generalization relies on identifying a bias-variance type decomposition that lies at the heart of the proof and Bubeck and Sellke.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# SiNGR : サイン付き正規化ジオデシックトランスフォーメーションレグレッションによる脳腫瘍分離

SiNGR: Brain Tumor Segmentation via Signed Normalized Geodesic Transform Regression ( http://arxiv.org/abs/2405.16813v2 )

ライセンス: Link先を確認
Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, (参考訳) 脳腫瘍のセグメンテーションにおける主要な課題の1つは、腫瘍の境界に近いボクセルの不確実性から生じる。 しかし、地上の真理分割マスクを生成する従来のプロセスでは、そのような不確かさを適切に扱えない。 0 と 1 の「硬いラベル」は、脳画像のセグメンテーションに関する以前の研究の大多数に概念的に影響を与えた。 その結果、腫瘍の分節は、しばしばボクセル分類によって解決される。 この研究では、この問題をボクセルレベルの回帰とみなし、基底真理は任意のピクセルから腫瘍の境界への確実なマッピングを表す。 我々は,脳腫瘍近傍の不確実性を捉えるために,サイン付き測地線変換に基づく新しい基底真理ラベル変換を提案する。 このアイデアをFocalライクな回帰L1-lossと組み合わせ、その難易度に応じてボクセルを適切に重み付けすることで、高次元出力空間での効果的な回帰学習を可能にする。 提案手法の構成要素を検証し, 各種の最先端セグメンテーションモデルと比較し, アーキテクチャに依存しないことを示す。 提案手法のコードは公開されている(\url{https://github.com/Oulu-IMEDS/SiNGR/})。

One of the primary challenges in brain tumor segmentation arises from the uncertainty of voxels close to tumor boundaries. However, the conventional process of generating ground truth segmentation masks fails to treat such uncertainties properly. Those "hard labels" with 0s and 1s conceptually influenced the majority of prior studies on brain image segmentation. As a result, tumor segmentation is often solved through voxel classification. In this work, we instead view this problem as a voxel-level regression, where the ground truth represents a certainty mapping from any pixel to the border of the tumor. We propose a novel ground truth label transformation, which is based on a signed geodesic transform, to capture the uncertainty in brain tumors' vicinity. We combine this idea with a Focal-like regression L1-loss that enables effective regression learning in high-dimensional output space by appropriately weighting voxels according to their difficulty. We thoroughly conduct an experimental evaluation to validate the components of our proposed method, compare it to a diverse array of state-of-the-art segmentation models, and show that it is architecture-agnostic. The code of our method is made publicly available (\url{https://github.com/Oulu-IMEDS/SiNGR/}).
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# 不確かさを意識した網膜画像分割のための画像レベルの回帰

Image-level Regression for Uncertainty-aware Retinal Image Segmentation ( http://arxiv.org/abs/2405.16815v2 )

ライセンス: Link先を確認
Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, (参考訳) 正確な網膜血管セグメンテーション(RV)は、網膜疾患やその他の疾患の早期発見に必要な網膜血管の定量的評価において重要なステップである。 画素単位の分類手法を用いて, 分割容器の課題に対処するために, 多数の研究がなされている。 基底の真理ラベルを作成する一般的な習慣は、ピクセルを前景と背景に分類することである。 しかし、このアプローチは偏りがあり、egの細い血管に注釈をつけるという点では、人間のアノテーションの不確かさを無視する。 本研究では,RVセグメンテーションタスクを画像レベルの回帰としてキャストする,シンプルで効果的な手法を提案する。 この目的のために,我々はまず,アノテーション境界と血管厚に対する画素の近接性を用いて,地上の真理に画素の不確かさを付加する,新しいセグメンテーションアノテーション不確実性認識変換(SAUNA)を導入する。 ソフトラベルでモデルをトレーニングするために、提案したジャカード距離損失を任意のハイパーキューブに一般化し、ソフトジャカード指数(Intersection-over-Union)の最適化を行う。 さらに,Focal-L1損失の安定バージョンを画素ワイドレグレッションに適用した。 詳細な実験を行い、5つの網膜画像データセットにまたがる多様なベースラインと比較する。 実験結果から,SAUNA変換の統合とセグメント化損失が,異なるセグメント化モデルにおいて顕著な性能向上をもたらしたことが示唆された。 特に,本手法により,UNetのようなアーキテクチャが計算集約ベースラインを大幅に上回る。 我々の実装は \url{https://github.com/Oulu-IMEDS/SAUNA} で利用可能です。

Accurate retinal vessel (RV) segmentation is a crucial step in the quantitative assessment of retinal vasculature, which is needed for the early detection of retinal diseases and other conditions. Numerous studies have been conducted to tackle the problem of segmenting vessels automatically using a pixel-wise classification approach. The common practice of creating ground truth labels is to categorize pixels as foreground and background. This approach is, however, biased, and it ignores the uncertainty of a human annotator when it comes to annotating e.g. thin vessels. In this work, we propose a simple and effective method that casts the RV segmentation task as an image-level regression. For this purpose, we first introduce a novel Segmentation Annotation Uncertainty-Aware (SAUNA) transform, which adds pixel uncertainty to the ground truth using the pixel's closeness to the annotation boundary and vessel thickness. To train our model with soft labels, we generalize the earlier proposed Jaccard metric loss to arbitrary hypercubes for soft Jaccard index (Intersection-over-Union) optimization. Additionally, we employ a stable version of the Focal-L1 loss for pixel-wise regression. We conduct thorough experiments and compare our method to a diverse set of baselines across 5 retinal image datasets. Our empirical results indicate that the integration of the SAUNA transform and these segmentation losses led to significant performance boosts for different segmentation models. Particularly, our methodology enables UNet-like architectures to substantially outperform computational-intensive baselines. Our implementation is available at \url{https://github.com/Oulu-IMEDS/SAUNA}.
公開日:2024-07-25
翻訳日:2024-07-26 18:57:36
# 雑音系における量子化量子論のための変分量子状態準備

Variational quantum state preparation for quantum-enhanced metrology in noisy systems ( http://arxiv.org/abs/2406.01859v2 )

ライセンス: Link先を確認
Juan C. Zuñiga Castro, Jeffrey Larson, Sri Hari Krishna Narayanan, Victor E. Colussi, Michael A. Perlin, Robert J. Lewis-Swan, (参考訳) 雑音環境における量子気象学応用のための最適化された量子状態準備について検討する。 QFI-Optパッケージを用いて,大域回転列からなる低深さ変動量子回路(VQC)を,重畳雑音を受ける量子ビットの連鎖に適用したエンタングリング演算をシミュレートする。 VQCを制御するパラメータは、量子フィッシャー情報を最大化するために数値的に最適化される。 VQCで実装されたエンタングリング操作の詳細にかかわらず、最適量子状態は、異なるデファスレートに関連する定性的な状態、すなわちキャット様、スクイード様、および積状態の3つに広く分類することができる。 本研究は,ノイズやデコヒーレンスの存在下での最先端性能の実現を目的とした,時間・周波数標準や磁気センサなどの絡み合いを利用した次世代量子センサの最適状態調整戦略の設計に関係している。

We investigate optimized quantum state preparation for quantum metrology applications in noisy environments. Using the QFI-Opt package, we simulate a low-depth variational quantum circuit (VQC) composed of a sequence of global rotations and entangling operations applied to a chain of qubits that are subject to dephasing noise. The parameters controlling the VQC are numerically optimized to maximize the quantum Fisher information, which characterizes the ultimate metrological sensitivity of a quantum state with respect to a global rotation. We find that regardless of the details of the entangling operation implemented in the VQC, the optimal quantum states can be broadly classified into a trio of qualitative regimes--cat-like, squeezed-like, and product states--associated with different dephasing rates. Our findings are relevant for designing optimal state-preparation strategies for next-generation quantum sensors exploiting entanglement, such as time and frequency standards and magnetometers, aimed at achieving state-of-the-art performance in the presence of noise and decoherence.
公開日:2024-07-24
翻訳日:2024-07-26 18:57:36
# セルラーニューラルネットワークのための説明生成

Generating Explanations for Cellular Neural Networks ( http://arxiv.org/abs/2406.03253v3 )

ライセンス: Link先を確認
Akshit Sinha, Sreeram Vennam, Charu Sharma, Ponnurangam Kumaraguru, (参考訳) グラフ学習の最近の進歩は、グラフニューラルネットワークによって生成された予測の説明に寄与した。 しかし、既存の方法論は、実世界のデータセットに適用すると、しばしば不足する。 我々は,高次関係のモデル化に長けているセルコンプレックスを用いて高次構造をキャプチャするフレームワークHOGEを紹介する。 実世界では、高次構造は分子やソーシャルネットワークのようにユビキタスであるため、我々の研究はグラフ説明の実用性を大幅に向上させる。 HOGEは従来の方法よりも明確で正確な説明をすることができる。 私たちのメソッドは既存のすべてのグラフ説明器と統合することができ、現在のフレームワークへのシームレスな統合を保証できます。 我々は、GraphXAIベンチマークデータセットを評価し、HOGEは最小の計算オーバーヘッドで改善または同等のパフォーマンスを達成する。 アブレーション研究では、観察された性能向上は、細胞複合体の導入による高次構造に起因することが示されている。

Recent advancements in graph learning contributed to explaining predictions generated by Graph Neural Networks. However, existing methodologies often fall short when applied to real-world datasets. We introduce HOGE, a framework to capture higher-order structures using cell complexes, which excel at modeling higher-order relationships. In the real world, higher-order structures are ubiquitous like in molecules or social networks, thus our work significantly enhances the practical applicability of graph explanations. HOGE produces clearer and more accurate explanations compared to prior methods. Our method can be integrated with all existing graph explainers, ensuring seamless integration into current frameworks. We evaluate on GraphXAI benchmark datasets, HOGE achieves improved or comparable performance with minimal computational overhead. Ablation studies show that the performance gain observed can be attributed to the higher-order structures that come from introducing cell complexes.
公開日:2024-07-24
翻訳日:2024-07-26 18:57:36
# 大規模言語モデルを用いた対話型テキスト・画像検索:プラグ・アンド・プレイアプローチ

Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach ( http://arxiv.org/abs/2406.03411v2 )

ライセンス: Link先を確認
Saehyung Lee, Sangwon Yu, Junsung Park, Jihun Yi, Sungroh Yoon, (参考訳) 本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に主に対処する。 提案手法であるPlugIRは,LLMの一般的な命令追従能力を2つの方法で積極的に活用する。 まず,対話形式の文脈を再構成することにより,既存の視覚的対話データに対して検索モデルを微調整する必要をなくし,任意のブラックボックスモデルの使用を可能にする。 第2に、現在の文脈における検索候補画像の情報に基づいて、目標画像の属性に関する非冗長な質問を生成する。 このアプローチは、生成された質問におけるノイズと冗長性の問題を緩和する。 提案手法の他に,インタラクティブ検索システムの総合的な評価を行うため,新たな評価基準であるBest log Rank Integral (BRI)を提案する。 PlugIRは、さまざまなベンチマークでゼロショットベースラインと微調整ベースラインの両方と比較して、優れたパフォーマンスを示している。 また、PlugIRを含む2つの方法論は、様々な状況において、柔軟に、または別々に適用することができる。 私たちのコードはhttps://github.com/Saehyung-Lee/PlugIR.comで公開されています。

In this paper, we primarily address the issue of dialogue-form context query within the interactive text-to-image retrieval task. Our methodology, PlugIR, actively utilizes the general instruction-following capability of LLMs in two ways. First, by reformulating the dialogue-form context, we eliminate the necessity of fine-tuning a retrieval model on existing visual dialogue data, thereby enabling the use of any arbitrary black-box model. Second, we construct the LLM questioner to generate non-redundant questions about the attributes of the target image, based on the information of retrieval candidate images in the current context. This approach mitigates the issues of noisiness and redundancy in the generated questions. Beyond our methodology, we propose a novel evaluation metric, Best log Rank Integral (BRI), for a comprehensive assessment of the interactive retrieval system. PlugIR demonstrates superior performance compared to both zero-shot and fine-tuned baselines in various benchmarks. Additionally, the two methodologies comprising PlugIR can be flexibly applied together or separately in various situations. Our codes are available at https://github.com/Saehyung-Lee/PlugIR.
公開日:2024-07-24
翻訳日:2024-07-26 18:57:36
# Npix2Cpix: 歴史的文書画像からの透かし検索のための検索分類統合を備えたGANベースの画像変換ネットワーク

Npix2Cpix: A GAN-based Image-to-Image Translation Network with Retrieval-Classification Integration for Watermark Retrieval from Historical Document Images ( http://arxiv.org/abs/2406.03556v2 )

ライセンス: Link先を確認
Utsab Saha, Sawradip Saha, Shaikh Anowarul Fattah, Mohammad Saquib, (参考訳) 古代の透かしの識別と復元は、長い間、コーディコロジーと歴史の主要なトピックであった。 透かしに基づく歴史文書の分類は、その多様性、ノイズのあるサンプル、複数の表現モード、クラスとクラス内変異の微妙な区別により困難である。 本稿では,Npix2Cpixと命名されたU-netベースの条件付き逆数生成ネットワーク(GAN)を改良し,劣化した(ノイズの多い)ピクセルからクリーンなピクセルへの画像変換を行うことにより,ノイズの多い歴史的透かし画像からクリーンで手書きの透かしのない透かし画像に変換する。 画像と画像の変換と敵対学習を用いて、透かしの復元と分類のためのクラッタフリーな画像を生成する。 提案したGANのジェネレータと判別器は、画像間の距離に基づいて2つの損失関数を用いて訓練し、入力ノイズ画像から出力クリーン画像へのマッピングを学習する。 提案したGANを用いて、ノイズの多い透かし画像の事前処理を行った後、シームズをベースとしたワンショット学習が透かし分類に使用される。 大規模な歴史的透かしデータセットの実験結果は、ノイズの多い透かし画像のクリーニングが、高いワンショット分類精度を達成するのに役立つことを証明している。 得られた透かし画像の質的,定量的評価は,提案手法の有効性を明らかにするものである。

The identification and restoration of ancient watermarks have long been a major topic in codicology and history. Classifying historical documents based on watermarks is challenging due to their diversity, noisy samples, multiple representation modes, and minor distinctions between classes and intra-class variations. This paper proposes a modified U-net-based conditional generative adversarial network (GAN) named Npix2Cpix to translate noisy raw historical watermarked images into clean, handwriting-free watermarked images by performing image translation from degraded (noisy) pixels to clean pixels. Using image-to-image translation and adversarial learning, the network creates clutter-free images for watermark restoration and categorization. The generator and discriminator of the proposed GAN are trained using two separate loss functions, each based on the distance between images, to learn the mapping from the input noisy image to the output clean image. After using the proposed GAN to pre-process noisy watermarked images, Siamese-based one-shot learning is employed for watermark classification. Experimental results on a large-scale historical watermark dataset demonstrate that cleaning the noisy watermarked images can help to achieve high one-shot classification accuracy. The qualitative and quantitative evaluation of the retrieved watermarked image highlights the effectiveness of the proposed approach.
公開日:2024-07-24
翻訳日:2024-07-26 18:47:24
# スピン1型ウンルー・デ・ウィット検出器の研究

A study of the spin 1 Unruh-De Witt detectors ( http://arxiv.org/abs/2406.04362v2 )

ライセンス: Link先を確認
F. M. Guedes, M. S. Guimaraes, I. Roditi, S. P. Sorella, (参考訳) 相対論的スカラー量子場と相互作用するスピン1のウンルー・デ・ウィット検出器について述べる。 フィールドモードを追尾した後、Bell-CHSH不等式の不等式を調査するために、2部分石英系の密度行列を用いた。 スピン1/2$の場合とは異なり、スピン1/2$の場合、量子場の効果によって違反の大きさが小さくなる。 この効果は、ツイレルソンの境界が四重項の場合、飽和していないという事実に起因している。

A study of the spin 1 Unruh-De Witt detectors interacting with a relativistic scalar quantum field is presented. After tracing out the field modes, the resulting density matrix for a bipartite qutrit system is employed to investigate the violation of the Bell-CHSH inequality. Unlike the case of spin $1/2$, for which the effects of the quantum field result in a decreasing of the size of violation, in the case of spin $1$ both decreasing and increasing of the violation may occur. This effect is ascribed to the fact that Tsirelson's bound is not saturated in the case of qutrits.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# ShiftAddLLM: トレーニング後の乗算レスパラメータ化による事前学習LDMの高速化

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization ( http://arxiv.org/abs/2406.05981v3 )

ライセンス: Link先を確認
Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Celine Lin, (参考訳) 大規模言語モデル(LLM)は、言語タスクにおいて顕著なパフォーマンスを示しているが、リソース制約のあるデバイスにデプロイする際の課題は、その広範なパラメータと密度の高い乗算に依存するため、高いメモリ要求と遅延ボトルネックをもたらす。 Shift-and-add再パラメータ化は、LLMの注目層と多層パーセプトロン(MLP)層の両方において、ハードウェアフレンドリなプリミティブにコストのかかる乗算を置き換えることで、有望なソリューションを提供する。 しかし、現在の再パラメータ化技術では、LLMのリソース集約的な精度を回復するために、スクラッチやフルパラメータの微調整からのトレーニングが必要である。 そこで本研究では,事前学習後の再パラメータ化を高速化し,ShiftAddLLMと呼ばれる効率的な乗算自由モデルを作成することを提案する。 具体的には,各重み行列を群ワイドスケーリング因子と組み合わせた二乗行列に定量化する。 関連する乗算は(1)アクティベーションとスケーリング係数のシフト、(2)クエリに再パラメータ化され、バイナリ行列に従って加算される。 精度損失を低減するため,重みと出力のアクティベーション再パラメータ化誤差を最小化する多目的最適化手法を提案する。 さらに、再パラメータ化のための層間の感度の変化に基づいて、メモリ使用量とレイテンシをさらに削減する自動ビット割り当て戦略を開発する。 5つのLLMファミリーと8つのタスクによる実験は、ShiftAddLLMの有効性を一貫して検証し、それぞれ3ビットと2ビットの最も競争力のある量子化LDMと比較して5.6ポイントと22.7ポイントの平均パープレキシティ改善を実現し、元のLCMよりも80%以上のメモリとエネルギー削減を実現した。 コードとモデルはhttps://github.com/GATECH-EIC/ShiftAddLLM.comで公開されている。

Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# リニアアテンションが自己回帰デコーディングに遭遇する:より効果的で効率的な大規模言語モデルを目指して

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models ( http://arxiv.org/abs/2406.07368v2 )

ライセンス: Link先を確認
Haoran You, Yichao Fu, Zheng Wang, Amir Yazdanbakhsh, Yingyan Celine Lin, (参考訳) 自己回帰型大規模言語モデル(LLM)は、言語タスクにおいて顕著なパフォーマンスを達成しているが、(1)トークンの数が増えるにつれて注目モジュールの2次複雑さと、(2)生成中の自己回帰型LLMの逐次処理特性による制限効率の2つの大きなボトルネックに直面している。 線形注意と投機的復号化は潜在的な解決策を提供するが、その適用性と相乗的可能性を保ち、自己回帰性LLMを増強する。 自動回帰LDMに対する既存の線形注意法の有効性を総合的に検討し,投機的復号化と統合した。 我々は、投機的復号化との整合性を保証し、LLMのより効率的な訓練と提供を可能にする線形注意のための拡張手法を提案する。 7つの既存線形アテンションモデルと5つのエンコーダ/デコーダベースLCMによる拡張線形化LDMの有効性を一貫して検証した。 特に,LLaMAモデルにおけるパープレキシティの最大6.67低減と,従来の線形アテンション法と比較して,生成時の2$\times$スピードアップを実現している。 コードとモデルはhttps://github.com/GATECH-EIC/Linearized-LLMで公開されている。

Autoregressive Large Language Models (LLMs) have achieved impressive performance in language tasks but face two significant bottlenecks: (1) quadratic complexity in the attention module as the number of tokens increases, and (2) limited efficiency due to the sequential processing nature of autoregressive LLMs during generation. While linear attention and speculative decoding offer potential solutions, their applicability and synergistic potential for enhancing autoregressive LLMs remain uncertain. We conduct the first comprehensive study on the efficacy of existing linear attention methods for autoregressive LLMs, integrating them with speculative decoding. We introduce an augmentation technique for linear attention that ensures compatibility with speculative decoding, enabling more efficient training and serving of LLMs. Extensive experiments and ablation studies involving seven existing linear attention models and five encoder/decoder-based LLMs consistently validate the effectiveness of our augmented linearized LLMs. Notably, our approach achieves up to a 6.67 reduction in perplexity on the LLaMA model and up to a 2$\times$ speedup during generation compared to prior linear attention methods. Codes and models are available at https://github.com/GATECH-EIC/Linearized-LLM.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# 分子設計のためのベイズ最適化における共通問題の診断と修正

Diagnosing and fixing common problems in Bayesian optimization for molecule design ( http://arxiv.org/abs/2406.07709v2 )

ライセンス: Link先を確認
Austin Tripp, José Miguel Hernández-Lobato, (参考訳) ベイズ最適化(英: Bayesian Optimization、BO)は、分子設計の課題に対する原理的なアプローチである。 本稿では,不正確な先行幅,過度な平滑化,不適切な獲得関数の最大化という,経験的性能の低下を引き起こすBOの落とし穴を3つ説明する。 これらの課題に対処することで,分子設計のためのPMOベンチマーク(Gao et al 2022)において,基本的なBO設定でも高い性能を達成できることが示される(Gao et al 2022)。 これらの結果から,BOは分子群集における機械学習のさらなる注目の恩恵を受ける可能性が示唆された。

Bayesian optimization (BO) is a principled approach to molecular design tasks. In this paper we explain three pitfalls of BO which can cause poor empirical performance: an incorrect prior width, over-smoothing, and inadequate acquisition function maximization. We show that with these issues addressed, even a basic BO setup is able to achieve the highest overall performance on the PMO benchmark for molecule design (Gao et al 2022). These results suggest that BO may benefit from more attention in the machine learning for molecules community.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# 表現性と一般化:分子GNNのためのフラグメントバイアス

Expressivity and Generalization: Fragment-Biases for Molecular GNNs ( http://arxiv.org/abs/2406.08210v2 )

ライセンス: Link先を確認
Tom Wollschläger, Niklas Kemper, Leon Hetzel, Johanna Sommer, Stephan Günnemann, (参考訳) 近年の高次グラフニューラルネットワーク(GNN)の進歩は、理論的表現性や分子特性予測性能を改善しているが、断片情報を帰納バイアスとして明示的に使用するモデルの経験的性能に欠けることが多い。 しかし、これらのアプローチに対して、理論的表現性の研究は存在しない。 本研究では,これらのフラグメントバイアスGNNの理論的解析を可能にする,有名なWeisfeiler & Leman(WL)テストの拡張であるFragment-WLテストを提案する。 Fragment-WLテストから得られた知見に基づいて、表現性を著しく向上させる無限語彙の断片化と新しいGNNアーキテクチャを開発した。 本モデルの有効性は,全GNNをPeptides上で上回り,ZINC上の全GNNよりも12%,他のフラグメントバイアスモデルよりも34%低い誤差を有する合成および実世界のデータに対して示す。 さらに,本モデルでは,最新のトランスフォーマーアーキテクチャよりも優れた一般化能力を示し,分子モデリングタスクの堅牢な解として位置づけている。

Although recent advances in higher-order Graph Neural Networks (GNNs) improve the theoretical expressiveness and molecular property predictive performance, they often fall short of the empirical performance of models that explicitly use fragment information as inductive bias. However, for these approaches, there exists no theoretic expressivity study. In this work, we propose the Fragment-WL test, an extension to the well-known Weisfeiler & Leman (WL) test, which enables the theoretic analysis of these fragment-biased GNNs. Building on the insights gained from the Fragment-WL test, we develop a new GNN architecture and a fragmentation with infinite vocabulary that significantly boosts expressiveness. We show the effectiveness of our model on synthetic and real-world data where we outperform all GNNs on Peptides and have 12% lower error than all GNNs on ZINC and 34% lower error than other fragment-biased models. Furthermore, we show that our model exhibits superior generalization capabilities compared to the latest transformer-based architectures, positioning it as a robust solution for a range of molecular modeling tasks.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# Nyström Kernel Steindisrepancy

Nyström Kernel Stein Discrepancy ( http://arxiv.org/abs/2406.08401v2 )

ライセンス: Link先を確認
Florian Kalinke, Zoltan Szabo, Bharath K. Sriperumbudur, (参考訳) カーネル法はデータ科学と統計学において最も成功したアプローチの多くを基盤としており、情報を失うことなく再現されたカーネルヒルベルト空間の要素として確率測度を表現することができる。 近年、Steinの手法とカーネル技術を組み合わせたカーネルStein discrepancy (KSD) が注目されている。 スタイン作用素を通して、KSDは、目標分布を乗法定数まで知るのに十分であるような、強力な適合性テストの構築を可能にする。 しかし、典型的なU-およびV-StatisticベースのKSD推定器は2次実行時の複雑さに悩まされており、大規模な設定ではアプリケーションの動作を妨げている。 本研究では、Nystr\"om-based KSDAcceleration -- ランタイム $\mathcal O\!\left(mn+m^3\right)$ for $n$ sample and $m\ll n$ Nystr\om points -- を提案する。

Kernel methods underpin many of the most successful approaches in data science and statistics, and they allow representing probability measures as elements of a reproducing kernel Hilbert space without loss of information. Recently, the kernel Stein discrepancy (KSD), which combines Stein's method with kernel techniques, gained considerable attention. Through the Stein operator, KSD allows the construction of powerful goodness-of-fit tests where it is sufficient to know the target distribution up to a multiplicative constant. However, the typical U- and V-statistic-based KSD estimators suffer from a quadratic runtime complexity, which hinders their application in large-scale settings. In this work, we propose a Nystr\"om-based KSD acceleration -- with runtime $\mathcal O\!\left(mn+m^3\right)$ for $n$ samples and $m\ll n$ Nystr\"om points -- , show its $\sqrt{n}$-consistency under the null with a classical sub-Gaussian assumption, and demonstrate its applicability for goodness-of-fit testing on a suite of benchmarks.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# LiDAR点に対するオートボキャブラリセグメンテーション

Auto-Vocabulary Segmentation for LiDAR Points ( http://arxiv.org/abs/2406.09126v2 )

ライセンス: Link先を確認
Weijie Wei, Osman Ülger, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald, (参考訳) 既存の自動運転の認識手法は、トレーニングデータに含まれていない未知の物体を認識するには不十分である。 Open-vocabularyメソッドは、任意のオブジェクトを検知する有望な機能を提供するが、ターゲットクラスを表すユーザが指定したクエリによって制限される。 自動オブジェクトクラス認識とオープンなセグメンテーションのためのフレームワークであるAutoVoc3Dを提案する。 nuScenesの評価では、AutoVoc3Dが正確なセマンティッククラスと正確なポイントワイドセグメンテーションを生成する能力を示している。 さらに,テキスト・ポイント・セマンティック・類似性(Text-Point Semantic similarity)を導入し,テキストとポイント・クラウドのセマンティック・類似性を評価する。

Existing perception methods for autonomous driving fall short of recognizing unknown entities not covered in the training data. Open-vocabulary methods offer promising capabilities in detecting any object but are limited by user-specified queries representing target classes. We propose AutoVoc3D, a framework for automatic object class recognition and open-ended segmentation. Evaluation on nuScenes showcases AutoVoc3D's ability to generate precise semantic classes and accurate point-wise segmentation. Moreover, we introduce Text-Point Semantic Similarity, a new metric to assess the semantic similarity between text and point cloud without eliminating novel classes.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# Action2Sound:エゴセントリックビデオからのアクション音のアンビエント・アウェア・ジェネレーション

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos ( http://arxiv.org/abs/2406.09272v3 )

ライセンス: Link先を確認
Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman, (参考訳) 人間のアクションのための現実的なオーディオを生成することは、映画や仮想現実ゲームのためのサウンドエフェクトを作成するなど、多くのアプリケーションにとって重要である。 既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定するが、多くの音は画面外で発生し、視覚とは全く一致しない。 環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。 本研究では,前庭動作音を周囲の背景音から遠ざけるための新しい音調和機構を考案した。 新たなサイレントビデオが提供されると、我々のモデルは検索拡張生成を用いて、視覚コンテンツを意味的にも時間的にも一致させるオーディオを生成する。 Ego4DとEPIC-KITCHENSの2つの動画データセット上で,我々のモデルをトレーニングし,評価する。 我々のモデルは,既存の手法より優れており,周囲の音を制御可能な生成が可能であり,コンピュータグラフィックスゲームクリップへの一般化の約束も示している。 本手法は,自然の背景音を生かしたビデオクリップを訓練しながら,観察された映像コンテンツに忠実に焦点を合わせた最初の手法である。

Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# 拡散型生成モデルの設計空間の評価

Evaluating the design space of diffusion-based generative models ( http://arxiv.org/abs/2406.12839v2 )

ライセンス: Link先を確認
Yuqing Wang, Ye He, Molei Tao, (参考訳) 拡散モデルの精度に関する既存の理論的な研究は、有意であるが、スコア関数が一定の精度に近似されたと仮定し、これを用いて生成の誤差を制御する。 この記事では、生成プロセス全体、すなわち、トレーニングとサンプリングの両方について、初めて定量的に理解する。 より正確には、勾配降下下でのdenoising score matchingの非漸近収束解析を行う。 また,分散爆発モデルに対する改良されたサンプリング誤差解析も提供する。 これら2つの結果を組み合わせて完全な誤差解析を行い、効率的な生成のためのトレーニングおよびサンプリングプロセスを設計する方法を解明する(しかし、理論上は)。 例えば、我々の理論は、[Karras et al 2022]で使われているものと定性的に一致する訓練において、ノイズ分布と損失重み付けを好むことを示唆している。 スコアが十分に訓練された場合には(Song et al 2020)の設計がより好まれるが、訓練が少ない場合には(Karras et al 2022)の設計がより好まれる。

Most existing theoretical investigations of the accuracy of diffusion models, albeit significant, assume the score function has been approximated to a certain accuracy, and then use this a priori bound to control the error of generation. This article instead provides a first quantitative understanding of the whole generation process, i.e., both training and sampling. More precisely, it conducts a non-asymptotic convergence analysis of denoising score matching under gradient descent. In addition, a refined sampling error analysis for variance exploding models is also provided. The combination of these two results yields a full error analysis, which elucidates (again, but this time theoretically) how to design the training and sampling processes for effective generation. For instance, our theory implies a preference toward noise distribution and loss weighting in training that qualitatively agree with the ones used in [Karras et al. 2022]. It also provides perspectives on the choices of time and variance schedules in sampling: when the score is well trained, the design in [Song et al. 2020] is more preferable, but when it is less trained, the design in [Karras et al. 2022] becomes more preferable.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# 潜時記憶の発見:フロンティアAIモデルにおけるデータ漏洩と記憶パターンの評価

Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models ( http://arxiv.org/abs/2406.14549v2 )

ライセンス: Link先を確認
Sunny Duan, Mikail Khona, Abhiram Iyer, Rylan Schaeffer, Ila R Fiete, (参考訳) 個人データとプライベートデータを含むWebスケールデータセットでトレーニングされたモデルによって、データのプライバシとセキュリティに関する深刻な懸念がもたらされる。 言語モデルは、潜在的にセンシティブまたはプロプライエタリな情報を含む広範なコーパスでトレーニングされ、モデル応答がそのような情報の一部を明らかにするデータ漏洩のリスクは、依然として十分理解されていない。 以前の研究は、どの要因が記憶を誘導するかを調べ、そのシーケンスの複雑さと繰り返しの回数が記憶を駆動するかを特定した。 ここでは、トレーニングによる記憶の進化に焦点を当てる。 まず、シーケンスを記憶する確率は、データに存在している回数と対数的にスケールする、という知見を再現することから始める。 次に、最初の遭遇後に暗記されていないように見える配列が、その後の遭遇なしに訓練中に「発見」できることを示し、これは「ラテント記憶」と呼ばれる現象である。 潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠されるが、容易に回復可能であるため、データのプライバシの課題となる。 そこで本研究では, クロスエントロピー損失を利用した診断試験により, 遅延記憶配列を高精度に発見する。

Frontier AI systems are making transformative impacts across society, but such benefits are not without costs: models trained on web-scale datasets containing personal and private data raise profound concerns about data privacy and security. Language models are trained on extensive corpora including potentially sensitive or proprietary information, and the risk of data leakage - where the model response reveals pieces of such information - remains inadequately understood. Prior work has investigated what factors drive memorization and have identified that sequence complexity and the number of repetitions drive memorization. Here, we focus on the evolution of memorization over training. We begin by reproducing findings that the probability of memorizing a sequence scales logarithmically with the number of times it is present in the data. We next show that sequences which are apparently not memorized after the first encounter can be "uncovered" throughout the course of training even without subsequent encounters, a phenomenon we term "latent memorization". The presence of latent memorization presents a challenge for data privacy as memorized sequences may be hidden at the final checkpoint of the model but remain easily recoverable. To this end, we develop a diagnostic test relying on the cross entropy loss to uncover latent memorized sequences with high accuracy.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# Imperative Learning:ロボット自律性のための自己教師型ニューラルネットワーク学習フレームワーク

Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy ( http://arxiv.org/abs/2406.16087v3 )

ライセンス: Link先を確認
Chen Wang, Kaiyi Ji, Junyi Geng, Zhongqiang Ren, Taimeng Fu, Fan Yang, Yifan Guo, Haonan He, Xiangyu Chen, Zitong Zhan, Qiwei Du, Shaoshu Su, Bowen Li, Yuheng Qiu, Yi Du, Qihang Li, Yifan Yang, Xiao Lin, Zhipeng Zhao, (参考訳) 強化や模倣学習のようなデータ駆動の手法は、ロボットの自律性において顕著な成功を収めた。 しかし、データ中心の性質は、常に変化する環境への一般化を妨げている。 さらに、ロボットタスクのための大規模なデータセットの収集は非現実的で高価であることが多い。 これらの課題を克服するために,ロボット自律のための自己教師型ニューラルシンボリック(NeSy)計算フレームワーク,インペラティブラーニング(IL)を導入し,シンボル推論の一般化能力を活用する。 ILのフレームワークは、ニューラルモジュール、推論エンジン、メモリシステムという3つの主要コンポーネントで構成されている。 ILを特別な二段階最適化(BLO)として定式化し、3つのモジュール間の相互学習を可能にする。 これは、データ駆動アプローチに関連するラベル集約的な障害を克服し、論理的推論、物理原理、幾何学的解析などに関する象徴的推論を活用する。 本稿では,ILの最適化手法について議論し,経路計画,ルール誘導,最適制御,視覚計測,マルチロボットルーティングを含む5つのロボット自律作業において,その有効性を検証する。 様々な実験を通して、ILはロボットの自律能力を大幅に向上させ、様々な領域にわたるさらなる研究を促進することを期待する。

Data-driven methods such as reinforcement and imitation learning have achieved remarkable success in robot autonomy. However, their data-centric nature still hinders them from generalizing well to ever-changing environments. Moreover, collecting large datasets for robotic tasks is often impractical and expensive. To overcome these challenges, we introduce a new self-supervised neural-symbolic (NeSy) computational framework, imperative learning (IL), for robot autonomy, leveraging the generalization abilities of symbolic reasoning. The framework of IL consists of three primary components: a neural module, a reasoning engine, and a memory system. We formulate IL as a special bilevel optimization (BLO), which enables reciprocal learning over the three modules. This overcomes the label-intensive obstacles associated with data-driven approaches and takes advantage of symbolic reasoning concerning logical reasoning, physical principles, geometric analysis, etc. We discuss several optimization techniques for IL and verify their effectiveness in five distinct robot autonomy tasks including path planning, rule induction, optimal control, visual odometry, and multi-robot routing. Through various experiments, we show that IL can significantly enhance robot autonomy capabilities and we anticipate that it will catalyze further research across diverse domains.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# 非構造化データに対する多段階推論

Multi-step Inference over Unstructured Data ( http://arxiv.org/abs/2406.17987v4 )

ライセンス: Link先を確認
Aditya Kalyanpur, Kailash Karthik Saravanakumar, Victor Barres, CJ McFate, Lori Moon, Nati Seifu, Maksim Eremeev, Jose Barrera, Abraham Bautista-Castillo, Eric Brown, David Ferrucci, (参考訳) 大規模言語モデル(LLM)と生成AIの出現は、さまざまな領域にわたる自然言語アプリケーションに革命をもたらした。 しかし、医学、法学、金融などの分野における高い意思決定タスクは、純粋なLLMやRAG(Retrieval-Augmented-Generation)アプローチが提供できないような精度、包括性、論理的一貫性のレベルを必要とする。 Elemental Cognition (EC)では,これらの問題に対処するニューロシンボリックAIプラットフォームを開発した。 このプラットフォームは、知識抽出とアライメントのための微調整LDMと、論理推論、計画、対話的制約解決のための堅牢なシンボリック推論エンジンを統合している。 このプラットフォーム上に構築されたコラボレーティブリサーチアシスタントであるColaについて説明する。 本稿では,これらの領域に固有の多段階推論の課題について論じ,既存のLCM手法の限界を批判し,Coraのニューロシンボリックアプローチがこれらの問題にどのように効果的に対処するかを示す。 本稿では,システムアーキテクチャの概要,知識抽出と形式推論の鍵となるアルゴリズム,そしてCoraの優れた性能をよく知られたLCMやRAGのベースラインと比較した予備評価結果について述べる。

The advent of Large Language Models (LLMs) and Generative AI has revolutionized natural language applications across various domains. However, high-stakes decision-making tasks in fields such as medical, legal and finance require a level of precision, comprehensiveness, and logical consistency that pure LLM or Retrieval-Augmented-Generation (RAG) approaches often fail to deliver. At Elemental Cognition (EC), we have developed a neuro-symbolic AI platform to tackle these problems. The platform integrates fine-tuned LLMs for knowledge extraction and alignment with a robust symbolic reasoning engine for logical inference, planning and interactive constraint solving. We describe Cora, a Collaborative Research Assistant built on this platform, that is designed to perform complex research and discovery tasks in high-stakes domains. This paper discusses the multi-step inference challenges inherent in such domains, critiques the limitations of existing LLM-based methods, and demonstrates how Cora's neuro-symbolic approach effectively addresses these issues. We provide an overview of the system architecture, key algorithms for knowledge extraction and formal reasoning, and present preliminary evaluation results that highlight Cora's superior performance compared to well-known LLM and RAG baselines.
公開日:2024-07-24
翻訳日:2024-07-26 18:47:24
# DRAM読み取り障害に対する新興産業ソリューションのセキュリティ上のメリットとオーバヘッドの理解

Understanding the Security Benefits and Overheads of Emerging Industry Solutions to DRAM Read Disturbance ( http://arxiv.org/abs/2406.19094v2 )

ライセンス: Link先を確認
Oğuzhan Canpolat, A. Giray Yağlıkçı, Geraldo F. Oliveira, Ataberk Olgun, Oğuz Ergin, Onur Mutlu, (参考訳) JEDEC DDR5仕様の2024年4月のアップデートで記述された、最先端のDRAM-DRAMによる読み出し障害軽減手法であるPer Row Activation Counting (PRAC)の最初の厳密なセキュリティ、性能、エネルギー、コスト分析について述べる。 メモリコントローラに定期的にリフレッシュ管理(RFM)コマンドを発行するように助言する以前の最先端技術とは異なり、PRACは新しいバックオフ信号を導入した。 PRACのバックオフ信号はDRAMチップからメモリコントローラに伝播し、メモリコントローラを強制する。 1)申し込みを中止し、 2) RFM コマンドを発行する。 その結果、RAMコマンドは定期的にではなく必要に応じて発行され、RAMのオーバーヘッドが減少する。 PRACを4段階に分けて分析する。 まず、PRACのセキュリティの最悪のケースを表す逆アクセスパターンを定義する。 次に,PRACの構成とセキュリティへの影響について検討する。 解析の結果,メモリに10回アクセスする前にビットフリップが発生しない限り,PRACをセキュアな動作に設定できることがわかった。 第3に、PRACの性能への影響を評価し、Ramulator 2.0を用いた以前の作業と比較する。 我々の分析によると、PRACは現在のDRAMチップのパフォーマンスオーバーヘッドを13%以下に抑えるが、将来のDRAMチップではパフォーマンスオーバーヘッドが最大94%に達する。 第4に,PRACの性能オーバーヘッドを増大させ,メモリ性能攻撃を行うためのアベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティ・アベイラビリティー・アクセス・パターンを定義し,このようなアベイラビリティ・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー・アベイラビリティー(Availabilityアベイラビリティ・アベイラビリティ・アベイラビリティー)を定義した。 PRACの今後のシステムへの影響と今後の研究方向性について論じる。 将来の研究を支援するため、私たちはhttps://github.com/CMU-SAFARI/ramulator2で実装とスクリプトをオープンソース化しました。

We present the first rigorous security, performance, energy, and cost analyses of the state-of-the-art on-DRAM-die read disturbance mitigation method, Per Row Activation Counting (PRAC), described in JEDEC DDR5 specification's April 2024 update. Unlike prior state-of-the-art that advises the memory controller to periodically issue refresh management (RFM) commands, which provides the DRAM chip with time to perform refreshes, PRAC introduces a new back-off signal. PRAC's back-off signal propagates from the DRAM chip to the memory controller and forces the memory controller to 1) stop serving requests and 2) issue RFM commands. As a result, RFM commands are issued when needed as opposed to periodically, reducing RFM's overheads. We analyze PRAC in four steps. First, we define an adversarial access pattern that represents the worst-case for PRAC's security. Second, we investigate PRAC's configurations and security implications. Our analyses show that PRAC can be configured for secure operation as long as no bitflip occurs before accessing a memory location 10 times. Third, we evaluate the performance impact of PRAC and compare it against prior works using Ramulator 2.0. Our analysis shows that while PRAC incurs less than 13% performance overhead for today's DRAM chips, its performance overheads can reach up to 94% for future DRAM chips that are more vulnerable to read disturbance bitflips. Fourth, we define an availability adversarial access pattern that exacerbates PRAC's performance overhead to perform a memory performance attack, demonstrating that such an adversarial pattern can hog up to 94% of DRAM throughput and degrade system throughput by up to 95%. We discuss PRAC's implications on future systems and foreshadow future research directions. To aid future research, we open-source our implementations and scripts at https://github.com/CMU-SAFARI/ramulator2.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# 言語モデルの最適スケーリングにおける不一致の解消

Resolving Discrepancies in Compute-Optimal Scaling of Language Models ( http://arxiv.org/abs/2406.19146v2 )

ライセンス: Link先を確認
Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon, (参考訳) Kaplan et al と Hoffmann et al は計算予算の関数として最適なモデルサイズに関する効果的なスケーリング法則を開発したが、これらの法則は実質的に異なる予測をもたらす。 本稿では,2つのデータセット(OpenWebText2とRefinedWeb)上でKaplanスケーリング法則を再現し,その差の原因となる3つの要因(最終層計算コスト,ウォームアップ期間,スケール依存オプティマイザチューニング)を特定することによって,その相違を説明している。 これらの因子を補正し、ホフマン・エ・アル(すなわち「チンチラ」)のスケーリング法と良好な合意を得る。 ホフマンらによる仮説から、注意深い学習率の減衰は、スケーリング法則の妥当性に必須ではないことが分かる。 その結果,AdamW $\beta_2$パラメータのチューニングはバッチサイズが低い場合に必須であることが判明し,最適学習率とバッチサイズに対するスケーリング法則を導出する。

Kaplan et al. and Hoffmann et al. developed influential scaling laws for the optimal model size as a function of the compute budget, but these laws yield substantially different predictions. We explain the discrepancy by reproducing the Kaplan scaling law on two datasets (OpenWebText2 and RefinedWeb) and identifying three factors causing the difference: last layer computational cost, warmup duration, and scale-dependent optimizer tuning. With these factors corrected, we obtain excellent agreement with the Hoffmann et al. (i.e., "Chinchilla") scaling law. Counter to a hypothesis of Hoffmann et al., we find that careful learning rate decay is not essential for the validity of their scaling law. As a secondary result, we derive scaling laws for the optimal learning rate and batch size, finding that tuning the AdamW $\beta_2$ parameter is essential at lower batch sizes.
公開日:2024-07-25
翻訳日:2024-07-26 18:47:24
# YOLOv10」から「YOLO」へ:「YOLO」シリーズの詳細と総括

YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once (YOLO) Series ( http://arxiv.org/abs/2406.19407v4 )

ライセンス: Link先を確認
Ranjan Sapkota, Rizwan Qureshi, Marco Flores Calero, Chetan Badjugar, Upesh Nepal, Alwin Poulose, Peter Zeno, Uday Bhanu Prakash Vaddevolu, Sheheryar Khan, Maged Shoman, Hong Yan, Manoj Karkee, (参考訳) このレビューは、YOLOv1から最近公開されたYOLOv10までの、YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進歩を体系的に検証する。 逆時間解析を用いて, YOLOv10からYOLOv9, YOLOv8, その後のバージョンを経由し, リアルタイム物体検出における速度, 精度, 計算効率の向上に寄与する各バージョンについて検討した。 この研究は、自動車安全、医療、工業製造、監視、農業の5つの重要な分野におけるYOLOの変革的な影響を強調している。 後続のYOLOバージョンにおける段階的な技術的進歩を詳述することにより、このレビューはYOLOの進化を詳述し、各以前のバージョンにおける課題と限界について論じる。 この進化は、今後10年間、YOLOをマルチモーダル、コンテキスト認識、一般人工知能(AGI)システムに統合する道のりを示している。

This review systematically examines the progression of the You Only Look Once (YOLO) object detection algorithms from YOLOv1 to the recently unveiled YOLOv10. Employing a reverse chronological analysis, this study examines the advancements introduced by YOLO algorithms, beginning with YOLOv10 and progressing through YOLOv9, YOLOv8, and subsequent versions to explore each version's contributions to enhancing speed, accuracy, and computational efficiency in real-time object detection. The study highlights the transformative impact of YOLO across five critical application areas: automotive safety, healthcare, industrial manufacturing, surveillance, and agriculture. By detailing the incremental technological advancements in subsequent YOLO versions, this review chronicles the evolution of YOLO, and discusses the challenges and limitations in each earlier versions. The evolution signifies a path towards integrating YOLO with multimodal, context-aware, and General Artificial Intelligence (AGI) systems for the next YOLO decade, promising significant implications for future developments in AI-driven applications.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# 非対称円錐最適化による量子鍵分布速度

Quantum key distribution rates from non-symmetric conic optimization ( http://arxiv.org/abs/2407.00152v2 )

ライセンス: Link先を確認
Andrés González Lorente, Pablo V. Parellada, Miguel Castillo-Celeita, Mateus Araújo, (参考訳) 量子鍵分布(QKD)における鍵レートの計算は、より高度な測定ベースまたはより高次元の量子システムを使用するより強力なプロトコルをアンロックするためには、数値的に不可欠である。 これは、凸非線型函数、すなわち(量子)相対エントロピーの最小化に依存する、難しい最適化問題である。 標準円錐最適化技術は、非対称円錐であるため、相対エントロピーコーンを扱うことができず、標準アルゴリズムは対称錐しか扱えない。 しかし、近年、相対エントロピーを含む非対称錐体を最適化する実用的なアルゴリズムが発見されている。 ここでは、このアルゴリズムを鍵レートの計算問題に適用し、それらを下げるための効率的な手法を得る。 従来のテクニックと比較して、柔軟性、使いやすさ、そしてすべてのパフォーマンスの利点があります。

Computing key rates in quantum key distribution (QKD) numerically is essential to unlock more powerful protocols, that use more sophisticated measurement bases or quantum systems of higher dimension. It is a difficult optimization problem, that depends on minimizing a convex non-linear function: the (quantum) relative entropy. Standard conic optimization techniques have for a long time been unable to handle the relative entropy cone, as it is a non-symmetric cone, and the standard algorithms can only handle symmetric ones. Recently, however, a practical algorithm has been discovered for optimizing over non-symmetric cones, including the relative entropy. Here we adapt this algorithm to the problem of computation of key rates, obtaining an efficient technique for lower bounding them. In comparison to previous techniques it has the advantages of flexibility, ease of use, and above all performance.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# JailbreakZoo:大規模言語と視覚言語モデルのジェイルブレイクにおける調査、景観、ホライズン

JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models ( http://arxiv.org/abs/2407.01599v2 )

ライセンス: Link先を確認
Haibo Jin, Leyang Hu, Xinuo Li, Peiyan Zhang, Chonghan Chen, Jun Zhuang, Haohan Wang, (参考訳) 大規模言語モデル(LLMs)と視覚言語モデル(VLMs)の発展による人工知能(AI)の急速な進化は、様々な技術領域で大きな進歩をもたらした。 これらのモデルが自然言語処理や視覚的対話タスクの能力を高める一方で、それらの採用の増加は、セキュリティと倫理的整合性に関する重要な懸念を提起する。 本調査は, LLM と VLM の倫理的・運用的境界を未然に回避し, そして, 防衛機構の発達の進展を概観するものである。 今回の研究は、ジェイルブレイクを7つの異なるタイプに分類し、これらの脆弱性に対処する防衛戦略を精査する。 この総合的な調査を通じて,研究のギャップを特定し,LLMとVLMのセキュリティフレームワークを強化するための今後の研究の方向性を提案する。 我々の発見は、次世代の言語モデルのための堅牢でセキュアで信頼性の高い環境を育むために、ジェイルブレイク戦略と防御ソリューションの両方を統合する統一的な視点の必要性を浮き彫りにしている。 詳細は、私たちのWebサイト(リンク)で確認できます。

The rapid evolution of artificial intelligence (AI) through developments in Large Language Models (LLMs) and Vision-Language Models (VLMs) has brought significant advancements across various technological domains. While these models enhance capabilities in natural language processing and visual interactive tasks, their growing adoption raises critical concerns regarding security and ethical alignment. This survey provides an extensive review of the emerging field of jailbreaking--deliberately circumventing the ethical and operational boundaries of LLMs and VLMs--and the consequent development of defense mechanisms. Our study categorizes jailbreaks into seven distinct types and elaborates on defense strategies that address these vulnerabilities. Through this comprehensive examination, we identify research gaps and propose directions for future studies to enhance the security frameworks of LLMs and VLMs. Our findings underscore the necessity for a unified perspective that integrates both jailbreak strategies and defensive solutions to foster a robust, secure, and reliable environment for the next generation of language models. More details can be found on our website: \url{https://chonghan-chen.com/llm-jailbreak-zoo-survey/}.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# 深部画像を用いたトリグリセリドの化学シフトエンコーディングに基づく二重結合定量

Chemical Shift Encoding based Double Bonds Quantification in Triglycerides using Deep Image Prior ( http://arxiv.org/abs/2407.01926v3 )

ライセンス: Link先を確認
Chaoxing Huang, Ziqiang Yu, Zijian Gao, Qiuyi Shen, Queenie Chan, Vincent Wai-Sun Wong, Winnie Chiu-Wing Chu, Weitian Chen, (参考訳) 本研究では,Deep Image Prior (DIP) を用いた深層学習による化学シフト符号化多面勾配エコー画像からのトリグリセリド二重結合の定量化について検討した。 信号制約に基づいたコスト関数を用いて、ニューラルネットワークを1つのデータセットで反復的に更新する。 本法はファントム実験と生体内スキャンを用いて検証した。 結果は測定値と基準二重結合値の密接な一致を示し、ファントム実験によりピアソン相関係数は 0.96 (p = .0005) となった。 In vivoでは皮下脂肪が良好であった。 Deep Image Priorは, 化学シフト型多面体MRIから二重結合および脂肪酸含有量を定量化できる可能性が示唆された。

This study evaluated a deep learning-based method using Deep Image Prior (DIP) to quantify triglyceride double bonds from chemical-shift encoded multi-echo gradient echo images without network training. We employed a cost function based on signal constraints to iteratively update the neural network on a single dataset. The method was validated using phantom experiments and in vivo scans. Results showed close alignment between measured and reference double bond values, with phantom experiments yielding a Pearson correlation coefficient of 0.96 (p = .0005). In vivo results demonstrated good agreement in subcutaneous fat. We conclude that Deep Image Prior shows feasibility for quantifying double bonds and fatty acid content from chemical-shift encoded multi-echo MRI.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# 非対称メムプールDoSセキュリティ:形式的定義と予測可能なセキュア設計

Asymmetric Mempool DoS Security: Formal Definitions and Provable Secure Designs ( http://arxiv.org/abs/2407.03543v2 )

ライセンス: Link先を確認
Wanning Ding, Yibo Wang, Yuzhe Tang, (参考訳) メムプールはブロックチェーンシステムにおいて、実行前にトランザクションを保留するバッファゾーンとして重要な役割を果たす。 しかし、既存の研究は主に、既に特定された現実世界の攻撃に対する防御を緩和することに焦点を当てている。 本稿では,非対称なDoS攻撃に対して防御可能なセキュアなブロックチェーン・メムプール設計を提案する。 我々は,エビクションに基づく攻撃ベクトルの下で,メムプールの正式なセキュリティ定義を確立する。 提案アルゴリズムは, 排除DoS攻撃の実行コストに対して, 証明可能な低境界を提供することにより, 消去セキュリティを確保する。 実際のトランザクショントレースリプレイによる評価を通じて、‘textsc{saferAd-CP}’は、任意の排除攻撃に対する無視可能なレイテンシと極めて低いバウンダリを示し、ブロックチェーンメムプールの安全性と堅牢性を強調している。

The mempool plays a crucial role in blockchain systems as a buffer zone for pending transactions before they are executed and included in a block. However, existing works primarily focus on mitigating defenses against already identified real-world attacks. This paper introduces secure blockchain-mempool designs capable of defending against any form of asymmetric eviction DoS attacks. We establish formal security definitions for mempools under the eviction-based attack vector. Our proposed secure transaction admission algorithm, named \textsc{saferAd-CP}, ensures eviction-security by providing a provable lower bound on the cost of executing eviction DoS attacks. Through evaluation with real transaction trace replays, \textsc{saferAd-CP} demonstrates negligible latency and significantly high lower bounds against any eviction attack, highlighting its effectiveness and robustness in securing blockchain mempools.
公開日:2024-07-24
翻訳日:2024-07-26 18:37:36
# 教師付きローカルラーニングのためのモーメント補助ネットワーク

Momentum Auxiliary Network for Supervised Local Learning ( http://arxiv.org/abs/2407.05623v3 )

ライセンス: Link先を確認
Junhao Su, Changpeng Cai, Feiyu Zhu, Chenghao He, Xiaojie Xu, Dongzhi Guan, Chenyang Si, (参考訳) ディープニューラルネットワークは従来、トレーニングプロセスにエンドツーエンドのバックプロパゲーションを採用しており、生物学的信頼性が欠如し、ネットワークパラメータの更新中にロックジレンマを引き起こし、GPUメモリの使用が大幅に増加する。 ネットワークを独立した補助ネットワークによって更新された複数のローカルブロックに分割する。 しかし、これらの手法は、局所ブロック内でのみ勾配が伝播し、ブロック間の情報交換の欠如が生じるため、より低い精度でエンドツーエンドのトレーニングを置き換えることはできない。 この問題に対処し,ブロック間の情報伝達を確立するために,動的相互作用機構を確立するMomentum Auxiliary Network (MAN)を提案する。 MANは、隣接するローカルブロックからパラメータの指数移動平均(EMA)を利用して情報の流れを強化する。 EMAによって更新されたこの補助ネットワークは、ブロック間の情報ギャップをブリッジするのに役立つ。 それにもかかわらず、EMAパラメータの直接適用には、局所ブロック間の特徴の相違による一定の制限がある。 これを解決するために、学習可能なバイアスを導入し、パフォーマンスをさらに向上します。 我々は,4つの画像分類データセット (CIFAR-10, STL-10, SVHN, ImageNet) で本手法の有効性を検証した。 特に,本手法は,エンドツーエンドのトレーニングに比べ,イメージネットデータセット上でのGPUメモリ使用率を45%以上削減し,高性能化を実現している。 そこで、Momentum Auxiliary Networkは、教師付きローカル学習の新しい視点を提供する。 私たちのコードは、https://github.com/JunhaoSu0/MAN.comで利用可能です。

Deep neural networks conventionally employ end-to-end backpropagation for their training process, which lacks biological credibility and triggers a locking dilemma during network parameter updates, leading to significant GPU memory use. Supervised local learning, which segments the network into multiple local blocks updated by independent auxiliary networks. However, these methods cannot replace end-to-end training due to lower accuracy, as gradients only propagate within their local block, creating a lack of information exchange between blocks. To address this issue and establish information transfer across blocks, we propose a Momentum Auxiliary Network (MAN) that establishes a dynamic interaction mechanism. The MAN leverages an exponential moving average (EMA) of the parameters from adjacent local blocks to enhance information flow. This auxiliary network, updated through EMA, helps bridge the informational gap between blocks. Nevertheless, we observe that directly applying EMA parameters has certain limitations due to feature discrepancies among local blocks. To overcome this, we introduce learnable biases, further boosting performance. We have validated our method on four image classification datasets (CIFAR-10, STL-10, SVHN, ImageNet), attaining superior performance and substantial memory savings. Notably, our method can reduce GPU memory usage by more than 45\% on the ImageNet dataset compared to end-to-end training, while achieving higher performance. The Momentum Auxiliary Network thus offers a new perspective for supervised local learning. Our code is available at: https://github.com/JunhaoSu0/MAN.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# レイアウトに従わない大規模言語モデル

Large Language Models Understand Layout ( http://arxiv.org/abs/2407.05750v2 )

ライセンス: Link先を確認
Weiming Li, Manni Duan, Dong An, Yan Shao, (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 本稿では,テキスト理解機能以外に,空間マーカーで表されるテキストレイアウトをLLMで処理できることを示す。 元のデータから空間マーカーを除外した場合に、劇的な性能低下が観察される一方で、明示的な空間知覚と推論を必要とする質問に答えることができる。 我々は,GPT-3.5,Baichuan2,Llama2,ChatGLM3モデルを用いて,様々なタイプのレイアウトに敏感なデータセットを用いて実験を行い,さらなる分析を行った。 実験結果から, LLMのレイアウト理解能力は, 事前学習のためのコーディングデータによって主に導入され, 指導訓練段階でさらに強化されていることがわかった。 さらに、新しいテキストゲームによってアプローチされた低コストで自動生成されたデータを統合することで、レイアウト理解を向上させることができる。 最後に,視覚的質問応答(VQA)システムを構築する上で,レイアウト理解能力が有用であることを示す。

Large language models (LLMs) demonstrate extraordinary abilities in a wide range of natural language processing (NLP) tasks. In this paper, we show that, beyond text understanding capability, LLMs are capable of processing text layouts that are denoted by spatial markers. They are able to answer questions that require explicit spatial perceiving and reasoning, while a drastic performance drop is observed when the spatial markers from the original data are excluded. We perform a series of experiments with the GPT-3.5, Baichuan2, Llama2 and ChatGLM3 models on various types of layout-sensitive datasets for further analysis. The experimental results reveal that the layout understanding ability of LLMs is mainly introduced by the coding data for pretraining, which is further enhanced at the instruction-tuning stage. In addition, layout understanding can be enhanced by integrating low-cost, auto-generated data approached by a novel text game. Finally, we show that layout understanding ability is beneficial for building efficient visual question-answering (VQA) systems.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# システム2からシステム1へ

Distilling System 2 into System 1 ( http://arxiv.org/abs/2407.06023v3 )

ライセンス: Link先を確認
Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov, (参考訳) 大規模言語モデル(LLM)は、中間的な思考を生成するために推論中に余分な計算に費やし、より優れた最終応答を生成するのに役立つ。 Chain-of-Thought (Wei et al , 2022)以降、Rephrase and Respond (Deng et al , 2023a)、System 2 Attention (Weston and Sukhbaatar, 2023)、Branch-Solve-Merge (Saha et al , 2023)など多くのシステム2技術が提案されている。 本研究は,システム2において,中間的推論トークンシーケンスを使わずに,システム2技術からLLM世代への高品質出力を<compile'(希釈)する自己指導手法について検討する。 1. 従来の System 1 の性能に比べ, 性能が向上し, 推論コストも System 1 よりも低い結果が得られた。 2. このようなシステム2の蒸留は,今後継続的に学習するAIシステムにとって重要な特徴であり,システム2の能力は,まだうまくいかない推論タスクに焦点を合わせることができると仮定する。

Large language models (LLMs) can spend extra compute during inference to generate intermediate thoughts, which helps to produce better final responses. Since Chain-of-Thought (Wei et al., 2022), many such System 2 techniques have been proposed such as Rephrase and Respond (Deng et al., 2023a), System 2 Attention (Weston and Sukhbaatar, 2023) and Branch-Solve-Merge (Saha et al., 2023). In this work we investigate self-supervised methods to ``compile'' (distill) higher quality outputs from System 2 techniques back into LLM generations without intermediate reasoning token sequences, as this reasoning has been distilled into System 1. We show that several such techniques can be successfully distilled, resulting in improved results compared to the original System 1 performance, and with less inference cost than System 2. We posit that such System 2 distillation will be an important feature of future continually learning AI systems, enabling them to focus System 2 capabilities on the reasoning tasks that they cannot yet do well.
公開日:2024-07-24
翻訳日:2024-07-26 18:37:36
# 確率的変動環境における量子デコヒーレンスダイナミクス

Quantum decoherence dynamics in stochastically fluctuating environments ( http://arxiv.org/abs/2407.06074v2 )

ライセンス: Link先を確認
Xiangji Cai, Yanyan Feng, Jing Ren, Yonggang Peng, Yujun Zheng, (参考訳) 理論的には、2段階の量子系のデコヒーレンスを、確率的リウヴィル方程式の枠組み内で線形で二次的なゆらぎを示す雑音環境に結合する。 量子系の固有エネルギー準位は、環境騒音の線形あるいは二次的な影響の下で再正規化されることが示されている。 二次的依存の場合、環境騒音が定常的な統計的性質を示したとしても、系のエネルギー準位の正規化が生じる。 これは、線形の影響下でのケースとは対照的であり、環境ノイズが非定常統計を表示する場合にのみ、システムの内在エネルギーレベルが正規化される。 周波数差の変動が非定常オルンシュタイン・ウレンベックノイズ(OUN)とランダムテレグラフノイズ(RTN)の過程に依存する場合のデコヒーレンス関数の解析式を導出する。 OUNの線形依存の場合、環境非定常統計特性は動的デコヒーレンスを高めることができる。 しかし、環境騒音の非定常統計は、OUNの二次的影響の下で、この場合の量子デコヒーレンスを抑制することができる。 RTNの存在下では、環境騒音の二次的な影響はデコヒーレンスを引き起こすのではなく、動的進化において決定的な周波数再正規化を引き起こすだけである。 環境非定常統計特性は、RTNの線形影響下でのケースの量子デコヒーレンスを抑制することができる。

We theoretically study the decoherence of a two-level quantum system coupled to noisy environments exhibiting linear and quadratic fluctuations within the framework of a stochastic Liouville equation. It is shown that the intrinsic energy levels of the quantum system renormalize under either the linear or quadratic influence of the environmental noise. In the case of quadratic dependence, the renormalization of the energy levels of the system emerges even if the environmental noise exhibits stationary statistical properties. This is in contrast to the case under linear influence, where the intrinsic energy levels of the system renormalize only if the environmental noise displays nonstationary statistics. We derive the analytical expressions of the decoherence function in the cases where the fluctuation of the frequency difference depends linearly and quadratically on the nonstationary Ornstein-Uhlenbeck noise (OUN) and random telegraph noise (RTN) processes, respectively. In the case of the linear dependence of the OUN, the environmental nonstationary statistical property can enhance the dynamical decoherence. However, the nonstationary statistics of the environmental noise can suppress the quantum decoherence in this case under the quadratic influence of the OUN. In the presence of the RTN, the quadratic influence of the environmental noise does not give rise to decoherence but only causes a determinate frequency renormalization in dynamical evolution. The environmental nonstationary statistical property can suppress the quantum decoherence of the case under the linear influence of the RTN.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# 大規模スペクトルヌーディングによる数値気象予測技術向上のためのデータ駆動気象モデルの導入

Leveraging data-driven weather models for improving numerical weather prediction skill through large-scale spectral nudging ( http://arxiv.org/abs/2407.06100v2 )

ライセンス: Link先を確認
Syed Zahid Husain, Leo Separovic, Jean-François Caron, Rabah Aider, Mark Buehner, Stéphane Chamberland, Ervig Lapalme, Ron McTaggart-Cowan, Christopher Subich, Paul A. Vaillancourt, Jing Yang, Ayrton Zadra, (参考訳) 運用気象予報は物理学に基づく数値気象予報(NWP)モデルに依存してきた。 近年、データ駆動型人工知能(AI)ベースの気象モデルが出現し、計算性能と競争予測能力が著しく向上し、この状況は混乱に直面している。 しかし、中距離予測のためのデータ駆動モデルは一般的に、低い有効解像度や予測変数の狭い範囲を含む大きな制限に悩まされる。 本研究は、GEM(Global Environmental Multiscale)モデルとGraphCastモデルを用いて、これらの競合するパラダイムの相対的な強みと弱みを示し、それぞれ物理ベースのアプローチとAIベースのアプローチを示す。 物理空間とスペクトル空間の両方における観測と解析に対する2つのモデルからのグローバルな予測を解析することにより、グラフCast予測による大規模予測が、特に長いリード時間においてGEMより優れていることを示す。 この知見に基づくハイブリッドNWP-AIシステムを提案し,GEM予測された大規模状態変数をGraphCast予測に対してスペクトル的に評価し,GEMが気象極端に重要な細部を自由に生成できるようにする。 その結果,このハイブリッド手法は,GEMモデルの予測能力を高めるために,GraphCastの強みを活用できることが示唆された。 重要なことは、トロピカルサイクロンの軌道は、強度に大きな変化を伴わずに精度を上げて予測される。 さらに、この新しいハイブリッドシステムにより、気象学者は、高影響の気象イベントに関連するものを含む、予測変数の完全なセットにアクセスできるようになる。

Operational meteorological forecasting has long relied on physics-based numerical weather prediction (NWP) models. Recently, this landscape is facing disruption by the advent of data-driven artificial intelligence (AI)-based weather models, which offer tremendous computational performance and competitive forecasting skill. However, data-driven models for medium-range forecasting generally suffer from major limitations, including low effective resolution and a narrow range of predicted variables. This study illustrates the relative strengths and weaknesses of these competing paradigms using the GEM (Global Environmental Multiscale) and GraphCast models to represent physics-based and AI-based approaches, respectively. By analyzing global predictions from these two models against observations and analyses in both physical and spectral spaces, this study demonstrates that GraphCast-predicted large scales outperform GEM, particularly for longer lead times. Building on this insight, a hybrid NWP-AI system is proposed, wherein GEM-predicted large-scale state variables are spectrally nudged toward GraphCast predictions, while allowing GEM to freely generate fine-scale details critical for weather extremes. Results indicate that this hybrid approach is capable of leveraging the strengths of GraphCast to enhance the prediction skill of the GEM model. Importantly, trajectories of tropical cyclones are predicted with enhanced accuracy without significant changes in intensity. Furthermore, this new hybrid system ensures that meteorologists have access to a complete set of forecast variables, including those relevant for high-impact weather events.
公開日:2024-07-24
翻訳日:2024-07-26 18:37:36
# 視覚言語モデルは盲目です

Vision language models are blind ( http://arxiv.org/abs/2407.06581v4 )

ライセンス: Link先を確認
Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen, (参考訳) 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、様々な画像テキストアプリケーションに電力を供給し、多くの視覚に基づくベンチマークで高いスコアを得ているが、それでも驚くほど人間にとって容易な低レベルの視覚タスクに苦戦している。 具体的には、BlindTestでは、識別のような非常に単純な7つのタスクからなるスイートです。 (a) 2つの円が重複するか否か (b)二つの線が交差するか否か (c)どの文字が一言で丸められているか、 (d) オリンピックのようなロゴの円を数えると、4つの最先端のVLMは平均して58.57%しか正確ではない。 クロード3.5 ソネットは74.01%の精度で最高の成績を収めているが、これは人間の予想した100%の精度とは程遠い。 画像解像度と線幅の異なるVLMは、正確な空間情報を必要とし、重なり合う、または近接している幾何学的プリミティブを認識するタスクに一貫して苦労する。 コードとデータは、https://vlmsareblind.github.ioで公開されている。

While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.01% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# 美学を超えて: テキスト・画像モデルにおける文化的能力

Beyond Aesthetics: Cultural Competence in Text-to-Image Models ( http://arxiv.org/abs/2407.06863v3 )

ライセンス: Link先を確認
Nithish Kannen, Arif Ahmad, Marco Andreetto, Vinodkumar Prabhakaran, Utsav Prabhu, Adji Bousso Dieng, Pushpak Bhattacharyya, Shachi Dave, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、さまざまなグローバルなコミュニティで採用され、独自の文化を視覚的に表現するようになっている。 現在のT2Iベンチマークは主に、文化的な能力の重要な側面を見越して、生成した画像の忠実さ、美学、リアリズムに焦点を当てている。 本稿では,文化意識と文化多様性という2つの重要な側面に沿って,T2Iモデルの文化的能力を評価する枠組みを導入するとともに,構造化知識ベースと大規模言語モデルを組み合わせたスケーラブルなアプローチを用いて,この評価を実現する。 特に,本手法を,T2Iモデルの文化的能力を評価するための第1級ベンチマークであるCUBE(Cutural BEnchmark for Text-to-Image Model)の構築に適用する。 CUBEは、異なる地理的文化圏の8か国、および3つの概念(料理、ランドマーク、芸術)に関連する文化的アーティファクトをカバーしている。 CUBEは 1)CUBE-1Kは、文化意識の評価を可能にする高品質なプロンプトのセットであり、 2)CUBE-CSpaceは、文化的多様性を評価するための基盤となる文化的アーティファクトのより大きなデータセットである。 品質重み付きベンディスコアを活用した新しいT2I評価コンポーネントとして,文化多様性も導入する。 本評価は,T2Iアウトプットの文化的多様性を,未指定のプロンプトに対して有意義な洞察を与えるとともに,既存モデルの文化的意識に重大なギャップを生じさせるものである。 我々の方法論は、他の文化地域や概念にも拡張可能であり、世界の人口により良いT2Iモデルの開発を促進することができる。

Text-to-Image (T2I) models are being increasingly adopted in diverse global communities where they create visual representations of their unique cultures. Current T2I benchmarks primarily focus on faithfulness, aesthetics, and realism of generated images, overlooking the critical dimension of cultural competence. In this work, we introduce a framework to evaluate cultural competence of T2I models along two crucial dimensions: cultural awareness and cultural diversity, and present a scalable approach using a combination of structured knowledge bases and large language models to build a large dataset of cultural artifacts to enable this evaluation. In particular, we apply this approach to build CUBE (CUltural BEnchmark for Text-to-Image models), a first-of-its-kind benchmark to evaluate cultural competence of T2I models. CUBE covers cultural artifacts associated with 8 countries across different geo-cultural regions and along 3 concepts: cuisine, landmarks, and art. CUBE consists of 1) CUBE-1K, a set of high-quality prompts that enable the evaluation of cultural awareness, and 2) CUBE-CSpace, a larger dataset of cultural artifacts that serves as grounding to evaluate cultural diversity. We also introduce cultural diversity as a novel T2I evaluation component, leveraging quality-weighted Vendi score. Our evaluations reveal significant gaps in the cultural awareness of existing models across countries and provide valuable insights into the cultural diversity of T2I outputs for under-specified prompts. Our methodology is extendable to other cultural regions and concepts, and can facilitate the development of T2I models that better cater to the global population.
公開日:2024-07-24
翻訳日:2024-07-26 18:37:36
# 半監督的時間的行動定位のための適応的擬似ラベル学習に向けて

Towards Adaptive Pseudo-label Learning for Semi-Supervised Temporal Action Localization ( http://arxiv.org/abs/2407.07673v3 )

ライセンス: Link先を確認
Feixiang Zhou, Bryan Williams, Hossein Rahmani, (参考訳) ノイズを緩和する擬似ラベルは、セミスーパーバイズド・テンポラル・アクション・ローカライゼーション(SS-TAL)において重要な課題である。 既存の手法はしばしば厳密な条件に基づいて擬似ラベルをフィルタリングするが、典型的には分類とローカライゼーションの質を別々に評価し、最適でない擬似ラベルのランク付けと選択に繋がる。 特に、選択された正のラベルの中に不正確な擬似ラベルがあり、信頼されたラベルは誤って負のラベルに割り当てられる。 これらの問題に対処するため, 擬似ラベル選択を容易にするために, 適応型擬似ラベル学習(APL)フレームワークを提案する。 具体的には、ランキング品質を改善するために、分類信頼性と局所化信頼性を協調的に学習し、次いで、共同スコアに基づいて擬似ラベルを動的に選択する適応ラベル品質評価(ALQA)を提案する。 さらに、インスタンスレベルの一貫性判別器(ICD)を提案し、不明瞭な正と潜在的な正を同時に除去し、インスタンス間固有の一貫性に基づいて、より正確な選択をもたらす。 さらに,行動と背景の区別を高めるために,一般教師なしの行動対応コントラスト事前訓練(ACP)を導入し,SS-TALの恩恵を受ける。 THUMOS14とActivityNet v1.3の広範囲な実験により,様々な半教師付き環境下での最先端性能が実証された。

Alleviating noisy pseudo labels remains a key challenge in Semi-Supervised Temporal Action Localization (SS-TAL). Existing methods often filter pseudo labels based on strict conditions, but they typically assess classification and localization quality separately, leading to suboptimal pseudo-label ranking and selection. In particular, there might be inaccurate pseudo labels within selected positives, alongside reliable counterparts erroneously assigned to negatives. To tackle these problems, we propose a novel Adaptive Pseudo-label Learning (APL) framework to facilitate better pseudo-label selection. Specifically, to improve the ranking quality, Adaptive Label Quality Assessment (ALQA) is proposed to jointly learn classification confidence and localization reliability, followed by dynamically selecting pseudo labels based on the joint score. Additionally, we propose an Instance-level Consistency Discriminator (ICD) for eliminating ambiguous positives and mining potential positives simultaneously based on inter-instance intrinsic consistency, thereby leading to a more precise selection. We further introduce a general unsupervised Action-aware Contrastive Pre-training (ACP) to enhance the discrimination both within actions and between actions and backgrounds, which benefits SS-TAL. Extensive experiments on THUMOS14 and ActivityNet v1.3 demonstrate that our method achieves state-of-the-art performance under various semi-supervised settings.
公開日:2024-07-24
翻訳日:2024-07-26 18:37:36
# SvANet:小さな医療用オブジェクトセグメンテーションのためのスケール可変アテンションベースネットワーク

SvANet: A Scale-variant Attention-based Network for Small Medical Object Segmentation ( http://arxiv.org/abs/2407.07720v3 )

ライセンス: Link先を確認
Wei Dai, Rui Liu, Zixuan Wu, Tianyi Wu, Min Wang, Junxian Zhou, Yixuan Yuan, Jun Liu, (参考訳) 早期発見と正確な診断は悪性疾患の再発のリスクを予測し、効果的治療の確率を高めることができる。 軽度の感染部位を有する軽度の症候群は、異常な警告であり、疾患の早期診断の最前線である。 畳み込みニューラルネットワーク(CNN)のようなディープラーニングアルゴリズムは、自然または医学的なオブジェクトを分割するために使われ、有望な結果を示している。 しかし、画像内の小さな領域の医療対象を分析することは、CNNにおける畳み込みやプール操作によって引き起こされる情報損失と圧縮欠陥のため、依然として課題である。 これらの損失と欠陥は、ネットワークが深まるにつれて、特に小さな医療オブジェクトにとって、ますます顕著になる。 これらの課題に対処するために,医用画像における小型物体分割を正確に行うための,新しいスケール可変アテンションベースネットワーク(SvANet)を提案する。 SvANetはモンテカルロ・アテンション、スケール可変アテンション、ビジョン・トランスフォーマーで構成されており、クロススケールな特徴を取り入れ、小さな医療オブジェクトの識別を強化するために圧縮アーティファクトを緩和している。 定量的実験の結果、SvANetは96.12%、96.11%、89.79%、84.15%、80.25%、73.05%、および72.58%を達成し、それぞれKiTS23、ISIC 2018、ATLAS、PolypGen、TioNet、FIVES、SpermHealthの各データセットの画像領域の1%未満を占める腎臓腫瘍、皮膚病変、肝腫瘍、ポリープ、外科切除細胞、網膜血管、精子の分画係数を推定した。

Early detection and accurate diagnosis can predict the risk of malignant disease transformation, thereby increasing the probability of effective treatment. A mild syndrome with small infected regions is an ominous warning and is foremost in the early diagnosis of diseases. Deep learning algorithms, such as convolutional neural networks (CNNs), have been used to segment natural or medical objects, showing promising results. However, analyzing medical objects of small areas in images remains a challenge due to information losses and compression defects caused by convolution and pooling operations in CNNs. These losses and defects become increasingly significant as the network deepens, particularly for small medical objects. To address these challenges, we propose a novel scale-variant attention-based network (SvANet) for accurate small-scale object segmentation in medical images. The SvANet consists of Monte Carlo attention, scale-variant attention, and vision transformer, which incorporates cross-scale features and alleviates compression artifacts for enhancing the discrimination of small medical objects. Quantitative experimental results demonstrate the superior performance of SvANet, achieving 96.12%, 96.11%, 89.79%, 84.15%, 80.25%, 73.05%, and 72.58% in mean Dice coefficient for segmenting kidney tumors, skin lesions, hepatic tumors, polyps, surgical excision cells, retinal vasculatures, and sperms, which occupy less than 1% of the image areas in KiTS23, ISIC 2018, ATLAS, PolypGen, TissueNet, FIVES, and SpermHealth datasets, respectively.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# 窒素空孔中心を用いたマルチパルス量子センシングにおけるあいまいな共鳴

Ambiguous Resonances in Multipulse Quantum Sensing with Nitrogen Vacancy Centers ( http://arxiv.org/abs/2407.09411v2 )

ライセンス: Link先を確認
Lucas Tsunaki, Anmol Singh, Kseniia Volkova, Sergei Trofimov, Tommaso Pregnolato, Tim Schröder, Boris Naydenov, (参考訳) 動的デカップリング多重パルス列は、近傍の単一核スピンから弱い振動場を感知する固体スピンに応用することができる。 周期的に探査システムの進化を反転させることで、他のノイズは反作用し、全進化にわたって除去される。 しかし、この手法は複雑な相互作用を伴って追加の共鳴応答を生じさせ、測定対象の実際の信号と誤解釈することができる。 ダイヤモンド中の単一窒素空孔中心に存在するこれらの3つの効果を実験的に評価し, 回転波近似を伴わない数値シミュレーションモデルを開発し, 実験データとの堅牢な相関性を示した。 約$^{15}$Nの窒素同位体を持つ中心では、バイアス磁場の小さな誤配が、窒素核スピンの沈着を中心の電子スピンによって感知することを発見した。 ここでは、エコー変調周波数に基づいて相互作用ハミルトニアンを再構成し、このハミルトニアンを用いて多重パルス列をシミュレートした。 最後に、有限パルス時間における量子系の自由進化の影響を計測し、シミュレーションした。 大規模なデータ量と、これらの曖昧な共鳴と特定の実験パラメータとの強い依存のため、ユーザフレンドリーなグラフィカルインタフェースを用いたシミュレーションデータセットを提供し、ユーザはシミュレーションを自身の実験データと比較してスペクトルの曖昧さを識別する。 窒素空孔中心と動的デカップリング配列に焦点が当てられているが、これらの結果と開発モデルは他の固体スピンや量子センシング技術にも適用できる可能性がある。

Dynamical decoupling multipulse sequences can be applied to solid state spins for sensing weak oscillating fields from nearby single nuclear spins. By periodically reversing the probing system's evolution, other noises are counteracted and filtered out over the total evolution. However, the technique is subject to intricate interactions resulting in additional resonant responses, which can be misinterpreted with the actual signal intended to be measured. We experimentally characterized three of these effects present in single nitrogen vacancy centers in diamond, where we also developed a numerical simulations model without rotating wave approximations, showing robust correlation to the experimental data. Regarding centers with the $^{15}$N nitrogen isotope, we observed that a small misalignment in the bias magnetic field causes the precession of the nitrogen nuclear spin to be sensed by the electronic spin of the center. Another studied case of ambiguous resonances comes from the coupling with lattice $^{13}$C nuclei, where we reconstructed the interaction Hamiltonian based on echo modulation frequencies and used this Hamiltonian to simulate multipulse sequences. Finally, we also measured and simulated the effects from the free evolution of the quantum system during finite pulse durations. Due to the large data volume and the strong dependency of these ambiguous resonances with specific experimental parameters, we provide a simulations dataset with a user-friendly graphical interface, where users can compare simulations with their own experimental data for spectral disambiguation. Although focused with nitrogen vacancy centers and dynamical decoupling sequences, these results and the developed model can potentially be applied to other solid state spins and quantum sensing techniques.
公開日:2024-07-25
翻訳日:2024-07-26 18:37:36
# PARSE-Ego4D:エゴセントリックビデオのためのパーソナライズ・アクション・レコメンデーション

PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos ( http://arxiv.org/abs/2407.09503v2 )

ライセンス: Link先を確認
Steven Abreu, Tiffany D. Do, Karan Ahuja, Eric J. Gonzalez, Lee Payne, Daniel McDuff, Mar Gonzalez-Franco, (参考訳) 知的援助は理解だけでなく行動も含む。 既存のエゴ中心のビデオデータセットには、ビデオの豊富なアノテーションが含まれているが、現時点ではインテリジェントアシスタントが実行可能なアクションは含まれていない。 このギャップに対処するため、私たちは、Ego4Dデータセット用の新しい個人的なアクションレコメンデーションアノテーションであるPARSE-Ego4Dをリリースします。 これらのアノテーションの生成と評価には,多段階的なアプローチを採用しています。 まず、プロンプトエンジニアリングされた大規模言語モデル(LLM)を用いて、コンテキスト認識されたアクション提案を生成し、18,000以上のアクション提案を特定した。 これらの合成作用提案は有用であるが、LLMの本質的な制限は人間の評価を必要とする。 高品質でユーザ中心のレコメンデーションを確保するため, PARSE-Ego4Dの全嗜好の基盤となる大規模な人文アノテーション研究を行った。 我々は,レイター間の合意を分析し,参加者の主観的嗜好を評価する。 合成データセットと完全な人間のアノテーションに基づいて、エゴ中心のビデオに基づくアクション提案のための新しいタスクをいくつか提案する。 レイテンシとエネルギー要求を改善する新しいソリューションを推奨します。 PARSE-Ego4Dのアノテーションは、拡張現実および仮想現実システムのためのアクションレコメンデーションシステムの構築に取り組んでいる研究者や開発者をサポートする。

Intelligent assistance involves not only understanding but also action. Existing ego-centric video datasets contain rich annotations of the videos, but not of actions that an intelligent assistant could perform in the moment. To address this gap, we release PARSE-Ego4D, a new set of personal action recommendation annotations for the Ego4D dataset. We take a multi-stage approach to generating and evaluating these annotations. First, we used a prompt-engineered large language model (LLM) to generate context-aware action suggestions and identified over 18,000 action suggestions. While these synthetic action suggestions are valuable, the inherent limitations of LLMs necessitate human evaluation. To ensure high-quality and user-centered recommendations, we conducted a large-scale human annotation study that provides grounding in human preferences for all of PARSE-Ego4D. We analyze the inter-rater agreement and evaluate subjective preferences of participants. Based on our synthetic dataset and complete human annotations, we propose several new tasks for action suggestions based on ego-centric videos. We encourage novel solutions that improve latency and energy requirements. The annotations in PARSE-Ego4D will support researchers and developers who are working on building action recommendation systems for augmented and virtual reality systems.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:53
# ヒストグラム変換器による逆気象条件の復元

Restoring Images in Adverse Weather Conditions via Histogram Transformer ( http://arxiv.org/abs/2407.10172v2 )

ライセンス: Link先を確認
Shangquan Sun, Wenqi Ren, Xinwei Gao, Rui Wang, Xiaochun Cao, (参考訳) 気象条件下でのトランスフォーマーによる画像復元法は大きな進歩を遂げた。 それらの多くは、計算負荷を減らすためにチャネル次元や空間的に固定されたブロックに沿って自己アテンションを使用する。 しかし、このような妥協は、長距離空間的特徴を捉える際の限界をもたらす。 本研究は, 気象に起因した劣化要因が, 主に類似の閉塞や明るさを引き起こすという観測に触発され, 悪天候による画像の復元に有効なヒストグラム変換器 (Histoformer) を提案する。 これはヒストグラム自己アテンション( histogram self-attention)と呼ばれるメカニズムで、空間的特徴を強度ベースのビンに分類し、セグメント化する。 次に、各ビンまたは各ビンに自己注意を適用して、ダイナミックレンジの空間的特徴に選択的に焦点を合わせ、長い範囲の同様の劣化画素を一緒に処理する。 ヒストグラムの自己アテンションを高めるため,従来のコンボリューションにより,隣接画素ではなく類似画素上での操作が可能となるダイナミックレンジ・コンボリューションを提案する。 また, 共通画素の損失は, 線形関係や, 出力と接地構造との相関を無視する。 そこで本研究では,Pearson相関係数を損失関数として利用して,地上構造と同一の順序で復元された画素を強制する。 実験の結果,提案手法の有効性と優位性を示した。 ソースコードはGithubで公開しています。

Transformer-based image restoration methods in adverse weather have achieved significant progress. Most of them use self-attention along the channel dimension or within spatially fixed-range blocks to reduce computational load. However, such a compromise results in limitations in capturing long-range spatial features. Inspired by the observation that the weather-induced degradation factors mainly cause similar occlusion and brightness, in this work, we propose an efficient Histogram Transformer (Histoformer) for restoring images affected by adverse weather. It is powered by a mechanism dubbed histogram self-attention, which sorts and segments spatial features into intensity-based bins. Self-attention is then applied across bins or within each bin to selectively focus on spatial features of dynamic range and process similar degraded pixels of the long range together. To boost histogram self-attention, we present a dynamic-range convolution enabling conventional convolution to conduct operation over similar pixels rather than neighbor pixels. We also observe that the common pixel-wise losses neglect linear association and correlation between output and ground-truth. Thus, we propose to leverage the Pearson correlation coefficient as a loss function to enforce the recovered pixels following the identical order as ground-truth. Extensive experiments demonstrate the efficacy and superiority of our proposed method. We have released the codes in Github.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:53
# CIBench: コードインタープリタプラグインによるLLMの評価

CIBench: Evaluating Your LLMs with a Code Interpreter Plugin ( http://arxiv.org/abs/2407.10499v2 )

ライセンス: Link先を確認
Songyang Zhang, Chuyu Zhang, Yingfan Hu, Haowen Shen, Kuikun Liu, Zerun Ma, Fengzhe Zhou, Wenwei Zhang, Xuming He, Dahua Lin, Kai Chen, (参考訳) 複雑な問題を解決するために外部ツールを使用するLCMベースのエージェントは大きな進歩を遂げているが、それらの能力のベンチマークは困難であり、それによってそれらの制限を明確に理解するのを妨げる。 本稿では,データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。 評価フレームワークは評価データセットと2つの評価モードを含む。 評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。 2つの評価モードは、LLMの人的援助なしでの能力を評価する。 コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。

While LLM-Based agents, which use external tools to solve complex problems, have made significant progress, benchmarking their ability is challenging, thereby hindering a clear understanding of their limitations. In this paper, we propose an interactive evaluation framework, named CIBench, to comprehensively assess LLMs' ability to utilize code interpreters for data science tasks. Our evaluation framework includes an evaluation dataset and two evaluation modes. The evaluation dataset is constructed using an LLM-human cooperative approach and simulates an authentic workflow by leveraging consecutive and interactive IPython sessions. The two evaluation modes assess LLMs' ability with and without human assistance. We conduct extensive experiments to analyze the ability of 24 LLMs on CIBench and provide valuable insights for future LLMs in code interpreter utilization.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:53
# ユニタリ四面体量子ゲート

Unitary tetrahedron quantum gates ( http://arxiv.org/abs/2407.10731v2 )

ライセンス: Link先を確認
Vivek Kumar Singh, Akash Sinha, Pramod Padmanabhan, Vladimir Korepin, (参考訳) 2量子ビットYang-Baxterゲートを用いた多体システムの量子シミュレーションは、量子ハードウェアのベンチマークを提供する。 これは、$n$-複素作用素と呼ばれるヤン・バクスターゲートの$n$-量子一般化を持つ高次元ケースにまで拡張することができる。 このようなマルチキュービットゲートは、より浅く、より効率的な量子回路にも繋がる可能性がある。 それらを見つけることは、高次元可積分系の構成要素である$n$-シプレックス方程式のユニタリ解を特定することに等しい。 これらは非常に非線型で過度に決定された方程式の集合であり、局所ヒルベルト空間が qubit で張られているときでさえ解くのが難しいと悪名高い。 我々は、クリフォード代数とヤン・バクスター作用素を持ち上げるという2つの方法を用いて構築された高次単純作用素に対して、これを体系的に克服する。 n=3$またはテトラヘドロンの場合を詳細に解析する。 qubitの場合、我々の手法はユニタリ四面体作用素の13の同値な族を生成する。 これらの族のうち12は、ダイ・ヒエタリンタの4つの定数ヤン・バクスター作用素の5つのユニタリ族を1つのキュービット作用素で付加することによって得られる。 応用として、単一、2、3個のキュービットゲートの普遍集合は、そのようなユニタリ四面体作用素を用いて実現される。 この研究で提示された考えは、自然に高次単純格にまで拡張することができる。

Quantum simulations of many-body systems using 2-qubit Yang-Baxter gates offer a benchmark for quantum hardware. This can be extended to the higher dimensional case with $n$-qubit generalisations of Yang-Baxter gates called $n$-simplex operators. Such multi-qubit gates potentially lead to shallower and more efficient quantum circuits as well. Finding them amounts to identifying unitary solutions of the $n$-simplex equations, the building blocks of higher dimensional integrable systems. These are a set of highly non-linear and over determined system of equations making it notoriously hard to solve even when the local Hilbert spaces are spanned by qubits. We systematically overcome this for higher simplex operators constructed using two methods: from Clifford algebras and by lifting Yang-Baxter operators. The $n=3$ or the tetrahedron case is analyzed in detail. For the qubit case our methods produce 13 inequivalent families of unitary tetrahedron operators. 12 of these families are obtained by appending the 5 unitary families of 4 by 4 constant Yang-Baxter operators of Dye-Hietarinta, with a single qubit operator. As applications, universal sets of single, two and three qubit gates are realized using such unitary tetrahedron operators. The ideas presented in this work can be naturally extended to the higher simplex cases.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# 位相制御のない準決定論的量子探索アルゴリズム

Near-deterministic quantum search algorithm without phase control ( http://arxiv.org/abs/2407.10748v2 )

ライセンス: Link先を確認
Zhen Wang, Kun Zhang, Vladimir Korepin, (参考訳) グロバーのアルゴリズムは、構造化されていない探索問題を解く。 グローバーのアルゴリズムは、4つのうち1つを検索した場合にのみ、ターゲット項目を確実に見つけることができる。 グローバーのアルゴリズムは、オラクルまたは拡散作用素の位相が微妙に設計されている場合、決定論的である。 位相の精度は問題になるかもしれない。 位相制御のないほぼ決定論的量子探索アルゴリズムを提案する。 我々のアルゴリズムはGroverのアルゴリズムと同じオラクルと拡散演算子を持つ。 さらに1つのコンポーネントは、再スケール拡散演算子である。 部分的にはデータベース上で動作します。 部分拡散演算子によるグローバーのアルゴリズムの成功確率を2つの異なる方法で改善する方法を示す。 可能なコストは、オラクルへの1つまたは2つ以上のクエリである。 また,8,16,32のうち1つを探索する場合に決定論的探索アルゴリズムを設計する。

Grover's algorithm solves the unstructured search problem. Grover's algorithm can find the target item with certainty only if searching one out of four. Grover's algorithm can be deterministic if the phase of the oracle or the diffusion operator is delicately designed. The precision of the phases could be a problem. We propose a near-deterministic quantum search algorithm without the phase control. Our algorithm has the same oracle and diffusion operators as Grover's algorithm. One additional component is the rescaled diffusion operator. It acts partially on the database. We show how to improve the success probability of Grover's algorithm by the partial diffusion operator in two different ways. The possible cost is one or two more queries to the oracle. We also design the deterministic search algorithm when searching one out of eight, sixteen, and thirty-two.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# 交通衝突検出のための統一理論と統計的学習手法

A unified theory and statistical learning approach for traffic conflict detection ( http://arxiv.org/abs/2407.10959v2 )

ライセンス: Link先を確認
Yiru Jiao, Simeon C. Calvert, Sander van Cranenburgh, Hans van Lint, (参考訳) 本研究は,道路利用者の衝突リスクを評価するための一貫した包括的方法論を求めて,交通衝突検出のための統一的理論と統計的学習手法を提案する。 提案理論は、文脈依存的な確率的衝突リスクを仮定し、日々の相互作用における極端な事象の統計的学習により、このリスクを評価する。 実世界の軌道データを用いた実験は、ドイツ高速道路における車線変更の相互作用で衝突の統一計量を訓練し、米国における100-Car Naturalistic Driving Studyのほぼクラッシュな出来事に適用する。実験の結果、この測定基準が効果的な衝突警告を提供し、異なるデータセットや交通環境をまたいだ一般化を提供し、幅広い紛争をカバーし、紛争強度の長期分布を提供することを示した。 これらの結果を反映して,道路利用者の移動状態や環境条件,参加者特性といった要因を総合的に考慮し,交通紛争の仮定を包含した総合的な定式化による一貫した評価が可能である。 したがって、理論と学習のアプローチは、異なる道路利用者間および様々な相互作用シナリオ間での衝突検出のための説明可能な、適応可能な方法論を共同で提供する。 これにより、交通インフラの安全性評価の強化、自動運転のためのより効果的な衝突警告システム、異なる交通状況における道路利用者の行動のより深い理解などにより、事故の低減と交通安全全体の改善が期待できる。

This study proposes a unified theory and statistical learning approach for traffic conflict detection, addressing the long-existing call for a consistent and comprehensive methodology to evaluate the collision risk emerging in road user interactions. The proposed theory assumes context-dependent probabilistic collision risk and frames conflict detection as assessing this risk by statistical learning of extreme events in daily interactions. Experiments using real-world trajectory data are conducted in this study, where a unified metric of conflict is trained with lane-changing interactions on German highways and applied to near-crash events from the 100-Car Naturalistic Driving Study in the U.S. Results of the experiments demonstrate that the trained metric provides effective collision warnings, generalises across distinct datasets and traffic environments, covers a broad range of conflicts, and delivers a long-tailed distribution of conflict intensity. Reflecting on these results, the unified theory ensures consistent evaluation by a generic formulation that encompasses varying assumptions of traffic conflicts; the statistical learning approach then enables a comprehensive consideration of influencing factors such as motion states of road users, environment conditions, and participant characteristics. Therefore, the theory and learning approach jointly provide an explainable and adaptable methodology for conflict detection among different road users and across various interaction scenarios. This promises to reduce accidents and improve overall traffic safety, by enhanced safety assessment of traffic infrastructures, more effective collision warning systems for autonomous driving, and a deeper understanding of road user behaviour in different traffic conditions.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# 低レイテンシ推論における知識向上

Knowledge boosting during low-latency inference ( http://arxiv.org/abs/2407.11055v3 )

ライセンス: Link先を確認
Vidya Srinivas, Malek Itani, Tuochao Chen, Sefik Emre Eskimez, Takuya Yoshioka, Shyamnath Gollakota, (参考訳) 低レイテンシのストリーミングアプリケーションは、より大きなモデルの知識能力の恩恵を受けることができるが、エッジデバイスはリソース制約のためにこれらのモデルを実行できない。 可能な解決策は、リモートで実行される大きなモデルからデバイス上で実行される小さなモデルへの推論中にヒントを転送することである。 しかし、これはリアルタイムの要求を破る通信遅延を引き起こし、両方のモデルが同時に同じデータ上で動作することを保証しない。 提案手法は,大規模モデルを推論中に時間遅延入力で動作させながら,小型モデルの性能を向上する新しい手法であるナレッジ・ブーイングを提案する。 8msのチャンクを処理するストリーミングニューラルネットワークを用いて、最大6チャンクまたは48msの通信遅延を伴う異なる音声分離および強化タスクを評価し、この結果から、小型モデルと大規模モデルのパフォーマンスギャップが広くなる大きなゲインを示し、低レイテンシアプリケーションのための大規模モデルコラボレーションのための有望な方法を示す。 コード、データセット、オーディオサンプルはhttps://knowledgeboosting.cs.washington.edu/で公開されている。

Models for low-latency, streaming applications could benefit from the knowledge capacity of larger models, but edge devices cannot run these models due to resource constraints. A possible solution is to transfer hints during inference from a large model running remotely to a small model running on-device. However, this incurs a communication delay that breaks real-time requirements and does not guarantee that both models will operate on the same data at the same time. We propose knowledge boosting, a novel technique that allows a large model to operate on time-delayed input during inference, while still boosting small model performance. Using a streaming neural network that processes 8 ms chunks, we evaluate different speech separation and enhancement tasks with communication delays of up to six chunks or 48 ms. Our results show larger gains where the performance gap between the small and large models is wide, demonstrating a promising method for large-small model collaboration for low-latency applications. Code, dataset, and audio samples available at https://knowledgeboosting.cs.washington.edu/.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# 多部交絡用モジュラーコンピュレータの幾何学的付加性

Geometric additivity of modular commutator for multipartite entanglement ( http://arxiv.org/abs/2407.11130v2 )

ライセンス: Link先を確認
Sung-Min Park, Isaac H. Kim, Eun-Gook Moon, (参考訳) 最近の多体量子絡み合いの研究で、量子多体系の興味深い性質が明らかになった。 主な例としてモジュラー可換作用素があり、単一の波動関数から位相不変量を取り出すことができる。 ここでは,2次元ギャップ量子多体系のモジュラー共振器による多体絡みの新たな幾何学的性質を明らかにする。 モジュラー可換器の幾何学的加法性は、多部系に対するモジュラー可換器が三部系に対する可換作用素の整数倍であることを示す。 加法式を用いて、ある種の共形場理論のクラスにおいて、不連結区間を含むモジュラー可換作用素に対して興味深い恒等式を導出する。 さらに、Haldaneモデルと$\pi$-fluxモデルの数値計算を用いて、バルクサブシステムとエッジサブシステムの両方に対してこの幾何学的付加性を説明する。

A recent surge of research in many-body quantum entanglement has uncovered intriguing properties of quantum many-body systems. A prime example is the modular commutator, which can extract a topological invariant from a single wave function. Here, we unveil novel geometric properties of many-body entanglement via a modular commutator of two-dimensional gapped quantum many-body systems. We obtain the geometric additivity of a modular commutator, indicating that modular commutator for a multipartite system may be an integer multiple of the one for tripartite systems. Using our additivity formula, we also derive a curious identity for the modular commutators involving disconnected intervals in a certain class of conformal field theories. We further illustrate this geometric additivity for both bulk and edge subsystems using numerical calculations of the Haldane and $\pi$-flux models.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# SES: グラフニューラルネットワークの説明可能性と予測のギャップを埋める

SES: Bridging the Gap Between Explainability and Prediction of Graph Neural Networks ( http://arxiv.org/abs/2407.11358v2 )

ライセンス: Link先を確認
Zhenhua Huang, Kunhao Li, Shaojie Wang, Zhaohong Jia, Wentao Zhu, Sharad Mehrotra, (参考訳) グラフニューラルネットワーク(GNN)のグラフデータを解析する習熟度にもかかわらず、高精度で解釈可能な予測を実現することは依然として困難である。 既存のGNNインタプリタは、通常、GNNの予測から外れたポストホックな説明を提供し、誤った表現をもたらす。 自己説明可能なGNNは、トレーニングプロセス中にビルトインの説明を提供する。 しかし、予測性能を向上させるために説明結果を利用することができず、ノードの特徴の高品質な説明を提供しず、説明可能な部分グラフを生成するために追加のプロセスを必要とするため、コストがかかる。 上記の制限に対処するため、説明可能性と予測のギャップを埋める自己説明型自己教師型グラフニューラルネットワーク(SES)を提案する。 SESは説明可能なトレーニングと予測学習の2つのプロセスから構成される。 説明可能なトレーニングの間、SESはグラフエンコーダと共同でトレーニングされたグローバルマスクジェネレータを使用し、重要な構造と特徴マスクを直接生成し、時間消費を低減し、ノードの特徴とサブグラフの説明を提供する。 強化された予測学習フェーズでは、マスクベースの正負のペアが3重項損失を計算し、対照的な学習によってノード表現を強化するために説明を利用して構築される。

Despite the Graph Neural Networks' (GNNs) proficiency in analyzing graph data, achieving high-accuracy and interpretable predictions remains challenging. Existing GNN interpreters typically provide post-hoc explanations disjointed from GNNs' predictions, resulting in misrepresentations. Self-explainable GNNs offer built-in explanations during the training process. However, they cannot exploit the explanatory outcomes to augment prediction performance, and they fail to provide high-quality explanations of node features and require additional processes to generate explainable subgraphs, which is costly. To address the aforementioned limitations, we propose a self-explained and self-supervised graph neural network (SES) to bridge the gap between explainability and prediction. SES comprises two processes: explainable training and enhanced predictive learning. During explainable training, SES employs a global mask generator co-trained with a graph encoder and directly produces crucial structure and feature masks, reducing time consumption and providing node feature and subgraph explanations. In the enhanced predictive learning phase, mask-based positive-negative pairs are constructed utilizing the explanations to compute a triplet loss and enhance the node representations by contrastive learning.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# CCVA-FL:医療画像のための適応的フェデレーション学習

CCVA-FL: Cross-Client Variations Adaptive Federated Learning for Medical Imaging ( http://arxiv.org/abs/2407.11652v2 )

ライセンス: Link先を確認
Sunny Gupta, Amit Sethi, (参考訳) Federated Learning(FL)は、分散データ上でモデルをトレーニングするためのプライバシ保護アプローチを提供する。 医療におけるそのポテンシャルは重要であるが、制限されたアノテーションによって悪化する医療画像データの横断的変動によって、課題が生じる。 本稿では,これらの問題に対処するため,CCVA-FL(Cross-Client Variations Adaptive Federated Learning)を提案する。 CCVA-FLは、画像を共通の特徴空間に変換することで、クロスクライアントの変動を最小限にすることを目的としている。 各クライアントからのイメージのサブセットを専門的にアノテーションし、続いてターゲットとして最もデータ複雑性の低いクライアントを選択する。 次に、ターゲットクライアントの注釈付き画像に基づいて、変換器付きスケーラブル拡散モデル(DiT)を用いて合成医療画像を生成する。 これらの合成画像は多様性を捉え、元のデータを表現し、他のクライアントと共有する。 各クライアントは、画像から画像への変換を使用して、そのローカル画像を対象のイメージ空間に変換する。 翻訳された画像は、その後、サーバモデルを開発するための連合学習設定で使用される。 その結果、CCVA-FLはプライバシーを損なうことなく、クライアント間でのデータ分散の違いを効果的に解決することで、Vanilla Federated Averagingよりも優れていることが示された。

Federated Learning (FL) offers a privacy-preserving approach to train models on decentralized data. Its potential in healthcare is significant, but challenges arise due to cross-client variations in medical image data, exacerbated by limited annotations. This paper introduces Cross-Client Variations Adaptive Federated Learning (CCVA-FL) to address these issues. CCVA-FL aims to minimize cross-client variations by transforming images into a common feature space. It involves expert annotation of a subset of images from each client, followed by the selection of a client with the least data complexity as the target. Synthetic medical images are then generated using Scalable Diffusion Models with Transformers (DiT) based on the target client's annotated images. These synthetic images, capturing diversity and representing the original data, are shared with other clients. Each client then translates its local images into the target image space using image-to-image translation. The translated images are subsequently used in a federated learning setting to develop a server model. Our results demonstrate that CCVA-FL outperforms Vanilla Federated Averaging by effectively addressing data distribution differences across clients without compromising privacy.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# CCoE: 専門家の協力によるコンパクトなLLM

CCoE: A Compact LLM with Collaboration of Experts ( http://arxiv.org/abs/2407.11686v3 )

ライセンス: Link先を確認
Shaomang Huang, Jianfeng Pan, Hanzhong Zheng, (参考訳) 大規模言語モデル(LLM)の領域では、LLMは自然言語の理解と生成において重要な能力を示す。 様々なドメインにLLMを適用する必要性が高まっている中で、異なるドメインの専門知識を持つモデルをどのように効率的に訓練し、構築するかという研究の課題である。 本稿では,複数の強力なドメインエキスパートを結合して大きなLLMに融合するフレームワークであるCCoEアーキテクチャを提案する。 さらに、複数の専門家による大規模な共同作業のトレーニングには、トレーニングソースに対する高い要求が必要である。 CCoEは、他の専門家を分離し、各専門家を個別に訓練することで、この問題を回避します。 CCoEの設計は、CoE(Collaboration of Experts)レイヤを通じて複数の専門家のLCMを組み立てる。 各CoE層は1つ以上の専門LSMを持つことができる。 専門家のLLMは異なるレイヤ数を持ち、異なるドメインタスクに対して十分に訓練されている。 各エキスパートは、SOTAドメインのLLMで同等の結果を得ることができるように微調整される。 Code, Math, Law, text-to-SQL, Medicalの5つの分野の専門家から始めます。 その結果、我々のCCoEフレームワークは、異なるドメインにおける元のベースモデルで10%-20%近いパフォーマンスを容易かつ効率的に向上できるが、トレーニングのリソースは少なく、推論も少ないことが示唆された。

In the domain of Large Language Model (LLM), LLMs demonstrate significant capabilities in natural language understanding and generation. With the growing needs of applying LLMs on various domains, it is a research question that how to efficiently train and build a model that has expertise in different domains but with a low training cost. We propose CCoE architecture, a framework of easily coupling multiple strong domain experts together to fuse into a big LLM, provides a collective way of utilizing the different domain expert LLMs. Besides, training a large collaborative of multiple expert LLMs requires a high requirements on training sources. CCoE bypasses this problem through isolating other experts and train each expert separately. The design of CCoE assembles multiple expert LLMs through the CoE (Collaboration of Experts) layer. Each CoE layer could have one or more expert LLMs. Expert LLMs have different number of layers and have been well-trained for different domain tasks. Each expert is fine-tuned to be able to achieve the comparable results with SOTA domain LLMs. We start from 5 experts in the domain of Code, Math, Law, text-to-SQL and Medical. The results indicate that our CCoE framework can easily and efficiently boost nearly 10%-20% performance on original base model in different domains but using less resources on training, as well as inference.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# 非拘束映像における時間的グラウンドインストラクショナルダイアグラム

Temporally Grounding Instructional Diagrams in Unconstrained Videos ( http://arxiv.org/abs/2407.12066v2 )

ライセンス: Link先を確認
Jiahao Zhang, Frederic Z. Zhang, Cristian Rodriguez, Yizhak Ben-Shabat, Anoop Cherian, Stephen Gould, (参考訳) ビデオ中の命令図の形式でクエリのシーケンスを同時にローカライズするという課題について検討する。 これは個々のクエリだけでなく、相互関係も理解する必要がある。 しかし、既存のほとんどの手法は、汎用的な相互排他性や時間的順序といったクエリの固有の構造を無視して、一度に1つのクエリを基底にすることに焦点を当てている。 これにより、異なるステップダイアグラムの予測タイムパンが著しく重複したり、時間順序に反したりし、精度を損なう可能性がある。 本稿では,一連のステップ図を同時に構築することにより,この問題に対処する。 具体的には、ステップダイアグラムの視覚的特徴と学習可能な定数の位置埋め込みとを徹底的に組み合わせて構築した複合クエリを提案する。 コンテントの特徴が異なる複合クエリ間の自己アテンションが抑制され,予測の時間的重複が減少するのに対して,クロスアテンションはコンテンツと位置ジョイントガイダンスによって時間的ミスアライメントを補正する。 ステップダイアグラムのグラウンド化のためのIAWデータセットと自然言語クエリのグラウンド化のためのYouCook2ベンチマークに対するアプローチの有効性を示す。

We study the challenging problem of simultaneously localizing a sequence of queries in the form of instructional diagrams in a video. This requires understanding not only the individual queries but also their interrelationships. However, most existing methods focus on grounding one query at a time, ignoring the inherent structures among queries such as the general mutual exclusiveness and the temporal order. Consequently, the predicted timespans of different step diagrams may overlap considerably or violate the temporal order, thus harming the accuracy. In this paper, we tackle this issue by simultaneously grounding a sequence of step diagrams. Specifically, we propose composite queries, constructed by exhaustively pairing up the visual content features of the step diagrams and a fixed number of learnable positional embeddings. Our insight is that self-attention among composite queries carrying different content features suppress each other to reduce timespan overlaps in predictions, while the cross-attention corrects the temporal misalignment via content and position joint guidance. We demonstrate the effectiveness of our approach on the IAW dataset for grounding step diagrams and the YouCook2 benchmark for grounding natural language queries, significantly outperforming existing methods while simultaneously grounding multiple queries.
公開日:2024-07-24
翻訳日:2024-07-26 18:27:52
# ソフトロボットインタラクションのための解釈可能なビジュオ触覚予測モデルを目指して

Towards Interpretable Visuo-Tactile Predictive Models for Soft Robot Interactions ( http://arxiv.org/abs/2407.12197v2 )

ライセンス: Link先を確認
Enrico Donato, Thomas George Thuruthel, Egidio Falotico, (参考訳) 自律システムは予測不可能な環境をナビゲートし、外部オブジェクトと対話するという、複雑な課題に直面します。 ロボットエージェントを現実世界の状況にうまく統合することは、世界モデルと予測スキルの融合を含む知覚能力に依存している。 効果的な知覚モデルは、周囲を探索するために様々な感覚モダリティの融合の上に構築される。 生の感覚モダリティに応用されたディープラーニングは、実行可能な選択肢を提供する。 しかし、学習に基づく知覚表現は解釈が困難になる。 この課題はソフトロボットにおいて特に顕著であり、構造や素材のコンプライアンスが予測をさらに困難にしている。 我々の研究は、生成モデルを利用してソフトロボットのためのマルチモーダル認識モデルを構築し、対外物体との接触を予測・解釈するために、受容的・視覚的情報を活用することで、この複雑さに対処する。 知覚モデルを理解するための一連のツールが提供され、学習段階の後に複数の感覚入力の融合と予測プロセスに光を当てる。 我々は、知覚モデルとその制御目的への含意の展望を掘り下げる。

Autonomous systems face the intricate challenge of navigating unpredictable environments and interacting with external objects. The successful integration of robotic agents into real-world situations hinges on their perception capabilities, which involve amalgamating world models and predictive skills. Effective perception models build upon the fusion of various sensory modalities to probe the surroundings. Deep learning applied to raw sensory modalities offers a viable option. However, learning-based perceptive representations become difficult to interpret. This challenge is particularly pronounced in soft robots, where the compliance of structures and materials makes prediction even harder. Our work addresses this complexity by harnessing a generative model to construct a multi-modal perception model for soft robots and to leverage proprioceptive and visual information to anticipate and interpret contact interactions with external objects. A suite of tools to interpret the perception model is furnished, shedding light on the fusion and prediction processes across multiple sensory inputs after the learning phase. We will delve into the outlooks of the perception model and its implications for control purposes.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# よりロバストな低予算能動学習のための一般化被覆

Generalized Coverage for More Robust Low-Budget Active Learning ( http://arxiv.org/abs/2407.12212v2 )

ライセンス: Link先を確認
Wonho Bae, Junhyug Noh, Danica J. Sutherland, (参考訳) Yehuda et al の ProbCover 法は低予算体制下での活発な学習のためのよく動機付けられたアルゴリズムであり、与えられた半径の球でデータ分布を探索しようとするものである。 しかし,本アルゴリズムの性能は,この半径ハイパーパラメータの選択に極めて敏感であり,チューニングは非常に困難であり,本来のヒューリスティックは頻繁に失敗することを示した。 したがって、特殊ケースとしてのProbCoverの目的を含む一般化された「被覆」の概念を導入する(そして理論的に動機づける)が、超パラメータ選択に対してはるかに堅牢な滑らかな概念を可能にする。 本稿では、このカバレッジを最適化し、ProbCoverのアルゴリズムを一般化する効率的なグリージー手法を提案する。 この目的は、$k$-medoidsの変種によって非グレードに最適化され、他の低予算のアクティブな学習方法との関係を明確にすることができる。 総合的な実験では、MaxHerdingは複数の低予算画像分類ベンチマークにまたがる既存のアクティブな学習手法を超越し、ほとんどの競争的手法よりも計算コストが低い。

The ProbCover method of Yehuda et al. is a well-motivated algorithm for active learning in low-budget regimes, which attempts to "cover" the data distribution with balls of a given radius at selected data points. We demonstrate, however, that the performance of this algorithm is extremely sensitive to the choice of this radius hyper-parameter, and that tuning it is quite difficult, with the original heuristic frequently failing. We thus introduce (and theoretically motivate) a generalized notion of "coverage," including ProbCover's objective as a special case, but also allowing smoother notions that are far more robust to hyper-parameter choice. We propose an efficient greedy method to optimize this coverage, generalizing ProbCover's algorithm; due to its close connection to kernel herding, we call it "MaxHerding." The objective can also be optimized non-greedily through a variant of $k$-medoids, clarifying the relationship to other low-budget active learning methods. In comprehensive experiments, MaxHerding surpasses existing active learning methods across multiple low-budget image classification benchmarks, and does so with less computational cost than most competitive methods.
公開日:2024-07-24
翻訳日:2024-07-26 18:27:52
# CHOSEN: 効率的な視覚変換器推論のためのハードウェア最適化スタックへのコンパイル

CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference ( http://arxiv.org/abs/2407.12736v3 )

ライセンス: Link先を確認
Mohammad Erfan Sadeghi, Arash Fayyazi, Suhas Somashekar, Massoud Pedram, (参考訳) ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。 従来のアプローチとは異なり、ViTは自然言語処理で広く使われている自己認識機構を使って画像パッチを分析する。 ビジュアルタスクのモデリングにおける利点にもかかわらず、ハードウェアプラットフォーム、特にFPGA(Field-Programmable Gate Arrays)にViTをデプロイすることは、大きな課題をもたらす。 これらの課題は、主に非線形計算と、ViTの高計算およびメモリ要求に起因する。 本稿では,これらの課題に対処するソフトウェア・ハードウェアの共同設計フレームワークであるCHOSENを紹介する。 我々のフレームワークは,帯域幅を最大化するためのマルチカーネル設計,最小精度の劣化を示す非線形関数,FPGA上で利用可能な論理ブロックの効率的な利用,および最適スループットとレイテンシを実現するための設計空間探索のための新しいアルゴリズムを提示することにより,コンピュータカーネルの性能とメモリ効率を最大化するための効率的なコンパイラの3つの基本的コントリビューションに基づいて構築されている。 最先端のViTアクセラレータと比較して、CHOSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。

Vision Transformers (ViTs) represent a groundbreaking shift in machine learning approaches to computer vision. Unlike traditional approaches, ViTs employ the self-attention mechanism, which has been widely used in natural language processing, to analyze image patches. Despite their advantages in modeling visual tasks, deploying ViTs on hardware platforms, notably Field-Programmable Gate Arrays (FPGAs), introduces considerable challenges. These challenges stem primarily from the non-linear calculations and high computational and memory demands of ViTs. This paper introduces CHOSEN, a software-hardware co-design framework to address these challenges and offer an automated framework for ViT deployment on the FPGAs in order to maximize performance. Our framework is built upon three fundamental contributions: multi-kernel design to maximize the bandwidth, mainly targeting benefits of multi DDR memory banks, approximate non-linear functions that exhibit minimal accuracy degradation, and efficient use of available logic blocks on the FPGA, and efficient compiler to maximize the performance and memory-efficiency of the computing kernels by presenting a novel algorithm for design space exploration to find optimal hardware configuration that achieves optimal throughput and latency. Compared to the state-of-the-art ViT accelerators, CHOSEN achieves a 1.5x and 1.42x improvement in the throughput on the DeiT-S and DeiT-B models.
公開日:2024-07-25
翻訳日:2024-07-26 18:27:52
# リハビリテーショントレーニング:大規模言語モデルの訓練における実データの価値

Regurgitative Training: The Value of Real Data in Training Large Language Models ( http://arxiv.org/abs/2407.12835v2 )

ライセンス: Link先を確認
Jinghui Zhang, Dandan Qiao, Mochen Yang, Qiang Wei, (参考訳) 他のLLMによって少なくとも部分的に生成されるデータを使って、新しいLarge Language Model(LLM)をトレーニングした場合、どうなるでしょう? LLMの爆発的な成功は、オンライン上のかなりの量のコンテンツが人間ではなくLCMによって生成されることを意味する。 LLM性能に対するこのような「相対的学習」の影響について検討した。 GPT-3.5を機械翻訳タスクで生成したデータを用いて微調整することにより,LLMの性能が向上することを示す強い証拠が得られた。 私たちがゼロからトレーニングするトランスフォーマーモデルでは、同じパフォーマンスの低下が見られます。 その結果,(1) 誤り率の増加と(2) LLM 生成データにおける語彙の多様性の低下の2つのメカニズムが,実データと比較できる可能性が示唆された。 本研究は,これらのメカニズムを基礎として,学習能力の低下を緩和するための3つの戦略を提案し,評価する。 まず、LLMの生成する各データインスタンスの品質を計測するために、データ駆動メトリクスを考案し、次に、高品質なデータを低品質のデータの前に追加する順序付きトレーニングプロセスを実行します。 第二に、複数の異なるLSMによって生成されたデータを組み合わせる(語彙の多様性を高めるために)。 第3に、LLMと人間生成データとを区別するためにAI検出分類器を訓練し、人生成データと類似した順にLLM生成データを含む。 これら3つの戦略は、ある程度のリグルジティブトレーニングのパフォーマンスを改善することができるが、実際のデータによるトレーニングのギャップを完全に埋めることはできない。 この結果から,LLM 生成データに置き換えることができない LLM の学習において,実際の人為的データの価値が浮き彫りになった。

What happens if we train a new Large Language Model (LLM) using data that are at least partially generated by other LLMs? The explosive success of LLMs means that a substantial amount of content online will be generated by LLMs rather than humans, which will inevitably enter the training datasets of next-generation LLMs. We evaluate the implications of such "regurgitative training" on LLM performance. Through fine-tuning GPT-3.5 with data generated either by itself or by other LLMs in a machine translation task, we find strong evidence that regurgitative training clearly handicaps the performance of LLMs. The same performance loss of regurgitative training is observed on transformer models that we train from scratch. We find suggestive evidence that the performance disadvantage of regurgitative training can be attributed to at least two mechanisms: (1) higher error rates and (2) lower lexical diversity in LLM-generated data as compared to real data. Based on these mechanisms, we propose and evaluate three different strategies to mitigate the performance loss of regurgitative training. First, we devise data-driven metrics to gauge the quality of each LLM-generated data instance, and then carry out an ordered training process where high-quality data are added before low-quality ones. Second, we combine data generated by multiple different LLMs (as an attempt to increase lexical diversity). Third, we train an AI detection classifier to differentiate between LLM- and human-generated data, and include LLM-generated data in the order of resemblance to human-generated data. All three strategies can improve the performance of regurgitative training to some extent but are not always able to fully close the gap from training with real data. Our results highlight the value of real, human-generated data in training LLMs, which cannot be easily substituted by synthetic, LLM-generated data.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# MeshSegmenter: テクスチャ合成によるゼロショットメッシュセマンティックセマンティックセグメンテーション

MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis ( http://arxiv.org/abs/2407.13675v3 )

ライセンス: Link先を確認
Ziming Zhong, Yanxu Xu, Jing Li, Jiale Xu, Zhengxin Li, Chaohui Yu, Shenghua Gao, (参考訳) ゼロショット3Dセマンティックセグメンテーション用に設計されたシンプルで効果的なフレームワークであるMeshSegmenterを提案する。 このモデルは、2Dセグメンテーションモデルの強力な能力を3Dメッシュに拡張し、さまざまなメッシュとセグメント記述の正確な3Dセグメンテーションを実現する。 具体的には,Segment Anything Model(SAM)モデルを用いて,対象領域を3次元形状から描画した画像から分割する。 セグメンテーションにおけるテクスチャの重要性を鑑み,事前訓練した安定拡散モデルを用いて3次元形状のテクスチャ画像を生成し,SAMを利用してテクスチャ画像からターゲット領域をセグメンテーションする。 テクスチャはセグメンテーションの形状を補い、カーメッシュ内の車のドアをセグメンテーションするなど、幾何学的に不明瞭な領域でも正確な3Dセグメンテーションを促進する。 3Dセグメントを実現するために、異なるビューから2D画像を描画し、テクスチャ化された画像と非テクスチャ化された画像の両方に対してセグメンテーションを行う。 最後に,2次元セグメンテーション結果と様々なビューからの信頼スコアを3次元メッシュに統合し,セグメンテーション結果の3次元一貫性を確保し,特定の視点からの不正確さを解消する多視点リボッティング手法を開発した。 これらのイノベーションを通じて、MeshSegmenterは安定的で信頼性の高い3Dセグメンテーションの結果を定量的かつ質的に提供し、3Dゼロショットセグメンテーションの分野におけるトランスフォーメーションツールとしての可能性を強調している。 コードは \url{https://github.com/zimingzhong/MeshSegmenter} で公開されている。

We present MeshSegmenter, a simple yet effective framework designed for zero-shot 3D semantic segmentation. This model successfully extends the powerful capabilities of 2D segmentation models to 3D meshes, delivering accurate 3D segmentation across diverse meshes and segment descriptions. Specifically, our model leverages the Segment Anything Model (SAM) model to segment the target regions from images rendered from the 3D shape. In light of the importance of the texture for segmentation, we also leverage the pretrained stable diffusion model to generate images with textures from 3D shape, and leverage SAM to segment the target regions from images with textures. Textures supplement the shape for segmentation and facilitate accurate 3D segmentation even in geometrically non-prominent areas, such as segmenting a car door within a car mesh. To achieve the 3D segments, we render 2D images from different views and conduct segmentation for both textured and untextured images. Lastly, we develop a multi-view revoting scheme that integrates 2D segmentation results and confidence scores from various views onto the 3D mesh, ensuring the 3D consistency of segmentation results and eliminating inaccuracies from specific perspectives. Through these innovations, MeshSegmenter offers stable and reliable 3D segmentation results both quantitatively and qualitatively, highlighting its potential as a transformative tool in the field of 3D zero-shot segmentation. The code is available at \url{https://github.com/zimingzhong/MeshSegmenter}.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# 街路景観:自己回帰ビデオ拡散を用いた大規模一貫したストリートビュー生成

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion ( http://arxiv.org/abs/2407.13759v2 )

ライセンス: Link先を確認
Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein, (参考訳) そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。 私たちの世代は、言語入力(例えば、都市名、天気)と、所望の軌跡をホストするマップ/レイアウトによって条件付けられています。 近年の映像生成モデルや3Dビュー合成モデルと比較して,映像品質と一貫性を維持しつつ,複数の都市ブロックにまたがるより長い範囲のカメラトラジェクトリにスケールすることができる。 この目的を達成するために、我々は、ビデオ拡散に関する最近の研究に基づいて、長いシーケンスに容易にスケールできる自動回帰フレームワークを用いて構築した。 特に,現実的な都市イメージの分布から自己回帰的アプローチが漂流することを防ぐ新しい時間的計算手法を提案する。 われわれのストリートスケープシステムは、Googleストリートビューの魅力的な画像ソースとコンテキストマップデータに基づいて訓練されており、ユーザーは任意の都市レイアウトで設定された都市ビューを、コントロール可能なカメラのポーズで生成することができる。 詳細はプロジェクトのページhttps://boyangdeng.com/streetscapes.comで確認してください。

We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# 負のプロンプト誘導を用いた言語駆動型6-DoFグラフ検出

Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance ( http://arxiv.org/abs/2407.13842v2 )

ライセンス: Link先を確認
Toan Nguyen, Minh Nhat Vu, Baoru Huang, An Vuong, Quan Vuong, Ngan Le, Thieu Vo, Anh Nguyen, (参考訳) 6-DoFグリップ検出はロボットビジョンの基本的かつ困難な問題である。 従来の研究は安定性の把握に重点を置いていたが、人間の意図が自然言語を通して伝達されることを考慮せず、複雑な3D環境でロボットとユーザの効果的なコラボレーションを妨げることが多かった。 本稿では,乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。 最初にGrasp-Anything-6Dを紹介した。これは1Mポイントクラウドシーンと2億以上の言語関連3Dグリップポーズを備えた言語駆動型6-DoFグリップ検出タスクのための大規模データセットである。 さらに,新たなネガティブな指導指導戦略を取り入れた新しい拡散モデルを導入する。 提案した負のプロンプト戦略は、言語入力を与えられた不要なオブジェクトから切り離したまま、所望のオブジェクトに対して検出プロセスを指示する。 そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。 ベンチマーク実験と実世界のシナリオの両方において,本手法が他のベースラインを上回る効果を示した。 さらに,実世界のロボット応用におけるアプローチの実践性を実証する。 私たちのプロジェクトはhttps://airvlab.github.io/grasp-anything.comで利用可能です。

6-DoF grasp detection has been a fundamental and challenging problem in robotic vision. While previous works have focused on ensuring grasp stability, they often do not consider human intention conveyed through natural language, hindering effective collaboration between robots and users in complex 3D environments. In this paper, we present a new approach for language-driven 6-DoF grasp detection in cluttered point clouds. We first introduce Grasp-Anything-6D, a large-scale dataset for the language-driven 6-DoF grasp detection task with 1M point cloud scenes and more than 200M language-associated 3D grasp poses. We further introduce a novel diffusion model that incorporates a new negative prompt guidance learning strategy. The proposed negative prompt strategy directs the detection process toward the desired object while steering away from unwanted ones given the language input. Our method enables an end-to-end framework where humans can command the robot to grasp desired objects in a cluttered scene using natural language. Intensive experimental results show the effectiveness of our method in both benchmarking experiments and real-world scenarios, surpassing other baselines. In addition, we demonstrate the practicality of our approach in real-world robotic applications. Our project is available at https://airvlab.github.io/grasp-anything.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# 能率・デバイス非依存能動量子状態認証

Efficient and Device-Independent Active Quantum State Certification ( http://arxiv.org/abs/2407.13913v2 )

ライセンス: Link先を確認
Michael Antesberger, Mariana M. E. Schmid, Huan Cao, Borivoje Dakić, Lee A. Rozema, Philip Walther, (参考訳) 絡み合った量子状態は多くの量子技術にとって必須の要素であるが、それらを使用する前に検証する必要がある。 最近の研究は、リソース集約化が禁止されているため、いくつかの興味のあるパラメータを効率的に抽出する手法の開発に重点を置いている。 既存のほとんどのアプローチは、名目上は同一かつ独立な(IID)量子状態のアンサンブルを作成し、その後、アンサンブルの各コピーを測定することに基づいている。 しかし、これは意図した量子タスクに残される状態を残しておらず、IID仮定は常に実験的に成り立つわけではない。 これらの課題を克服するために、我々は、残りの状態の忠実さを証明し、アンサンブルのサブセットのみを測定する量子状態認証(QSC)を実験的に実装した。 能動光スイッチを用いて、2光子ベル状態と3光子GHZ状態の源からランダムにサンプリングし、全アンサンブルを破壊せずに統計的に音質をリアルタイムで報告する。 さらに、当社のQSCプロトコルは、状態が同一であり、デバイス非依存であり、N^{-1}$スケールに近い状態を、測定された$N$の数で達成できるという仮定を取り除いている。 これらの利点により、我々のQSCプロトコルは、大規模量子コンピューティングデバイスのベンチマークに適しており、標準状況と対向状況の両方における絡み合いに依存して、量子通信をデプロイする。

Entangled quantum states are essential ingredients for many quantum technologies, but they must be validated before they are used. As a full characterization is prohibitively resource-intensive, recent work has focused on developing methods to efficiently extract a few parameters of interest, in a so-called verification framework. Most existing approaches are based on preparing an ensemble of nominally identical and independent (IID) quantum states, and then measuring each copy of the ensemble. However, this leaves no states left for the intended quantum tasks and the IID assumptions do not always hold experimentally. To overcome these challenges, we experimentally implement quantum state certification (QSC), which measures only a subset of the ensemble, certifying the fidelity of the remaining states. We use active optical switches to randomly sample from sources of two-photon Bell states and three-photon GHZ states, reporting statistically-sound fidelities in real time without destroying the entire ensemble. Additionally, our QSC protocol removes the assumption that the states are identical, is device-independent, and can achieve close $N^{-1}$ scaling, in the number of states measured $N$. Altogether, these benefits make our QSC protocol suitable for benchmarking large-scale quantum computing devices and deployed quantum communication setups relying on entanglement in both standard and adversarial situations.
公開日:2024-07-24
翻訳日:2024-07-26 18:18:09
# Longhorn: ステートスペースモデルはオンライン学習者の記憶に残るもの

Longhorn: State Space Models are Amortized Online Learners ( http://arxiv.org/abs/2407.14207v2 )

ライセンス: Link先を確認
Bo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu, (参考訳) LLM(Large Language Models)のような現代のAIメソッドの最も基本的な能力は、'sequence modeling'として知られる長いトークン列で次のトークンを予測する能力である。 「トランスフォーマーモデルは、現在、シーケンスモデリングにおいて支配的なアプローチであるが、シーケンス長に関する2次計算コストは、大きな欠点である。 ステートスペースモデル(SSM)は、線形復号効率と訓練中の高い並列化性のために、有望な代替手段を提供する。 しかし、既存のSSMは、しばしばアドホックな線形リカレンス設計に依存している。 本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。 このアプローチは、SSM設計と正確なオンライン学習目標の定式化を結びつけ、これらの目的を最適化した状態遷移規則を導出する。 この知見に基づいて,オンライン回帰目標を最適化するための暗黙の更新に基づく,新しい深層SSMアーキテクチャを提案する。 実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,Mambaモデルを含む最先端のSSMよりも優れていることがわかった。

The most fundamental capability of modern AI methods such as Large Language Models (LLMs) is the ability to predict the next token in a long sequence of tokens, known as ``sequence modeling." Although the Transformers model is the current dominant approach to sequence modeling, its quadratic computational cost with respect to sequence length is a significant drawback. State-space models (SSMs) offer a promising alternative due to their linear decoding efficiency and high parallelizability during training. However, existing SSMs often rely on seemingly ad hoc linear recurrence designs. In this work, we explore SSM design through the lens of online learning, conceptualizing SSMs as meta-modules for specific online learning problems. This approach links SSM design to formulating precise online learning objectives, with state transition rules derived from optimizing these objectives. Based on this insight, we introduce a novel deep SSM architecture based on the implicit update for optimizing an online regression objective. Our experimental results show that our models outperform state-of-the-art SSMs, including the Mamba model, on standard sequence modeling benchmarks and language modeling tasks.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# 連続的パノプティカル知覚:リモートセンシング画像の多モードインクリメンタル解釈に向けて

Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images ( http://arxiv.org/abs/2407.14242v2 )

ライセンス: Link先を確認
Bo Yuan, Danpei Zhao, Zhuoran Liu, Wentao Li, Tian Li, (参考訳) 継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。 しかし、現在のCLメソッドは主に単一タスクに焦点を当てている。 さらに、CLモデルは、複雑な粒度のセマンティクスのためにしばしばリモートセンシングの解釈で起こる古いデータがないため、破滅的な忘れと意味の漂流に悩まされている。 本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,画像レベルの認識を網羅したマルチタスク共同学習モデルであるContinuous Panoptic Perception (CPP)を提案する。 具体的には、画素分類とキャプション生成を同期的にサポートする、入力画像の特徴を抽出するコラボレーティブなクロスモーダルエンコーダ(CCE)を提案する。 メモリを使用せずに古いモデルから知識を継承するために,クロスモーダル最適化とタスク非対称な擬似ラベル(TPL)を利用したタスク対話型知識蒸留(TKD)手法を提案する。 さらに,エンド・ツー・エンドのマルチモーダル・パノプティブ知覚を実現するための共同最適化機構を提案する。 また,提案モデルの有効性を検証し,その精度を13%以上向上させることで,共同最適化によってサブタスクCLの効率が向上することが実証された。

Continual learning (CL) breaks off the one-way training manner and enables a model to adapt to new data, semantics and tasks continuously. However, current CL methods mainly focus on single tasks. Besides, CL models are plagued by catastrophic forgetting and semantic drift since the lack of old data, which often occurs in remote-sensing interpretation due to the intricate fine-grained semantics. In this paper, we propose Continual Panoptic Perception (CPP), a unified continual learning model that leverages multi-task joint learning covering pixel-level classification, instance-level segmentation and image-level perception for universal interpretation in remote sensing images. Concretely, we propose a collaborative cross-modal encoder (CCE) to extract the input image features, which supports pixel classification and caption generation synchronously. To inherit the knowledge from the old model without exemplar memory, we propose a task-interactive knowledge distillation (TKD) method, which leverages cross-modal optimization and task-asymmetric pseudo-labeling (TPL) to alleviate catastrophic forgetting. Furthermore, we also propose a joint optimization mechanism to achieve end-to-end multi-modal panoptic perception. Experimental results on the fine-grained panoptic perception dataset validate the effectiveness of the proposed model, and also prove that joint optimization can boost sub-task CL efficiency with over 13\% relative improvement on panoptic quality.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# ブロックチェーンのトリレンマの定量化 - Algorand,Ethereum 2.0などの比較分析

Quantifying the Blockchain Trilemma: A Comparative Analysis of Algorand, Ethereum 2.0, and Beyond ( http://arxiv.org/abs/2407.14335v1 )

ライセンス: Link先を確認
Yihang Fu, Mingwei Jing, Jiaolun Zhou, Peilin Wu, Ye Wang, Luyao Zhang, Chuang Hu, (参考訳) ブロックチェーン技術はデジタル経済とメタバースにとって不可欠であり、分散金融から仮想資産へのアプリケーションをサポートする。 しかしながら、そのポテンシャルは、分散化、セキュリティ、スケーラビリティのバランスを必要とする"Blockchain Trilemma"によって制約されている。 本研究では、これらの重要な指標に対して、2つの主要な実証実証(PoS)システムであるAlgorandとEthereum 2.0を評価し、比較する。 本研究は,分散化を計測し,トランザクションデータによるスケーラビリティを評価し,潜在的な脆弱性を特定してセキュリティを評価するために,既存の指標を解釈する。 実世界のデータを利用することで、各プラットフォームの戦略を構造化された方法で分析し、トリレンマ問題に対処する上での有効性を理解する。 この結果は各プラットフォームの強みを強調し、他のシステムに適用可能な主要なブロックチェーン特性を評価するための一般的な方法論を提案する。 この研究は、ブロックチェーン技術の理解と、将来のデジタル経済へのその影響を前進させる。 データとコードはGitHubでオープンソースとして公開されている。

Blockchain technology is essential for the digital economy and metaverse, supporting applications from decentralized finance to virtual assets. However, its potential is constrained by the "Blockchain Trilemma," which necessitates balancing decentralization, security, and scalability. This study evaluates and compares two leading proof-of-stake (PoS) systems, Algorand and Ethereum 2.0, against these critical metrics. Our research interprets existing indices to measure decentralization, evaluates scalability through transactional data, and assesses security by identifying potential vulnerabilities. Utilizing real-world data, we analyze each platform's strategies in a structured manner to understand their effectiveness in addressing trilemma challenges. The findings highlight each platform's strengths and propose general methodologies for evaluating key blockchain characteristics applicable to other systems. This research advances the understanding of blockchain technologies and their implications for the future digital economy. Data and code are available on GitHub as open source.
公開日:2024-07-19
翻訳日:2024-07-26 18:18:09
# フェデレーション学習におけるSOTA攻撃防御を破る学習ベースアタックフレームワーク

A Learning-Based Attack Framework to Break SOTA Poisoning Defenses in Federated Learning ( http://arxiv.org/abs/2407.15267v2 )

ライセンス: Link先を確認
Yuxin Yang, Qiang Li, Chenfei Nie, Yuan Hong, Meng Pang, Binghui Wang, (参考訳) Federated Learning(FL)は、データプライバシを保護する新しいクライアントサーバ分散学習フレームワークである。 しかし最近の研究では、FLは毒殺攻撃に弱いことが示されている。 堅牢なアグリゲータ(AGR)を備えた多くの防衛策がこの問題を軽減するために提案されているが、いずれも先進的な攻撃によって破壊されている。 最近になって、いくつかの新しい堅牢なAGRが設計され、通常、斬新なクリッピングや濾過ストラテジーで設計され、先進的な毒殺攻撃に対する防衛性能が期待できる。 本稿では,これらの新規なロバストなAGRも,慎重に設計された毒殺攻撃に対して脆弱であることを示す。 具体的には、これらの堅牢なAGRを壊すことで、悪意のあるクライアントの切断やフィルタリングを回避し、この観察を活用するための最適化ベースのアタックフレームワークを提案する。 フレームワークでは、それぞれのロバストなAGRに対してカスタマイズされた攻撃を設計します。 複数のデータセットと脅威モデルに対する大規模な実験により、提案した最適化ベースの攻撃がSOTA AGRを壊す可能性がある。 そこで我々はFLに対する毒殺攻撃に対する新たな防御を要請した。 コードは、https://github.com/Yuxin104/ BreakSTOAPoisoningDefenses.comで入手できる。

Federated Learning (FL) is a novel client-server distributed learning framework that can protect data privacy. However, recent works show that FL is vulnerable to poisoning attacks. Many defenses with robust aggregators (AGRs) are proposed to mitigate the issue, but they are all broken by advanced attacks. Very recently, some renewed robust AGRs are designed, typically with novel clipping or/and filtering strate-gies, and they show promising defense performance against the advanced poisoning attacks. In this paper, we show that these novel robust AGRs are also vulnerable to carefully designed poisoning attacks. Specifically, we observe that breaking these robust AGRs reduces to bypassing the clipping or/and filtering of malicious clients, and propose an optimization-based attack framework to leverage this observation. Under the framework, we then design the customized attack against each robust AGR. Extensive experiments on multiple datasets and threat models verify our proposed optimization-based attack can break the SOTA AGRs. We hence call for novel defenses against poisoning attacks to FL. Code is available at: https://github.com/Yuxin104/ BreakSTOAPoisoningDefenses.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# 無バイアスシーングラフ生成のための意味的多様性を考慮したプロトタイプベース学習

Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2407.15396v2 )

ライセンス: Link先を確認
Jaehyeong Jeon, Kibum Kim, Kanghoon Yoon, Chanyoung Park, (参考訳) シーングラフ生成(SGG)タスクは、画像内のオブジェクトを検出し、オブジェクト間の関係を表す述語を予測する。 しかし、SGGベンチマークデータセットでは、1つの述語が多様な意味論(セマンティック多様性)を示すとしても、各対象物対に1つの述語が注釈付けされ、既存のSGGモデルは1つの述語と1つの述語のみを予測するように訓練されている。 この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落とし、バイアスのある予測へと繋がる。 本稿では,述語の意味的多様性の理解に基づいて,偏りのない予測を可能にする,モデルに依存しない意味的多様性を意識したプロトタイプベース学習(DPL)フレームワークを提案する。 具体的には、DPLは各述語がカバーする意味空間内の領域を学習し、単一の述語が表現できる様々な意味論を区別する。 提案したモデルに依存しないDPLフレームワークは,既存のSGGモデルに対して大幅な性能向上をもたらし,述語の意味的多様性を効果的に理解することを示した。

The scene graph generation (SGG) task involves detecting objects within an image and predicting predicates that represent the relationships between the objects. However, in SGG benchmark datasets, each subject-object pair is annotated with a single predicate even though a single predicate may exhibit diverse semantics (i.e., semantic diversity), existing SGG models are trained to predict the one and only predicate for each pair. This in turn results in the SGG models to overlook the semantic diversity that may exist in a predicate, thus leading to biased predictions. In this paper, we propose a novel model-agnostic Semantic Diversity-aware Prototype-based Learning (DPL) framework that enables unbiased predictions based on the understanding of the semantic diversity of predicates. Specifically, DPL learns the regions in the semantic space covered by each predicate to distinguish among the various different semantics that a single predicate can represent. Extensive experiments demonstrate that our proposed model-agnostic DPL framework brings significant performance improvement on existing SGG models, and also effectively understands the semantic diversity of predicates.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# 非相対論的タキオン:ガリレイ群の新しい表現

Non-relativistic tachyons: a new representation of the Galilei group ( http://arxiv.org/abs/2407.15466v2 )

ライセンス: Link先を確認
Victor Aldaya, Julio Guerrero, Francisco F. López-Ruiz, (参考訳) ポアンカルイ群の縮約の代数的特徴づけは、そのタキオン表現の非相対論的極限の適切な構成を可能にする。 我々はガリレイ群の一貫した非標準表現にたどり着くが、これは古くから非物理的性質によって無視されていた。 対応する量子(および古典)理論は、その基本となる相対論的理論と共通しており、タキオン表現の異常な振る舞いをよりよく理解するためのおもちゃモデルとして機能する。 例えば、相対論的タキオンのように時間ではなく空間座標で進化が起こるのが分かるが、3モーメントのモジュラリティはガリレオの観測者全員に同じであり、ガリレオ系の新しい分散関係をもたらす。 さらに、新しい表現によって記述されるタキオンオブジェクトは、標準的な意味ではローカライズできない。

An algebraic characterization of the contractions of the Poincar\'e group permits a proper construction of a non-relativistic limit of its tachyonic representation. We arrive at a consistent, nonstandard representation of the Galilei group which was disregarded long ago by supposedly unphysical properties. The corresponding quantum (and classical) theory shares with the relativistic one their fundamentals, and serves as a toy model to better comprehend the unusual behavior of the tachyonic representation. For instance, we see that evolution takes place in a spatial coordinate rather than time, as for relativistic tachyons, but the modulus of the three-momentum is the same for all Galilean observers, leading to a new dispersion relation for a Galilean system. Furthermore, the tachyonic objects described by the new representation cannot be regarded as localizable in the standard sense.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# GPT-4は研究論文の要約における動きを学習できるか?

Can GPT-4 learn to analyze moves in research article abstracts? ( http://arxiv.org/abs/2407.15612v2 )

ライセンス: Link先を確認
Danni Yu, Marina Bondi, Ken Hyland, (参考訳) 記述された談話分析において最も強力で永続的な考えの1つは、ジャンルが作家の目的を構成する動きの観点で説明できることである。 重要な研究は、これらの異なるコミュニケーション行為を特定することを目的としているが、分析は主観性、信頼性、そして複数のコーダが分析を確認するのに時間がかかるという問題によって始められた。 本稿では,自然言語のプロンプトを用いてアノテーション処理を自動化するため,GPT-4の余裕を生かした。 応用言語学雑誌4誌の記事の要約に焦点をあてて,モデルが効果的に動きを識別できるプロンプトを考案した。 これらのプロンプトの注釈付き出力は、2つの評価者によって評価され、3番目の不一致に対処した。 その結果、8発のプロンプトは2回より有効であることが示され、可変性の領域を具体化することで、単一の文中の複数の動きを認識でき、テキスト位置に関するバイアスを低減できることが確認された。 我々は,GPT-4がこのアノテーションプロセスの自動化に有意な可能性を示唆する。

One of the most powerful and enduring ideas in written discourse analysis is that genres can be described in terms of the moves which structure a writer's purpose. Considerable research has sought to identify these distinct communicative acts, but analyses have been beset by problems of subjectivity, reliability and the time-consuming need for multiple coders to confirm analyses. In this paper we employ the affordances of GPT-4 to automate the annotation process by using natural language prompts. Focusing on abstracts from articles in four applied linguistics journals, we devise prompts which enable the model to identify moves effectively. The annotated outputs of these prompts were evaluated by two assessors with a third addressing disagreements. The results show that an 8-shot prompt was more effective than one using two, confirming that the inclusion of examples illustrating areas of variability can enhance GPT-4's ability to recognize multiple moves in a single sentence and reduce bias related to textual position. We suggest that GPT-4 offers considerable potential in automating this annotation process, when human actors with domain specific linguistic expertise inform the prompting process.
公開日:2024-07-24
翻訳日:2024-07-26 18:18:09
# 効率的な骨格に基づく行動認識のための多モード共学習

Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.15706v3 )

ライセンス: Link先を確認
Jinfu Liu, Chen Chen, Mengyuan Liu, (参考訳) スケルトンをベースとした行動認識は、簡潔で弾力性のある骨格の利用により、大きな注目を集めている。 それでも、骨格に詳細なボディ情報がないことは性能を制限しているが、他のマルチモーダル手法ではかなりの推論資源が必要であり、トレーニングと推論の段階でマルチモーダルデータを使用する場合、非効率である。 そこで本研究では,マルチモーダル・コラーニング(MMCL)フレームワークを,マルチモーダル・大規模言語モデル(LLM)を,学習段階における多モーダル・コラーニング(マルチモーダル・コラーニング)に係わる効率的な骨格に基づく行動認識のための補助ネットワークとして活用し,推論における簡潔なスケルトンのみを用いることで,効率を保ちながら,補完的なマルチモーダル・コラーニング(MMCL)フレームワークを提案する。 私たちのMMCLフレームワークは主に2つのモジュールで構成されています。 まず、FAM(Feature Alignment Module)は、ビデオフレームからリッチなRGB機能を抽出し、コントラスト学習を通じてグローバルなスケルトン機能と整合させる。 第二に、FRM(Feature Refinement Module)は、時間的情報とテキスト命令を備えたRGBイメージを使用して、マルチモーダルLLMの強力な一般化に基づくインストラクティブな特徴を生成する。 これらのインストラクティブテキストの特徴は、さらに分類スコアを洗練させ、洗練されたスコアは、ソフトラベルに似た方法でモデルの堅牢性と一般化を強化する。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAベンチマークに対する大規模な実験は, 既存の骨格に基づく行動認識法よりも優れたMMCLの有効性を一貫して検証している。 一方、UTD-MHADとSYSU-Actionデータセットの実験は、ゼロショットおよびドメイン適応的行動認識におけるMMCLの可換な一般化を実証している。 私たちのコードは、https://github.com/liujf69/MMCL-Action.comで公開されています。

Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model's robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:09
# Craft: プロンプトチューニングのロバスト性を改善するクロスモーダルアライメント機能

Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning ( http://arxiv.org/abs/2407.15894v2 )

ライセンス: Link先を確認
Jingchen Sun, Rohan Sharma, Vishnu Suresh Lokhande, Changyou Chen, (参考訳) Prompt Tuningは、様々な下流タスクに視覚言語モデルを適用するための顕著な研究パラダイムとして登場した。 しかし、最近の研究では、訓練サンプルが限られているため、迅速なチューニングが過度に適合することが多いことが示唆されている。 本稿では,この問題に対処するクロスモーダルアラインド・フィーチャーチューニング(Craft)手法を提案する。 クロスモーダルアライメントは、まず代替ドメインからアンカーを選択し、選択されたアンカーに対する埋め込みの相対表現を導出することによって行われる。 アンカーアライメントされたテキストと画像のモダリティに対する特徴アライメント損失の最適化は、より統一されたテキストイメージの共通スペースを生成する。 即時チューニングにおけるオーバーフィッティングは、アウト・オブ・ディストリビューション・サンプルのモデル性能を低下させる。 そこで本研究では, ドメインシフトを軽減するために, アンカー整列した特徴空間上での最大平均離散性(MMD)を最小化することを提案する。 4つの異なるプロンプトチューニング構造に対する実験は、Base-to-Novelの一般化タスクで最大6.1\%、グループロバストネスタスクで5.8\%、アウト・オブ・ディストリビューションタスクで2.7\%、という方法の改善を一貫して示している。 コードはhttps://github.com/Jingchensun/Craftで入手できる。

Prompt Tuning has emerged as a prominent research paradigm for adapting vision-language models to various downstream tasks. However, recent research indicates that prompt tuning methods often lead to overfitting due to limited training samples. In this paper, we propose a Cross-modal Aligned Feature Tuning (Craft) method to address this issue. Cross-modal alignment is conducted by first selecting anchors from the alternative domain and deriving relative representations of the embeddings for the selected anchors. Optimizing for a feature alignment loss over anchor-aligned text and image modalities creates a more unified text-image common space. Overfitting in prompt tuning also deteriorates model performance on out-of-distribution samples. To further improve the prompt model's robustness, we propose minimizing Maximum Mean Discrepancy (MMD) over the anchor-aligned feature spaces to mitigate domain shift. The experiment on four different prompt tuning structures consistently shows the improvement of our method, with increases of up to $6.1\%$ in the Base-to-Novel generalization task, $5.8\%$ in the group robustness task, and $2.7\%$ in the out-of-distribution tasks. The code will be available at https://github.com/Jingchensun/Craft
公開日:2024-07-24
翻訳日:2024-07-26 18:18:09
# チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト事前学習

Spatial-Temporal Cross-View Contrastive Pre-training for Check-in Sequence Representation Learning ( http://arxiv.org/abs/2407.15899v3 )

ライセンス: Link先を確認
Letian Gong, Huaiyu Wan, Shengnan Guo, Xiucheng Li, Yan Lin, Erwen Zheng, Tianyi Wang, Zeyu Zhou, Youfang Lin, (参考訳) 位置情報サービス(LBS)の急速な成長は、人間の移動性に関する膨大なデータを生み出している。 ユーザ生成したチェックインシーケンスに対する意味のある表現を効果的に抽出することは、さまざまなダウンストリームサービスを容易にする上で重要である。 しかし、ユーザ生成チェックインデータは、周囲の客観的状況とユーザの主観的意図に同時に影響される。 具体的には、チェックインデータに現れる時間的不確実性と空間的多様性は、ユーザのマクロな空間的時間的パターンを捉え、ユーザのモビリティ活動の意味を理解するのを困難にしている。 さらに、チェックインシーケンスにおける時間的・空間的な情報の異なる特徴は、これらの2種類の情報を効果的に融合する方法を要求する。 本稿では,チェックインシーケンス表現学習のための空間-時間的クロスビューコントラスト表現(STCCR)フレームワークを提案する。 具体的には、STCCRは「空間的話題」と「時間的意図」の視点から自己スーパービジョンを取り入れ、意味レベルでの空間的情報と時間的情報を効果的に融合させることによって、上記の課題に対処する。 さらに、STCCRはコントラッシブクラスタリングを活用し、多様なモビリティ活動からユーザの共有空間トピックを明らかにすると同時に、時間的不確実性やノイズの影響を軽減するために、角度運動量を利用する。 実世界の3つのデータセット上でSTCCRを広範囲に評価し、3つの下流タスクにおいて優れた性能を示す。

The rapid growth of location-based services (LBS) has yielded massive amounts of data on human mobility. Effectively extracting meaningful representations for user-generated check-in sequences is pivotal for facilitating various downstream services. However, the user-generated check-in data are simultaneously influenced by the surrounding objective circumstances and the user's subjective intention. Specifically, the temporal uncertainty and spatial diversity exhibited in check-in data make it difficult to capture the macroscopic spatial-temporal patterns of users and to understand the semantics of user mobility activities. Furthermore, the distinct characteristics of the temporal and spatial information in check-in sequences call for an effective fusion method to incorporate these two types of information. In this paper, we propose a novel Spatial-Temporal Cross-view Contrastive Representation (STCCR) framework for check-in sequence representation learning. Specifically, STCCR addresses the above challenges by employing self-supervision from "spatial topic" and "temporal intention" views, facilitating effective fusion of spatial and temporal information at the semantic level. Besides, STCCR leverages contrastive clustering to uncover users' shared spatial topics from diverse mobility activities, while employing angular momentum contrast to mitigate the impact of temporal uncertainty and noise. We extensively evaluate STCCR on three real-world datasets and demonstrate its superior performance across three downstream tasks.
公開日:2024-07-25
翻訳日:2024-07-26 18:18:08
# 重み付きスコアリングルールを用いた統計的後処理モデルの訓練による極端風速の確率的予測の改善

Improving probabilistic forecasts of extreme wind speeds by training statistical post-processing models with weighted scoring rules ( http://arxiv.org/abs/2407.15900v2 )

ライセンス: Link先を確認
Jakob Benjamin Wessel, Christopher A. T. Ferro, Gavin R. Evans, Frank Kwasniok, (参考訳) 極端な風速の正確な予測は多くの応用において非常に重要である。 このような予測は通常、数値天気予報(NWP)モデルのアンサンブルによって生成されるが、バイアスがあり、分散の誤差があり、統計的後処理技術を適用する必要がある。 本研究では,極端風速の確率論的予測のための統計的後処理モデルの改善を目的とする。 我々は、アンサンブルモデル出力統計(EMOS)モデルに適合させる訓練手順を調整し、しきい値の予測に特に重点を置く適切なスコアルールである閾値重み付き連続ランク確率スコア(twCRPS)を用いてパラメータを推定することを提案する。 twCRPSを用いたトレーニングにより,様々なしきい値に対する後処理モデルの極端なイベント性能が向上することを示す。 極端事象の確率論的予測の性能が向上し,分布物体の予測性能が低下する分布体テールトレードオフが発見された。 しかし,重み付きトレーニングと線形プールに基づいて,このトレードオフを緩和する戦略を導入する。 最後に,twCRPSの学習効果を説明するための合成実験と,複数の分布に対するtwCRPSのクローズドフォーム表現の導出について考察する。 その結果、研究者や実践者は、極端や他の関心事に対する確率的予測モデルの性能を向上させることができる。

Accurate forecasts of extreme wind speeds are of high importance for many applications. Such forecasts are usually generated by ensembles of numerical weather prediction (NWP) models, which however can be biased and have errors in dispersion, thus necessitating the application of statistical post-processing techniques. In this work we aim to improve statistical post-processing models for probabilistic predictions of extreme wind speeds. We do this by adjusting the training procedure used to fit ensemble model output statistics (EMOS) models - a commonly applied post-processing technique - and propose estimating parameters using the so-called threshold-weighted continuous ranked probability score (twCRPS), a proper scoring rule that places special emphasis on predictions over a threshold. We show that training using the twCRPS leads to improved extreme event performance of post-processing models for a variety of thresholds. We find a distribution body-tail trade-off where improved performance for probabilistic predictions of extreme events comes with worse performance for predictions of the distribution body. However, we introduce strategies to mitigate this trade-off based on weighted training and linear pooling. Finally, we consider some synthetic experiments to explain the training impact of the twCRPS and derive closed-form expressions of the twCRPS for a number of distributions, giving the first such collection in the literature. The results will enable researchers and practitioners alike to improve the performance of probabilistic forecasting models for extremes and other events of interest.
公開日:2024-07-25
翻訳日:2024-07-26 18:08:23
# マルチパーティ量子システムにおける量子相互情報と相互作用情報のファミリー

Family of Quantum Mutual Information and Interaction Information in Multiparty Quantum Systems ( http://arxiv.org/abs/2407.16365v2 )

ライセンス: Link先を確認
Asutosh Kumar, (参考訳) マルチパーティシステムで情報を特徴付けることは非常に重要だが、面倒だ。 我々は条件付き相互情報の概念をマルチパーティシステムに拡張し、真のマルチパーティ量子相互情報のファミリーを導入する。 この文献で知られている多党間の量子相互情報の2つのバージョンは、このファミリーの一部である。 また、量子暗号に有用な秘密のモノトンを推測する。 我々は解釈を与え、それらの性質といくつかの未解決問題について議論する。

Characterizing information in a multiparty system is crucial but cumbersome. We extend the notion of conditional mutual information to multiparty systems and introduce a family of genuinely multiparty quantum mutual information. The two versions of multiparty quantum mutual information known in the literature are part of this family. We also conjecture them to qualify for secrecy monotones useful in quantum cryptography. We give interpretations and discuss their properties and some unresolved issues.
公開日:2024-07-25
翻訳日:2024-07-26 18:08:23
# 時系列予測は自動化できるか?ベンチマークと分析

Can time series forecasting be automated? A benchmark and analysis ( http://arxiv.org/abs/2407.16445v2 )

ライセンス: Link先を確認
Anvitha Thirthapura Sreedhara, Joaquin Vanschoren, (参考訳) 機械学習と人工知能の分野では、時系列予測は金融、医療、気象といった様々な分野において重要な役割を担っている。 しかし、与えられたデータセットに対して最適な予測方法を選択するタスクは、データパターンや特徴の多様性のために複雑なタスクである。 本研究は,幅広いデータセットを対象とした時系列予測手法の評価とランキングのための総合ベンチマークを提案することにより,この問題に対処することを目的とする。 本研究では,2つの著名な時系列予測フレームワークであるAutoGluon-Timeseriesとsktimeから得られた多くの手法の比較性能について検討した。 本研究は,厳密なベンチマーク手法を提供することにより時系列予測の分野に寄与し,最適予測を達成するための予測方法を選択する際の情報決定を容易にする。

In the field of machine learning and artificial intelligence, time series forecasting plays a pivotal role across various domains such as finance, healthcare, and weather. However, the task of selecting the most suitable forecasting method for a given dataset is a complex task due to the diversity of data patterns and characteristics. This research aims to address this challenge by proposing a comprehensive benchmark for evaluating and ranking time series forecasting methods across a wide range of datasets. This study investigates the comparative performance of many methods from two prominent time series forecasting frameworks, AutoGluon-Timeseries, and sktime to shed light on their applicability in different real-world scenarios. This research contributes to the field of time series forecasting by providing a robust benchmarking methodology and facilitating informed decision-making when choosing forecasting methods for achieving optimal prediction.
公開日:2024-07-25
翻訳日:2024-07-26 18:08:23