このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230928となっている論文です。

PDF登録状況(公開日: 20230928)

TitleAuthorsAbstract論文公表日・翻訳日
# 感度の幾何学:最適ガウス雑音による差分プライバシーにおける二重サンプリングとハイブリッドクリッピングとディープラーニングへの応用

Geometry of Sensitivity: Twice Sampling and Hybrid Clipping in Differential Privacy with Optimal Gaussian Noise and Application to Deep Learning ( http://arxiv.org/abs/2309.02672v2 )

ライセンス: Link先を確認
Hanshen Xiao, Jun Wan, Srinivas Devadas, (参考訳) 微分プライバシーにおける最適ランダム化構築の根本的な問題について検討する。 処理関数のクリッピング戦略や追加特性により、対応する感度セットは、必要なセキュリティパラメータを生成するために必要なランダム化を理論的に決定する。 最適ユーティリティとプライバシのトレードオフに向けて、適切に選択された感度セットに対する最小限の摂動を求めることは、DP研究の中心的な問題である。 実際には、ガウス/ラプラスノイズ機構を持つl_2/l_1-ノルムクリッピングが最も一般的な設定である。 しかし、これも次元の呪いに苦しむ。 より一般的なクリッピング戦略については、高次元感度集合に対する最適雑音の理解は限定的である。 本稿では,高次元感度集合の幾何学を再検討し,R'enyi DP(RDP)の漸近的最適ガウス雑音を特徴付ける一連の結果を示す。 しかし、幸運なことに、この感度集合の表現が直交基底のある群で非対称であるなら、最適雑音境界は次元または階数に明示的に依存する必要はない。 また,大規模データ処理におけるプライバシ増幅と計算効率の両面での鍵となる,高次元シナリオにおけるサンプリングを再考する。 そこで本研究では,ガウス雑音を感度幾何に適合させるため,サンプルワイドサンプリングと座標ワイドサンプリングの両方を実装した2重サンプリングという新しい手法を提案する。 クローズドフォーム RDP 分析により、特に小さなサンプリングレートにおいて、追加の無限ノルム制限が与えられた場合、二重サンプリングは、プライバシー増幅の漸近的改善をもたらすことが証明された。

We study the fundamental problem of the construction of optimal randomization in Differential Privacy. Depending on the clipping strategy or additional properties of the processing function, the corresponding sensitivity set theoretically determines the necessary randomization to produce the required security parameters. Towards the optimal utility-privacy tradeoff, finding the minimal perturbation for properly-selected sensitivity sets stands as a central problem in DP research. In practice, l_2/l_1-norm clippings with Gaussian/Laplace noise mechanisms are among the most common setups. However, they also suffer from the curse of dimensionality. For more generic clipping strategies, the understanding of the optimal noise for a high-dimensional sensitivity set remains limited. In this paper, we revisit the geometry of high-dimensional sensitivity sets and present a series of results to characterize the non-asymptotically optimal Gaussian noise for R\'enyi DP (RDP). Our results are both negative and positive: on one hand, we show the curse of dimensionality is tight for a broad class of sensitivity sets satisfying certain symmetry properties; but if, fortunately, the representation of the sensitivity set is asymmetric on some group of orthogonal bases, we show the optimal noise bounds need not be explicitly dependent on either dimension or rank. We also revisit sampling in the high-dimensional scenario, which is the key for both privacy amplification and computation efficiency in large-scale data processing. We propose a novel method, termed twice sampling, which implements both sample-wise and coordinate-wise sampling, to enable Gaussian noises to fit the sensitivity geometry more closely. With closed-form RDP analysis, we prove twice sampling produces asymptotic improvement of the privacy amplification given an additional infinity-norm restriction, especially for small sampling rate.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-28
# スコアモデルによるベイジアン・クラメール・ラオ境界の推定

Bayesian Cramér-Rao Bound Estimation with Score-Based Models ( http://arxiv.org/abs/2309.16076v1 )

ライセンス: Link先を確認
Evan Scope Crafts, Xianyang Zhang, Bo Zhao, (参考訳) ベイジアンクラム・ラオ境界(英語版)(英: Bayesian Cram\'er-Rao bound, CRB)は、任意のベイジアン推定子の誤差の低い値を与える。 推定器の性能のベンチマークに使用することができ、システム設計と最適化の指針となる設計基準を提供する。 しかし、ベイジアン CRB は以前の分布に依存しており、多くの問題に対してしばしば未知である。 本研究は,ベイジアン CRB のための新しいデータ駆動推定器の開発である,統計的推定手法であるスコアマッチングを用いて,事前分布をモデル化する。 推定器の性能は古典的パラメトリックモデリングシステムとニューラルネットワークモデリングシステムの両方で分析される。 いずれの設定においても,スコアマッチング誤差とベイジアン CRB 推定器の非漸近境界を新たに構築する。 我々の証明は、古典的境界を含む経験的プロセス理論の結果に基づいており、最近ニューラルネットワークの特徴付け技術を導入し、スコアマッチングエラーのバウンディングの課題に対処している。 推定器の性能は、前述したガウス混合を用いたデノナイジング問題の例に実証的に説明される。

The Bayesian Cram\'er-Rao bound (CRB) provides a lower bound on the error of any Bayesian estimator under mild regularity conditions. It can be used to benchmark the performance of estimators, and provides a principled design metric for guiding system design and optimization. However, the Bayesian CRB depends on the prior distribution, which is often unknown for many problems of interest. This work develops a new data-driven estimator for the Bayesian CRB using score matching, a statistical estimation technique, to model the prior distribution. The performance of the estimator is analyzed in both the classical parametric modeling regime and the neural network modeling regime. In both settings, we develop novel non-asymptotic bounds on the score matching error and our Bayesian CRB estimator. Our proofs build on results from empirical process theory, including classical bounds and recently introduced techniques for characterizing neural networks, to address the challenges of bounding the score matching error. The performance of the estimator is illustrated empirically on a denoising problem example with a Gaussian mixture prior.
翻訳日:2024-03-25 14:25:03 公開日:2023-09-28
# キャッシュタイムアタックを解決するランダムで安全なキャッシュアーキテクチャ

Random and Safe Cache Architecture to Defeat Cache Timing Attacks ( http://arxiv.org/abs/2309.16172v1 )

ライセンス: Link先を確認
Guangyuan Hu, Ruby B. Lee, (参考訳) キャッシュは、メモリアクセスの処理に要する時間が異なるため、秘密情報を漏洩するために悪用されている。 キャッシュタイミングアタックには、非投機的キャッシュサイドとシークレットチャネルアタック、キャッシュベースの投機的実行アタックが含まれる。 まず,攻撃・防御空間を体系的に把握し,既存の防御が投機的・非投機的キャッシュタイミング攻撃ファミリーに対処していないことを示す。 我々はRandom and Safe(RaS)キャッシュアーキテクチャを提案する。 RaSはキャッシュに '`safe'' のキャッシュラインを埋める。 RaSは実行中に安全なアドレスのグループをキャプチャし、これらのアドレスからランダムに置換されたアドレスをフェッチする。 提案したRaSアーキテクチャは,セキュリティとパフォーマンスのトレードオフを可能にする。 キャッシュサイドチャネル攻撃とキャッシュベースの投機的実行攻撃を倒すことができるRaSアーキテクチャの異なる設計を示す。 キャッシュベースの投機的実行攻撃に対するRaSの変種は平均パフォーマンスオーバーヘッドが4.2%、攻撃ファミリーに対する他のRaS変種は平均オーバーヘッドが7.9%から45.2%である。 いくつかのベンチマークでは、RaSディフェンスはセキュリティを提供しながらパフォーマンスを改善している。

Caches have been exploited to leak secret information due to the different times they take to handle memory accesses. Cache timing attacks include non-speculative cache side and covert channel attacks and cache-based speculative execution attacks. We first present a systematic view of the attack and defense space and show that no existing defense has addressed both speculative and non-speculative cache timing attack families, which we do in this paper. We propose Random and Safe (RaS) cache architectures to decorrelate the cache state changes from memory requests. RaS fills the cache with ``safe'' cache lines that are likely to be used in the future, rather than with demand-fetched, security-sensitive lines. RaS captures a group of safe addresses during runtime and fetches addresses randomly displaced from these addresses. Our proposed RaS architecture is flexible to allow security-performance trade-offs. We show different designs of RaS architectures that can defeat cache side-channel attacks and cache-based speculative execution attacks. The RaS variant against cache-based speculative execution attacks has 4.2% average performance overhead and other RaS variants against both attack families have 7.9% to 45.2% average overhead. For some benchmarks, RaS defenses improve the performance while providing security.
翻訳日:2024-03-25 14:25:03 公開日:2023-09-28
# Libertas: 分散パーソナルデータストアのためのプライバシ保護計算

Libertas: Privacy-Preserving Computation for Decentralised Personal Data Stores ( http://arxiv.org/abs/2309.16365v1 )

ライセンス: Link先を確認
Rui Zhao, Naman Goel, Nitin Agrawal, Jun Zhao, Jake Stein, Ruben Verborgh, Reuben Binns, Tim Berners-Lee, Nigel Shadbolt, (参考訳) データ駆動意思決定とAIアプリケーションは、幅広い利益をもたらすエキサイティングな新しい機会を提供する。 このようなアプリケーションが急速に採用されると、プライバシーの喪失や個人情報の誤用に関する正当な懸念が引き起こされる。 これにより、Web上のユビキタスデータの収集と、個人を保護する必要性の間に、ますます広まりつつある緊張関係がもたらされる。 Solidのような分散パーソナルデータストア(PDS)は、個人が個人データを究極のコントロールできるように設計されたフレームワークである。 しかし、現在のPDSアプローチでは、計算がユーザ全体に分散したデータを組み合わせた場合、プライバシを確保するためのサポートが制限されている。 Secure Multi-Party Computation (MPC)は、暗号化のよく知られたサブフィールドであり、複数の自律的パーティが、入力の秘密性(入力プライバシ)を確保しながら、関数を協調的に計算することを可能にする。 これら2つの技術は相互に補完するが、既存のプラクティスは、PSD環境にMPCを導入する際の要件と課題に対処するには不十分である。 この文脈における分散化の要件を尊重しつつ,MPCとSolidを統合するモジュール設計を提案する。 私たちのアーキテクチャであるLibertasでは、基盤となるSolidの設計にプロトコルレベルの変更は必要ありません。 さらに、既存の差分プライバシー技術と組み合わせて、出力プライバシーを確保する方法も示しています。 実証的なベンチマークを使用して、実装と設計の選択を通知し、評価します。 提案方式の技術的実現可能性と拡張性パターンを2つの新しいシナリオで示す。 1 ギグワーカーの収益データに集計計算を付与すること。 2) 信頼性センタを必要とせず, 高品質な差分合成データを生成する。 これにより、リベタスの線形スケーラビリティを実証し、そのようなアーキテクチャの下での計算最適化に関する洞察を得た。

Data-driven decision-making and AI applications present exciting new opportunities delivering widespread benefits. The rapid adoption of such applications triggers legitimate concerns about loss of privacy and misuse of personal data. This leads to a growing and pervasive tension between harvesting ubiquitous data on the Web and the need to protect individuals. Decentralised personal data stores (PDS) such as Solid are frameworks designed to give individuals ultimate control over their personal data. But current PDS approaches have limited support for ensuring privacy when computations combine data spread across users. Secure Multi-Party Computation (MPC) is a well-known subfield of cryptography, enabling multiple autonomous parties to collaboratively compute a function while ensuring the secrecy of inputs (input privacy). These two technologies complement each other, but existing practices fall short in addressing the requirements and challenges of introducing MPC in a PDS environment. For the first time, we propose a modular design for integrating MPC with Solid while respecting the requirements of decentralisation in this context. Our architecture, Libertas, requires no protocol level changes in the underlying design of Solid, and can be adapted to other PDS. We further show how this can be combined with existing differential privacy techniques to also ensure output privacy. We use empirical benchmarks to inform and evaluate our implementation and design choices. We show the technical feasibility and scalability pattern of the proposed system in two novel scenarios -- 1) empowering gig workers with aggregate computations on their earnings data; and 2) generating high-quality differentially-private synthetic data without requiring a trusted centre. With this, we demonstrate the linear scalability of Libertas, and gained insights about compute optimisations under such an architecture.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-28
# 仮想アセットサービスプロバイダの解決度を評価する: 現在の標準は十分か?

Assessing the Solvency of Virtual Asset Service Providers: Are Current Standards Sufficient? ( http://arxiv.org/abs/2309.16408v1 )

ライセンス: Link先を確認
Pietro Saggese, Esther Segalla, Michael Sigmund, Burkhard Raunig, Felix Zangerl, Bernhard Haslhofer, (参考訳) 中央集権暗号通貨取引所のようなエンティティは、仮想資産サービスプロバイダ(VASP)のビジネスカテゴリに該当する。 他のどの企業もそうであるように、彼らは倒産することがある。 VASPは、分散台帳技術(DLT)間でウォレットに整理された暗号通貨の交換、保持、転送を可能にする。 DLTトランザクションの公開にもかかわらず、VASPの暗号保持は、まだ体系的な監査手続きの対象にはなっていない。 本稿では、暗号ウォレット、商業登録簿のバランスシート、監督機関のデータという3つの異なる情報源からのデータを相互参照することで、VASPの可溶性を評価するアプローチを提案する。 オーストリアのフィナンシャル・マーケット・オーソリティに登録されている24のVASPを調査し、誰が顧客で、どこから来たのかといった規制データインサイトを提供する。 同社の年間取引額は、約18億人のユーザに対して20億のEURに上っている。 銀行ではなく、ブローカー、マネー交換、ファンドといった従来の仲介業者と最もよく似た金融サービスについて説明する。 次に、4つのVASPのDLTトランザクションフローを実証的に測定し、それらの暗号保持率とバランスシートエントリを比較した。 データは2つのVASPのみに一貫性がある。 これにより、データ収集のギャップを特定し、それに対応するための戦略を提案します。 監査担当者は、VASPがオンチェーンウォレットに関連する資金を実際に制御していることの証明が必要であることを指摘します。 また、資産タイプによって分割されたフィアット・暗号・債務のポジションを合理的な頻度で報告することが重要である。

Entities like centralized cryptocurrency exchanges fall under the business category of virtual asset service providers (VASPs). As any other enterprise, they can become insolvent. VASPs enable the exchange, custody, and transfer of cryptoassets organized in wallets across distributed ledger technologies (DLTs). Despite the public availability of DLT transactions, the cryptoasset holdings of VASPs are not yet subject to systematic auditing procedures. In this paper, we propose an approach to assess the solvency of a VASP by cross-referencing data from three distinct sources: cryptoasset wallets, balance sheets from the commercial register, and data from supervisory entities. We investigate 24 VASPs registered with the Financial Market Authority in Austria and provide regulatory data insights such as who are the customers and where do they come from. Their yearly incoming and outgoing transaction volume amount to 2 billion EUR for around 1.8 million users. We describe what financial services they provide and find that they are most similar to traditional intermediaries such as brokers, money exchanges, and funds, rather than banks. Next, we empirically measure DLT transaction flows of four VASPs and compare their cryptoasset holdings to balance sheet entries. Data are consistent for two VASPs only. This enables us to identify gaps in the data collection and propose strategies to address them. We remark that any entity in charge of auditing requires proof that a VASP actually controls the funds associated with its on-chain wallets. It is also important to report fiat and cryptoasset and liability positions broken down by asset types at a reasonable frequency.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-28
# サイバーセンチネル: GPT-4によるセキュリティタスクの合理化における会話エージェントの探索

Cyber Sentinel: Exploring Conversational Agents in Streamlining Security Tasks with GPT-4 ( http://arxiv.org/abs/2309.16422v1 )

ライセンス: Link先を確認
Mehrdad Kaheh, Danial Khosh Kholgh, Panos Kostakos, (参考訳) サイバースペースが戦場であり、現代の社会のバックボーンでもある時代には、デジタル資産を絶え間なく進化する脅威から守るという緊急性が最優先される。 本稿では,組織内の潜在的なサイバー脅威をユーザに対して説明し,ユーザから指示を受けた場合に,積極的にかつ積極的なセキュリティ措置をとるという2つのコア機能を効果的に管理できる,革新的なタスク指向型サイバーセキュリティ対話システムであるCyber Sentinelを紹介する。 サイバーセンチネル(Cyber Sentinel)は、人工知能、サイバーセキュリティドメインの専門知識、リアルタイムデータ分析の融合を具体化し、サイバー敵による多面的課題に対処する。 この記事では、このようなシステムの構築プロセスと、サイバーセキュリティ組織で典型的に見られる他のコンポーネントとの相互作用について述べる。 我々の研究はタスク指向対話システムに対する新しいアプローチであり、全てのサブタスクをまたいだ迅速なエンジニアリングと組み合わせたGPT-4モデルの連鎖の力を活用している。 我々はまた、このフレームワークがシステムの透明性(説明可能なAI)を高めるだけでなく、意思決定プロセスの合理化や脅威(予測可能なAI)への対応も行っており、サイバーセキュリティコミュニケーションの領域における重要な進歩を示している、と結論付けながら、サイバーセキュリティコミュニケーションとインタラクションの強化におけるその重要な役割を強調します。

In an era where cyberspace is both a battleground and a backbone of modern society, the urgency of safeguarding digital assets against ever-evolving threats is paramount. This paper introduces Cyber Sentinel, an innovative task-oriented cybersecurity dialogue system that is effectively capable of managing two core functions: explaining potential cyber threats within an organization to the user, and taking proactive/reactive security actions when instructed by the user. Cyber Sentinel embodies the fusion of artificial intelligence, cybersecurity domain expertise, and real-time data analysis to combat the multifaceted challenges posed by cyber adversaries. This article delves into the process of creating such a system and how it can interact with other components typically found in cybersecurity organizations. Our work is a novel approach to task-oriented dialogue systems, leveraging the power of chaining GPT-4 models combined with prompt engineering across all sub-tasks. We also highlight its pivotal role in enhancing cybersecurity communication and interaction, concluding that not only does this framework enhance the system's transparency (Explainable AI) but also streamlines the decision-making process and responding to threats (Actionable AI), therefore marking a significant advancement in the realm of cybersecurity communication.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-28
# HQCにおける定数時間サンプリングの効率的なハードウェア実装

Efficient Hardware Implementation of Constant Time Sampling for HQC ( http://arxiv.org/abs/2309.16493v1 )

ライセンス: Link先を確認
Maximilian Schöffel, Johannes Feldmann, Norbert Wehn, (参考訳) HQCは、NISTのポスト量子暗号標準化プロセスの最終ラウンドにおける、コードベースのファイナリストの1つである。 このプロセスでは、セキュリティと実装の効率が候補の選択の鍵となる指標となる。 HQCにおけるハードウェアの効率的な実装とセキュリティに関して重要な計算カーネルは、乱数を引き出すのに使用されるサンプリング方法である。 セキュリティの臨界により、最近、サイドチャネル攻撃に対する堅牢性を高めるためにサンプリングアルゴリズムが更新された。 本稿では,この新たなサンプリングアルゴリズムを最適化し,元のアルゴリズムセキュリティとサイドチャネルアタックロバスト性を含むことなく,効率的なハードウェア実装を実現するためのクロスレイヤアプローチを提案する。 我々は,クロス層実装を,元のアルゴリズムの直接ハードウェア実装と比較し,以前のサンプルバージョンを最適化した実装と比較する。 全ての実装は Xilinx Artix 7 FPGA を用いて評価される。 提案手法は,従来のアルゴリズムに比べて24倍のレイテンシと28倍のレイテンシを低下させることを示した。

HQC is one of the code-based finalists in the last round of the NIST post quantum cryptography standardization process. In this process, security and implementation efficiency are key metrics for the selection of the candidates. A critical compute kernel with respect to efficient hardware implementations and security in HQC is the sampling method used to derive random numbers. Due to its security criticality, recently an updated sampling algorithm was presented to increase its robustness against side-channel attacks. In this paper, we pursue a cross layer approach to optimize this new sampling algorithm to enable an efficient hardware implementation without comprising the original algorithmic security and side-channel attack robustness. We compare our cross layer based implementation to a direct hardware implementation of the original algorithm and to optimized implementations of the previous sampler version. All implementations are evaluated using the Xilinx Artix 7 FPGA. Our results show that our approach reduces the latency by a factor of 24 compared to the original algorithm and by a factor of 28 compared to the previously used sampler with significantly less resources.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-28
# 付加製造におけるデータアセット管理のための階層型セキュリティガイダンス

Layered Security Guidance for Data Asset Management in Additive Manufacturing ( http://arxiv.org/abs/2309.16842v1 )

ライセンス: Link先を確認
Fahad Ali Milaat, Joshua Lubell, (参考訳) 製造業は、重要なシステムで機能部品を製造するために添加物製造技術(AM)をますます採用している。 しかし、AM設計とAMプロセスの両方の本質的な複雑さは、サイバー攻撃の魅力的なターゲットとなっている。 リスクベースの情報技術(IT)と運用技術(OT)のセキュリティガイダンス標準は、AMセキュリティ実践者にとって有用なリソースであるが、それらが提供するガイドラインは、追加のAM固有の修正なしには不十分である。 したがって、これらのリビジョンを既存のITおよびOTセキュリティガイダンス標準と効率的に統合するために、構造化階層化アプローチが必要である。 このようなアプローチを実現するために,国立標準技術研究所のサイバーセキュリティフレームワーク(CSF)を活用して,特定のセキュリティ成果を達成するための階層化されたリスクベースのガイダンスを開発することを提案する。 それは、リスクベースのセキュリティに対するAMデータと資産管理の重要性を明らかにする詳細な文献レビューから始まります。 次に、AM固有のガイダンスを提供する例として、CSFアセット識別と管理セキュリティ結果を採用し、データフローや文書化プロセスのマッピングを支援するために、AM幾何とプロセス定義を識別する。 最後に、Open Security Controls Assessment Languageを用いて、AM固有のガイダンスと既存のITおよびOTセキュリティガイダンスを厳格かつトレース可能な方法で統合する。 本論文は,現在不足しているAM固有のセキュリティガイダンスのオーサリング,パブリッシング,管理をリスクベースの階層化アプローチがいかに可能かを示すものである。 著者らは、レイヤー化アプローチの実装は、既存のガイダンスと一致したAMの付加価値、非冗長なセキュリティガイダンスをもたらすと考えている。

Manufacturing industries are increasingly adopting additive manufacturing (AM) technologies to produce functional parts in critical systems. However, the inherent complexity of both AM designs and AM processes render them attractive targets for cyber-attacks. Risk-based Information Technology (IT) and Operational Technology (OT) security guidance standards are useful resources for AM security practitioners, but the guidelines they provide are insufficient without additional AM-specific revisions. Therefore, a structured layering approach is needed to efficiently integrate these revisions with preexisting IT and OT security guidance standards. To implement such an approach, this paper proposes leveraging the National Institute of Standards and Technology's Cybersecurity Framework (CSF) to develop layered, risk-based guidance for fulfilling specific security outcomes. It begins with an in-depth literature review that reveals the importance of AM data and asset management to risk-based security. Next, this paper adopts the CSF asset identification and management security outcomes as an example for providing AM-specific guidance and identifies the AM geometry and process definitions to aid manufacturers in mapping data flows and documenting processes. Finally, this paper uses the Open Security Controls Assessment Language to integrate the AM-specific guidance together with existing IT and OT security guidance in a rigorous and traceable manner. This paper's contribution is to show how a risk-based layered approach enables the authoring, publishing, and management of AM-specific security guidance that is currently lacking. The authors believe implementation of the layered approach would result in value-added, non-redundant security guidance for AM that is consistent with the preexisting guidance.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-28
# 暗号システムにおける薄型市場問題への自動市場メーカのアプローチ

How Automated Market Makers Approach the Thin Market Problem in Cryptoeconomic Systems ( http://arxiv.org/abs/2309.12818v2 )

ライセンス: Link先を確認
Daniel Kirste, Niclas Kannengießer, Ricky Lamberty, Ali Sunyaev, (参考訳) 自動市場メーカ(AMM)の適切な設計は、暗号システムの市場におけるデジタルトークンとして表される資産の継続的な取引を可能にするために不可欠である。 不適切な設計のAMMは、そのような市場が薄型市場問題(TMP)に悩まされる可能性があるため、暗号システムはその目的を達成できない可能性がある。 AMM設計特性を示すAMM分類法を開発した。 AMM分類に基づいて,TMPの主解法を実装したAMMアーチタイプを考案した。 本稿の主な目的は、適切なAMM設計を通じてTMPに取り組む実践者や研究者を支援することである。

The proper design of automated market makers (AMMs) is crucial to enable the continuous trading of assets represented as digital tokens on markets of cryptoeconomic systems. Improperly designed AMMs can make such markets suffer from the thin market problem (TMP), which can cause cryptoeconomic systems to fail their purposes. We developed an AMM taxonomy that showcases AMM design characteristics. Based on the AMM taxonomy, we devised AMM archetypes implementing principal solution approaches for the TMP. The main purpose of this article is to support practitioners and researchers in tackling the TMP through proper AMM designs.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-28
# クラウド監視 - クラウドホステッドサービスに対する攻撃を理解する

Cloud Watching: Understanding Attacks Against Cloud-Hosted Services ( http://arxiv.org/abs/2309.13471v2 )

ライセンス: Link先を確認
Liz Izhikevich, Manda Tran, Michalis Kallitsis, Aurore Fass, Zakir Durumeric, (参考訳) クラウドコンピューティングはサービスのデプロイメントパターンを劇的に変えた。 本研究では、従来のエンタープライズネットワークやネットワーク望遠鏡とは対照的に、攻撃者がクラウドサービスを識別し、ターゲットにする方法を分析する。 5~プロジェクタと23~カウンタの多様なクラウドハニーポットと2~教育ネットワークと1~ネットワーク望遠鏡を用いて、IPアドレスの割り当て、地理、ネットワーク、およびサービスポートの選択がどのようにクラウドでターゲットとなっているサービスに影響を与えるかを分析する。 クラウドコンピューティングをターゲットにしたスキャナーは、正当なサービスなしでネットワークをスキャンすることを避け、地理的な地域間で差別化することを発見した。 さらに、攻撃者は悪用可能なサービスを見つけるためにインターネットサービス検索エンジンをマイニングし、場合によってはIANAに割り当てられたプロトコルのターゲティングを避けるため、研究者は特定のポートでのトラフィックの少なくとも15%を誤分類する。 本研究の結果から,研究者やオペレーターに対する勧告を導出する。

Cloud computing has dramatically changed service deployment patterns. In this work, we analyze how attackers identify and target cloud services in contrast to traditional enterprise networks and network telescopes. Using a diverse set of cloud honeypots in 5~providers and 23~countries as well as 2~educational networks and 1~network telescope, we analyze how IP address assignment, geography, network, and service-port selection, influence what services are targeted in the cloud. We find that scanners that target cloud compute are selective: they avoid scanning networks without legitimate services and they discriminate between geographic regions. Further, attackers mine Internet-service search engines to find exploitable services and, in some cases, they avoid targeting IANA-assigned protocols, causing researchers to misclassify at least 15\% of traffic on select ports. Based on our results, we derive recommendations for researchers and operators.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-28
# 分散型自治組織のガバナンス : 投票力における貢献者の影響・ネットワーク・変化に関する研究

The Governance of Decentralized Autonomous Organizations: A Study of Contributors' Influence, Networks, and Shifts in Voting Power ( http://arxiv.org/abs/2309.14232v2 )

ライセンス: Link先を確認
Stefan Kitzler, Stefano Balietti, Pietro Saggese, Bernhard Haslhofer, Markus Strohmaier, (参考訳) 本稿では,分散型自治機構(DAOs)におけるコントリビュータの投票行動の分析を行う。 我々は、意思決定プロセスへの関与を評価し、すべてのDAOのうち少なくとも7.54%のコントリビュータが、ガバナンス決定を制御するために必要な多数を占めていることに気付きました。 さらに、コントリビュータは少なくとも1つの提案をDAOの20.41%で決定している。 特に、コントリビュータはDAOガバナンスエコシステムに中心的な位置を占める傾向にあり、内部のパワーサークルの存在を示唆している。 さらに、ガバナンスポーリングが実施される直前に、8116件の評価提案のうち、1202件(14.81%)にガバナンストークンの所有がシフトする傾向が見られた。 本研究は, 分散型金融プロトコルを含む, DAOにおけるコントリビュータの中枢的役割を明らかにするものである。 我々の研究は、DAOガバナンスフレームワークへの透明性を高めることを目的とした、継続的な規制活動に関連する重要な経験的洞察も提供します。

We present a study analyzing the voting behavior of contributors, or vested users, in Decentralized Autonomous Organizations (DAOs). We evaluate their involvement in decision-making processes, discovering that in at least 7.54% of all DAOs, contributors, on average, held the necessary majority to control governance decisions. Furthermore, contributors have singularly decided at least one proposal in 20.41% of DAOs. Notably, contributors tend to be centrally positioned within the DAO governance ecosystem, suggesting the presence of inner power circles. Additionally, we observed a tendency for shifts in governance token ownership shortly before governance polls take place in 1202 (14.81%) of 8116 evaluated proposals. Our findings highlight the central role of contributors across a spectrum of DAOs, including Decentralized Finance protocols. Our research also offers important empirical insights pertinent to ongoing regulatory activities aimed at increasing transparency to DAO governance frameworks.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-28
# 学習可能コンポーネントを組み込んだAVPシステムのシミュレーションによる安全性保証

Simulation-based Safety Assurance for an AVP System incorporating Learning-Enabled Components ( http://arxiv.org/abs/2311.03362v1 )

ライセンス: Link先を確認
Hasan Esen, Brian Hsuan-Cheng Liao(参考訳) 近年,運転支援システム (AD) や運転支援システム (ADAS) の開発が盛んである。 しかしながら、それらの安全性保証、つまり、テスト、検証、検証のための方法論AD/ADASセーフティクリティカルなアプリケーションは、依然として主要な課題である。 必然的にAIは、オブジェクト検出などのAD/ADASアプリケーションにも浸透する。 重要な利点にもかかわらず、そのような学習可能なコンポーネントやシステムが安全クリティカルなシナリオに採用されると、従来のテストアプローチ(例えば自動車における距離ベースのテスト)はすぐに実現不可能になる。 同様に、安全工学のアプローチは通常、モデルベースのコンポーネントを想定し、学習可能なコンポーネントをうまく扱わない。 著者らは、公的資金によるプロジェクト FOCETA に参加し、Automated Valet Parking (AVP) のユースケースを開発した。 ベースライン実装の性質が不完全であるため、モデリング、検証、検証、監視技術に基づいた継続的改善のためのスペースを提供する。 本稿では,安全クリティカルな学習可能なシステムを連続的なエンジニアリングループで検証し,検証するためのシミュレーションベースの開発プラットフォームについて述べる。

There have been major developments in Automated Driving (AD) and Driving Assist Systems (ADAS) in recent years. However, their safety assurance, thus methodologies for testing, verification and validation AD/ADAS safety-critical applications remain as one the main challenges. Inevitably AI also penetrates into AD/ADAS applications, such as object detection. Despite important benefits, adoption of such learned-enabled components and systems in safety-critical scenarios causes that conventional testing approaches (e.g., distance-based testing in automotive) quickly become infeasible. Similarly, safety engineering approaches usually assume model-based components and do not handle learning-enabled ones well. The authors have participated in the public-funded project FOCETA , and developed an Automated Valet Parking (AVP) use case. As the nature of the baseline implementation is imperfect, it offers a space for continuous improvement based on modelling, verification, validation, and monitoring techniques. In this publication, we explain the simulation-based development platform that is designed to verify and validate safety-critical learning-enabled systems in continuous engineering loops.
翻訳日:2024-01-15 16:31:10 公開日:2023-09-28
# 金融における大規模言語モデル:調査

Large Language Models in Finance: A Survey ( http://arxiv.org/abs/2311.10723v1 )

ライセンス: Link先を確認
Yinheng Li, Shaofei Wang, Han Ding, Hang Chen(参考訳) 大規模言語モデル(LLM)の最近の進歩は、金融における人工知能応用の新しい可能性を開いた。 本稿では,LLMを金融業務に活用する上で重要な2つの側面,すなわち既存ソリューションと導入指針に焦点をあてた実践的調査を行う。 まず,ゼロショットあるいは少数ショット学習による事前学習モデルの利用,ドメイン固有データの微調整,スクラッチからカスタムllmのトレーニングなど,ファイナンスにおけるllm活用の現状について検討する。 主要なモデルを要約し、財務自然言語処理タスクの性能改善を評価する。 第二に、金融専門家がデータ、計算、性能ニーズに関するユースケース制約に基づいて適切なllmソリューションを選択するための意思決定フレームワークを提案する。 このフレームワークは軽量な実験からカスタマイズ LLM への多額の投資までの道筋を提供する。 最後に、金融アプリケーションにおけるLCMの活用に関する制限と課題について論じる。 全体として、この調査は最先端の技術を総合し、金融AIの進歩にLCMを責任を持って適用するためのロードマップを提供することを目的としている。

Recent advances in large language models (LLMs) have opened new possibilities for artificial intelligence applications in finance. In this paper, we provide a practical survey focused on two key aspects of utilizing LLMs for financial tasks: existing solutions and guidance for adoption. First, we review current approaches employing LLMs in finance, including leveraging pretrained models via zero-shot or few-shot learning, fine-tuning on domain-specific data, and training custom LLMs from scratch. We summarize key models and evaluate their performance improvements on financial natural language processing tasks. Second, we propose a decision framework to guide financial professionals in selecting the appropriate LLM solution based on their use case constraints around data, compute, and performance needs. The framework provides a pathway from lightweight experimentation to heavy investment in customized LLMs. Lastly, we discuss limitations and challenges around leveraging LLMs in financial applications. Overall, this survey aims to synthesize the state-of-the-art and provide a roadmap for responsibly applying LLMs to advance financial AI.
翻訳日:2024-01-15 15:55:38 公開日:2023-09-28
# EWasteNet:E-Waste分類のための2ストリームデータ効率の良い画像変換器アプローチ

EWasteNet: A Two-Stream Data Efficient Image Transformer Approach for E-Waste Classification ( http://arxiv.org/abs/2311.12823v1 )

ライセンス: Link先を確認
Niful Islam, Md. Mehedi Hasan Jony, Emam Hasan, Sunny Sutradhar, Atikur Rahman, Md. Motaharul Islam(参考訳) e-wasteの不適切な廃棄は、地球環境と健康のリスクをもたらし、深刻な懸念を引き起こす。 e-waste画像の正確な分類は効率的な管理とリサイクルに不可欠である。 本稿では,E-Waste Vision Datasetという電子デバイスの8種類の画像からなる包括的データセットを提案する。 また,データ効率のよい画像変換器(DeiT)に基づく,高精度なE-Waste画像分類手法であるEWasteNetも提案した。 EWasteNetの第1ストリームは、エッジを検出するソベル演算子を通過し、第2ストリームは、マルチスケールのコンテキスト情報をキャプチャするAtrous Space Pyramid Pooling and attention blockを経由する。 両方のストリームを同時にトレーニングし、その特徴を意思決定レベルでマージします。 DeiTは両方のストリームのバックボーンとして使用される。 e-waste データセットの大規模解析により,e-waste 分類において96% の精度が得られた。 提案手法は,e-waste管理のグローバルな懸念に対処する上で有意義な有用性を示す。 e-waste画像を正確に分類し、不適切な処理に伴う健康・安全上の危険を低減し、効率的な廃棄物管理及びリサイクルを促進する。

Improper disposal of e-waste poses global environmental and health risks, raising serious concerns. The accurate classification of e-waste images is critical for efficient management and recycling. In this paper, we have presented a comprehensive dataset comprised of eight different classes of images of electronic devices named the E-Waste Vision Dataset. We have also presented EWasteNet, a novel two-stream approach for precise e-waste image classification based on a data-efficient image transformer (DeiT). The first stream of EWasteNet passes through a sobel operator that detects the edges while the second stream is directed through an Atrous Spatial Pyramid Pooling and attention block where multi-scale contextual information is captured. We train both of the streams simultaneously and their features are merged at the decision level. The DeiT is used as the backbone of both streams. Extensive analysis of the e-waste dataset indicates the usefulness of our method, providing 96% accuracy in e-waste classification. The proposed approach demonstrates significant usefulness in addressing the global concern of e-waste management. It facilitates efficient waste management and recycling by accurately classifying e-waste images, reducing health and safety hazards associated with improper disposal.
翻訳日:2024-01-15 15:33:17 公開日:2023-09-28
# ミンコフスキー様空間における事象宇宙のアンサンブルに対するmwi形式主義とボーム力学の統一

Unification of the MWI formalism and Bohmian mechanics for the ensembles of event universes in Minkowski-like space ( http://arxiv.org/abs/2401.01340v1 )

ライセンス: Link先を確認
Oded Shor, Felix Benninger, and Andrei Khrennikov(参考訳) 量子力学の解釈の多様性は、しばしば基礎的危機の兆候と見なされる。 本論では、ロヴェッリ、ボーム力学、および多くの世界解釈の関連量子力学を、デンドログラム的ホログラフィー理論(dht)と呼ばれる基礎に基づいて統一する。 dhtは、観察者の主観的な宇宙像を示すデンドログラム(有限木)による観測事象の表現に基づいている。 dendrogramsはイベント間の関係階層をエンコードし、アプリケーションではクラスタリングアルゴリズムによって生成される。 無限の p-進木は、オンティック事象宇宙を表す。 我々は,観測者が相互に観察を行い,p進木で表現するアンサンブルを考える。 そのような観測者宇宙では、ミンコフスキー空間構造の一種を導入し、これはその性質によって統計的である。 このモデルはオブザーバ/システムの不一致を統一する。 観測者は測定を行う。 そのようなオブザーバー宇宙は動的に変化し、空間自体が創発的であるので背景独立である。 このモデルでは、前述の解釈を統一します。

Diversity of interpretations of quantum mechanics is often considered as a sign of foundational crisis. In this note we proceed towards unification the relational quantum mechanics of Rovelli, Bohmian mechanics, and many worlds interpretation on the basis so called Dendrogramic Holographic Theory (DHT). DHT is based on the representation of observed events by dendrograms (finite trees) presenting observers subjective image of universe. Dendrograms encode the relational hierarchy between events, in applications they are generated by clustering algorithms; an algorithm with the branching index p >1 generate p-adic trees. The infinite p-adic tree represents the ontic event universe. We consider an ensemble of observers performing observations on each other and representing them by p-adic trees. In such observers universe we introduce a kind of Minkowski space structure, which is statistical by its nature. This model unites the observer/system discrepancy. Measurements are performed by observers on observers. Such observers universe is dynamically changing and is background independent since the space itself is emergent. And within this model, we unify the aforementioned interpretations.
翻訳日:2024-01-15 10:07:17 公開日:2023-09-28
# サプライチェーンにおける情報の流れに関する学際調査

An Interdisciplinary Survey on Information Flows in Supply Chains ( http://arxiv.org/abs/2401.01022v1 )

ライセンス: Link先を確認
Jan Pennekamp, Roman Matzutt, Christopher Klinkm\"uller, Lennart Bader, Martin Serror, Eric Wagner, Sidra Malik, Maria Spi{\ss}, Jessica Rahn, Tan G\"urpinar, Eduard Vlad, Sander J. J. Leemans, Salil S. Kanhere, Volker Stich, Klaus Wehrle(参考訳) サプライチェーンは現代の経済のバックボーンを形成し、信頼できる情報の流れを必要とする。 しかし実際にはサプライチェーンは、特にセキュリティとプライバシーに関して、深刻な技術的課題に直面している。 本研究は,2010年から2021年までのサプライチェーン管理,情報システム,コンピュータ科学の研究を学際メタサーベイに集約し,学間研究に一元的にアクセスできるようにする。 特に,コンピュータ科学者が技術的課題を解決し,情報フローの堅牢性を改善する上で重要な可能性を見出した。 その後,サプライチェーンに対する簡潔な情報フローに着目した分類法を提示し,今後の研究方向性について論じる。

Supply chains form the backbone of modern economies and therefore require reliable information flows. In practice, however, supply chains face severe technical challenges, especially regarding security and privacy. In this work, we consolidate studies from supply chain management, information systems, and computer science from 2010-2021 in an interdisciplinary meta-survey to make this topic holistically accessible to interdisciplinary research. In particular, we identify a significant potential for computer scientists to remedy technical challenges and improve the robustness of information flows. We subsequently present a concise information flow-focused taxonomy for supply chains before discussing future research directions to provide possible entry points.
翻訳日:2024-01-15 10:06:52 公開日:2023-09-28
# コミットメッセージ生成モデルへのコミット-要求相関の展開

Delving into Commit-Issue Correlation to Enhance Commit Message Generation Models ( http://arxiv.org/abs/2308.00147v2 )

ライセンス: Link先を確認
Liran Wang, Xunzhu Tang, Yichen He, Changyu Ren, Shuhua Shi, Chaoran Yan, Zhoujun Li(参考訳) コミットメッセージ生成(commit message generation, cmg)は、コミットのコード変更の自然言語記述を生成することを目的とした、自動ソフトウェアエンジニアリングにおける困難なタスクである。 以前のメソッドはすべて修正されたコードスニペットから始まり、テンプレートベース、検索ベース、学習ベースモデルを通じてコミットメッセージを出力する。 これらのメソッドは、コードの観点から修正したものをまとめることができるが、コミットの理由を提供するのに苦労している。 合理的なコミットメッセージを生成する上で重要な要因になる可能性のある、コミットと問題の間の相関性はまだ未調査である。 本研究では,データセットと方法論の観点から,コミットと課題の相関関係を考察する。 相関コミットとイシューを組み合わせた最初のデータセットを構築します。 データセットは、ラベル付きコミット発行並列部と、各例にその問題に人間が注釈付き合理的情報を提供するラベル付き部分とから構成されている。 さらに、モデルのトレーニングフェーズにコミットと課題の相関性を導入することができる新しいパラダイムである \tool (\underline{ex}traction, \underline{gro}unding, \underline{fi}ne-tuning) を提案する。 有効かどうかを評価するため,様々な最先端CMGモデルを用いた総合的な実験を行った。 その結果,オリジナルのモデルと比較して,<tool-enhanced モデルの性能が大幅に向上した。

Commit message generation (CMG) is a challenging task in automated software engineering that aims to generate natural language descriptions of code changes for commits. Previous methods all start from the modified code snippets, outputting commit messages through template-based, retrieval-based, or learning-based models. While these methods can summarize what is modified from the perspective of code, they struggle to provide reasons for the commit. The correlation between commits and issues that could be a critical factor for generating rational commit messages is still unexplored. In this work, we delve into the correlation between commits and issues from the perspective of dataset and methodology. We construct the first dataset anchored on combining correlated commits and issues. The dataset consists of an unlabeled commit-issue parallel part and a labeled part in which each example is provided with human-annotated rational information in the issue. Furthermore, we propose \tool (\underline{Ex}traction, \underline{Gro}unding, \underline{Fi}ne-tuning), a novel paradigm that can introduce the correlation between commits and issues into the training phase of models. To evaluate whether it is effective, we perform comprehensive experiments with various state-of-the-art CMG models. The results show that compared with the original models, the performance of \tool-enhanced models is significantly improved.
翻訳日:2023-10-23 15:51:12 公開日:2023-09-28
# GitHubプロジェクトにおける長期持続活動の早期参加はどのように決定されるか?

How Early Participation Determines Long-Term Sustained Activity in GitHub Projects? ( http://arxiv.org/abs/2308.06005v4 )

ライセンス: Link先を確認
Wenxin Xiao, Hao He, Weiwei Xu, Yuxia Zhang, and Minghui Zhou(参考訳) オープンソースモデルはソフトウェア開発において多くの利点がありますが、オープンソースプロジェクトは常に持続するのは難しいです。 オープンソースサステナビリティに関するこれまでの研究は、主に特定の成熟度に達したプロジェクト(例えば、コミュニティ、リリース、下流プロジェクト)に焦点を当てていた。 しかし、幼少期の(持続可能な)オープンソースプロジェクトの開発に限定的な注意が払われており、早期持続可能性決定要因の理解は、プロジェクト開始者、インキュベーター、新参者、ユーザにとって重要であると信じています。 本稿では,早期参加要因と長期プロジェクト持続可能性との関係について検討する。 我々は290,255のgithubプロジェクトの持続可能性を予測するために、blumbergのパフォーマンスモデルと機械学習を組み合わせた新しい手法を利用する。 特に、290,255のGitHubプロジェクトでの初期参加(最初の3ヶ月の活動)に基づいてXGBoostモデルをトレーニングし、LIMEを使ってモデルを解釈します。 OSSプロジェクトのインキュベーションで事前の経験があり、集中集中と着実なコミットメントを示した場合、初期参加者がプロジェクトの将来の持続的活動に肯定的な影響を与えることを定量的に示す。 非コードコントリビュータや詳細なコントリビューション資料からの参加もプロジェクトの持続的な活動を促進する。 個々のプロジェクトと比較して、より経験豊富なコア開発者とよりアクティブな周辺開発者で構成されるコミュニティの構築は、組織プロジェクトにとって重要です。 この研究は、持続可能なオープンソースプロジェクトのインキュベーションと認識に関するユニークな洞察を与え、我々の解釈可能な予測アプローチは、オープンソースプロジェクトのイニシアチブや新参者へのガイダンスも提供します。

Although the open source model bears many advantages in software development, open source projects are always hard to sustain. Previous research on open source sustainability mainly focuses on projects that have already reached a certain level of maturity (e.g., with communities, releases, and downstream projects). However, limited attention is paid to the development of (sustainable) open source projects in their infancy, and we believe an understanding of early sustainability determinants is crucial for project initiators, incubators, newcomers, and users. In this paper, we aim to explore the relationship between early participation factors and long-term project sustainability. We leverage a novel methodology combining the Blumberg model of performance and machine learning to predict the sustainability of 290,255 GitHub projects. Specificially, we train an XGBoost model based on early participation (first three months of activity) in 290,255 GitHub projects and we interpret the model using LIME. We quantitatively show that early participants have a positive effect on project's future sustained activity if they have prior experience in OSS project incubation and demonstrate concentrated focus and steady commitment. Participation from non-code contributors and detailed contribution documentation also promote project's sustained activity. Compared with individual projects, building a community that consists of more experienced core developers and more active peripheral developers is important for organizational projects. This study provides unique insights into the incubation and recognition of sustainable open source projects, and our interpretable prediction approach can also offer guidance to open source project initiators and newcomers.
翻訳日:2023-10-23 14:53:34 公開日:2023-09-28
# LLMを用いたRTLの形式的検証

Using LLMs to Facilitate Formal Verification of RTL ( http://arxiv.org/abs/2309.09437v2 )

ライセンス: Link先を確認
Marcelo Orenes-Vera, Margaret Martonosi and David Wentzlaff(参考訳) 形式的特性検証(FPV)は数十年前から存在し、複雑なRTLバグを見つけるのに有効であることが示されている。 しかし、systemverilog asserts(sva)のような形式的プロパティは、経験豊富なユーザでさえ、記述に時間がかかるし、エラーもやすい。 以前の作業では、SVAが高レベル仕様から生成されるように抽象化レベルを上げることで、この負担を緩和しようと試みていた。 しかし、これはハードウェアの詳細な振る舞いを推論して記述する手作業を排除するものではない。 ヘテロジニアスハードウェア時代におけるFPVの必要性の高まりと大規模言語モデル(LLM)の進歩により、LLMがRTLの挙動を捉え、正しいSVA特性を生成できるかどうかを探究した。 まず、SVAの正しさと完全性を測定するFPVに基づく評価フレームワークを設計する。 そして、GPT4を反復的に評価し、より優れたSVAを作成するのに必要な構文とセマンティックルールのセットを作成する。 当社は、改良したgpt4ベースのフローを統合して安全性特性を生成し、既存のライブネスプロパティのフローを容易にすることで、オープンソースのautosvaフレームワークを拡張します。 最後に,1) 複雑なオープンソースRTL上での GPT4 生成 SVA の FPV カバレッジ,(2) 生成された SVA を用いて GPT4 をスクラッチから生成する。 これらの実験により, GPT4 は設計誤差を反映することなく, 欠陥のある RTL に対しても正しい SVA を生成することができることがわかった。 特に、SVAはRISC-V CVA6コアのバグを露呈し、以前の作業の評価を損なっていた。

Formal property verification (FPV) has existed for decades and has been shown to be effective at finding intricate RTL bugs. However, formal properties, such as those written as SystemVerilog Assertions (SVA), are time-consuming and error-prone to write, even for experienced users. Prior work has attempted to lighten this burden by raising the abstraction level so that SVA is generated from high-level specifications. However, this does not eliminate the manual effort of reasoning and writing about the detailed hardware behavior. Motivated by the increased need for FPV in the era of heterogeneous hardware and the advances in large language models (LLMs), we set out to explore whether LLMs can capture RTL behavior and generate correct SVA properties. First, we design an FPV-based evaluation framework that measures the correctness and completeness of SVA. Then, we evaluate GPT4 iteratively to craft the set of syntax and semantic rules needed to prompt it toward creating better SVA. We extend the open-source AutoSVA framework by integrating our improved GPT4-based flow to generate safety properties, in addition to facilitating their existing flow for liveness properties. Lastly, our use cases evaluate (1) the FPV coverage of GPT4-generated SVA on complex open-source RTL and (2) using generated SVA to prompt GPT4 to create RTL from scratch. Through these experiments, we find that GPT4 can generate correct SVA even for flawed RTL, without mirroring design errors. Particularly, it generated SVA that exposed a bug in the RISC-V CVA6 core that eluded the prior work's evaluation.
翻訳日:2023-10-23 07:31:06 公開日:2023-09-28
# DEVStone Metric: DEVSシミュレーションエンジンの性能解析

The DEVStone Metric: Performance Analysis of DEVS Simulation Engines ( http://arxiv.org/abs/2309.16544v1 )

ライセンス: Link先を確認
Rom\'an C\'ardenas, Kevin Henares, Patricia Arroba, Jos\'e L. Risco-Mart\'in and Gabriel A. Wainer(参考訳) DEVStone ベンチマークにより,DEVS の定式化に基づく離散イベントシミュレータの性能評価が可能となる。 異なる特性を持つモデルセットを提供し、シミュレーションエンジンの特定の問題を分析することができる。 しかし、この不均一性は、それぞれの研究成果がデヴストーンモデルの選択された部分集合に依存するため、研究間の結果の比較を妨げる。 我々は,DEVStone 合成ベンチマークに基づいてDEVStone 測定値を定義し,DVS ベースシミュレータの目標評価を指定するメカニズムを提供する。 このメトリックは、シミュレータが1分で12のDeVStoneモデルを選択することができる平均回数に対応する。 選択されたモデルの多様性は、DEVStoneが提供する異なる特異性を測定することを保証する。 提案手法により,様々なシミュレータを比較し,新機能が性能に与える影響を評価することができる。 我々は、DEVStoneメトリックを使用して、人気のあるDEVSベースのシミュレータを比較する。

The DEVStone benchmark allows us to evaluate the performance of discrete-event simulators based on the DEVS formalism. It provides model sets with different characteristics, enabling the analysis of specific issues of simulation engines. However, this heterogeneity hinders the comparison of the results among studies, as the results obtained on each research work depend on the chosen subset of DEVStone models. We define the DEVStone metric based on the DEVStone synthetic benchmark and provide a mechanism for specifying objective ratings for DEVS-based simulators. This metric corresponds to the average number of times that a simulator can execute a selection of 12 DEVStone models in one minute. The variety of the chosen models ensures we measure different particularities provided by DEVStone. The proposed metric allows us to compare various simulators and to assess the impact of new features on their performance. We use the DEVStone metric to compare some popular DEVS-based simulators.
翻訳日:2023-10-23 06:08:32 公開日:2023-09-28
# イノベーションモデリンググリッド

Innovation Modeling Grid ( http://arxiv.org/abs/2309.16507v1 )

ライセンス: Link先を確認
Oliver Klemp(参考訳) この技術文書は、委員会主導のイノベーションモデリング方法論「革新モデリンググリッド」を詳述している。 この文書はIMoGに関する3つの出版物の後継であり、方法論のすべての詳細を提示することに焦点を当てている。

This technical document presents the committee driven innovation modeling methodology "Innovation Modeling Grid" in detail. This document is the successor of three publications on IMoG and focuses on presenting all details of the methodology
翻訳日:2023-10-23 06:08:19 公開日:2023-09-28
# Klever: 重要な産業用Cプログラムの検証フレームワーク

Klever: Verification Framework for Critical Industrial C Programs ( http://arxiv.org/abs/2309.16427v1 )

ライセンス: Link先を確認
Ilja Zakharov, Evgeny Novikov, Ilya Shchepetkov(参考訳) 自動ソフトウェア検証ツールは、特定の要求に対して非インタラクティブにチェックされたプログラムの障害を検出するのに役立ちます。 さらに、特定の仮定の下でプログラムの正確性を証明することもできる。 これらの機能は、オペレーティングシステムカーネルや組み込みソフトウェアのような重要な産業プログラムの検証に不可欠である。 しかしながら、このようなプログラムには数百から数千のKLOCが含まれており、非自明な要求をチェックするときに妥当な時間内に有効な検証結果を得ることができない。 また、既存のツールは、環境モデリング、要求仕様の特定、ターゲットプログラムの多くのバージョンと構成の検証、検証結果のエキスパート評価など、広く採用されている手段を提供していない。 本稿では,大規模かつ重要な産業用cプログラムに自動ソフトウェア検証ツールを適用する労力を削減するために設計されたklever software verification frameworkを提案する。

Automatic software verification tools help to find hard-to-detect faults in programs checked against specified requirements non-interactively. Besides, they can prove program correctness formally under certain assumptions. These capabilities are vital for verification of critical industrial programs like operating system kernels and embedded software. However, such programs can contain hundreds or thousands of KLOC that prevent obtaining valuable verification results in any reasonable time when checking non-trivial requirements. Also, existing tools do not provide widely adopted means for environment modeling, specification of requirements, verification of many versions and configurations of target programs, and expert assessment of verification results. In this paper, we present the Klever software verification framework, designed to reduce the effort of applying automatic software verification tools to large and critical industrial C programs.
翻訳日:2023-10-23 06:08:15 公開日:2023-09-28
# 再使用型要求工学における整数制約解法

Using Integer Constraint Solving in Reuse Based Requirements Engineering ( http://arxiv.org/abs/2309.16279v1 )

ライセンス: Link先を確認
Camille Salinesi (CRI), Raul Mazo (CRI), Daniel Diaz (CRI), Olfa Djebbi (CRI)(参考訳) 製品ライン(pl)は、再利用ベースのシステム開発に効果的なアプローチであることが証明された。 PLを指定するためにいくつかのモデリング言語が提案されている。 これらは非常に異なる場合もあるが、これらの言語は2つの共通の特徴を示している。 (a)変動性、及び b)許容可能な構成を定義するための制約の仕様。 現在、製品の構成は制約満足度問題と見なせることが広く認識されている。 したがって、制約プログラミングをPL上の制約を指定するための第一選択候補と考えるのは自然である。 例えば、FODA言語を使って指定できるさまざまな制約は、ブール制約を使って簡単に表現できるため、SATソルバを使用した自動計算と構成が可能になる。 しかし、制約プログラミングはブール領域以外の領域(例えば整数、実数、集合)を提案する。 例えば、整数ドメインは、特徴属性の制約を指定するためにBenavidesによって提案された。 本稿では,PL制約の指定に整数制約プログラミングを用いることについて検討する。 このアプローチはプロトタイプツールで実装されました。 実際のケースでの使用は、制約プログラミングが異なるplモデリング言語(fore、ovmなど)を含んでいることを示し、これらの言語で指定するのが難しい複雑な制約を指定することを可能にする。

Product Lines (PL) have proved an effective approach to reuse-based systems development. Several modeling languages were proposed so far to specify PL. Although they can be very different, these languages show two common features: they emphasize (a) variability, and (b) the specification of constraints to define acceptable configurations. It is now widely acknowledged that configuring a product can be considered as a constraint satisfaction problem. It is thus natural to consider constraint programming as a first choice candidate to specify constraints on PL. For instance, the different constraints that can be specified using the FODA language can easily be expressed using boolean constraints, which enables automated calculation and configuration using a SAT solver. But constraint programming proposes other domains than the boolean domain: for instance integers, real, or sets. The integer domain was, for instance, proposed by Benavides to specify constraints on feature attributes. This paper proposes to further explore the use of integer constraint programming to specify PL constraints. The approach was implemented in a prototype tool. Its use in a real case showed that constraint programming encompasses different PL modeling languages (such as FORE, OVM, or else), and allows specifying complex constraints that are difficult to specify with these languages.
翻訳日:2023-10-23 06:08:02 公開日:2023-09-28
# apiを見つけるためにチャットしよう:aiチェーンを通じて人間、llm、ナレッジグラフをつなぐ

Let's Chat to Find the APIs: Connecting Human, LLM and Knowledge Graph through AI Chain ( http://arxiv.org/abs/2309.16134v1 )

ライセンス: Link先を確認
Qing Huang, Zhenyu Wan, Zhenchang Xing, Changjing Wang, Jieshan Chen, Xiwei Xu, Qinghua Lu(参考訳) APIレコメンデーションメソッドはリテラルとセマンティックキーワードマッチングからクエリ拡張とクエリの明確化へと進化してきた。 最新のクエリの明確化手法は知識グラフ(KG)に基づくものだが、言語外障害(OOV)や厳密な質問テンプレートなどの制限がある。 このような制約に対処するため,KG が指導する大規模言語モデル (LLM) を活用した知識誘導型クエリ明確化手法を提案する。 LLMを神経知識基盤として利用して、OOV障害を克服し、流動的で適切な明確化の質問や選択肢を生成します。 また,kgに格納された構造的api知識とエンティティの関係を利用してノイズを除去し,最適な明確化パスをkgからllmに転送することで,明確化プロセスの効率を高める。 我々のアプローチは、AIチェーンとして設計されており、それぞれが別々のLCMコールによって処理される5つのステップで構成されている。 私たちはAIチェーンにおける各ユニットの有用性を検証する。 ベースラインと比較すると,クエリステートメントがKGでカバーされている場合,最大63.9%,そうでない場合には37.2%,MRRで最大63.9%向上した。 アブレーション実験により、KGにおける知識の指導と知識誘導パスフィニング戦略がアプローチのパフォーマンスに不可欠であることが判明し、MAPは19.0%、22.2%増加した。 提案手法は,KGとLLMのギャップを埋める手法を示し,両者の長所と短所を効果的に補う。

API recommendation methods have evolved from literal and semantic keyword matching to query expansion and query clarification. The latest query clarification method is knowledge graph (KG)-based, but limitations include out-of-vocabulary (OOV) failures and rigid question templates. To address these limitations, we propose a novel knowledge-guided query clarification approach for API recommendation that leverages a large language model (LLM) guided by KG. We utilize the LLM as a neural knowledge base to overcome OOV failures, generating fluent and appropriate clarification questions and options. We also leverage the structured API knowledge and entity relationships stored in the KG to filter out noise, and transfer the optimal clarification path from KG to the LLM, increasing the efficiency of the clarification process. Our approach is designed as an AI chain that consists of five steps, each handled by a separate LLM call, to improve accuracy, efficiency, and fluency for query clarification in API recommendation. We verify the usefulness of each unit in our AI chain, which all received high scores close to a perfect 5. When compared to the baselines, our approach shows a significant improvement in MRR, with a maximum increase of 63.9% higher when the query statement is covered in KG and 37.2% when it is not. Ablation experiments reveal that the guidance of knowledge in the KG and the knowledge-guided pathfinding strategy are crucial for our approach's performance, resulting in a 19.0% and 22.2% increase in MAP, respectively. Our approach demonstrates a way to bridge the gap between KG and LLM, effectively compensating for the strengths and weaknesses of both.
翻訳日:2023-10-23 06:07:46 公開日:2023-09-28
# コード生成改善のための大規模言語モデルにおけるテストケース駆動プログラミング理解

Test-Case-Driven Programming Understanding in Large Language Models for Better Code Generation ( http://arxiv.org/abs/2309.16120v1 )

ライセンス: Link先を確認
Zhao Tian, Junjie Chen(参考訳) コード生成は、与えられたプログラム仕様に従ってソースコードを自動的に生成することであり、特に大規模言語モデル(LLM)の開発で広く注目を集めている。 コード生成が本質的に困難であるため、llmsによって生成されたコードも仕様と一致しない可能性がある。 コード生成におけるLLMのパーフォル・マンスを改善するために、コード生成前にLLMをプログラミング理解するためのCoT(Chain of Thought)技術が提案されている。 しかし、(簡潔な)仕様に従って複雑なプログラミングロジックを理解するのは難しいので、コード生成のパフォーマンスに満足できない。 本研究では,コード生成におけるLCMの能力を高めるために,TCoTと呼ばれる最初のテストケース駆動型CoT手法を提案する。 複雑な問題を例を使って理解することで、人間の実践と一致したテストケースの新しい視点からプログラミング仕様を理解する。 テストケースで指定された期待出力が存在するため、TCoTは直ちにプログラミング理解の正確さを確認し、コード生成前に可能な限り正確に修正することができる。 このようにして、正しいコードを生成する可能性が高い。 6つのデータセットと14のベースラインに対する評価は, TCoTの有効性を示す。 例えば、tcotは、pass@1(生成されたコードがすべてのテストケースをパスするプログラミング問題の割合)で、chatgptを13.93%~69.44%改善し、pass@1で12.14%~53.72%の改善で既存のcot技術を上回っている。

Code generation is to automatically generate source code conforming to a given programming specification, which has received extensive attention especially with the development of large language models (LLMs). Due to the inherent difficulty of code generation, the code generated by LLMs may be also not aligned with the specification. To improve the perfor mance of LLMs in code generation, some Chain of Thought (CoT) techniques have been proposed to guide LLMs for programming understanding before code generation. However, they are still hard to figure out complicated programming logic according to the (concise) specification, leadingto unsatisfactory code generation performance. In this work, we propose the first test-case-driven CoT technique, called TCoT, to further enhance the ability of LLMs in code generation. It understands the programming specification from the novel perspective of test cases, which is aligned with human practice by using examples to understand complicated problems. Due to the existence of the expected output specified in a test case, TCoT can instantly check the correctness of the programming understanding and then refine it to be as correct as possible before code generation. In this way, it is more likely to generate correct code. Our evaluation on 6 datasets and 14 baselines demonstrates the effectiveness of TCoT. For example, TCoT improves ChatGPT by 13.93%~69.44% in terms of Pass@1 (measuring the ratio of programming problems for which the generated code passes all test cases), and outperforms the existing CoT technique with the improvement of 12.14%~53.72% in terms of Pass@1.
翻訳日:2023-10-23 06:07:15 公開日:2023-09-28
# テストケースの品質 -- 実践者の視点を理解する

Test-Case Quality -- Understanding Practitioners' Perspectives ( http://arxiv.org/abs/2309.16801v1 )

ライセンス: Link先を確認
Huynh Khanh Vi Tran, Nauman Bin Ali, J\"urgen B\"orstler, Michael Unterkalmsteiner(参考訳) 背景: テストケースの品質は常に、ソフトウェアテストの主要な関心事のひとつです。 テストケースの品質を改善するためには、実践者がテストケースの品質をどのように認識するかをよりよく理解する必要がある。 目的: その必要性から, 実践者がテストケースの品質をどのように定義し, テストケースのどの側面が品質評価に重要であるかを検討した。 方法: スウェーデンの多国籍ソフトウェア企業で, プロの開発者, テスタ, テストアーキテクトと半構造化インタビューを行った。 インタビューの前に,実際のテストケース(自然言語で書かれた)に対して,評価の根拠とともに,それぞれが善,正常,悪と認識しているかどうかを質問した。 また,共有テストケースに対する意見を比較検討し,関連する文献と対比した。 結果:11のテストケース品質特性からなる品質モデルを提案する。 また,実践者や産業界におけるテストケースの品質定義の誤りと,業界におけるテストケースの品質向上を提案する。 結論: その結果は,テストケースの品質の定義と評価に関して,役割や作業経験を含む実践者のバックグラウンドが重要な次元であることを示します。

Background: Test-case quality has always been one of the major concerns in software testing. To improve test-case quality, it is important to better understand how practitioners perceive the quality of test-cases. Objective: Motivated by that need, we investigated how practitioners define test-case quality and which aspects of test-cases are important for quality assessment. Method: We conducted semi-structured interviews with professional developers, testers and test architects from a multinational software company in Sweden. Before the interviews, we asked participants for actual test cases (written in natural language) that they perceive as good, normal, and bad respectively together with rationales for their assessment. We also compared their opinions on shared test cases and contrasted their views with the relevant literature. Results: We present a quality model which consists of 11 test-case quality attributes. We also identify a misalignment in defining test-case quality among practitioners and between academia and industry, along with suggestions for improving test-case quality in industry. Conclusion: The results show that practitioners' background, including roles and working experience, are critical dimensions of how test-case quality is defined and assessed.
翻訳日:2023-10-23 05:37:57 公開日:2023-09-28
# エキスパートソーシング・ドメイン固有知識:同義語検証の場合

Expert-sourcing Domain-specific Knowledge: The Case of Synonym Validation ( http://arxiv.org/abs/2309.16798v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Andrew Yates(参考訳) 教師付き機械学習の前提条件のひとつは、高品質なラベル付きデータである。 このようなデータを取得することは、特に専門家の知識が必要な場合、ひとつの専門家がタスクを実行する必要がある場合、コストがかかるか不可能である。 本稿では、専門家のドメイン固有の知識をソースとして採用・拡張したツールサポートについて述べる。 我々は、専門家にラベル付けタスクの実行に時間を割く動機付けを目的とした設計決定に関する洞察を提供する。 私たちは現在、候補同義語のリストから真の同義語を識別するためにこのアプローチを使用しています。 同義語の識別は、要件を定義し交渉する場合など、異なる企業やバックグラウンドの利害関係者が協力する必要があるシナリオにおいて重要である。 我々は、エキスパートソーシングのアプローチは、ソフトウェアエンジニアリングにおけるあらゆるデータラベル付けタスクに適用できると予測する。 議論された設計決定と実装は、拡張し、洗練し、さらなるアプリケーションで検証できる初期ドラフトである。

One prerequisite for supervised machine learning is high quality labelled data. Acquiring such data is, particularly if expert knowledge is required, costly or even impossible if the task needs to be performed by a single expert. In this paper, we illustrate tool support that we adopted and extended to source domain-specific knowledge from experts. We provide insight in design decisions that aim at motivating experts to dedicate their time at performing the labelling task. We are currently using the approach to identify true synonyms from a list of candidate synonyms. The identification of synonyms is important in scenarios were stakeholders from different companies and background need to collaborate, for example when defining and negotiating requirements. We foresee that the approach of expert-sourcing is applicable to any data labelling task in software engineering. The discussed design decisions and implementation are an initial draft that can be extended, refined and validated with further application.
翻訳日:2023-10-23 05:37:38 公開日:2023-09-28
# スタートアップにおけるソフトウェア集約型プロダクトエンジニアリング:分類法

Software-Intensive Product Engineering in Start-Ups: A Taxonomy ( http://arxiv.org/abs/2309.16793v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Tony Gorschek(参考訳) ソフトウェアスタートアップは、最小限のリソースで迅速に大衆市場に革新的なプロダクトをローンチしようとする新しい企業だ。 しかし、ほとんどのスタートアップはポテンシャルに気づく前に失敗する。 ソフトウェアエンジニアリングの貧弱さは、スタートアップが経験する課題に大きな貢献をする可能性がある。 スタートアップ企業のエンジニアリング状況についてはほとんど分かっていない。 表面的には、スタートアップは不確実性、高いリスク、そして最小限のリソースによって特徴づけられる。 しかし、そのような特徴は特定のエンジニアリング課題の特定を支援し、スタートアップ固有のエンジニアリングプラクティスを考案するのに十分な粒度ではない。 スタートアップにおけるソフトウェアエンジニアリングを理解するための最初のステップは、エンジニアリングプラクティス、環境要因、そしてエンジニアリングプロセスに影響を与える目標の分類である、スタートアップコンテキストマップの定義である。 このマップは、この分野のさらなる研究を支援し、スタートアップのためのエンジニアリング決定支援ツールとして機能することを目的としている。 この記事はプロセス改善に関するテーマ問題の一部です。

Software start-ups are new companies aiming to launch an innovative product to mass markets fast with minimal resources. However, most start-ups fail before realizing their potential. Poor software engineering, among other factors, could be a significant contributor to the challenges that start-ups experience. Little is known about the engineering context in start-up companies. On the surface, start-ups are characterized by uncertainty, high risk, and minimal resources. However, such a characterization isn't granular enough to support identification of specific engineering challenges and to devise start-up-specific engineering practices. The first step toward an understanding of software engineering in start-ups is the definition of a Start-Up Context Map - a taxonomy of engineering practices, environment factors, and goals influencing the engineering process. This map aims to support further research on the field and serve as an engineering decision support tool for start-ups. This article is part of a theme issue on Process Improvement.
翻訳日:2023-10-23 05:37:23 公開日:2023-09-28
# 文脈に基づくツイートエンゲージメント予測

Context-Based Tweet Engagement Prediction ( http://arxiv.org/abs/2310.03147v1 )

ライセンス: Link先を確認
Jovan Jeromela(参考訳) Twitterは現在、最大のソーシャルメディアプラットフォームの一つだ。 ユーザーはツイートと呼ばれる短い投稿を共有し、読み、エンゲージメントすることができる。 ACM Recommender Systems Conference 2020で、Twitterは毎年恒例のRecSys Challengeのために約70GBのデータセットを公開した。 2020年、RecSys Challengeは参加チームを招待し、ユーザーとツイートの組み合わせのエンゲージメント率を予測するモデルを作成した。 提案したモデルでは,高精度リコール曲線(PRAUC)下の領域と相対的クロスエントロピー(RCE)の2つの指標に基づいて,応答,リツイート,引用エンゲージを予測した。 この学位論文では、RecSys 2020 Challengeデータセットと評価手順を用いて、ツイートエンゲージメントの確率を予測するために、文脈のみがどの程度うまく使われているかを調べる。 そうするために、TU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。 ツイートコンテキストを記述するために、手動で200以上の機能を追加しました。 その結果,ユーザの先行エンゲージメント履歴とハッシュタグやツイートのリンクの人気を記述した特徴が最も有益であることが示唆された。 また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。 コンテントオンリー予測モデルとコンテントオンリー予測モデルとを比較し,コンテントオンリー予測モデルとコンテントオンリー予測モデルの比較を行った結果,コンテクストベースモデルではrceスコアが低かったことがわかった。 この作業は、この不一致を解消し、パブリックなgitリポジトリで共有される実装に潜在的な改善を提案することで、結論付けます。

Twitter is currently one of the biggest social media platforms. Its users may share, read, and engage with short posts called tweets. For the ACM Recommender Systems Conference 2020, Twitter published a dataset around 70 GB in size for the annual RecSys Challenge. In 2020, the RecSys Challenge invited participating teams to create models that would predict engagement likelihoods for given user-tweet combinations. The submitted models predicting like, reply, retweet, and quote engagements were evaluated based on two metrics: area under the precision-recall curve (PRAUC) and relative cross-entropy (RCE). In this diploma thesis, we used the RecSys 2020 Challenge dataset and evaluation procedure to investigate how well context alone may be used to predict tweet engagement likelihood. In doing so, we employed the Spark engine on TU Wien's Little Big Data Cluster to create scalable data preprocessing, feature engineering, feature selection, and machine learning pipelines. We manually created just under 200 additional features to describe tweet context. The results indicate that features describing users' prior engagement history and the popularity of hashtags and links in the tweet were the most informative. We also found that factors such as the prediction algorithm, training dataset size, training dataset sampling method, and feature selection significantly affect the results. After comparing the best results of our context-only prediction models with content-only models and with models developed by the Challenge winners, we identified that the context-based models underperformed in terms of the RCE score. This work thus concludes by situating this discrepancy and proposing potential improvements to our implementation, which is shared in a public git repository.
翻訳日:2023-10-23 04:46:47 公開日:2023-09-28
# LoSチャネルチャートのためのマルチキャリアマルチアンテナシステムの最適化

Optimizing Multicarrier Multiantenna Systems for LoS Channel Charting ( http://arxiv.org/abs/2310.03762v1 )

ライセンス: Link先を確認
Taha Yassine (IRT b-com, Hypermedia), Luc Le Magoarou (INSA Rennes, IETR), Matthieu Crussi\`ere (IETR), Stephane Paquelet (IRT b-com)(参考訳) チャネルチャート(cc)は、マルチキャリアマルチアンテナシステムにおけるパイロットベースのチャネル推定から利用可能な生チャネル観測の空間と、ユーザ機器(ues)のチャネルに近接する近接点が空間的に近接する低次元空間とのマッピングを学習する。 このマッピングを学習する様々な方法のなかには、チャネルベクトル間の距離測定に依存するものもある。 このような距離は、UEの局所的な空間的近傍を確実に反映すべきである。 最近提案された位相非感性距離(PI)は、この点において良好な性質を示すが、周期的・振動的側面の両面からあいまいさに悩まされ、ユーザ同士の距離が近づいた場合もある。 本稿では, その距離とその制限について, 徹底的な理論的解析を行い, その緩和方法について考察する。 その結果、品質チャートを学習できるシステム設計ガイドラインが導出される。 実験的な検証は、異なるシナリオで合成データと現実的なデータで実行される。

Channel charting (CC) consists in learning a mapping between the space of raw channel observations, made available from pilot-based channel estimation in multicarrier multiantenna system, and a low-dimensional space where close points correspond to channels of user equipments (UEs) close spatially. Among the different methods of learning this mapping, some rely on a distance measure between channel vectors. Such a distance should reliably reflect the local spatial neighborhoods of the UEs. The recently proposed phase-insensitive (PI) distance exhibits good properties in this regards, but suffers from ambiguities due to both its periodic and oscillatory aspects, making users far away from each other appear closer in some cases. In this paper, a thorough theoretical analysis of the said distance and its limitations is provided, giving insights on how they can be mitigated. Guidelines for designing systems capable of learning quality charts are consequently derived. Experimental validation is then conducted on synthetic and realistic data in different scenarios.
翻訳日:2023-10-23 04:23:41 公開日:2023-09-28
# iiotプラットフォームに関する時系列:プロセス産業におけるデジタル双子の要件と調査

Timeseries on IIoT Platforms: Requirements and Survey for Digital Twins in Process Industry ( http://arxiv.org/abs/2310.03761v1 )

ライセンス: Link先を確認
Christoph N\"olle, Petri Kannisto(参考訳) プロセス産業における持続可能性追求において、デジタルツインは、産業用モノのインターネット(IIoT)に関するタイムリーデータの通信と保存を必要とする。 本稿では,まず,プロセス産業に特有な要件を提示する。 そして、既存のIIoTテクノロジが要件を満たす方法について調査する。 これらの技術には、api specification asset administration shell (aas)、digital twin definition language (dtdl)、ngsi-ld、open platform communications unified architecture (opc ua)、および6つの商用プラットフォームが含まれる。 すべての技術は要件に関して大きなギャップを残している。

In the pursue for sustainability in process industry, digital twins necessitate the communication and storage of timeseries data about Industrial Internet of Things (IIoT). Regarding timeseries, this paper first presents a set of requirements specific to process industries. Then, it surveys how existing IIoT technologies meet the requirements. The technologies include the API specifications Asset Administration Shell (AAS), Digital Twin Definition Language (DTDL), NGSI-LD and Open Platform Communications Unified Architecture (OPC UA) as well as six commercial platforms. All the technologies leave significant gaps regarding the requirements, which means that tailor-made extensions are necessary.
翻訳日:2023-10-23 04:23:24 公開日:2023-09-28
# jiutian intelligent network simulation platformの設計

Design of JiuTian Intelligent Network Simulation Platform ( http://arxiv.org/abs/2310.06858v1 )

ライセンス: Link先を確認
Lei Zhao, Miaomiao Zhang, Guangyu Li, Zhuowen Guan, Sijia Liu, Zhaobin Xiao, Yuting Cao, Zhe Lv, Yanping Liang(参考訳) 本稿では,オープンイノベーションプラットフォームのための無線通信シミュレーションデータサービスを提供できるjiutian intelligent network simulation platformについて紹介する。 このプラットフォームには一連のスケーラブルなシミュレータ機能が含まれており、ユーザーはシミュレーション環境とデータに基づいてモデルのトレーニングと推論に強化学習アルゴリズムを使うことができる。 さらに、パラメータ設定のアップロードと更新によって、さまざまなシナリオで最適化タスクに対処することができる。 プラットフォームとそのオープンサービスは、主にバックグラウンド、全体的なアーキテクチャ、シミュレータ、ビジネスシナリオ、将来の方向性の観点から導入された。

This paper introduced the JiuTian Intelligent Network Simulation Platform, which can provide wireless communication simulation data services for the Open Innovation Platform. The platform contains a series of scalable simulator functionalities, offering open services that enable users to use reinforcement learning algorithms for model training and inference based on simulation environments and data. Additionally, it allows users to address optimization tasks in different scenarios by uploading and updating parameter configurations. The platform and its open services were primarily introduced from the perspectives of background, overall architecture, simulator, business scenarios, and future directions.
翻訳日:2023-10-23 03:21:38 公開日:2023-09-28
# クレーター検出のための深層学習システム

Deep Learning based Systems for Crater Detection: A Review ( http://arxiv.org/abs/2310.07727v1 )

ライセンス: Link先を確認
Atal Tewari, K Prateek, Amrita Singh, Nitin Khanna(参考訳) クレーターは惑星表面における最も顕著な特徴の1つであり、年齢推定、ハザード検出、宇宙船の航法などの用途に用いられる。 クレーター検出は、大きさや形状、データの分解能、惑星データ型などの複雑なクレーター特性を含む様々な側面から、難しい問題である。 他のコンピュータビジョンタスクと同様に、ディープラーニングベースのアプローチは近年クレーター検出の研究に大きな影響を与えている。 本調査は,深層学習に基づくクレーター検出アルゴリズム(CDA)の開発を通じて,この分野の研究者を支援することを目的とする。 このレビューには、惑星データ、クレーターデータベース、評価メトリクスを含む様々なクレーター検出アプローチをカバーする140以上の研究が含まれている。 具体的には、クレーターの複雑な特性によるクレーター検出の課題を議論し、dlベースのcdaを3つの部分に分けて調査する。 (a)意味的セグメンテーションに基づく (b)物体検出ベース、及び (c)分類に基づく。 さらに,共通のデータセット上で意味セグメンテーションに基づくcdaのトレーニングとテストを行い,クレーター検出と潜在的応用における各アーキテクチャの有効性を評価した。 最後に、将来的な作業の可能性について推奨しています。

Craters are one of the most prominent features on planetary surfaces, used in applications such as age estimation, hazard detection, and spacecraft navigation. Crater detection is a challenging problem due to various aspects, including complex crater characteristics such as varying sizes and shapes, data resolution, and planetary data types. Similar to other computer vision tasks, deep learning-based approaches have significantly impacted research on crater detection in recent years. This survey aims to assist researchers in this field by examining the development of deep learning-based crater detection algorithms (CDAs). The review includes over 140 research works covering diverse crater detection approaches, including planetary data, craters database, and evaluation metrics. To be specific, we discuss the challenges in crater detection due to the complex properties of the craters and survey the DL-based CDAs by categorizing them into three parts: (a) semantic segmentation-based, (b) object detection-based, and (c) classification-based. Additionally, we have conducted training and testing of all the semantic segmentation-based CDAs on a common dataset to evaluate the effectiveness of each architecture for crater detection and its potential applications. Finally, we have provided recommendations for potential future works.
翻訳日:2023-10-23 03:14:01 公開日:2023-09-28
# AIの可能性と認識 - サイバーセキュリティにおける人間-AIチームの視点からの立場から

AI Potentiality and Awareness: A Position Paper from the Perspective of Human-AI Teaming in Cybersecurity ( http://arxiv.org/abs/2310.12162v1 )

ライセンス: Link先を確認
Iqbal H. Sarker, Helge Janicke, Nazeeruddin Mohammad, Paul Watters and Surya Nepal(参考訳) このポジションペーパーは、サイバーセキュリティの文脈におけるAIの可能性の広い展望を探求し、人間の専門家をループに組み込んだ「Human-AI」チームリングによって管理できる、認識を伴う潜在的なリスク要因に特に重点を置いている。 人工知能(AI)技術が進歩するにつれて、攻撃識別、インシデント対応、回復のための例外のない機会が提供される。 しかし、サイバーセキュリティ対策へのaiの展開の成功は、現実世界のアプリケーション分野における関連するリスク要因に対処する上で、その能力、課題、倫理的および法的影響を深く理解する必要がある。 これに向けて、AIの計算能力と人間の専門知識を取り入れたバランスのとれたアプローチの重要性を強調します。 aiシステムは積極的に脆弱性を発見し、パターン認識と予測モデリングを通じて異常を検出し、速度と精度を大幅に向上させる。 人間の専門家は、AIによるセキュリティソリューションの信頼を確立するための責任と説明責任を保証するため、利害関係者、規制当局、エンドユーザにAI生成決定を説明することができる。 そこで本稿では、直観、批判的思考、文脈的理解といった人間の専門知識が、AIの計算能力と組み合わせて、全体的なサイバー防御を改善するというサイバーセキュリティにおいて、人間とAIのコラボレーションの価値を論じる。

This position paper explores the broad landscape of AI potentiality in the context of cybersecurity, with a particular emphasis on its possible risk factors with awareness, which can be managed by incorporating human experts in the loop, i.e., "Human-AI" teaming. As artificial intelligence (AI) technologies advance, they will provide unparalleled opportunities for attack identification, incident response, and recovery. However, the successful deployment of AI into cybersecurity measures necessitates an in-depth understanding of its capabilities, challenges, and ethical and legal implications to handle associated risk factors in real-world application areas. Towards this, we emphasize the importance of a balanced approach that incorporates AI's computational power with human expertise. AI systems may proactively discover vulnerabilities and detect anomalies through pattern recognition, and predictive modeling, significantly enhancing speed and accuracy. Human experts can explain AI-generated decisions to stakeholders, regulators, and end-users in critical situations, ensuring responsibility and accountability, which helps establish trust in AI-driven security solutions. Therefore, in this position paper, we argue that human-AI teaming is worthwhile in cybersecurity, in which human expertise such as intuition, critical thinking, or contextual understanding is combined with AI's computational power to improve overall cyber defenses.
翻訳日:2023-10-23 02:11:02 公開日:2023-09-28
# LabGym 人工知能を用いた日本産マカオの採石行動の自動同定

Automatic Identification of Stone-Handling Behaviour in Japanese Macaques Using LabGym Artificial Intelligence ( http://arxiv.org/abs/2310.07812v1 )

ライセンス: Link先を確認
Th\'eo Ardoin, C\'edric Sueur (IPHC, ANTHROPO LAB, IUF)(参考訳) 人工知能技術の最近の進歩は、複雑な行動の分析への扉を開いた。 これを踏まえて、倫理学者はビデオデータを用いた行動分析の時間集約的なプロセスを合理化するために、これらのイノベーションの可能性を積極的に探っている。 原始学の分野では、この目的のためにいくつかのツールが開発されている。 それでも、これらのツールはそれぞれ、私たちが乗り越えようとしている技術的制約を伴います。 これらの制限に対処するため,我々は最先端ツールであるlabgymの機能を活用すべく,包括的なプロトコルを構築した。 主目的は, 霊長類の行動分析におけるLabGymの適性を評価することであり, モデル対象としてのマカクに焦点をあてた。 本研究は,日本産マカクの石の扱いを高精度に検出するモデルの開発に成功した。 私たちの行動分析モデルは、最初の期待通り完了し、LabGymはビデオ上でのストーンハンドリング動作の認識に成功しました。 しかし,本研究の行動分析の質に関する結論を導き出す能力は,特定の時間枠内に定量的なデータがないことによって阻害される点に留意する必要がある。 それでも、私たちのモデルは、私たちの知識が拡張する限り、霊長類行動の分析にLabGymを活用するための先駆的な取り組みを表している。 この有望な分野における将来の研究の土台を築いている。

The latest advancements in artificial intelligence technology have opened doors to the analysis of intricate behaviours. In light of this, ethologists are actively exploring the potential of these innovations to streamline the time-intensive process of behavioural analysis using video data. In the realm of primatology, several tools have been developed for this purpose. Nonetheless, each of these tools grapples with technical constraints that we aim to surmount. To address these limitations, we have established a comprehensive protocol designed to harness the capabilities of a cutting-edge tool, LabGym. Our primary objective was to evaluate LabGym's suitability for the analysis of primate behaviour, with a focus on Japanese macaques as our model subjects. We have successfully developed a model that demonstrates a high degree of accuracy in detecting Japanese macaques stone-handling behaviour. Our behavioural analysis model was completed as per our initial expectations and LabGym succeed to recognise stone-handling behaviour on videos. However, it is important to note that our study's ability to draw definitive conclusions regarding the quality of the behavioural analysis is hampered by the absence of quantitative data within the specified timeframe. Nevertheless, our model represents the pioneering endeavour, as far as our knowledge extends, in leveraging LabGym for the analysis of primate behaviours. It lays the groundwork for potential future research in this promising field.
翻訳日:2023-10-15 14:18:02 公開日:2023-09-28
# De-SaTE:Liイオン電池の健康診断のためのセルフアテンショントランスフォーマーエンコーダ

De-SaTE: Denoising Self-attention Transformer Encoders for Li-ion Battery Health Prognostics ( http://arxiv.org/abs/2310.00023v1 )

ライセンス: Link先を確認
Gaurav Shinde, Rohan Mohapatra, Pooja Krishan and Saptarshi Sengupta(参考訳) リチウムイオン(リチウムイオン)電池は、ポータブル電子機器の電源から電気自動車の推進、エネルギー貯蔵システムのサポートに至るまで、様々な産業で広く普及している。 リチウムイオン電池を効果的に管理する上での課題は、その残留実用生命(RUL)を正確に予測することであり、これは積極的な保守と予測分析にとって重要な指標である。 本研究は,電池データに共通する特定のノイズに対処するよう訓練された,複数モジュールのパワーを利用する新しい手法を提案する。 具体的には、消音オートエンコーダとウェーブレットデノイザーを使用して符号化/分解された表現を生成し、その後専用のセルフアテンショントランスフォーマエンコーダで処理する。 NASAとCALCEのデータセットで広範な実験を行った結果、さまざまなノイズパターンのセットの下で、幅広いスペクトルの健康指標推定を特徴付けることができた。 これらのデータセットで報告されたエラーメトリクスは、最近の文献で報告されているものと同等かそれ以上であることがわかった。

Lithium Ion (Li-ion) batteries have gained widespread popularity across various industries, from powering portable electronic devices to propelling electric vehicles and supporting energy storage systems. A central challenge in managing Li-ion batteries effectively is accurately predicting their Remaining Useful Life (RUL), which is a critical measure for proactive maintenance and predictive analytics. This study presents a novel approach that harnesses the power of multiple denoising modules, each trained to address specific types of noise commonly encountered in battery data. Specifically we use a denoising auto-encoder and a wavelet denoiser to generate encoded/decomposed representations, which are subsequently processed through dedicated self-attention transformer encoders. After extensive experimentation on the NASA and CALCE datasets, we are able to characterize a broad spectrum of health indicator estimations under a set of diverse noise patterns. We find that our reported error metrics on these datasets are on par or better with the best reported in recent literature.
翻訳日:2023-10-08 11:07:38 公開日:2023-09-28
# リモートセンシング画像理解のための自己教師あり表現学習

Prompt-Enhanced Self-supervised Representation Learning for Remote Sensing Image Understanding ( http://arxiv.org/abs/2310.00022v1 )

ライセンス: Link先を確認
Mingming Zhang, Qingjie Liu, and Yunhong Wang(参考訳) 大規模でラベルのないデータセット上で自己スーパービジョンによる表現の学習は、リモートセンシング画像分析で使用されるような多様な画像を理解するのに非常に効果的であることが証明されている。 しかし、リモートセンシング画像はしばしば複雑で人口密度の高いシーンを持ち、複数の陸地オブジェクトと明確な前景オブジェクトがない。 この本質的な性質は、コントラスト学習における偽陽性対や、再構成学習における文脈情報の欠如につながり、既存の自己教師あり学習法の有効性を制限できる。 そこで本研究では,簡易かつ効率的な事前学習パイプラインを用いた自己教師付き表現学習手法を提案する。 本手法では,オリジナルイメージパッチを再構成型プロンプトテンプレートとして活用し,意味的一貫性制約による文脈情報を提供するプロンプトエンハンスメント生成ブランチを設計する。 我々は、一般的なimagenetデータセットに匹敵する1億2800万以上のリモートセンシングイメージのデータセットを収集しました。 提案手法は,土地被覆分類,意味セグメンテーション,オブジェクト検出,インスタンスセグメンテーションなどの下流タスクにおいて,完全に教師付き学習モデルと最先端の自己教師付き学習手法を上回っていることを示す。 これらの結果から,本手法は高一般化と伝達性を有する印象的なリモートセンシング表現を学習することを示す。

Learning representations through self-supervision on a large-scale, unlabeled dataset has proven to be highly effective for understanding diverse images, such as those used in remote sensing image analysis. However, remote sensing images often have complex and densely populated scenes, with multiple land objects and no clear foreground objects. This intrinsic property can lead to false positive pairs in contrastive learning, or missing contextual information in reconstructive learning, which can limit the effectiveness of existing self-supervised learning methods. To address these problems, we propose a prompt-enhanced self-supervised representation learning method that uses a simple yet efficient pre-training pipeline. Our approach involves utilizing original image patches as a reconstructive prompt template, and designing a prompt-enhanced generative branch that provides contextual information through semantic consistency constraints. We collected a dataset of over 1.28 million remote sensing images that is comparable to the popular ImageNet dataset, but without specific temporal or geographical constraints. Our experiments show that our method outperforms fully supervised learning models and state-of-the-art self-supervised learning methods on various downstream tasks, including land cover classification, semantic segmentation, object detection, and instance segmentation. These results demonstrate that our approach learns impressive remote sensing representations with high generalization and transferability.
翻訳日:2023-10-08 11:07:20 公開日:2023-09-28
# chatmap : 地図データと大規模言語モデルとのインタラクション

Chatmap : Large Language Model Interaction with Cartographic Data ( http://arxiv.org/abs/2310.01429v1 )

ライセンス: Link先を確認
Eren Unlu(参考訳) 堅牢な微調整手法を補完する基礎言語モデル(LLM)の急速な進歩と普及により、革新的で工業的な応用への適応が促進された。 LLMを用いて地理空間データの認識と解釈を行う一方で、広大な地図データセットへの言語的アクセスも重要である。 OpenStreetMap(OSM)は,1,000万人以上のコントリビュータによるコミュニティによる詳細な都市と農村の地理データを提供する,最も野心的なオープンソースグローバルイニシアティブである。 本研究では,より有能な教師モデルによって計算された比較的小さな人工データセットを用いて,比較的小さなスケール (1B パラメータ) の LLM を微調整し,任意の都市域の OSM データに対する言語的インタフェースを提供するという概念とプロセスの詳細を実証する。 このインターフェースを通じて、ユーザーは場所の属性を問うことができ、観光客の魅力や近隣の様々なビジネスの利益の可能性など、幅広い概念をカバーすることができる。 この研究は、このような生成人工知能(AI)適応のための最初のガイドラインを提供することを目的としており、最小限の計算設定でも、この文脈で有用な新興能力の早期の兆候を示す。 OSMデータを含む人工的にキュレートされたプロンプトの埋め込みも詳細に調べられ、これは、地理的に認識された都市レトリーバル拡張世代(RAG)の応用に役立つ可能性がある。

The swift advancement and widespread availability of foundational Large Language Models (LLMs), complemented by robust fine-tuning methodologies, have catalyzed their adaptation for innovative and industrious applications. Enabling LLMs to recognize and interpret geospatial data, while offering a linguistic access to vast cartographic datasets, is of significant importance. OpenStreetMap (OSM) is the most ambitious open-source global initiative offering detailed urban and rural geographic data, curated by a community of over 10 million contributors, which constitutes a great potential for LLM applications. In this study, we demonstrate the proof of concept and details of the process of fine-tuning a relatively small scale (1B parameters) LLM with a relatively small artificial dataset curated by a more capable teacher model, in order to provide a linguistic interface to the OSM data of an arbitrary urban region. Through this interface, users can inquire about a location's attributes, covering a wide spectrum of concepts, such as its touristic appeal or the potential profitability of various businesses in that vicinity. The study aims to provide an initial guideline for such generative artificial intelligence (AI) adaptations and demonstrate early signs of useful emerging abilities in this context even in minimal computational settings. The embeddings of artificially curated prompts including OSM data are also investigated in detail, which might be instrumental for potential geospatially aware urban Retrieval Augmented Generation (RAG) applications.
翻訳日:2023-10-08 10:57:52 公開日:2023-09-28
# 長文文脈言語モデルにおける注意ソートが正規バイアスと戦う

Attention Sorting Combats Recency Bias In Long Context Language Models ( http://arxiv.org/abs/2310.01427v1 )

ライセンス: Link先を確認
Alexander Peysakhovich, Adam Lerer(参考訳) 現在の言語モデルは、世代の間に長い文脈を効率的に取り入れられないことが多い。 この問題の主な貢献者は、事前トレーニング中に学習される可能性のある注意優先事項であることを示している。 しかし、モデルが関連する文書の情報を使用していない場合でも、同じ位置にある無関係な文書と比較して、その文書に優先的に注意を払う。 我々は、この事実を利用して`attention sorting''を導入する:デコーディングの1つのステップを実行し、受け取った注意によってドキュメントをソートする(最後に最も注意を払う)、プロセスを繰り返す、新しくソートされたコンテキストで応答を生成する。 注意のソートが長いコンテキストモデルのパフォーマンスを向上させることが分かりました。 本研究は, 既成言語モデルを用いた検索拡張生成における課題を浮き彫りにした。

Current language models often fail to incorporate long contexts efficiently during generation. We show that a major contributor to this issue are attention priors that are likely learned during pre-training: relevant information located earlier in context is attended to less on average. Yet even when models fail to use the information from a relevant document in their response, they still pay preferential attention to that document compared to an irrelevant document at the same position. We leverage this fact to introduce ``attention sorting'': perform one step of decoding, sort documents by the attention they receive (highest attention going last), repeat the process, generate the answer with the newly sorted context. We find that attention sorting improves performance of long context models. Our findings highlight some challenges in using off-the-shelf language models for retrieval augmented generation.
翻訳日:2023-10-08 10:57:24 公開日:2023-09-28
# 分布線形確率近似に対する有限時間誤差境界

Finite-Time Error Bounds for Distributed Linear Stochastic Approximation ( http://arxiv.org/abs/2111.12665v2 )

ライセンス: Link先を確認
Yixuan Lin, Vijay Gupta, Ji Liu(参考訳) 本稿では,マルコフ雑音と一般コンセンサス型相互作用によって駆動される新しいマルチエージェント線形確率近似アルゴリズムについて考察する。 エージェント間の相互接続構造を時間変化有向グラフにより記述する。 エージェント間の相互接続を2つの確率行列(少なくとも予想において)で記述する場合、コンセンサスに基づく確率近似アルゴリズムの収束が研究されているが、相互接続行列が単に確率行列である場合についてはあまり知られていない。 関連する相互作用行列が確率的である任意の一様連結グラフ列に対して、この論文は、関連する常微分方程式の特異平衡点からのアルゴリズムの出力の偏差として定義される平均二乗誤差上の有限時間境界を導出する。 相互結合行列が確率的である場合、平衡点は、通信がない場合、すべてのエージェントの局所平衡の任意の非特定凸結合となる。 時間的に異なるステップサイズを持つ場合も考慮される。 In the case when the convex combination is required to be a straight average and interaction between any pair of neighboring agents may be uni-directional, so that doubly stochastic matrices cannot be implemented in a distributed manner, the paper proposes a push-sum-type distributed stochastic approximation algorithm and provides its finite-time bound for the time-varying step-size case by leveraging the analysis for the consensus-type algorithm with stochastic matrices and developing novel properties of the push-sum algorithm. 分散時間差分学習を図解的応用として論じる。

This paper considers a novel multi-agent linear stochastic approximation algorithm driven by Markovian noise and general consensus-type interaction, in which each agent evolves according to its local stochastic approximation process which depends on the information from its neighbors. The interconnection structure among the agents is described by a time-varying directed graph. While the convergence of consensus-based stochastic approximation algorithms when the interconnection among the agents is described by doubly stochastic matrices (at least in expectation) has been studied, less is known about the case when the interconnection matrix is simply stochastic. For any uniformly strongly connected graph sequences whose associated interaction matrices are stochastic, the paper derives finite-time bounds on the mean-square error, defined as the deviation of the output of the algorithm from the unique equilibrium point of the associated ordinary differential equation. For the case of interconnection matrices being stochastic, the equilibrium point can be any unspecified convex combination of the local equilibria of all the agents in the absence of communication. Both the cases with constant and time-varying step-sizes are considered. In the case when the convex combination is required to be a straight average and interaction between any pair of neighboring agents may be uni-directional, so that doubly stochastic matrices cannot be implemented in a distributed manner, the paper proposes a push-sum-type distributed stochastic approximation algorithm and provides its finite-time bound for the time-varying step-size case by leveraging the analysis for the consensus-type algorithm with stochastic matrices and developing novel properties of the push-sum algorithm. Distributed temporal difference learning is discussed as an illustrative application.
翻訳日:2023-10-02 19:58:26 公開日:2023-09-28
# ssdの汚れた秘密:具体化炭素

The Dirty Secret of SSDs: Embodied Carbon ( http://arxiv.org/abs/2207.10793v2 )

ライセンス: Link先を確認
Swamit Tannu and Prashant J. Nair(参考訳) スケーラブルなソリッドステートドライブ(ssd)は、データセンタとポータブルデバイスの両方にまたがる、データストレージとアクセシビリティの変革期を迎えています。 しかし、この技術をスケールアップする上での進歩は、大きな環境影響をもたらす可能性がある。 世界規模では、半導体製造の顕著な部分は石炭や天然ガスから得られる電気に依存している。 この顕著な例は、1ギガバイトのフラッシュメモリの製造プロセスであり、約0.16KgのCO2を放出する。 注目すべきは、2021年にはストレージ機器の製造だけで推定2000万トンのCO2排出量を削減できたことだ。 これらの環境問題を踏まえ、従来のハードディスクドライブ(hdd)と比較して、ソリッドステートドライブ(ssd)に固有の持続可能性トレードオフを分析した。 さらに, 本研究は, 貯蔵システムに関連する具体的炭素コストを効果的に測定する手法を提案する。 この研究は、ストレージシステムの持続可能性を高めるための4つの重要な戦略を含んでいる。 本稿では, SSDとHDDを比較し, 組込み炭素問題に批判的に取り組むとともに, ストレージシステムの持続可能性を高めるための総合的な枠組みを提案する。

Scalable Solid-State Drives (SSDs) have ushered in a transformative era in data storage and accessibility, spanning both data centers and portable devices. However, the strides made in scaling this technology can bear significant environmental consequences. On a global scale, a notable portion of semiconductor manufacturing relies on electricity derived from coal and natural gas sources. A striking example of this is the manufacturing process for a single Gigabyte of Flash memory, which emits approximately 0.16 Kg of CO2 - a considerable fraction of the total carbon emissions attributed to the system. Remarkably, the manufacturing of storage devices alone contributed to an estimated 20 million metric tonnes of CO2 emissions in the year 2021. In light of these environmental concerns, this paper delves into an analysis of the sustainability trade-offs inherent in Solid-State Drives (SSDs) when compared to traditional Hard Disk Drives (HDDs). Moreover, this study proposes methodologies to gauge the embodied carbon costs associated with storage systems effectively. The research encompasses four key strategies to enhance the sustainability of storage systems. In summation, this paper critically addresses the embodied carbon issues associated with SSDs, comparing them with HDDs, and proposes a comprehensive framework of strategies to enhance the sustainability of storage systems.
翻訳日:2023-10-02 19:48:45 公開日:2023-09-28
# 2つのパラメトリック駆動機械モードを持つ光学系における負の空洞光子スペクトル関数

Negative cavity photon spectral function in an optomechanical system with two parametrically-driven mechanical modes ( http://arxiv.org/abs/2205.15314v3 )

ライセンス: Link先を確認
Ali Motazedifard, A. Dalafi and M. H. Naderi(参考訳) 負の吸収に等価な負の空洞光子スペクトル関数(CPSF)を実現するための実験的に実現可能な光学的手法を提案する。 検討中のシステムは、バネ係数のコヒーレント時間変調を通じてパラメトリック駆動しながら、放射圧を介して共通のキャビティモードと線形に結合する2つのメカニカル(フォノニック)モードからなる光力学系である。 一般化線形応答理論の枠組みで得られたキャビティ遅延グリーン関数の運動方程式を用いて, 負のCPSFに対応する周波数依存性有効キャビティ減衰率(ECDR)は, 系の安定な状態にある間に, 協調性と変調パラメータを制御して実現できることを示した。 それにもかかわらず、オプトメカニカルゲインとして働くそのような負性性は、標準的な(変調されていない素の)キャビティオトメカニカルシステムでは決して発生しない。 また,2つの変調メカニカル自由度の存在は,単一の変調メカニカル発振器のセットアップと比較して,cpsfのネガティビティの大きさと帯域幅よりも制御性が高いことがわかった。 興味深いことに、導入されたネガティビティは、光学トランジスタとして使用できるスイッチ可能な帯域幅を持つ完全な波長可変光機械フィルタにつながる(出力で入力信号が増幅される)異常な(修正された)光機械的に誘起される透明性を実現するための新しいプラットフォームを開くかもしれない。

We propose an experimentally feasible optomechanical scheme to realize a negative cavity photon spectral function (CPSF) which is equivalent to a negative absorption. The system under consideration is an optomechanical system consisting of two mechanical (phononic) modes which are linearly coupled to a common cavity mode via the radiation pressure while parametrically driven through the coherent time-modulation of their spring coefficients. Using the equations of motion for the cavity retarded Green's function obtained in the framework of the generalized linear response theory, we show that in the red-detuned and weak-coupling regimes a frequency-dependent effective cavity damping rate (ECDR) corresponding to a negative CPSF can be realized by controlling the cooperativities and modulation parameters while the system still remains in the stable regime. Nevertheless, such a negativity which acts as an optomechanical gain never occurs in a standard (an unmodulated bare) cavity optomechanical system. Besides, we find that the presence of two modulated mechanical degrees of freedom provides more controllability over the magnitude and bandwidth of the negativity of CPSF, in comparison to the setup with a single modulated mechanical oscillator. Interestingly, the introduced negativity may open a new platform to realize an extraordinary (modified) optomechanically induced transparency (in which the input signal is amplified in the output) leading to a perfect tunable optomechanical filter with switchable bandwidth which can be used as an optical transistor.
翻訳日:2023-10-02 19:46:58 公開日:2023-09-28
# 医用画像セグメンテーションのためのペーシング擬似マスクを用いた非Iterative Scribble-Supervised Learning

Non-Iterative Scribble-Supervised Learning with Pacing Pseudo-Masks for Medical Image Segmentation ( http://arxiv.org/abs/2210.10956v2 )

ライセンス: Link先を確認
Zefan Yang, Di Lin, Dong Ni, and Yi Wang(参考訳) Scribble-supervised Medical Image segmentationはスパースマスクの制限に対処する。 従来のアプローチは、擬似マスクのラベル付けとネットワークパラメータの最適化である。 しかし、このような反復的な2段階のパラダイムは不利であり、ネットワークが誤った擬似マスクを好ましくないため、局所的なオプティマに閉じ込められる可能性がある。 これらの問題に対処するために,PacingPseudo という,様々な擬似マスクのストリームが整合性トレーニングを通じてネットワークを教える非定性的手法を提案する。 モチベーションは、最初に非イテレーティブなプロセスにあります。 興味深いことに、疑似マスクのストリームがトレーニング中に予測されたマスクのストリームを自然に同化するという、シアム建築によって優雅に達成できる。 次に、2つの必要な設計で整合性トレーニングを効果的に行う。 (i)効果的な指導のための高信頼擬似マスクを得るためのエントロピー正規化、 (II) 整合性正規化のための擬似マスクストリームと予測マスクストリームとの相違を生じさせるための歪曲増分 第3に,ラベル付き画素を補完する追加のアンサンブル機能を提供する,新たなメモリバンク機構を考案する。 提案したPacingPseudoの有効性は,腹部多臓器,心構造,心筋のセグメンテーションタスクを含む3つの医用画像データセットで検証された。 大規模な実験では、PacingPseudoがベースラインを大きなマージンで改善し、従来手法を一貫して上回ります。 場合によっては、PacingPseudoはその完全教師付きセグメンテーションと同等のパフォーマンスを達成しており、難解なスクリブル教師付きセグメンテーションアプリケーションの実現可能性を示している。 コードとscribbleアノテーションは公開される予定だ。

Scribble-supervised medical image segmentation tackles the limitation of sparse masks. Conventional approaches alternate between: labeling pseudo-masks and optimizing network parameters. However, such iterative two-stage paradigm is unwieldy and could be trapped in poor local optima since the networks undesirably regress to the erroneous pseudo-masks. To address these issues, we propose a non-iterative method where a stream of varying (pacing) pseudo-masks teach a network via consistency training, named PacingPseudo. Our motivation lies first in a non-iterative process. Interestingly, it can be achieved gracefully by a siamese architecture, wherein a stream of pseudo-masks naturally assimilate a stream of predicted masks during training. Second, we make the consistency training effective with two necessary designs: (i) entropy regularization to obtain high-confidence pseudo-masks for effective teaching; and (ii) distorted augmentations to create discrepancy between the pseudo-mask and predicted-mask streams for consistency regularization. Third, we devise a new memory bank mechanism that provides an extra source of ensemble features to complement scarce labeled pixels. The efficacy of the proposed PacingPseudo is validated on three public medical image datasets, including the segmentation tasks of abdominal multi-organs, cardiac structures, and myocardium. Extensive experiments demonstrate our PacingPseudo improves the baseline by large margins and consistently outcompetes several previous methods. In some cases, our PacingPseudo achieves comparable performance with its fully-supervised counterparts, showing the feasibility of our method for the challenging scribble-supervised segmentation applications. The code and scribble annotations will be publicly available.
翻訳日:2023-10-02 19:39:39 公開日:2023-09-28
# TiDAL: アクティブラーニングのための学習トレーニングダイナミクス

TiDAL: Learning Training Dynamics for Active Learning ( http://arxiv.org/abs/2210.06788v3 )

ライセンス: Link先を確認
Seong Min Kye, Kwanghee Choi, Hyeongmin Byun, Buru Chang(参考訳) Active Learning(AL)は、ラベル付きデータプールから最も有用なデータサンプルを選択して、ラベル付きデータセットを限られた予算で拡張することを目的としている。 特に不確実性に基づく手法は、モデルの性能向上に有効な最も不確実性のあるサンプルを選択する。 しかし、al文献では、tdがサンプルの不確かさを測定する上で重要な手がかりとなることを実証的に示しているにもかかわらず、確率的勾配降下による最適化において常に変化するモデル行動として定義されるトレーニングダイナミクス(td)がしばしば見過ごされている。 本稿では,tdを利用してラベルなしデータの不確かさを定量化する新しいal法であるtidal(training dynamics for active learning)を提案する。 全ての大規模未ラベルデータのTDを追跡することは現実的ではないため、TiDALはラベル付きデータのTDを学習する追加の予測モジュールを使用する。 さらにTiDALの設計を正当化するため、理論的および実証的な証拠を提供し、ALにTDを活用することの有用性を論じる。 実験結果から,我々のTiDALは,モデルトレーニング後の静的情報のみを用いてデータ不確実性を推定する最先端のAL手法と比較して,バランスの取れたベンチマークデータセットと不均衡なベンチマークデータセットの両方において,より良い,あるいは同等のパフォーマンスを達成していることがわかった。

Active learning (AL) aims to select the most useful data samples from an unlabeled data pool and annotate them to expand the labeled dataset under a limited budget. Especially, uncertainty-based methods choose the most uncertain samples, which are known to be effective in improving model performance. However, AL literature often overlooks training dynamics (TD), defined as the ever-changing model behavior during optimization via stochastic gradient descent, even though other areas of literature have empirically shown that TD provides important clues for measuring the sample uncertainty. In this paper, we propose a novel AL method, Training Dynamics for Active Learning (TiDAL), which leverages the TD to quantify uncertainties of unlabeled data. Since tracking the TD of all the large-scale unlabeled data is impractical, TiDAL utilizes an additional prediction module that learns the TD of labeled data. To further justify the design of TiDAL, we provide theoretical and empirical evidence to argue the usefulness of leveraging TD for AL. Experimental results show that our TiDAL achieves better or comparable performance on both balanced and imbalanced benchmark datasets compared to state-of-the-art AL methods, which estimate data uncertainty using only static information after model training.
翻訳日:2023-10-02 19:38:36 公開日:2023-09-28
# 光ポンピングによる強結合三量子導波路系における擬似状態と量子非線形性

Probing dressed states and quantum nonlinearities in a strongly coupled three-qubit waveguide system under optical pumping ( http://arxiv.org/abs/2209.10403v4 )

ライセンス: Link先を確認
Sofia Arranz Regidor and Stephen Hughes(参考訳) 光ポンピングにおける3量子導波路系について検討し, サイドキュービットが原子状ミラーとして機能し, 強い光物質結合状態を示す。 量子ビットはフェルミオン二準位系としてモデル化され、重要な飽和効果と量子非線形性を説明する。 この系を光学的に励起すると、放射スペクトルで見られるような着物状態のリッチな多様体が得られ、マルコフの極限における中依存マスター方程式モデルと、マルコフ近似を起こさずに行列積状態を使用する2つの異なる理論解が示される。 ミラー量子ビットの相対減衰率と空間分離を変動させることにより、リッチ非線形スペクトルがどのように得られるかを示し、マルコフマスター方程式を用いることの限界を示す。 我々のモデルは、重要な遅延効果や多光子非線形性を含む巨大原子現象を直接モデル化することができる。 また, 励起3量子ビット系が強結合系において, 非線形系に入る際のjaynes-cummingsモデルから著しく逸脱することを示す。

We study a three-qubit waveguide system in the presence of optical pumping, when the side qubits act as atomlike mirrors, manifesting in a strong light-matter coupling regime. The qubits are modelled as Fermionic two-level systems, where we account for important saturation effects and quantum nonlinearities. Optically pumping this system is shown to lead to a rich manifold of dressed states that can be seen in the emitted spectrum, and we show two different theoretical solutions using a medium-dependent master equation model in the Markovian limit, as well as using matrix product states without invoking any Markov approximations. We demonstrate how a rich nonlinear spectrum is obtained by varying the relative decay rates of the mirror qubits as well as their spatial separation, and show the limitations of using a Markovian master equation. Our model allows one to directly model giant-atom phenomena, including important retardation effects and multi-photon nonlinearities. We also show how the excited three qubit system, in a strong coupling regime, deviates significantly from a Jaynes-Cummings model when entering the nonlinear regime.
翻訳日:2023-10-02 19:37:08 公開日:2023-09-28
# ASR経路の学習:スパース多言語ASRモデル

Learning ASR pathways: A sparse multilingual ASR model ( http://arxiv.org/abs/2209.05735v4 )

ライセンス: Link先を確認
Mu Yang, Andros Tjandra, Chunxi Liu, David Zhang, Duc Le, Ozlem Kalinli(参考訳) ニューラルネットワークのプルーニングは自動音声認識(asr)モデルを効果的に圧縮する。 しかし、多言語ASRでは、言語に依存しないプルーニングマスクが全ての言語に適合せず、重要な言語固有のパラメータを捨てる可能性があるため、言語に依存しないプルーニングが一部の言語で深刻なパフォーマンス低下を引き起こす可能性がある。 本研究では、言語固有のサブネットワーク(パス)を活性化し、各言語のパラメータを明示的に学習するスパース多言語ASRモデルであるASRパスを提案する。 重なり合うサブネットワークにより、共有パラメータは、共同マルチリンガルトレーニングによる低リソース言語への知識伝達を可能にする。 本稿では,ASR経路を学習するための新しいアルゴリズムを提案し,ストリーミングRNN-Tモデルを用いて4言語で提案手法を評価する。 提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,モノリンガルスパースモデルと比較して低リソース言語の性能が向上する。

Neural network pruning compresses automatic speech recognition (ASR) models effectively. However, in multilingual ASR, language-agnostic pruning may lead to severe performance drops on some languages because language-agnostic pruning masks may not fit all languages and discard important language-specific parameters. In this work, we present ASR pathways, a sparse multilingual ASR model that activates language-specific sub-networks ("pathways"), such that the parameters for each language are learned explicitly. With the overlapping sub-networks, the shared parameters can also enable knowledge transfer for lower-resource languages via joint multilingual training. We propose a novel algorithm to learn ASR pathways, and evaluate the proposed method on 4 languages with a streaming RNN-T model. Our proposed ASR pathways outperform both dense models and a language-agnostically pruned model, and provide better performance on low-resource languages compared to the monolingual sparse models.
翻訳日:2023-10-02 19:36:48 公開日:2023-09-28
# 線によるチューニングアレイ:量子ドット電荷状態の物理インフォームドチューニング

Tuning arrays with rays: Physics-informed tuning of quantum dot charge states ( http://arxiv.org/abs/2209.03837v2 )

ライセンス: Link先を確認
Joshua Ziegler and Florian Luthi and Mick Ramsey and Felix Borjans and Guoji Zheng and Justyna P. Zwolak(参考訳) ゲート定義量子ドット(QD)に基づく量子コンピュータはスケールすることが期待される。 しかし、キュービット数が増えるにつれて、手動でシステムを調整するという負担は不合理になり、自律的なチューニングが必要とされる。 近年では、粗いゲート範囲、大域的状態トポロジー(例えば、単一QD、二重QD)、電荷、様々な手法によるトンネル結合など、様々なQDパラメータの自動チューニングのデモが行われている。 ここでは,物理インフォームドチューニング(PIT)とみなすフレームワークにおいて,グローバルな自動状態と電荷チューニングのための直感的で信頼性が高く,データ効率のよいツールセットを示す。 PITの最初のモジュールはアクションベースのアルゴリズムで、機械学習の分類器と物理知識を組み合わせて、ターゲットのグローバル状態にナビゲートする。 第2モジュールは、一連の1次元測定を用いて、まず電荷のQDを空にして目標電荷状態に調整し、続いて容量結合を校正し、目標電荷状態にナビゲートする。 動作ベースチューニングの成功率は、オフラインテストに適したシミュレーションデータと実験データの両方において、一貫して95%を超えている。 チャージ設定の成功率は、シミュレーションデータで95.5(5.4) %、オフライン実験では89.7(17.4) %(中間 97.5 %)と同等である。 注目に値するのは、学術用クリーンルームで作製したサンプルデータと工業用300mm}プロセスラインの両方で高い性能が実証され、さらにピットのデバイス非依存性が強調されることだ。 これらの実験を組み合わせることで、pitの有効性とロバスト性が実証される。

Quantum computers based on gate-defined quantum dots (QDs) are expected to scale. However, as the number of qubits increases, the burden of manually calibrating these systems becomes unreasonable and autonomous tuning must be used. There has been a range of recent demonstrations of automated tuning of various QD parameters such as coarse gate ranges, global state topology (e.g. single QD, double QD), charge, and tunnel coupling with a variety of methods. Here, we demonstrate an intuitive, reliable, and data-efficient set of tools for an automated global state and charge tuning in a framework deemed physics-informed tuning (PIT). The first module of PIT is an action-based algorithm that combines a machine learning classifier with physics knowledge to navigate to a target global state. The second module uses a series of one-dimensional measurements to tune to a target charge state by first emptying the QDs of charge, followed by calibrating capacitive couplings and navigating to the target charge state. The success rate for the action-based tuning consistently surpasses 95 % on both simulated and experimental data suitable for off-line testing. The success rate for charge setting is comparable when testing with simulated data, at 95.5(5.4) %, and only slightly worse for off-line experimental tests, with an average of 89.7(17.4) % (median 97.5 %). It is noteworthy that the high performance is demonstrated both on data from samples fabricated in an academic cleanroom as well as on an industrial 300 mm} process line, further underlining the device agnosticism of PIT. Together, these tests on a range of simulated and experimental devices demonstrate the effectiveness and robustness of PIT.
翻訳日:2023-10-02 19:36:31 公開日:2023-09-28
# グラフニューラルネットワークと強化学習を用いた断続スワップ追従型ブロッキングジョブショップ問題の分散ルールの生成

Generating Dispatching Rules for the Interrupting Swap-Allowed Blocking Job Shop Problem Using Graph Neural Network and Reinforcement Learning ( http://arxiv.org/abs/2302.02506v2 )

ライセンス: Link先を確認
Vivian W.H. Wong, Sang Hun Kim, Junyoung Park, Jinkyoo Park, Kincho H. Law(参考訳) 中断型スワップ可能ブロッキングジョブショップ問題(isbjssp)は、多くの製造計画やロジスティクスアプリケーションを、ストレージ容量の欠如と予期せぬ生産中断の両方に対処してリアルにモデル化できる複雑なスケジューリング問題である。 機械の故障やメンテナンスによる乱雑な破壊を受け、産業生産設定では、問題状態が動的に変化するたびに新しい構成にコストがかかる従来の方法よりも、適応的でリアルタイムな再スケジューリングを可能にするディスパッチルールを採用することを選択することが多い。 ISBJSSP問題に対するディスパッチルールを生成するために,連続的な削除や加算を受けるノードとエッジを特徴とする動的解離グラフ定式化を導入する。 この定式化により、グラフニューラルネットワークと強化学習を利用した適応スケジューラのトレーニングが可能になる。 さらに、ISBJSSP設定における割り込み、スワップ、ブロッキングをシミュレートするシミュレータを開発した。 本報告では,isbjsspインスタンスについて,マシンシャットダウン確率範囲の詳細な実験を行い,生成したスケジューリングポリシーが既定のディスパッチルールよりも優れているか,あるいは少なくとも既定の優先度で競合可能であることを示す。 本研究は,実時間適応型ソリューションを必要とするISBJSSPを,ランダムマシン停止時に生産中断が発生した場合に,提案手法で効率的にスケジュールできることを示した。

The interrupting swap-allowed blocking job shop problem (ISBJSSP) is a complex scheduling problem that is able to model many manufacturing planning and logistics applications realistically by addressing both the lack of storage capacity and unforeseen production interruptions. Subjected to random disruptions due to machine malfunction or maintenance, industry production settings often choose to adopt dispatching rules to enable adaptive, real-time re-scheduling, rather than traditional methods that require costly re-computation on the new configuration every time the problem condition changes dynamically. To generate dispatching rules for the ISBJSSP problem, we introduce a dynamic disjunctive graph formulation characterized by nodes and edges subjected to continuous deletions and additions. This formulation enables the training of an adaptive scheduler utilizing graph neural networks and reinforcement learning. Furthermore, a simulator is developed to simulate interruption, swapping, and blocking in the ISBJSSP setting. Employing a set of reported benchmark instances, we conduct a detailed experimental study on ISBJSSP instances with a range of machine shutdown probabilities to show that the scheduling policies generated can outperform or are at least as competitive as existing dispatching rules with predetermined priority. This study shows that the ISBJSSP, which requires real-time adaptive solutions, can be scheduled efficiently with the proposed method when production interruptions occur with random machine shutdowns.
翻訳日:2023-10-02 19:28:18 公開日:2023-09-28
# マルチクナプサック問題に対する量子コンピューティング技術

Quantum Computing Techniques for Multi-Knapsack Problems ( http://arxiv.org/abs/2301.05750v2 )

ライセンス: Link先を確認
Abhishek Awasthi, Francesco B\"ar, Joseph Doetsch, Hans Ehm, Marvin Erdmann, Maximilian Hess, Johannes Klepsch, Peter A. Limacher, Andre Luckow, Christoph Niedermeier, Lilly Palackal, Ruben Pfeiffer, Philipp Ross, Hila Safi, Janik Sch\"onmeier-Kromer, Oliver von Sicard, Yannick Wenger, Karen Wintersperger, Sheir Yarkoni(参考訳) 最適化問題は様々な産業環境においてユビキタスであり、複数クナプサック最適化は、複数の産業が日々直面するタスクの1つである。 量子コンピューティングの出現は、計算集約的なタスクのための新しいパラダイムを開き、特定のクラスの問題に対してより良くより高速なソリューションを提供することを約束している。 本研究は,マルチクナプサック問題に対する量子コンピューティング手法の包括的研究であり,量子ソフトウェアとハードウェアツールを用いて,最先端の量子アルゴリズムのいくつかを調査した。 量子アプローチの性能は、様々なハイパーパラメータと比較される。 本稿では,QAOA や VQE などのゲート型量子アルゴリズムや量子アニーリングについて考察し,その解法と実行時推定について概観する。 さらに、本手法の優れた性能の理由を理解するために、ウォームスタート型QAOAの影響を分析する。 今後,産業応用における量子最適化の活用を視野に入れて,結果の意義について考察する。 より優れた量子ハードウェアに対する高い需要に加えて、より優れた量子最適化アルゴリズム、特にマルチクナップサック問題の必要性も強調した。

Optimization problems are ubiquitous in various industrial settings, and multi-knapsack optimization is one recurrent task faced daily by several industries. The advent of quantum computing has opened a new paradigm for computationally intensive tasks, with promises of delivering better and faster solutions for specific classes of problems. This work presents a comprehensive study of quantum computing approaches for multi-knapsack problems, by investigating some of the most prominent and state-of-the-art quantum algorithms using different quantum software and hardware tools. The performance of the quantum approaches is compared for varying hyperparameters. We consider several gate-based quantum algorithms, such as QAOA and VQE, as well as quantum annealing, and present an exhaustive study of the solutions and the estimation of runtimes. Additionally, we analyze the impact of warm-starting QAOA to understand the reasons for the better performance of this approach. We discuss the implications of our results in view of utilizing quantum optimization for industrial applications in the future. In addition to the high demand for better quantum hardware, our results also emphasize the necessity of more and better quantum optimization algorithms, especially for multi-knapsack problems.
翻訳日:2023-10-02 19:27:27 公開日:2023-09-28
# BQ-NCO: 効率的なニューラルコンビネーション最適化のためのビシミュレート・クオタイリング

BQ-NCO: Bisimulation Quotienting for Efficient Neural Combinatorial Optimization ( http://arxiv.org/abs/2301.03313v3 )

ライセンス: Link先を確認
Darko Drakulic, Sofia Michel, Florian Mai, Arnaud Sors and Jean-Marc Andreoli(参考訳) エンドツーエンドのヒューリスティック学習のためのニューラルネットワークに基づく組合せ最適化手法の成功にもかかわらず、分散の一般化は依然として課題である。 本稿では,共同最適化問題(COP)をマルコフ決定過程(MDP)として新たに定式化し,COPの共通対称性を効果的に活用し,分布外ロバスト性を改善する。 構成的手法の直接 MDP の定式化から始めて,MDP における Bisimulation Quotienting (BQ) に基づく状態空間の簡易化手法を提案する。 そして,再帰的な性質を持つCOPに対して,バイシミュレーションを専門とし,還元状態がこれらの問題の対称性をどのように活用し,MDP解決を促進するかを示す。 提案したBQ-MDPに対する最適ポリシーが実際に関連するCOPを解くことを証明する。 我々は, ユークリッドと非対称走行セールスマン, キャパシタブル・ルーティング, オリエンテーリング, ナップサック問題という, 5つの古典的な問題に対する我々のアプローチを説明する。 さらに,各問題に対して,BQ-MDPに対するシンプルなアテンションベースのポリシーネットワークを導入し,単一分布から小さなインスタンスの(ほぼ)最適解を模倣して学習する。 人工的および現実的なベンチマークにおいて,5つのCOPに対する最新の結果を得た。 特に、既存のほとんどのニューラルアプローチとは対照的に、我々の学習ポリシーは、追加の探索手順なしで、トレーニング中に見られるよりもはるかに大きなインスタンスに対して優れた一般化性能を示す。

Despite the success of neural-based combinatorial optimization methods for end-to-end heuristic learning, out-of-distribution generalization remains a challenge. In this paper, we present a novel formulation of Combinatorial Optimization Problems (COPs) as Markov Decision Processes (MDPs) that effectively leverages common symmetries of COPs to improve out-of-distribution robustness. Starting from a direct MDP formulation of a constructive method, we introduce a generic way to reduce the state space, based on Bisimulation Quotienting (BQ) in MDPs. Then, for COPs with a recursive nature, we specialize the bisimulation and show how the reduced state exploits the symmetries of these problems and facilitates MDP solving. Our approach is principled and we prove that an optimal policy for the proposed BQ-MDP actually solves the associated COPs. We illustrate our approach on five classical problems: the Euclidean and Asymmetric Traveling Salesman, Capacitated Vehicle Routing, Orienteering and Knapsack Problems. Furthermore, for each problem, we introduce a simple attention-based policy network for the BQ-MDPs, which we train by imitation of (near) optimal solutions of small instances from a single distribution. We obtain new state-of-the-art results for the five COPs on both synthetic and realistic benchmarks. Notably, in contrast to most existing neural approaches, our learned policies show excellent generalization performance to much larger instances than seen during training, without any additional search procedure.
翻訳日:2023-10-02 19:27:05 公開日:2023-09-28
# 学習と意思決定へのリスク適応的アプローチ:調査

Risk-Adaptive Approaches to Learning and Decision Making: A Survey ( http://arxiv.org/abs/2212.00856v2 )

ライセンス: Link先を確認
Johannes O. Royset(参考訳) 不確実性は、工学設計、統計学習、意思決定において広く見られる。 本質的なリスク回避性と仮定に対する曖昧さのため、リスクと関連する概念の尺度を用いて表現される保守的最適化モデルを定式化し、解決することで不確実性に対処することが一般的である。 我々は過去4半世紀におけるリスク対策の急速な発展を調査した。 金融工学の始まりから、工学と応用数学のほぼ全ての分野への広がりを振り返る。 凸解析に根ざしたリスク対策は、重要な計算的および理論的優位性を持つ不確実性を扱うための一般的な枠組みを提供する。 重要な事実を説明し、いくつかの具体的なアルゴリズムをリストアップし、さらに読むための参照のリストを提供する。 この調査はユーティリティ理論と分散的ロバストな最適化との関係を思い出し、公正な機械学習のような新しい応用分野を指し示し、信頼性の尺度を定義している。

Uncertainty is prevalent in engineering design, statistical learning, and decision making broadly. Due to inherent risk-averseness and ambiguity about assumptions, it is common to address uncertainty by formulating and solving conservative optimization models expressed using measures of risk and related concepts. We survey the rapid development of risk measures over the last quarter century. From their beginning in financial engineering, we recount the spread to nearly all areas of engineering and applied mathematics. Solidly rooted in convex analysis, risk measures furnish a general framework for handling uncertainty with significant computational and theoretical advantages. We describe the key facts, list several concrete algorithms, and provide an extensive list of references for further reading. The survey recalls connections with utility theory and distributionally robust optimization, points to emerging applications areas such as fair machine learning, and defines measures of reliability.
翻訳日:2023-10-02 19:25:55 公開日:2023-09-28
# パリティ保護コンバータを用いた高忠実パラメトリックビームスプリッティング

High-fidelity parametric beamsplitting with a parity-protected converter ( http://arxiv.org/abs/2303.00959v2 )

ライセンス: Link先を確認
Yao Lu, Aniket Maiti, John W. O. Garmon, Suhas Ganjam, Yaxing Zhang, Jahan Claes, Luigi Frunzio, S. M. Girvin, Robert J. Schoelkopf(参考訳) マイクロ波共振器間の高速で高忠実な動作は、ボゾン量子計算と超伝導回路によるシミュレーションにとって重要なツールである。 これらの操作を実装するための魅力的なアプローチは、非線形コンバータを介してこれらの共振器を結合し、パラメトリックプロセスをRFドライブで作動させることである。 寄生過程を活性化することなく強力なドライブを導入するか、さらにデコヒーレンスチャネルを導入する必要があるため、これらのプロセスを同時に高速かつ高忠実にすることは困難である。 本研究では, 駆動周波数と環境騒音のスペクトルを慎重に管理することに加えて, 変換器ハミルトンの内蔵対称性を利用して不要な非線形相互作用を抑制でき, コンバータによるデコヒーレンスを防止できることを示す。 差動駆動型DC-SQUIDをコンバータとし、2つの高Qマイクロ波キャビティを組み合わせたこれらの原理を実証する。 このアーキテクチャを用いて、高コヒーレントなビームスプリッターと高速な($100 ns)キャビティ間のスワップを設計した。 このビームスプリッターをキャビティのジョイント単光子部分空間で特徴付けし、光子損失イベントを検出後選択することで、ビームスプリッターゲートの忠実度が99.98$\%$を超えることを証明し、我々の知識が現在のアートをはるかに上回っていることを示す。

Fast, high-fidelity operations between microwave resonators are an important tool for bosonic quantum computation and simulation with superconducting circuits. An attractive approach for implementing these operations is to couple these resonators via a nonlinear converter and actuate parametric processes with RF drives. It can be challenging to make these processes simultaneously fast and high fidelity, since this requires introducing strong drives without activating parasitic processes or introducing additional decoherence channels. We show that in addition to a careful management of drive frequencies and the spectrum of environmental noise, leveraging the inbuilt symmetries of the converter Hamiltonian can suppress unwanted nonlinear interactions, preventing converter-induced decoherence. We demonstrate these principles using a differentially-driven DC-SQUID as our converter, coupled to two high-Q microwave cavities. Using this architecture, we engineer a highly-coherent beamsplitter and fast ($\sim$ 100 ns) swaps between the cavities, limited primarily by their intrinsic single-photon loss. We characterize this beamsplitter in the cavities' joint single-photon subspace, and show that we can detect and post-select photon loss events to achieve a beamsplitter gate fidelity exceeding 99.98$\%$, which to our knowledge far surpasses the current state of the art.
翻訳日:2023-10-02 19:17:15 公開日:2023-09-28
# 自動データサイエンスのための大規模言語モデル:コンテキスト対応機能エンジニアリングのためのCAAFEの導入

Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering ( http://arxiv.org/abs/2305.03403v5 )

ライセンス: Link先を確認
Noah Hollmann, Samuel M\"uller and Frank Hutter(参考訳) 自動機械学習(AutoML)の分野が進むにつれて、これらのシステムにドメイン知識を統合することがますます重要になる。 本稿では,大規模言語モデル(LLM)のパワーを利用する手法を提案する。 具体的には,表型データセットのための機能エンジニアリング手法であるcaafe(context-aware automated feature engineering)を導入する。llmを利用して,表型データセットに対して,その記述に基づいて意味的に意味のある機能を反復生成する。 このメソッドは、新しい機能を作成するためのPythonコードと、生成された機能のユーティリティの説明の両方を生成する。 方法論的には単純だが、CAAFEは14データセット中11データセットのパフォーマンスを改善し、平均ROC AUCパフォーマンスを全データセットで0.798から0.822に向上させる。 さらに、CAAFEは、生成された各特徴についてテキストによる説明を提供することで解釈できる。 CAAFEは、データサイエンスタスクにおけるより広範な半自動化の道を開き、AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト対応ソリューションの重要性を強調している。 a $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAZ4MaB_alZvyARTMjhl6RZf0a}{demo}$と a $\href{https://pypi.org/project/caafe/}{python\ package}$をリリースした。

As the field of automated machine learning (AutoML) advances, it becomes increasingly important to incorporate domain knowledge into these systems. We present an approach for doing so by harnessing the power of large language models (LLMs). Specifically, we introduce Context-Aware Automated Feature Engineering (CAAFE), a feature engineering method for tabular datasets that utilizes an LLM to iteratively generate additional semantically meaningful features for tabular datasets based on the description of the dataset. The method produces both Python code for creating new features and explanations for the utility of the generated features. Despite being methodologically simple, CAAFE improves performance on 11 out of 14 datasets -- boosting mean ROC AUC performance from 0.798 to 0.822 across all dataset - similar to the improvement achieved by using a random forest instead of logistic regression on our datasets. Furthermore, CAAFE is interpretable by providing a textual explanation for each generated feature. CAAFE paves the way for more extensive semi-automation in data science tasks and emphasizes the significance of context-aware solutions that can extend the scope of AutoML systems to semantic AutoML. We release our $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAJZ4MaB_alZvyARTMjhl6RZf0a}{demo}$ and a $\href{https://pypi.org/project/caafe/}{python\ package}$.
翻訳日:2023-10-02 18:58:06 公開日:2023-09-28
# darswin:歪みを考慮したラジアルスウィン変圧器

DarSwin: Distortion Aware Radial Swin Transformer ( http://arxiv.org/abs/2304.09691v3 )

ライセンス: Link先を確認
Akshaya Athwale, Arman Afrasiyabi, Justin Lag\"ue, Ichrak Shili, Ola Ahmad and Jean-Fran\c{c}ois Lalonde(参考訳) 広角レンズは広い視野を必要とする知覚タスクで一般的に使用される。 残念ながら、これらのレンズは、広角画像に適応できない歪み効果を無視する従来のモデルに顕著な歪みをもたらす。 本稿では,広角レンズの歪みに自動的に適応する変圧器モデルを提案する。 我々は、放射歪プロファイルによって解析的に定義されるようなレンズの物理的特性を利用して、歪みを意識した放射歪変換器(DarSwin)を開発する。 従来のトランスフォーマーベースのアーキテクチャとは対照的に、darswinはラジアルパッチパーティショニング、トークン埋め込みを作成するための歪みベースのサンプリング技術、ラジアルパッチマージのための角位置エンコーディングを備えている。 本研究では,合成歪画像ネットデータを用いて分類課題の検証を行い,darswin が異なる広角レンズの非知覚歪みに対してゼロショット適応できることを示す。 他のベースラインと比較すると、darswinは(top-1の正確さで)最高の結果を達成し、限定された歪(非常に低い、低い、中、高い)のレベルを訓練し、分散歪を含むすべてでテストした。 コードとモデルはhttps://lvsn.github.io/darswin/で公開されている。

Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. We leverage the physical characteristics of such lenses, which are analytically defined by the radial distortion profile (assumed to be known), to develop a distortion aware radial swin transformer (DarSwin). In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and an angular position encoding for radial patch merging. We validate our method on classification tasks using synthetically distorted ImageNet data and show through extensive experiments that DarSwin can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. Compared to other baselines, DarSwin achieves the best results (in terms of Top-1 accuracy) with significant gains when trained on bounded levels of distortions (very-low, low, medium, and high) and tested on all including out-of-distribution distortions. The code and models are publicly available at https://lvsn.github.io/darswin/
翻訳日:2023-10-02 18:56:41 公開日:2023-09-28
# Barrier-Lyapunov Actor-Critic アプローチによる安定かつ安全な強化学習

Stable and Safe Reinforcement Learning via a Barrier-Lyapunov Actor-Critic Approach ( http://arxiv.org/abs/2304.04066v3 )

ライセンス: Link先を確認
Liqun Zhao, Konstantinos Gatsis, Antonis Papachristodoulou(参考訳) 強化学習(rl)はビデオゲームやロボティクスといった様々な分野で印象的なパフォーマンスを示している。 しかしながら、制御の観点からは2つの重要な特性である安全性と安定性を確保することは、現実のシステムを制御するためにrlを使用する場合の大きな課題である。 本稿では、まず、RLシステムの安全性と安定性を定義し、次に制御バリア関数(CBF)と制御リアプノフ関数(CLF)をRLのアクター・クリティカルな手法と組み合わせ、前述の安全性と安定性を維持するためのバリア・リャプノフ・アクター・クリティカル(BLAC)フレームワークを提案する。 このフレームワークでは、リプレイバッファからサンプリングされたデータに基づいて安全のためのcbf制約と安定性のためのclf制約を構築し、rlベースのコントローラのパラメータを更新するために拡張ラグランジアン法を用いる。 さらに、安全性と安定性の制約を同時に満たさない場合に、RLベースのコントローラが有効な制御信号を提供できない場合に、追加のバックアップコントローラを導入する。 シミュレーションの結果、このフレームワークはシステムが望ましい状態に近づくのに役立ち、ベースラインアルゴリズムと比較して安全性制約の違反が少なくなることを示す。

Reinforcement learning (RL) has demonstrated impressive performance in various areas such as video games and robotics. However, ensuring safety and stability, which are two critical properties from a control perspective, remains a significant challenge when using RL to control real-world systems. In this paper, we first provide definitions of safety and stability for the RL system, and then combine the control barrier function (CBF) and control Lyapunov function (CLF) methods with the actor-critic method in RL to propose a Barrier-Lyapunov Actor-Critic (BLAC) framework which helps maintain the aforementioned safety and stability for the system. In this framework, CBF constraints for safety and CLF constraint for stability are constructed based on the data sampled from the replay buffer, and the augmented Lagrangian method is used to update the parameters of the RL-based controller. Furthermore, an additional backup controller is introduced in case the RL-based controller cannot provide valid control signals when safety and stability constraints cannot be satisfied simultaneously. Simulation results show that this framework yields a controller that can help the system approach the desired state and cause fewer violations of safety constraints compared to baseline algorithms.
翻訳日:2023-10-02 18:55:52 公開日:2023-09-28
# オフライン強化学習におけるミニマックス最適サンプル複雑性の実現:droに基づくアプローチ

Achieving Minimax Optimal Sample Complexity of Offline Reinforcement Learning: A DRO-Based Approach ( http://arxiv.org/abs/2305.13289v2 )

ライセンス: Link先を確認
Yue Wang, Jinjun Xiong, Shaofeng Zou(参考訳) オフライン強化学習は、アクティブな探索なしに事前に収集されたデータセットから学ぶことを目的としている。 この問題は、データ可用性や分散シフトの制限など、重大な課題に直面している。 既存のアプローチでは、不確実性に対する悲観的なスタンスを採用し、探索されていない状態-作用対の報酬を、保守的に値関数を推定する。 本稿では,分散ロバスト最適化(DRO)に基づく手法により,これらの課題にも対処できることを示す。 具体的には、遷移核における不確かさを直接モデル化し、統計的に妥当な遷移核の不確実性集合を構成する。 そして、この不確実性セットに対して最悪のパフォーマンスを最適化するポリシーを見つけます。 まず、高い確率で真の遷移カーネルがこの集合に含まれるような計量ベースのHoeffding型不確実性集合を設計する。 我々は、$\epsilon$の準最適ギャップを達成するために、サンプル複雑性は$\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-4})$であり、$\gamma$は割引係数、$S$は状態数、$C^{\pi^*}$は分布シフトを定量化する単極クリッピング濃度係数であることを示す。 最適なサンプル複雑性を達成するため、より保守的なベルンシュタイン型不確実性集合も提案するが、必ずしも真の遷移核を含まない。 オフライン強化学習における最小値の最小値と一致する$\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-3})$の改善されたサンプル複雑性が得られた。

Offline reinforcement learning aims to learn from pre-collected datasets without active exploration. This problem faces significant challenges, including limited data availability and distributional shifts. Existing approaches adopt a pessimistic stance towards uncertainty by penalizing rewards of under-explored state-action pairs to estimate value functions conservatively. In this paper, we show that the distributionally robust optimization (DRO) based approach can also address these challenges and is minimax optimal. Specifically, we directly model the uncertainty in the transition kernel and construct an uncertainty set of statistically plausible transition kernels. We then find the policy that optimizes the worst-case performance over this uncertainty set. We first design a metric-based Hoeffding-style uncertainty set such that with high probability the true transition kernel is in this set. We prove that to achieve a sub-optimality gap of $\epsilon$, the sample complexity is $\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-4})$, where $\gamma$ is the discount factor, $S$ is the number of states, and $C^{\pi^*}$ is the single-policy clipped concentrability coefficient which quantifies the distribution shift. To achieve the optimal sample complexity, we further propose a less conservative Bernstein-style uncertainty set, which, however, does not necessarily include the true transition kernel. We show that an improved sample complexity of $\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-3})$ can be obtained, which matches with the minimax lower bound for offline reinforcement learning, and thus is minimax optimal.
翻訳日:2023-10-02 18:46:01 公開日:2023-09-28
# 大気量子チャネルの数値シミュレーション

Numerical simulations of atmospheric quantum channels ( http://arxiv.org/abs/2305.10570v2 )

ライセンス: Link先を確認
M. Klen and A. A. Semenov(参考訳) 大気乱流は自由空間量子通信における主外乱の1つである。 このようなチャネル内の光の量子状態は、透過率(PDT)の確率分布を特徴とする変動損失によって影響を受ける。 大気中を透過する光の数値シミュレーションにより,異なる水平リンクに対するPDTを求める。 その結果, 解析モデルと比較し, 停止対数正規分布, ビームワインダモデル, 楕円ビーム近似, トータル確率の法則に基づくモデルと比較した。 その適用性は受信機開口半径に大きく依存している。 本研究では,ベータ分布に基づく実験モデルを提案する。これは幅広いチャネルパラメータの数値シミュレーションとよく一致している。 しかし、上記の解析モデルが数値シミュレーションデータに適合しないシナリオがまだ残っている。 数値シミュレーションは、自由空間チャネルを通る二次スケーズ光を解析するために使われる。

Atmospheric turbulence is one of the lead disturbance factors for free-space quantum communication. The quantum states of light in such channels are affected by fluctuating losses characterized by the probability distribution of transmittance (PDT). We obtain the PDT for different horizontal links via numerical simulations of light transmission through the atmosphere. The results are compared with analytical models: the truncated log-normal distribution, the beam-wandering model, the elliptic-beam approximation, and the model based on the law of total probability. Their applicability is shown to be strongly dependent on the receiver aperture radius. We introduce an empirical model based on the Beta distribution, which is in good agreement with numerical simulations for a wide range of channel parameters. However, there are still scenarios where none of the above analytical models fits the numerically simulated data. The numerical simulation is then used to analyze the transmission of quadrature-squeezed light through free-space channels.
翻訳日:2023-10-02 18:44:01 公開日:2023-09-28
# 神経制御微分方程式の一般化と近似容量について

On the Generalization and Approximation Capacities of Neural Controlled Differential Equations ( http://arxiv.org/abs/2305.16791v3 )

ライセンス: Link先を確認
Linus Bleistein, Agathe Guilloux(参考訳) Neural Controlled Differential Equations (NCDE)は、不規則にサンプリングされた時系列(Kidger, 2020)で教師あり学習を行う最先端のツールである。 しかし、その性能に関する理論的分析はまだ提供されておらず、特に時系列の不規則性が予測にどのように影響するかは明らかではない。 制御微分方程式(CDE)のリッチ理論と深部ニューラルネットワークの複雑さのリプシッツに基づく測度を組み合わせることにより、NCDEの理論的理解に向けて第一歩を踏み出す。 最初の結果は、時系列データの正則性に依存するこのクラスの予測器に対する一般化である。 2回目では,cdesの流れの連続性を利用して,サンプリングバイアスと近似バイアスの両方について詳細な解析を行った。 最後に,ニューラルネット上での古典的近似結果がNCDEにどのように移行するかを示す。 我々の理論的結果は一連の実験によって検証される。

Neural Controlled Differential Equations (NCDEs) are a state-of-the-art tool for supervised learning with irregularly sampled time series (Kidger, 2020). However, no theoretical analysis of their performance has been provided yet, and it remains unclear in particular how the irregularity of the time series affects their predictions. By merging the rich theory of controlled differential equations (CDE) and Lipschitz-based measures of the complexity of deep neural nets, we take a first step towards the theoretical understanding of NCDE. Our first result is a generalization bound for this class of predictors that depends on the regularity of the time series data. In a second time, we leverage the continuity of the flow of CDEs to provide a detailed analysis of both the sampling-induced bias and the approximation bias. Regarding this last result, we show how classical approximation results on neural nets may transfer to NCDEs. Our theoretical results are validated through a series of experiments.
翻訳日:2023-10-02 18:36:59 公開日:2023-09-28
# ロバスト表現学習のためのコンテクストビジョントランスフォーマ

Contextual Vision Transformers for Robust Representation Learning ( http://arxiv.org/abs/2305.19402v2 )

ライセンス: Link先を確認
Yujia Bao, Theofanis Karaletsos(参考訳) 本研究では,様々なグループにまたがる潜在要因の変化を経験するデータセットに対して,ロバストな画像表現を生成するために設計されたContextual Vision Transformers(ContextViT)を紹介する。 コンテキスト内学習の概念から派生したcontextvitは、グループ固有の情報をカプセル化する追加のコンテキストトークンを組み込んでいる。 この統合により、モデルがグループ固有のコンテキストに応じてイメージ表現を調整することができる。 具体的には、所定の入力画像に対して、ContextViTは、同じグループメンバーシップを持つ画像をこのコンテキストトークンにマッピングし、入力画像トークンに付加する。 さらに,グループからサンプルのバッチを与えられた場合,オンザフライでトークンを予測するコンテキスト推論ネットワークを導入する。 これにより、ContextViTは推論時間中に新しいテストディストリビューションに適応できる。 さまざまなアプリケーションにまたがってContextViTの有効性を実証する。 教師付き微調整では,事前学習したViTを文脈条件付き機構で拡張することにより,iWildCamとFMoWの分布外一般化が一貫した改善をもたらすことを示す。 また,ContextViTを用いた自己教師型表現学習についても検討した。 Camelyon17 の病理画像ベンチマークと JUMP-CP の顕微鏡画像ベンチマークによる実験により,ContextViT は分布シフト中の安定な画像生成の学習において優れており,常に ViT に勝っていることが示された。

We introduce Contextual Vision Transformers (ContextViT), a method designed to generate robust image representations for datasets experiencing shifts in latent factors across various groups. Derived from the concept of in-context learning, ContextViT incorporates an additional context token to encapsulate group-specific information. This integration allows the model to adjust the image representation in accordance with the group-specific context. Specifically, for a given input image, ContextViT maps images with identical group membership into this context token, which is appended to the input image tokens. Additionally, we introduce a context inference network to predict such tokens on-the-fly, given a batch of samples from the group. This enables ContextViT to adapt to new testing distributions during inference time. We demonstrate the efficacy of ContextViT across a wide range of applications. In supervised fine-tuning, we show that augmenting pre-trained ViTs with our proposed context conditioning mechanism results in consistent improvements in out-of-distribution generalization on iWildCam and FMoW. We also investigate self-supervised representation learning with ContextViT. Our experiments on the Camelyon17 pathology imaging benchmark and the JUMP-CP microscopy imaging benchmark demonstrate that ContextViT excels in learning stable image featurizations amidst distribution shift, consistently outperforming its ViT counterpart.
翻訳日:2023-10-02 18:25:09 公開日:2023-09-28
# 視線を信じないで - 機能の可視化の信頼性について

Don't trust your eyes: on the (un)reliability of feature visualizations ( http://arxiv.org/abs/2306.04719v5 )

ライセンス: Link先を確認
Robert Geirhos, Roland S. Zimmermann, Blair Bilodeau, Wieland Brendel, Been Kim(参考訳) ニューラルネットワークはどのようにピクセルからパターンを抽出するか? 機能の可視化は、最適化によって非常に活性化したパターンを視覚化することで、この重要な質問に答えようとしている。 今日、可視化手法は、機械的な解釈可能性の一種として、ニューラルネットワークの内部動作に関する我々の知識の基礎を形成している。 機能可視化はどの程度信頼できるのか? 我々は,自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために,特徴可視化を騙すネットワーク回路の開発に着手する。 特徴視覚化は標準入力とは全く異なる処理を受けており、ニューラルネットワークが自然言語をどのように処理するかを「説明」する能力に疑問を呈している。 これは機能視覚化の正当性チェックとして使用できる。 特徴視覚化によって確実に理解できる関数の集合は極めて小さく、一般的なブラックボックスニューラルネットワークを含まないことを証明して、経験的知見を裏付ける。 そのため、より信頼性の高い特徴視覚化を実現するために、特定の構造を強制するネットワークの開発が期待できる。

How do neural networks extract patterns from pixels? Feature visualizations attempt to answer this important question by visualizing highly activating patterns through optimization. Today, visualization methods form the foundation of our knowledge about the internal workings of neural networks, as a type of mechanistic interpretability. Here we ask: How reliable are feature visualizations? We start our investigation by developing network circuits that trick feature visualizations into showing arbitrary patterns that are completely disconnected from normal network behavior on natural input. We then provide evidence for a similar phenomenon occurring in standard, unmanipulated networks: feature visualizations are processed very differently from standard input, casting doubt on their ability to "explain" how neural networks process natural images. This can be used as a sanity check for feature visualizations. We underpin our empirical findings by theory proving that the set of functions that can be reliably understood by feature visualization is extremely small and does not include general black-box neural networks. Therefore, a promising way forward could be the development of networks that enforce certain structures in order to ensure more reliable feature visualizations.
翻訳日:2023-10-02 18:16:46 公開日:2023-09-28
# 電池電解質の構造とデバイス性能のマッピングのための定式化グラフ

Formulation Graphs for Mapping Structure-Composition of Battery Electrolytes to Device Performance ( http://arxiv.org/abs/2307.03811v3 )

ライセンス: Link先を確認
Vidushi Sharma, Maxwell Giammona, Dmitry Zubarev, Andy Tek, Khanh Nugyuen, Linda Sundberg, Daniele Congiu, Young-Hye La(参考訳) 高度な計算手法は、定式化のような新しい組合せ材料の発見と開発に関連する課題に対処するために積極的に求められている。 広く採用されているアプローチは、結合して定式化できる個々のコンポーネントのドメインインフォームドハイスループットスクリーニングである。 これにより、ターゲットとなる用途で新しい化合物の発見を加速するが、短いリストの化学空間から適切な「生成」を識別するプロセスは、主に実験室の実験駆動プロセスとして残される。 本稿では, 個々の成分の構造-構成関係を, 全体としての液体定式化の性質にマッピングできる深層学習モデル, フォーミュレーショングラフ畳み込みネットワーク(F-GCN)について報告する。 複数のGCNが並列に組み立てられ、形成成分をドメイン的にハエに誘導する。 得られた分子記述子は、各構成成分のモルパーセンテージに基づいて拡張され、次いで、外部学習アーキテクチャへの完全な定式化を表す複合記述子に形式化される。 提案する定式化学習モデルのユースケースは、電解質の定式化と電池性能を表す2つの模範データセット上で、電池電解質をトレーニングし、試験することで実証される。 モデルでは, クーロンビック効率 (ce) などの性能指標と, 報告誤差の低い新規電解質製剤の比容量を予測できた。 最も優れたF-GCNモデルは、知識伝達技術を用いてHOMO-LUMOと分子の電気モーメント特性を知らせる分子グラフに由来する分子記述子を用いる。

Advanced computational methods are being actively sought for addressing the challenges associated with discovery and development of new combinatorial material such as formulations. A widely adopted approach involves domain informed high-throughput screening of individual components that can be combined into a formulation. This manages to accelerate the discovery of new compounds for a target application but still leave the process of identifying the right 'formulation' from the shortlisted chemical space largely a laboratory experiment-driven process. We report a deep learning model, Formulation Graph Convolution Network (F-GCN), that can map structure-composition relationship of the individual components to the property of liquid formulation as whole. Multiple GCNs are assembled in parallel that featurize formulation constituents domain-intuitively on the fly. The resulting molecular descriptors are scaled based on respective constituent's molar percentage in the formulation, followed by formalizing into a combined descriptor that represents a complete formulation to an external learning architecture. The use case of proposed formulation learning model is demonstrated for battery electrolytes by training and testing it on two exemplary datasets representing electrolyte formulations vs battery performance -- one dataset is sourced from literature about Li/Cu half-cells, while the other is obtained by lab-experiments related to lithium-iodide full-cell chemistry. The model is shown to predict the performance metrics like Coulombic Efficiency (CE) and specific capacity of new electrolyte formulations with lowest reported errors. The best performing F-GCN model uses molecular descriptors derived from molecular graphs that are informed with HOMO-LUMO and electric moment properties of the molecules using a knowledge transfer technique.
翻訳日:2023-10-02 18:08:31 公開日:2023-09-28
# probvlm: 凍結視覚言語モデルのための確率的アダプタ

ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models ( http://arxiv.org/abs/2307.00398v3 )

ライセンス: Link先を確認
Uddeshya Upadhyay, Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata(参考訳) CLIPのような大規模視覚言語モデル(VLM)は、画像とテキストの対応を見つけることに成功した。 標準決定論的マッピングプロセスにより、埋め込み空間内の1つのベクトルに画像またはテキストサンプルをマッピングする。 複数のサンプル(画像やテキスト)が物理世界で同じ概念を抽象化できるため、決定論的埋め込みは埋め込み空間に固有の曖昧さを反映しない。 本稿では,大規模データセットや計算を必要とせず,時間外アライメントによる事前学習VLMの埋め込みの確率分布を推定する確率的アダプタProbVLMを提案する。 我々は,COCO,Flickr,CUB,オックスフォードフラワーの4つの挑戦的データセットにおいて,CLIPとBLIPの2つのVLMに対するマルチモーダル埋め込み不確かさを推定し,検索タスクにおける埋め込み不確かさのキャリブレーションを定量化し,ProbVLMが他の手法より優れていることを示す。 さらに,VLMにおける2つの実世界の下流タスクとして,能動的学習とモデル選択を提案する。 最後に,大規模な事前学習潜在拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。 コードはhttps://github.com/ExplainableML/ProbVLMで入手できる。

Large-scale vision-language models (VLMs) like CLIP successfully find correspondences between images and text. Through the standard deterministic mapping process, an image or a text sample is mapped to a single vector in the embedding space. This is problematic: as multiple samples (images or text) can abstract the same concept in the physical world, deterministic embeddings do not reflect the inherent ambiguity in the embedding space. We propose ProbVLM, a probabilistic adapter that estimates probability distributions for the embeddings of pre-trained VLMs via inter/intra-modal alignment in a post-hoc manner without needing large-scale datasets or computing. On four challenging datasets, i.e., COCO, Flickr, CUB, and Oxford-flowers, we estimate the multi-modal embedding uncertainties for two VLMs, i.e., CLIP and BLIP, quantify the calibration of embedding uncertainties in retrieval tasks and show that ProbVLM outperforms other methods. Furthermore, we propose active learning and model selection as two real-world downstream tasks for VLMs and show that the estimated uncertainty aids both tasks. Lastly, we present a novel technique for visualizing the embedding distributions using a large-scale pre-trained latent diffusion model. Code is available at https://github.com/ExplainableML/ProbVLM.
翻訳日:2023-10-02 18:07:08 公開日:2023-09-28
# グルーキングが長くなる前に予測:グルークしたモデルの損失景観を考察

Predicting Grokking Long Before it Happens: A look into the loss landscape of models which grok ( http://arxiv.org/abs/2306.13253v3 )

ライセンス: Link先を確認
Pascal Jr. Tikeng Notsawo and Hattie Zhou and Mohammad Pezeshki and Irina Rish and Guillaume Dumas(参考訳) 本稿では,ニューラルネットワークにおけるグロッキング発生の予測に焦点をあてて,過失や記憶の徴候が観測された後に,完全一般化が出現する現象について述べる。 グローキングは特定のハイパーパラメータでしか観測できないと報告されている。 これにより、グロッキングにつながるパラメータを特定することが重要になる。 しかし、グロッキングは多数のエポックの後に起こるため、それにつながるハイパーパラメータの探索は時間がかかる。 本稿では,多数のエポックを訓練することなくグロッキングを予測するための低コストな手法を提案する。 基本的には,最初の数回の時間軸の学習曲線を研究することによって,グロッキングが後に起こるかどうかを予測できることを示す。 具体的には、特定の振動が初期エポックで発生した場合、モデルがより長い時間トレーニングされた場合、グロッキングが起こると期待できる。 本研究では,フーリエ変換を適用した学習曲線のスペクトルシグネチャを用いて低周波成分の振幅を定量化し,その振動の存在を検出する。 また,これらの振動の原因を説明し,損失景観を特徴付ける実験も実施する。

This paper focuses on predicting the occurrence of grokking in neural networks, a phenomenon in which perfect generalization emerges long after signs of overfitting or memorization are observed. It has been reported that grokking can only be observed with certain hyper-parameters. This makes it critical to identify the parameters that lead to grokking. However, since grokking occurs after a large number of epochs, searching for the hyper-parameters that lead to it is time-consuming. In this paper, we propose a low-cost method to predict grokking without training for a large number of epochs. In essence, by studying the learning curve of the first few epochs, we show that one can predict whether grokking will occur later on. Specifically, if certain oscillations occur in the early epochs, one can expect grokking to occur if the model is trained for a much longer period of time. We propose using the spectral signature of a learning curve derived by applying the Fourier transform to quantify the amplitude of low-frequency components to detect the presence of such oscillations. We also present additional experiments aimed at explaining the cause of these oscillations and characterizing the loss landscape.
翻訳日:2023-10-02 18:05:39 公開日:2023-09-28
# 16ビットニューラルネットワークトレーニングにおけるバックプロパゲーションにおける数値的不安定さの軽減法

An Efficient Approach to Mitigate Numerical Instability in Backpropagation for 16-bit Neural Network Training ( http://arxiv.org/abs/2307.16189v3 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,機械学習モデルの16ビット計算において観測される数値不安定性の複雑さ,特にRMSPropやAdamのような一般的な最適化アルゴリズムを用いる場合について検討する。 この不安定性は、ディープニューラルネットワークのトレーニングフェーズで一般的に経験され、学習プロセスを混乱させ、そのようなモデルの効果的な展開を妨げる。 この数値不安定性の背後にある主要な原因は、単一の超パラメータであるエプシロンである。 これらのオプティマイザにおける16ビット計算におけるepsilonの役割の詳細な調査により、その値の微調整がrmspropとadamの機能を回復し、16ビットニューラルネットワークの有効利用を可能にすることが明らかとなった。 同定された数値不安定問題を軽減する新しい手法を提案する。 この手法は,Adamオプティマイザからの更新を活かし,16ビット計算における学習プロセスの堅牢性を大幅に向上させる。 本研究は、低精度計算における最適化の理解を深め、より効率的で安定したモデルトレーニングのための新しい道を開く深層ニューラルネットワークの訓練における長年の課題に対して効果的な解決策を提供する。

In this research, we delve into the intricacies of the numerical instability observed in 16-bit computations of machine learning models, particularly when employing popular optimization algorithms such as RMSProp and Adam. This instability is commonly experienced during the training phase of deep neural networks, leading to disrupted learning processes and hindering the effective deployment of such models. We identify the single hyperparameter, epsilon, as the main culprit behind this numerical instability. An in-depth exploration of the role of epsilon in these optimizers within 16-bit computations reveals that a minor adjustment of its value can restore the functionality of RMSProp and Adam, consequently enabling the effective utilization of 16-bit neural networks. We propose a novel method to mitigate the identified numerical instability issues. This method capitalizes on the updates from the Adam optimizer and significantly improves the robustness of the learning process in 16-bit computations. This study contributes to better understanding of optimization in low-precision computations and provides an effective solution to a longstanding issue in training deep neural networks, opening new avenues for more efficient and stable model training.
翻訳日:2023-10-02 17:58:29 公開日:2023-09-28
# XSkill: クロスボディスキルの発見

XSkill: Cross Embodiment Skill Discovery ( http://arxiv.org/abs/2307.09955v2 )

ライセンス: Link先を確認
Mengda Xu, Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song(参考訳) human demonstration videoは、ロボット学習のための広く利用可能なデータソースであり、望ましい行動を表現する直感的なユーザーインターフェースである。 しかし,非構造的ビデオから再利用可能なロボット操作スキルを直接抽出することは,大きな具体的差異と未観測動作パラメータにより困難である。 この具体的ギャップを埋めるため,本稿では,模倣学習フレームワークであるxskillを紹介する。 1)人間とロボットの操作ビデオからスキルプロトタイプと呼ばれるクロスエンボディメント表現を見つける。 2)条件拡散ポリシを用いたロボット行動へのスキル表現の転送,そして最後に 3)人間のプロンプトビデオで特定された未認識のタスクを達成するための学習スキルを構成する。 シミュレーションと実世界の環境における実験により, 未知のタスクのスキル伝達と構成が促進され, より汎用的でスケーラブルな模倣学習フレームワークが実現された。 ベンチマーク、コード、質的な結果はhttps://xskill.cs.columbia.edu/にある。

Human demonstration videos are a widely available data source for robot learning and an intuitive user interface for expressing desired behavior. However, directly extracting reusable robot manipulation skills from unstructured human videos is challenging due to the big embodiment difference and unobserved action parameters. To bridge this embodiment gap, this paper introduces XSkill, an imitation learning framework that 1) discovers a cross-embodiment representation called skill prototypes purely from unlabeled human and robot manipulation videos, 2) transfers the skill representation to robot actions using conditional diffusion policy, and finally, 3) composes the learned skill to accomplish unseen tasks specified by a human prompt video. Our experiments in simulation and real-world environments show that the discovered skill prototypes facilitate both skill transfer and composition for unseen tasks, resulting in a more general and scalable imitation learning framework. The benchmark, code, and qualitative results are on https://xskill.cs.columbia.edu/
翻訳日:2023-10-02 17:57:35 公開日:2023-09-28
# 重力が測定時に量子実体として働くかどうかをテストする

Testing whether gravity acts as a quantum entity when measured ( http://arxiv.org/abs/2307.08133v2 )

ライセンス: Link先を確認
Farhan Hanif, Debarshi Das, Jonathan Halliwell, Dipankar Home, Anupam Mazumdar, Hendrik Ulbricht, Sougato Bose(参考訳) 古典システムの決定的なシグネチャは、量子システムによって明らかに侵害される特徴である、外乱のない可測性である。 これは、量子重ね合わせの源によって生成される重力場の非古典性をテストするのに利用できる。 この目的のために、多干渉計の実験装置について述べる。これは、原理的には、重みの計測によって必然的に乱されることを示すことで、重み付けによる重力場の非古典性を明らかにすることができる。 1つの干渉計が磁場を発生させる一方で、他の計は重ね合わせによって生成される重力場を測定するために用いられる。 その結果生じる状態の量子更新 (disturbance) はスピン測定統計によって証明される。 このテストは、最近提案された絡み合いウィットネスに基づくテストに加えられたとき、重力でテストされる量子力学的仮定の領域を拡大する。 さらに,提案実験では,デコヒーレンス率に対する量子測定誘起外乱のシグネチャが得られ,デバイスに依存しない。

A defining signature of classical systems is their in principle measurability without disturbance: a feature manifestly violated by quantum systems. We show that this can be used to test the non-classicality of the gravitational field generated by a source in quantum superposition. To this end, we describe a multi-interferometer experimental setup that can, in principle, reveal the non-classicality of a superposition-sourced gravitational field by showing that it is necessarily disturbed by a measurement of gravity. While one interferometer sources the field, the others are used to measure the gravitational field created by the superposition. The resulting measurement induced quantum update of the state (disturbance) is evidenced through spin measurement statistics. This test, when added to the recently proposed entanglement-witness based tests, enlarge the domain of quantum mechanical postulates being tested for gravity. Moreover, the proposed test yields a signature of quantum measurement induced disturbance for any rate of decoherence, and is device independent.
翻訳日:2023-10-02 17:56:44 公開日:2023-09-28
# タンパク質リガンド系のシミュレーションのための機械学習分子力学力場

Machine-learned molecular mechanics force field for the simulation of protein-ligand systems and beyond ( http://arxiv.org/abs/2307.07085v2 )

ライセンス: Link先を確認
Kenichiro Takaba, Iv\'an Pulido, Pavan Kumar Behara, Mike Henry, Hugo MacDermott-Opeskin, John D. Chodera, Yuanqing Wang(参考訳) 分子力学(MM)力場 -- 単純なパラメトリック対数相互作用と原子価相互作用によって分子系のポテンシャルエネルギー面を特徴づける高速で経験的なモデル -- は、伝統的に、離散原子や相互作用タイプに対するルックアップテーブルを用いた、労働集約的で、柔軟性が低く、拡張性の低い離散化学パラメータ割り当て規則に依存してきた。 本稿では,機械学習型MM力場であるespaloma-0.3を導入し,規則に基づく離散原子型タイピング方式を,グラフニューラルネットワークを用いた連続原子表現に置き換える。 Espaloma-0.3は、1.1M以上のエネルギーと力の計算で多種多様な量子化学データセットから直接エンドツーエンドで訓練され、小さな分子、タンパク質、RNAを含む生体分子モデリングの幅広い関心に高い関心を持つ化学空間をカバーしている。 エスパーロマ0.3は、安定な量子化学エネルギー最小ジオメトリを維持しながら、量子化学エネルギーと力を正確に予測する。 タンパク質とリガンドの両方を独立にパラメータ化し、高精度なタンパク質-リガンド結合自由エネルギー予測を生成する。 単一のgpu-dayトレーニングで、大規模な量子化学データセットに新たな力場を適合させることができるこのアプローチは、新しい化学領域に容易に拡張可能な、系統的により正確な力場を構築するための道筋として大きな期待を示せる。 espaloma-0.3力場は、オープンソースのEspalomaパッケージ https://github.com/choderalab/espalomaを通じて直接またはOpenMM内で使用することができる。

Molecular mechanics (MM) force fields -- fast, empirical models characterizing the potential energy surface of molecular systems via simple parametric pairwise and valence interactions -- have traditionally relied on labor-intensive, inflexible, and poorly extensible discrete chemical parameter assignment rules using look-up tables for discrete atom or interaction types. Here, we introduce a machine-learned MM force field, espaloma-0.3, where the rule-based discrete atom-typing schemes are replaced with a continuous atom representations using graph neural networks. Trained in an end-to-end differentiable manner directly from a large, diverse quantum chemical dataset of over 1.1M energy and force calculations, espaloma-0.3 covers chemical spaces highly relevant to the broad interest in biomolecular modeling, including small molecules, proteins, and RNA. We show that espaloma-0.3 accurately predicts quantum chemical energies and forces while maintaining stable quantum chemical energy-minimized geometries. It can self-consistently parameterize both protein and ligand, producing highly accurate protein-ligand binding free energy predictions. Capable of fitting new force fields to large quantum chemical datasets with a single GPU-day of training, this approach demonstrates significant promise as a path forward for building systematically more accurate force fields that can be easily extended to new chemical domains of interest. The espaloma-0.3 force field is available for use directly or within OpenMM via the open-source Espaloma package https://github.com/choderalab/espaloma, and both the code and datasets for constructing this force field are openly available https://github.com/choderalab/refit-espaloma.
翻訳日:2023-10-02 17:56:27 公開日:2023-09-28
# 光画像とaiを用いた医用針先端追跡

Medical needle tip tracking based on Optical Imaging and AI ( http://arxiv.org/abs/2308.14477v2 )

ライセンス: Link先を確認
Zhuoqi Cheng, Simon Lyck Bj{\ae}rt S{\o}rensen, Mikkel Werge Olsen, Ren\'e Lynge Eriksen, Thiusius Rajeeth Savarimuthu(参考訳) 標的への深い針の挿入は、しばしば大きな課題となり、専門的なスキル、補助技術、広範囲な訓練を必要とする。 このような専門知識を要求する頻繁に遭遇する医学的シナリオの1つは、大腿血管への針挿入である。 大腿骨血管へのアクセス後、心臓カテーテル化や体外膜酸素化(ECMO)などの様々な医療処置を行うことができる。 しかし、超音波画像の助けを借りても、解剖学と組織変形の複雑さのため、挿入の成功には複数の試みが必要となる。 この課題に対処するため,本論文では針先リアルタイム追跡のための革新的な技術について述べる。 具体的には,光ファイバー付針を用いた散乱画像の作成と,針先端の位置と挿入時の方向をリアルタイムで推定するための畳み込みニューラルネットワーク(CNN)に基づくアルゴリズムについて検討した。 提案技術の有効性を3つの実験により厳格に評価した。 最初の2つの実験では、ゴムとベーコンファントムがグロイン解剖学をシミュレートした。 位置誤差は平均2.3+1.5mmと2.0+1.2mmであり、方向誤差は0.2+0.11radと0.16+0.1radである。 さらに、より複雑な解剖学的構造を模倣した豚のファントムを用いて実験を行い、3.2+3.1mmの位置精度と0.19+0.1radの方位精度を得た。 平均大腿動脈半径が4mmから5mmと推定され,大腿動脈挿入術における針ガイドの精度が高い可能性が示唆された。 さらに、この発見は医療分野におけるシステムのより広範な応用を浮き彫りにしている。

Deep needle insertion to a target often poses a huge challenge, requiring a combination of specialized skills, assistive technology, and extensive training. One of the frequently encountered medical scenarios demanding such expertise includes the needle insertion into a femoral vessel in the groin. After the access to the femoral vessel, various medical procedures, such as cardiac catheterization and extracorporeal membrane oxygenation (ECMO) can be performed. However, even with the aid of Ultrasound imaging, achieving successful insertion can necessitate multiple attempts due to the complexities of anatomy and tissue deformation. To address this challenge, this paper presents an innovative technology for needle tip real-time tracking, aiming for enhanced needle insertion guidance. Specifically, our approach revolves around the creation of scattering imaging using an optical fiber-equipped needle, and uses Convolutional Neural Network (CNN) based algorithms to enable real-time estimation of the needle tip's position and orientation during insertion procedures. The efficacy of the proposed technology was rigorously evaluated through three experiments. The first two experiments involved rubber and bacon phantoms to simulate groin anatomy. The positional errors averaging 2.3+1.5mm and 2.0+1.2mm, and the orientation errors averaging 0.2+0.11rad and 0.16+0.1rad. Furthermore, the system's capabilities were validated through experiments conducted on fresh porcine phantom mimicking more complex anatomical structures, yielding positional accuracy results of 3.2+3.1mm and orientational accuracy of 0.19+0.1rad. Given the average femoral arterial radius of 4 to 5mm, the proposed system is demonstrated with a great potential for precise needle guidance in femoral artery insertion procedures. In addition, the findings highlight the broader potential applications of the system in the medical field.
翻訳日:2023-10-02 17:49:07 公開日:2023-09-28
# Deconfounder in Healthcareによるモデル一般化による公正かつ正確な予測

Fair and Accurate Prediction with Model Generalization via Deconfounder in Healthcare ( http://arxiv.org/abs/2308.11819v2 )

ライセンス: Link先を確認
Zheng Liu, Xiaohan Li and Philip Yu(参考訳) 臨床データモデリングの公平性の問題、特にElectronic Health Records(EHRs)は、EHRの複雑な潜伏構造と潜在的選択バイアスのために最も重要である。 モデル全体の精度を実際に維持しながら、健康格差を軽減することがしばしば必要である。 しかし、従来の手法は、観測されたデータを超えた基礎となる要因を捉えることができないため、正確さと公平さのトレードオフに遭遇することが多い。 この課題に対処するために、縦型電子健康記録(EHR)モデリングにおける公平性と正確性の両方を達成することを目的とした、Fair Longitudinal Medical Deconfounder(FLMD)と呼ばれる新しいモデルを提案する。 FLMDは2段階のトレーニングプロセスを採用している。 第一段階では、flmdは観察されていない共同創設者を、患者の遺伝子型や生活習慣といった観察されたehr以外の医学的要因を効果的に表わす。 この観察されていない共同創設者は、正確さとフェアネスのジレンマに対処するために不可欠である。 第2段階では、FLMDは学習した潜在表現と他の関連する特徴を組み合わせて予測を行う。 対物公正などの適切な公正基準を取り入れることで、FLMDは健康格差を最小化しつつ高い予測精度を維持することを保証する。 我々は、FLMDの有効性を示すために、2つの実世界のEHRデータセットの総合的な実験を行った。 公平性と正確性の観点からのベースライン法とflmd変種の比較を別にして、乱れ/不均衡/合成データセットにおける全てのモデルの性能を評価し、異なる設定におけるflmdの優位性を示し、その能力に関する貴重な洞察を提供する。

The fairness issue of clinical data modeling, especially on Electronic Health Records (EHRs), is of utmost importance due to EHR's complex latent structure and potential selection bias. It is frequently necessary to mitigate health disparity while keeping the model's overall accuracy in practice. However, traditional methods often encounter the trade-off between accuracy and fairness, as they fail to capture the underlying factors beyond observed data. To tackle this challenge, we propose a novel model called Fair Longitudinal Medical Deconfounder (FLMD) that aims to achieve both fairness and accuracy in longitudinal Electronic Health Records (EHR) modeling. Drawing inspiration from the deconfounder theory, FLMD employs a two-stage training process. In the first stage, FLMD captures unobserved confounders for each encounter, which effectively represents underlying medical factors beyond observed EHR, such as patient genotypes and lifestyle habits. This unobserved confounder is crucial for addressing the accuracy/fairness dilemma. In the second stage, FLMD combines the learned latent representation with other relevant features to make predictions. By incorporating appropriate fairness criteria, such as counterfactual fairness, FLMD ensures that it maintains high prediction accuracy while simultaneously minimizing health disparities. We conducted comprehensive experiments on two real-world EHR datasets to demonstrate the effectiveness of FLMD. Apart from the comparison of baseline methods and FLMD variants in terms of fairness and accuracy, we assessed the performance of all models on disturbed/imbalanced and synthetic datasets to showcase the superiority of FLMD across different settings and provide valuable insights into its capabilities.
翻訳日:2023-10-02 17:48:04 公開日:2023-09-28
# Neural-Hidden-CRF:ロバストに監視された配列ラベル

Neural-Hidden-CRF: A Robust Weakly-Supervised Sequence Labeler ( http://arxiv.org/abs/2309.05086v2 )

ライセンス: Link先を確認
Zhijun Chen, Hailong Sun, Wanhao Zhang, Chunyi Xu, Qianren Mao, Pengpeng Chen(参考訳) 本稿では,ニューラルネットワークを用いた非方向性グラフモデルであるNeural-Hidden-CRFを提案する。 確率的非指向グラフ理論の傘の下で、隠れたCRF層に埋め込まれたニューラルハイデンCRFは、非指向的グラフィカルモデルが特に楽しむ大局的な視点で、単語列、潜在地真実列、弱いラベル列の変数をモデル化する。 Neural-Hidden-CRFでは、強力な言語モデルBERTや他の深層モデルを利用して、潜伏した基底真理シーケンスにリッチな文脈意味知識を提供し、隠れたCRF層を使用して内部ラベルの依存関係をキャプチャすることができる。 Neural-Hidden-CRFは概念的にはシンプルで、経験的に強力である。 1つのクラウドソーシングベンチマークと3つの弱いスーパービジョンベンチマークで、最新の先進モデルCHMMを平均2.80F1ポイントと2.23F1ポイントでそれぞれ上回っている。

We propose a neuralized undirected graphical model called Neural-Hidden-CRF to solve the weakly-supervised sequence labeling problem. Under the umbrella of probabilistic undirected graph theory, the proposed Neural-Hidden-CRF embedded with a hidden CRF layer models the variables of word sequence, latent ground truth sequence, and weak label sequence with the global perspective that undirected graphical models particularly enjoy. In Neural-Hidden-CRF, we can capitalize on the powerful language model BERT or other deep models to provide rich contextual semantic knowledge to the latent ground truth sequence, and use the hidden CRF layer to capture the internal label dependencies. Neural-Hidden-CRF is conceptually simple and empirically powerful. It obtains new state-of-the-art results on one crowdsourcing benchmark and three weak-supervision benchmarks, including outperforming the recent advanced model CHMM by 2.80 F1 points and 2.23 F1 points in average generalization and inference performance, respectively.
翻訳日:2023-10-02 17:39:35 公開日:2023-09-28
# FTA: フレキシブルなトリガーによる静的かつ適応的なバックドアアタック

FTA: Stealthy and Adaptive Backdoor Attack with Flexible Triggers on Federated Learning ( http://arxiv.org/abs/2309.00127v2 )

ライセンス: Link先を確認
Yanqi Qiao, Dazhuang Liu, Congwen Chen, Rui Wang, Kaitai Liang(参考訳) 連邦学習(FL)に対する現在のバックドア攻撃は普遍的なトリガーやセマンティックパターンに強く依存しており、これはノルムクリッピングなどの特定の防御機構によって容易に検出およびフィルタリングされ、ローカル更新間のパラメータのばらつきを比較することができる。 本研究では,fl防御に対するフレキシブルトリガーを用いた新しいステルス的かつロバストなバックドア攻撃を提案する。 これを実現するために、我々は、認識不能なフレキシブルなトリガーパターンで良質なサンプルの操作を学習し、同時にトリガーパターンにアタッカー・チョウンラベルの最も重要な隠蔽特徴を含ませることができる生成的トリガー関数を構築した。 さらに、我々のトリガジェネレータは学習を継続し、異なるラウンドにまたがって適応し、グローバルモデルの変化に適応できるようにします。 区別可能な差(トリガーパターンとターゲットラベルのマッピング)を埋めることによって、攻撃を自然に盗むことができる。 実世界のデータセットに対する大規模な実験は、8つのよく研究された防御を伴う分散学習フレームワークに対する以前の攻撃と比較して、攻撃の有効性とステルス性を検証する。

Current backdoor attacks against federated learning (FL) strongly rely on universal triggers or semantic patterns, which can be easily detected and filtered by certain defense mechanisms such as norm clipping, comparing parameter divergences among local updates. In this work, we propose a new stealthy and robust backdoor attack with flexible triggers against FL defenses. To achieve this, we build a generative trigger function that can learn to manipulate the benign samples with an imperceptible flexible trigger pattern and simultaneously make the trigger pattern include the most significant hidden features of the attacker-chosen label. Moreover, our trigger generator can keep learning and adapt across different rounds, allowing it to adjust to changes in the global model. By filling the distinguishable difference (the mapping between the trigger pattern and target label), we make our attack naturally stealthy. Extensive experiments on real-world datasets verify the effectiveness and stealthiness of our attack compared to prior attacks on decentralized learning framework with eight well-studied defenses.
翻訳日:2023-10-02 17:37:15 公開日:2023-09-28
# CaveSeg:自律型水中洞窟探査のための深部セマンティックセグメンテーションとシーンパーシング

CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration ( http://arxiv.org/abs/2309.11038v3 )

ライセンス: Link先を確認
A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis(参考訳) 本稿では,水中洞窟におけるAUVナビゲーションのためのセマンティックセグメンテーションとシーン解析のための最初のビジュアル学習パイプラインであるCaveSegを紹介する。 水中洞窟シーンのセマンティックセマンティックセグメンテーションのための包括的データセットを作成し,注釈付きトレーニングデータの不足に対処する。 重要なナビゲーションマーカー(洞窟線、矢印など)、障害物(地平原や頭上層など)、スキューバダイバー、サーボのためのオープンエリアのためのピクセルアノテーションが含まれている。 米国、メキシコ、スペインの洞窟システムに関する包括的なベンチマーク分析を通じて、水中洞窟環境を高速に意味論的に解析するためのcavesegに基づく強固な深部視覚モデルの開発が可能であることを実証する。 特に,計算的に軽量で,リアルタイムに近い実行が可能なトランスフォーマーモデルを構築し,最先端性能を実現する。 最後に,水中洞窟内におけるAUVによる視覚サーボのためのセマンティックセグメンテーションの設計選択と意義について検討する。 提案されたモデルとベンチマークデータセットは、自律型水中洞窟探査とマッピングにおける将来の研究の有望な機会を開く。

In this paper, we present CaveSeg - the first visual learning pipeline for semantic segmentation and scene parsing for AUV navigation inside underwater caves. We address the problem of scarce annotated training data by preparing a comprehensive dataset for semantic segmentation of underwater cave scenes. It contains pixel annotations for important navigation markers (e.g. caveline, arrows), obstacles (e.g. ground plain and overhead layers), scuba divers, and open areas for servoing. Through comprehensive benchmark analyses on cave systems in USA, Mexico, and Spain locations, we demonstrate that robust deep visual models can be developed based on CaveSeg for fast semantic scene parsing of underwater cave environments. In particular, we formulate a novel transformer-based model that is computationally light and offers near real-time execution in addition to achieving state-of-the-art performance. Finally, we explore the design choices and implications of semantic segmentation for visual servoing by AUVs inside underwater caves. The proposed model and benchmark dataset open up promising opportunities for future research in autonomous underwater cave exploration and mapping.
翻訳日:2023-10-02 17:27:57 公開日:2023-09-28
# 音声の試験時間学習

Test-Time Training for Speech ( http://arxiv.org/abs/2309.10930v2 )

ライセンス: Link先を確認
Sri Harsha Dumpala and Chandramouli Sastry and Sageev Oore(参考訳) 本稿では,TTT(Test-Time Training)の音声応用における分散シフト処理への応用について検討する。 特に、標準音声分類タスク(話者識別や感情検出など)のテストデータセットに分散シフトを導入し、テスト時間トレーニング(TTT)が分散シフトの調整にどのように役立つかを調査する。 性別や年齢などの音声の背景雑音や自然な変化による分布変化を含む実験では、ハイパーパラメータの感度(例えば、TTTに選択されたパラメータの最適化ステップ数やサブセット数)やスケーラビリティ(例えば、各例に独自のパラメータセットがあるため、TTTは拡張性がない)など、TTTのキーチェレを識別する。 最後に,テキストアプリケーションにおいてバイアスパラメータのみを考慮したパラメータ効率の良い微調整アルゴリズムであるbitfitを,上記の課題に対する解決策として提案し,モデルのすべてのパラメータを微調整するよりも一貫して安定であることを実証する。

In this paper, we study the application of Test-Time Training (TTT) as a solution to handling distribution shifts in speech applications. In particular, we introduce distribution-shifts to the test datasets of standard speech-classification tasks -- for example, speaker-identification and emotion-detection -- and explore how Test-Time Training (TTT) can help adjust to the distribution-shift. In our experiments that include distribution shifts due to background noise and natural variations in speech such as gender and age, we identify some key-challenges with TTT including sensitivity to optimization hyperparameters (e.g., number of optimization steps and subset of parameters chosen for TTT) and scalability (e.g., as each example gets its own set of parameters, TTT is not scalable). Finally, we propose using BitFit -- a parameter-efficient fine-tuning algorithm proposed for text applications that only considers the bias parameters for fine-tuning -- as a solution to the aforementioned challenges and demonstrate that it is consistently more stable than fine-tuning all the parameters of the model.
翻訳日:2023-10-02 17:27:36 公開日:2023-09-28
# モデル解釈性を考慮した単一チャネル脳波に基づく睡眠ステージ分類のためのデータ効率の高いディープラーニングアプローチ

Data-efficient Deep Learning Approach for Single-Channel EEG-Based Sleep Stage Classification with Model Interpretability ( http://arxiv.org/abs/2309.07156v2 )

ライセンス: Link先を確認
Shivam Sharma, Suvadeep Maiti, S. Mythirayee, Srijithesh Rajendran, Raju Surampudi Bapi(参考訳) 睡眠は基本的な生理的プロセスであり、私たちの生活の大部分を占めている。 睡眠ステージの正確な分類は、睡眠の質を評価し、起こりうる睡眠障害を特定する重要なツールとなる。 本研究では,SE-Resnet-Bi-LSTMアーキテクチャを用いて睡眠を5段階に分類する手法を提案する。 分類過程は、単一チャネル脳波(EEG)の解析に基づく。 提案するフレームワークは,SE-ResNetを利用する特徴抽出器と,Bi-LSTMユニットのスタックを使用する時間的コンテキストエンコーダの2つの基本要素から構成される。 提案手法の有効性は,SleepEDF-20,SleepEDF-78,SHHSの3つの異なるデータセットを用いて徹底的な評価を行った。 提案手法は,各データセットのマクロF1スコアが82.5,78.9,81.9と,優れたモデル性能を実現する。 1d-gradcamビジュアライゼーションを用いて,睡眠段階の分類において,モデルに内在する意思決定過程を明らかにする。 この視覚化手法は、モデルの分類の根拠に関する貴重な洞察を提供するだけでなく、その成果を睡眠専門家の注釈と整合させる。 私たちの研究の注目すべき特徴の1つは、効率のよいトレーニングアプローチを取り入れることです。 実験評価は,既存の手法と比較して提案手法の有効性を包括的に評価し,実用化の可能性を強調した。

Sleep, a fundamental physiological process, occupies a significant portion of our lives. Accurate classification of sleep stages serves as a crucial tool for evaluating sleep quality and identifying probable sleep disorders. Our work introduces a novel methodology that utilizes a SE-Resnet-Bi-LSTM architecture to classify sleep into five separate stages. The classification process is based on the analysis of single-channel electroencephalograms (EEGs). The suggested framework consists of two fundamental elements: a feature extractor that utilizes SE-ResNet, and a temporal context encoder that uses stacks of Bi-LSTM units. The effectiveness of our approach is substantiated by thorough assessments conducted on three different datasets, namely SleepEDF-20, SleepEDF-78, and SHHS. The proposed methodology achieves significant model performance, with Macro-F1 scores of 82.5, 78.9, and 81.9 for the respective datasets. We employ 1D-GradCAM visualization as a methodology to elucidate the decision-making process inherent in our model in the realm of sleep stage classification. This visualization method not only provides valuable insights into the model's classification rationale but also aligns its outcomes with the annotations made by sleep experts. One notable feature of our research lies in the incorporation of an efficient training approach, which adeptly upholds the model's resilience in terms of performance. The experimental evaluations provide a comprehensive evaluation of the effectiveness of our proposed model in comparison to the existing approaches, highlighting its potential for practical applications.
翻訳日:2023-10-02 17:26:05 公開日:2023-09-28
# 画像分類器の多種別説明

Multiple Different Explanations for Image Classifiers ( http://arxiv.org/abs/2309.14309v2 )

ライセンス: Link先を確認
Hana Chockler, David A. Kelly, Daniel Kroening(参考訳) 画像分類器の既存の説明ツールは通常、1つの画像に対して1つの説明しか与えない。 しかし、多くの画像では、人間と画像分類器の両方が複数の画像ラベルの説明を受け入れている。 したがって、説明の数を制限することは、分類器の振る舞いに関する洞察を著しく制限する。 本稿では,与えられた画像に対するブラックボックス画像分類器の出力に関する複数の説明を計算するためのアルゴリズムとツールREXについて述べる。 本アルゴリズムは因果理論に基づく原理的アプローチを用いる。 我々は,その理論上の複雑さを分析し,imagenet-miniベンチマークの7倍のイメージでrexが複数の説明を見いだすことを実験的に示した。

Existing explanation tools for image classifiers usually give only one single explanation for an image. For many images, however, both humans and image classifiers accept more than one explanation for the image label. Thus, restricting the number of explanations to just one severely limits the insight into the behavior of the classifier. In this paper, we describe an algorithm and a tool, REX, for computing multiple explanations of the output of a black-box image classifier for a given image. Our algorithm uses a principled approach based on causal theory. We analyse its theoretical complexity and provide experimental results showing that REX finds multiple explanations on 7 times more images than the previous work on the ImageNet-mini benchmark.
翻訳日:2023-10-02 17:19:08 公開日:2023-09-28
# ソフト混合分別:拡散モデルの表現的ボトルネックを超えて

Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion Models ( http://arxiv.org/abs/2309.14068v2 )

ライセンス: Link先を確認
Yangming Li, Boris van Breugel, Mihaela van der Schaar(参考訳) 拡散モデルは画像合成などの多くのタスクで印象的な性能を示しているため、これらのモデルが強い近似能力を持っていることを(ある仮定で)証明する最近の研究のトレンドがある。 本稿では,現行の拡散モデルが後方認知における表現的ボトルネックを実際に有しており,既存の理論的保証による仮定が強すぎることを示す。 この結果から,拡散モデルが局所的および大域的認知の双方において非有界誤差を持つことを示す。 理論的研究を踏まえ, 後方復調のための表現的かつ効率的なモデルであるソフトミキシング(SMD)を導入する。 SMDは拡散モデルに理論上の任意のガウス混合分布をうまく近似させるだけでなく、実装にもシンプルで効率的である。 複数の画像データセットを用いた実験により,smdは様々な種類の拡散モデル(ddpmなど)を大幅に改善することが示された。

Because diffusion models have shown impressive performances in a number of tasks, such as image synthesis, there is a trend in recent works to prove (with certain assumptions) that these models have strong approximation capabilities. In this paper, we show that current diffusion models actually have an expressive bottleneck in backward denoising and some assumption made by existing theoretical guarantees is too strong. Based on this finding, we prove that diffusion models have unbounded errors in both local and global denoising. In light of our theoretical studies, we introduce soft mixture denoising (SMD), an expressive and efficient model for backward denoising. SMD not only permits diffusion models to well approximate any Gaussian mixture distributions in theory, but also is simple and efficient for implementation. Our experiments on multiple image datasets show that SMD significantly improves different types of diffusion models (e.g., DDPM), espeically in the situation of few backward iterations.
翻訳日:2023-10-02 17:18:23 公開日:2023-09-28
# ソーシャルメディアによる心血管疾患リスク予測

Cardiovascular Disease Risk Prediction via Social Media ( http://arxiv.org/abs/2309.13147v2 )

ライセンス: Link先を確認
Al Zadid Sultan Bin Habib, Md Asif Bin Syed, Md Tanvirul Islam, Donald A. Adjeroh(参考訳) 研究者はtwitterと感情分析を使って心血管疾患(cvd)のリスクを予測する。 ツイート中の感情を解析し,cvd関連キーワードの辞書を開発した。 アパラチア地方を含む18州からのツイートが収集された。 感情分析のVADERモデルを用いて、ユーザはCVDリスクにおいて潜在的に分類された。 機械学習(ML)モデルを用いて個人のCVDリスクを分類し、統計情報を備えたCDCデータセットに適用して比較を行った。 テスト精度、精度、リコール、F1スコア、マシューの相関係数(MCC)、コーエンのKappaスコア(CK)などのパフォーマンス評価指標を検討した。 その結果、ツイートの感情分析は、人口統計データのみの予測力を上回り、cvdを発症する可能性のある個人の識別を可能にした。 本研究は,CVDリスクのある個人を特定するためにつぶやきを用いた自然言語処理(NLP)とML技術の可能性を強調し,従来の人口統計情報に代わる公衆衛生モニタリング手法を提供する。

Researchers use Twitter and sentiment analysis to predict Cardiovascular Disease (CVD) risk. We developed a new dictionary of CVD-related keywords by analyzing emotions expressed in tweets. Tweets from eighteen US states, including the Appalachian region, were collected. Using the VADER model for sentiment analysis, users were classified as potentially at CVD risk. Machine Learning (ML) models were employed to classify individuals' CVD risk and applied to a CDC dataset with demographic information to make the comparison. Performance evaluation metrics such as Test Accuracy, Precision, Recall, F1 score, Mathew's Correlation Coefficient (MCC), and Cohen's Kappa (CK) score were considered. Results demonstrated that analyzing tweets' emotions surpassed the predictive power of demographic data alone, enabling the identification of individuals at potential risk of developing CVD. This research highlights the potential of Natural Language Processing (NLP) and ML techniques in using tweets to identify individuals with CVD risks, providing an alternative approach to traditional demographic information for public health monitoring.
翻訳日:2023-10-02 17:17:23 公開日:2023-09-28
# 短期記憶コーディネーションを用いたメモリ拡張LDMパーソナライゼーション

Memory-Augmented LLM Personalization with Short- and Long-Term Memory Coordination ( http://arxiv.org/abs/2309.11696v2 )

ライセンス: Link先を確認
Kai Zhang, Fubang Zhao, Yangyang Kang, Xiaozhong Liu(参考訳) GPT3.5のような大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。 しかし、その非個人化生成パラダイムは、最適ユーザ固有の結果をもたらす可能性がある。 通常、ユーザーは知識と好みに基づいて異なる会話をする。 これにより、未探索のユーザ指向LLMの強化が求められる。 この目的のために LLM を完全に訓練することは可能だが、リソース消費は計り知れない。 以前の研究は、新しいクエリを再トレーニングすることなく、生成を強化するための知識を格納し取得するためのメモリベースの方法を模索してきた。 しかし、単なるメモリモジュールはユーザの好みを理解するのに不十分であり、llmの完全なトレーニングは過度にコストがかかります。 本研究では, LLMをパーソナライズするためのパラメータ効率のよい微調整スキーマを備えた新しい計算バイオニックメモリ機構を提案する。 その結果,提案手法の有効性と優越性が実証された。 この領域に関するさらなる研究を奨励するために、我々は、オープンソースの医療コーパスと実装コードに基づいて、llmによって完全に生成された新しい会話データセットをリリースする。

Large Language Models (LLMs), such as GPT3.5, have exhibited remarkable proficiency in comprehending and generating natural language. However, their unpersonalized generation paradigm may result in suboptimal user-specific outcomes. Typically, users converse differently based on their knowledge and preferences. This necessitates the task of enhancing user-oriented LLM which remains unexplored. While one can fully train an LLM for this objective, the resource consumption is unaffordable. Prior research has explored memory-based methods to store and retrieve knowledge to enhance generation without retraining for new queries. However, we contend that a mere memory module is inadequate to comprehend a user's preference, and fully training an LLM can be excessively costly. In this study, we propose a novel computational bionic memory mechanism, equipped with a parameter-efficient fine-tuning schema, to personalize LLMs. Our extensive experimental results demonstrate the effectiveness and superiority of the proposed approach. To encourage further research into this area, we are releasing a new conversation dataset generated entirely by LLM based on an open-source medical corpus, as well as our implementation code.
翻訳日:2023-10-02 17:16:07 公開日:2023-09-28
# 最大拡散強化学習

Maximum Diffusion Reinforcement Learning ( http://arxiv.org/abs/2309.15293v2 )

ライセンス: Link先を確認
Thomas A. Berrueta, Allison Pinosky, Todd D. Murphey(参考訳) データが独立しているという仮定は、すべての機械学習を支えている。 エージェント経験から順次データが収集される場合、強化学習のように、一般的にこの仮定は持たない。 ここでは,最大拡散強化学習(maximum diffusion reinforcement learning)と呼ぶエルゴード過程の統計力学を活用し,これらの限界を克服する手法を導出する。 エージェント体験の関連付けにより,エージェントは初期化に拘わらず,シングルショットで継続的に学習することができる。 さらに,本手法は既知の最大エントロピー手法を一般化し,人気のあるベンチマークにおいて最先端性能を頑健に上回っていることを示す。 nexus of physics, learning, and controlの結果は、ロボットや自動運転車などの強化学習エージェントにおける、より透明で信頼性の高い意思決定への道を開くものでした。

The assumption that data are independent and identically distributed underpins all machine learning. When data are collected sequentially from agent experiences this assumption does not generally hold, as in reinforcement learning. Here, we derive a method that overcomes these limitations by exploiting the statistical mechanics of ergodic processes, which we term maximum diffusion reinforcement learning. By decorrelating agent experiences, our approach provably enables agents to learn continually in single-shot deployments regardless of how they are initialized. Moreover, we prove our approach generalizes well-known maximum entropy techniques, and show that it robustly exceeds state-of-the-art performance across popular benchmarks. Our results at the nexus of physics, learning, and control pave the way towards more transparent and reliable decision-making in reinforcement learning agents, such as locomoting robots and self-driving cars.
翻訳日:2023-10-02 17:06:16 公開日:2023-09-28
# Kmスケール大気下降の残留拡散モデル

Generative Residual Diffusion Modeling for Km-scale Atmospheric Downscaling ( http://arxiv.org/abs/2309.15214v2 )

ライセンス: Link先を確認
Morteza Mardani, Noah Brenowitz, Yair Cohen, Jaideep Pathak, Chieh-Yu Chen, Cheng-Chin Liu, Arash Vahdat, Karthik Kashinath, Jan Kautz, and Mike Pritchard(参考訳) 気象や気候から物理的ハザードを予測する技術は、より粗い解像度のグローバル入力によって駆動される高価なkmスケールの数値シミュレーションを必要とする。 ここでは、コスト効率の良い代替手段として、kmスケールダウンスケール拡散モデルを示す。 このモデルは台湾上空の高解像度気象モデルから訓練され、ERA5の再解析データに基づく。 ダウンスケールの不確実性、大解像度比(25km〜2km)、異なるスケールでの異なる物理量、入力データにないチャネルを予測するために、2段階のアプローチ(\textit{resdiff})を採用し、(不均一な)回帰が第1ステップの平均を予測し、拡散モデルが第2ステップの残差を予測する。 \textit{ResDiff} は RMSE と CRPS のスコアで励まされるスキルを示す。 ResDiffの予測スペクトルと分布は、風と雨の極端を規制する重要な電力法関係を忠実に回復する。 コヒーレント気象現象のケーススタディは、学習物理学を連想させる適切な多変量関係を示す。 これには、寒冷な前線で激しい降雨と共存する鋭い風と温度の変動、台風の眼壁を囲む極端な風と降雨帯が含まれる。 同時バイアス補正の証拠がいくつか発見されている。 運用上のグローバル予測モデルから直接ダウンスケールする最初の試みは、これらのメリットの多くを成功裏に維持する。 その意味するところは、完全にエンドツーエンドでグローバルな機械学習の天気予報の新しい時代が間近に迫っているということだ。

The state of the art for physical hazard prediction from weather and climate requires expensive km-scale numerical simulations driven by coarser resolution global inputs. Here, a km-scale downscaling diffusion model is presented as a cost effective alternative. The model is trained from a regional high-resolution weather model over Taiwan, and conditioned on ERA5 reanalysis data. To address the downscaling uncertainties, large resolution ratios (25km to 2km), different physics involved at different scales and predict channels that are not in the input data, we employ a two-step approach (\textit{ResDiff}) where a (UNet) regression predicts the mean in the first step and a diffusion model predicts the residual in the second step. \textit{ResDiff} exhibits encouraging skill in bulk RMSE and CRPS scores. The predicted spectra and distributions from ResDiff faithfully recover important power law relationships regulating damaging wind and rain extremes. Case studies of coherent weather phenomena reveal appropriate multivariate relationships reminiscent of learnt physics. This includes the sharp wind and temperature variations that co-locate with intense rainfall in a cold front, and the extreme winds and rainfall bands that surround the eyewall of typhoons. Some evidence of simultaneous bias correction is found. A first attempt at downscaling directly from an operational global forecast model successfully retains many of these benefits. The implication is that a new era of fully end-to-end, global-to-regional machine learning weather prediction is likely near at hand.
翻訳日:2023-10-02 17:06:01 公開日:2023-09-28
# XRMによる環境発見

Discovering environments with XRM ( http://arxiv.org/abs/2309.16748v1 )

ライセンス: Link先を確認
Mohammad Pezeshki, Diane Bouchacourt, Mark Ibrahim, Nicolas Ballas, Pascal Vincent, David Lopez-Paz(参考訳) アウト・オブ・ディストリビューションの一般化には環境アノテーションが必要である。 残念ながら、これらは入手に資源集約的であり、人間のアノテータの期待と知覚バイアスによって、モデル性能との関係が制限される。 したがって、アプリケーション間で堅牢なAIシステムを実現するためには、幅広い一般化をもたらす環境を自動的に発見するアルゴリズムを開発する必要がある。 トレーニングエラーに基づいてサンプルを分割する現在の提案は、ひとつの根本的な問題に悩まされている。 これらの手法は、人間の注釈付き環境の検証セットなしではチューニングが不可能なハイパーパラメータとアーリーストッピング基準を付加する。 本稿では,この問題に対処するクロスリスク最小化(XRM)を提案する。 xrmは、2つのツインネットワークを訓練し、それぞれがトレーニングデータの1つのランダムな半分から学習し、兄弟姉妹が犯した自信のある保留ミスを模倣する。 XRMはハイパーパラメータチューニングのレシピを提供し、早期停止を必要としない。 XRM環境上に構築された領域一般化アルゴリズムはオラクル最悪のグループ精度を実現する。

Successful out-of-distribution generalization requires environment annotations. Unfortunately, these are resource-intensive to obtain, and their relevance to model performance is limited by the expectations and perceptual biases of human annotators. Therefore, to enable robust AI systems across applications, we must develop algorithms to automatically discover environments inducing broad generalization. Current proposals, which divide examples based on their training error, suffer from one fundamental problem. These methods add hyper-parameters and early-stopping criteria that are impossible to tune without a validation set with human-annotated environments, the very information subject to discovery. In this paper, we propose Cross-Risk-Minimization (XRM) to address this issue. XRM trains two twin networks, each learning from one random half of the training data, while imitating confident held-out mistakes made by its sibling. XRM provides a recipe for hyper-parameter tuning, does not require early-stopping, and can discover environments for all training and validation data. Domain generalization algorithms built on top of XRM environments achieve oracle worst-group-accuracy, solving a long-standing problem in out-of-distribution generalization.
翻訳日:2023-10-02 16:59:59 公開日:2023-09-28
# 地球規模の災害予測に多様なデータを活用するマルチモーダルフレームワーク

Harnessing Diverse Data for Global Disaster Prediction: A Multimodal Framework ( http://arxiv.org/abs/2309.16747v1 )

ライセンス: Link先を確認
Gengyin Liu, Huaiyang Zhong(参考訳) 気候変動が激化するにつれて、正確な世界的な災害予測の緊急性が高まる。 本研究は,気象統計,衛星画像,テキスト情報を組み合わせた,新しい多モード災害予測フレームワークを提案する。 気象・地形要因との関連から,特に「略奪」と「地すべり」の予測に焦点をあてた。 モデルは利用可能なデータに基づいて慎重に構築されており、クラス不均衡に対処するための戦略も実装しています。 以上の結果から,複数のデータソースを統合することでモデル性能が向上する可能性が示唆された。

As climate change intensifies, the urgency for accurate global-scale disaster predictions grows. This research presents a novel multimodal disaster prediction framework, combining weather statistics, satellite imagery, and textual insights. We particularly focus on "flood" and "landslide" predictions, given their ties to meteorological and topographical factors. The model is meticulously crafted based on the available data and we also implement strategies to address class imbalance. While our findings suggest that integrating multiple data sources can bolster model performance, the extent of enhancement differs based on the specific nature of each disaster and their unique underlying causes.
翻訳日:2023-10-02 16:59:38 公開日:2023-09-28
# 任意の潜在多様体上のベクトル場の入射ガウス過程表現

Implicit Gaussian process representation of vector fields over arbitrary latent manifolds ( http://arxiv.org/abs/2309.16746v1 )

ライセンス: Link先を確認
Robert L. Peach, Matteo Vinao-Carl, Nir Grossman, Michael David, Emma Mallas, David Sharp, Paresh A. Malhotra, Pierre Vandergheynst, Adam Gosztolai(参考訳) ガウス過程(GP)は、未知の関数を学習し、データの時空間不確実性を定量化するための一般的な非パラメトリック統計モデルである。 近年の研究では、コンピュータビジョン、力学系、神経科学などの多くの分野に現れる滑らかな多様体を含む、非ユークリッド領域に分布するスカラーとベクトル量をモデル化するためにGPを拡張している。 しかし、これらのアプローチは、データの基礎となる多様体が知られていると仮定し、実用性を制限する。 我々は、潜在リーマン多様体上のベクトル信号を学習するための GP の一般化である RVGP を紹介する。 本手法では,接束に付随する接続ラプラシアンの固有関数を用いた位置符号化を,共通グラフに基づくデータの近似から容易に導出する。 我々は rvgp が多様体上の大域的正則性を持つことを証明し、特異点を保ちながら超可解かつ無彩なベクトル場を許す。 さらに、健康な人やアルツハイマー病患者の低密度脳波記録から得られた高密度神経動態をRVGPを用いて再構築する。 ベクトル場特異性は重要な疾患マーカーであり,その再構成によって病状状態の分類精度が高密度記録に匹敵することを示した。 そこで本手法は,実験的,臨床的に重要な限界を克服する。

Gaussian processes (GPs) are popular nonparametric statistical models for learning unknown functions and quantifying the spatiotemporal uncertainty in data. Recent works have extended GPs to model scalar and vector quantities distributed over non-Euclidean domains, including smooth manifolds appearing in numerous fields such as computer vision, dynamical systems, and neuroscience. However, these approaches assume that the manifold underlying the data is known, limiting their practical utility. We introduce RVGP, a generalisation of GPs for learning vector signals over latent Riemannian manifolds. Our method uses positional encoding with eigenfunctions of the connection Laplacian, associated with the tangent bundle, readily derived from common graph-based approximation of data. We demonstrate that RVGP possesses global regularity over the manifold, which allows it to super-resolve and inpaint vector fields while preserving singularities. Furthermore, we use RVGP to reconstruct high-density neural dynamics derived from low-density EEG recordings in healthy individuals and Alzheimer's patients. We show that vector field singularities are important disease markers and that their reconstruction leads to a comparable classification accuracy of disease states to high-density recordings. Thus, our method overcomes a significant practical limitation in experimental and clinical applications.
翻訳日:2023-10-02 16:59:27 公開日:2023-09-28
# 1クラス分類SVMの効率的な学習

Efficient Training of One Class Classification-SVMs ( http://arxiv.org/abs/2309.16745v1 )

ライセンス: Link先を確認
Isaac Amornortey Yowetu, Nana Kena Frempong(参考訳) 本研究は,一級分類を行うための高度に効果的な訓練法について検討する。 学習データに正と負の両方の例が存在することは、共通の二分分類シナリオにおいて効果的な分類器を開発するために必要である。 残念ながら、この基準は多くのドメインで満たされていない。 ここには1つの種類の例があります。 この設定に対処するために、ポジティブな入力のみから学習する分類アルゴリズムが作成されている。 本稿では,デュアルソフトマージンワンクラスSVM学習のための効果的なアルゴリズムを提案する。 提案手法では,Fast Projected Gradient Method の変種である Augmented Lagrangian (AL-FPGM) を用いる。 FPGMは第一微分しか必要とせず、二重ソフトマージンのOCC-SVMは行列ベクトル積を主に計算することを意味する。 したがって、al-fpgmは計算量的に安価であり、既存の二次プログラムソルバを補って大きなsvmを訓練することができる。 実世界のデータセットに対する我々のアプローチを広く検証し、我々の戦略が統計的に重要な結果を得ることを示す。

This study examines the use of a highly effective training method to conduct one-class classification. The existence of both positive and negative examples in the training data is necessary to develop an effective classifier in common binary classification scenarios. Unfortunately, this criteria is not met in many domains. Here, there is just one class of examples. Classification algorithms that learn from solely positive input have been created to deal with this setting. In this paper, an effective algorithm for dual soft-margin one-class SVM training is presented. Our approach makes use of the Augmented Lagrangian (AL-FPGM), a variant of the Fast Projected Gradient Method. The FPGM requires only first derivatives, which for the dual soft margin OCC-SVM means computing mainly a matrix-vector product. Therefore, AL-FPGM, being computationally inexpensive, may complement existing quadratic programming solvers for training large SVMs. We extensively validate our approach over real-world datasets and demonstrate that our strategy obtains statistically significant results.
翻訳日:2023-10-02 16:59:06 公開日:2023-09-28
# 機械学習アルゴリズムを用いた術後腎障害の長期予測

Predicting Long-term Renal Impairment in Post-COVID-19 Patients with Machine Learning Algorithms ( http://arxiv.org/abs/2309.16744v1 )

ライセンス: Link先を確認
Maitham G. Yousif, Hector J. Castro, John Martin, Hayder A. Albaqer, Fadhil G. Al-Amran, Habeeb W. Shubber, Salman Rawaf(参考訳) 新型コロナウイルスのパンデミックは世界の公衆衛生に深刻な影響を及ぼしている。 この結果が続くにつれ、covid-19後の合併症が重大な懸念事項であることはますます明らかになっている。 これらの合併症の中で、腎障害は長期にわたる健康への影響から特に注目を集めている。 この研究は、2021年、2022年、2023年にわたってイラク各地の821人のポスト新型コロナウイルス患者を対象に実施され、高度な機械学習アルゴリズムを用いて長期の腎障害のリスクを予測する。 腎不全のリスクのある患者に対する早期診断と介入を可能にし,最終的に臨床成績を改善することにより,共生後の患者のケアに革命をもたらす可能性が示唆された。 本研究は、包括的データ収集と事前処理、特徴選択、各種機械学習アルゴリズムを用いた予測モデルの開発を含む。 研究の目的は、新型コロナウイルス後患者の長期腎障害の発生率を評価し、関連するリスク要因を特定し、予測モデルを作成し、精度を評価することである。 私たちは、豊富なデータセットから得られた機械学習モデルが腎不全のリスクに関する貴重な洞察を与え、最終的には患者のケアと生活の質を高めることを期待しています。 結論として、今回の研究は、COVID-19後のケア分野に重要な貢献をしている。 機械学習の力を利用して長期腎障害のリスクを正確に予測することを目的とする。 これらの予測は、医療専門家に情報を伝達する可能性があり、この深刻な健康問題の影響を最小限に抑えるため、プロアクティブな措置を採り、腎合併症のリスクがある患者に対する標的的介入を提供することができる。

The COVID-19 pandemic has had far-reaching implications for global public health. As we continue to grapple with its consequences, it becomes increasingly clear that post-COVID-19 complications are a significant concern. Among these complications, renal impairment has garnered particular attention due to its potential long-term health impacts. This study, conducted with a cohort of 821 post-COVID-19 patients from diverse regions of Iraq across the years 2021, 2022, and 2023, endeavors to predict the risk of long-term renal impairment using advanced machine learning algorithms. Our findings have the potential to revolutionize post-COVID-19 patient care by enabling early identification and intervention for those at risk of renal impairment, ultimately improving clinical outcomes. This research encompasses comprehensive data collection and preprocessing, feature selection, and the development of predictive models using various machine learning algorithms. The study's objectives are to assess the incidence of long-term renal impairment in post-COVID-19 patients, identify associated risk factors, create predictive models, and evaluate their accuracy. We anticipate that our machine learning models, drawing from a rich dataset, will provide valuable insights into the risk of renal impairment, ultimately enhancing patient care and quality of life. In conclusion, the research presented herein offers a critical contribution to the field of post-COVID-19 care. By harnessing the power of machine learning, we aim to predict long-term renal impairment risk accurately. These predictions have the potential to inform healthcare professionals, enabling them to take proactive measures and provide targeted interventions for post-COVID-19 patients at risk of renal complications, thus minimizing the impact of this serious health concern.
翻訳日:2023-10-02 16:58:50 公開日:2023-09-28
# 大型アンサンブルランからの深部サロゲートの高スループット学習

High Throughput Training of Deep Surrogates from Large Ensemble Runs ( http://arxiv.org/abs/2309.16743v1 )

ライセンス: Link先を確認
Lucas Meyer (DATAMOVE, SINCLAIR AI Lab, EDF R&D), Marc Schouler (DATAMOVE ), Robert Alexander Caulk (DATAMOVE ), Alejandro Rib\'es (EDF R&D), Bruno Raffin (DATAMOVE )(参考訳) 近年では、物理的世界の忠実だが計算集約的なシミュレーションを提供する数値解法を加速するディープラーニングアプローチが急増している。 これらのディープサロゲートは、一般的に、加速しようとする同じソルバによってゆっくりと生成される限られた量のデータから教師付き方法で訓練される。 大規模なシミュレーションからこれらのモデルのオンライントレーニングを可能にするオープンソースフレームワークを提案する。 複数のレベルの並列性を活用して、リッチデータセットを生成する。 このフレームワークは、生成したデータを直接ストリーミングすることで、i/oボトルネックやストレージの問題を回避する。 トレーニング貯水池は、GPUスループットを最大化しながら、ストリーミングの固有のバイアスを軽減する。 熱方程式のサロゲートとして完全に接続されたネットワークをトレーニングする実験により,従来のオフライン処理に比べて精度が47%向上し,バッチスループットが13倍の8TBのデータを2時間でトレーニングできることを示した。

Recent years have seen a surge in deep learning approaches to accelerate numerical solvers, which provide faithful but computationally intensive simulations of the physical world. These deep surrogates are generally trained in a supervised manner from limited amounts of data slowly generated by the same solver they intend to accelerate. We propose an open-source framework that enables the online training of these models from a large ensemble run of simulations. It leverages multiple levels of parallelism to generate rich datasets. The framework avoids I/O bottlenecks and storage issues by directly streaming the generated data. A training reservoir mitigates the inherent bias of streaming while maximizing GPU throughput. Experiment on training a fully connected network as a surrogate for the heat equation shows the proposed approach enables training on 8TB of data in 2 hours with an accuracy improved by 47% and a batch throughput multiplied by 13 compared to a traditional offline procedure.
翻訳日:2023-10-02 16:58:24 公開日:2023-09-28
# 糖尿病2型糖尿病患者の早期診断のための教師付き学習モデル

Supervised Learning Models for Early Detection of Albuminuria Risk in Type-2 Diabetes Mellitus Patients ( http://arxiv.org/abs/2309.16742v1 )

ライセンス: Link先を確認
Arief Purnama Muharram, Dicky Levenus Tahapary, Yeni Dwi Lestari, Randy Sarayar and Valerie Josephine Dirjayanto(参考訳) 糖尿病、特にT2DMは依然として重要な健康問題である。 糖尿病に関する主要な懸念の1つは、その合併症の発生である。 慢性糖尿病の合併症の一つである糖尿病性腎症は腎臓に悪影響を与え、腎臓の損傷を引き起こす。 糖尿病性腎症の診断には様々な基準が考慮され、そのうちの1つは尿中のアルブミンが病理学的にかなりの量存在することである。 したがって、糖尿病患者におけるアルブミン尿症の早期予測は、タイムリーな予防措置の可能性を秘めている。 本研究の目的は,t2dm患者のアルブミン尿症発症リスクを予測するための教師付き学習モデルの開発である。 教師付き学習アルゴリズムには、Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, Multi-Layer Perceptron (MLP)が含まれる。 糖尿病合併症リスクファクター184項目からなる個人データセットを,アルゴリズムのトレーニングに使用した。 特徴として10の属性と目標として1の属性(アルブミン尿症)から構成されていた。 実験を行うと、MLPは他のアルゴリズムと比較して優れた性能を示した。 これはそれぞれ0.74と0.75の精度とf1スコアの値を達成し、T2DMの尿失調を予測するためのスクリーニングに適していた。 それでも、モデルの性能を高めるためにさらなる研究が保証されている。

Diabetes, especially T2DM, continues to be a significant health problem. One of the major concerns associated with diabetes is the development of its complications. Diabetic nephropathy, one of the chronic complication of diabetes, adversely affects the kidneys, leading to kidney damage. Diagnosing diabetic nephropathy involves considering various criteria, one of which is the presence of a pathologically significant quantity of albumin in urine, known as albuminuria. Thus, early prediction of albuminuria in diabetic patients holds the potential for timely preventive measures. This study aimed to develop a supervised learning model to predict the risk of developing albuminuria in T2DM patients. The selected supervised learning algorithms included Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, and Multi-Layer Perceptron (MLP). Our private dataset, comprising 184 entries of diabetes complications risk factors, was used to train the algorithms. It consisted of 10 attributes as features and 1 attribute as the target (albuminuria). Upon conducting the experiments, the MLP demonstrated superior performance compared to the other algorithms. It achieved accuracy and f1-score values as high as 0.74 and 0.75, respectively, making it suitable for screening purposes in predicting albuminuria in T2DM. Nonetheless, further studies are warranted to enhance the model's performance.
翻訳日:2023-10-02 16:58:10 公開日:2023-09-28
# 潜在宇宙投射によるマルチモーダル金融時系列検索

Multi-Modal Financial Time-Series Retrieval Through Latent Space Projections ( http://arxiv.org/abs/2309.16741v1 )

ライセンス: Link先を確認
Tom Bamford, Andrea Coletta, Elizabeth Fons, Sriram Gopalakrishnan, Svitlana Vyetrenko, Tucker Balch, Manuela Veloso(参考訳) 金融機関は通常何十億もの時系列データを処理し保存し、連続して高い頻度で生成する。 効率的なデータストレージと検索をサポートするため、特殊な時系列データベースとシステムが登場した。 これらのデータベースは、制約付き構造化クエリ言語(SQL)のようなフォーマットで時系列のインデックス化とクエリをサポートし、「月価が5%を超えるスタック」のようなクエリを可能にし、厳密なフォーマットで表現される。 しかし、そのようなクエリは高次元時系列データの本質的な複雑さを捉えておらず、画像や言語(例えば「低ボラティリティ状態の在庫」)によってよく説明される。 さらに、時系列空間での検索に必要なストレージ、計算時間、検索の複雑さは、しばしば非自明である。 本稿では,遅延空間の投影が時系列の傾向だけでなく,金融時系列データの望ましい情報や特性(価格変動など)も捉えることができるような,低次元の潜時空間に深層エンコーダを用いて,金融時系列のマルチモーダルデータを格納するためのフレームワークを提案し,実証する。 さらに,ユーザフレンドリなクエリインタフェースを実現し,自然言語テキストや時系列のスケッチを可能にし,直感的なインタフェースを開発した。 本手法は,実履歴データおよび合成データにおける計算効率と精度の面での利点を実証し,直観的なクエリモダリティを有する金融時系列データの保存・検索における潜在空間投影の有用性を強調する。

Financial firms commonly process and store billions of time-series data, generated continuously and at a high frequency. To support efficient data storage and retrieval, specialized time-series databases and systems have emerged. These databases support indexing and querying of time-series by a constrained Structured Query Language(SQL)-like format to enable queries like "Stocks with monthly price returns greater than 5%", and expressed in rigid formats. However, such queries do not capture the intrinsic complexity of high dimensional time-series data, which can often be better described by images or language (e.g., "A stock in low volatility regime"). Moreover, the required storage, computational time, and retrieval complexity to search in the time-series space are often non-trivial. In this paper, we propose and demonstrate a framework to store multi-modal data for financial time-series in a lower-dimensional latent space using deep encoders, such that the latent space projections capture not only the time series trends but also other desirable information or properties of the financial time-series data (such as price volatility). Moreover, our approach allows user-friendly query interfaces, enabling natural language text or sketches of time-series, for which we have developed intuitive interfaces. We demonstrate the advantages of our method in terms of computational efficiency and accuracy on real historical data as well as synthetic data, and highlight the utility of latent-space projections in the storage and retrieval of financial time-series data with intuitive query modalities.
翻訳日:2023-10-02 16:57:36 公開日:2023-09-28
# 大規模言語モデルを6Gエッジにプッシュする - ビジョン,課題,機会

Pushing Large Language Models to the 6G Edge: Vision, Challenges, and Opportunities ( http://arxiv.org/abs/2309.16739v1 )

ライセンス: Link先を確認
Zheng Lin, Guanqiao Qu, Qiyuan Chen, Xianhao Chen, Zhe Chen and Kaibin Huang(参考訳) 目覚ましい能力を示す大規模言語モデル(LLM)は、AI開発に革命をもたらし、私たちの未来を形作る可能性がある。 しかし、そのマルチモダリティを考えると、現状はクラウドベースのデプロイメントにはいくつかの重大な課題に直面している。 1) 長時間の応答時間 2) 高い帯域幅コスト, そして 3)データプライバシーの侵害。 6Gモバイルエッジコンピューティング(MEC)システムは、これらのプレス問題を解決できるかもしれない。 本稿では,LLMを6Gエッジに展開する可能性について検討する。 まず、ロボットやヘルスケアを含むマルチモーダル LLM を利用したキラーアプリケーションを導入し、エンドユーザの近傍に LLM をデプロイする必要性を強調します。 次に,LLMをエッジに配置する上で重要な課題を特定し,LLMの6G MECアーキテクチャを想定する。 さらに,LLMのエッジトレーニングとエッジ推論という,2つの設計側面を探索する。 両側面において,エッジの固有資源制限を考慮して,スプリットラーニング/インファレンス,パラメータ効率の良い微調整,量子化,パラメータ共有推論など様々な最先端技術について検討し,llmの効率的な展開を容易にする。 本稿は,6GエッジにおけるLCMのモチベーション,課題,経路を徹底的に特定するためのポジションペーパーとして機能する。

Large language models (LLMs), which have shown remarkable capabilities, are revolutionizing AI development and potentially shaping our future. However, given their multimodality, the status quo cloud-based deployment faces some critical challenges: 1) long response time; 2) high bandwidth costs; and 3) the violation of data privacy. 6G mobile edge computing (MEC) systems may resolve these pressing issues. In this article, we explore the potential of deploying LLMs at the 6G edge. We start by introducing killer applications powered by multimodal LLMs, including robotics and healthcare, to highlight the need for deploying LLMs in the vicinity of end users. Then, we identify the critical challenges for LLM deployment at the edge and envision the 6G MEC architecture for LLMs. Furthermore, we delve into two design aspects, i.e., edge training and edge inference for LLMs. In both aspects, considering the inherent resource limitations at the edge, we discuss various cutting-edge techniques, including split learning/inference, parameter-efficient fine-tuning, quantization, and parameter-sharing inference, to facilitate the efficient deployment of LLMs. This article serves as a position paper for thoroughly identifying the motivation, challenges, and pathway for empowering LLMs at the 6G edge.
翻訳日:2023-10-02 16:56:38 公開日:2023-09-28
# ELIP:低ビジョントークンによる効率的な言語画像事前学習

ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens ( http://arxiv.org/abs/2309.16738v1 )

ライセンス: Link先を確認
Yangyang Guo and Haoyu Zhang and Liqiang Nie and Yongkang Wong and Mohan Kankanhalli(参考訳) 汎用言語イメージモデルを学ぶことは、限られた計算予算の下では計算が禁じられている。 本稿では,計算コストとフットプリントの削減が重要でありながら,比較的注目されていない領域である,効率的な言語画像事前学習について述べる。 そこで本研究では,言語出力の監督に基づく影響の少ないトークンを除去するためのビジョントークンプルーニング・マージ手法であるie elipを提案する。 提案手法は,計算効率,メモリ効率,トレーニング可能なパラメータフリーなど,いくつかの長所を伴って設計されており,従来の視覚のみのトークンプルーニング手法とタスク目標との整合性で区別されている。 本手法は,複数の逐次ブロックを用いて漸進的プルーニング方式で実装する。 一般化性能を評価するために, ELIPを3つの一般的な言語画像事前学習モデルに適用し, 4M画像を用いた公開画像キャプチャペアを用いて事前学習を行う。 実験の結果,12 ViT層で約30$\%のビジョントークンが削除されたことにより,ELIPは,クロスモーダル検索,VQA,画像キャプションなど,さまざまな下流タスクに対して,ベースライン(平均値0.32の精度低下)と同等の性能を維持していることがわかった。 さらに、ELIPによるスペアGPUリソースにより、より大きなバッチサイズでスケールアップすることが可能になり、モデル事前トレーニングが加速し、場合によってはダウンストリームモデルのパフォーマンスが向上します。 私たちのコードはhttps://github.com/guoyang9/elipでリリースします。

Learning a versatile language-image model is computationally prohibitive under a limited computing budget. This paper delves into the efficient language-image pre-training, an area that has received relatively little attention despite its importance in reducing computational cost and footprint. To that end, we propose a vision token pruning and merging method, ie ELIP, to remove less influential tokens based on the supervision of language outputs. Our method is designed with several strengths, such as being computation-efficient, memory-efficient, and trainable-parameter-free, and is distinguished from previous vision-only token pruning approaches by its alignment with task objectives. We implement this method in a progressively pruning manner using several sequential blocks. To evaluate its generalization performance, we apply ELIP to three commonly used language-image pre-training models and utilize public image-caption pairs with 4M images for pre-training. Our experiments demonstrate that with the removal of ~30$\%$ vision tokens across 12 ViT layers, ELIP maintains significantly comparable performance with baselines ($\sim$0.32 accuracy drop on average) over various downstream tasks including cross-modal retrieval, VQA, image captioning, etc. In addition, the spared GPU resources by our ELIP allow us to scale up with larger batch sizes, thereby accelerating model pre-training and even sometimes enhancing downstream model performance. Our code will be released at https://github.com/guoyang9/ELIP.
翻訳日:2023-10-02 16:56:16 公開日:2023-09-28
# STIR:赤外線の手術用タトゥー

STIR: Surgical Tattoos in Infrared ( http://arxiv.org/abs/2309.16782v1 )

ライセンス: Link先を確認
Adam Schmidt, Omid Mohareri, Simon DiMaio, Septimiu E. Salcudean(参考訳) 内視鏡下組織を追跡・マッピングする手法の性能の定量化は, 画像指導と医療介入・手術の自動化に不可欠である。 これまでに開発されたデータセットは、厳格な環境や目に見えるマーカーを使用するか、あるいはアノテータに収集後のビデオにサルエントポイントをラベル付ける必要がある。 これらはそれぞれ一般的なものではなく、アルゴリズムに可視である。 そこで本研究では, 赤外線手術用タトゥー(stir)を用いた新しいラベリング法について紹介する。 STIRには永続性があるが、可視光スペクトルアルゴリズムには見えないラベルがある。 これは、組織点にIR蛍光染料、インドシアニングリーン(ICG)をラベル付けし、可視光ビデオクリップを収集する。 STIRは、in-vivoとex-vivoの両方で数百のステレオビデオクリップで構成されており、スタートとエンドポイントはIRスペクトルにラベル付けされている。 3000以上のラベル付きポイントを持つSTIRは、トラッキングとマッピングの方法の定量化とより良い分析を可能にする。 STIRを導入した後、3次元および2次元の終端誤差と精度の指標を用いて、STIR上の複数のフレームベースのトラッキング手法を解析した。 STIRはhttps://dx.doi.org/10.21227/w8g4-g548で利用可能である。

Quantifying performance of methods for tracking and mapping tissue in endoscopic environments is essential for enabling image guidance and automation of medical interventions and surgery. Datasets developed so far either use rigid environments, visible markers, or require annotators to label salient points in videos after collection. These are respectively: not general, visible to algorithms, or costly and error-prone. We introduce a novel labeling methodology along with a dataset that uses said methodology, Surgical Tattoos in Infrared (STIR). STIR has labels that are persistent but invisible to visible spectrum algorithms. This is done by labelling tissue points with IR-flourescent dye, indocyanine green (ICG), and then collecting visible light video clips. STIR comprises hundreds of stereo video clips in both in-vivo and ex-vivo scenes with start and end points labelled in the IR spectrum. With over 3,000 labelled points, STIR will help to quantify and enable better analysis of tracking and mapping methods. After introducing STIR, we analyze multiple different frame-based tracking methods on STIR using both 3D and 2D endpoint error and accuracy metrics. STIR is available at https://dx.doi.org/10.21227/w8g4-g548
翻訳日:2023-10-02 16:48:21 公開日:2023-09-28
# 長文要約における幻覚の低減

Hallucination Reduction in Long Input Text Summarization ( http://arxiv.org/abs/2309.16781v1 )

ライセンス: Link先を確認
Tohida Rehman, Ronit Mandal, Abhishek Agarwal, Debarshi Kumar Sanyal(参考訳) テキスト要約における幻覚とは、入力元文書がサポートしていない情報をモデルが生成する現象を指す。 幻覚は生成された要約の正確さと信頼性に大きな障害となる。 本稿では,長文文書の要約における幻覚出力や幻覚の低減を目的とする。 我々は、長い科学研究資料とそれらの要約を含むPubMedデータセットを使用した。 我々は,Longformer Encoder-Decoder(LED)モデルの微調整にデータフィルタリングとジョイントエンティティと要約生成(JAENS)の技術を取り入れ,幻覚を最小化し,生成した要約の品質を向上させる。 私たちは、エンティティレベルでの事実整合性を測定するために、以下の指標を使用しました。 実験の結果, 微調整LEDモデルは, 紙の抽象的な生成に優れていた。 いくつかの前処理ステップに基づくデータフィルタリング技術は、事実整合性メトリクスのいくつかの観点から生成された要約のエンティティレベルの幻覚を減少させる。

Hallucination in text summarization refers to the phenomenon where the model generates information that is not supported by the input source document. Hallucination poses significant obstacles to the accuracy and reliability of the generated summaries. In this paper, we aim to reduce hallucinated outputs or hallucinations in summaries of long-form text documents. We have used the PubMed dataset, which contains long scientific research documents and their abstracts. We have incorporated the techniques of data filtering and joint entity and summary generation (JAENS) in the fine-tuning of the Longformer Encoder-Decoder (LED) model to minimize hallucinations and thereby improve the quality of the generated summary. We have used the following metrics to measure factual consistency at the entity level: precision-source, and F1-target. Our experiments show that the fine-tuned LED model performs well in generating the paper abstract. Data filtering techniques based on some preprocessing steps reduce entity-level hallucinations in the generated summaries in terms of some of the factual consistency metrics.
翻訳日:2023-10-02 16:47:59 公開日:2023-09-28
# 生成型分類器の興味深い性質

Intriguing properties of generative classifiers ( http://arxiv.org/abs/2309.16779v1 )

ライセンス: Link先を確認
Priyank Jaini and Kevin Clark and Robert Geirhos(参考訳) オブジェクトを認識するのに最適なパラダイムは何か -- 差別的推論(速くても、学習をショートカットする傾向がある)、あるいは生成モデル(遅いが、より堅牢な)を使用することは? 我々は、テキストから画像へのモデルを分類器に変換するジェネレーティブモデリングの最近の進歩の上に構築する。 これにより、行動を研究し、識別モデルと人間の心理物理学データと比較することができる。 生成型分類器の創発的特徴として, 記録破りのヒト様形状バイアス(99%が画像n), 人レベルでの分布精度, 最先端のヒト分類誤りの対応, 知覚錯覚の理解の4点を挙げる。 以上の結果から,人間の物体認識のモデル化のパラダイムは差別的推論であるが,ゼロショット生成モデルは人間の物体認識データを驚くほどよく近似していることが示唆された。

What is the best paradigm to recognize objects -- discriminative inference (fast but potentially prone to shortcut learning) or using a generative model (slow but potentially more robust)? We build on recent advances in generative modeling that turn text-to-image models into classifiers. This allows us to study their behavior and to compare them against discriminative models and human psychophysical data. We report four intriguing emergent properties of generative classifiers: they show a record-breaking human-like shape bias (99% for Imagen), near human-level out-of-distribution accuracy, state-of-the-art alignment with human classification errors, and they understand certain perceptual illusions. Our results indicate that while the current dominant paradigm for modeling human object recognition is discriminative inference, zero-shot generative models approximate human object recognition data surprisingly well.
翻訳日:2023-10-02 16:47:41 公開日:2023-09-28
# ChatGPTはいくつ知っているか? 答えはチャットワードです

How many words does ChatGPT know? The answer is ChatWords ( http://arxiv.org/abs/2309.16777v1 )

ライセンス: Link先を確認
Gonzalo Mart\'inez, Javier Conde, Pedro Reviriego, Elena Merino-G\'omez, Jos\'e Alberto Hern\'andez, Fabrizio Lombardi(参考訳) ChatGPTの導入により、人工知能(AI)自然言語処理(NLP)が注目されている。 ChatGPTの採用は指数関数的であり、何百万というユーザが多数のタスクやアプリケーションドメインでそれを実験している。 しかし、ChatGPTには限界があり、幻覚に悩まされている。 chatgptと類似のaiツールのパフォーマンス評価は、さまざまな観点から検討されている複雑な問題である。 本研究では,任意の単語集合のChatGPT知識を評価するために,自動テストシステムChatWordsの取り組みに貢献する。 ChatWordsは拡張可能で使いやすく、他のNLPAIツールの評価にも適応できるように設計されている。 ChatWordsは公開されており、その主な目標はAIツールの語彙的知識の研究を促進することである。 ChatWordsの利点は、スペインの辞書(Real Academia Espa\~nola)のChatGPTが持つ知識と、ミゲル・デ・セルヴァンテス(Miguel de Cervantes)によって書かれた有名な小説『Quixote』に登場する単語の2つのケーススタディで説明されている。 その結果,ChatGPTは辞書中の単語の約80%とクイホーテ語の単語の90%しか認識できないことがわかった。 NLPのAIツールの語彙知識とChatWordsの潜在的な応用についても論じ、AIツールの語彙知識の研究に関するさらなる研究の方向性について論じている。

The introduction of ChatGPT has put Artificial Intelligence (AI) Natural Language Processing (NLP) in the spotlight. ChatGPT adoption has been exponential with millions of users experimenting with it in a myriad of tasks and application domains with impressive results. However, ChatGPT has limitations and suffers hallucinations, for example producing answers that look plausible but they are completely wrong. Evaluating the performance of ChatGPT and similar AI tools is a complex issue that is being explored from different perspectives. In this work, we contribute to those efforts with ChatWords, an automated test system, to evaluate ChatGPT knowledge of an arbitrary set of words. ChatWords is designed to be extensible, easy to use, and adaptable to evaluate also other NLP AI tools. ChatWords is publicly available and its main goal is to facilitate research on the lexical knowledge of AI tools. The benefits of ChatWords are illustrated with two case studies: evaluating the knowledge that ChatGPT has of the Spanish lexicon (taken from the official dictionary of the "Real Academia Espa\~nola") and of the words that appear in the Quixote, the well-known novel written by Miguel de Cervantes. The results show that ChatGPT is only able to recognize approximately 80% of the words in the dictionary and 90% of the words in the Quixote, in some cases with an incorrect meaning. The implications of the lexical knowledge of NLP AI tools and potential applications of ChatWords are also discussed providing directions for further work on the study of the lexical knowledge of AI tools.
翻訳日:2023-10-02 16:47:25 公開日:2023-09-28
# 表現型薬物発見のための神経スケーリング法則

Neural scaling laws for phenotypic drug discovery ( http://arxiv.org/abs/2309.16773v1 )

ライセンス: Link先を確認
Drew Linsley, John Griffin, Jason Parker Brown, Adam N Roose, Michael Frank, Peter Linsley, Steven Finkbeiner, Jeremy Linsley(参考訳) 自然言語処理(NLP)とコンピュータビジョンにおけるディープニューラルネットワーク(DNN)による最近のブレークスルーは、新しいコンピューティングパラダイムの発見ではなく、モデルとデータのスケールアップによって引き起こされている。 そこで本研究では,小分子の薬物発見を支援するモデルに対して,スケールが同様の影響を与えるかどうかを検討する。 我々は、DNNのサイズ、データダイエット、学習ルーチンが、我々のフェノタイプ化学アリーナ(Pheno-CA)ベンチマーク(画像ベースのハイコンテンツスクリーニングデータに基づく薬物開発タスク)の精度にどのように影響するかを、大規模かつ体系的に分析することで、この問題に対処する。 驚いたことに、Pheno-CAのタスクを明示的に教師するDNNは、データとモデルサイズがスケールアップされるにつれて、継続的に改善されない。 この問題に対処するために,NLPで成功した因果的目的関数に類似した新しい前駆的タスクである逆生物学プロセス(Inverse Biological Process, IBP)を導入する。 実際に、DNNがIPPでトレーニングされた後、Pheno-CAのパフォーマンスがタスク管理DNNよりも大幅に向上していることが分かりました。 さらに重要なことは、IPPで訓練されたDNNの性能はデータとモデルスケールで単調に向上する。 以上の結果から,小分子創薬課題を高精度に解決するために必要なdnn成分がすでに手中にあり,所望のレベルの改善を達成するために必要な実験データがどの程度必要かを見出した。 我々はPheno-CAベンチマークとコードを公開し、小さな分子ドラッグ発見のための神経スケーリング法則のさらなる研究を奨励する。

Recent breakthroughs by deep neural networks (DNNs) in natural language processing (NLP) and computer vision have been driven by a scale-up of models and data rather than the discovery of novel computing paradigms. Here, we investigate if scale can have a similar impact for models designed to aid small molecule drug discovery. We address this question through a large-scale and systematic analysis of how DNN size, data diet, and learning routines interact to impact accuracy on our Phenotypic Chemistry Arena (Pheno-CA) benchmark: a diverse set of drug development tasks posed on image-based high content screening data. Surprisingly, we find that DNNs explicitly supervised to solve tasks in the Pheno-CA do not continuously improve as their data and model size is scaled-up. To address this issue, we introduce a novel precursor task, the Inverse Biological Process (IBP), which is designed to resemble the causal objective functions that have proven successful for NLP. We indeed find that DNNs first trained with IBP then probed for performance on the Pheno-CA significantly outperform task-supervised DNNs. More importantly, the performance of these IBP-trained DNNs monotonically improves with data and model scale. Our findings reveal that the DNN ingredients needed to accurately solve small molecule drug development tasks are already in our hands, and project how much more experimental data is needed to achieve any desired level of improvement. We release our Pheno-CA benchmark and code to encourage further study of neural scaling laws for small molecule drug discovery.
翻訳日:2023-10-02 16:46:56 公開日:2023-09-28
# xvo:クロスモーダル自己学習による汎用視覚オドメトリ

XVO: Generalized Visual Odometry via Cross-Modal Self-Training ( http://arxiv.org/abs/2309.16772v1 )

ライセンス: Link先を確認
Lei Lai and Zhongkai Shangguan and Jimuyang Zhang and Eshed Ohn-Bar(参考訳) XVOは,多種多様なデータセットや設定にまたがる堅牢なオフザセルフ操作を備えた汎用モノクロビジュアルオドメトリー(VO)モデルを訓練するための,半教師付き学習手法である。 単一のデータセット内で既知のキャリブレーションを研究する標準的なモノクロVOアプローチとは対照的に、XVOは視覚シーンのセマンティクスから実際のスケールでの相対的なポーズを、既知のカメラパラメータに頼ることなく、効率的に学習する。 我々は,youtubeで利用可能な無拘束で不均質なダッシュカメラビデオからの自己学習により,モーション推定モデルを最適化する。 私たちの重要な貢献は2つです。 まず,汎用直接VO回帰ネットワーク学習における半教師あり学習の利点を実証的に示す。 次に,voタスクの汎用表現を容易にするために,セグメンテーション,フロー,深さ,音響補助予測タスクを含むマルチモーダル監督を行う。 具体的には、ノイズの多い擬似ラベルを緩和しつつ、半教師付き学習プロセスを大幅に強化する音声予測タスクを、特に高ダイナミックで領域外のビデオデータにおいて発見する。 提案する教師ネットワークは,マルチフレーム最適化やカメラパラメータの知識がなくても,kittiベンチマークで最先端のパフォーマンスを実現する。 提案された半教師付きステップと組み合わせて、XVOはKITTI、nuScenes、Argoverseの様々な条件を微調整することなく、市販の知識伝達を実証する。

We propose XVO, a semi-supervised learning method for training generalized monocular Visual Odometry (VO) models with robust off-the-self operation across diverse datasets and settings. In contrast to standard monocular VO approaches which often study a known calibration within a single dataset, XVO efficiently learns to recover relative pose with real-world scale from visual scene semantics, i.e., without relying on any known camera parameters. We optimize the motion estimation model via self-training from large amounts of unconstrained and heterogeneous dash camera videos available on YouTube. Our key contribution is twofold. First, we empirically demonstrate the benefits of semi-supervised training for learning a general-purpose direct VO regression network. Second, we demonstrate multi-modal supervision, including segmentation, flow, depth, and audio auxiliary prediction tasks, to facilitate generalized representations for the VO task. Specifically, we find audio prediction task to significantly enhance the semi-supervised learning process while alleviating noisy pseudo-labels, particularly in highly dynamic and out-of-domain video data. Our proposed teacher network achieves state-of-the-art performance on the commonly used KITTI benchmark despite no multi-frame optimization or knowledge of camera parameters. Combined with the proposed semi-supervised step, XVO demonstrates off-the-shelf knowledge transfer across diverse conditions on KITTI, nuScenes, and Argoverse without fine-tuning.
翻訳日:2023-10-02 16:46:33 公開日:2023-09-28
# ペルソナ符号化ポリエンコーダ:パーソナガイド付きマルチストリーム対話文スコアリング

Persona-Coded Poly-Encoder: Persona-Guided Multi-Stream Conversational Sentence Scoring ( http://arxiv.org/abs/2309.16770v1 )

ライセンス: Link先を確認
Junfeng Liu, Christopher Symons, Ranga Raju Vatsavai(参考訳) 機械学習とディープラーニングの最近の進歩は、多くの実践的応用において会話型AIの普及につながっている。 しかし、会話の質を向上させるために、会話コンテキストやパーソナライズされたチューニングを提供する補助情報を活用することは依然として非常に困難である。 例えば、個人のペルソナ情報を使って会話の質を向上させる研究は限られており、最先端の会話AI技術でさえ、マルチモーダルインタラクションデータ、人口統計、SDOHデータなどの異種データからの信号を効果的に活用することはできない。 本稿では,対話における応答生成の質を向上させるために,多ストリーム符号化方式におけるペルソナ情報を活用するペルソナ符号化方式を提案する。 提案手法の有効性を示すために,2つの異なるペルソナベースの会話型データセットを用いた手法を評価し,2つの最先端手法と比較した。 実験結果と分析により,ベースライン方式のポリエンコーダよりも会話品質が3.32%向上し,2.94%向上した。 さらに,本手法は,対話タスクにおけるマルチモーダルデータのより良い利用方法を提供する。 最後に,パーソナライズされた会話型ai技術の進歩に向けた課題と今後の研究方向性について概説する。

Recent advances in machine learning and deep learning have led to the widespread use of Conversational AI in many practical applications. However, it is still very challenging to leverage auxiliary information that can provide conversational context or personalized tuning to improve the quality of conversations. For example, there has only been limited research on using an individuals persona information to improve conversation quality, and even state-of-the-art conversational AI techniques are unable to effectively leverage signals from heterogeneous sources of auxiliary data, such as multi-modal interaction data, demographics, SDOH data, etc. In this paper, we present a novel Persona-Coded Poly-Encoder method that leverages persona information in a multi-stream encoding scheme to improve the quality of response generation for conversations. To show the efficacy of the proposed method, we evaluate our method on two different persona-based conversational datasets, and compared against two state-of-the-art methods. Our experimental results and analysis demonstrate that our method can improve conversation quality over the baseline method Poly-Encoder by 3.32% and 2.94% in terms of BLEU score and HR@1, respectively. More significantly, our method offers a path to better utilization of multi-modal data in conversational tasks. Lastly, our study outlines several challenges and future research directions for advancing personalized conversational AI technology.
翻訳日:2023-10-02 16:46:09 公開日:2023-09-28
# モジュラーフローの直感的構成

An intuitive construction of modular flow ( http://arxiv.org/abs/2309.16766v1 )

ライセンス: Link先を確認
Jonathan Sorce(参考訳) モジュラーフローの理論は、場の量子論における平衡状態への熱力学的推論の適用に非常に有用である。 しかし、モジュラーフローの基本定理の標準的な証明は、バナッハ空間のフーリエ解析から機械を用いており、物理学者の聴衆には特に透明ではない。 本稿では,既存の処理と異なるモジュラーフローの構成について述べる。 主な教育的貢献は、私はKMS条件を通して熱物理学から始め、モジュラー作用素を理論の基本対象としてモジュラー作用素から始めるのではなく、時間の熱的矢印を生成できる唯一の作用素として導き出すことである。 主な技術的貢献は、モジュラーフローが対称性であることを示す基本定理の新たな証明である。 新しい証明は、以前の治療で現れるが、数学的には厳密なフーリエ解析の微妙な問題を回避している。

The theory of modular flow has proved extremely useful for applying thermodynamic reasoning to out-of-equilibrium states in quantum field theory. However, the standard proofs of the fundamental theorems of modular flow use machinery from Fourier analysis on Banach spaces, and as such are not especially transparent to an audience of physicists. In this article, I present a construction of modular flow that differs from existing treatments. The main pedagogical contribution is that I start with thermal physics via the KMS condition, and derive the modular operator as the only operator that could generate a thermal arrow of time, rather than starting with the modular operator as the fundamental object of the theory. The main technical contribution is a new proof of the fundamental theorem stating that modular flow is a symmetry. The new proof circumvents the delicate issues of Fourier analysis that appear in previous treatments, but is still mathematically rigorous.
翻訳日:2023-10-02 16:45:48 公開日:2023-09-28
# 量子コンピュータにおけるパルスプログラムの解析勾配の評価

Evaluating analytic gradients of pulse programs on quantum computers ( http://arxiv.org/abs/2309.16756v1 )

ライセンス: Link先を確認
Korbinian Kottmann, Nathan Killoran(参考訳) 量子ハードウェア上で動作するパラメタライズドパルスプログラムは、確率パラメータシフト(SPS)ルールによって区別することができる。 我々はパルスプログラムの勾配を計算するための新しい解析手法を導入し,SPSの本質的な近似性を克服した。 この方法では、微分可能な常微分方程式(ODE)ソルバを用いてパルスゲートを効率的に生成する。 これらの効果的なジェネレータは、量子ハードウェア上で評価可能なパラメータシフトルールを知らせる。 実効超伝導トランスモンシステムを用いたシミュレーションVQE例を示し、SPS上のオデゲンを用いて少ない量子資源で低エネルギーを得る。 さらに,量子ハードウェア上でodegenで計算された勾配を持つパルスvqeを実演する。

Parametrized pulse programs running on quantum hardware can be differentiated via the stochastic parameter-shift (SPS) rule. We overcome the intrinsically approximate nature of SPS by introducing a new analytic method for computing gradients of pulse programs, that we coin ODEgen. In this new method, we find effective generators of pulse gates using a differentiable ordinary differential equation (ODE) solver. These effective generators inform parameter-shift rules that can be evaluated on quantum hardware. We showcase simulated VQE examples with realistic superconducting transmon systems, for which we obtain lower energies with fewer quantum resources using ODEgen over SPS. We further demonstrate a pulse VQE run with gradients computed via ODEgen entirely on quantum hardware.
翻訳日:2023-10-02 16:45:34 公開日:2023-09-28
# 平凡な視点での記憶:拡散モデルと連想記憶の間の不気味な関係に関する調査

Memory in Plain Sight: A Survey of the Uncanny Resemblances between Diffusion Models and Associative Memories ( http://arxiv.org/abs/2309.16750v1 )

ライセンス: Link先を確認
Benjamin Hoover, Hendrik Strobelt, Dmitry Krotov, Judy Hoffman, Zsolt Kira, Duen Horng Chau(参考訳) 拡散モデル(DM)は、最近、多くの世代ベンチマークで最先端を定めている。 しかし、数学的に記述する方法は無数にあり、それらがどのように機能するかを簡単に理解することは困難である。 本稿では,力学系の観点からのDMの簡潔な概要と,高関連であるがしばしば見落とされがちなエネルギーベースモデル(Associative Memories (AMs))との数学的関係を明らかにする正規微分方程式(ODE)について述べる。 エネルギーベースのAMは、DMをデノナイズする理論的な枠組みであるが、これはデータをデノナイズするために勾配降下を行うことができるリプノフエネルギー関数を直接計算することができる。 次に,元々のホップフィールドネットワークから始まった40年間のエネルギーベースのamsの歴史を要約し,その類似性と相違点を特徴付けることで明らかにされるamsとdmsの新しい研究方向について考察する。

Diffusion Models (DMs) have recently set state-of-the-art on many generation benchmarks. However, there are myriad ways to describe them mathematically, which makes it difficult to develop a simple understanding of how they work. In this survey, we provide a concise overview of DMs from the perspective of dynamical systems and Ordinary Differential Equations (ODEs) which exposes a mathematical connection to the highly related yet often overlooked class of energy-based models, called Associative Memories (AMs). Energy-based AMs are a theoretical framework that behave much like denoising DMs, but they enable us to directly compute a Lyapunov energy function on which we can perform gradient descent to denoise data. We then summarize the 40 year history of energy-based AMs, beginning with the original Hopfield Network, and discuss new research directions for AMs and DMs that are revealed by characterizing the extent of their similarities and differences
翻訳日:2023-10-02 16:45:23 公開日:2023-09-28
# スケールでの粒度:高解像度オーソグラフィー画像とハイブリッド学習から近隣のウェルビーイングを推定する

Granularity at Scale: Estimating Neighborhood Well-Being from High-Resolution Orthographic Imagery and Hybrid Learning ( http://arxiv.org/abs/2309.16808v1 )

ライセンス: Link先を確認
Ethan Brewer, Giovani Valdrighi, Parikshit Solunke, Joao Rulff, Yurii Piadyk, Zhonghui Lv, Jorge Poco, and Claudio Silva(参考訳) 世界の多くの地域では、既存のデータ収集方法に制限があるため、居住人口の幸福に関する基本的な情報がない。 衛星や航空機などの遠隔地から得られたオーバーヘッド画像は、地上の生命状態の窓として機能し、より高解像度のセンサーを必要とするより小さなスケールでの推定で、コミュニティ情報が不足している「ギャップに埋める」のに役立つ。 センサーの解像度の改善と並行して、機械学習とコンピュータビジョンの最近の進歩により、これらの特徴を他の情報と関連付けるプロセスにおいて、画像データのパターンから素早く特徴を抽出し、検出することが可能になった。 本研究は, 教師付き畳み込みニューラルネットワークと半教師付きクラスタリングという2つのアプローチが, 人口密度, 中央値の世帯所得, および全米の都市の高解像度画像から各地区の教育的到達度を推定するものである。 その結果、画像から抽出された特徴は、近隣の人口密度 (r$^2$- 0.81) を正確に推定でき、教師付きアプローチにより、人口の所得と教育の変動の約半分を説明できることがわかった。 さらなる地理的一般化の基盤として提案されたアプローチに加えて、新しい半教師付きアプローチは、ラベルデータを必要としない頭上画像から詳細情報を推定するための将来の作業の基礎を提供する。

Many areas of the world are without basic information on the well-being of the residing population due to limitations in existing data collection methods. Overhead images obtained remotely, such as from satellite or aircraft, can help serve as windows into the state of life on the ground and help "fill in the gaps" where community information is sparse, with estimates at smaller geographic scales requiring higher resolution sensors. Concurrent with improved sensor resolutions, recent advancements in machine learning and computer vision have made it possible to quickly extract features from and detect patterns in image data, in the process correlating these features with other information. In this work, we explore how well two approaches, a supervised convolutional neural network and semi-supervised clustering based on bag-of-visual-words, estimate population density, median household income, and educational attainment of individual neighborhoods from publicly available high-resolution imagery of cities throughout the United States. Results and analyses indicate that features extracted from the imagery can accurately estimate the density (R$^2$ up to 0.81) of neighborhoods, with the supervised approach able to explain about half the variation in a population's income and education. In addition to the presented approaches serving as a basis for further geographic generalization, the novel semi-supervised approach provides a foundation for future work seeking to estimate fine-scale information from overhead imagery without the need for label data.
翻訳日:2023-10-02 16:39:32 公開日:2023-09-28
# カリキュラム駆動型Edubot:会話データ合成による言語学習チャットボット開発フレームワーク

Curriculum-Driven Edubot: A Framework for Developing Language Learning Chatbots Through Synthesizing Conversational Data ( http://arxiv.org/abs/2309.16804v1 )

ライセンス: Link先を確認
Yu Li, Shang Qu, Jili Shen, Shangchao Min and Zhou Yu(参考訳) チャットボットは、学生が教材とどのように交流し、教師が教える方法に革命をもたらした。 本稿では,チャットボットの対話的特徴と英語教科書の体系的な素材を組み合わせたチャットボットを開発するためのフレームワークであるCurriculum-Driven EduBotについて紹介する。 まず、教科書から関連するトピックを抽出し、それから大きな言語モデルを用いてこれらのトピックに関連する対話を生成する。 次に、生成された会話データを使ってオープンソースのLLMを微調整して、カリキュラム駆動のチャットボットを作成します。 ユーザ調査の結果,チャットボットは指導的なカリキュラムに基づく対話においてchatgptよりも優れており,その対話をユーザの英語習熟度に適合させることが示されている。 従来の教科書手法と会話型AIを組み合わせることで,学習者がカリキュラムに合わせた対話型ツールを提供し,ユーザに適した会話実践を提供する。 これにより、有意義な学生とボットの対話が促進され、カリキュラムの教育的枠組みにおける全体的な学習体験が強化される。

Chatbots have become popular in educational settings, revolutionizing how students interact with material and how teachers teach. We present Curriculum-Driven EduBot, a framework for developing a chatbot that combines the interactive features of chatbots with the systematic material of English textbooks to assist students in enhancing their conversational skills. We begin by extracting pertinent topics from textbooks and then using large language models to generate dialogues related to these topics. We then fine-tune an open-source LLM using our generated conversational data to create our curriculum-driven chatbot. User studies demonstrate that our chatbot outperforms ChatGPT in leading curriculum-based dialogues and adapting its dialogue to match the user's English proficiency level. By combining traditional textbook methodologies with conversational AI, our approach offers learners an interactive tool that aligns with their curriculum and provides user-tailored conversation practice. This facilitates meaningful student-bot dialogues and enriches the overall learning experience within the curriculum's pedagogical framework.
翻訳日:2023-10-02 16:39:07 公開日:2023-09-28
# Promptbreeder: プロンプト進化による自己参照型自己改善

Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution ( http://arxiv.org/abs/2309.16797v1 )

ライセンス: Link先を確認
Chrisantha Fernando, Dylan Banarse, Henryk Michalewski, Simon Osindero, Tim Rockt\"aschel(参考訳) Chain-of-Thought Promptingのような一般的なプロンプト戦略は、様々なドメインにおけるLarge Language Models(LLM)の推論能力を劇的に改善することができる。 しかし、手作りのプロンプト戦略はしばしば準最適である。 本稿では,ある領域のプロンプトを進化・適応する汎用自己参照型自己改善機構であるPromptbreederを提案する。 llmによって駆動され、プロンプトブレッダーはタスクプロンプトの集団をミュートし、トレーニングセットの適合性を評価する。 重要なことに、これらのタスク・プロンプトの突然変異は、LPMが自己参照的な方法で進化を通して生成し改善する突然変異・プロンプトによって制御される。 つまり、Promptbreederはタスクプロンプトを改善するだけでなく、これらのタスクプロンプトを改善する突然変異プロンプトも改善している。 Promptbreederは、一般的な算術および常識推論ベンチマークでChain-of-ThoughtやPlan-and-Solve Promptingのような最先端のプロンプト戦略より優れている。 さらに、プロンプトブレッダーはヘイトスピーチ分類の難しい問題に対して複雑なタスクプロンプトを進化させることができる。

Popular prompt strategies like Chain-of-Thought Prompting can dramatically improve the reasoning abilities of Large Language Models (LLMs) in various domains. However, such hand-crafted prompt-strategies are often sub-optimal. In this paper, we present Promptbreeder, a general-purpose self-referential self-improvement mechanism that evolves and adapts prompts for a given domain. Driven by an LLM, Promptbreeder mutates a population of task-prompts, and subsequently evaluates them for fitness on a training set. Crucially, the mutation of these task-prompts is governed by mutation-prompts that the LLM generates and improves throughout evolution in a self-referential way. That is, Promptbreeder is not just improving task-prompts, but it is also improving the mutationprompts that improve these task-prompts. Promptbreeder outperforms state-of-the-art prompt strategies such as Chain-of-Thought and Plan-and-Solve Prompting on commonly used arithmetic and commonsense reasoning benchmarks. Furthermore, Promptbreeder is able to evolve intricate task-prompts for the challenging problem of hate speech classification.
翻訳日:2023-10-02 16:38:48 公開日:2023-09-28
# 二次連立最適化問題に対する量子アニーリングに対するベンチマークメタヒューリスティック積分量子近似最適化アルゴリズム

Benchmarking Metaheuristic-Integrated Quantum Approximate Optimisation Algorithm against Quantum Annealing for Quadratic Unconstrained Binary Optimization Problems ( http://arxiv.org/abs/2309.16796v1 )

ライセンス: Link先を確認
Arul Mazumder, Anuvab Sen, Udayon Sen(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、合成最適化の解法において最も有望なノイズ中間量子アルゴリズムの一つである。 残念ながら、QAOAのパフォーマンスはパラメータの選択に依存しており、標準的なオプティマイザはこれらの最適化関数の複雑さとミステリーのために重要なパラメータを識別できないことが多い。 本稿では,古典的および量子的ヒューリスティックスに対してメタヒューリスティックオプティマイザで修正したQAOA回路をベンチマークし,QAOAパラメータを同定する。 実験結果から,量子アニーリングとメタヒューリスティック統合QAOAの両領域における強度と限界に関する知見が得られた。 以上の結果から,このハイブリッド手法は古典的最適化戦略を活用し,qaoaの解質向上と収束速度の向上,特に頑丈な景観問題や限られた量子資源問題に対して有効であることが示唆された。 さらに,本研究は最適化問題の具体的特徴に基づいて,最も適切なアプローチを選択するためのガイドラインを提供する。

The Quantum Approximate Optimization Algorithm (QAOA) is one of the most promising Noisy Intermediate Quantum Algorithms (NISQ) in solving combinatorial optimizations and displays potential over classical heuristic techniques. Unfortunately, QAOA performance depends on the choice of parameters and standard optimizers often fail to identify key parameters due to the complexity and mystery of these optimization functions. In this paper, we benchmark QAOA circuits modified with metaheuristic optimizers against classical and quantum heuristics to identify QAOA parameters. The experimental results reveal insights into the strengths and limitations of both Quantum Annealing and metaheuristic-integrated QAOA across different problem domains. The findings suggest that the hybrid approach can leverage classical optimization strategies to enhance the solution quality and convergence speed of QAOA, particularly for problems with rugged landscapes and limited quantum resources. Furthermore, the study provides guidelines for selecting the most appropriate approach based on the specific characteristics of the optimization problem at hand.
翻訳日:2023-10-02 16:38:26 公開日:2023-09-28
# ニューロモルフィックハードウェアの超低消費電力画像分類

Ultra-low-power Image Classification on Neuromorphic Hardware ( http://arxiv.org/abs/2309.16795v1 )

ライセンス: Link先を確認
Gregor Lenz, Garrick Orchard, Sadique Sheik(参考訳) スパイキングニューラルネットワーク(SNN)は、時間的および空間的間隔を利用して超低消費電力の応用を約束する。 スパイクと呼ばれるバイナリーアクティベーションの数は、ニューロモルフィックハードウェア上で実行されるときに消費される電力に比例する。 空間的特徴に大きく依存する視覚タスクの時間的バックプロパゲーションを用いたSNNの訓練には,計算コストがかかる。 画像認識データセットに関しては、ステートレスな人工知能ニューラルネットワーク(ANN)をトレーニングして、ウェイトをSNNに変換するのが簡単な方法です。 ほとんどの変換方法は、nnの活性化を表すためにsnのレートコーディングに依存しており、大量のスパイクとそれゆえ、情報をエンコードするエネルギーを使用する。 近年、時間変換法は、ニューロン毎のスパイクが著しく少ないが、複雑なニューロンモデルを必要とする有望な結果を示している。 本稿では、最初のスパイク時間(TTFS)に基づいて、Quartzと呼ぶ時間的ANN-to-SNN変換手法を提案する。 Quartzは高い分類精度を実現し、最小のシナプス演算とメモリアクセスを使用しながら、ニューロモルフィックハードウェアで容易に実装できる。 ニューロモルフィックなハードウェアで容易に利用できる以前の時間変換法と比較して、ニューロン当たりのシナプスを2つ追加するコストがかかる。 我々はシミュレーションにおいて、mnist、cifar10、imagenetのquartzをベンチマークし、この手法の利点を示し、intelのニューロモルフィックチップであるloihiの実装を追従する。 我々は、時間符号化が電力消費、スループット、遅延の点で、類似の分類精度に有利であることを示す。 私たちのコードとモデルは公開されています。

Spiking neural networks (SNNs) promise ultra-low-power applications by exploiting temporal and spatial sparsity. The number of binary activations, called spikes, is proportional to the power consumed when executed on neuromorphic hardware. Training such SNNs using backpropagation through time for vision tasks that rely mainly on spatial features is computationally costly. Training a stateless artificial neural network (ANN) to then convert the weights to an SNN is a straightforward alternative when it comes to image recognition datasets. Most conversion methods rely on rate coding in the SNN to represent ANN activation, which uses enormous amounts of spikes and, therefore, energy to encode information. Recently, temporal conversion methods have shown promising results requiring significantly fewer spikes per neuron, but sometimes complex neuron models. We propose a temporal ANN-to-SNN conversion method, which we call Quartz, that is based on the time to first spike (TTFS). Quartz achieves high classification accuracy and can be easily implemented on neuromorphic hardware while using the least amount of synaptic operations and memory accesses. It incurs a cost of two additional synapses per neuron compared to previous temporal conversion methods, which are readily available on neuromorphic hardware. We benchmark Quartz on MNIST, CIFAR10, and ImageNet in simulation to show the benefits of our method and follow up with an implementation on Loihi, a neuromorphic chip by Intel. We provide evidence that temporal coding has advantages in terms of power consumption, throughput, and latency for similar classification accuracy. Our code and models are publicly available.
翻訳日:2023-10-02 16:38:01 公開日:2023-09-28
# 低密度ガウス状態エネルギー推定

Low-depth Gaussian State Energy Estimation ( http://arxiv.org/abs/2309.16790v1 )

ライセンス: Link先を確認
Gumaro Rendon, Peter D. Johnson(参考訳) 量子コンピューティングの最近の進歩は、初期のフォールトトレラント量子コンピュータの実現の道を開いた。 これらのデバイスの有用性を最大化するためには、その能力と限界に合致する量子アルゴリズムを開発することが重要である。 これに触発された最近の研究は、量子化学と材料において重要なサブルーチンである基底状態エネルギー推定(GSEE)のための低深さ量子アルゴリズムを開発した。 最近の研究と同様に、回路繰り返し回数が$o(1)$から$o(1/\epsilon^2)$に増加するコストで、典型的な$o(1/\epsilon)$とは対照的に、多くの演算を$o(1/\delta)$でスケーリングする新しいgseeアルゴリズムを詳述する。 このアルゴリズムの関連する特徴は、量子フーリエ変換(QFT)に基づく最も単純なGSEEアルゴリズムにおいて、励起状態からの汚染を指数関数的に低減するガウス窓を使うことから生じる。 このアルゴリズムは、$\Delta$を$\Delta$と$\epsilon$から$\epsilon$に置き換えることで、低深度とフル深度との間を補間する。 アンシラ量子ビット数が1ドルから$O(\log\Delta)$に増加するコストで、回路繰り返し回数の上限を従来の方法に比べて4倍に削減する。

Recent progress in quantum computing is paving the way for the realization of early fault-tolerant quantum computers. To maximize the utility of these devices, it is important to develop quantum algorithms that match their capabilities and limitations. Motivated by this, recent work has developed low-depth quantum algorithms for ground state energy estimation (GSEE), an important subroutine in quantum chemistry and materials. We detail a new GSEE algorithm which, like recent work, uses a number of operations scaling as $O(1/\Delta)$ as opposed to the typical $O(1/\epsilon)$, at the cost of an increase in the number of circuit repetitions from $O(1)$ to $O(1/\epsilon^2)$. The relevant features of this algorithm come about from using a Gaussian window, which exponentially reduces contamination from excited states over the simplest GSEE algorithm based on the Quantum Fourier Transform (QFT). We adapt this algorithm to interpolate between the low-depth and full-depth regime by replacing $\Delta$ with anything between $\Delta$ and $\epsilon$. At the cost of increasing the number of ancilla qubits from $1$ to $O(\log\Delta)$, our method reduces the upper bound on the number of circuit repetitions by a factor of four compared to previous methods.
翻訳日:2023-10-02 16:37:32 公開日:2023-09-28
# データトラストのための拡張可能な同意管理アーキテクチャ

Extensible Consent Management Architectures for Data Trusts ( http://arxiv.org/abs/2309.16789v1 )

ライセンス: Link先を確認
Balambiga Ayappane, Rohith Vaidyanathan, Srinath Srinivasa, Jayati Deshmukh(参考訳) 個人の敏感な個人情報と組織やコミュニティの非個人的情報は、様々な利害関係者の間で合法的に交換し、サービスを提供し、公衆衛生、法律、秩序を維持する必要があることが多い。 このような交換は必要だが、プライバシーとセキュリティの課題も抱えている。 個人データのためのgdprやインド非個人データ保護草案のようなデータ保護法では、個人および非個人情報のさらなる募集と普及が可能な条件と、 \textit{legal capacity} を指定する。 しかし、法的な能力と司法権の境界を規定する形式主義が廃れており、そのようなデータのオープンエンドな交換が実施できる。 本稿では,データトラストにおける同意管理のための拡張可能な枠組みを提案する。

Sensitive personal information of individuals and non-personal information of organizations or communities often needs to be legitimately exchanged among different stakeholders, to provide services, maintain public health, law and order, and so on. While such exchanges are necessary, they also impose enormous privacy and security challenges. Data protection laws like GDPR for personal data and Indian Non-personal data protection draft specify conditions and the \textit{legal capacity} in which personal and non-personal information can be solicited and disseminated further. But there is a dearth of formalisms for specifying legal capacities and jurisdictional boundaries, so that open-ended exchange of such data can be implemented. This paper proposes an extensible framework for consent management in Data Trusts in which data can flow across a network through "role tunnels" established based on corresponding legal capacities.
翻訳日:2023-10-02 16:37:06 公開日:2023-09-28
# 量子コンピューティング、数学、物理学(qcamp:quantum computing in high schools)の紹介

Quantum Computing, Math, and Physics (QCaMP): Introducing quantum computing in high schools ( http://arxiv.org/abs/2309.16788v1 )

ライセンス: Link先を確認
Megan Ivory, Alisa Bettale, Rachel Boren, Ashlyn D. Burch, Jake Douglass, Lisa Hackett, Boris Kiefer, Alina Kononov, Maryanne Long, Mekena Metcalf, Tzula B. Propp, and Mohan Sarvar(参考訳) 量子情報科学とテクノロジーの初期段階で急速に成長している分野は、熟練した量子労働者の需要が増加し、当初から多様な労働力を創出する機会となった。 この要求に応えて、STEMにおける女性や少数民族にQISTのキャリアを考えるよう促すため、我々は、必要条件のない高校レベルの教師や生徒に量子コンピューティングを導入するカリキュラムを開発した。 2022年、このカリキュラムは2週間のサマーキャンプで提供され、1つは教師、もう1つは学生をターゲットにした。 ここでは, 目的, カリキュラム, 活動の概要と, 両キャンプの形式的評価, 今後のQCaMP拡大の展望について概説する。

The nascent but rapidly growing field of Quantum Information Science and Technology has led to an increased demand for skilled quantum workers and an opportunity to build a diverse workforce at the outset. In order to meet this demand and encourage women and underrepresented minorities in STEM to consider a career in QIST, we have developed a curriculum for introducing quantum computing to teachers and students at the high school level with no prerequisites. In 2022, this curriculum was delivered over the course of two one-week summer camps, one targeting teachers and another targeting students. Here, we present an overview of the objectives, curriculum, and activities, as well as results from the formal evaluation of both camps and the outlook for expanding QCaMP in future years.
翻訳日:2023-10-02 16:36:51 公開日:2023-09-28
# エピタキシャルceo$_2$におけるer$^{3+}$の光学的及びスピンコヒーレンス

Optical and spin coherence of Er$^{3+}$ in epitaxial CeO$_2$ on silicon ( http://arxiv.org/abs/2309.16785v1 )

ライセンス: Link先を確認
Jiefei Zhang, Gregory D. Grant, Ignas Masiulionis, Michael T. Solomon, Jasleen K. Bindra, Jens Niklas, Alan M. Dibos, Oleg G. Poluektov, F. Joseph Heremans, Supratik Guha, David D. Awschalom(参考訳) 核スピンフリー環境における通信帯域における光遷移を伴う固体原子欠陥は、ファイバベースの量子ネットワークにおける応用において重要である。 CeO$_2$でドープされたエルビウムイオンはそのような望ましい組み合わせを提供する。 本稿では,Si(111)基板上に成長したCeO$_2$エピタキシャル膜にドープされたEr$^{3+}=イオンの光均一線幅と電子スピンコヒーレンスについて報告する。 The long-lived optical transition near 1530 nm in the environmentally-protected 4f shell of Er$^{3+}$ shows a narrow homogeneous linewidth of 440 kHz with an optical coherence time of 0.72 $\mu$s at 3.6 K. The reduced nuclear spin noise in the host allows for Er$^{3+}$ electron spin polarization at 3.6 K, yielding an electron spin coherence of 0.66 $\mu$s (in the isolated ion limit) and a spin relaxation of 2.5 ms. These findings indicate the potential of Er$^{3+}$:CeO$_2$ film as a valuable platform for quantum networks and communication applications.

Solid-state atomic defects with optical transitions in the telecommunication bands, potentially in a nuclear spin free environment, are important for applications in fiber-based quantum networks. Erbium ions doped in CeO$_2$ offer such a desired combination. Here we report on the optical homogeneous linewidth and electron spin coherence of Er$^{3+}$ ions doped in CeO$_2$ epitaxial film grown on a Si(111) substrate. The long-lived optical transition near 1530 nm in the environmentally-protected 4f shell of Er$^{3+}$ shows a narrow homogeneous linewidth of 440 kHz with an optical coherence time of 0.72 $\mu$s at 3.6 K. The reduced nuclear spin noise in the host allows for Er$^{3+}$ electron spin polarization at 3.6 K, yielding an electron spin coherence of 0.66 $\mu$s (in the isolated ion limit) and a spin relaxation of 2.5 ms. These findings indicate the potential of Er$^{3+}$:CeO$_2$ film as a valuable platform for quantum networks and communication applications.
翻訳日:2023-10-02 16:36:37 公開日:2023-09-28
# 自律走行における画像分割のためのフォトニック加速器と欠陥検出

Photonic Accelerators for Image Segmentation in Autonomous Driving and Defect Detection ( http://arxiv.org/abs/2309.16783v1 )

ライセンス: Link先を確認
Lakshmi Nair, David Widemann, Brad Turcott, Nick Moore, Alexandra Wleklinski, Darius Bunandar, Ioannis Papavasileiou, Shihu Wang, Eric Logan(参考訳) フォトニックコンピューティングは、従来のデジタルハードウェアよりも高速でエネルギー効率の高いディープニューラルネットワーク(DNN)推論を実現する。 フォトニックコンピューティングの進歩は、高速で正確でエネルギー効率の良い画像セグメンテーションモデルの実行に依存する自律運転や欠陥検出といった応用に大きな影響を与える可能性がある。 本稿では,フォトニック加速器のイメージセグメンテーションについて検討する。 a)フォトニック加速器に最も適した画像分割DNNアーキテクチャの種類 ロ フォトニック加速器上で異なる画像分割モデルを実行する際のスループット及びエネルギー効率並びにそれに伴うトレードオフ 具体的には,特定のセグメンテーションモデルがフォトニック加速器上で実行された場合の精度(デジタルfloat32モデルと比較して)が無視できることを示す。 また,モデルの性能が良くない場合の精度回復手法についても論じる。 さらに,光加速器における画像分割作業のスループット(1秒あたりの推論)とエネルギー消費の推定値を比較する。 このようなコンピュータビジョンタスクへのフォトニック加速器の適用を改善するための課題と潜在的な最適化について論じる。

Photonic computing promises faster and more energy-efficient deep neural network (DNN) inference than traditional digital hardware. Advances in photonic computing can have profound impacts on applications such as autonomous driving and defect detection that depend on fast, accurate and energy efficient execution of image segmentation models. In this paper, we investigate image segmentation on photonic accelerators to explore: a) the types of image segmentation DNN architectures that are best suited for photonic accelerators, and b) the throughput and energy efficiency of executing the different image segmentation models on photonic accelerators, along with the trade-offs involved therein. Specifically, we demonstrate that certain segmentation models exhibit negligible loss in accuracy (compared to digital float32 models) when executed on photonic accelerators, and explore the empirical reasoning for their robustness. We also discuss techniques for recovering accuracy in the case of models that do not perform well. Further, we compare throughput (inferences-per-second) and energy consumption estimates for different image segmentation workloads on photonic accelerators. We discuss the challenges and potential optimizations that can help improve the application of photonic accelerators to such computer vision tasks.
翻訳日:2023-10-02 16:36:15 公開日:2023-09-28
# 個人選好安定クラスタリングのための定数近似

Constant Approximation for Individual Preference Stable Clustering ( http://arxiv.org/abs/2309.16840v1 )

ライセンス: Link先を確認
Anders Aamand, Justin Y. Chen, Allen Liu, Sandeep Silwal, Pattara Sukprasert, Ali Vakilian, Fred Zhang(参考訳) Ahmadi et al. (ICML 2022)によって導入されたIPの安定性は、安定性と公正性の制約に触発された自然なクラスタリングの目的である。 クラスタリングが$\alpha$-IP である場合、各データポイントから自身のクラスタへの平均距離が、他のクラスタへの平均距離の少なくとも$\alpha$-IP 倍である。 残念ながら、データセットが$$$-ipの安定したクラスタリングを認めているかどうかを決定するのはnp-hardである。 さらに、この研究以前には、$o(n)$-ip 安定クラスタリングが常に \emph{exists} であるかどうかは分かっておらず、以前の状態は$o(n)$-ip安定クラスタリングしか保証されていなかった。 このギャップを解消し、一般的なメトリクスに対して常に$o(1)$-ip安定クラスタリングが存在することを示し、そのようなクラスタリングを出力する効率的なアルゴリズムを与える。 また、平均距離を超えるIP安定性の一般化を導入し、クラスタ内およびクラスタ間の最大および最小距離を考慮した場合、効率よく、ほぼ最適アルゴリズムを提供する。

Individual preference (IP) stability, introduced by Ahmadi et al. (ICML 2022), is a natural clustering objective inspired by stability and fairness constraints. A clustering is $\alpha$-IP stable if the average distance of every data point to its own cluster is at most $\alpha$ times the average distance to any other cluster. Unfortunately, determining if a dataset admits a $1$-IP stable clustering is NP-Hard. Moreover, before this work, it was unknown if an $o(n)$-IP stable clustering always \emph{exists}, as the prior state of the art only guaranteed an $O(n)$-IP stable clustering. We close this gap in understanding and show that an $O(1)$-IP stable clustering always exists for general metrics, and we give an efficient algorithm which outputs such a clustering. We also introduce generalizations of IP stability beyond average distance and give efficient, near-optimal algorithms in the cases where we consider the maximum and minimum distances within and between clusters.
翻訳日:2023-10-02 16:27:44 公開日:2023-09-28
# 医用画像パイプラインにおける不確かさの伝播と寄与

Propagation and Attribution of Uncertainty in Medical Imaging Pipelines ( http://arxiv.org/abs/2309.16831v1 )

ライセンス: Link先を確認
Leonhard F. Feiner, Martin J. Menten, Kerstin Hammernik, Paul Hager, Wenqi Huang, Daniel Rueckert, Rickmer F. Braren, and Georgios Kaissis(参考訳) 医療画像アプリケーションのための説明可能なニューラルネットワークを構築する手段を提供する不確実性推定は、主に特定のタスクに焦点を当てた単一のディープラーニングモデルのために研究されている。 本稿では,医用画像パイプラインにおける深層学習モデルのカスケードを通して不確かさを伝播する手法を提案する。 これにより、パイプラインの後半段階における不確かさを集約し、後続モデルの予測のための共同不確実性尺度を得ることができる。 さらに、パイプライン内のすべてのコンポーネントのアレータリック、データベース、不確実性のコントリビューションを別々に報告できます。 脳と膝の磁気共鳴 (mr) 像を再構成し, 脳の体積, 膝側, 患者の性別などの画像から定量的情報を推定する, 現実的なイメージングパイプラインにおける本手法の有用性を実証する。 本研究では, 伝搬不確かさが入力不確かさと相関していることを定量的に示し, パイプラインステージの寄与率と結合不確かさの比率を比較した。

Uncertainty estimation, which provides a means of building explainable neural networks for medical imaging applications, have mostly been studied for single deep learning models that focus on a specific task. In this paper, we propose a method to propagate uncertainty through cascades of deep learning models in medical imaging pipelines. This allows us to aggregate the uncertainty in later stages of the pipeline and to obtain a joint uncertainty measure for the predictions of later models. Additionally, we can separately report contributions of the aleatoric, data-based, uncertainty of every component in the pipeline. We demonstrate the utility of our method on a realistic imaging pipeline that reconstructs undersampled brain and knee magnetic resonance (MR) images and subsequently predicts quantitative information from the images, such as the brain volume, or knee side or patient's sex. We quantitatively show that the propagated uncertainty is correlated with input uncertainty and compare the proportions of contributions of pipeline stages to the joint uncertainty measure.
翻訳日:2023-10-02 16:27:23 公開日:2023-09-28
# pdesを解くための微分自由損失法の解析

An analysis of the derivative-free loss method for solving PDEs ( http://arxiv.org/abs/2309.16829v1 )

ライセンス: Link先を確認
Jihun Han, Yoonsang Lee(参考訳) 本研究では,ニューラルネットワークを用いて導出自由損失法を解析し,楕円型pdesを解く。 微分自由損失法は、確率歩行器とその対応する平均値を組み込んだファインマン・カック定式化を用いる。 本研究では,feynman-kacの定式化とウォーカーサイズに関連する時間間隔の影響について,計算効率,トレーサビリティ,サンプリング誤差の文脈で検討した。 分析の結果,トレーニング損失バイアスは時間間隔とニューラルネットワークの空間勾配に比例する一方で,歩行量に比例することがわかった。 また,ネットワークをトレーニングするには時間間隔が十分長い必要があることを示す。 これらの分析結果から,時間間隔の最適下限に基づいて,ウォーカーサイズを可能な限り小さく選択できることが示唆された。 分析を支援する数値テストも提供します。

This study analyzes the derivative-free loss method to solve a certain class of elliptic PDEs using neural networks. The derivative-free loss method uses the Feynman-Kac formulation, incorporating stochastic walkers and their corresponding average values. We investigate the effect of the time interval related to the Feynman-Kac formulation and the walker size in the context of computational efficiency, trainability, and sampling errors. Our analysis shows that the training loss bias is proportional to the time interval and the spatial gradient of the neural network while inversely proportional to the walker size. We also show that the time interval must be sufficiently long to train the network. These analytic results tell that we can choose the walker size as small as possible based on the optimal lower bound of the time interval. We also provide numerical tests supporting our analysis.
翻訳日:2023-10-02 16:26:52 公開日:2023-09-28
# DNN分類器における訓練後オーバーフィッティング緩和

Post-Training Overfitting Mitigation in DNN Classifiers ( http://arxiv.org/abs/2309.16827v1 )

ライセンス: Link先を確認
Hang Wang, David J. Miller, George Kesidis(参考訳) ディープニューラルネット(DNN)分類器におけるオーバーフィッティングのよく知られた(非致命的な)源には、以下のものがある。 i) 大きな階級の不均衡 二 トレーニングセットの多様性の不足 三 オーバートレーニング 最近の研究で、バックドアデータ収集は、特にDNNで大きな信号が伝播する(非有界な)ReLUアクティベーションによって、攻撃者のターゲットクラスに異常に大きな分類マージンを持つ過度適合も引き起こすことを示した。 そこで,バックドアに対する効果的な後トレーニング(トレーニングセットやトレーニングプロセスの知識を持たない)アプローチが提案され,バウンディングニューラルアクティベーションに基づく小さなクリーンデータセットが利用された。 その作業を改善し、特に最大マージン(MM)を制限するためにアクティベーションをしきい値にし、バックドアの緩和においてパフォーマンスが向上する。 この緩和アプローチに対する分析的なサポートも提供します。 最も重要なことは,学習後MMベースの正規化は,授業の不均衡や過度なトレーニングによる非マチュラスなオーバーフィッティングを著しく軽減することである。 したがって,攻撃に対してある程度のレジリエンスを提供するが,クリーン(アタックフリー)一般化を損なう敵意訓練とは異なり,敵意学習を起源とするアプローチが一般化精度の向上に寄与することを示す。 CIFAR-10とCIFAR-100の実験は、ピア法と比較して、我々の手法の強い性能を示す。

Well-known (non-malicious) sources of overfitting in deep neural net (DNN) classifiers include: i) large class imbalances; ii) insufficient training-set diversity; and iii) over-training. In recent work, it was shown that backdoor data-poisoning also induces overfitting, with unusually large classification margins to the attacker's target class, mediated particularly by (unbounded) ReLU activations that allow large signals to propagate in the DNN. Thus, an effective post-training (with no knowledge of the training set or training process) mitigation approach against backdoors was proposed, leveraging a small clean dataset, based on bounding neural activations. Improving upon that work, we threshold activations specifically to limit maximum margins (MMs), which yields performance gains in backdoor mitigation. We also provide some analytical support for this mitigation approach. Most importantly, we show that post-training MM-based regularization substantially mitigates non-malicious overfitting due to class imbalances and overtraining. Thus, unlike adversarial training, which provides some resilience against attacks but which harms clean (attack-free) generalization, we demonstrate an approach originating from adversarial learning that helps clean generalization accuracy. Experiments on CIFAR-10 and CIFAR-100, in comparison with peer methods, demonstrate strong performance of our methods.
翻訳日:2023-10-02 16:26:39 公開日:2023-09-28
# FENDA-FL : 不均一な臨床データを用いた個人化フェデレーション学習

FENDA-FL: Personalized Federated Learning on Heterogeneous Clinical Datasets ( http://arxiv.org/abs/2309.16825v1 )

ライセンス: Link先を確認
Fatemeh Tavakoli, D.B. Emerson, John Jewell, Amrit Krishnan, Yuchong Zhang, Amol Verma, Fahad Razak(参考訳) フェデレーテッド・ラーニング(FL)は、臨床環境での機械学習モデルのトレーニングと展開を頻繁に妨害するデータサイロを克服するための重要なアプローチとして、ますます認識されている。 この研究は、3つの重要な方向に沿って臨床応用に焦点を当てたfl研究の発展に寄与している。 まず、FL設定へのFENDA法の拡張(Kim et al., 2016)を提案する。 FLambyベンチマーク(du Terrail et al., 2022a)とGEMINIデータセット(Verma et al., 2017)で実施された実験は、このアプローチが異種の臨床データに対して堅牢であり、しばしば既存のグローバルおよびパーソナライズされたFL技術よりも優れていることを示している。 さらに、実験結果は、オリジナルのflambyベンチマークに対する実質的な改善を示し、それらのベンチマークをパーソナライズされたflメソッドの評価を含むように拡張する。 最後に,実用的な設定をよりよく反映し,比較のために複数のベースラインを提供するために,flのための包括的なチェックポイントと評価フレームワークを提唱する。

Federated learning (FL) is increasingly being recognized as a key approach to overcoming the data silos that so frequently obstruct the training and deployment of machine-learning models in clinical settings. This work contributes to a growing body of FL research specifically focused on clinical applications along three important directions. First, an extension of the FENDA method (Kim et al., 2016) to the FL setting is proposed. Experiments conducted on the FLamby benchmarks (du Terrail et al., 2022a) and GEMINI datasets (Verma et al., 2017) show that the approach is robust to heterogeneous clinical data and often outperforms existing global and personalized FL techniques. Further, the experimental results represent substantive improvements over the original FLamby benchmarks and expand such benchmarks to include evaluation of personalized FL methods. Finally, we advocate for a comprehensive checkpointing and evaluation framework for FL to better reflect practical settings and provide multiple baselines for comparison.
翻訳日:2023-10-02 16:26:14 公開日:2023-09-28
# 線形関数近似を用いた$Q$学習の収束のためのマルチベルマン演算子

Multi-Bellman operator for convergence of $Q$-learning with linear function approximation ( http://arxiv.org/abs/2309.16819v1 )

ライセンス: Link先を確認
Diogo S. Carvalho, Pedro A. Santos, Francisco S. Melo(参考訳) 線形関数近似を用いた$Q$-learningの収束について検討する。 我々の重要な貢献は、従来のベルマン作用素を拡張する新しいマルチベルマン作用素の導入である。 この演算子の特性を探索することにより、投影されたマルチベルマン作用素が収縮する条件を特定し、ベルマン作用素と比較して固定点保証が改善される。 これらの知見を活用するために,線形関数近似を用いた多値学習アルゴリズムを提案する。 このアルゴリズムは射影マルチベルマン作用素の固定点に収束し、任意の精度の解が得られることを示す。 最後に,この手法をよく知られた環境に適用し,本研究の有効性と適用性を示した。

We study the convergence of $Q$-learning with linear function approximation. Our key contribution is the introduction of a novel multi-Bellman operator that extends the traditional Bellman operator. By exploring the properties of this operator, we identify conditions under which the projected multi-Bellman operator becomes contractive, providing improved fixed-point guarantees compared to the Bellman operator. To leverage these insights, we propose the multi $Q$-learning algorithm with linear function approximation. We demonstrate that this algorithm converges to the fixed-point of the projected multi-Bellman operator, yielding solutions of arbitrary accuracy. Finally, we validate our approach by applying it to well-known environments, showcasing the effectiveness and applicability of our findings.
翻訳日:2023-10-02 16:25:53 公開日:2023-09-28
# MEM:ロボットと学習のためのマルチモーダル標高マッピング

MEM: Multi-Modal Elevation Mapping for Robotics and Learning ( http://arxiv.org/abs/2309.16818v1 )

ライセンス: Link先を確認
Gian Erni, Jonas Frey, Takahiro Miki, Matias Mattamala, Marco Hutter(参考訳) 標高マップは移動ロボットの環境を表現するために一般的に使われ、移動やナビゲーションの作業に役立っている。 しかし、外見や意味情報を必要とする多くのフィールドアプリケーションでは、純粋に幾何学的な情報は不十分である。 本研究では,複数ソースからのマルチモーダル情報を一般的な地図表現に融合することにより,2.5次元ロボット中心の標高マッピングフレームワークを拡張する。 このフレームワークでは、ポイントクラウドやイメージに含まれるデータを統一的に入力することができる。 データの異なる性質を管理するために,情報タイプとユーザ要求に基づいて選択可能な融合アルゴリズムのセットも提示する。 我々のシステムはGPU上で動くように設計されており、様々なロボットや学習タスクをリアルタイムに行うことができる。 センサ構成の異なる複数のロボットにデプロイし,マルチモーダルレイヤを利用するアプリケーションとして,ライン検出,人間検出,カラー化などを示すことで,このフレームワークの能力を実証した。

Elevation maps are commonly used to represent the environment of mobile robots and are instrumental for locomotion and navigation tasks. However, pure geometric information is insufficient for many field applications that require appearance or semantic information, which limits their applicability to other platforms or domains. In this work, we extend a 2.5D robot-centric elevation mapping framework by fusing multi-modal information from multiple sources into a popular map representation. The framework allows inputting data contained in point clouds or images in a unified manner. To manage the different nature of the data, we also present a set of fusion algorithms that can be selected based on the information type and user requirements. Our system is designed to run on the GPU, making it real-time capable for various robotic and learning tasks. We demonstrate the capabilities of our framework by deploying it on multiple robots with varying sensor configurations and showcasing a range of applications that utilize multi-modal layers, including line detection, human detection, and colorization.
翻訳日:2023-10-02 16:25:42 公開日:2023-09-28
# PROSE:マルチモーダルトランスを用いた演算子と記号表現の予測

PROSE: Predicting Operators and Symbolic Expressions using Multimodal Transformers ( http://arxiv.org/abs/2309.16816v1 )

ライセンス: Link先を確認
Yuxuan Liu, Zecheng Zhang, Hayden Schaeffer(参考訳) ニューラルネットワークを用いた非線形微分方程式の近似は、リアルタイム予測、逆問題、最適制御、代理モデリングなど、様々な科学計算タスクに対して堅牢で効率的なツールを提供する。 これまでの研究は、単一解演算子(すなわち入力パラメトリケーション関数から解への写像)の学習と、方程式の制御系(すなわち状態変数に対する構成モデル)の学習という2つのアプローチで、動的システムをネットワークに埋め込むことに重点を置いてきた。 これらのアプローチはどちらも、同じ基盤となるデータや関数に対して異なる表現をもたらす。 さらに、微分方程式の族はしばしば重要な特性を共有することを観察し、幅広い方程式にまたがる一つのネットワーク表現を求める。 予測演算子と記号表現(PROSE)と呼ばれる本手法は,マルチモーダル入力からマルチモーダル出力への写像を学習し,数値予測と数学的方程式の両方を生成する。 変圧器構造と特徴融合手法を用いることで, ネットワークは, 様々なパラメトリック微分方程式に対する解演算子の集合を, 同時に1つのトレーニングネットワークを用いて埋め込むことができる。 詳細な実験により、ネットワークはそのマルチモーダルな性質から利点があり、予測精度が向上し、より一般化された。 このネットワークは、データ内のノイズやシンボル表現の誤りを処理できることが示されており、ノイズの数値、モデルの誤特定、用語の誤追加や削除が含まれる。 PROSEは、微分方程式のための新しいニューラルネットワークフレームワークを提供する。

Approximating nonlinear differential equations using a neural network provides a robust and efficient tool for various scientific computing tasks, including real-time predictions, inverse problems, optimal controls, and surrogate modeling. Previous works have focused on embedding dynamical systems into networks through two approaches: learning a single solution operator (i.e., the mapping from input parametrized functions to solutions) or learning the governing system of equations (i.e., the constitutive model relative to the state variables). Both of these approaches yield different representations for the same underlying data or function. Additionally, observing that families of differential equations often share key characteristics, we seek one network representation across a wide range of equations. Our method, called Predicting Operators and Symbolic Expressions (PROSE), learns maps from multimodal inputs to multimodal outputs, capable of generating both numerical predictions and mathematical equations. By using a transformer structure and a feature fusion approach, our network can simultaneously embed sets of solution operators for various parametric differential equations using a single trained network. Detailed experiments demonstrate that the network benefits from its multimodal nature, resulting in improved prediction accuracy and better generalization. The network is shown to be able to handle noise in the data and errors in the symbolic representation, including noisy numerical values, model misspecification, and erroneous addition or deletion of terms. PROSE provides a new neural network framework for differential equations which allows for more flexibility and generality in learning operators and governing equations from data.
翻訳日:2023-10-02 16:25:26 公開日:2023-09-28
# SatDM:拡散モデルを用いた意味的レイアウト条件付き実写衛星画像の合成

SatDM: Synthesizing Realistic Satellite Image with Semantic Layout Conditioning using Diffusion Models ( http://arxiv.org/abs/2309.16812v1 )

ライセンス: Link先を確認
Orkhan Baghirli, Hamid Askarov, Imran Ibrahimli, Ismat Bakhishov, Nabi Nabiyev(参考訳) 地球観測領域のディープラーニングモデルは、大規模正確にラベル付けされた衛星画像の可用性に大きく依存している。 しかし、衛星画像の取得とラベル付けは資源集約的な取り組みである。 生成モデルはデータの不足に対処するための有望なソリューションを提供するが、そのポテンシャルはいまだ探索されていない。 近年,DDPM(Denoising Diffusion Probabilistic Models)は,意味的レイアウトから現実的なイメージを合成する上で,大きな可能性を示唆している。 本稿では,意味マップを取得でき,高品質で多彩な衛星画像を生成する条件付きddpmモデルを実装した。 さらに、最適化ダイナミクスの包括的なイラストを提供する。 提案手法は分散学習,分類器フリーガイダンス,ノイズスケジューリングの改善といった最先端技術を統合する。 雑音化ネットワークアーキテクチャは、適応正規化と自己アテンション機構の導入によってさらに補完され、モデルの能力を高める。 本研究の文脈で導入した注意深いラベル付きデータセットを用いて,提案モデルの有効性を検証する。 検証には、Frechet Inception Distance(FID)やIntersection over Union(IoU)といったアルゴリズム手法と、人間の意見研究の両方が含まれる。 以上の結果から,生成した試料は実物からの偏差が最小であり,データ拡張などの実用的応用への扉が開けていることが示唆された。 DDPMのより広範な設定とデータモダリティに関するさらなる調査を楽しみにしています。 このアルゴリズムのオープンソースリファレンス実装とベンチマークデータセットへのリンクはhttps://github.com/obaghirli/syn10-diffusionで提供されている。

Deep learning models in the Earth Observation domain heavily rely on the availability of large-scale accurately labeled satellite imagery. However, obtaining and labeling satellite imagery is a resource-intensive endeavor. While generative models offer a promising solution to address data scarcity, their potential remains underexplored. Recently, Denoising Diffusion Probabilistic Models (DDPMs) have demonstrated significant promise in synthesizing realistic images from semantic layouts. In this paper, a conditional DDPM model capable of taking a semantic map and generating high-quality, diverse, and correspondingly accurate satellite images is implemented. Additionally, a comprehensive illustration of the optimization dynamics is provided. The proposed methodology integrates cutting-edge techniques such as variance learning, classifier-free guidance, and improved noise scheduling. The denoising network architecture is further complemented by the incorporation of adaptive normalization and self-attention mechanisms, enhancing the model's capabilities. The effectiveness of our proposed model is validated using a meticulously labeled dataset introduced within the context of this study. Validation encompasses both algorithmic methods such as Frechet Inception Distance (FID) and Intersection over Union (IoU), as well as a human opinion study. Our findings indicate that the generated samples exhibit minimal deviation from real ones, opening doors for practical applications such as data augmentation. We look forward to further explorations of DDPMs in a wider variety of settings and data modalities. An open-source reference implementation of the algorithm and a link to the benchmarked dataset are provided at https://github.com/obaghirli/syn10-diffusion.
翻訳日:2023-10-02 16:24:58 公開日:2023-09-28
# GraB-sampler:PyTorch用最適置換型SGDデータサンプリング器

GraB-sampler: Optimal Permutation-based SGD Data Sampler for PyTorch ( http://arxiv.org/abs/2309.16809v1 )

ライセンス: Link先を確認
Guanghao Wei(参考訳) オンラインのグラディエント・バランシング(GraB)アルゴリズムは、サンプルごとの勾配を用いたシーディング問題を解くことで、ランダムリシャッフルを克服する理論上最適な解であることを証明した。 しかし、現在、コミュニティが簡単に使うためのGraBの効率的な実装はありません。 この作業では,より効率的なPythonライブラリである$\textit{GraB-sampler}$が提案されている。 GraB-samplerの最高のパフォーマンス結果は、トレーニング損失とテストの精度を再現する一方で、トレーニング時間オーバーヘッド8.7%とGPUメモリ使用量の最大0.85%というコストしかかからない。

The online Gradient Balancing (GraB) algorithm greedily choosing the examples ordering by solving the herding problem using per-sample gradients is proved to be the theoretically optimal solution that guarantees to outperform Random Reshuffling. However, there is currently no efficient implementation of GraB for the community to easily use it. This work presents an efficient Python library, $\textit{GraB-sampler}$, that allows the community to easily use GraB algorithms and proposes 5 variants of the GraB algorithm. The best performance result of the GraB-sampler reproduces the training loss and test accuracy results while only in the cost of 8.7% training time overhead and 0.85% peak GPU memory usage overhead.
翻訳日:2023-10-02 16:24:32 公開日:2023-09-28
# LEF:LiDAR3Dオブジェクト検出のための時間-時間融合

LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection ( http://arxiv.org/abs/2309.16870v1 )

ライセンス: Link先を確認
Tong He, Pei Sun, Zhaoqi Leng, Chenxi Liu, Dragomir Anguelov, Mingxing Tan(参考訳) 本稿では,時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。 私たちの主な動機は、3dオブジェクト検出器の初期段階にオブジェクト認識の潜在埋め込みを組み込むことです。 この機能融合戦略により、モデルは生の点から直接学ぶよりも、挑戦的な物体の形状やポーズをよりよく捉えることができる。 本手法は, 後期から早期の核融合を反復的に行う。 これは、時間的に校正および整列されたスパース柱トークンにウィンドウベースのアテンションブロックを強制することで達成される。 bird's eye view foreground pillar segmentationを利用することで、モデルが現在のフレームに融合する必要があるスパース履歴フィーチャの数を10$\times$で削減します。 また,確率的長さのフレームドロップトレーニング手法を提案する。 本手法は広範に採用されているWaymo Open Dataset上で評価され,特に大規模オブジェクトの挑戦的カテゴリにおいて,ベースラインモデルに対する3次元オブジェクト検出の改善を示す。

We propose a late-to-early recurrent feature fusion scheme for 3D object detection using temporal LiDAR point clouds. Our main motivation is fusing object-aware latent embeddings into the early stages of a 3D object detector. This feature fusion strategy enables the model to better capture the shapes and poses for challenging objects, compared with learning from raw points directly. Our method conducts late-to-early feature fusion in a recurrent manner. This is achieved by enforcing window-based attention blocks upon temporally calibrated and aligned sparse pillar tokens. Leveraging bird's eye view foreground pillar segmentation, we reduce the number of sparse history features that our model needs to fuse into its current frame by 10$\times$. We also propose a stochastic-length FrameDrop training technique, which generalizes the model to variable frame lengths at inference for improved performance without retraining. We evaluate our method on the widely adopted Waymo Open Dataset and demonstrate improvement on 3D object detection against the baseline model, especially for the challenging category of large objects.
翻訳日:2023-10-02 16:18:48 公開日:2023-09-28
# コピー検出パターンのための確率的デジタル双生児

Stochastic Digital Twin for Copy Detection Patterns ( http://arxiv.org/abs/2309.16866v1 )

ライセンス: Link先を確認
Yury Belousov, Olga Taran, Vitaliy Kinakh, Slava Voloshynovskiy(参考訳) コピー検出パターン(cdp)は偽造防止のための効率的な手法である。 しかし、CDP生産の多様性を研究する複雑さは、しばしば時間とコストのかかる手順をもたらし、CDPのスケーラビリティを制限します。 近年のコンピュータモデリングの進歩、特に「デジタルツイン」の概念は、拡張性の向上と認証システムの最適化を可能にした。 しかし、正確なデジタル双生児の開発は決して簡単ではない。 本稿では,CDPのための機械学習ベースのデジタルツインを用いて,印刷画像チャネルをモデル化した以前の研究を拡張した。 このモデルは"Turbo"として知られる情報理論のフレームワーク上に構築され、CycleGANやピクセル2ピクセルといった従来の生成モデルよりも優れた性能を示した。 しかし,DSF(Denoising Diffusion Probabilistic Models, DDPM)の出現する分野は, 印刷画像の固有ランダム性を確率論的にモデル化し, 画像から画像への変換タスクにおいて顕著な性能を示すため, 生成モデルの潜在的な進歩を示す。 本研究の目的は、同じCDPデータセット上でTurboフレームワークとDDPMの機能を比較することであり、CDPセキュリティにおけるデジタルツインアプリケーションのためのDDPMモデルの現実的な利点を確立することである。 さらに,携帯電話データ取得の文脈において,研究モデルの生成可能性を評価することを目的とした。 DDPM法は従来の手法と比較して複雑化しているが,本研究ではその利点を強調し,今後の応用の可能性を探る。

Copy detection patterns (CDP) present an efficient technique for product protection against counterfeiting. However, the complexity of studying CDP production variability often results in time-consuming and costly procedures, limiting CDP scalability. Recent advancements in computer modelling, notably the concept of a "digital twin" for printing-imaging channels, allow for enhanced scalability and the optimization of authentication systems. Yet, the development of an accurate digital twin is far from trivial. This paper extends previous research which modelled a printing-imaging channel using a machine learning-based digital twin for CDP. This model, built upon an information-theoretic framework known as "Turbo", demonstrated superior performance over traditional generative models such as CycleGAN and pix2pix. However, the emerging field of Denoising Diffusion Probabilistic Models (DDPM) presents a potential advancement in generative models due to its ability to stochastically model the inherent randomness of the printing-imaging process, and its impressive performance in image-to-image translation tasks. This study aims at comparing the capabilities of the Turbo framework and DDPM on the same CDP datasets, with the goal of establishing the real-world benefits of DDPM models for digital twin applications in CDP security. Furthermore, the paper seeks to evaluate the generative potential of the studied models in the context of mobile phone data acquisition. Despite the increased complexity of DDPM methods when compared to traditional approaches, our study highlights their advantages and explores their potential for future applications.
翻訳日:2023-10-02 16:18:28 公開日:2023-09-28
# 序文:超高解像度顔合成のためのデータ駆動ボリュームプリミティブ

Preface: A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face Synthesis ( http://arxiv.org/abs/2309.16859v1 )

ライセンス: Link先を確認
Marcel C. B\"uhler (1 and 2), Kripasindhu Sarkar (2), Tanmay Shah (2), Gengyan Li (1 and 2), Daoye Wang (2), Leonhard Helminger (2), Sergio Orts-Escolano (2), Dmitry Lagun (2), Otmar Hilliges (1), Thabo Beeler (2), Abhimitra Meka (2) ((1) ETH Zurich, (2) Google)(参考訳) NeRFは、複雑な外観や髪と皮膚の反射効果を含む人間の顔の非常に現実的な合成を可能にした。 これらの方法は通常、多数のマルチビュー入力画像を必要とするため、プロセスハードウェアが集中的かつ面倒になり、制約のない設定への適用性が制限される。 本稿では,前者のトレーニング分布の一部ではない被験者の超高解像度な新規視点の合成を可能にする,新しい人体顔モデルを提案する。 この先行モデルは、既知のカメラキャリブレーションを持つ多様な人間の低解像度マルチビュー画像のデータセットに基づいて訓練された、アイデンティティ条件付きNeRFで構成されている。 単純なスパースランドマークに基づくトレーニングデータセットの3Dアライメントにより、限られた数のトレーニングIDにもかかわらず、我々のモデルはスムーズな幾何学と外観の空間を学習することができる。 任意の解像度の2、3のカメラビューをモデルにすることで、新規な被写体の高品質なボリューム表現を得ることができる。 提案手法では, カジュアルな画像の2つのビューを推論時に入力として必要とする。

NeRFs have enabled highly realistic synthesis of human faces including complex appearance and reflectance effects of hair and skin. These methods typically require a large number of multi-view input images, making the process hardware intensive and cumbersome, limiting applicability to unconstrained settings. We propose a novel volumetric human face prior that enables the synthesis of ultra high-resolution novel views of subjects that are not part of the prior's training distribution. This prior model consists of an identity-conditioned NeRF, trained on a dataset of low-resolution multi-view images of diverse humans with known camera calibration. A simple sparse landmark-based 3D alignment of the training dataset allows our model to learn a smooth latent space of geometry and appearance despite a limited number of training identities. A high-quality volumetric representation of a novel subject can be obtained by model fitting to 2 or 3 camera views of arbitrary resolution. Importantly, our method requires as few as two views of casually captured images as input at inference time.
翻訳日:2023-10-02 16:18:00 公開日:2023-09-28
# トランスダクティブ学習のシャープな一般化--トランスダクティブ局所ラデマッハ複雑性アプローチ

Sharp Generalization of Transductive Learning: A Transductive Local Rademacher Complexity Approach ( http://arxiv.org/abs/2309.16858v1 )

ライセンス: Link先を確認
Yingzhen Yang(参考訳) 本稿では、トランスダクティブ学習手法の一般化性能を分析し、新しいトランスダクティブ学習アルゴリズムを動機付ける新しいツール、Transductive Local Rademacher Complexity (TLRC)を紹介する。 我々の研究は、一般の局所ラドマチャー複雑度(LRC)の考え方を、インダクティブ・セッティングにおける典型的なLRC法の解析と比較してかなり変化したトランスダクティブ・セッティングへと拡張する。 本稿では,Rademacher複雑性に基づくツールウィッチの局所化バージョンを,様々なトランスダクティブ学習問題に適用し,適切な条件下での鋭い境界を求める。 LRCの開発と同様に、分散情報を持つ独立変数の急激な集中不等式から始めることでTLRCを構築する。 次に、トランスダクティブ学習モデルの予測関数クラスを、各ピースのラデマッハ複雑性の上限となる部分ルート関数で分割し、各ピース内のすべての関数の分散を制限する。 逐次的設定における未ラベルテストデータに対するテスト損失のバウンダリが、インダクティブ設定における古典的LRCのバウンダリと著しく類似していることを確認するために、慎重に設計された分散演算子を用いる。 我々は新しいTLRCツールを用いてTransductive Kernel Learning(TKL)モデルを解析し、カーネル関数によってテストデータのラベルが生成される。 tklの結果は、グラフトランスダクティブ学習(gtl)とトランスダクティブ非パラメトリックカーネル回帰(tnkr)という2種類のトランスダクティブ学習タスクの一般化境界の基礎となっている。 対象関数が低次元またはほぼ低次元の場合、既存の学習理論法では達成できないtlrcによるより鋭い一般化境界を、我々の知識の最高値に満たす、gtlとtnkrの両方の低階法を設計する。

We introduce a new tool, Transductive Local Rademacher Complexity (TLRC), to analyze the generalization performance of transductive learning methods and motivate new transductive learning algorithms. Our work extends the idea of the popular Local Rademacher Complexity (LRC) to the transductive setting with considerable changes compared to the analysis of typical LRC methods in the inductive setting. We present a localized version of Rademacher complexity based tool wihch can be applied to various transductive learning problems and gain sharp bounds under proper conditions. Similar to the development of LRC, we build TLRC by starting from a sharp concentration inequality for independent variables with variance information. The prediction function class of a transductive learning model is then divided into pieces with a sub-root function being the upper bound for the Rademacher complexity of each piece, and the variance of all the functions in each piece is limited. A carefully designed variance operator is used to ensure that the bound for the test loss on unlabeled test data in the transductive setting enjoys a remarkable similarity to that of the classical LRC bound in the inductive setting. We use the new TLRC tool to analyze the Transductive Kernel Learning (TKL) model, where the labels of test data are generated by a kernel function. The result of TKL lays the foundation for generalization bounds for two types of transductive learning tasks, Graph Transductive Learning (GTL) and Transductive Nonparametric Kernel Regression (TNKR). When the target function is low-dimensional or approximately low-dimensional, we design low rank methods for both GTL and TNKR, which enjoy particularly sharper generalization bounds by TLRC which cannot be achieved by existing learning theory methods, to the best of our knowledge.
翻訳日:2023-10-02 16:17:44 公開日:2023-09-28
# IoTにおけるフェデレーション学習のハイパーパーソナライゼーションへの応用

Applications of Federated Learning in IoT for Hyper Personalisation ( http://arxiv.org/abs/2309.16854v1 )

ライセンス: Link先を確認
Veer Dosi(参考訳) 数十億ものiotデバイスがデプロイされ、インターネットの高速化とエンドポイントへのアクセスの機会を生かしている。 大量のデータは常にこれらのデバイスによって生成されるが、効果的に利用されていない。 これら複数のクライアント上でFLトレーニング機械学習モデルを使用することで、それを中央サーバに持ち込む必要がなくなる。 このようなモデルを用いて極度のパーソナライズを実現する方法について検討する。

Billions of IoT devices are being deployed, taking advantage of faster internet, and the opportunity to access more endpoints. Vast quantities of data are being generated constantly by these devices but are not effectively being utilised. Using FL training machine learning models over these multiple clients without having to bring it to a central server. We explore how to use such a model to implement ultra levels of personalization unlike before
翻訳日:2023-10-02 16:17:12 公開日:2023-09-28
# Sketch2CADScript: Visual Transformer と Rhino Grasshopper を用いた2次元スケッチからの3次元シーン再構成

Sketch2CADScript: 3D Scene Reconstruction from 2D Sketch using Visual Transformer and Rhino Grasshopper ( http://arxiv.org/abs/2309.16850v1 )

ライセンス: Link先を確認
Hong-Bin Yang(参考訳) 既存の3Dモデル再構成手法は通常、ボクセル、点雲、メッシュの形式で出力を生成する。 しかしながら、これらのアプローチには制限があり、すべてのシナリオに適さない可能性がある。 例えば、得られたモデルは粗い表面と歪んだ構造を示し、手作業による編集と後処理が人間にとって困難になる。 本稿では,これらの問題に対処する新しい3次元再構成手法を提案する。 1つのワイヤーフレーム画像から「シーン記述子」を予測するために視覚トランスフォーマーを訓練した。 このディスクリプタは、オブジェクトタイプや位置、回転、サイズといったパラメータを含む重要な情報を含んでいる。 予測パラメータにより、BlenderやRhino Grasshopperのような3Dモデリングソフトウェアを使って3Dシーンを再構築することができる。 提案モデルを評価するために,単純なシーンと複雑なシーンの2つのデータセットを作成した。 テスト結果は、モデルが単純なシーンを正確に再構築し、より複雑なシーンでその課題を明らかにする能力を示している。

Existing 3D model reconstruction methods typically produce outputs in the form of voxels, point clouds, or meshes. However, each of these approaches has its limitations and may not be suitable for every scenario. For instance, the resulting model may exhibit a rough surface and distorted structure, making manual editing and post-processing challenging for humans. In this paper, we introduce a novel 3D reconstruction method designed to address these issues. We trained a visual transformer to predict a "scene descriptor" from a single wire-frame image. This descriptor encompasses crucial information, including object types and parameters such as position, rotation, and size. With the predicted parameters, a 3D scene can be reconstructed using 3D modeling software like Blender or Rhino Grasshopper which provides a programmable interface, resulting in finely and easily editable 3D models. To evaluate the proposed model, we created two datasets: one featuring simple scenes and another with complex scenes. The test results demonstrate the model's ability to accurately reconstruct simple scenes but reveal its challenges with more complex ones.
翻訳日:2023-10-02 16:17:06 公開日:2023-09-28
# 移動非局所探索による時空注意

Space-Time Attention with Shifted Non-Local Search ( http://arxiv.org/abs/2309.16849v1 )

ライセンス: Link先を確認
Kent Gauen and Stanley Chan(参考訳) ビデオのアテンションマップの効率的な計算は、フレーム間の物体の動きによって困難である。 標準の非ローカル検索は、各クエリポイントを囲むウィンドウでは高品質であるが、ウィンドウの小さなサイズは動きを許容できない。 長距離動作の手法は、各クエリ位置からオフセットとして最もよく似たキー座標を予測する補助ネットワークを使用する。 しかし、大規模ネットワークにおいても、オフセットのフローフィールドを正確に予測することは困難である。 小さい空間的不正確さはアテンションモジュールの品質に大きく影響する。 本稿では,非局所探索の品質と予測オフセットの範囲を組み合わせた探索戦略を提案する。 この手法はShifted Non-Local Searchと呼ばれ、予測オフセットを囲む小さなグリッドサーチを実行し、小さな空間誤差を補正する。 本手法のインプレース計算では,メモリ消費が10倍少なく,従来よりも3倍以上高速である。 実験では, 空間誤差の補正により, 3dBPSNR以上の映像フレームアライメントの品質が向上する。 我々の検索では、既存の時空アテンションモジュールをアップグレードし、ビデオのデノベーション結果を0.30dBPSNRで改善し、全体の実行時間が7.5%増加した。 時空アテンションモジュールをUNetのようなアーキテクチャに統合し,映像デノーミングにおける最先端の成果を実現する。

Efficiently computing attention maps for videos is challenging due to the motion of objects between frames. While a standard non-local search is high-quality for a window surrounding each query point, the window's small size cannot accommodate motion. Methods for long-range motion use an auxiliary network to predict the most similar key coordinates as offsets from each query location. However, accurately predicting this flow field of offsets remains challenging, even for large-scale networks. Small spatial inaccuracies significantly impact the attention module's quality. This paper proposes a search strategy that combines the quality of a non-local search with the range of predicted offsets. The method, named Shifted Non-Local Search, executes a small grid search surrounding the predicted offsets to correct small spatial errors. Our method's in-place computation consumes 10 times less memory and is over 3 times faster than previous work. Experimentally, correcting the small spatial errors improves the video frame alignment quality by over 3 dB PSNR. Our search upgrades existing space-time attention modules, which improves video denoising results by 0.30 dB PSNR for a 7.5% increase in overall runtime. We integrate our space-time attention module into a UNet-like architecture to achieve state-of-the-art results on video denoising.
翻訳日:2023-10-02 16:16:48 公開日:2023-09-28
# ランダム特徴の一般化性能を改善する最適非線形性

Optimal Nonlinearities Improve Generalization Performance of Random Features ( http://arxiv.org/abs/2309.16846v1 )

ライセンス: Link先を確認
Samet Demir and Zafer Do\u{g}an(参考訳) 非線形活性化関数を持つランダム特徴モデルは、訓練および一般化誤差の観点からガウスモデルと漸近的に等価であることが示されている。 等価モデルの解析は、アクティベーション関数が果たす重要なが完全には理解されていない役割を明らかにする。 この問題に対処するため,同モデルのパラメータについて検討し,与えられた教師付き学習問題の一般化性能を向上させる。 ガウスモデルから取得したパラメータが最適非線形性の集合を定義できることを示す。 この集合から2階多項式と分割線形関数という2つの例クラスを提供する。 これらの関数は、実際の形式に関係なく、一般化性能を改善するために最適化される。 我々は、合成データや実データ(例えば、CIFAR10)を含む回帰と分類の問題を実験する。 最適化された非線形性はReLUのような広く使われている非線形関数よりも優れた一般化性能が得られることを示す。 さらに,提案する非線形性は,サンプルサイズとモデルサイズに関する非単調汎化性能として知られているいわゆる二重降下現象を緩和することを示した。

Random feature model with a nonlinear activation function has been shown to perform asymptotically equivalent to a Gaussian model in terms of training and generalization errors. Analysis of the equivalent model reveals an important yet not fully understood role played by the activation function. To address this issue, we study the "parameters" of the equivalent model to achieve improved generalization performance for a given supervised learning problem. We show that acquired parameters from the Gaussian model enable us to define a set of optimal nonlinearities. We provide two example classes from this set, e.g., second-order polynomial and piecewise linear functions. These functions are optimized to improve generalization performance regardless of the actual form. We experiment with regression and classification problems, including synthetic and real (e.g., CIFAR10) data. Our numerical results validate that the optimized nonlinearities achieve better generalization performance than widely-used nonlinear functions such as ReLU. Furthermore, we illustrate that the proposed nonlinearities also mitigate the so-called double descent phenomenon, which is known as the non-monotonic generalization performance regarding the sample size and the model size.
翻訳日:2023-10-02 16:16:24 公開日:2023-09-28
# DeBERTinha: ブラジルの自然言語処理タスクにDebertaV3 XSmallを適用するためのマルチステップアプローチ

DeBERTinha: A Multistep Approach to Adapt DebertaV3 XSmall for Brazilian Portuguese Natural Language Processing Task ( http://arxiv.org/abs/2309.16844v1 )

ライセンス: Link先を確認
Israel Campiotti, Matheus Rodrigues, Yuri Albuquerque, Rafael Azevedo, Alyson Andrade(参考訳) 本稿では,ブラジルのポルトガル語自然言語処理(NLP)タスクに対して,英語で事前学習したDebertaV3 XSmallモデルを適用するためのアプローチを提案する。 この方法論の重要な側面は、ポルトガル語でモデルを効果的に調整するためのマルチステップのトレーニングプロセスである。 CarolinaとBrWacの最初のデータセットは、絵文字、HTMLタグ、エンコーディングなどの問題に対処するために前処理される。 ポルトガル語固有の5万トークンの語彙は文節を用いて作成される。 スクラッチからトレーニングするのではなく、トレーニング済みの英語モデルの重みは、ネットワークのほとんどをランダムな埋め込みで初期化するために使用され、スクラッチからトレーニングのコストを認識できる。 モデルはDebertaV3トレーニングと同じフォーマットで、置換トークン検出タスクを使用して微調整される。 DeBERTinhaと呼ばれる適応型モデルは、名前付きエンティティ認識、感情分析、文関連性の決定といった下流タスクにおいて、40万のパラメータしか持たないにもかかわらず、BERTimbau-Largeを2つのタスクで上回る効果を示す。

This paper presents an approach for adapting the DebertaV3 XSmall model pre-trained in English for Brazilian Portuguese natural language processing (NLP) tasks. A key aspect of the methodology involves a multistep training process to ensure the model is effectively tuned for the Portuguese language. Initial datasets from Carolina and BrWac are preprocessed to address issues like emojis, HTML tags, and encodings. A Portuguese-specific vocabulary of 50,000 tokens is created using SentencePiece. Rather than training from scratch, the weights of the pre-trained English model are used to initialize most of the network, with random embeddings, recognizing the expensive cost of training from scratch. The model is fine-tuned using the replaced token detection task in the same format of DebertaV3 training. The adapted model, called DeBERTinha, demonstrates effectiveness on downstream tasks like named entity recognition, sentiment analysis, and determining sentence relatedness, outperforming BERTimbau-Large in two tasks despite having only 40M parameters.
翻訳日:2023-10-02 16:16:09 公開日:2023-09-28
# 高次元線形回帰における経験ベイズ推定に対する平均場解析

A Mean Field Approach to Empirical Bayes Estimation in High-dimensional Linear Regression ( http://arxiv.org/abs/2309.16843v1 )

ライセンス: Link先を確認
Sumit Mukherjee, Bodhisattva Sen, Subhabrata Sen(参考訳) 高次元線形回帰における経験的ベイズ推定について検討する。 基礎となる事前推定の計算効率を向上すべく,もともとcarbonetto and stephens (2012) と kim et al. (2022) で導入された変分経験ベイズ法を適用した。 非パラメトリック最大度推定器(npmle)とその(計算可能)ナイーブ平均場変動推定器の漸近的一貫性を設計および事前の軽度仮定下で確立する。 さらに, ナイーブ平均場近似が支配的オプティマイザを持つと仮定すると, オラクル後方分布に対する計算効率の高い近似を開発し, 1-wasserstein計量の下でその精度を確立する。 これにより計算可能なベイズ推定が可能となり、例えば、平均カバレッジ保証付き後信頼性区間の構築、回帰係数のベイズ最適推定、非null比率の推定などが可能になる。 分析は決定論的設計とランダム設計の両方をカバーし,特徴間の相関性を考慮した。 我々の知る限りでは、この手法は空間性のない高次元回帰設定において、初めて厳密で非パラメトリックな経験的ベイズ法を提供する。

We study empirical Bayes estimation in high-dimensional linear regression. To facilitate computationally efficient estimation of the underlying prior, we adopt a variational empirical Bayes approach, introduced originally in Carbonetto and Stephens (2012) and Kim et al. (2022). We establish asymptotic consistency of the nonparametric maximum likelihood estimator (NPMLE) and its (computable) naive mean field variational surrogate under mild assumptions on the design and the prior. Assuming, in addition, that the naive mean field approximation has a dominant optimizer, we develop a computationally efficient approximation to the oracle posterior distribution, and establish its accuracy under the 1-Wasserstein metric. This enables computationally feasible Bayesian inference; e.g., construction of posterior credible intervals with an average coverage guarantee, Bayes optimal estimation for the regression coefficients, estimation of the proportion of non-nulls, etc. Our analysis covers both deterministic and random designs, and accommodates correlations among the features. To the best of our knowledge, this provides the first rigorous nonparametric empirical Bayes method in a high-dimensional regression setting without sparsity.
翻訳日:2023-10-02 16:15:49 公開日:2023-09-28
# Pepper, Lightweight-Transformer, LLM を用いた手話認識システム

A Sign Language Recognition System with Pepper, Lightweight-Transformer, and LLM ( http://arxiv.org/abs/2309.16898v1 )

ライセンス: Link先を確認
JongYoon Lim, Inkyu Sa, Bruce MacDonald, and Ho Seok Ahn(参考訳) 本研究は,人型ロボットPepperがAmerican Sign Language(ASL)を理解し,非言語的人間-ロボット間相互作用を促進するために,軽量なディープニューラルネットワークアーキテクチャを用いて検討する。 まず、組み込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し、計算資源を保存しながら、迅速な手話認識を実現する。 これに基づいて,我々は,知的ロボットインタラクションに大規模言語モデル(LLM)を用いる。 複雑なプロンプトエンジニアリングを通じて、pepperロボットが自然な共同ジェスチャー応答を生成できるようにインタラクションを調整し、よりオーガニックで直感的なヒューマノイド-ロボット対話の基礎を築いた。 最後に、社会的に認識されたAIインタラクションモデルにおける進歩を具現化した統合ソフトウェアパイプラインを提案する。 Pepper Robotの能力を生かして、現実のシナリオにおける我々のアプローチの実践性と有効性を示す。 結果は、非言語インタラクションによる人間とロボットのインタラクションの強化、コミュニケーションギャップの橋渡し、テクノロジのアクセス性と理解性の向上という、大きな可能性を強調している。

This research explores using lightweight deep neural network architectures to enable the humanoid robot Pepper to understand American Sign Language (ASL) and facilitate non-verbal human-robot interaction. First, we introduce a lightweight and efficient model for ASL understanding optimized for embedded systems, ensuring rapid sign recognition while conserving computational resources. Building upon this, we employ large language models (LLMs) for intelligent robot interactions. Through intricate prompt engineering, we tailor interactions to allow the Pepper Robot to generate natural Co-Speech Gesture responses, laying the foundation for more organic and intuitive humanoid-robot dialogues. Finally, we present an integrated software pipeline, embodying advancements in a socially aware AI interaction model. Leveraging the Pepper Robot's capabilities, we demonstrate the practicality and effectiveness of our approach in real-world scenarios. The results highlight a profound potential for enhancing human-robot interaction through non-verbal interactions, bridging communication gaps, and making technology more accessible and understandable.
翻訳日:2023-10-02 16:07:00 公開日:2023-09-28
# 多変量時系列における異常検出アルゴリズム

Algorithmic Recourse for Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2309.16896v1 )

ライセンス: Link先を確認
Xiao Han, Lu Zhang, Yongkai Wu, Shuhan Yuan(参考訳) 多変量時系列における異常検出は、幅広い応用範囲から広範囲に研究されている。 多変量時系列における異常は通常、システム障害や外部攻撃のような重要な事象を示す。 したがって,異常検出に有効であることに加えて,異常緩和行動の推奨も検討中である。 本研究は, 時系列異常検出におけるアルゴリズム的リコースに着目し, ドメインの専門家が異常行動の修正方法を理解できるように, 最小限のコストで異常時系列の修正を推奨する。 そこで我々はRecADと呼ばれるアルゴリズムによるリコース・フレームワークを提案し、このフレームワークは異常な時間ステップを反転させるリコース・アクションを推奨できる。 2つの合成データセットと1つの実世界のデータセットの実験は、我々のフレームワークの有効性を示している。

Anomaly detection in multivariate time series has received extensive study due to the wide spectrum of applications. An anomaly in multivariate time series usually indicates a critical event, such as a system fault or an external attack. Therefore, besides being effective in anomaly detection, recommending anomaly mitigation actions is also important in practice yet under-investigated. In this work, we focus on algorithmic recourse in time series anomaly detection, which is to recommend fixing actions on abnormal time series with a minimum cost so that domain experts can understand how to fix the abnormal behavior. To this end, we propose an algorithmic recourse framework, called RecAD, which can recommend recourse actions to flip the abnormal time steps. Experiments on two synthetic and one real-world datasets show the effectiveness of our framework.
翻訳日:2023-10-02 16:06:39 公開日:2023-09-28
# 磁気誘導型シュリンガー猫状態:量子空間の影

Magnetically Induced Schr\"odinger Cat States: The Shadow of a Quantum Space ( http://arxiv.org/abs/2309.16895v1 )

ライセンス: Link先を確認
Partha Nandi, Nandita Debnath, Subhajit Kala, and A. S. Majumdar(参考訳) マクロ的に異なる状態の重ね合わせであるシュリンガー猫状態は、今後の量子情報技術にとって潜在的に重要な資源である。 本稿では, 二次元平面上に位置する非相対論的電気双極子系において, 平面に垂直な外部電位と一様強磁場とともに, 絡み合ったSchr\"odinger cat状態を生成する手法を提案する。 さらに, この構成は, モデルパラメータの特定範囲において, 崩壊現象や絡み合いの復活に繋がる可能性が示唆された。

Schr\"odinger cat states, which are superpositions of macroscopically distinct states, are potentially critical resources for upcoming quantum information technologies. In this paper, we introduce a scheme to generate entangled Schr\"odinger cat states in a non-relativistic electric dipole system situated on a two-dimensional plane, along with an external potential and a uniform strong magnetic field perpendicular to the plane. Additionally, our findings demonstrate that this setup can lead to the phenomenon of collapse and revival of entanglement for a specific range of our model parameters
翻訳日:2023-10-02 16:06:26 公開日:2023-09-28
# 超伝導ナノワイヤ検出器を用いた64画素中赤外単光子イメージング

A 64-pixel mid-infrared single-photon imager based on superconducting nanowire detectors ( http://arxiv.org/abs/2309.16890v1 )

ライセンス: Link先を確認
Benedikt Hampel, Richard P. Mirin, Sae Woo Nam, Varun B. Verma(参考訳) 非常に暗いカウント率の大きい大形の中赤外単光子撮像器は、天文学や化学などの分野で幅広い応用が可能となる。 超伝導ナノワイヤ単光子検出器(SNSPD)は、そのメリットの数値によって示される成熟した光子計数技術である。 しかし、中赤外アプリケーションのためにsnspdを大きな配列サイズにスケールするには、超伝導材料の開発に加えて高度な読み出しアーキテクチャが必要となる。 本研究では,熱結合型行列多重化アーキテクチャと熱結合型飛行時間伝送線路を組み合わせたsnspdアレイ設計を中赤外アプリケーション向けに開発した。 設計は6本のケーブルしか必要とせず、より大きな配列サイズに拡張できる。 64ピクセルアレイのデモンストレーションでは、$\mathrm{3.4\,\mu m}$ と $\mathrm{10\,\mu m}$ の波長の有望な結果が示され、この単一光子検出器技術を幅広い新しい用途に利用できるようになる。

A large-format mid-infrared single-photon imager with very low dark count rates would enable a broad range of applications in fields like astronomy and chemistry. Superconducting nanowire single-photon detectors (SNSPDs) are a mature photon-counting technology as demonstrated by their figures of merit. However, scaling SNSPDs to large array sizes for mid-infrared applications requires sophisticated readout architectures in addition to superconducting materials development. In this work, an SNSPD array design that combines a thermally coupled row-column multiplexing architecture with a thermally coupled time-of-flight transmission line was developed for mid-infrared applications. The design requires only six cables and can be scaled to larger array sizes. The demonstration of a 64-pixel array shows promising results for wavelengths between $\mathrm{3.4\,\mu m}$ and $\mathrm{10\,\mu m}$, which will enable the use of this single-photon detector technology for a broad range of new applications.
翻訳日:2023-10-02 16:06:15 公開日:2023-09-28
# 効率的なセマンティクスセグメンテーションのためのスーパーピクセルトランスフォーマ

Superpixel Transformers for Efficient Semantic Segmentation ( http://arxiv.org/abs/2309.16889v1 )

ライセンス: Link先を確認
Alex Zihao Zhu, Jieru Mei, Siyuan Qiao, Hang Yan, Yukun Zhu, Liang-Chieh Chen, Henrik Kretzschmar(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、画像中のすべてのピクセルを分類することを目的としており、ロボット工学や自動運転にまたがる多くの応用において、機械認識の重要なタスクである。 このタスクの高次元のため、既存のアプローチの多くは畳み込みなどのローカル操作を使用してピクセル単位の機能を生成する。 しかし、これらの手法は通常、高密度画像上で操作する計算コストが高いため、グローバルコンテキスト情報を効果的に活用できない。 そこで本研究では,超ピクセル,画像のオーバーセグメンテーション,最新のトランスフォーマフレームワークを応用し,この問題に対する解決法を提案する。 特に,本モデルでは,画素空間を局所的クロスアテンションによって空間的に低次元のスーパーピクセル空間に分解することを学ぶ。 そして、スーパーピクセルにマルチヘッドセルフアテンションを適用し、グローバルコンテキストでスーパーピクセル機能を強化し、スーパーピクセル毎にクラス予測を直接生成します。 最後に、スーパーピクセルと画像画素の特徴の関連性を利用して、スーパーピクセルクラスの予測を直接画素空間に投影する。 超ピクセル空間における推論により,畳み込みに基づくデコーダ法に比べて計算効率が大幅に向上した。 しかし,本手法は,グローバルな自己認識機構によって生成されるリッチなスーパーピクセル特徴により,セマンティックセグメンテーションにおける最先端性能を実現する。 Cityscapes と ADE20K に関する実験では,モデルパラメータやレイテンシの面では優れておりながら,精度の面では我々の手法が最先端であることを示した。

Semantic segmentation, which aims to classify every pixel in an image, is a key task in machine perception, with many applications across robotics and autonomous driving. Due to the high dimensionality of this task, most existing approaches use local operations, such as convolutions, to generate per-pixel features. However, these methods are typically unable to effectively leverage global context information due to the high computational costs of operating on a dense image. In this work, we propose a solution to this issue by leveraging the idea of superpixels, an over-segmentation of the image, and applying them with a modern transformer framework. In particular, our model learns to decompose the pixel space into a spatially low dimensional superpixel space via a series of local cross-attentions. We then apply multi-head self-attention to the superpixels to enrich the superpixel features with global context and then directly produce a class prediction for each superpixel. Finally, we directly project the superpixel class predictions back into the pixel space using the associations between the superpixels and the image pixel features. Reasoning in the superpixel space allows our method to be substantially more computationally efficient compared to convolution-based decoder methods. Yet, our method achieves state-of-the-art performance in semantic segmentation due to the rich superpixel features generated by the global self-attention mechanism. Our experiments on Cityscapes and ADE20K demonstrate that our method matches the state of the art in terms of accuracy, while outperforming in terms of model parameters and latency.
翻訳日:2023-10-02 16:05:56 公開日:2023-09-28
# 多変量時系列変換器によるベンチャー・グロースキャピタル投資目標の抽出

Sourcing Investment Targets for Venture and Growth Capital Using Multivariate Time Series Transformer ( http://arxiv.org/abs/2309.16888v1 )

ライセンス: Link先を確認
Lele Cao, Gustaf Halvardsson, Andrew McCornack, Vilhelm von Ehrenheim and Pawel Herman(参考訳) 本稿では、PE(Private Equity)業界におけるデータ駆動アプローチの適用拡大、特にVC(Venture Capital)とGC(Growth Capital)の投資目標(企業)のソーシングについて論じる。 本稿では,関連するアプローチの包括的レビューを行い,トランスベース多変量時系列分類器(tmtsc)を用いて,候補企業の成功可能性を予測する新しい手法を提案する。 本研究の目的は、多変量時系列分類タスクとしてソーシング問題を正式に定義することにより、VCおよびGC投資のソーシング性能を最適化することである。 本稿では,VC/GC ソーシングにおける TMTSC の適用に一括して貢献する実装の重要コンポーネントについて紹介する:入力機能,モデルアーキテクチャ,最適化ターゲット,投資家中心のデータ拡張と分割。 3つの一般的なベースラインに向けてベンチマークした4つのデータセットに関する大規模な実験は、VCとGC業界における意思決定の改善における我々のアプローチの有効性を実証しています。

This paper addresses the growing application of data-driven approaches within the Private Equity (PE) industry, particularly in sourcing investment targets (i.e., companies) for Venture Capital (VC) and Growth Capital (GC). We present a comprehensive review of the relevant approaches and propose a novel approach leveraging a Transformer-based Multivariate Time Series Classifier (TMTSC) for predicting the success likelihood of any candidate company. The objective of our research is to optimize sourcing performance for VC and GC investments by formally defining the sourcing problem as a multivariate time series classification task. We consecutively introduce the key components of our implementation which collectively contribute to the successful application of TMTSC in VC/GC sourcing: input features, model architecture, optimization target, and investor-centric data augmentation and split. Our extensive experiments on four datasets, benchmarked towards three popular baselines, demonstrate the effectiveness of our approach in improving decision making within the VC and GC industry.
翻訳日:2023-10-02 16:05:30 公開日:2023-09-28
# 2体クーロン問題と隠れ$g^{(2)}$代数:超可積分性と立方多項式代数

Two-body Coulomb problem and hidden $g^{(2)}$ algebra: superintegrability and cubic polynomial algebra ( http://arxiv.org/abs/2309.16886v1 )

ライセンス: Link先を確認
Alexander V. Turbiner and Adrian M. Escobar-Ruiz(参考訳) Sturm表現における2体クーロン問題により、曲線空間における新しい2次元、正確に解ける超可積分量子系が、$g^{(2)}$隠れ代数学と積分の立方多項式代数によって導かれることが示されている。 2つの積分は次数 2 と 4 であり、それぞれ角運動量と修正されたラプラス・ランゲ・レンツベクトルの2つの成分から成っている。 立方体多項式代数は普遍包絡代数 $U_{g^{(2)}}$ の無限次元部分代数であることが示されている。

It is shown that the two-body Coulomb problem in the Sturm representation leads to a new two-dimensional, exactly-solvable, superintegrable quantum system in curved space with a $g^{(2)}$ hidden algebra and a cubic polynomial algebra of integrals. The two integrals are of orders two and four, they are made from two components of the angular momentum and from the modified Laplace-Runge-Lenz vector, respectively. It is demonstrated that the cubic polynomial algebra is an infinite-dimensional subalgebra of the universal enveloping algebra $U_{g^{(2)}}$.
翻訳日:2023-10-02 16:05:12 公開日:2023-09-28
# 拡張ランダム化平滑化に対するリプシッツ分散マージントレードオフ

The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing ( http://arxiv.org/abs/2309.16883v1 )

ライセンス: Link先を確認
Blaise Delattre, Alexandre Araujo, Quentin Barth\'elemy and Alexandre Allauzen(参考訳) ディープニューラルネットワークの実際の応用は、ノイズの入力や敵対的な攻撃に直面すると不安定な予測によって妨げられる。 この文脈では、認定半径はモデルの堅牢性の重要な指標である。 しかし、十分な認定半径を持つ効率的な分類器を設計するにはどうすればよいか? ランダム化スムーシングは、スムーズで堅牢な分類器を得るために入力中のノイズ注入に頼ることで、有望なフレームワークを提供する。 本稿では, ランダム化スムージングによって生じる分散が, 分類器の他の2つの重要な性質,すなわちリプシッツ定数とマージンと密接な相互作用を示す。 より正確には、我々の研究は、滑らかな分類器と経験的分散の両方に対する基底分類器のリプシッツ定数の二重影響を強調している。 さらに,認証されたロバスト半径を増加させるために,バーンスタインの濃度不等式とリプシッツ境界の強化による分散マージントレードオフを活用するための,ベース分類器の異なる単純射影法を導入する。 実験の結果,現在の手法と比較して精度が有意に向上した。 新たな認証手順により,ランダム化平滑化に使用する事前学習モデルの使用が可能となり,ゼロショット方式で現在の認証半径を効果的に改善できる。

Real-life applications of deep neural networks are hindered by their unsteady predictions when faced with noisy inputs and adversarial attacks. The certified radius is in this context a crucial indicator of the robustness of models. However how to design an efficient classifier with a sufficient certified radius? Randomized smoothing provides a promising framework by relying on noise injection in inputs to obtain a smoothed and more robust classifier. In this paper, we first show that the variance introduced by randomized smoothing closely interacts with two other important properties of the classifier, i.e. its Lipschitz constant and margin. More precisely, our work emphasizes the dual impact of the Lipschitz constant of the base classifier, on both the smoothed classifier and the empirical variance. Moreover, to increase the certified robust radius, we introduce a different simplex projection technique for the base classifier to leverage the variance-margin trade-off thanks to Bernstein's concentration inequality, along with an enhanced Lipschitz bound. Experimental results show a significant improvement in certified accuracy compared to current state-of-the-art methods. Our novel certification procedure allows us to use pre-trained models that are used with randomized smoothing, effectively improving the current certification radius in a zero-shot manner.
翻訳日:2023-10-02 16:04:58 公開日:2023-09-28
# 時間によるメッセージ伝搬:時系列モデリングにおけるシーケンス依存保持アルゴリズム

Message Propagation Through Time: An Algorithm for Sequence Dependency Retention in Time Series Modeling ( http://arxiv.org/abs/2309.16882v1 )

ライセンス: Link先を確認
Shaoming Xu, Ankush Khandelwal, Arvind Renganathan, Vipin Kumar(参考訳) 科学における重要な領域である時系列モデリングは、独立かつ同一分散(iid)サンプルを仮定し、隠れた状態を持つrnnを初期化する従来のミニバッチトレーニング戦略を使用して、recurrent neural networks(rnn)のような機械学習(ml)モデルをトレーニングする場合、しばしば課題に直面する。 iidの仮定はサンプル間の時間依存を無視し、結果としてパフォーマンスが低下する。 本稿では,メッセージ伝達時間(mptt)アルゴリズムを提案する。ステートフルな解に対する高速なトレーニング時間を保ちながら,時間的依存性を効果的に組み込む。 MPTTは2つのメモリモジュールを使用して、RNNの初期隠れ状態を非同期に管理し、サンプル間のシームレスな情報交換を促進し、エポックを通じて多様なミニバッチを可能にする。 さらにMPTTは、古い情報をフィルタリングし、隠れた状態に重要な情報を保存し、RNNに情報的な初期隠れ状態を生成するための3つのポリシーを実装している。 実験の結果,MPTTは時間依存性の異なる4つの気候データセットにおいて7つの戦略より優れていた。

Time series modeling, a crucial area in science, often encounters challenges when training Machine Learning (ML) models like Recurrent Neural Networks (RNNs) using the conventional mini-batch training strategy that assumes independent and identically distributed (IID) samples and initializes RNNs with zero hidden states. The IID assumption ignores temporal dependencies among samples, resulting in poor performance. This paper proposes the Message Propagation Through Time (MPTT) algorithm to effectively incorporate long temporal dependencies while preserving faster training times relative to the stateful solutions. MPTT utilizes two memory modules to asynchronously manage initial hidden states for RNNs, fostering seamless information exchange between samples and allowing diverse mini-batches throughout epochs. MPTT further implements three policies to filter outdated and preserve essential information in the hidden states to generate informative initial hidden states for RNNs, facilitating robust training. Experimental results demonstrate that MPTT outperforms seven strategies on four climate datasets with varying levels of temporal dependencies.
翻訳日:2023-10-02 16:04:35 公開日:2023-09-28
# 対人摂動に隠れた人物識別機能の検討

Investigating Human-Identifiable Features Hidden in Adversarial Perturbations ( http://arxiv.org/abs/2309.16878v1 )

ライセンス: Link先を確認
Dennis Y. Menn, Tzu-hsun Feng, Sriram Vishwanath, Hung-yi Lee(参考訳) ニューラルネットワークは、さまざまな機械学習タスクで非常によく機能するが、逆の摂動に影響を受けない。 この脆弱性は現実世界のアプリケーションに影響を及ぼす。 多くの研究が行われてきたが、ニューラルネットワークが敵の攻撃に苦しむ理由は、まだ完全には理解されていない。 3つのデータセットにまたがる最大5つの攻撃アルゴリズムを探索する我々の研究の中心は、敵の摂動における人間の識別可能な特徴の同定です。 さらに,人間の識別可能な特徴に現れる2つの異なる効果を明らかにする。 特に、マスク効果は標的外攻撃では顕著であり、生成効果は標的攻撃ではより一般的である。 画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルを妥協する能力を示す。 さらに,複数のモデルで平均化した場合,異なる攻撃アルゴリズム間の摂動の顕著な類似性を示した。 この研究は、伝達可能性やモデル解釈可能性など、敵の摂動に関連する現象に関する洞察も提供する。 本研究は,敵の攻撃の背後にあるメカニズムを深く理解し,ニューラルネットワークに対するより弾力性のある防御戦略の開発に向けた洞察を提供する。

Neural networks perform exceedingly well across various machine learning tasks but are not immune to adversarial perturbations. This vulnerability has implications for real-world applications. While much research has been conducted, the underlying reasons why neural networks fall prey to adversarial attacks are not yet fully understood. Central to our study, which explores up to five attack algorithms across three datasets, is the identification of human-identifiable features in adversarial perturbations. Additionally, we uncover two distinct effects manifesting within human-identifiable features. Specifically, the masking effect is prominent in untargeted attacks, while the generation effect is more common in targeted attacks. Using pixel-level annotations, we extract such features and demonstrate their ability to compromise target models. In addition, our findings indicate a notable extent of similarity in perturbations across different attack algorithms when averaged over multiple models. This work also provides insights into phenomena associated with adversarial perturbations, such as transferability and model interpretability. Our study contributes to a deeper understanding of the underlying mechanisms behind adversarial attacks and offers insights for the development of more resilient defense strategies for neural networks.
翻訳日:2023-10-02 16:04:12 公開日:2023-09-28
# プラグアンドプレイ演算子の収縮性について

On the Contractivity of Plug-and-Play Operators ( http://arxiv.org/abs/2309.16899v1 )

ライセンス: Link先を確認
Chirayu D. Athalye, Kunal N. Chaudhury, and Bhartendu Kumar(参考訳) プラグ・アンド・プレイ(PnP)正則化では、ISTAやADMMといったアルゴリズムの近似演算子を強力なデノイザに置き換える。 この形式的な置換は実際驚くほどうまく機能する。 実際、PnPは様々なイメージング応用に最先端の結果をもたらすことが示されている。 pnpの実証的な成功は、研究者がその理論的基盤、特に収束を理解する動機となった。 先行研究において、非局所的な手段のようなカーネルのノイズに対して、pnp-istaは前方モデル上のいくつかの強い仮定の下で確実に収束することを示した。 フォワードモデルにおける仮定を緩和できるか? 収束解析はPnP-ADMMに拡張できるのか? 収束率を推定できますか? 本文では, 縮尺写像定理を用いてこれらの問題を解く。 i) 対称雑音に対するPnP-ISTAとPnP-ADMMが線形収束を示すことを示す。 (II) カーネルデノイザでは, PnP-ISTA と PnP-ADMM がイメージインペイントに対して直線的に収束することを示す。 再建実験を用いて理論的知見を検証した。

In plug-and-play (PnP) regularization, the proximal operator in algorithms such as ISTA and ADMM is replaced by a powerful denoiser. This formal substitution works surprisingly well in practice. In fact, PnP has been shown to give state-of-the-art results for various imaging applications. The empirical success of PnP has motivated researchers to understand its theoretical underpinnings and, in particular, its convergence. It was shown in prior work that for kernel denoisers such as the nonlocal means, PnP-ISTA provably converges under some strong assumptions on the forward model. The present work is motivated by the following questions: Can we relax the assumptions on the forward model? Can the convergence analysis be extended to PnP-ADMM? Can we estimate the convergence rate? In this letter, we resolve these questions using the contraction mapping theorem: (i) for symmetric denoisers, we show that (under mild conditions) PnP-ISTA and PnP-ADMM exhibit linear convergence; and (ii) for kernel denoisers, we show that PnP-ISTA and PnP-ADMM converge linearly for image inpainting. We validate our theoretical findings using reconstruction experiments.
翻訳日:2023-10-02 15:55:26 公開日:2023-09-28
# 3D-Mol:3次元情報を用いた分子特性予測のための新しいコントラスト学習フレームワーク

3D-Mol: A Novel Contrastive Learning Framework for Molecular Property Prediction with 3D Information ( http://arxiv.org/abs/2309.17366v1 )

ライセンス: Link先を確認
Taojie Kuang, Yiming Ren, Zhixiang Ren(参考訳) 分子特性予測は、薬物候補の早期スクリーニングと最適化に効果的かつ効率的なアプローチを提供する。 深層学習に基づく手法は目覚ましい進歩を遂げているが、既存の作品の多くはまだ3次元空間情報を十分に活用していない。 これは複数の実際の分子を表す単一の分子表現につながる。 そこで本研究では,3次元構造に基づく分子モデリング手法を提案する。 完全空間構造を正確に表現するために,分子を3つの幾何学グラフに分解して3次元特徴を抽出する新しいエンコーダを設計する。 さらに,20mのラベルなしデータを用いて,コントラスト学習によるモデルの事前学習を行う。 我々は、同じ位相構造と正の対、反対の対を負の対とみなす一方で、重みは共形間の相似性によって決定される。 7つのベンチマークで3D-Molを様々な最先端(SOTA)ベースラインと比較し、5つのベンチマークで優れたパフォーマンスを示す。

Molecular property prediction offers an effective and efficient approach for early screening and optimization of drug candidates. Although deep learning based methods have made notable progress, most existing works still do not fully utilize 3D spatial information. This can lead to a single molecular representation representing multiple actual molecules. To address these issues, we propose a novel 3D structure-based molecular modeling method named 3D-Mol. In order to accurately represent complete spatial structure, we design a novel encoder to extract 3D features by deconstructing the molecules into three geometric graphs. In addition, we use 20M unlabeled data to pretrain our model by contrastive learning. We consider conformations with the same topological structure as positive pairs and the opposites as negative pairs, while the weight is determined by the dissimilarity between the conformations. We compare 3D-Mol with various state-of-the-art (SOTA) baselines on 7 benchmarks and demonstrate our outstanding performance in 5 benchmarks.
翻訳日:2023-10-02 12:41:53 公開日:2023-09-28
# MBRとQEファインタニング:最良かつ最も高価な復号法の訓練時間蒸留

MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods ( http://arxiv.org/abs/2309.10966v4 )

ライセンス: Link先を確認
Mara Finkelstein and Markus Freitag(参考訳) 自然言語生成(nlg)タスクのデコード手法に関する最近の研究は、モデル確率が必ずしも人間の好みと一致するとは限らないため、マップデコードが最適ではないことを示した。 QE(Quality Estimation)やMBR(Minimum Bayes' Risk)といったより強力な復号法が提案され、モデルパープレキシティとvs品質のミスマッチが軽減された。 これらの復号法は最先端の性能を実現するが、計算コストは極めて高い。 本研究では,これらの復号法から得られた品質向上を,推定時に効率的な復号アルゴリズムを用いて蒸留するmbr微調整とqe微調整を提案する。 ニューラルネットワーク翻訳(nmt)の標準的nlgタスクを用いて,自己学習においても,これらの微調整手法がベースモデルを大幅に上回っていることを示す。 さらに、外部LLMを教師モデルとして使用する場合、これらの微調整法は人為的な参照に基づいて微調整を行う。 これらの知見は, 復号時の最大効率を維持しつつ, 人間が収集したデータと同等かそれ以上か, モデル品質の改善を達成するために, 単言語データを活用する新しい方法を提案する。

Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that MAP decoding is not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes' Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
翻訳日:2023-10-02 10:25:27 公開日:2023-09-28
# 損失の急落:MLMにおける構文獲得、相転移、単純性バイアス

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs ( http://arxiv.org/abs/2309.07311v3 )

ライセンス: Link先を確認
Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra(参考訳) NLPにおけるほとんどの解釈可能性の研究は、完全に訓練されたモデルの振る舞いと特徴を理解することに焦点を当てている。 しかし、モデル行動に関する特定の洞察は、トレーニングプロセスの軌跡を観察することによってのみアクセス可能である。 本稿では,学習を通して解釈可能なアーティファクトの進化を分析することによって,創発的行動の理解を深める方法を示す,マスキング言語モデル(MLM)の構文習得事例について述べる。 特に,特定のトランスフォーマーヘッドが特定の構文関係に注目しやすいmlmsの自然発生的性質である構文的注意構造(sas)について検討した。 モデルが突然SASを取得し,損失が急激に減少する場合には,事前訓練において短時間の窓を識別する。 この突破口はその後の言語能力の獲得に拍車をかけた。 次に, SAS を訓練中に操作することで SAS の因果的役割を解明し, 文法能力の発達に SAS が不可欠であることを示す。 さらに、SASはトレーニング中に他の有益な特性と競合し、SASを一時的に抑制することでモデル品質が向上することがわかった。 これらの発見は、単純さバイアスとブレークスルートレーニングダイナミクスの両方の実例の解釈を提供する。

Most interpretability research in NLP focuses on understanding the behavior and features of a fully trained model. However, certain insights into model behavior may only be accessible by observing the trajectory of the training process. We present a case study of syntax acquisition in masked language models (MLMs) that demonstrates how analyzing the evolution of interpretable artifacts throughout training deepens our understanding of emergent behavior. In particular, we study Syntactic Attention Structure (SAS), a naturally emerging property of MLMs wherein specific Transformer heads tend to focus on specific syntactic relations. We identify a brief window in pretraining when models abruptly acquire SAS, concurrent with a steep drop in loss. This breakthrough precipitates the subsequent acquisition of linguistic capabilities. We then examine the causal role of SAS by manipulating SAS during training, and demonstrate that SAS is necessary for the development of grammatical capabilities. We further find that SAS competes with other beneficial traits during training, and that briefly suppressing SAS improves model quality. These findings offer an interpretation of a real-world example of both simplicity bias and breakthrough training dynamics.
翻訳日:2023-10-02 10:25:04 公開日:2023-09-28
# パッチレベル近傍補間:一般的なグラフベース正規化戦略

Patch-level Neighborhood Interpolation: A General and Effective Graph-based Regularization Strategy ( http://arxiv.org/abs/1911.09307v2 )

ライセンス: Link先を確認
Ke Sun, Bing Yu, Zhouchen Lin, Zhanxing Zhu(参考訳) 正規化は機械学習モデル、特にディープニューラルネットワークにおいて重要な役割を果たす。 既存の正規化技術は主にi.d.仮定に依存しており、サンプル間の隣り合う関係を活用することなく、現在のサンプルからの知識のみを考慮する。 本研究では,ネットワークの計算において非局所表現を行う一般正規化子 \textbf{patch-level neighborhood interpolation~(pani)}を提案する。 提案手法は,パッチレベルのグラフを異なるレイヤに明示的に構築し,近傍パッチの特徴を線形補間し,汎用的かつ効果的な正規化戦略として機能する。 さらに、我々のアプローチを、VAT(Virtual Adversarial Training)とMixUp(MixUp)という2種類の一般的な正規化手法にカスタマイズする。 最初に導出された \textbf{Pani VAT} はパッチレベルの補間摂動を用いて非局所対向滑らか性を構築する新しい方法を示す。 2番目の派生した \textbf{Pani MixUp} 法は MixUp を拡張し、MixUp よりも優れ、MixUp の最先端の変種よりも競争性能が優れ、計算効率に大きな利点がある。 広範囲にわたる実験により,paniアプローチの有効性が確認できた。

Regularization plays a crucial role in machine learning models, especially for deep neural networks. The existing regularization techniques mainly rely on the i.i.d. assumption and only consider the knowledge from the current sample, without the leverage of the neighboring relationship between samples. In this work, we propose a general regularizer called \textbf{Patch-level Neighborhood Interpolation~(Pani)} that conducts a non-local representation in the computation of networks. Our proposal explicitly constructs patch-level graphs in different layers and then linearly interpolates neighborhood patch features, serving as a general and effective regularization strategy. Further, we customize our approach into two kinds of popular regularization methods, namely Virtual Adversarial Training (VAT) and MixUp as well as its variants. The first derived \textbf{Pani VAT} presents a novel way to construct non-local adversarial smoothness by employing patch-level interpolated perturbations. The second derived \textbf{Pani MixUp} method extends the MixUp, and achieves superiority over MixUp and competitive performance over state-of-the-art variants of MixUp method with a significant advantage in computational efficiency. Extensive experiments have verified the effectiveness of our Pani approach in both supervised and semi-supervised settings.
翻訳日:2023-09-29 23:33:33 公開日:2023-09-28
# 森林決定による解釈可能な特徴カーネルの学習

Learning Interpretable Characteristic Kernels via Decision Forests ( http://arxiv.org/abs/1812.00029v3 )

ライセンス: Link先を確認
Sambit Panda and Cencheng Shen and Joshua T. Vogelstein(参考訳) 決定林は分類や回帰作業に広く利用されている。 木に基づく手法のより少ない性質は、木(s) から近接行列を構築することができ、これらの近接行列は誘導されたカーネルである。 カーネルの応用や特性に関する広範な研究があるが、決定的森林によって引き起こされるカーネルに関する研究は比較的少ない。 KMERF(Kernel Mean Embedding Random Forests)を構築し,葉ノード近傍からランダムな木や森林からカーネルを誘導する。 我々は漸近的特性を持つカーネルの概念を導入し、kmerfカーネルが離散データと連続データの両方に対して漸近的特性であることを証明する。 KMERFはデータ適応性が高いため、有限サンプルデータから選択したプリオリを上回りかねない。 KMERFは、多種多様な高次元の2サンプルおよび独立性テスト設定において、現在最先端のカーネルベースのテストを支配している。 さらに、森林ベースのアプローチは解釈可能であり、他の高次元非パラメトリックテスト手順とは異なり、重要な次元を容易に区別する特徴的重要度メトリクスを提供する。 したがって,本研究は,従来からある2つの手法間のトレードオフの知恵に直面しながら,既存の手法よりも決定的なフォレストベースのカーネルが強力かつ解釈可能であることを示す。

Decision forests are widely used for classification and regression tasks. A lesser known property of tree-based methods is that one can construct a proximity matrix from the tree(s), and these proximity matrices are induced kernels. While there has been extensive research on the applications and properties of kernels, there is relatively little research on kernels induced by decision forests. We construct Kernel Mean Embedding Random Forests (KMERF), which induce kernels from random trees and/or forests using leaf-node proximity. We introduce the notion of an asymptotically characteristic kernel, and prove that KMERF kernels are asymptotically characteristic for both discrete and continuous data. Because KMERF is data-adaptive, we suspected it would outperform kernels selected a priori on finite sample data. We illustrate that KMERF nearly dominates current state-of-the-art kernel-based tests across a diverse range of high-dimensional two-sample and independence testing settings. Furthermore, our forest-based approach is interpretable, and provides feature importance metrics that readily distinguish important dimensions, unlike other high-dimensional non-parametric testing procedures. Hence, this work demonstrates the decision forest-based kernel can be more powerful and more interpretable than existing methods, flying in the face of conventional wisdom of the trade-off between the two.
翻訳日:2023-09-29 23:33:04 公開日:2023-09-28
# パウリ計算を用いた量子回路のコンパイルとハイブリッド計算

Quantum circuit compilation and hybrid computation using Pauli-based computation ( http://arxiv.org/abs/2203.01789v2 )

ライセンス: Link先を確認
Filipa C. R. Peres and Ernesto F. Galv\~ao(参考訳) パウリベースの計算(PBC)は、パウリ可観測物の適応的に選択された非破壊的な測定シーケンスによって駆動される。 clifford+$t$ゲートセットで書かれ、$t$$$$t$ゲートを持つ量子回路は、$t$ qubitsでpbcにコンパイルできる。 本稿では、適応量子回路としてpbcを実装し、必要な古典的副処理を行うためのコードを提供する実践的な方法を提案する。 我々のスキームは量子ゲートの数を$O(t^2)$(以前の$O(t^3 / \log t)$スケーリングから)に減らし、空間/時間トレードオフが議論され、我々のスキーム内の深さが$O(t \log t)$から$O(t)$に減少する。 ランダムおよび隠れシフト量子回路の例を適応PBC回路にコンパイルする。 また、従来のコンピュータは、量子量子コンピュータの動作メモリを$k$仮想量子ビットで効果的に拡張し、コスト指数$k$で計算するハイブリッド量子計算をシミュレートする。 回路コンパイルとハイブリッド計算におけるPBC手法の実用的利点を実証した。

Pauli-based computation (PBC) is driven by a sequence of adaptively chosen, non-destructive measurements of Pauli observables. Any quantum circuit written in terms of the Clifford+$T$ gate set and having $t$ $T$ gates can be compiled into a PBC on $t$ qubits. Here we propose practical ways of implementing PBC as adaptive quantum circuits and provide code to do the required classical side-processing. Our schemes reduce the number of quantum gates to $O(t^2)$ (from a previous $O(t^3 / \log t)$ scaling) and space/time trade-offs are discussed which lead to a reduction of the depth from $O(t \log t)$ to $O(t)$ within our schemes, at the cost of $t$ additional auxiliary qubits. We compile examples of random and hidden-shift quantum circuits into adaptive PBC circuits. We also simulate hybrid quantum computation, where a classical computer effectively extends the working memory of a small quantum computer by $k$ virtual qubits, at a cost exponential in $k$. Our results demonstrate the practical advantage of PBC techniques for circuit compilation and hybrid computation.
翻訳日:2023-09-29 23:27:58 公開日:2023-09-28
# パラメタナイズド定数深部量子ニューロン

Parametrized constant-depth quantum neuron ( http://arxiv.org/abs/2202.12496v3 )

ライセンス: Link先を確認
Jonathan H. A. de Carvalho, Fernando M. de Paula Neto(参考訳) 量子コンピューティングはアルゴリズムの開発に革命をもたらした。 しかし、ノイズの多い中間スケール量子デバイスのみが現在利用可能であり、量子アルゴリズムの回路実装にいくつかの制限が課されている。 本稿では,量子ニューロンが機能空間マッピングによって互いに異なるカーネルマシンに基づく量子ニューロンを構築する枠組みを提案する。 従来のスキームを熟考するだけでなく、量子ニューロンを他の特徴マッピングでインスタンス化することができる。 ここでは、テンソル-積特徴写像を指数関数的に大きい空間に適用するニューロンを示す。 提案したニューロンは、基本量子ビットゲートの線形数を持つ一定深さの回路によって実装される。 既存のニューロンは、複数の量子ビットゲートを使用しても指数関数的に高価な回路実装と位相ベースの特徴マッピングを適用する。 さらに、提案したニューロンは活性化関数の形状を変えるパラメータを持つ。 ここでは、各量子ニューロンの活性化関数形状を示す。 パラメトリゼーションにより、提案されたニューロンは既存のニューロンが適合できないパターンを最適に適合させることができることが判明した。 これらの量子ニューロン解の実現性は、量子シミュレータ上での実行による実証でも考えられている。 最後に,従来の活性化関数を実装した量子ニューロンの性能を対比して,手書き文字認識問題におけるカーネルベースの量子ニューロンの比較を行った。 実生活問題で達成されたパラメトリゼーションポテンシャルの繰り返しの証拠は、この研究が識別能力を向上させる量子ニューロンをもたらすことを結論付ける。 その結果、量子ニューロンの一般化された枠組みは、実用的な量子優位に寄与することができる。

Quantum computing has been revolutionizing the development of algorithms. However, only noisy intermediate-scale quantum devices are available currently, which imposes several restrictions on the circuit implementation of quantum algorithms. In this paper, we propose a framework that builds quantum neurons based on kernel machines, where the quantum neurons differ from each other by their feature space mappings. Besides contemplating previous schemes, our generalized framework can instantiate quantum neurons with other feature mappings. We present here a neuron that applies a tensor-product feature mapping to an exponentially larger space. The proposed neuron is implemented by a circuit of constant depth with a linear number of elementary single-qubit gates. The existing neuron applies a phase-based feature mapping with an exponentially expensive circuit implementation, even using multi-qubit gates. Additionally, the proposed neuron has parameters that can change its activation function shape. Here, we show the activation function shape of each quantum neuron. It turns out that parametrization allows the proposed neuron to optimally fit underlying patterns that the existing neuron cannot fit, as demonstrated in the toy problems addressed here. The feasibility of those quantum neuron solutions is also contemplated in the demonstration through executions on a quantum simulator. Finally, we compare those kernel-based quantum neurons in the problem of handwritten digit recognition, where the performances of quantum neurons that implement classical activation functions are also contrasted here. The repeated evidence of the parametrization potential achieved in real-life problems allows concluding that this work provides a quantum neuron with improved discriminative abilities. As a consequence, the generalized framework of quantum neurons can contribute toward practical quantum advantage.
翻訳日:2023-09-29 23:27:13 公開日:2023-09-28
# パラメータ化・過パラメータ化レジームにおけるデータ増大

Data Augmentation in the Underparameterized and Overparameterized Regimes ( http://arxiv.org/abs/2202.09134v3 )

ライセンス: Link先を確認
Kevin Han Huang, Peter Orbanz, Morgane Austern(参考訳) データの増大が推定値の分散や分布の制限にどのように影響するかを正確に定量化し、いくつかの特定のモデルを詳細に分析する。 結果は、機械学習の実践において行われたいくつかの観察を裏付けるが、予期せぬ発見をもたらす。 データ拡張は、経験的予測リスクのような見積もりの不確実性を減少させるよりも、増大する可能性がある。 正則化器として作用するが、ある種の高次元問題では失敗し、経験的リスクの二重発光ピークをシフトさせることがある。 全体として、分析の結果、いくつかのプロパティデータ拡張は真か偽かのどちらかではなく、データ分布、推定器の特性、サンプルサイズ、拡張数、次元の相互作用といった要素の組み合わせに依存していることがわかった。 我々の理論ツールは、ランダム変換された高次元ランダムベクトルの関数に対する極限定理である。 この証明は、多くの変数の関数の雑音安定性の確率で研究されている。

We provide results that exactly quantify how data augmentation affects the variance and limiting distribution of estimates, and analyze several specific models in detail. The results confirm some observations made in machine learning practice, but also lead to unexpected findings: Data augmentation may increase rather than decrease the uncertainty of estimates, such as the empirical prediction risk. It can act as a regularizer, but fails to do so in certain high-dimensional problems, and it may shift the double-descent peak of an empirical risk. Overall, the analysis shows that several properties data augmentation has been attributed with are not either true or false, but rather depend on a combination of factors -- notably the data distribution, the properties of the estimator, and the interplay of sample size, number of augmentations, and dimension. Our main theoretical tool is a limit theorem for functions of randomly transformed, high-dimensional random vectors. The proof draws on work in probability on noise stability of functions of many variables.
翻訳日:2023-09-29 23:26:50 公開日:2023-09-28
# グループエージェント強化学習

Group-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.05135v4 )

ライセンス: Link先を確認
Kaiyue Wu, Xiao-Jun Zeng(参考訳) 複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行する場合、各エージェントの強化学習(RL)プロセスに大きく貢献する。 複数のエージェントが共通の環境にあり、互いに協力や競争を学ばなければならないマルチエージェント強化学習(marl)とは異なり、この場合、各エージェントは別々の環境を持ち、学習結果として協力的あるいは競争的な振る舞いを伴わずに知識を共有するために他人とのみコミュニケーションをとる。 実際、このシナリオは多くのアプリケーションで利用できるが、十分に理解されておらず、十分に定式化されていない実生活に広く存在している。 第1の取り組みとして,このシナリオの定式化と,単一エージェントおよびマルチエージェントシステムに対する第3タイプのRLシステムについて,グループエージェントシステムを提案する。 次に,グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。 DDALは非常に安定したトレーニングで望ましいパフォーマンスを実現し、優れたスケーラビリティを実現した実験を通して示す。

It can largely benefit the reinforcement learning (RL) process of each agent if multiple geographically distributed agents perform their separate RL tasks cooperatively. Different from multi-agent reinforcement learning (MARL) where multiple agents are in a common environment and should learn to cooperate or compete with each other, in this case each agent has its separate environment and only communicates with others to share knowledge without any cooperative or competitive behaviour as a learning outcome. In fact, this scenario exists widely in real life whose concept can be utilised in many applications, but is not well understood yet and not well formulated. As the first effort, we propose group-agent system for RL as a formulation of this scenario and the third type of RL system with respect to single-agent and multi-agent systems. We then propose a distributed RL framework called DDAL (Decentralised Distributed Asynchronous Learning) designed for group-agent reinforcement learning (GARL). We show through experiments that DDAL achieved desirable performance with very stable training and has good scalability.
翻訳日:2023-09-29 23:26:33 公開日:2023-09-28
# スムーズネステッドシミュレーション:高次元における立方体および正方形根収束率のブリッジング

Smooth Nested Simulation: Bridging Cubic and Square Root Convergence Rates in High Dimensions ( http://arxiv.org/abs/2201.02958v5 )

ライセンス: Link先を確認
Wenjia Wang and Yanyuan Wang and Xiaowei Zhang(参考訳) ネステッドシミュレーションは、条件付き期待関数をシミュレーションによって推定する。 本稿では,条件付き期待の滑らかさを多次元条件付き変数の関数として活用するために,カーネルリッジ回帰に基づく新しい手法を提案する。 漸近解析により,条件付き期待値が十分滑らかであれば,シミュレーション予算の増加に伴う収束率の次元性の呪いを効果的に緩和できることを示した。 滑らかさは、立方根収束率(つまり、標準ネストシミュレーションの最適速度)と平方根収束率(つまり標準モンテカルロシミュレーションの標準速度)の間のギャップを橋渡しする。 ポートフォリオリスク管理と入力不確実性定量化の数値例を用いて,提案手法の性能を示す。

Nested simulation concerns estimating functionals of a conditional expectation via simulation. In this paper, we propose a new method based on kernel ridge regression to exploit the smoothness of the conditional expectation as a function of the multidimensional conditioning variable. Asymptotic analysis shows that the proposed method can effectively alleviate the curse of dimensionality on the convergence rate as the simulation budget increases, provided that the conditional expectation is sufficiently smooth. The smoothness bridges the gap between the cubic root convergence rate (that is, the optimal rate for the standard nested simulation) and the square root convergence rate (that is, the canonical rate for the standard Monte Carlo simulation). We demonstrate the performance of the proposed method via numerical examples from portfolio risk management and input uncertainty quantification.
翻訳日:2023-09-29 23:26:15 公開日:2023-09-28
# BLESS法による2つの不均衡単一光子放射体に対するレイリーの呪いを破る

Breaking Rayleigh's curse for two unbalanced single-photon emitters using BLESS technique ( http://arxiv.org/abs/2112.13244v3 )

ライセンス: Link先を確認
Konstantin Katamadze, Boris Bantysh, Andrey Chernyavskiy, Yurii Bogdanov and Sergei Kulik(参考訳) レイリー基準によれば、点拡散関数(PSF)の幅以下の距離で分離された2つの独立点源を解くことは不可能である。 ほぼ20年前、psf幅よりも精度良く2点源間の距離を統計的に推定できることが示されている。 しかし,距離の減少に伴い推定誤差は増大する。 この効果は非公式にレイリーの呪いと名づけられた。 次に、PSFの整形により、距離以外の全ての情報源パラメータが先入観として知られている場合、呪いを破ることができることを示した。 本研究では,ターゲットビーム変調とショット統計検査(BLESS)に基づく新しいイメージング手法を提案する。 未知の遠心率と輝度比を持つ不均衡な点源であってもレイリーの呪いを破ることができることを示す。 さらに、推定精度は、量子クレーマー・ラオ境界によって与えられる基本極限に近いことを示す。

According to the Rayleigh criterion, it is impossible to resolve two independent point sources separated by a distance below the width of the point spread function (PSF). Almost twenty years ago it was shown that the distance between two point sources can be statistically estimated with an accuracy better than the PSF width. However, the estimation error increases with decreasing distance. This effect was informally named Rayleigh's curse. Next, it was demonstrated that PSF shaping allows breaking the curse provided that all other source parameters except for the distance are known a priori. In this work, we propose a novel imaging technique based on the target Beam moduLation and the Examination of Shot Statistics (BLESS). We show that it is capable of breaking Rayleigh's curse even for unbalanced point sources with unknown centroid and brightness ratio. Moreover, we show that the estimation precision is close to the fundamental limit provided by the quantum Cramer-Rao bound.
翻訳日:2023-09-29 23:26:01 公開日:2023-09-28
# アルゴリズム意思決定における動的選択

Dynamic Selection in Algorithmic Decision-making ( http://arxiv.org/abs/2108.12547v3 )

ライセンス: Link先を確認
Jin Li, Ye Luo, Xiaowei Zhang(参考訳) 本稿では,内因性データを用いたオンライン学習アルゴリズムにおける動的選択問題を特定し,対処する。 文脈的マルチアームバンディットモデルでは、データの内在性が決定の選択に影響を与え、収集・分析される将来のデータの分布に影響を与えるため、新しいバイアス(自己充足バイアス)が発生する。 バイアスを補正するインストゥルメンタル変数ベースのアルゴリズムを提案する。 真のパラメータ値を取得し、低い(対数的な)後悔レベルを得る。 統計推論のための中央極限定理も証明する。 理論的性質を確立するため,データと行動間の相互依存を解き放つ一般的な手法を開発した。

This paper identifies and addresses dynamic selection problems in online learning algorithms with endogenous data. In a contextual multi-armed bandit model, a novel bias (self-fulfilling bias) arises because the endogeneity of the data influences the choices of decisions, affecting the distribution of future data to be collected and analyzed. We propose an instrumental-variable-based algorithm to correct for the bias. It obtains true parameter values and attains low (logarithmic-like) regret levels. We also prove a central limit theorem for statistical inference. To establish the theoretical properties, we develop a general technique that untangles the interdependence between data and actions.
翻訳日:2023-09-29 23:25:09 公開日:2023-09-28
# 政府パフォーマンスの低さと政治的ツイート:米国でのCOVID-19危機の証拠

Low Government Performance and Uncivil Political Tweets: Evidence from the COVID-19 Crisis in the U.S ( http://arxiv.org/abs/2107.10041v6 )

ライセンス: Link先を確認
Kohei Nishi(参考訳) ソーシャルメディアを通じた政治表現は、すでに政治参加の一形態として根付いている。 一方、民主主義はソーシャルメディアプラットフォームで市民主義の流行に直面しているようだ。 この背景から、近年、政治コミュニケーション研究の分野において、オンラインの政治機関が関心を集めている。 しかし、ソーシャルメディア上での国民の非公的な政治的表現と政府のパフォーマンスがどのように結びついているのかは明らかではなく、非制度的な政治参加の新たな形態として、ソーシャルメディア表現によるパフォーマンス評価行動の存在が重要であると考えられる。 このギャップを埋めるために,本研究は,政府の業績が悪化すると,人々が不満を募り,ソーシャルメディアを通じて政府に悪質なメッセージを送付するという仮説を定めている。 この仮説を検証するために、本研究では、米国知事に向けられた800万以上のつぶやきを収集し、ニューラルネットワークベースの機械学習手法を用いて非文明的か否かを分類し、州知事に向けられた非文明的つぶやき数に対する州レベルのcovid-19症例の悪化の影響を調査した。 統計分析の結果、州レベルの新型コロナウイルス感染者の増加が州内知事に対する悪質なツイートの増加につながった。 本研究は,非制度化政治参加と民主政治における選挙の重要性という2つの観点から,その意義を考察する。

Political expression through social media has already taken root as a form of political participation. Meanwhile, democracy seems to be facing an epidemic of incivility on social media platforms. With this background, online political incivility has recently become a growing concern in the field of political communication studies. However, it is less clear how a government's performance is linked with people's uncivil political expression on social media; investigating the existence of performance evaluation behavior through social media expression seems to be important, as it is a new form of non-institutionalized political participation. To fill this gap in the literature, the present study hypothesizes that when government performance worsens, people become frustrated and send uncivil messages to the government via social media. To test this hypothesis, the present study collected over 8 million tweets directed at U.S. state governors and classified them as uncivil or not, using a neural network-based machine learning method, and examined the impact of worsening state-level COVID-19 cases on the number of uncivil tweets directed at state governors. The results of the statistical analyses showed that increasing state-level COVID-19 cases significantly led to a higher number of uncivil tweets against state governors. Thereafter, the present study discusses the implications of the findings from two perspectives: non-institutionalized political participation and the importance of elections in democracies.
翻訳日:2023-09-29 23:24:59 公開日:2023-09-28
# 顔認識システムにおけるjust noticeable difference modeling

Just Noticeable Difference Modeling for Face Recognition System ( http://arxiv.org/abs/2209.05856v2 )

ライセンス: Link先を確認
Yu Tian and Zhangkai Ni and Baoliang Chen and Shurun Wang and Shiqi Wang and Hanli Wang and Sam Kwong(参考訳) 高品質な顔画像は、監視およびセキュリティシナリオにおける自動顔認識(FR)システムの安定性と信頼性を保証するために要求される。 しかし、大量の顔データは通常、送信やストレージの制限のために分析される前に圧縮される。 圧縮された画像は強力なアイデンティティ情報を失い、FRシステムの性能劣化を引き起こす。 ここでは、FR系が認識できない最大歪みとして定義できるFR系に対して、単に注意すべき差(JND)を研究するための最初の試みを行う。 具体的には、VVC(Versatile Video Coding)標準(VTM-15.0)に基づく高度な参照符号化/復号ソフトウェアによって生成された3530のオリジナル画像と137,670の圧縮画像を含むJNDデータセットを確立する。 続いて, FRシステムのJND画像を直接推測する新しいJND予測モデルを開発した。 特に,ロバストなアイデンティティ情報を損なうことなく冗長性除去を最大化するために,複数の特徴抽出と注意に基づく特徴分解モジュールを用いて,自己教師付き学習を通じて顔特徴を2つの非相関成分,すなわちアイデンティティと残差特徴に段階的に分解する。 そして、残余特徴をデコーダに供給して残余写像を生成する。 最後に、元の画像から残差マップを減じて予測されたJNDマップを得る。 実験結果から,提案モデルは最先端のJNDモデルと比較してJNDマップの精度が高く,VTM-15.0に比べてFRシステムの性能を維持しつつ,より多くのビットを節約できることがわかった。

High-quality face images are required to guarantee the stability and reliability of automatic face recognition (FR) systems in surveillance and security scenarios. However, a massive amount of face data is usually compressed before being analyzed due to limitations on transmission or storage. The compressed images may lose the powerful identity information, resulting in the performance degradation of the FR system. Herein, we make the first attempt to study just noticeable difference (JND) for the FR system, which can be defined as the maximum distortion that the FR system cannot notice. More specifically, we establish a JND dataset including 3530 original images and 137,670 compressed images generated by advanced reference encoding/decoding software based on the Versatile Video Coding (VVC) standard (VTM-15.0). Subsequently, we develop a novel JND prediction model to directly infer JND images for the FR system. In particular, in order to maximum redundancy removal without impairment of robust identity information, we apply the encoder with multiple feature extraction and attention-based feature decomposition modules to progressively decompose face features into two uncorrelated components, i.e., identity and residual features, via self-supervised learning. Then, the residual feature is fed into the decoder to generate the residual map. Finally, the predicted JND map is obtained by subtracting the residual map from the original image. Experimental results have demonstrated that the proposed model achieves higher accuracy of JND map prediction compared with the state-of-the-art JND models, and is capable of saving more bits while maintaining the performance of the FR system compared with VTM-15.0.
翻訳日:2023-09-29 23:18:35 公開日:2023-09-28
# 責任あるAIパターンカタログ:AIガバナンスとエンジニアリングのためのベストプラクティスのコレクション

Responsible AI Pattern Catalogue: A Collection of Best Practices for AI Governance and Engineering ( http://arxiv.org/abs/2209.04963v4 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, Didar Zowghi, Aurelie Jacquet(参考訳) 責任あるAIは、私たちの時代の最大の科学的課題の1つとして広く考えられており、AIの採用を促進する鍵となっている。 最近、多くのAI倫理原則フレームワークが公開された。 しかし、ベストプラクティスに関する詳細なガイダンスがなければ、実践者は残っていない。 また、システムレベルよりもアルゴリズムレベルに重要な取り組みがなされており、主に公正性のような数学に適応可能な倫理原理のサブセットに焦点を当てている。 それでも、倫理的な問題は開発ライフサイクルのどの段階でも発生し、AIアルゴリズムやモデル以外のシステムの多くのAIおよび非AIコンポーネントを切断する。 本稿では,システムの観点から責任あるAIを運用するために,MLR(Multivocal Literature Review)の結果に基づく責任あるAIパターンカタログを提案する。 原則やアルゴリズムのレベルにとどまらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。 Responsible AI Pattern Catalogueは、パターンを3つのグループに分類する。 これらのパターンは、ステークホルダーが責任あるAIを実装するための体系的で実行可能なガイダンスを提供する。

Responsible AI is widely considered as one of the greatest scientific challenges of our time and is key to increase the adoption of AI. Recently, a number of AI ethics principles frameworks have been published. However, without further guidance on best practices, practitioners are left with nothing much beyond truisms. Also, significant efforts have been placed at algorithm-level rather than system-level, mainly focusing on a subset of mathematics-amenable ethical principles, such as fairness. Nevertheless, ethical issues can arise at any step of the development lifecycle, cutting across many AI and non-AI components of systems beyond AI algorithms and models. To operationalize responsible AI from a system perspective, in this paper, we present a Responsible AI Pattern Catalogue based on the results of a Multivocal Literature Review (MLR). Rather than staying at the principle or algorithm level, we focus on patterns that AI system stakeholders can undertake in practice to ensure that the developed AI systems are responsible throughout the entire governance and engineering lifecycle. The Responsible AI Pattern Catalogue classifies the patterns into three groups: multi-level governance patterns, trustworthy process patterns, and responsible-AI-by-design product patterns. These patterns provide systematic and actionable guidance for stakeholders to implement responsible AI.
翻訳日:2023-09-29 23:18:00 公開日:2023-09-28
# 古典的量子畳み込みニューラルネットワーク伝達学習

Classical-to-quantum convolutional neural network transfer learning ( http://arxiv.org/abs/2208.14708v2 )

ライセンス: Link先を確認
Juhyeon Kim, Joonsuk Huh, Daniel K. Park(参考訳) 量子畳み込みニューラルネットワーク(qcnns)を用いた機械学習は、量子データ分類と古典データ分類の両方で成功した。 以前の研究では、QCNNは、数パラメータの条件で同じトレーニング条件下で、従来のものよりも高い分類精度を達成した。 しかし、近い将来に確実に実装できる量子回路のサイズが限られているため、大規模量子モデルの一般的な性能を調べることは困難である。 雑音の多い中規模量子時代のQCNNを最大限活用するための効果的な方法として転送学習を提案する。 古典的量子移動学習フレームワークにおいて、QCNNは、事前訓練された古典畳み込みニューラルネットワーク(CNN)を利用することで、大規模量子回路を必要としない複雑な分類問題を解くことができる。 我々は,古典的CNNをFashion-MNISTデータで訓練したMNISTデータ分類のための,様々な量子畳み込みとプーリング操作を備えたQCNNモデルの数値シミュレーションを行う。 その結果、古典的から量子的cnnへの転送学習は、同様の訓練条件下で純粋に古典的転送学習モデルよりもかなり優れていることがわかった。

Machine learning using quantum convolutional neural networks (QCNNs) has demonstrated success in both quantum and classical data classification. In previous studies, QCNNs attained a higher classification accuracy than their classical counterparts under the same training conditions in the few-parameter regime. However, the general performance of large-scale quantum models is difficult to examine because of the limited size of quantum circuits, which can be reliably implemented in the near future. We propose transfer learning as an effective strategy for utilizing small QCNNs in the noisy intermediate-scale quantum era to the full extent. In the classical-to-quantum transfer learning framework, a QCNN can solve complex classification problems without requiring a large-scale quantum circuit by utilizing a pre-trained classical convolutional neural network (CNN). We perform numerical simulations of QCNN models with various sets of quantum convolution and pooling operations for MNIST data classification under transfer learning, in which a classical CNN is trained with Fashion-MNIST data. The results show that transfer learning from classical to quantum CNN performs considerably better than purely classical transfer learning models under similar training conditions.
翻訳日:2023-09-29 23:17:41 公開日:2023-09-28
# テキスト分類のための量子自己注意ニューラルネットワーク

Quantum Self-Attention Neural Networks for Text Classification ( http://arxiv.org/abs/2205.05625v2 )

ライセンス: Link先を確認
Guangxi Li, Xuanqiang Zhao, Xin Wang(参考訳) 量子コンピューティングの新たな方向性は、自然言語処理(NLP)を含むさまざまな人工知能分野における有意義な量子応用を確立することである。 構文解析に基づくいくつかの取り組みは量子NLP(QNLP)の研究の扉を開いたが、過剰な構文前処理や構文依存ネットワークアーキテクチャのような制限は、より大規模で現実的なデータセットでは実行不可能である。 本稿では,これらの制約を補う量子自己認識ニューラルネットワーク(QSANN)と呼ばれる,新しいシンプルなネットワークアーキテクチャを提案する。 具体的には,量子ニューラルネットワークに自己アテンション機構を導入し,ガウス射影量子自己アテンションを自己アテンションの知覚可能な量子バージョンとして利用する。 その結果、QSANNは大規模データセット上で有効でスケーラブルであり、短期量子デバイス上で実装可能な望ましい特性を有する。 特に、我々のQSANNは、構文解析に基づくQNLPモデルと、公開データセット上のテキスト分類タスクの数値実験において、単純な古典的自己アテンションニューラルネットワークより優れている。 さらに,本手法は低レベル量子ノイズに対するロバスト性を示し,量子ニューラルネットワークアーキテクチャへのレジリエンスを示す。

An emerging direction of quantum computing is to establish meaningful quantum applications in various fields of artificial intelligence, including natural language processing (NLP). Although some efforts based on syntactic analysis have opened the door to research in Quantum NLP (QNLP), limitations such as heavy syntactic preprocessing and syntax-dependent network architecture make them impracticable on larger and real-world data sets. In this paper, we propose a new simple network architecture, called the quantum self-attention neural network (QSANN), which can compensate for these limitations. Specifically, we introduce the self-attention mechanism into quantum neural networks and then utilize a Gaussian projected quantum self-attention serving as a sensible quantum version of self-attention. As a result, QSANN is effective and scalable on larger data sets and has the desirable property of being implementable on near-term quantum devices. In particular, our QSANN outperforms the best existing QNLP model based on syntactic analysis as well as a simple classical self-attention neural network in numerical experiments of text classification tasks on public data sets. We further show that our method exhibits robustness to low-level quantum noises and showcases resilience to quantum neural network architectures.
翻訳日:2023-09-29 23:16:57 公開日:2023-09-28
# DIRA: 動的ドメイン増分正規化適応

DIRA: Dynamic Domain Incremental Regularised Adaptation ( http://arxiv.org/abs/2205.00147v4 )

ライセンス: Link先を確認
Abanoub Ghobrial, Xuan Zheng, Darryl Hond, Hamid Asgari, Kerstin Eder(参考訳) 自律システム(AS)は、しばしばDeep Neural Network(DNN)分類器を使用して、複雑で高次元で非線形で動的に変化する環境で動作できるようにする。 これらの環境の複雑さのため、DNN分類器は開発中に特定されていないドメインに直面すると、操作中に誤分類を出力することができる。 再トレーニングのための操作からシステムを取り除くことは、その数が増えるにつれて非現実的になる。 ASの信頼性を高め、この制限を克服するためには、DNN分類器はいくつかのサンプル(例:100サンプル)を使用して異なる運用ドメインに直面すると、操作中に適応する能力を持つ必要がある。 しかし、いくつかのサンプルでDNNを再訓練することは、破滅的な忘れ物を引き起こすことが知られている。 本稿では,DNN分類器の動作領域適応フレームワークであるDynamic Incremental Regularized Adaptation (DIRA)を紹介する。 本手法では,分散シフトに対するロバスト性(CIFAR-10C/100C, ImageNet-C)を評価することを目的とした,さまざまな画像分類ベンチマークの改善を示す。

Autonomous systems (AS) often use Deep Neural Network (DNN) classifiers to allow them to operate in complex, high-dimensional, non-linear, and dynamically changing environments. Due to the complexity of these environments, DNN classifiers may output misclassifications during operation when they face domains not identified during development. Removing a system from operation for retraining becomes impractical as the number of such AS increases. To increase AS reliability and overcome this limitation, DNN classifiers need to have the ability to adapt during operation when faced with different operational domains using a few samples (e.g. 100 samples). However, retraining DNNs on a few samples is known to cause catastrophic forgetting. In this paper, we introduce Dynamic Incremental Regularised Adaptation (DIRA), a framework for operational domain adaption of DNN classifiers using regularisation techniques to overcome catastrophic forgetting and achieve adaptation when retraining using a few samples of the target domain. Our approach shows improvements on different image classification benchmarks aimed at evaluating robustness to distribution shifts (e.g.CIFAR-10C/100C, ImageNet-C), and produces state-of-the-art performance in comparison with other frameworks from the literature.
翻訳日:2023-09-29 23:16:36 公開日:2023-09-28
# ボース・アインシュタイン凝縮体からの統一宇宙暗黒セクター

A Unified Cosmological Dark Sector from a Bose-Einstein Condensate ( http://arxiv.org/abs/2203.16402v2 )

ライセンス: Link先を確認
Saurya Das and Sourav Sur(参考訳) 我々は、ボース・アインシュタイン凝縮体(bec)の光子から宇宙の暗黒面の統一像を記述する宇宙論的解(s)の生存可能性を調べる。 BECのエネルギー密度は、その量子ポテンシャルとともに、(ダストのような)冷たい暗黒物質とダークエネルギー成分が同じ源から出現するという意味で、実際にそのような統一を説明できる。 特に、暗黒エネルギーの大部分を量子ポテンシャルとみなすことができ、量子補正されたレイショードリ・フライドマン方程式では、「マクロ的」なBEC波動関数は、対応する確率密度がダスト流体のエネルギー密度として解釈されるように解釈される。 しかし、BECの質量を決定づける効果的なダークエネルギーとダークマターの内容に対して、可視バリオンでさえ純粋に量子力学的なバックリアクション効果が生じる。 このようなバック・リアクション、したがってBECの質量に対する制約を物理的考察から決定し、また最近の観測データを用いてその制約を推定する。

We examine the viability of cosmological solution(s) describing a unified picture of the dark side of the universe from a Bose-Einstein condensate (BEC) of light bosons. The energy density of the BEC, together with its quantum potential, can indeed account for such a unification, in the sense that the (dust-like) cold dark matter and the dark energy components emerge from the same source. In particular, the bulk of the dark energy can be attributed to the quantum potential, in the quantum corrected Raychaudhuri-Friedmann equation, when the `macroscopic' BEC wave-function is taken to be such that the corresponding probability density is construed as the energy density of the dusty fluid. However, there arises a purely quantum mechanical back-reaction effect, of even the visible baryons, on the effective dark energy and dark matter contents, which crucially determines the mass of the BEC. We determine the constraint on such a back-reaction, and hence on the BEC mass, from physical considerations, as well as estimate the same using recent observational data.
翻訳日:2023-09-29 23:16:15 公開日:2023-09-28
# 漸近解析を超えたGroverスピードアップの定量化

Quantifying Grover speed-ups beyond asymptotic analysis ( http://arxiv.org/abs/2203.04975v2 )

ライセンス: Link先を確認
Chris Cade, Marten Folkertsma, Ido Niesen, Jordi Weggemans(参考訳) 量子アルゴリズムの実行時間は漸近的かつ最悪のケース分析によってしばしば研究される。 このような比較は役に立つが、しばしば不足することがある。最悪な実行時間を持つアルゴリズムが実践的な関心事の事例でうまく機能するのは珍しいことではない。 これを改善するためには、量子デバイスやシミュレーションで十分に小さな入力サイズを実現できるような、より経験的な性質のランタイム解析に頼る必要がある。 より大きな入力サイズには、代替アプローチが必要である。 本稿では,古典的エミュレーションと,すべての定数を含む詳細な複雑性境界を組み合わせた手法を検討する。 サブルーチンの古典的なバージョンを実行して量子アルゴリズムをシミュレートし、代わりに実行された場合の量子ルーチンの実行時間に関する情報を同時に収集する。 非常に大きな入力サイズに対して,これを高精度かつ効率的に行うために,推定手順を記述し,量子アルゴリズムの真に期待される複雑性の上限を求める。 本手法を古典的ヒューリスティックアルゴリズムの簡単な量子スピードアップに適用し,よく研究されたMAX-$k$-SAT最適化問題を解く。 これは、2つの重要な量子サブルーチンの期待と最悪のケースの複雑さに関する厳密な境界(全定数を含む)を必要としている。 これらは既存の結果を改善し、より広い関心を持つかもしれない。 その結果,古典的ヒューリスティックアルゴリズムでは,理論的なステップ毎のスピードアップが存在するにも関わらず,大きな量子スピードアップは得られなかった。 このことは、我々が本論文で実施したような経験的分析が、漸近的分析だけで見られるもの以上の洞察を既に得ることを示唆している。

Run-times of quantum algorithms are often studied via an asymptotic, worst-case analysis. Whilst useful, such a comparison can often fall short: it is not uncommon for algorithms with a large worst-case run-time to end up performing well on instances of practical interest. To remedy this it is necessary to resort to run-time analyses of a more empirical nature, which for sufficiently small input sizes can be performed on a quantum device or a simulation thereof. For larger input sizes, alternative approaches are required. In this paper we consider an approach that combines classical emulation with detailed complexity bounds that include all constants. We simulate quantum algorithms by running classical versions of the sub-routines, whilst simultaneously collecting information about what the run-time of the quantum routine would have been if it were run instead. To do this accurately and efficiently for very large input sizes, we describe an estimation procedure and prove that it obtains upper bounds on the true expected complexity of the quantum algorithms. We apply our method to some simple quantum speedups of classical heuristic algorithms for solving the well-studied MAX-$k$-SAT optimization problem. This requires rigorous bounds (including all constants) on the expected- and worst-case complexities of two important quantum sub-routines: Grover search with an unknown number of marked items, and quantum maximum-finding. These improve upon existing results and might be of broader interest. Amongst other results, we found that the classical heuristic algorithms we studied did not offer significant quantum speedups despite the existence of a theoretical per-step speedup. This suggests that an empirical analysis such as the one we implement in this paper already yields insights beyond those that can be seen by an asymptotic analysis alone.
翻訳日:2023-09-29 23:15:55 公開日:2023-09-28
# ロレンツ三重粒子との光相互作用の量子論:光学的検出と3次元基底状態冷却

Quantum theory of light interaction with a Lorenz-Mie particle: Optical detection and three-dimensional ground-state cooling ( http://arxiv.org/abs/2212.04838v2 )

ライセンス: Link先を確認
Patrick Maurer, Carlos Gonzalez-Ballestero, and Oriol Romero-Isart(参考訳) 量子電磁界と相互作用する浮揚誘電体球の運動量子力学を点-双極子近似を超えて理論的に解析する。 この目的のために、ストークスやアンチストークス過程を含む光子と質量中心フォノンの基本的な結合と任意の屈折率と大きさの誘電体球面の結合率を記述するハミルトン式を導出する。 次に,レーザー反射加熱速度と情報放射パターン(質量中心運動に関する情報を運ぶ散乱光の角分布)を導出し,集束レーザ光の存在下で,ランニングウェーブ構成とスタンディングウェーブ構成のいずれかにおいて,それらを効率的に評価する方法を示す。 この情報は、点双極子近似を超える光学浮揚誘電体球体のアクティブフィードバック冷却を実装するために重要である。 その結果、光学的検出とアクティブフィードバックを同時に行うことで、マイクロメーター系における誘電体球の3次元中心運動を同時に冷却できる実験可能な構成とパラメータ状態が予測された。 重心基底状態に冷却できる誘電体粒子の質量をスケールアップすることは、大規模に量子力学をテストするだけでなく、光学的浮上センサーを用いて新しい物理学(例えばダークマター)を探索する実験にも関係している。

We analyze theoretically the motional quantum dynamics of a levitated dielectric sphere interacting with the quantum electromagnetic field beyond the point-dipole approximation. To this end, we derive a Hamiltonian describing the fundamental coupling between photons and center-of-mass phonons, including Stokes and anti-Stokes processes, and the coupling rates for a dielectric sphere of arbitrary refractive index and size. We then derive the laser recoil heating rates and the information radiation patterns (the angular distribution of the scattered light that carries information about the center-of-mass motion) and show how to evaluate them efficiently in the presence of a focused laser beam, in either a running- or a standing-wave configuration. This information is crucial to implement active feedback cooling of optically levitated dielectric spheres beyond the point-dipole approximation. Our results predict several experimentally feasible configurations and parameter regimes where optical detection and active feedback can simultaneously cool to the ground state the three-dimensional center-of-mass motion of dielectric spheres in the micrometer regime. Scaling up the mass of the dielectric particles that can be cooled to the center-of-mass ground state is relevant not only for testing quantum mechanics at large scales but also for current experimental efforts that search for new physics (e.g., dark matter) using optically levitated sensors.
翻訳日:2023-09-29 23:07:51 公開日:2023-09-28
# 学習可能な拡張による属性グラフクラスタリング

Attribute Graph Clustering via Learnable Augmentation ( http://arxiv.org/abs/2212.03559v2 )

ライセンス: Link先を確認
Xihong Yang, Yue Liu, Ke Liang, Sihang Zhou, Xinwang Liu, En Zhu(参考訳) コントラストディープグラフクラスタリング(cdgc)は、異なるクラスタにノードをグループ化するのにコントラスト学習を利用する。 より優れた拡張技術は、対照的なサンプルの品質に役立つため、パフォーマンスを改善する重要な要因の1つとなる。 しかし,既存の手法の強化サンプルは常に人的経験によって事前に定義されており,下流のタスククラスタリングには依存せず,高い人的資源コストと性能の低下につながる。 そこで本研究では,CDGCのための高品質かつ適切な拡張サンプルのための学習可能な拡張器を導入する,Learningable Augmentation (\textbf{AGCLA})による属性グラフクラスタリング手法を提案する。 具体的には,属性情報と構造情報のための学習可能な拡張器を2つ設計する。 さらに、高信頼擬似ラベル行列とクロスビューサンプル類似度行列を含む2つの改良行列を生成し、学習親和性行列の信頼性を向上させる。 トレーニングの過程では,学習可能オーグメンタの学習目標と,コントラスト学習ネットワークとの間には相違点があることに気付く。 言い換えれば、埋め込みの一貫性と拡張されたサンプルの多様性を保証すべきである。 そこで本手法では,逆学習機構を設計する。 さらに,2段階の訓練戦略を高信頼化行列に活用する。 6つのベンチマークデータセットに対するAGCLAの有効性を示す大規模な実験結果が得られた。

Contrastive deep graph clustering (CDGC) utilizes contrastive learning to group nodes into different clusters. Better augmentation techniques benefit the quality of the contrastive samples, thus being one of key factors to improve performance. However, the augmentation samples in existing methods are always predefined by human experiences, and agnostic from the downstream task clustering, thus leading to high human resource costs and poor performance. To this end, we propose an Attribute Graph Clustering method via Learnable Augmentation (\textbf{AGCLA}), which introduces learnable augmentors for high-quality and suitable augmented samples for CDGC. Specifically, we design two learnable augmentors for attribute and structure information, respectively. Besides, two refinement matrices, including the high-confidence pseudo-label matrix and the cross-view sample similarity matrix, are generated to improve the reliability of the learned affinity matrix. During the training procedure, we notice that there exist differences between the optimization goals for training learnable augmentors and contrastive learning networks. In other words, we should both guarantee the consistency of the embeddings as well as the diversity of the augmented samples. Thus, an adversarial learning mechanism is designed in our method. Moreover, a two-stage training strategy is leveraged for the high-confidence refinement matrices. Extensive experimental results demonstrate the effectiveness of AGCLA on six benchmark datasets.
翻訳日:2023-09-29 23:07:29 公開日:2023-09-28
# 柔軟ロボットのための非線形モデル予測制御の安全模倣学習

Safe Imitation Learning of Nonlinear Model Predictive Control for Flexible Robots ( http://arxiv.org/abs/2212.02941v2 )

ライセンス: Link先を確認
Shamil Mamedov, Rudolf Reiter, Seyed Mahdi Basiri Azad, Joschka Boedecker, Moritz Diehl, Jan Swevers(参考訳) フレキシブルロボットは、本質的に安全な人間とロボットのコラボレーションを可能にし、より高い負荷対質量比を達成するなど、業界の主要な課題を克服する可能性がある。 しかし、振動挙動や高次元状態空間を含む複雑な力学のため、柔軟ロボットの制御は複雑である。 NMPCはそのようなロボットを制御する効果的な手段を提供するが、その膨大な計算要求はリアルタイムシナリオでの応用を制限することが多い。 フレキシブルロボットの高速制御を実現するために,模倣学習と予測安全フィルタを用いたNMPCの安全な近似のためのフレームワークを提案する。 我々のフレームワークは、性能がわずかに低下しながら計算時間を著しく短縮する。 nmpcと比較して, 3次元フレキシブルロボットアームをシミュレーションで制御した場合, 安全性制約を保証しながら, 計算時間が8倍以上向上することを示した。 特に,本手法は従来の強化学習手法を上回っている。 高速で安全な近似NMPCの開発は、産業における柔軟なロボットの採用を加速する可能性を秘めている。

Flexible robots may overcome some of the industry's major challenges, such as enabling intrinsically safe human-robot collaboration and achieving a higher load-to-mass ratio. However, controlling flexible robots is complicated due to their complex dynamics, which include oscillatory behavior and a high-dimensional state space. NMPC offers an effective means to control such robots, but its extensive computational demands often limit its application in real-time scenarios. To enable fast control of flexible robots, we propose a framework for a safe approximation of NMPC using imitation learning and a predictive safety filter. Our framework significantly reduces computation time while incurring a slight loss in performance. Compared to NMPC, our framework shows more than a eightfold improvement in computation time when controlling a three-dimensional flexible robot arm in simulation, all while guaranteeing safety constraints. Notably, our approach outperforms conventional reinforcement learning methods. The development of fast and safe approximate NMPC holds the potential to accelerate the adoption of flexible robots in industry.
翻訳日:2023-09-29 23:07:07 公開日:2023-09-28
# ニューラルネットパッチングによる効率よい逆入力生成

Efficient Adversarial Input Generation via Neural Net Patching ( http://arxiv.org/abs/2211.16808v2 )

ライセンス: Link先を確認
Tooba Khan, Kumar Madhukar, Subodh Vishnu Sharma(参考訳) 深層ニューラルネットワークのロバスト性と信頼性を確立する上では,特に自律走行車や精密医療などの安全クリティカルな応用分野において,逆入力の発生が重要な課題となっている。 しかし、この問題は大規模ネットワークによるスケーラビリティの問題や、自然性や出力不均一性といった重要な性質を欠いた逆入力の生成など、いくつかの実践的な課題を生んでいる。 この問題は、ニューラルネットワークにパッチを当てる作業と共通しており、ネットワークの重みの小さな変更を発見すれば、これらの変更を適用すると、修正されたネットが所定の入力セットに対して望ましい出力を生成する。 この接続を,パッチから逆入力を得るように提案し,その代わりに入力を変更することで重みを変化させる効果も生ずるという基礎的な観察を行った。 そこで本稿では,効率的なネットワークパッチ手法を用いて,与えられたネットワークに逆らう入力摂動を生成する手法を提案する。 提案手法は,従来の最先端技術よりもかなり効果的である。

The generation of adversarial inputs has become a crucial issue in establishing the robustness and trustworthiness of deep neural nets, especially when they are used in safety-critical application domains such as autonomous vehicles and precision medicine. However, the problem poses multiple practical challenges, including scalability issues owing to large-sized networks, and the generation of adversarial inputs that lack important qualities such as naturalness and output-impartiality. This problem shares its end goal with the task of patching neural nets where small changes in some of the network's weights need to be discovered so that upon applying these changes, the modified net produces the desirable output for a given set of inputs. We exploit this connection by proposing to obtain an adversarial input from a patch, with the underlying observation that the effect of changing the weights can also be brought about by changing the inputs instead. Thus, this paper presents a novel way to generate input perturbations that are adversarial for a given network by using an efficient network patching technique. We note that the proposed method is significantly more effective than the prior state-of-the-art techniques.
翻訳日:2023-09-29 23:06:49 公開日:2023-09-28
# HALSIE:画像とイベントの同時発散によるセグメンテーション学習へのハイブリッドアプローチ

HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities ( http://arxiv.org/abs/2211.10754v4 )

ライセンス: Link先を確認
Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco Apolinario, Kaushik Roy(参考訳) イベントカメラはピクセル単位の強度の変化を検出し、非同期のイベントストリームを生成する。 従来のカメラに比べて、時間分解能と高ダイナミックレンジ(HDR)が高いため、リアルタイム自律システムにおいて正確なセマンティックマップ検索が可能となる。 しかし、イベントベースセグメンテーションの既存の実装は、時間的に密集したイベントが視覚信号の様々な成分のみを測定するため、フレームに比べて密集した空間コンテキストをエンコードする能力を制限するため、準最適性能に悩まされている。 この問題に対処するために、我々は3つの鍵となる概念を活用し、推論コストを最大20ドルまで削減し、類似した性能を維持しながら、先行技術に対して20ドルまで削減するハイブリッドエンド・ツー・エンド学習フレームワークHALSIEを提案する。 次に,spyking neural network (snn) と artificial neural network (ann) を用いたデュアルエンコーダスキームによって,クロスドメイン機能集約を維持しながらレイテンシを最小化する。 第3に、融合埋め込みの豊かな表現をモデル化するマルチスケールキューミキサーである。 これらの特性により、ddd-17、mvsec、dsec-semanticデータセットで最先端のセグメンテーション性能を実現する非常に軽量なアーキテクチャが実現され、パラメータ効率が最大333\times$高くなり、1サイクルあたり17.9mjのよい推論コストが得られる。 私たちのアブレーション研究は、他のビジョンタスクをまたいだ研究に有益である、効果的なデザイン選択に対する新たな洞察をもたらします。

Event cameras detect changes in per-pixel intensity to generate asynchronous `event streams'. They offer great potential for accurate semantic map retrieval in real-time autonomous systems owing to their much higher temporal resolution and high dynamic range (HDR) compared to conventional cameras. However, existing implementations for event-based segmentation suffer from sub-optimal performance since these temporally dense events only measure the varying component of a visual signal, limiting their ability to encode dense spatial context compared to frames. To address this issue, we propose a hybrid end-to-end learning framework HALSIE, utilizing three key concepts to reduce inference cost by up to $20\times$ versus prior art while retaining similar performance: First, a simple and efficient cross-domain learning scheme to extract complementary spatio-temporal embeddings from both frames and events. Second, a specially designed dual-encoder scheme with Spiking Neural Network (SNN) and Artificial Neural Network (ANN) branches to minimize latency while retaining cross-domain feature aggregation. Third, a multi-scale cue mixer to model rich representations of the fused embeddings. These qualities of HALSIE allow for a very lightweight architecture achieving state-of-the-art segmentation performance on DDD-17, MVSEC, and DSEC-Semantic datasets with up to $33\times$ higher parameter efficiency and favorable inference cost (17.9mJ per cycle). Our ablation study also brings new insights into effective design choices that can prove beneficial for research across other vision tasks.
翻訳日:2023-09-29 23:06:31 公開日:2023-09-28
# 連続予測によるオンライン配信シフト検出

Online Distribution Shift Detection via Recency Prediction ( http://arxiv.org/abs/2211.09916v3 )

ライセンス: Link先を確認
Rachel Luo, Rohan Sinha, Yixiao Sun, Ali Hindy, Shengjia Zhao, Silvio Savarese, Edward Schmerling, Marco Pavone(参考訳) 現代の機械学習を利用したロボットシステムを高スループットアプリケーションでデプロイする場合、分散シフトの検出が不可欠である。 しかし、分布シフトを検出する既存の方法の多くは、データがストリーミング形式で到着することが多く、非常に高次元のロボット工学的設定には適していない。 本研究では,偽陽性率の保証を伴う分布シフトを検出するオンライン手法を提案する。すなわち,分布シフトが存在しない場合,システムが誤報を発する可能性は極めて低い(確率$< \epsilon$)。 提案手法は,高次元データでも効率的に検出できるように設計されており,実際の偽陰性率を低く保ちつつ,従来の作業に比べて最大11倍高速なリアルロボティクス設定検出を実現している(実験で分布シフトがあった場合,実際に警告を発する)。 視覚サーボタスクのシミュレーションとハードウェアの両方において,我々のアプローチを実証し,本手法が障害発生前に警告を発することを示す。

When deploying modern machine learning-enabled robotic systems in high-stakes applications, detecting distribution shift is critical. However, most existing methods for detecting distribution shift are not well-suited to robotics settings, where data often arrives in a streaming fashion and may be very high-dimensional. In this work, we present an online method for detecting distribution shift with guarantees on the false positive rate - i.e., when there is no distribution shift, our system is very unlikely (with probability $< \epsilon$) to falsely issue an alert; any alerts that are issued should therefore be heeded. Our method is specifically designed for efficient detection even with high dimensional data, and it empirically achieves up to 11x faster detection on realistic robotics settings compared to prior work while maintaining a low false negative rate in practice (whenever there is a distribution shift in our experiments, our method indeed emits an alert). We demonstrate our approach in both simulation and hardware for a visual servoing task, and show that our method indeed issues an alert before a failure occurs.
翻訳日:2023-09-29 23:06:01 公開日:2023-09-28
# 反復型プロトタイプ適応型低ショットオブジェクトカウントネットワーク

A Low-Shot Object Counting Network With Iterative Prototype Adaptation ( http://arxiv.org/abs/2211.08217v2 )

ライセンス: Link先を確認
Nikola Djukic, Alan Lukezic, Vitjan Zavrtanik, Matej Kristan(参考訳) 画像中の任意の意味カテゴリーの低ショットカウントは、注釈付き例(フェーショット)やなし例(ノーショット)のみを用いて検討する。 標準的な数ショットパイプラインは、外見クエリを例から抽出し、イメージ特徴とマッチングしてオブジェクト数を推測する。 既存の手法は、形状情報(例えばサイズとアスペクト)を無視した特徴プーリングによってクエリを抽出し、オブジェクトのローカライズ精度を低下させ、推定値をカウントする。 反復型適応(LOCA)を用いた低ショットオブジェクトカウントネットワークを提案する。 我々の主な貢献は新しいオブジェクトプロトタイプ抽出モジュールであり、画像の特徴と外観情報とを反復的に融合させる。 このモジュールはゼロショットのシナリオに容易に適用でき、LOCAはローショットカウント問題の全スペクトルをカバーすることができる。 LOCAは最近のFSC147ベンチマークの最先端メソッドを20~30%向上させ、ゼロショットシナリオの最先端を達成し、より優れた一般化能力を示している。

We consider low-shot counting of arbitrary semantic categories in the image using only few annotated exemplars (few-shot) or no exemplars (no-shot). The standard few-shot pipeline follows extraction of appearance queries from exemplars and matching them with image features to infer the object counts. Existing methods extract queries by feature pooling which neglects the shape information (e.g., size and aspect) and leads to a reduced object localization accuracy and count estimates. We propose a Low-shot Object Counting network with iterative prototype Adaptation (LOCA). Our main contribution is the new object prototype extraction module, which iteratively fuses the exemplar shape and appearance information with image features. The module is easily adapted to zero-shot scenarios, enabling LOCA to cover the entire spectrum of low-shot counting problems. LOCA outperforms all recent state-of-the-art methods on FSC147 benchmark by 20-30% in RMSE on one-shot and few-shot and achieves state-of-the-art on zero-shot scenarios, while demonstrating better generalization capabilities.
翻訳日:2023-09-29 23:05:40 公開日:2023-09-28
# ヒューリスティックな ans\"atze 状態生成と量子 pcp 予想に関する誘導可能な局所ハミルトン問題

Guidable Local Hamiltonian Problems with Implications to Heuristic Ans\"atze State Preparation and the Quantum PCP Conjecture ( http://arxiv.org/abs/2302.11578v2 )

ライセンス: Link先を確認
Jordi Weggemans, Marten Folkertsma, Chris Cade(参考訳) 我々は、最近定義されたガイド・ローカル・ハミルトン問題(英語版)の'Merlinized'バージョンについて研究し、これを'Guidable Local Hamiltonian'問題と呼ぶ。 ガイドされた問題とは違って、これらの問題は入力の一部として提供される指針状態ではなく、単に存在を約束するものである。 量子回路によって効率的に作成できるものと、我々が古典的に蒸発可能と呼ぶ量子状態のクラスに属するものであり、これは局所可観測器の期待値を古典的に計算することができる。 誘導状態の両クラスに対する誘導可能な局所ハミルトン問題は、逆多項式的精度設定では$\mathsf{QCMA}$-完全であるが、誘導状態が古典的に評価可能な定数精度規則では$\mathsf{NP}$(または$\mathsf{NqP}$)内にあることを示す。 我々の完全性の結果は、複雑性理論的な観点から、古典的ヒューリスティックスによって選択された古典的 ans\"atze は、量子ヒューリスティックスによって作成される量子 ans\"atze と同じくらい強力であることを示している。 量子PCP予想に関して、我々は (i)量子古典的確率的チェック可能な証明系をキャプチャする複雑性クラスを定義し、定数証明クエリに対して $\mathsf{bqp}^{\mathsf{np}[1]}$ に含まれることを示す。 (ii) 既知の量子還元の「復号化」において、$\mathsf{QPCP}$-verification 回路を一定の公約ギャップを持つ局所ハミルトニアンに写像するノーゴー結果を与える。 (iii)ある基底状態の性質を保持する量子ギャップ増幅手順の存在について、いくつかのno-go結果を与える。 (iv) nlts定理のより強いバージョンと見なすことができる2つの予想を提案する。 最後に、我々の結果の多くは、クラス $\mathsf{MA}$ の同様の結果を得るために直接修正可能であることを示す。

We study 'Merlinized' versions of the recently defined Guided Local Hamiltonian problem, which we call 'Guidable Local Hamiltonian' problems. Unlike their guided counterparts, these problems do not have a guiding state provided as a part of the input, but merely come with the promise that one exists. We consider in particular two classes of guiding states: those that can be prepared efficiently by a quantum circuit; and those belonging to a class of quantum states we call classically evaluatable, for which it is possible to efficiently compute expectation values of local observables classically. We show that guidable local Hamiltonian problems for both classes of guiding states are $\mathsf{QCMA}$-complete in the inverse-polynomial precision setting, but lie within $\mathsf{NP}$ (or $\mathsf{NqP}$) in the constant precision regime when the guiding state is classically evaluatable. Our completeness results show that, from a complexity-theoretic perspective, classical Ans\"atze selected by classical heuristics are just as powerful as quantum Ans\"atze prepared by quantum heuristics, as long as one has access to quantum phase estimation. In relation to the quantum PCP conjecture, we (i) define a complexity class capturing quantum-classical probabilistically checkable proof systems and show that it is contained in $\mathsf{BQP}^{\mathsf{NP}[1]}$ for constant proof queries; (ii) give a no-go result on 'dequantizing' the known quantum reduction which maps a $\mathsf{QPCP}$-verification circuit to a local Hamiltonian with constant promise gap; (iii) give several no-go results for the existence of quantum gap amplification procedures that preserve certain ground state properties; and (iv) propose two conjectures that can be viewed as stronger versions of the NLTS theorem. Finally, we show that many of our results can be directly modified to obtain similar results for the class $\mathsf{MA}$.
翻訳日:2023-09-29 22:58:57 公開日:2023-09-28
# コンテキストを用いた階層型変分オートエンコーダの後方崩壊

Discouraging posterior collapse in hierarchical Variational Autoencoders using context ( http://arxiv.org/abs/2302.09976v2 )

ライセンス: Link先を確認
Anna Kuzina and Jakub M. Tomczak(参考訳) 階層的変分オートエンコーダ(vaes)は最も一般的な確率に基づく生成モデルである。 トップダウン階層のVAEは、深い潜伏構造を効果的に学習し、後部崩壊のような問題を回避できるという合意がある。 ここでは,必ずしもそうではないことを示すとともに,後方崩壊の問題も残る。 この問題を回避するため、我々は、その上にコンテキストを持つ深い階層型VAEを提案する。 具体的には、離散コサイン変換を用いて最後の潜伏変数を得る。 一連の実験において,提案する修正により潜在空間の利用性が向上し,モデルの生成能力を損なうことはないことを検証した。

Hierarchical Variational Autoencoders (VAEs) are among the most popular likelihood-based generative models. There is a consensus that the top-down hierarchical VAEs allow effective learning of deep latent structures and avoid problems like posterior collapse. Here, we show that this is not necessarily the case, and the problem of collapsing posteriors remains. To discourage this issue, we propose a deep hierarchical VAE with a context on top. Specifically, we use a Discrete Cosine Transform to obtain the last latent variable. In a series of experiments, we observe that the proposed modification allows us to achieve better utilization of the latent space and does not harm the model's generative abilities.
翻訳日:2023-09-29 22:58:16 公開日:2023-09-28
# 重み特徴アライメントによる点雲の一般回転不変性学習

General Rotation Invariance Learning for Point Clouds via Weight-Feature Alignment ( http://arxiv.org/abs/2302.09907v2 )

ライセンス: Link先を確認
Liang Xie, Yibo Yang, Wenxiao Wang, Binbin Lin, Deng Cai, Xiaofei He, Ronghua Liang(参考訳) 2d画像と比較して、3dポイント雲は回転に対してずっと敏感である。 我々は、回転変換に不変なパターンを記述する点特徴を期待する。 最近のSOTAは3次元点雲の回転不変学習に特化している。 しかし、現在の回転不変法は、グローバル分布に依存し、グローバルシーンと背景に依存するため、オープンシーンにおける点雲の一般化性を欠いている。 本稿では,入力点と同じ3次元空間に分布する点の集合としてネットワーク重みを考慮し,その特徴をネットワーク重みの主軸と整列させて局所的不変参照フレーム(IRF)を構築するために,出力活性化がパターンとその向きの関数であることを考慮し,ネットワーク重みを入力点と同じ3次元空間に分布する点の集合と見なすことができるという考えから着想を得た。 当社のwfaアルゴリズムは,すべてのシーンのポイントクラウドに対する一般的なソリューションを提供します。 WFAは、応答アクティビティがパターン整合度の必要十分条件であることをモデルが目標を達成することを保証します。 実際、私たちは単一のオブジェクトのポイントクラウド上で実験を行い、広い範囲のシーンを開きます。 その結果,本手法は回転不変性学習と通常の手法とのギャップをほぼ埋めることが示唆された。

Compared to 2D images, 3D point clouds are much more sensitive to rotations. We expect the point features describing certain patterns to keep invariant to the rotation transformation. There are many recent SOTA works dedicated to rotation-invariant learning for 3D point clouds. However, current rotation-invariant methods lack generalizability on the point clouds in the open scenes due to the reliance on the global distribution, \ie the global scene and backgrounds. Considering that the output activation is a function of the pattern and its orientation, we need to eliminate the effect of the orientation.In this paper, inspired by the idea that the network weights can be considered a set of points distributed in the same 3D space as the input points, we propose Weight-Feature Alignment (WFA) to construct a local Invariant Reference Frame (IRF) via aligning the features with the principal axes of the network weights. Our WFA algorithm provides a general solution for the point clouds of all scenes. WFA ensures the model achieves the target that the response activity is a necessary and sufficient condition of the pattern matching degree. Practically, we perform experiments on the point clouds of both single objects and open large-range scenes. The results suggest that our method almost bridges the gap between rotation invariance learning and normal methods.
翻訳日:2023-09-29 22:58:03 公開日:2023-09-28
# トランスポートマップ非調整ランジュバンアルゴリズム:学習と摂動サンプラーの判別

Transport map unadjusted Langevin algorithms: learning and discretizing perturbed samplers ( http://arxiv.org/abs/2302.07227v3 )

ライセンス: Link先を確認
Benjamin J. Zhang, Youssef M. Marzouk, Konstantinos Spiliopoulos(参考訳) ランゲヴィン力学は、密度が正規化定数まで知られている高次元非ガウス分布のサンプリングに広く用いられている。 特に、未調整のランゲヴィンアルゴリズム(ULA)には強い関心があり、これはランゲヴィン力学を直接離散化し、目標分布に対する期待を推定する。 本研究では,ランジュバンダイナミクスの収束を前提条件として,目標分布を概ね正規化する輸送写像の利用について検討する。 連続時間において、輸送写像がランゲヴィン力学に適用されたとき、結果は輸送写像によって定義される計量を持つリーマン多様体ランゲヴィン力学(RMLD)であることを示す。 また, トランスポートマップを非可逆摂動型 ULA に適用すると, 元の力学の幾何的不変摂動 (GiIrr) が得られることを示す。 これらの接続は、より体系的なメトリクスや摂動の学習方法を示し、また、地図で記述されたrmldの代替的離散化をもたらす。 適切な条件下では、これらの離散化過程は2-wasserstein距離における対象分布への収束を記述する非漸近境界を持つことができる。 図解的な数値結果は我々の理論的な主張を補完する。

Langevin dynamics are widely used in sampling high-dimensional, non-Gaussian distributions whose densities are known up to a normalizing constant. In particular, there is strong interest in unadjusted Langevin algorithms (ULA), which directly discretize Langevin dynamics to estimate expectations over the target distribution. We study the use of transport maps that approximately normalize a target distribution as a way to precondition and accelerate the convergence of Langevin dynamics. We show that in continuous time, when a transport map is applied to Langevin dynamics, the result is a Riemannian manifold Langevin dynamics (RMLD) with metric defined by the transport map. We also show that applying a transport map to an irreversibly-perturbed ULA results in a geometry-informed irreversible perturbation (GiIrr) of the original dynamics. These connections suggest more systematic ways of learning metrics and perturbations, and also yield alternative discretizations of the RMLD described by the map, which we study. Under appropriate conditions, these discretized processes can be endowed with non-asymptotic bounds describing convergence to the target distribution in 2-Wasserstein distance. Illustrative numerical results complement our theoretical claims.
翻訳日:2023-09-29 22:57:41 公開日:2023-09-28
# 双曲空間における大マルジン分類のための球面決定境界

Horospherical Decision Boundaries for Large Margin Classification in Hyperbolic Space ( http://arxiv.org/abs/2302.06807v3 )

ライセンス: Link先を確認
Xiran Fan, Chun-Hao Yang, Baba C. Vemuri(参考訳) 双曲空間は階層的に整理されたデータを表現するために近年非常に人気がある。 さらに,これらの空間におけるデータの分類アルゴリズムも提案されている。 これらのアルゴリズムは主に、非凸最適化問題に繋がる大きなマージン分類器において、決定境界に超平面または測地線を使用する。 本稿では,大域的最適解を保証するリーマン勾配降下法を用いて最適化できる測地的凸最適化問題に導かれる,球面的決定境界に基づく新しい大域的マージン分類器を提案する。 我々は,SOTAと比較して,分類器の競争性能を示す実験を行った。

Hyperbolic spaces have been quite popular in the recent past for representing hierarchically organized data. Further, several classification algorithms for data in these spaces have been proposed in the literature. These algorithms mainly use either hyperplanes or geodesics for decision boundaries in a large margin classifiers setting leading to a non-convex optimization problem. In this paper, we propose a novel large margin classifier based on horospherical decision boundaries that leads to a geodesically convex optimization problem that can be optimized using any Riemannian gradient descent technique guaranteeing a globally optimal solution. We present several experiments depicting the competitive performance of our classifier in comparison to SOTA.
翻訳日:2023-09-29 22:57:21 公開日:2023-09-28
# 文脈記述における形態情報の役割について

On the Role of Morphological Information for Contextual Lemmatization ( http://arxiv.org/abs/2302.00407v2 )

ライセンス: Link先を確認
Olia Toporkov, Rodrigo Agerri(参考訳) レムマティゼーション(英: Lemmatization)は、自然言語処理(NLP)タスクであり、与えられた単語からその標準形または補題を生成する。 Lemmatizationは、下流のNLPアプリケーションを容易にする基本的なタスクの1つであり、高機能言語において特に重要である。 文脈的レンマタイザーを訓練するための細粒度形態素合成情報を含むその形態素合成カテゴリーを下流性能の面で最適かどうかを考慮せずに、屈折語から補題を得る方法が一般的である。 この問題に対処するため,本稿では,バスク語,トルコ語,ロシア語,チェコ語,スペイン語,英語という,さまざまな形態的複雑性の範囲内で6言語で文脈的レンマタイザを開発するための形態的情報の役割について実証的に検討する。 さらに、以前の作業の大部分がそうであるように、私たちは、ドメイン外の設定において、最も一般的なアプリケーション利用を構成するレンマタイザの評価も行っています。 私たちの研究の結果はかなり驚きだ。 トレーニング中に微細な形態的特徴を持つレムマタイザーを提供することは、凝集言語でさえも有益ではないことが判明した。 実際、現代の文脈表現は、明示的な形態的信号を見ることなく、競争的な文脈補間器を得るのに十分な形態的情報を暗黙的に符号化しているように見える。 さらに,本実験では,単純な UPOS タグを用いたり,形態学を伴わない訓練を行ったりすることが,ドメイン外でのレムマタイザとして最適であることが示唆された。

Lemmatization is a natural language processing (NLP) task which consists of producing, from a given inflected word, its canonical form or lemma. Lemmatization is one of the basic tasks that facilitate downstream NLP applications, and is of particular importance for high-inflected languages. Given that the process to obtain a lemma from an inflected word can be explained by looking at its morphosyntactic category, including fine-grained morphosyntactic information to train contextual lemmatizers has become common practice, without considering whether that is the optimum in terms of downstream performance. In order to address this issue, in this paper we empirically investigate the role of morphological information to develop contextual lemmatizers in six languages within a varied spectrum of morphological complexity: Basque, Turkish, Russian, Czech, Spanish and English. Furthermore, and unlike the vast majority of previous work, we also evaluate lemmatizers in out-of-domain settings, which constitutes, after all, their most common application use. The results of our study are rather surprising. It turns out that providing lemmatizers with fine-grained morphological features during training is not that beneficial, not even for agglutinative languages. In fact, modern contextual word representations seem to implicitly encode enough morphological information to obtain competitive contextual lemmatizers without seeing any explicit morphological signal. Moreover, our experiments suggest that the best lemmatizers out-of-domain are those using simple UPOS tags or those trained without morphology and, finally, that current evaluation practices for lemmatization are not adequate to clearly discriminate between models.
翻訳日:2023-09-29 22:56:52 公開日:2023-09-28
# 私の予測は任意か? 公平な分類における分散の効果

Is My Prediction Arbitrary? Confounding Effects of Variance in Fair Classification ( http://arxiv.org/abs/2301.11562v5 )

ライセンス: Link先を確認
A. Feder Cooper, Katherine Lee, Madiha Choksi, Solon Barocas, Christopher De Sa, James Grimmelmann, Jon Kleinberg, Siddhartha Sen, Baobao Zhang(参考訳) 異なる訓練されたモデル間の予測のばらつきは、公平な分類において重要で未熟な誤りの原因である。 実際には、データ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。 この問題を調査するため、我々は実験的なアプローチをとり、4つの総合的な貢献をする。 1) 偏差から派生した自己整合性と呼ばれる指標を定義し、その指標を任意性の測定及び低減の代用として用いる。 2) 予測が任意である場合に分類を棄却するアンサンブルアルゴリズムを開発する。 3)公平な分類における分散(vis-a-vis自己矛盾と任意性)の役割について、過去最大の実証研究を行い、 4) US Home Mortgage Disclosure Act (HMDA)データセットを将来の研究に容易に利用できるようにするツールキットをリリースする。 その結果,ベンチマークデータセットにおける結論の信頼性に関する衝撃的な知見が得られた。 ほとんどのフェアネス分類ベンチマークは、一般的なフェアネス介入を適用する前に、予測に現れる仲裁の量を考慮して、フェアツーフェアである。 この発見は、一般的なアルゴリズム的公平性の方法の実用性に疑問を呈し、機械学習における公平性を測定する方法の根本的な再検討を示唆する。

Variance in predictions across different trained models is a significant, under-explored source of error in fair classification. In practice, the variance on some data examples is so large that decisions can be effectively arbitrary. To investigate this problem, we take an experimental approach and make four overarching contributions: We 1) Define a metric called self-consistency, derived from variance, which we use as a proxy for measuring and reducing arbitrariness; 2) Develop an ensembling algorithm that abstains from classification when a prediction would be arbitrary; 3) Conduct the largest to-date empirical study of the role of variance (vis-a-vis self-consistency and arbitrariness) in fair classification; and, 4) Release a toolkit that makes the US Home Mortgage Disclosure Act (HMDA) datasets easily usable for future research. Altogether, our experiments reveal shocking insights about the reliability of conclusions on benchmark datasets. Most fairness classification benchmarks are close-to-fair when taking into account the amount of arbitrariness present in predictions -- before we even try to apply common fairness interventions. This finding calls into question the practical utility of common algorithmic fairness methods, and in turn suggests that we should fundamentally reconsider how we choose to measure fairness in machine learning.
翻訳日:2023-09-29 22:56:19 公開日:2023-09-28
# バイアス補正型CMIP6クラス地球系の深層学習

Deep learning for bias-correcting CMIP6-class Earth system models ( http://arxiv.org/abs/2301.01253v3 )

ライセンス: Link先を確認
Philipp Hess, Stefan Lange, Christof Sch\"otz and Niklas Boers(参考訳) 地球系モデル(esms)における降水の正確な表現は、地球温暖化に対する生態学的および社会経済的影響の信頼できる予測に不可欠である。 しかし、降水を生み出す過程の複雑なクロススケール相互作用はモデル化が困難であり、特に極性に関して、ESM分野において潜在的に強いバイアスを引き起こす。 最先端バイアス補正法は、各格子セルの局所的なシミュレーション周波数分布における誤差にのみ対処する。 空間コンテキストを必要とするESM出力の非現実的な空間パターンを改善することは、これまで不可能であった。 そこで本研究では,cGANを用いた後処理により,局所周波数分布と空間パターンの両方において,最先端のCMIP6クラスESMのバイアスを補正できることを示す。 本手法は, 金標準バイアス調整フレームワークと同様に局所周波数分布を等しく改善するが, 特に降水極端の特徴的な空間間欠性の観点から, 既存の空間パターンの補正法を大きく上回っている。

The accurate representation of precipitation in Earth system models (ESMs) is crucial for reliable projections of the ecological and socioeconomic impacts in response to anthropogenic global warming. The complex cross-scale interactions of processes that produce precipitation are challenging to model, however, inducing potentially strong biases in ESM fields, especially regarding extremes. State-of-the-art bias correction methods only address errors in the simulated frequency distributions locally at every individual grid cell. Improving unrealistic spatial patterns of the ESM output, which would require spatial context, has not been possible so far. Here, we show that a post-processing method based on physically constrained generative adversarial networks (cGANs) can correct biases of a state-of-the-art, CMIP6-class ESM both in local frequency distributions and in the spatial patterns at once. While our method improves local frequency distributions equally well as gold-standard bias-adjustment frameworks, it strongly outperforms any existing methods in the correction of spatial patterns, especially in terms of the characteristic spatial intermittency of precipitation extremes.
翻訳日:2023-09-29 22:55:59 公開日:2023-09-28
# HyperBO+:階層ガウス過程によるベイズ最適化の事前学習

HyperBO+: Pre-training a universal prior for Bayesian optimization with hierarchical Gaussian processes ( http://arxiv.org/abs/2212.10538v2 )

ライセンス: Link先を確認
Zhou Fan, Xinran Han, Zi Wang(参考訳) ベイズ最適化(BO)は多くのブラックボックス関数最適化タスクに非常に効果的であることが証明されたが、実践者は興味のある機能をうまくモデル化する事前を慎重に選択する必要がある。 手動で指定するのではなく、複数タスクBO(Swersky et al., 2013)、少数ショットBO(Wistuba and Grabocka, 2021)、HyperBO(Wang et al., 2022)などの先行学習を自動的に学習するトランスファーラーニングベースの手法を研究している。 しかし、これらの先行学習手法は、通常、入力ドメインが全てのタスクで同じであると仮定し、異なるドメインを持つ関数の観測を弱めたり、異なる検索空間上でBOに学習先行を一般化したりする。 本研究では,階層型ガウス過程に対する事前学習手法であるHyperBO+を提案する。 そこで本研究では,2段階事前学習法を提案し,その漸近的特性とboの利点を理論的および経験的に分析する。 複数の探索空間を含む実世界のハイパーパラメータチューニングタスクにおいて,HyperBO+は未知の探索空間に一般化でき,競合するベースラインよりも後悔度が低いことを示す。

Bayesian optimization (BO), while proved highly effective for many black-box function optimization tasks, requires practitioners to carefully select priors that well model their functions of interest. Rather than specifying by hand, researchers have investigated transfer learning based methods to automatically learn the priors, e.g. multi-task BO (Swersky et al., 2013), few-shot BO (Wistuba and Grabocka, 2021) and HyperBO (Wang et al., 2022). However, those prior learning methods typically assume that the input domains are the same for all tasks, weakening their ability to use observations on functions with different domains or generalize the learned priors to BO on different search spaces. In this work, we present HyperBO+: a pre-training approach for hierarchical Gaussian processes that enables the same prior to work universally for Bayesian optimization on functions with different domains. We propose a two-step pre-training method and analyze its appealing asymptotic properties and benefits to BO both theoretically and empirically. On real-world hyperparameter tuning tasks that involve multiple search spaces, we demonstrate that HyperBO+ is able to generalize to unseen search spaces and achieves lower regrets than competitive baselines.
翻訳日:2023-09-29 22:55:41 公開日:2023-09-28
# Model Sparsityは機械学習を単純化する

Model Sparsity Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v8 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制要件に応えて、マシンアンラーニング(MU)は、特定のモデルから特定のサンプルの影響を取り除く重要なプロセスとして登場した。 正確なアンラーニングは、残りのデータセットを使った完全なモデルのリトレーニングによって達成できるが、関連する計算コストは、効率的で近似的なアンラーニング技術の開発につながった。 我々の研究は、データ中心のMUアプローチを超えて、新しいモデルベース視点、すなわちウェイトプルーニングによるモデルスペーシフィケーションを導入し、正確なアンラーニングと近似アンラーニングのギャップを減らすことができる。 モデルスパーシリティは、近似的アンラーナーのマルチ基準アンラーニング性能を高め、近似ギャップを閉じながら効率を保ち続けることを理論と実践の両方で示している。 これは新しいMUパラダイムにつながり、まずはPrune、次にはUnlearnと呼ばれ、未学習のプロセスにスパースモデルを注入する。 この知見に基づいて,スパルシティ正規化を利用したスパルシリティ対応学習手法を開発し,近似学習の学習プロセスを強化する。 広範な実験により、我々の提案は様々な未学習シナリオにおいて一貫してmに利益をもたらすことが示された。 77%の未学習の有効性向上(最も単純な未学習手法の1つ)が、スパーシティーを意識した未学習の使用において注目されている。 さらに,バックドア攻撃に対する防御や移動学習の強化など,機械学習の他の課題に対処する上で,提案手法の実践的影響を示す。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

In response to recent data regulation requirements, machine unlearning (MU) has emerged as a critical process to remove the influence of specific examples from a given model. Although exact unlearning can be achieved through complete model retraining using the remaining dataset, the associated computational costs have driven the development of efficient, approximate unlearning techniques. Moving beyond data-centric MU approaches, our study introduces a novel model-based perspective: model sparsification via weight pruning, which is capable of reducing the gap between exact unlearning and approximate unlearning. We show in both theory and practice that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. This leads to a new MU paradigm, termed prune first, then unlearn, which infuses a sparse model prior into the unlearning process. Building on this insight, we also develop a sparsity-aware unlearning method that utilizes sparsity regularization to enhance the training process of approximate unlearning. Extensive experiments show that our proposals consistently benefit MU in various unlearning scenarios. A notable highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest unlearning methods) when using sparsity-aware unlearning. Furthermore, we demonstrate the practical impact of our proposed MU methods in addressing other machine learning challenges, such as defending against backdoor attacks and enhancing transfer learning. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-09-29 22:47:49 公開日:2023-09-28
# Dice Semimetric Losses: ソフトラベルによるDice Scoreの最適化

Dice Semimetric Losses: Optimizing the Dice Score with Soft Labels ( http://arxiv.org/abs/2303.16296v3 )

ライセンス: Link先を確認
Zifu Wang, Teodora Popordanoska, Jeroen Bertels, Robin Lemmens, Matthew B. Blaschko(参考訳) 軟Dice損失(SDL)は、医療画像コミュニティにおける多くの自動セグメンテーションパイプラインにおいて重要な役割を担っている。 ここ数年、その優れた機能を支えるいくつかの理由が明らかにされ、さらなる最適化が検討されている。 しかしながら、ソフトラベルを含むシナリオでその直接的な利用をサポートする実装は今のところ存在しない。 したがって、SDLの使用とソフトラベルの利用による研究の相乗効果は、モデルキャリブレーションの文脈においても、いまだに欠落している。 本稿では,Dice semimetric loss (DML)を紹介する。 (i) ハードラベルの標準設定でSDLと同一の設計であるが、 (ii)ソフトラベルの設定で使用することができる。 公開qubiq, lits, kitsベンチマークによる実験では,dmlとソフトラベル(例えば,平均値,ラベル平滑化,知識蒸留)が,ハードラベル(例えば,多数決とランダム選択)上で相乗効果を確認できた。 その結果,dmlの普及を支援する優れたdiceスコアとモデルキャリブレーションを得た。 コードは \href{https://github.com/zifuwanggg/jdtlosses}{https://github.com/zifuwanggg/jdtlosses} で入手できる。

The soft Dice loss (SDL) has taken a pivotal role in numerous automated segmentation pipelines in the medical imaging community. Over the last years, some reasons behind its superior functioning have been uncovered and further optimizations have been explored. However, there is currently no implementation that supports its direct utilization in scenarios involving soft labels. Hence, a synergy between the use of SDL and research leveraging the use of soft labels, also in the context of model calibration, is still missing. In this work, we introduce Dice semimetric losses (DMLs), which (i) are by design identical to SDL in a standard setting with hard labels, but (ii) can be employed in settings with soft labels. Our experiments on the public QUBIQ, LiTS and KiTS benchmarks confirm the potential synergy of DMLs with soft labels (e.g.\ averaging, label smoothing, and knowledge distillation) over hard labels (e.g.\ majority voting and random selection). As a result, we obtain superior Dice scores and model calibration, which supports the wider adoption of DMLs in practice. The code is available at \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}.
翻訳日:2023-09-29 22:46:59 公開日:2023-09-28
# ホモロジー量子ローター符号:トーションからの論理量子ビット

Homological Quantum Rotor Codes: Logical Qubits from Torsion ( http://arxiv.org/abs/2303.13723v3 )

ライセンス: Link先を確認
Christophe Vuillot and Alessandro Ciani and Barbara M. Terhal(参考訳) 複数の量子ローターを用いて論理情報を符号化するホモロジー量子ローター符号を正式に定義する。 これらの符号は、論理振動子を符号化する線形振動子符号と同様に、量子ビットや量子ビットのホモロジーまたはCSS量子符号を一般化する。 量子ビットや振動子とは異なり、ホモロジー量子ローター符号は、下層の鎖複体のホモロジーに依存するため、論理ローターと論理キューディットの両方を同じコードブロックにエンコードすることができる。 特に、実射影平面またはm\"{o}bius ストリップをテステラ化して得られる鎖複体に基づくコードは、キュービットを符号化する。 本稿では, 連続安定器位相シフトによって拡散する論理演算子の概念により, 量子ビットの場合よりも微妙な符号間の距離スケーリングについて考察する。 2次元および3次元多様体に基づくホモロジー量子ロータ符号の構成と連鎖錯体の積を与える。 我々は、キータエフの現在のミラー量子ビット(m\"{o}bius strip qubit)と同様に$0$-$\pi$-qubitが、そのようなコードの小さな例であり、拡張の可能性について議論している。

We formally define homological quantum rotor codes which use multiple quantum rotors to encode logical information. These codes generalize homological or CSS quantum codes for qubits or qudits, as well as linear oscillator codes which encode logical oscillators. Unlike for qubits or oscillators, homological quantum rotor codes allow one to encode both logical rotors and logical qudits in the same block of code, depending on the homology of the underlying chain complex. In particular, a code based on the chain complex obtained from tessellating the real projective plane or a M\"{o}bius strip encodes a qubit. We discuss the distance scaling for such codes which can be more subtle than in the qubit case due to the concept of logical operator spreading by continuous stabilizer phase-shifts. We give constructions of homological quantum rotor codes based on 2D and 3D manifolds as well as products of chain complexes. Superconducting devices being composed of islands with integer Cooper pair charges could form a natural hardware platform for realizing these codes: we show that the $0$-$\pi$-qubit as well as Kitaev's current-mirror qubit -- also known as the M\"{o}bius strip qubit -- are indeed small examples of such codes and discuss possible extensions.
翻訳日:2023-09-29 22:46:36 公開日:2023-09-28
# 遅延アウェア階層型連合学習

Delay-Aware Hierarchical Federated Learning ( http://arxiv.org/abs/2303.12414v4 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Seyyedali Hosseinalipour, Nicol\`o Michelusi, Christopher Brinton(参考訳) フェデレーション学習は、ワイヤレスエッジに分散したトレーニングモデルとして人気を集めている。 本稿では、エッジとクラウド間の通信遅延を考慮した分散機械学習(ML)モデルの学習効率を向上させるために、遅延対応階層型学習(DFL)を提案する。 従来のフェデレートラーニングとは異なり、DFLは各グローバルアグリゲーション期間内の局所データセット上で複数の確率勾配降下反復を利用して、ローカルサブネット内のエッジサーバを介してモデルパラメータを断続的に集約する。 グローバル同期の間、クラウドサーバはローカル・グロバル・コンバインダを使用して、時代遅れのグローバルモデルとローカルモデルを統合し、両方の重要な要素を保存し、遅延の有無で学習効率を向上する。 強凸および滑らかな損失関数に対するO(1/k)のサブ線形収束率を達成するための条件セットを得る。 これらの知見に基づき, DFL の適応制御アルゴリズムを開発し, サブ線形収束を目標とし, エネルギー消費と通信遅延を軽減する政策を実装した。 数値評価により、dflは、既存のflアルゴリズムよりも高速なグローバルモデル収束、リソース消費の低減、通信遅延に対する堅牢性において優れた性能を示す。 要約すると、この手法は凸損失関数と非凸損失関数の両方を扱う際の効率と結果を改善する。

Federated learning has gained popularity as a means of training models distributed across the wireless edge. The paper introduces delay-aware hierarchical federated learning (DFL) to improve the efficiency of distributed machine learning (ML) model training by accounting for communication delays between edge and cloud. Different from traditional federated learning, DFL leverages multiple stochastic gradient descent iterations on local datasets within each global aggregation period and intermittently aggregates model parameters through edge servers in local subnetworks. During global synchronization, the cloud server consolidates local models with the outdated global model using a local-global combiner, thus preserving crucial elements of both, enhancing learning efficiency under the presence of delay. A set of conditions is obtained to achieve the sub-linear convergence rate of O(1/k) for strongly convex and smooth loss functions. Based on these findings, an adaptive control algorithm is developed for DFL, implementing policies to mitigate energy consumption and communication latency while aiming for sublinear convergence. Numerical evaluations show DFL's superior performance in terms of faster global model convergence, reduced resource consumption, and robustness against communication delays compared to existing FL algorithms. In summary, this proposed method offers improved efficiency and results when dealing with both convex and non-convex loss functions.
翻訳日:2023-09-29 22:46:11 公開日:2023-09-28
# ビデオ高効率一般化のためのチューブレット結合型自己スーパービジョン

Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization ( http://arxiv.org/abs/2303.11003v2 )

ライセンス: Link先を確認
Fida Mohammad Thoker, Hazel Doughty, Cees Snoek(参考訳) 動きに着目した映像表現を学習するための自己教師付き手法を提案する。 既存のアプローチでは、時間的に拡張されたビデオ間の距離を最小化し、空間的類似性を維持する。 代わりに、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶことを提案する。 ビデオに合成モーショントラジェクトリを加えて、それをチューブと呼ぶ。 異なるチューブレットの動きをシミュレートし、スケーリングや回転などの変換を適用することにより、事前学習データに現われる以上の動きパターンを導入する。 当社のアプローチでは,事前学習ビデオの25%しか使用していない場合,パフォーマンスを維持できる。 10の異なる下流設定の実験では、新しいドメインに対する競争性能と一般化性、きめ細かいアクションが示されています。

We propose a self-supervised method for learning motion-focused video representations. Existing approaches minimize distances between temporally augmented videos, which maintain high spatial similarity. We instead propose to learn similarities between videos with identical local motion dynamics but an otherwise different appearance. We do so by adding synthetic motion trajectories to videos which we refer to as tubelets. By simulating different tubelet motions and applying transformations, such as scaling and rotation, we introduce motion patterns beyond what is present in the pretraining data. This allows us to learn a video representation that is remarkably data efficient: our approach maintains performance when using only 25\% of the pretraining videos. Experiments on 10 diverse downstream settings demonstrate our competitive performance and generalizability to new domains and fine-grained actions.
翻訳日:2023-09-29 22:45:49 公開日:2023-09-28
# TrafficBots: 自律走行シミュレーションとモーション予測のための世界モデルを目指して

TrafficBots: Towards World Models for Autonomous Driving Simulation and Motion Prediction ( http://arxiv.org/abs/2303.04116v2 )

ライセンス: Link先を確認
Zhejun Zhang, Alexander Liniger, Dengxin Dai, Fisher Yu, Luc Van Gool(参考訳) データ駆動型シミュレーションは、自律運転アルゴリズムのトレーニングとテストに好適な方法となっている。 実環境を学習シミュレータに置き換えるというアイデアは、世界モデルの文脈におけるモデルベース強化学習でも研究されている。 本研究では,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示す。 我々は、モーション予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介し、TrafficBotsに基づいて、自動運転車の計画モジュールに適した世界モデルを得る。 既存のデータ駆動型トラフィックシミュレータには、構成性やスケーラビリティがない。 設定可能な振る舞いを生成するために、各エージェントに対して、目的地をナビゲーション情報として導入し、行動スタイルを規定する時間不変の潜時パーソナリティを導入する。 拡張性を向上させるために,すべてのエージェントが同じベクトル化されたコンテキストを共有し,ドット製品注目に基づくアーキテクチャを使用することを可能にする,アングルの位置符号化の新たなスキームを提案する。 その結果、密集した都市シナリオで見られる全ての交通参加者をシミュレートすることができる。 waymoオープンモーションデータセットの実験では、trafficbotsはリアルなマルチエージェント動作をシミュレートし、動き予測タスクで優れたパフォーマンスを達成することができる。

Data-driven simulation has become a favorable way to train and test autonomous driving algorithms. The idea of replacing the actual environment with a learned simulator has also been explored in model-based reinforcement learning in the context of world models. In this work, we show data-driven traffic simulation can be formulated as a world model. We present TrafficBots, a multi-agent policy built upon motion prediction and end-to-end driving, and based on TrafficBots we obtain a world model tailored for the planning module of autonomous vehicles. Existing data-driven traffic simulators are lacking configurability and scalability. To generate configurable behaviors, for each agent we introduce a destination as navigational information, and a time-invariant latent personality that specifies the behavioral style. To improve the scalability, we present a new scheme of positional encoding for angles, allowing all agents to share the same vectorized context and the use of an architecture based on dot-product attention. As a result, we can simulate all traffic participants seen in dense urban scenarios. Experiments on the Waymo open motion dataset show TrafficBots can simulate realistic multi-agent behaviors and achieve good performance on the motion prediction task.
翻訳日:2023-09-29 22:45:37 公開日:2023-09-28
# EvCenterNet: 証拠学習を用いた物体検出の不確かさ推定

EvCenterNet: Uncertainty Estimation for Object Detection using Evidential Learning ( http://arxiv.org/abs/2303.03037v2 )

ライセンス: Link先を確認
Monish R. Nallapareddy, Kshitij Sirohi, Paulo L. J. Drews-Jr, Wolfram Burgard, Chih-Hong Cheng, Abhinav Valada(参考訳) 高レベルの意思決定や経路計画などの下流タスクに貴重な情報を提供するため、自動運転などの安全クリティカルな設定では不確実性推定が不可欠である。 そこで本研究では,証明学習を用いた新しい不確実性認識型2次元物体検出フレームワークevcenternetを提案し,分類と回帰的不確実性の両方を直接推定する。 物体検出に実証学習を取り入れるために,スパースヒートマップ入力に対する顕在的損失関数と焦点的損失関数の組み合わせを考案する。 そこで本研究では,回帰とヒートマップ予測のためのクラスバランス重み付けを導入し,実証学習で生じるクラス不均衡に取り組む。 さらに,予測熱マップの不確かさを積極的に活用し,最も不確実な点に着目して検出性能を向上させる学習手法を提案する。 我々は、KITTIデータセット上でモデルをトレーニングし、BDD100KやnuImagesなどの配布外データセットに挑戦して評価する。 本実験は,本手法が精度を向上し,ベースモデルに対する実行時間損失を最小化することを示す。

Uncertainty estimation is crucial in safety-critical settings such as automated driving as it provides valuable information for several downstream tasks including high-level decision making and path planning. In this work, we propose EvCenterNet, a novel uncertainty-aware 2D object detection framework using evidential learning to directly estimate both classification and regression uncertainties. To employ evidential learning for object detection, we devise a combination of evidential and focal loss functions for the sparse heatmap inputs. We introduce class-balanced weighting for regression and heatmap prediction to tackle the class imbalance encountered by evidential learning. Moreover, we propose a learning scheme to actively utilize the predicted heatmap uncertainties to improve the detection performance by focusing on the most uncertain points. We train our model on the KITTI dataset and evaluate it on challenging out-of-distribution datasets including BDD100K and nuImages. Our experiments demonstrate that our approach improves the precision and minimizes the execution time loss in relation to the base model.
翻訳日:2023-09-29 22:45:19 公開日:2023-09-28
# 偏光状態を超えた量子状態試験と量子三角偏差

Quantum state testing beyond the polarizing regime and quantum triangular discrimination ( http://arxiv.org/abs/2303.01952v3 )

ライセンス: Link先を確認
Yupan Liu(参考訳) 複雑性クラスであるQuantum Statistical Zero-Knowledge ($\mathsf{QSZK}$)は、Watrous (FOCS 2002)によって導入されたQuantum State Distinguishability Problem (QSDP)として知られるトレース距離に関する時間境界量子状態テスト問題の計算困難を捉えている。 しかし、qsdpは、偏光補題(sdpのエラー低減)のため、sahai と vadhan (jacm 2003) によって示される古典的な例と同様、一定の偏光領域内でのみ$\mathsf{qszk}$ である。 最近、Berman, Degwekar, Rothblum, and Vasudevan (TCC 2019)は、三角偏差とジェンセン=シャノンの発散に関する時間境界分布試験問題を通じて、偏光政権を超えてSDPの$\mathsf{SZK}$の封じ込めを拡張した。 本研究は、三角弁別のための量子対数を定義することにより、これらの問題に対する適切な量子アナログを導入する。 量子アナログが古典的アナログと同様に振る舞うかどうかを調べ、量子距離に関する偏光に対する既存のアプローチの限界を調べる。 これらの新しい$\mathsf{QSZK}$-完全問題は、偏極状態を超えたQSDPの包含を改善し、Ben-Aroya、Schwartz、Ta-Shmaによって定義された量子エントロピー差分問題(QEDP)に対する単純な$\mathsf{QSZK}$-hardnessを確立する(ToC 2010)。 さらに、指数関数的に小さいエラーを持つqsdpは$\mathsf{pp}$であり、エラーのない同じ問題は$\mathsf{nqp}$であることが証明される。

The complexity class Quantum Statistical Zero-Knowledge ($\mathsf{QSZK}$) captures computational difficulties of the time-bounded quantum state testing problem with respect to the trace distance, known as the Quantum State Distinguishability Problem (QSDP) introduced by Watrous (FOCS 2002). However, QSDP is in $\mathsf{QSZK}$ merely within the constant polarizing regime, similar to its classical counterpart shown by Sahai and Vadhan (JACM 2003) due to the polarization lemma (error reduction for SDP). Recently, Berman, Degwekar, Rothblum, and Vasudevan (TCC 2019) extended the $\mathsf{SZK}$ containment for SDP beyond the polarizing regime via the time-bounded distribution testing problems with respect to the triangular discrimination and the Jensen-Shannon divergence. Our work introduces proper quantum analogs for these problems by defining quantum counterparts for triangular discrimination. We investigate whether the quantum analogs behave similarly to their classical counterparts and examine the limitations of existing approaches to polarization regarding quantum distances. These new $\mathsf{QSZK}$-complete problems improve $\mathsf{QSZK}$ containments for QSDP beyond the polarizing regime and establish a simple $\mathsf{QSZK}$-hardness for the quantum entropy difference problem (QEDP) defined by Ben-Aroya, Schwartz, and Ta-Shma (ToC 2010). Furthermore, we prove that QSDP with some exponentially small errors is in $\mathsf{PP}$, while the same problem without error is in $\mathsf{NQP}$.
翻訳日:2023-09-29 22:45:00 公開日:2023-09-28
# Tiny Classifier Circuits: タブラルデータのためのアクセラレータの進化

Tiny Classifier Circuits: Evolving Accelerators for Tabular Data ( http://arxiv.org/abs/2303.00031v2 )

ライセンス: Link先を確認
Konstantinos Iordanou, Timothy Atkinson, Emre Ozer, Jedrzej Kufel, John Biggs, Gavin Brown and Mikel Lujan(参考訳) エッジコンピューティングのための典型的な機械学習(ML)開発サイクルは、モデルトレーニング中のパフォーマンスを最大化し、トレーニングされたモデルのメモリ/領域フットプリントを最小化し、CPU、GPU、マイクロコントローラ、カスタムハードウェアアクセラレータをターゲットにしたエッジデバイスにデプロイすることである。 本稿では,従来のML手法に匹敵する予測性能を持つ表データの分類のための予測回路を自動的に生成する手法を提案する。 提案手法は、進化的アルゴリズムを用いて論理ゲートの空間を探索し、学習予測精度を最大化する分類回路を自動生成する。 分類回路は非常に小さく(すなわち300以上の論理ゲートで構成される)、「Tiny Classifier」回路と呼ばれ、ASICやFPGAで効率的に実装できる。 そこで我々は,多層パーセプトロンを用いたニューラルネットワークやAmazonのAutoGluon,GoogleのTabNetなどの従来のML技術と比較し,多層パーセプトロンを用いた自動Tiny分類回路生成手法や"Auto Tiny Classifiers"を実証的に評価した。 Tiny Classifiersは数百の論理ゲートに制約されているが、予測性能の統計的差はMLベースラインと比較して有意である。 シリコンチップとして合成されると、Tiny Classifiersは8-18倍の面積と4-8倍の電力を使用する。 フレキシブル基板(FlexIC)上の超低価格チップとして実装されると、10-75倍の面積を占め、最もハードウェア効率のよいMLベースラインに比べて13-75倍の電力を消費する。 fpgaでは、小さな分類器が3-11倍のリソースを消費する。

A typical machine learning (ML) development cycle for edge computing is to maximise the performance during model training and then minimise the memory/area footprint of the trained model for deployment on edge devices targeting CPUs, GPUs, microcontrollers, or custom hardware accelerators. This paper proposes a methodology for automatically generating predictor circuits for classification of tabular data with comparable prediction performance to conventional ML techniques while using substantially fewer hardware resources and power. The proposed methodology uses an evolutionary algorithm to search over the space of logic gates and automatically generates a classifier circuit with maximised training prediction accuracy. Classifier circuits are so tiny (i.e., consisting of no more than 300 logic gates) that they are called "Tiny Classifier" circuits, and can efficiently be implemented in ASIC or on an FPGA. We empirically evaluate the automatic Tiny Classifier circuit generation methodology or "Auto Tiny Classifiers" on a wide range of tabular datasets, and compare it against conventional ML techniques such as Amazon's AutoGluon, Google's TabNet and a neural search over Multi-Layer Perceptrons. Despite Tiny Classifiers being constrained to a few hundred logic gates, we observe no statistically significant difference in prediction performance in comparison to the best-performing ML baseline. When synthesised as a Silicon chip, Tiny Classifiers use 8-18x less area and 4-8x less power. When implemented as an ultra-low cost chip on a flexible substrate (i.e., FlexIC), they occupy 10-75x less area and consume 13-75x less power compared to the most hardware-efficient ML baseline. On an FPGA, Tiny Classifiers consume 3-11x fewer resources.
翻訳日:2023-09-29 22:44:23 公開日:2023-09-28
# 金融時系列の価格予測のためのディープラーニングモデル:最近の進歩を振り返る:2020-2022

Deep learning models for price forecasting of financial time series: A review of recent advancements: 2020-2022 ( http://arxiv.org/abs/2305.04811v2 )

ライセンス: Link先を確認
Cheng Zhang, Nilam Nur Amir Sjarif, Roslina Ibrahim(参考訳) 金融時系列の価格を正確に予測することは金融セクターにとって不可欠で難しい。 ディープラーニング技術の最近の進歩により、ディープラーニングモデルは、価格予測タスクの最初の選択肢として、従来の統計モデルや機械学習モデルを徐々に置き換えつつある。 このモデル選択の変化は、価格予測にディープラーニングモデルを適用することに関連する研究が著しく増加し、新たな知識が急速に蓄積された。 そこで,この分野の研究者や実践者の支援を目的として,過去3年間の関連研究の文献レビューを行った。 このレビューは、ディープラーニングに基づく予測モデルについて深く掘り下げ、モデルアーキテクチャ、実践的応用、およびそれぞれの利点と欠点に関する情報を提示する。 特に、価格予測のための高度なモデル、例えばトランスフォーマー、gans(generative adversarial network)、gnns(graph neural network)、dqnn(deep quantum neural network)などの詳細な情報が提供される。 本研究は,価格予測のための複雑な構造を持つ深層学習モデルの有効性の検討,深層学習モデルを用いた点予測から区間予測への拡張,分解アンサンブルの信頼性と妥当性の検証,データボリュームがモデル性能に与える影響の探索など,今後の研究に向けた潜在的方向性も含んでいる。

Accurately predicting the prices of financial time series is essential and challenging for the financial sector. Owing to recent advancements in deep learning techniques, deep learning models are gradually replacing traditional statistical and machine learning models as the first choice for price forecasting tasks. This shift in model selection has led to a notable rise in research related to applying deep learning models to price forecasting, resulting in a rapid accumulation of new knowledge. Therefore, we conducted a literature review of relevant studies over the past three years with a view to aiding researchers and practitioners in the field. This review delves deeply into deep learning-based forecasting models, presenting information on model architectures, practical applications, and their respective advantages and disadvantages. In particular, detailed information is provided on advanced models for price forecasting, such as Transformers, generative adversarial networks (GANs), graph neural networks (GNNs), and deep quantum neural networks (DQNNs). The present contribution also includes potential directions for future research, such as examining the effectiveness of deep learning models with complex structures for price forecasting, extending from point prediction to interval prediction using deep learning models, scrutinising the reliability and validity of decomposition ensembles, and exploring the influence of data volume on model performance.
翻訳日:2023-09-29 22:38:55 公開日:2023-09-28
# 一般化結合と量子シュール変換のための基本アルゴリズム

Generalised Coupling and An Elementary Algorithm for the Quantum Schur Transform ( http://arxiv.org/abs/2305.04069v2 )

ライセンス: Link先を確認
Adam Wills, Sergii Strelchuk(参考訳) 量子シューア変換(quantum schur transform)は、計算基底をユニタリ群と対称群の既約表現からなる結合基底に写像する基本的な構成ブロックである。 等価に、これは計算基底から置換量子コンピューティング(pqc)の同時スピン固有ベイシスへの基底の変化と見なすことができる [量子 inf. comput., 10, 470-497 (2010)]。 後者の観点を採用することにより、$O(\log(n))$ ancillas を用いて、$O(n^3\log(n)\log(\frac{n}{\epsilon}))$ Clifford + T gates の列に分解できるような量子シュア変換を実装するための透明なアルゴリズムを提案する。 これは、以前の実装のアンシラ数でよく知られた上限値と一致する。 クレプシュ・ゴルダン係数によって結合された量子ビットからなるシュール状態を研究することにより、一般結合量子状態の概念を導入する。 我々は6つの条件を提示し、異なる組み合わせで量子コンピュータ上のこれらの状態の効率的な生成や(計算容量の意味で)古典的シミュラビリティを保証する。 wigner 6-j 記号と su(n) clebsch-gordan 係数は自然に我々の枠組みに適合する。 最後に,計算可能状態のクラスを保存するユニタリ変換について検討する。

The quantum Schur transform is a fundamental building block that maps the computational basis to a coupled basis consisting of irreducible representations of the unitary and symmetric groups. Equivalently, it may be regarded as a change of basis from the computational basis to a simultaneous spin eigenbasis of Permutational Quantum Computing (PQC) [Quantum Inf. Comput., 10, 470-497 (2010)]. By adopting the latter perspective, we present a transparent algorithm for implementing the qubit quantum Schur transform which uses $O(\log(n))$ ancillas and can be decomposed into a sequence of $O(n^3\log(n)\log(\frac{n}{\epsilon}))$ Clifford + T gates, where $\epsilon$ is the accuracy of the algorithm in terms of the trace norm. This matches the best known upper bound for the ancilla count of previous implementations. By studying the associated Schur states, which consist of qubits coupled via Clebsch-Gordan coefficients, we introduce the notion of generally coupled quantum states. We present six conditions, which in different combinations ensure the efficient preparation of these states on a quantum computer or their classical simulability (in the sense of computational tractability). It is shown that Wigner 6-j symbols and SU(N) Clebsch-Gordan coefficients naturally fit our framework. Finally, we investigate unitary transformations which preserve the class of computationally tractable states.
翻訳日:2023-09-29 22:38:30 公開日:2023-09-28
# LMEye:大規模言語モデルのための対話型知覚ネットワーク

LMEye: An Interactive Perception Network for Large Language Models ( http://arxiv.org/abs/2305.03701v6 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, Yong Xu, and Min Zhang(参考訳) GPT-4のように、ゼロからMLLM(Multimodal Large Language Model)を訓練することはリソース集約である。 本稿では,マルチモーダル情報処理のコアプロセッサである大言語モデル(llms)について,llmと外部視覚情報との動的相互作用を可能にするために設計された対話型知覚ネットワークを備えた人間のような眼であるlmeyeを提案する。 従来の手法では、BLIP-2の単純なビジュアルマッピングネットワークやQ-formerを用いて、視覚情報をLLMに組み込む方法があった。 このようなネットワークは一度画像機能を投影するが、画像と人間の入力クエリの相互作用は考慮しない。 したがって、人間の意図に繋がることなく得られる視覚情報は、LLMが意図追従応答を生成するのに不十分である可能性がある。 LMEye はこの問題に対処するため,LLM が希望する視覚情報を様々な人間の指示に合わせるように要求することを許可し,これを動的視覚情報相互作用と呼ぶ。 具体的には、LMEyeは単純な視覚マッピングネットワークからなり、LLMのイメージの基本的な認識を提供する。 また、LCMからの要求を取得し、リクエストベースの視覚情報インタラクションを実行し、その結果の視覚情報をそれぞれLLMに送信するモジュールも追加されている。 このようにして、LLMは人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。 lmeyeをマルチモーダルベンチマークの広範囲な実験により評価し,従来の手法に比べてパラメータの少ないマルチモーダルタスクのゼロショット性能が大幅に向上することを示した。

Training a Multimodal Large Language Model (MLLM) from scratch, like GPT-4, is resource-intensive. Regarding Large Language Models (LLMs) as the core processor for multimodal information, our paper introduces LMEye, a human-like eye with a play-and-plug interactive perception network, designed to enable dynamic interaction between LLMs and external vision information. Previous methods incorporate visual information into LLMs with a simple visual mapping network or Q-former from BLIP-2. Such networks project the image feature once yet do not consider the interaction between the image and the human input query. Hence, the obtained visual information without being connected to human intention may be inadequate for LLMs to generate intention-following responses, which we refer to as static visual information. LMEye addresses this issue by allowing the LLM to request the desired visual information aligned with various human instructions, which we term as the dynamic visual information interaction. Specifically, LMEye consists of a simple visual mapping network to provide the basic perception of an image for LLMs. It also contains additional modules responsible for acquiring requests from LLMs, performing request-based visual information interaction, and transmitting the resulting interacted visual information to LLMs, respectively. In this way, LLMs act to understand the human query, deliver the corresponding request to the request-based visual information interaction module, and generate the response based on the interleaved multimodal information. We evaluate LMEye through extensive experiments on some multimodal benchmarks, demonstrating that it significantly improves the zero-shot performance on various multimodal tasks compared to previous methods, with less parameters.
翻訳日:2023-09-29 22:37:31 公開日:2023-09-28
# 創発組織の普遍表現を用いた異常気象事象の教師なし発見

Unsupervised Discovery of Extreme Weather Events Using Universal Representations of Emergent Organization ( http://arxiv.org/abs/2304.12586v2 )

ライセンス: Link先を確認
Adam Rupe and Karthik Kashinath and Nalini Kumar and James P. Crutchfield(参考訳) 自発的自己組織化は熱力学的平衡から遠く離れたシステムにおいてユビキタスである。 輸送特性を支配する組織構造は存在するが、これらの重要な対象を識別し記述する普遍表現はいまだに解明されていない。 本稿では,データ駆動型アルゴリズムによる創発的組織を記述するための理論的根拠付きフレームワークを提案する。 ビルディングブロックは、局所的な相互作用を通じてシステムがいかに情報伝達するかを具現化した時空の光錐である。 局所因果状態である光錐の予測等価クラスが複雑な時空間系における組織的挙動やコヒーレント構造を捉えることを示す。 教師なし物理インフォームド機械学習アルゴリズムと高性能コンピューティング実装を用いて、2つの実世界の領域科学問題におけるコヒーレント構造の自動発見を実証する。 局所因果状態が渦を同定し, 2次元流体乱流中のパワーロー減衰挙動を追跡することを示した。 そして、高分解能気候データから、慣れ親しんだ極端な気象現象(ハリケーンや大気河川)を検知し追跡する方法を示し、降水極端に関連する他の新しいコヒーレント構造をグリッドセルレベルで発見する。

Spontaneous self-organization is ubiquitous in systems far from thermodynamic equilibrium. While organized structures that emerge dominate transport properties, universal representations that identify and describe these key objects remain elusive. Here, we introduce a theoretically-grounded framework for describing emergent organization that, via data-driven algorithms, is constructive in practice. Its building blocks are spacetime lightcones that embody how information propagates across a system through local interactions. We show that predictive equivalence classes of lightcones -- local causal states -- capture organized behaviors and coherent structures in complex spatiotemporal systems. Employing an unsupervised physics-informed machine learning algorithm and a high-performance computing implementation, we demonstrate automatically discovering coherent structures in two real world domain science problems. We show that local causal states identify vortices and track their power-law decay behavior in two-dimensional fluid turbulence. We then show how to detect and track familiar extreme weather events -- hurricanes and atmospheric rivers -- and discover other novel coherent structures associated with precipitation extremes in high-resolution climate data at the grid-cell level.
翻訳日:2023-09-29 22:37:02 公開日:2023-09-28
# 最小二乗最適化による非線形系に対する安定還元次ビズモータポリシの合成

Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear Systems via Sums-of-Squares Optimization ( http://arxiv.org/abs/2304.12405v2 )

ライセンス: Link先を確認
Glen Chou, Russ Tedrake(参考訳) フィードバック制御ループにおける視覚的観察と学習知覚モジュールを用いた場合、目標状態に対する実行時の安定性を保証する制御-アフィン非線形系に対する動的で低次出力-フィードバック多項式制御ポリシーの合成法を提案する。 我々は、リアプノフ分析を利用して、そのようなポリシーを合成する問題を定式化する。 この問題は、ポリシーの安定性を証明するために使われるポリシーパラメータとリアプノフ関数の非凸である。 この問題を解決するために,まず二乗和最適化問題の列を解き,構成によって確実に安定できる方針を反復的に改善し,また,次は多項式政策のパラメータに対して勾配に基づく最適化を行い,その閉ループ安定性を後続的に検証する。 我々は,学習知覚モジュールの誤りにより現実的に発生する観測ノイズの存在下での安定性保証を提供するためのアプローチを拡張した。 我々は,pendula や quadrotor などいくつかの非定常非線形システムに対する我々のアプローチを評価し,画像からシステムを制御する際の経験的安定性が保証されることを示した。

We present a method for synthesizing dynamic, reduced-order output-feedback polynomial control policies for control-affine nonlinear systems which guarantees runtime stability to a goal state, when using visual observations and a learned perception module in the feedback control loop. We leverage Lyapunov analysis to formulate the problem of synthesizing such policies. This problem is nonconvex in the policy parameters and the Lyapunov function that is used to prove the stability of the policy. To solve this problem approximately, we propose two approaches: the first solves a sequence of sum-of-squares optimization problems to iteratively improve a policy which is provably-stable by construction, while the second directly performs gradient-based optimization on the parameters of the polynomial policy, and its closed-loop stability is verified a posteriori. We extend our approach to provide stability guarantees in the presence of observation noise, which realistically arises due to errors in the learned perception module. We evaluate our approach on several underactuated nonlinear systems, including pendula and quadrotors, showing that our guarantees translate to empirical stability when controlling these systems from images, while baseline approaches can fail to reliably stabilize the system.
翻訳日:2023-09-29 22:36:42 公開日:2023-09-28
# 古典計画としての量子回路の最適レイアウト合成(フルバージョン)

Optimal Layout Synthesis for Quantum Circuits as Classical Planning (full version) ( http://arxiv.org/abs/2304.12014v4 )

ライセンス: Link先を確認
Irfansha Shaik and Jaco van de Pol(参考訳) レイアウト合成において、量子回路の論理量子ビットは、与えられた量子ハードウェアプラットフォームの物理量子ビットにマッピングされ、物理量子ビットの接続性を考慮する。 これは、操作が遠いキュービットに適用される前にSWAPゲートを挿入することを含む。 SWAPゲートの数の最小化は、量子回路を実行する際のエラー率を直接緩和する。 近年,スワップ挿入を最小化する手法がいくつか提案されている。 提案した正確なアプローチは、少数の量子ビットにしかスケールできない。 スワップ挿入が最適であることを証明することは、近似最適写像を生成するよりもはるかに難しい。 本稿では,古典的計画問題として最適レイアウト合成のための2つの符号化を提案する。 最適な古典的プランナーを用いて標準ベンチマークの最適レイアウトを合成する。 その結果,これまでの先行アプローチと比較して,アプローチのスケーラビリティが示された。 9量子ビットの回路を14量子ビットのプラットフォームに最適にマッピングできるが、正確な方法では処理できなかった。

In Layout Synthesis, the logical qubits of a quantum circuit are mapped to the physical qubits of a given quantum hardware platform, taking into account the connectivity of physical qubits. This involves inserting SWAP gates before an operation is applied on distant qubits. Optimal Layout Synthesis is crucial for practical Quantum Computing on current error-prone hardware: Minimizing the number of SWAP gates directly mitigates the error rates when running quantum circuits. In recent years, several approaches have been proposed for minimizing the required SWAP insertions. The proposed exact approaches can only scale to a small number of qubits. Proving that a number of swap insertions is optimal is much harder than producing near optimal mappings. In this paper, we provide two encodings for Optimal Layout Synthesis as a classical planning problem. We use optimal classical planners to synthesize the optimal layout for a standard set of benchmarks. Our results show the scalability of our approach compared to previous leading approaches. We can optimally map circuits with 9 qubits onto a 14 qubit platform, which could not be handled before by exact methods.
翻訳日:2023-09-29 22:36:19 公開日:2023-09-28
# Generative Disco:音楽可視化のためのテキスト・ビデオ生成

Generative Disco: Text-to-Video Generation for Music Visualization ( http://arxiv.org/abs/2304.08551v2 )

ライセンス: Link先を確認
Vivian Liu, Tao Long, Nathan Raw, Lydia Chilton(参考訳) 視覚は音楽の体験を高めることができ、その内部で伝えられる感情やメッセージの増幅方法によってもたらされる。 しかし、音楽の視覚化は複雑で時間がかかり、リソース集約的なプロセスである。 我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。 このシステムは、インターバルが開始・終了する画像をプロンプトし、音楽のビートに合わせて補間することで、ユーザーが音楽の間隔を可視化するのを助ける。 色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。 専門家による研究によると、移行と保持は、一貫性のあるビジュアルな物語を構築できる非常に表現力のあるフレームワークであった。 我々は、これらのパターンの一般化可能性と、創造的プロフェッショナルのための生成ビデオの可能性について結論づける。

Visuals can enhance our experience of music, owing to the way they can amplify the emotions and messages conveyed within it. However, creating music visualization is a complex, time-consuming, and resource-intensive process. We introduce Generative Disco, a generative AI system that helps generate music visualizations with large language models and text-to-video generation. The system helps users visualize music in intervals by finding prompts to describe the images that intervals start and end on and interpolating between them to the beat of the music. We introduce design patterns for improving these generated videos: transitions, which express shifts in color, time, subject, or style, and holds, which help focus the video on subjects. A study with professionals showed that transitions and holds were a highly expressive framework that enabled them to build coherent visual narratives. We conclude on the generalizability of these patterns and the potential of generated video for creative professionals.
翻訳日:2023-09-29 22:35:32 公開日:2023-09-28
# IBIA: 分割関数の近似推定のためのインクリメンタルビルド-インフェール近似フレームワーク

IBIA: An Incremental Build-Infer-Approximate Framework for Approximate Inference of Partition Function ( http://arxiv.org/abs/2304.06366v2 )

ライセンス: Link先を確認
Shivani Bathla and Vinita Vasudevan(参考訳) 分割関数の厳密な計算は難解であることが知られ、近似推論技術を必要とする。 近似推論の既存の方法は、多くのベンチマークでは収束が遅い。 精度・複雑さのトレードオフの制御は、これらの方法の多くでは非自明である。 本稿では,これらの問題に対処する近似推論のための新しいIBIAフレームワークを提案する。 このフレームワークでは、確率的グラフィカルモデルは、境界付きクレークサイズを持つクレークツリーフォレスト(sctf)のシーケンスに変換される。 SCTFを用いて分割関数を効率的に計算できることが示される。 本稿では,SCTFの構築と,その正当性を証明するために2つの新しいアルゴリズムを提案する。 第1のアルゴリズムは、有界cliqueサイズで有効なCTFを与えることが保証されるCTFのインクリメンタルな構成のためのアルゴリズムであり、第2のアルゴリズムは、キャリブレーションされたCTFを入力とし、出力として、クリリドサイズを小さくした有効なCTFを得る近似アルゴリズムである。 我々は,最近のuaiコンペティションから得られたベンチマークセットを用いて,本手法を評価した。

Exact computation of the partition function is known to be intractable, necessitating approximate inference techniques. Existing methods for approximate inference are slow to converge for many benchmarks. The control of accuracy-complexity trade-off is also non-trivial in many of these methods. We propose a novel incremental build-infer-approximate (IBIA) framework for approximate inference that addresses these issues. In this framework, the probabilistic graphical model is converted into a sequence of clique tree forests (SCTF) with bounded clique sizes. We show that the SCTF can be used to efficiently compute the partition function. We propose two new algorithms which are used to construct the SCTF and prove the correctness of both. The first is an algorithm for incremental construction of CTFs that is guaranteed to give a valid CTF with bounded clique sizes and the second is an approximation algorithm that takes a calibrated CTF as input and yields a valid and calibrated CTF with reduced clique sizes as the output. We have evaluated our method using several benchmark sets from recent UAI competitions and our results show good accuracies with competitive runtimes.
翻訳日:2023-09-29 22:35:15 公開日:2023-09-28
# セマンティクス整合トランスフォーマによるアライメントフリーhdrデグホスト

Alignment-free HDR Deghosting with Semantics Consistent Transformer ( http://arxiv.org/abs/2305.18135v2 )

ライセンス: Link先を確認
Steven Tel, Zongwei Wu, Yulun Zhang, Barth\'el\'emy Heyrman, C\'edric Demonceaux, Radu Timofte, Dominique Ginhac(参考訳) 高ダイナミックレンジイメージング(HDR)は、複数の低ダイナミックレンジ入力から情報を取得し、現実的な出力を生成することを目的としている。 本質的には、動的セマンティクスと静的セマンティクスの両方を含むコンテキスト情報を活用して、画像生成を改善する。 既存の手法では、前景やカメラの動きによる入力フレーム間の空間的不一致にしばしば焦点が当てられている。 しかし,動的コンテキストと静的コンテキストを同時に活用する研究は行われていない。 そこで本研究では,ネットワーク内の空間的およびチャネル的注意モジュールを併せ持つ,意味的一貫性を持つトランスフォーマー(sctnet)を用いたアライメントフリーネットワークを提案する。 空間的注意は動的動きをモデル化するための画像内相関に対処することを目的としており、チャネル的注意は画像間干渉を可能にし、フレーム間のセマンティック一貫性を高める。 これとは別に、前景の物体、環境要因、より大きな動きのバリエーションを持つ新しいリアルなHDRデータセットを導入する。 従来のデータセットと我々のデータの比較は,提案手法の有効性を検証し,性能と計算コストのトレードオフを最大化している。

High dynamic range (HDR) imaging aims to retrieve information from multiple low-dynamic range inputs to generate realistic output. The essence is to leverage the contextual information, including both dynamic and static semantics, for better image generation. Existing methods often focus on the spatial misalignment across input frames caused by the foreground and/or camera motion. However, there is no research on jointly leveraging the dynamic and static context in a simultaneous manner. To delve into this problem, we propose a novel alignment-free network with a Semantics Consistent Transformer (SCTNet) with both spatial and channel attention modules in the network. The spatial attention aims to deal with the intra-image correlation to model the dynamic motion, while the channel attention enables the inter-image intertwining to enhance the semantic consistency across frames. Aside from this, we introduce a novel realistic HDR dataset with more variations in foreground objects, environmental factors, and larger motions. Extensive comparisons on both conventional datasets and ours validate the effectiveness of our method, achieving the best trade-off on the performance and the computational cost.
翻訳日:2023-09-29 22:28:09 公開日:2023-09-28
# 多インスタンス部分ラベル学習のための曖昧な注意埋め込み

Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning ( http://arxiv.org/abs/2305.16912v2 )

ライセンス: Link先を確認
Wei Tang, Weijia Zhang, Min-Ling Zhang(参考訳) 多くの実世界のタスクでは、関係するオブジェクトは1つの接地ラベルと複数の偽陽性ラベルからなる候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。 マルチインスタンス部分ラベル学習(MIPL)は、そのようなタスクに対処する学習パラダイムであり、良好なパフォーマンスを実現している。 既存のmiplアプローチはインスタンス空間のパラダイムに従い、拡張されたバッグのラベルセットを各インスタンスに割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約する。 しかし、グローバルバッグレベルの情報は無視され、予測されたバッグのラベルは負のインスタンスの予測に敏感であるため、このスキームは最適ではないかもしれない。 本論文では,マルチインスタンスバッグを1つのベクトル表現に埋め込んだ代替手法を提案する。 そこで,マルチインテンス部分ラベル学習のための非あいまいな注意埋め込み法である demipl という直感的アルゴリズムを提案する。 DEMIPLは、マルチインスタンスバッグを単一のベクトル表現に集約するための曖昧な注意機構を採用し、続いて、モーメントに基づく曖昧な戦略を用いて、候補ラベルセットから基底トラスラベルを識別する。 さらに,大腸癌分類のための実世界のmiplデータセットも紹介する。 ベンチマークおよび実世界のデータセットによる実験結果は、DEMIPLのMIPLおよび部分ラベル学習アプローチに対する優位性を検証した。

In many real-world tasks, the concerned objects can be represented as a multi-instance bag associated with a candidate label set, which consists of one ground-truth label and several false positive labels. Multi-instance partial-label learning (MIPL) is a learning paradigm to deal with such tasks and has achieved favorable performances. Existing MIPL approach follows the instance-space paradigm by assigning augmented candidate label sets of bags to each instance and aggregating bag-level labels from instance-level labels. However, this scheme may be suboptimal as global bag-level information is ignored and the predicted labels of bags are sensitive to predictions of negative instances. In this paper, we study an alternative scheme where a multi-instance bag is embedded into a single vector representation. Accordingly, an intuitive algorithm named DEMIPL, i.e., Disambiguated attention Embedding for Multi-Instance Partial-Label learning, is proposed. DEMIPL employs a disambiguation attention mechanism to aggregate a multi-instance bag into a single vector representation, followed by a momentum-based disambiguation strategy to identify the ground-truth label from the candidate label set. Furthermore, we introduce a real-world MIPL dataset for colorectal cancer classification. Experimental results on benchmark and real-world datasets validate the superiority of DEMIPL against the compared MIPL and partial-label learning approaches.
翻訳日:2023-09-29 22:27:50 公開日:2023-09-28
# rc-bevfusion:レーダーカメラ鳥の目視機能融合用プラグインモジュール

RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature Fusion ( http://arxiv.org/abs/2305.15883v2 )

ライセンス: Link先を確認
Lukas St\"acker, Shashank Mishra, Philipp Heidenreich, Jason Rambach, Didier Stricker(参考訳) レーダーやカメラは、先進運転支援システムや自動運転研究に最も頻繁に使用されるセンサーである。 しかし、ニューラルネットワークとレーダーカメラの融合に関する研究は驚くほど少ない。 理由のひとつは、nuScenesデータセットを除いて、レーダーと無人カメラデータを備えた大規模な自動車データセットがないことだ。 もう一つの理由は、鳥の視線(BEV)面上のスパースレーダーポイント雲と、視線平面上の密集した画像とを効果的に融合させることの難しさである。 bev機能を用いたカメラベースの3dオブジェクト検出の最近のトレンドは、レーダーに適した新しいタイプの融合を可能にした。 本研究では,BEV平面上のモジュラーレーダカメラ融合ネットワークであるRC-BEVFusionを紹介する。 本稿では,新しいレーダエンコーダブランチであるbevfeaturenetを提案し,最先端のカメラベースのアーキテクチャに組み込むことができることを示す。 我々は,レーダー・カメラ融合研究における重要なステップであるnuScenes検出スコアにおいて,最大28%の性能向上を示す。 nuScenesベンチマークのモデルをチューニングすることなく、レーダカメラ融合カテゴリの全手法で最高の結果が得られる。

Radars and cameras belong to the most frequently used sensors for advanced driver assistance systems and automated driving research. However, there has been surprisingly little research on radar-camera fusion with neural networks. One of the reasons is a lack of large-scale automotive datasets with radar and unmasked camera data, with the exception of the nuScenes dataset. Another reason is the difficulty of effectively fusing the sparse radar point cloud on the bird's eye view (BEV) plane with the dense images on the perspective plane. The recent trend of camera-based 3D object detection using BEV features has enabled a new type of fusion, which is better suited for radars. In this work, we present RC-BEVFusion, a modular radar-camera fusion network on the BEV plane. We propose BEVFeatureNet, a novel radar encoder branch, and show that it can be incorporated into several state-of-the-art camera-based architectures. We show significant performance gains of up to 28% increase in the nuScenes detection score, which is an important step in radar-camera fusion research. Without tuning our model for the nuScenes benchmark, we achieve the best result among all published methods in the radar-camera fusion category.
翻訳日:2023-09-29 22:27:26 公開日:2023-09-28
# 投影量子進化による時間依存変分モンテカルロの非バイアス化

Unbiasing time-dependent Variational Monte Carlo by projected quantum evolution ( http://arxiv.org/abs/2305.14294v2 )

ライセンス: Link先を確認
Alessandro Sinibaldi, Clemens Giuliani, Giuseppe Carleo, Filippo Vicentini(参考訳) 変分モンテカルロ法による多体量子系の力学を古典的にシミュレートするための精度とサンプルの複雑さを解析する。 関連する確率的推定器を体系的に研究することで (i) 最もよく用いられるスキームである時間依存変分モンテカルロ(tvmc)は、波動関数がフェルミオン系や量子情報プロトコルにとって重要な場合である(おそらく近似)零点を含むとき、系統的統計バイアスまたは指数的サンプル複雑性に影響されていることを証明する。 (ii)各段階における最適化問題の解に基づく異なるスキームは、そのような問題から自由であることを示す。 (iii) この後者のアプローチのサンプル複雑性を、以前の概念実証に関して数桁の桁数で改善する。 最後に,2次元の局所ランダム測定による非クリフォードユニタリ力学のプロトコルを用いて,まず小さなスピン格子上でのベンチマークを行い,次に大規模システムに拡張した。

We analyze the accuracy and sample complexity of variational Monte Carlo approaches to simulate the dynamics of many-body quantum systems classically. By systematically studying the relevant stochastic estimators, we are able to: (i) prove that the most used scheme, the time-dependent Variational Monte Carlo (tVMC), is affected by a systematic statistical bias or exponential sample complexity when the wave function contains some (possibly approximate) zeros, an important case for fermionic systems and quantum information protocols; (ii) show that a different scheme based on the solution of an optimization problem at each time step is free from such problems; (iii) improve the sample complexity of this latter approach by several orders of magnitude with respect to previous proofs of concept. Finally, we apply our advancements to study the high-entanglement phase in a protocol of non-Clifford unitary dynamics with local random measurements in 2D, first benchmarking on small spin lattices and then extending to large systems.
翻訳日:2023-09-29 22:27:08 公開日:2023-09-28
# アクセプタビリティの判断を再考する

Revisiting Acceptability Judgements ( http://arxiv.org/abs/2305.14091v3 )

ライセンス: Link先を確認
Hai Hu and Ziyin Zhang and Weifang Huang and Jackie Yan-Ki Lai and Aini Li and Yina Patterson and Jiahui Huang and Peng Zhang and Chien-Jer Charles Lin and Rui Wang(参考訳) 本研究では,大規模言語モデルの文脈で言語受容性を再検討する。 非インド・ヨーロッパ語に対する最初の大規模受容性データセットであるCoLAC - Corpus of Linguistic Acceptabilityを中国語で紹介する。 ネイティブスピーカーによって検証され、言語学者のラベルと群衆のラベルの2つのラベルが付属する最初のアクセプタビリティデータセットである。 実験の結果,最大のインストラクトGPTモデルでさえ,CoLAC上では偶然にしか動作しないが,ChatGPTの性能(48.30 MCC)は教師付きモデル(59.03 MCC)と人間(65.11 MCC)よりもはるかに低いことがわかった。 クロスリンガル・トランスファー実験ときめ細かい言語解析を通じて,モデル予測の詳細な分析を行い,言語受容性に関する知識をタイプ論的に異なる言語間で伝達し,事前学習まで遡ることができることを示す。 データセットは \url{https://github.com/huhailinguist/CoLAC} で公開されています。

In this work, we revisit linguistic acceptability in the context of large language models. We introduce CoLAC - Corpus of Linguistic Acceptability in Chinese, the first large-scale acceptability dataset for a non-Indo-European language. It is verified by native speakers and is the first acceptability dataset that comes with two sets of labels: a linguist label and a crowd label. Our experiments show that even the largest InstructGPT model performs only at chance level on CoLAC, while ChatGPT's performance (48.30 MCC) is also much below supervised models (59.03 MCC) and human (65.11 MCC). Through cross-lingual transfer experiments and fine-grained linguistic analysis, we provide detailed analysis of the model predictions and demonstrate for the first time that knowledge of linguistic acceptability can be transferred across typologically distinct languages, as well as be traced back to pre-training. Our dataset is publicly available at \url{https://github.com/huhailinguist/CoLAC}.
翻訳日:2023-09-29 22:26:18 公開日:2023-09-28
# 2次元半導体集積スラブ導波路における誘導励起子偏光子の探索と制御

Probing and control of guided exciton-polaritons in a 2D semiconductor-integrated slab waveguide ( http://arxiv.org/abs/2305.12858v2 )

ライセンス: Link先を確認
Valeriy I. Kondratyev, Dmitry V. Permyakov, Tatyana V. Ivanova, Ivan V. Iorsh, Dmitry N. Krizhanovskii, Maurice S. Skolnick, Vasily Kravtsov, and Anton K. Samusev(参考訳) 半導体中の励起子と非放射導波路モードとの強い結合から生じる導電性2次元励起子-ポーラリトンは、新しいオンチップ光デバイスの開発に魅力的なアプローチを提供する。 これらの準粒子は長い伝播距離と効率的な非線形相互作用によって特徴づけられるが、自由空間から直接アクセスすることはできない。 本稿では,高インデックス固体浸漬レンズによるエバネッセントカップリングを用いたWS2単層一体型Ta2O5スラブにおける導電性偏光子探索と操作のための強力なアプローチを示す。 ナノスケールのレンズ-サンプルギャップをチューニングすることで、システムのすべての固有パラメータを抽出することができる。 また, 運動収縮効果の開始に伴う弱い結合から強い結合への遷移を示す: 励起子-光子結合強度の増加に伴い, 励起子共鳴から引き継いだ偏光子線幅への不均一な寄与が完全に持ち上げられる。 本研究では、2次元半導体構造における室温エキシトンポーラリトンを用いた集積光学の開発を可能にする。

Guided 2D exciton-polaritons, resulting from the strong coupling of excitons in semiconductors with non-radiating waveguide modes, provide an attractive approach towards developing novel on-chip optical devices. These quasiparticles are characterized by long propagation distances and efficient nonlinear interaction but cannot be directly accessed from the free space. Here we demonstrate a powerful approach for probing and manipulating guided polaritons in a Ta2O5 slab integrated with a WS2 monolayer using evanescent coupling through a high-index solid immersion lens. Tuning the nanoscale lens-sample gap allows for extracting all the intrinsic parameters of the system. We also demonstrate the transition from weak to strong coupling accompanied by the onset of the motional narrowing effect: with the increase of exciton-photon coupling strength, the inhomogeneous contribution to polariton linewidth, inherited from the exciton resonance, becomes fully lifted. Our results enable the development of integrated optics employing room-temperature exciton-polaritons in 2D semiconductor-based structures.
翻訳日:2023-09-29 22:26:01 公開日:2023-09-28
# LLM-Pruner:大規模言語モデルの構造解析について

LLM-Pruner: On the Structural Pruning of Large Language Models ( http://arxiv.org/abs/2305.11627v3 )

ライセンス: Link先を確認
Xinyin Ma, Gongfan Fang, Xinchao Wang(参考訳) 大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 しかしながら、そのような印象的な機能は通常、相当なモデルサイズが伴い、デプロイメント、推論、トレーニングステージの両方において大きな課題が生じる。 LLMは汎用的なタスクソルバであり,従来のLLMのマルチタスク解決と言語生成能力の維持を目的とした,タスク非依存の方法で圧縮を探索する。 これを実現するための1つの課題は、データ転送と後トレーニングのオーバーバーデンサムをモデル化するLLMのトレーニングコーパスの巨大なサイズである。 そこで本研究では,LLMの圧縮をタスク依存的であること,トレーニングデータセットへの依存を最小限に抑えること,という2つの制約の範囲内で行う。 llm-pruner という手法では,勾配情報に基づく非臨界結合構造を選択的に除去し,llmの機能の大部分を最大に保持する構造的プルーニングを採用する。 この目的のために、プルーニングされたモデルの性能は、わずか3時間で、わずか50Kのデータしか必要とせず、チューニング技術であるLoRAによって効率よく回復することができる。 LLaMA, Vicuna, ChatGLM の3つの LLM 上で LLM-Pruner の有効性を検証し, 圧縮されたモデルがゼロショットの分類と生成に満足できることを示す。 コードは、https://github.com/horseee/LLM-Prunerで入手できる。

Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in both the deployment, inference, and training stages. With LLM being a general-purpose task solver, we explore its compression in a task-agnostic manner, which aims to preserve the multi-task solving and language generation ability of the original LLM. One challenge to achieving this is the enormous size of the training corpus of LLM, which makes both data transfer and model post-training over-burdensome. Thus, we tackle the compression of LLMs within the bound of two constraints: being task-agnostic and minimizing the reliance on the original training dataset. Our method, named LLM-Pruner, adopts structural pruning that selectively removes non-critical coupled structures based on gradient information, maximally preserving the majority of the LLM's functionality. To this end, the performance of pruned models can be efficiently recovered through tuning techniques, LoRA, in merely 3 hours, requiring only 50K data. We validate the LLM-Pruner on three LLMs, including LLaMA, Vicuna, and ChatGLM, and demonstrate that the compressed models still exhibit satisfactory capabilities in zero-shot classification and generation. The code is available at: https://github.com/horseee/LLM-Pruner
翻訳日:2023-09-29 22:25:42 公開日:2023-09-28
# X線マイクロビームデータセットの幾何学的変換を用いた音声調音解析の強化

Enhancing Speech Articulation Analysis using a Geometric Transformation of the X-ray Microbeam Dataset ( http://arxiv.org/abs/2305.10775v3 )

ライセンス: Link先を確認
Ahmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson(参考訳) 音声明瞭度の分析は音声分析に不可欠である。 しかし、調音器のx-y座標は話者の解剖学とペレット配置の変動に大きく依存しており、x-ray microbeamデータセット(xrmb)の解剖学的ランドマークをマッピングする方法は声道全体の解剖学を捉えることができない。 本稿では,これらの測定精度を向上させる新しい幾何学変換を提案する。 我々の変換は, 解剖学的ランドマークのX-Y座標を中矢状面に沿って, 唇開口(LA), 唇隆起(LP), 舌体収縮位置(TTCL), デグリー(TBCD), 舌先端収縮位置(TTCL) およびデグリー(TTCD)の6つの相対的尺度にマッピングした。 本研究は, 舌体収縮の計測精度を向上させる前咽頭線への口蓋裂の進展について検討した。

Accurate analysis of speech articulation is crucial for speech analysis. However, X-Y coordinates of articulators strongly depend on the anatomy of the speakers and the variability of pellet placements, and existing methods for mapping anatomical landmarks in the X-ray Microbeam Dataset (XRMB) fail to capture the entire anatomy of the vocal tract. In this paper, we propose a new geometric transformation that improves the accuracy of these measurements. Our transformation maps anatomical landmarks' X-Y coordinates along the midsagittal plane onto six relative measures: Lip Aperture (LA), Lip Protusion (LP), Tongue Body Constriction Location (TTCL), Degree (TBCD), Tongue Tip Constriction Location (TTCL) and Degree (TTCD). Our novel contribution is the extension of the palate trace towards the inferred anterior pharyngeal line, which improves measurements of tongue body constriction.
翻訳日:2023-09-29 22:25:03 公開日:2023-09-28
# グラフニューラル埋め込みを用いたアクティブセマンティック定位

Active Semantic Localization with Graph Neural Embedding ( http://arxiv.org/abs/2305.06141v4 )

ライセンス: Link先を確認
Mitsuki Yoshida, Kanji Tanaka, Ryogo Yamamoto, and Daiki Iwata(参考訳) セマンティック・ローカライゼーション(Semantic Localization)、すなわち、セマンティック・イメージ・モダリティによるロボットの自己ローカライゼーションは、近年出現しつつあるAIアプリケーション(例えば、ポイントゴールナビゲーション、オブジェクトゴールナビゲーション、ビジョン言語ナビゲーション)やトポロジカルマッピングアプリケーション(例えば、グラフニューラルSLAM、エゴ中心トポロジカルマップ)において重要である。 しかしながら、セマンティックローカライゼーションに関する既存の研究のほとんどは、視点計画なしで受動的視覚タスクに焦点を当てたり、追加の豊富なモダリティ(深さ測定など)に依存している。 したがって、問題はほとんど解決されていない。 本研究では,グラフニューラルローカライザと呼ばれる,軽量で完全にCPUベースのドメイン適応型セマンティックローカライゼーションフレームワークについて検討する。 このアプローチは,(1)局所的特徴と全体的特徴の視点と外観的不変性を組み合わせたシーングラフ,(2)グラフデータの直接学習/認識を可能にするグラフニューラルネットワーク(非ベクトルデータ)の2つに着想を得ている。 具体的には、グラフ畳み込みニューラルネットワークを受動視覚のためのシーングラフ分類器として訓練し、その知識を能動視覚のための強化学習プランナーに伝達する。 フォトリアリスティック・ハビタットシミュレータを用いて、自己教師あり学習と教師なしドメイン適応の2つのシナリオの実験を行い、提案手法の有効性を検証した。

Semantic localization, i.e., robot self-localization with semantic image modality, is critical in recently emerging embodied AI applications (e.g., point-goal navigation, object-goal navigation, vision language navigation) and topological mapping applications (e.g., graph neural SLAM, ego-centric topological map). However, most existing works on semantic localization focus on passive vision tasks without viewpoint planning, or rely on additional rich modalities (e.g., depth measurements). Thus, the problem is largely unsolved. In this work, we explore a lightweight, entirely CPU-based, domain-adaptive semantic localization framework, called graph neural localizer. Our approach is inspired by two recently emerging technologies: (1) Scene graph, which combines the viewpoint- and appearance- invariance of local and global features; (2) Graph neural network, which enables direct learning/recognition of graph data (i.e., non-vector data). Specifically, a graph convolutional neural network is first trained as a scene graph classifier for passive vision, and then its knowledge is transferred to a reinforcement-learning planner for active vision. Experiments on two scenarios, self-supervised learning and unsupervised domain adaptation, using a photo-realistic Habitat simulator validate the effectiveness of the proposed method.
翻訳日:2023-09-29 22:24:33 公開日:2023-09-28
# 全身移動操作のための因果政策勾配

Causal Policy Gradient for Whole-Body Mobile Manipulation ( http://arxiv.org/abs/2305.04866v4 )

ライセンス: Link先を確認
Jiaheng Hu, Peter Stone, Roberto Mart\'in-Mart\'in(参考訳) 次世代の家庭用ロボットヘルパーの開発には、移動操作(MoMa)と呼ばれる移動運動と相互作用機能を組み合わせる必要がある。 MoMaタスクは、ロボットの大きな動作空間と、タスクの共通の多目的性(例えば、障害物を避けながら効率的にゴールに達すること)のため、難しい。 現在のアプローチでは、アクションスペースの一部とmomaサブ目的(例えば、ロコモーション目的の学習ベースアクションと操作のためのアームアクションの学習)を手動でマッチングすることで、操作やロコモーションのない定常操作なしでタスクをナビゲーションに分離することが多い。 このソリューションは、移動と相互作用の自由度の同時組み合わせを防止し、アクション空間を分割し、アクション部分をサブオブジェクトに合わせるために、人間のドメイン知識を必要とする。 本稿では,ロボットのアクション空間の最も望ましい部分空間を利用して,各サブオブジェクトに対処する典型的なMoMaタスクに対するポリシーをトレーニングする,新しい強化学習フレームワークであるCausal MoMaを紹介する。 Causal MoMaは、アクションと報酬関数の項間の因果依存性を自動的に発見し、従来の最先端強化学習アルゴリズムと比較して勾配のばらつきを低減し、収束と結果を改善する因果ポリシー勾配を通じてこれらの依存関係を利用する。 各種のMoMaタスクにまたがる3種類の模擬ロボットにおけるCausal MoMaの性能評価を行い、シミュレーションで訓練されたポリシーを直接実際のロボットに転送し、エージェントは移動目標に従って動的障害物に反応し、同時にベース、アーム、ヘッドを相乗的に制御できることを示す。 詳細はhttps://sites.google.com/view/causal-momaを参照。

Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. learning base actions for locomotion objectives and learning arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new reinforcement learning framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot's action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies through causal policy gradient that reduces gradient variance compared to previous state-of-the-art reinforcement learning algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma.
翻訳日:2023-09-29 22:23:54 公開日:2023-09-28
# 正確な校正モデルのための集合学習

Set Learning for Accurate and Calibrated Models ( http://arxiv.org/abs/2307.02245v3 )

ライセンス: Link先を確認
Lukas Muttenthaler and Robert A. Vandermeulen and Qiuyi Zhang and Thomas Unterthiner and Klaus-Robert M\"uller(参考訳) モデル過信と不適切なキャリブレーションは機械学習では一般的であり、標準的な経験的リスク最小化を適用する場合の考慮が難しい。 そこで本研究では,単一例ではなく集合に対するクロスエントロピー誤差を最小限に抑える,奇数k$out Learning(OKO)と呼ばれる,これらの問題を緩和する新しい手法を提案する。 これにより、モデルがデータサンプル間の相関をキャプチャし、特に限られたトレーニングデータとクラス不均衡なレシエーションにおいて、精度とキャリブレーションの両方を向上することができる。 おそらく、OKOは硬いラベルでトレーニングしたり、温度スケーリングのような追加のキャリブレーションパラメータチューニングを落としたりしても、キャリブレーションが良くなる。 理論的な正当性を提供し、オコが自然により良い校正をもたらすことを立証し、理論的な知見を裏付ける広範な実験分析を行う。 OKOは、多くの設定に簡単に適応できる一般的なフレームワークであり、トレーニングされたモデルは、実行時のオーバーヘッドやアーキテクチャの変更を伴わずに、推論時に単一の例に適用できる。

Model overconfidence and poor calibration are common in machine learning and difficult to account for when applying standard empirical risk minimization. In this work, we propose a novel method to alleviate these problems that we call odd-$k$-out learning (OKO), which minimizes the cross-entropy error for sets rather than for single examples. This naturally allows the model to capture correlations across data examples and achieves both better accuracy and calibration, especially in limited training data and class-imbalanced regimes. Perhaps surprisingly, OKO often yields better calibration even when training with hard labels and dropping any additional calibration parameter tuning, such as temperature scaling. We provide theoretical justification, establishing that OKO naturally yields better calibration, and provide extensive experimental analyses that corroborate our theoretical findings. We emphasize that OKO is a general framework that can be easily adapted to many settings and the trained model can be applied to single examples at inference time, without introducing significant run-time overhead or architecture changes.
翻訳日:2023-09-29 20:30:31 公開日:2023-09-28
# asymptotic-preserving convolutional deeponets による多スケール線形輸送方程式の拡散挙動の把握

Capturing the Diffusive Behavior of the Multiscale Linear Transport Equations by Asymptotic-Preserving Convolutional DeepONets ( http://arxiv.org/abs/2306.15891v3 )

ライセンス: Link先を確認
Keke Wu and Xiong-bin Yan and Shi Jin and Zheng Ma(参考訳) 本稿では,マルチスケールの時間依存線形輸送問題に対処するために設計された,漸近保存型畳み込み型深層作用素ネットワーク (apcons) の2つのタイプを提案する。 MLPを改良したバニラ物理インフォームドディープノネットは,所望のマクロな挙動を維持する不安定性を示す可能性がある。 したがって、漸近保存損失関数の利用が必要である。 拡散方程式における熱核からインスピレーションを得たConvolutional Deep Operator Networksという新しいアーキテクチャを提案し,各フィルタ層におけるプールおよびアクティベーション操作とともに,グローバルな熱カーネルの代わりに複数の局所畳み込み演算を用いる。 我々のAPCON法は, グリッドサイズに依存しないパラメータ数を持ち, 線形輸送問題の拡散挙動を捉えることができる。 最後に,本手法の有効性をいくつかの数値例を通して検証する。

In this paper, we introduce two types of novel Asymptotic-Preserving Convolutional Deep Operator Networks (APCONs) designed to address the multiscale time-dependent linear transport problem. We observe that the vanilla physics-informed DeepONets with modified MLP may exhibit instability in maintaining the desired limiting macroscopic behavior. Therefore, this necessitates the utilization of an asymptotic-preserving loss function. Drawing inspiration from the heat kernel in the diffusion equation, we propose a new architecture called Convolutional Deep Operator Networks, which employ multiple local convolution operations instead of a global heat kernel, along with pooling and activation operations in each filter layer. Our APCON methods possess a parameter count that is independent of the grid size and are capable of capturing the diffusive behavior of the linear transport problem. Finally, we validate the effectiveness of our methods through several numerical examples.
翻訳日:2023-09-29 20:29:53 公開日:2023-09-28
# Jaynes-Cummingsモデルの量子相転移

Quantum phase transition of the Jaynes-Cummings model ( http://arxiv.org/abs/2306.13519v2 )

ライセンス: Link先を確認
Cheng Liu, Jin-Feng Huang(参考訳) 本稿では,強い結合を持つ量子ラビモデルにおいて,2レベル系の遷移周波数を変調することにより,Jaynes-Cummings(JC)モデルの量子相転移を示す実験可能な手法を提案する。 変調周波数と振幅をチューニングすることにより、回転項の有効結合強度と有効空洞(原子遷移)周波数の比は、逆回転項を無視する一方で、深い結合状態に入ることができる。 これにより、深い強度のJCモデルが得られる。 ディープストロングJCモデルにおける結合強度と共振周波数の比は、元の量子ラビモデルにおける対応する比より2桁大きい。 本手法は,原子キャビティ共鳴やオフ共振の場合に適用でき,幅広い範囲で有効である。 基底状態の非ゼロ平均キャビティ光子は、量子相転移の出現を示している。 さらに,原子キャビティのデチューニングと変調パラメータの位相図のデペンデンスを示す。 提案手法で使用するパラメータはすべて,現在の実験技術の範囲内にある。 本手法は, 古典的場制限を必要とせず, 有限大系の臨界現象を調べるための新たなメカニズムを提供し, 超強結合系や深結合系で発生する基本量子現象の研究の扉を開く。

Herein, we propose an experimentally feasible scheme to show the quantum phase transition of the Jaynes-Cummings (JC) model by modulating the transition frequency of a two-level system in a quantum Rabi model with strong coupling. By tuning the modulation frequency and amplitude, the ratio of the effective coupling strength of the rotating terms to the effective cavity (atomic transition) frequency can enter the deep-strong coupling regime, while the counter-rotating terms can be neglected. Thus, a deep-strong JC model is obtained. The ratio of the coupling strength to resonance frequencies in the deep-strong JC model is two orders of magnitude larger than the corresponding ratio in the original quantum Rabi model. Our scheme can be employed in atom-cavity resonance and off-resonance cases, and it is valid over a broad range. The nonzero average cavity photons of the ground state indicate the emergence of a quantum phase transition. Further, we demonstrate the depen-dence of the phase diagram on the atom-cavity detuning and modulation parameters. All the parameters used in our scheme are within the reach of current experimental technology. Our scheme provides a new mechanism for investigating the critical phenomena of finite-sized systems without requiring classical field limits, thereby opening a door for studying fundamental quantum phenomena occurring in the ultrastrong and even deep-strong coupling regimes.
翻訳日:2023-09-29 20:29:35 公開日:2023-09-28
# 圧縮画像とノイズ除去のための4次元光野の確率論的特徴埋め込み

Probabilistic-based Feature Embedding of 4-D Light Fields for Compressive Imaging and Denoising ( http://arxiv.org/abs/2306.08836v2 )

ライセンス: Link先を確認
Xianqiang Lyu and Junhui Hou(参考訳) 4次元ライトフィールド(lf)の高次元性は、効率良く効果的な機能埋め込みを達成する上で大きな課題となり、下流タスクのパフォーマンスに大きな影響を与える。 この課題に対処するために、経験的設計の既存手法とは対照的に、空間角情報を完全にキャプチャする確率空間に様々な低次元畳み込みパターンを組み込んで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。 提案したPFEに基づいて,符号化開口カメラの固有線形画像モデルを用いて,周期整合型4次元LF再構成ネットワークを構築する。 さらに,PFEを4次元LF復調のための反復最適化フレームワークに組み込む。 本研究は,実世界および合成4次元lf画像において,最先端手法と比較して定量的,質的にも優れた方法を示す。 ソースコードはhttps://github.com/lyuxianqiang/LFCA-CR-NETで公開されている。

The high-dimensional nature of the 4-D light field (LF) poses great challenges in achieving efficient and effective feature embedding, that severely impacts the performance of downstream tasks. To tackle this crucial issue, in contrast to existing methods with empirically-designed architectures, we propose a probabilistic-based feature embedding (PFE), which learns a feature embedding architecture by assembling various low-dimensional convolution patterns in a probability space for fully capturing spatial-angular information. Building upon the proposed PFE, we then leverage the intrinsic linear imaging model of the coded aperture camera to construct a cycle-consistent 4-D LF reconstruction network from coded measurements. Moreover, we incorporate PFE into an iterative optimization framework for 4-D LF denoising. Our extensive experiments demonstrate the significant superiority of our methods on both real-world and synthetic 4-D LF images, both quantitatively and qualitatively, when compared with state-of-the-art methods. The source code will be publicly available at https://github.com/lyuxianqiang/LFCA-CR-NET.
翻訳日:2023-09-29 20:28:52 公開日:2023-09-28
# DynaBench:低解像度データから動的システムを学ぶためのベンチマークデータセット

DynaBench: A benchmark dataset for learning dynamical systems from low-resolution data ( http://arxiv.org/abs/2306.05805v2 )

ライセンス: Link先を確認
Andrzej Dulny and Andreas Hotho and Anna Krause(参考訳) データから物理システムを学習する以前の研究は、高解像度のグリッド構造計測に重点を置いてきた。 しかし、そのようなシステムの実際の知識(例えば気象データ)は、わずかに散らばった測定ステーションに依存している。 本稿では,方程式の事前知識を必要とせずに,疎分散データから直接力学系を学習するための,新しいシミュレーションベンチマークデータセットDynaBenchを紹介する。 このデータセットは、低解像度で非構造的な測定から力学系の進化を予測することに焦点を当てている。 文献でよく用いられる様々な物理系をカバーする6つの異なる偏微分方程式をシミュレートし、従来のグラフニューラルネットワークやポイントクラウド処理モデルを含む機械学習モデルの評価を行い、システムの進化を予測する。 提案するベンチマークデータセットは,非構造化低分解能観測のみが可能な環境でのモデル評価のための既定の簡易ツールとして,最先端の最先端技術として期待されている。 ベンチマークはhttps://anonymous.4open.science/r/code-2022-dynabench/で利用可能である。

Previous work on learning physical systems from data has focused on high-resolution grid-structured measurements. However, real-world knowledge of such systems (e.g. weather data) relies on sparsely scattered measuring stations. In this paper, we introduce a novel simulated benchmark dataset, DynaBench, for learning dynamical systems directly from sparsely scattered data without prior knowledge of the equations. The dataset focuses on predicting the evolution of a dynamical system from low-resolution, unstructured measurements. We simulate six different partial differential equations covering a variety of physical systems commonly used in the literature and evaluate several machine learning models, including traditional graph neural networks and point cloud processing models, with the task of predicting the evolution of the system. The proposed benchmark dataset is expected to advance the state of art as an out-of-the-box easy-to-use tool for evaluating models in a setting where only unstructured low-resolution observations are available. The benchmark is available at https://anonymous.4open.science/r/code-2022-dynabench/.
翻訳日:2023-09-29 20:28:34 公開日:2023-09-28
# 非凸対象に対するAdaGradの収束性:単純証明と緩和推定

Convergence of AdaGrad for Non-convex Objectives: Simple Proofs and Relaxed Assumptions ( http://arxiv.org/abs/2305.18471v2 )

ライセンス: Link先を確認
Bohan Wang, Huishuai Zhang, Zhi-Ming Ma, Wei Chen(参考訳) AdaGradはアフィン雑音分散と有界滑らか性仮定のみの下で非凸目標を最適化する単純な収束証明を提供する。 この証明は本質的には、AdaGradの更新の数値と分母の間の相関を扱う複雑さを解消する新しい補助関数 $\xi$ に基づいている。 単純な証明を利用することで、既存の結果より厳密な結果を得ることができ、分析をいくつかの新しい重要なケースに拡張することができる。 具体的には、過剰にパラメータ化されたレジームに対しては、アダグラードに対して$\mathcal{o}(\frac{1}{\varepsilon^2})$の勾配ノルムが$\varepsilon$より小さいことを保証するために、わずか$\mathcal{o}(\frac{1}{\varepsilon^2})$の反復が必要であることを示す。 次に、有界な滑らかさの仮定を捨てて、局所滑らかさを勾配ノルムで成長させることができる$(L_0,L_1)$-smooth条件と呼ばれる滑らかさの現実的な仮定を考える。 また、補助関数 $\xi$ に基づいて、学習率が閾値より低い限り、アダグラードは$(l_0,l_1)$-smooth条件下での収束に成功したことを証明する。 さらに,学習速度の選択によらず収束が保証される均一な平滑性条件とは対照的に,(L_0,L_1)$-smooth条件下での学習率の要件は矛盾による証明によって必要であることを示す。 そこで本研究では,AdaGradの理解を深め,AdaGradの研究における新たな補助機能の力を示す。

We provide a simple convergence proof for AdaGrad optimizing non-convex objectives under only affine noise variance and bounded smoothness assumptions. The proof is essentially based on a novel auxiliary function $\xi$ that helps eliminate the complexity of handling the correlation between the numerator and denominator of AdaGrad's update. Leveraging simple proofs, we are able to obtain tighter results than existing results \citep{faw2022power} and extend the analysis to several new and important cases. Specifically, for the over-parameterized regime, we show that AdaGrad needs only $\mathcal{O}(\frac{1}{\varepsilon^2})$ iterations to ensure the gradient norm smaller than $\varepsilon$, which matches the rate of SGD and significantly tighter than existing rates $\mathcal{O}(\frac{1}{\varepsilon^4})$ for AdaGrad. We then discard the bounded smoothness assumption and consider a realistic assumption on smoothness called $(L_0,L_1)$-smooth condition, which allows local smoothness to grow with the gradient norm. Again based on the auxiliary function $\xi$, we prove that AdaGrad succeeds in converging under $(L_0,L_1)$-smooth condition as long as the learning rate is lower than a threshold. Interestingly, we further show that the requirement on learning rate under the $(L_0,L_1)$-smooth condition is necessary via proof by contradiction, in contrast with the case of uniform smoothness conditions where convergence is guaranteed regardless of learning rate choices. Together, our analyses broaden the understanding of AdaGrad and demonstrate the power of the new auxiliary function in the investigations of AdaGrad.
翻訳日:2023-09-29 20:27:32 公開日:2023-09-28
# medico 2020 polyp segmentationとmedai 2021 transparency challengeによる大腸内視鏡におけるポリープおよびインスツルメンテーション法の客観的検証

An objective validation of polyp and instrument segmentation methods in colonoscopy through Medico 2020 polyp segmentation and MedAI 2021 transparency challenges ( http://arxiv.org/abs/2307.16262v3 )

ライセンス: Link先を確認
Debesh Jha, Vanshali Sharma, Debapriya Banik, Debayan Bhattacharya, Kaushiki Roy, Steven A. Hicks, Nikhil Kumar Tomar, Vajira Thambawita, Adrian Krenzer, Ge-Peng Ji, Sahadev Poudel, George Batchkala, Saruar Alam, Awadelrahman M. A. Ahmed, Quoc-Huy Trinh, Zeshan Khan, Tien-Phat Nguyen, Shruti Shrestha, Sabari Nathan, Jeonghwan Gwak, Ritika K. Jha, Zheyuan Zhang, Alexander Schlaefer, Debotosh Bhattacharjee, M.K. Bhuyan, Pradip K. Das, Deng-Ping Fan, Sravanthi Parsa, Sharib Ali, Michael A. Riegler, P{\aa}l Halvorsen, Thomas De Lange, Ulas Bagci(参考訳) 大腸内視鏡画像の自動解析は先天性ポリープの早期検出の重要性を動機とする研究の活発な分野である。 しかし, 生検におけるポリープ検出は, 内科医のスキルや経験の変化, 注意力の欠如, 疲労など多彩な要因により, 高いポリープミス率につながる可能性がある。 深層学習は、見過ごされたポリプや異常をリアルタイムで検出し分類するスコピストを支援するものとして、この課題に対する有望な解決策として現れています。 アルゴリズムの正確性に加えて、透明性と解釈性はアルゴリズムの予測の理由と方法を説明する上で重要である。 さらに、ほとんどのアルゴリズムはプライベートデータ、クローズドソース、あるいはプロプライエタリなソフトウェアで開発されており、再現性に欠ける。 そこで我々は, 効率的で透明な方法の開発を促進するために, 「メディコオートマチック・ポリープ・セグメンテーション(Medico 2020)」と「メディコ:医療画像セグメンテーション(MedAI 2021)」のコンペティションを組織した。 本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。 透明性タスクのために、専門家の胃腸科医を含む複数の学際チームが各投稿にアクセスし、オープンソースプラクティス、障害事例分析、アブレーション研究、評価のユーザビリティと理解可能性に基づいてチームを評価し、モデルの臨床展開に対する信頼性をより深く理解した。 この課題の包括的分析を通じて,ポリープと手術器具のセグメンテーションの進歩を強調するだけでなく,より透明で理解しやすいAIベースの大腸内視鏡システムを構築するための質的評価を奨励する。

Automatic analysis of colonoscopy images has been an active field of research motivated by the importance of early detection of precancerous polyps. However, detecting polyps during the live examination can be challenging due to various factors such as variation of skills and experience among the endoscopists, lack of attentiveness, and fatigue leading to a high polyp miss-rate. Deep learning has emerged as a promising solution to this challenge as it can assist endoscopists in detecting and classifying overlooked polyps and abnormalities in real time. In addition to the algorithm's accuracy, transparency and interpretability are crucial to explaining the whys and hows of the algorithm's prediction. Further, most algorithms are developed in private data, closed source, or proprietary software, and methods lack reproducibility. Therefore, to promote the development of efficient and transparent methods, we have organized the "Medico automatic polyp segmentation (Medico 2020)" and "MedAI: Transparency in Medical Image Segmentation (MedAI 2021)" competitions. We present a comprehensive summary and analyze each contribution, highlight the strength of the best-performing methods, and discuss the possibility of clinical translations of such methods into the clinic. For the transparency task, a multi-disciplinary team, including expert gastroenterologists, accessed each submission and evaluated the team based on open-source practices, failure case analysis, ablation studies, usability and understandability of evaluations to gain a deeper understanding of the models' credibility for clinical deployment. Through the comprehensive analysis of the challenge, we not only highlight the advancements in polyp and surgical instrument segmentation but also encourage qualitative evaluation for building more transparent and understandable AI-based colonoscopy systems.
翻訳日:2023-09-29 20:21:06 公開日:2023-09-28
# セマンティクス-プロトタイプ学習によるパノプティクスシーングラフ生成

Panoptic Scene Graph Generation with Semantics-prototype Learning ( http://arxiv.org/abs/2307.15567v2 )

ライセンス: Link先を確認
Li Li, Wei Ji, Yiming Wu, Mengze Li, You Qin, Lina Wei, Roger Zimmermann(参考訳) panoptic scene graph generation (psg)はオブジェクトを解析し、人間の言語と視覚シーンを接続するための関係(述語)を予測する。 しかし、アノテータの異なる言語選好と述語間の意味的重複はデータセット内の偏りのある述語アノテーション、すなわち同じオブジェクト対に対する述語を導く。 バイアス付き述語アノテーションにより、PSGモデルは述語間の明確な決定平面を構築するのに苦労する。 上記の本質的バイアスに対処するため,ADTransという新しいフレームワークを提案し,バイアス付き述語アノテーションを情報的かつ統一的なアノテーションに適応的に変換する。 転送過程における一貫性と正確性を約束するため,各述語クラスにおける表現の不分散を計測し,異なる強度を持つ述語の偏りのないプロトタイプを学習する。 一方,各プレゼンテーションとプロトタイプ間の分布変化を連続的に計測し,バイアスのあるデータを常に表示する。 最後に、バイアスのない述語-原型表現埋め込み空間により、バイアス付きアノテーションを容易に識別できる。 実験により、ADTransはベンチマークモデルの性能を著しく改善し、新しい最先端のパフォーマンスを実現し、複数のデータセットに対して非常に一般化と有効性を示すことが示された。

Panoptic Scene Graph Generation (PSG) parses objects and predicts their relationships (predicate) to connect human language and visual scenes. However, different language preferences of annotators and semantic overlaps between predicates lead to biased predicate annotations in the dataset, i.e. different predicates for same object pairs. Biased predicate annotations make PSG models struggle in constructing a clear decision plane among predicates, which greatly hinders the real application of PSG models. To address the intrinsic bias above, we propose a novel framework named ADTrans to adaptively transfer biased predicate annotations to informative and unified ones. To promise consistency and accuracy during the transfer process, we propose to measure the invariance of representations in each predicate class, and learn unbiased prototypes of predicates with different intensities. Meanwhile, we continuously measure the distribution changes between each presentation and its prototype, and constantly screen potential biased data. Finally, with the unbiased predicate-prototype representation embedding space, biased annotations are easily identified. Experiments show that ADTrans significantly improves the performance of benchmark models, achieving a new state-of-the-art performance, and shows great generalization and effectiveness on multiple datasets.
翻訳日:2023-09-29 20:20:28 公開日:2023-09-28
# 畳み込みニューラルネットワークを用いた肺がんCT画像のスパースビュー画質の向上

Improving Image Quality of Sparse-view Lung Cancer CT Images with a Convolutional Neural Network ( http://arxiv.org/abs/2307.15506v3 )

ライセンス: Link先を確認
Annika Ries, Tina Dorosti, Johannes Thalhammer, Daniel Sasse, Andreas Sauter, Felix Meurer, Ashley Benne, Tobias Lasser, Franz Pfeiffer, Florian Schaff, Daniela Pfeiffer(参考訳) 目的: 肺癌検出用u-netを用いたsparse-view ct(ct)画像の画質向上と, 画像数, 画像品質, 診断信頼度との間の最善のトレードオフを判定すること。 方法:41名(肺癌34名,健康7名)のct画像の振り返り(01.2016-12.2018)を2048ビューシンノグラムに投影した。 16, 32, 64, 18, 256, 512 ビューのフィルターバックプロジェクションを用いて, 種々のアンダーサンプリングレベルの6つのスパルスビューCTデータサブセットをシノグラムから再構成した。 2フレームのU-Netを訓練し,22名の疾患患者の8,658枚の画像から各サブサンプリングレベルについて評価した。 19名 (病型12名, 健康7名) を対象に, 単一盲検者調査を行った。 選択されたスライスは、u-netモデルによる後処理を伴う全てのレベルのサブサンプリングに対して、3つの読者に提示された。 画像品質と診断信頼度は予め定義されたスケールでランク付けされた。 主観的結節分節は95%信頼区間(ci)の感度(se)とdice類似度係数(dsc)を用いて評価した。 結果: 64射影のスパースビュー画像はSe = 0.89, DSC = 0.81 [0.75,0.86] となり, U-Netで処理した画像は改善された(Se = 0.94, DSC = 0.85 [0.82,0.87])。 低い視点は診断の目的に不十分な品質をもたらす。 視野の増大については、スパースビューと後処理画像の間にはかなりの差はなかった。 結論: プロジェクションビューは, 画像品質と放射線科医の信頼を満足のいくレベルで維持しながら, 2048 から 64 に削減できる。

Purpose: To improve the image quality of sparse-view computed tomography (CT) images with a U-Net for lung cancer detection and to determine the best trade-off between number of views, image quality, and diagnostic confidence. Methods: CT images from 41 subjects (34 with lung cancer, seven healthy) were retrospectively selected (01.2016-12.2018) and forward projected onto 2048-view sinograms. Six corresponding sparse-view CT data subsets at varying levels of undersampling were reconstructed from sinograms using filtered backprojection with 16, 32, 64, 128, 256, and 512 views, respectively. A dual-frame U-Net was trained and evaluated for each subsampling level on 8,658 images from 22 diseased subjects. A representative image per scan was selected from 19 subjects (12 diseased, seven healthy) for a single-blinded reader study. The selected slices, for all levels of subsampling, with and without post-processing by the U-Net model, were presented to three readers. Image quality and diagnostic confidence were ranked using pre-defined scales. Subjective nodule segmentation was evaluated utilizing sensitivity (Se) and Dice Similarity Coefficient (DSC) with 95% confidence intervals (CI). Results: The 64-projection sparse-view images resulted in Se = 0.89 and DSC = 0.81 [0.75,0.86] while their counterparts, post-processed with the U-Net, had improved metrics (Se = 0.94, DSC = 0.85 [0.82,0.87]). Fewer views lead to insufficient quality for diagnostic purposes. For increased views, no substantial discrepancies were noted between the sparse-view and post-processed images. Conclusion: Projection views can be reduced from 2048 to 64 while maintaining image quality and the confidence of the radiologists on a satisfactory level.
翻訳日:2023-09-29 20:20:06 公開日:2023-09-28
# ハパックス速度モデルによるZipf法則とヒープ法則の補正

Corrections of Zipf's and Heaps' Laws Derived from Hapax Rate Models ( http://arxiv.org/abs/2307.12896v3 )

ライセンス: Link先を確認
{\L}ukasz D\k{e}bowski(参考訳) 本稿では,ハファックス率の体系モデルに基づくZipf法則とHeaps法則の修正を紹介する。 1つは標準urnモデルで、短いテキストの限界周波数分布は、与えられた長いテキストから単語トークンが盲目的にサンプリングされたかのように見えると予測する。 第2の仮定は、ハプクスの割合はテキストサイズの単純な関数であると仮定する。 定数モデル、デービスモデル、線型モデル、ロジスティックモデルという4つの関数が議論されている。 このロジスティックモデルが最も適していることが示されている。

The article introduces corrections to Zipf's and Heaps' laws based on systematic models of the hapax rate. The derivation rests on two assumptions: The first one is the standard urn model which predicts that marginal frequency distributions for shorter texts look as if word tokens were sampled blindly from a given longer text. The second assumption posits that the rate of hapaxes is a simple function of the text size. Four such functions are discussed: the constant model, the Davis model, the linear model, and the logistic model. It is shown that the logistic model yields the best fit.
翻訳日:2023-09-29 20:19:32 公開日:2023-09-28
# AdvDiff:拡散モデルを用いた非制限逆例の生成

AdvDiff: Generating Unrestricted Adversarial Examples using Diffusion Models ( http://arxiv.org/abs/2307.12499v2 )

ライセンス: Link先を確認
Xuelong Dai, Kaisheng Liang and Bin Xiao(参考訳) 制限のない敵攻撃は、深層学習モデルや敵防衛技術に深刻な脅威をもたらす。 防御機構を効果的にバイパスできるため、深層学習アプリケーションには深刻なセキュリティ問題が発生する。 しかし、従来の攻撃手法では、理論的に証明不可能なGAN(Generative Adversarial Networks)がよく使われており、特にImageNetのような大規模データセットにおいて、敵の目的を組み込んで非現実的な例を生成する。 本稿では,拡散モデルを用いた非制限逆例を生成するAdvDiffという新しい手法を提案する。 本研究では,拡散モデルの逆生成過程において,新たな2つの逆サンプリング手法を設計する。 これら2つの手法は、ターゲット分類器の勾配を解釈可能に統合することにより、高品質で現実的な逆例を生成するのに効果的で安定である。 MNIST と ImageNet データセットの実験結果から,AdvDiff は攻撃性能と生成品質の点で GAN ベースの手法よりも優れた非制限逆例を生成するのに有効であることが示された。

Unrestricted adversarial attacks present a serious threat to deep learning models and adversarial defense techniques. They pose severe security problems for deep learning applications because they can effectively bypass defense mechanisms. However, previous attack methods often utilize Generative Adversarial Networks (GANs), which are not theoretically provable and thus generate unrealistic examples by incorporating adversarial objectives, especially for large-scale datasets like ImageNet. In this paper, we propose a new method, called AdvDiff, to generate unrestricted adversarial examples with diffusion models. We design two novel adversarial guidance techniques to conduct adversarial sampling in the reverse generation process of diffusion models. These two techniques are effective and stable to generate high-quality, realistic adversarial examples by integrating gradients of the target classifier interpretably. Experimental results on MNIST and ImageNet datasets demonstrate that AdvDiff is effective to generate unrestricted adversarial examples, which outperforms GAN-based methods in terms of attack performance and generation quality.
翻訳日:2023-09-29 20:19:22 公開日:2023-09-28
# 可変オートエンコーダによるフレキシブルで効率的な空間極端エミュレーション

Flexible and efficient spatial extremes emulation via variational autoencoders ( http://arxiv.org/abs/2307.08079v2 )

ライセンス: Link先を確認
Likun Zhang and Xiaoyu Ma and Christopher K. Wikle and Rapha\"el Huser(参考訳) 多くの実世界のプロセスは、古典的なガウス過程では特徴づけられない複雑なテール依存構造を持つ。 より柔軟な空間的極端モデルは極端依存特性に訴えるが、しばしば高次元から適合しシミュレートすることを禁じられている。 本稿では、フレキシブルかつ非定常的な依存特性を持つ新しい空間超越モデルを開発し、そのパラメータと深層学習を組み合わせた変分ベイズにより推定される変分オートエンコーダ(XVAE)の符号化・復号構造に統合する。 XVAEは、ポテンシャル力学モデル出力状態の分布を特徴付ける時空間エミュレータとして使用することができ、特に尾部において、入力と同じ統計特性を持つ出力を生成する。 一方、我々のアプローチは複雑な極値プロセスで高速な推論を行う新しい方法も提供します。 広範なシミュレーション研究を通じて,我々のxvaeは従来のベイズ推定よりもかなり時間効率が良く,また定常依存構造を持つ多くの空間的極端モデルよりも優れていることを示した。 さらに,xvaeの計算能力を示すために,16703グリッドセルでの30年間の日次観測を含む,紅海における海面温度の高解像度衛星データの解析を行った。 その結果,紅海内部では極端依存強度が弱く,時間とともにわずかに低下していることがわかった。

Many real-world processes have complex tail dependence structures that cannot be characterized using classical Gaussian processes. More flexible spatial extremes models exhibit appealing extremal dependence properties but are often exceedingly prohibitive to fit and simulate from in high dimensions. In this paper, we develop a new spatial extremes model that has flexible and non-stationary dependence properties, and we integrate it in the encoding-decoding structure of a variational autoencoder (XVAE), whose parameters are estimated via variational Bayes combined with deep learning. The XVAE can be used as a spatio-temporal emulator that characterizes the distribution of potential mechanistic model output states and produces outputs that have the same statistical properties as the inputs, especially in the tail. As an aside, our approach also provides a novel way of making fast inference with complex extreme-value processes. Through extensive simulation studies, we show that our XVAE is substantially more time-efficient than traditional Bayesian inference while also outperforming many spatial extremes models with a stationary dependence structure. To further demonstrate the computational power of the XVAE, we analyze a high-resolution satellite-derived dataset of sea surface temperature in the Red Sea, which includes 30 years of daily measurements at 16703 grid cells. We find that the extremal dependence strength is weaker in the interior of Red Sea and it has decreased slightly over time.
翻訳日:2023-09-29 20:19:03 公開日:2023-09-28
# RACH-Space:Adaptive Convex Hull Spaceの再構築と弱監視への応用

RACH-Space: Reconstructing Adaptive Convex Hull Space with applications in weak supervision ( http://arxiv.org/abs/2307.04870v3 )

ライセンス: Link先を確認
Woojoo Na(参考訳) 本稿では,アンサンブル学習の新しい分類法であるRACH-Spaceを紹介する。 特に,弱教師付き学習のためのラベルモデルとして適用可能性を示す。 RACH-Spaceは、データや弱い信号に対する最小限の仮定で実装の単純さを提供する。 このモデルは、完全なラベル付きデータが利用できないシナリオに適している。 本手法は弱信号にまたがる空間の幾何学的解釈に基づいている。 弱信号の一般セットに基づく高次元凸船体構造の解析は,機械学習を用いた幾何学を橋渡しする。 また、RACH-Spaceは実践的にうまく機能し、弱教師付き学習のための最良のラベルモデルと比較した。

We introduce RACH-Space, a novel classification method in ensemble learning. In particular, we show its applicability as a label model for weakly supervised learning. RACH-Space offers simplicity in implementation with minimal assumptions on the data or weak signals. The model is well suited for scenarios where fully labeled data is not available. Our method is built upon geometrical interpretation of the space spanned by weak signals. Our analysis of the high dimensional convex hull structure underlying general set of weak signals bridges geometry with machine learning. Empirical results also demonstrate that RACH-Space works well in practice and compares favorably to best existing label models for weakly supervised learning.
翻訳日:2023-09-29 20:18:12 公開日:2023-09-28
# 局所固有次元を用いた深部拡散モデルによる画像の検出

Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality ( http://arxiv.org/abs/2307.02347v7 )

ライセンス: Link先を確認
Peter Lorenz, Ricard Durall and Janis Keuper(参考訳) 近年,非常にリアルな画像の視覚的合成に拡散モデルが適用されている。 これにより、悪質な目的に対する潜在的な懸念が高まる。 本稿では,合成画像の自動検出とそれに基づく生成ネットワークの同定のために,元来,敵対例の検出の文脈で開発された軽量なマルチローカル固有次元(multiLID)を提案する。 GAN生成画像に対してのみ動作する多くの既存の検出手法とは対照的に,提案手法は現実的なユースケースの多くにおいて,ほぼ完璧な検出結果を提供する。 既知のデータセットと新たに作成されたデータセットに関する広範な実験は、提案手法が拡散検出とモデル同定において優れていることを示している。 生成画像の検出に関する最近の出版物の実証的評価は、主に「lsun-bedroom」データセットに焦点を当てているため、画像サイズが異なる複数の拡散モデルからのサンプルを含む拡散生成画像の検出に関する包括的なベンチマークを確立する。

Diffusion models recently have been successfully applied for the visual synthesis of strikingly realistic appearing images. This raises strong concerns about their potential for malicious purposes. In this paper, we propose using the lightweight multi Local Intrinsic Dimensionality (multiLID), which has been originally developed in context of the detection of adversarial examples, for the automatic detection of synthetic images and the identification of the according generator networks. In contrast to many existing detection approaches, which often only work for GAN-generated images, the proposed method provides close to perfect detection results in many realistic use cases. Extensive experiments on known and newly created datasets demonstrate that the proposed multiLID approach exhibits superiority in diffusion detection and model identification. Since the empirical evaluations of recent publications on the detection of generated images are often mainly focused on the "LSUN-Bedroom" dataset, we further establish a comprehensive benchmark for the detection of diffusion-generated images, including samples from several diffusion models with different image sizes.
翻訳日:2023-09-29 20:18:03 公開日:2023-09-28
# ロバストAIのための大規模言語モデルと認知アーキテクチャの相乗的統合:探索的分析

Synergistic Integration of Large Language Models and Cognitive Architectures for Robust AI: An Exploratory Analysis ( http://arxiv.org/abs/2308.09830v3 )

ライセンス: Link先を確認
Oscar J. Romero, John Zimmerman, Aaron Steinfeld, Anthony Tomasic(参考訳) 本稿では,Large Language Models (LLM) とCognitive Architectures (CA) という,知的行動を示す人工知能の開発に使用される2つのAIサブカテゴリの統合について検討する。 我々は,理論モデルに基礎を置き,予備的な実証的証拠によって支持される3つの統合アプローチを提案する。 モジュラーアプローチは、統合の度合いが異なる4つのモデルを導入し、チェーン・オブ・ソート・プロンプトを使用し、拡張LLM、コモン・モデル・オブ・コグニション、認識のシミュレーション理論からインスピレーションを得ている。 機関のアプローチは、心の理論とLIDA認知アーキテクチャによって動機付けられ、LLMまたは象徴的コンポーネントによって駆動されるマイクロおよびマクロ認知レベルで相互作用するエージェントコレクションの形成を提案する。 CLARION認知アーキテクチャからインスピレーションを得たニューロシンボリックアプローチでは、ボトムアップ学習がLLM層からシンボル表現を抽出し、トップダウンガイダンスはシンボル表現を利用してLLM層のエンジニアリングを直接促進するモデルを提案する。 これらのアプローチは、LSMとCAの長所を活用すると同時に、弱点を軽減し、より堅牢なAIシステムの開発を促進することを目的としている。 それぞれのアプローチに関連するトレードオフと課題について論じる。

This paper explores the integration of two AI subdisciplines employed in the development of artificial agents that exhibit intelligent behavior: Large Language Models (LLMs) and Cognitive Architectures (CAs). We present three integration approaches, each grounded in theoretical models and supported by preliminary empirical evidence. The modular approach, which introduces four models with varying degrees of integration, makes use of chain-of-thought prompting, and draws inspiration from augmented LLMs, the Common Model of Cognition, and the simulation theory of cognition. The agency approach, motivated by the Society of Mind theory and the LIDA cognitive architecture, proposes the formation of agent collections that interact at micro and macro cognitive levels, driven by either LLMs or symbolic components. The neuro-symbolic approach, which takes inspiration from the CLARION cognitive architecture, proposes a model where bottom-up learning extracts symbolic representations from an LLM layer and top-down guidance utilizes symbolic representations to direct prompt engineering in the LLM layer. These approaches aim to harness the strengths of both LLMs and CAs, while mitigating their weaknesses, thereby advancing the development of more robust AI systems. We discuss the tradeoffs and challenges associated with each approach.
翻訳日:2023-09-29 20:09:42 公開日:2023-09-28
# モデル次数削減による量子回路の効率的なシミュレーション

Efficient Simulation of Quantum Circuits by Model Order Reduction ( http://arxiv.org/abs/2308.09510v3 )

ライセンス: Link先を確認
Antonio Jim\'enez-Pastor, Kim G. Larsen, Mirco Tribastone, Max Tschaikowski(参考訳) 古典コンピュータにおける量子回路のシミュレーションのための効率的な手法は、その改良と理解のために重要である。 残念ながら、量子回路の古典的な配列に基づくシミュレーションは、配列のサイズが量子ビット数で指数関数的であるため、次元性の呪いに悩まされている。 ほとんどの量子回路がデフォルトの入力状態$|0\rangle$に適用されるように設計されているという観測から、確立された還元手法を量子回路の計測および入力保存還元として再解釈する。 さらに,量子回路のシミュレーションを促進する一般的な手法である決定ダイアグラムと還元手法を組み合わせることが可能であることを示す。 このアプローチの適用性は、一般的な量子コンピューティングアルゴリズムの大幅な削減によって示される。

Efficient methods for the simulation of quantum circuits on classic computers are crucial for their improvement and better understanding. Unfortunately, classic array-based simulation of quantum circuits suffers from the curse of dimensionality because the size of the arrays is exponential in the number of qubits. Starting from the observation that most quantum circuits are designed to be applied on the default input state $|0\rangle$, we reinterpret established reduction techniques as measurement- and input-preserving reductions of quantum circuits. Moreover, we show that reduction techniques can be combined with decision diagrams, a popular approach for boosting the simulation of quantum circuits. The applicability of the approach is shown by obtaining substantial reductions of common quantum computing algorithms.
翻訳日:2023-09-29 20:09:18 公開日:2023-09-28
# 大規模言語モデルの推論能力の向上:グラフベースの検証アプローチ

Enhancing Reasoning Capabilities of Large Language Models: A Graph-Based Verification Approach ( http://arxiv.org/abs/2308.09267v3 )

ライセンス: Link先を確認
Lang Cao(参考訳) 大きな言語モデル(LLM)は、特に数学の単語問題のような複雑な推論タスクにおいて、特別に設計されたプロンプトによってガイドされるときに、印象的な推論能力を示す。 これらのモデルは典型的にはチェーン・オブ・シント・アプローチを使ってタスクを解決し、推論能力を高めるだけでなく、問題解決プロセスに関する貴重な洞察を提供する。 しかし, LLMの推論能力を高める余地は依然として大きい。 いくつかの研究は、llm出力検証器の統合は、追加のモデルトレーニングを必要とせずに推論精度を高めることを示唆している。 本稿では,これらの研究に追従し,LLMの推論能力をさらに増強するグラフベースの新しい手法を提案する。 LLMによって生成される推論タスクに対する複数の解は、異なる推論経路からの中間ステップ間の論理的接続により、推論グラフとして表現できると仮定する。 そこで本研究では,LLMが生成した解を分析し,検証するReasoning Graph Verifier (RGV)を提案する。 実験結果から, LLMの推論能力の向上だけでなく, これらのモデルの推論性能の向上の観点からも, 既存の検証手法よりも優れていることがわかった。

Large Language Models (LLMs) have showcased impressive reasoning capabilities, particularly when guided by specifically designed prompts in complex reasoning tasks such as math word problems. These models typically solve tasks using a chain-of-thought approach, which not only bolsters their reasoning abilities but also provides valuable insights into their problem-solving process. However, there is still significant room for enhancing the reasoning abilities of LLMs. Some studies suggest that the integration of an LLM output verifier can boost reasoning accuracy without necessitating additional model training. In this paper, we follow these studies and introduce a novel graph-based method to further augment the reasoning capabilities of LLMs. We posit that multiple solutions to a reasoning task, generated by an LLM, can be represented as a reasoning graph due to the logical connections between intermediate steps from different reasoning paths. Therefore, we propose the Reasoning Graph Verifier (RGV) to analyze and verify the solutions generated by LLMs. By evaluating these graphs, models can yield more accurate and reliable results.Our experimental results show that our graph-based verification method not only significantly enhances the reasoning abilities of LLMs but also outperforms existing verifier methods in terms of improving these models' reasoning performance.
翻訳日:2023-09-29 20:09:05 公開日:2023-09-28
# insightmapper: ベクトル化高定義写像のインナーインテンス情報について

InsightMapper: A Closer Look at Inner-instance Information for Vectorized High-Definition Mapping ( http://arxiv.org/abs/2308.08543v2 )

ライセンス: Link先を確認
Zhenhua Xu, Kenneth K.Y. Wong, Hengshuang Zhao(参考訳) ベクトル化高精細地図(Vectorized High-definition (HD) map) には周囲の道路要素に関する詳細な情報が含まれている。 近年の研究では,ベクトル化HDマップを点集合予測タスクとして直接検出することが試みられ,検出性能が大幅に向上した。 しかし、これらの手法は予測点間の内在相関の分析と利用に失敗し、さらなる進歩を妨げる。 これらの課題に対処するため、ベクトル化 h$\textbf{IGH}$-definition mapping through $\textbf{T}$ransformers に対する内積$\textbf{INS}$tance情報の利用を調査し、InsightMapper を導入する。 本稿では,内在性情報を利用した内在性情報生成,内在性クエリ融合,内在性特徴集約の3つの新しい手法を提案する。 比較実験はnuscenesデータセット上で行われ,提案手法の優位性を示した。 InsightMapperは従来の最先端(SOTA)メソッドを5.78mAPと5.12TOPOで上回り、トポロジの正確性を評価する。 同時にInsightMapperは、トレーニングと推論フェーズの両方で高い効率を維持しており、非常に包括的なパフォーマンスを実現している。 この作業のプロジェクトページはhttps://tonyxuqaq.github.io/insightmapper/で入手できる。

Vectorized high-definition (HD) maps contain detailed information about surrounding road elements, which are crucial for various downstream tasks in modern autonomous driving vehicles, such as vehicle planning and control. Recent works have attempted to directly detect the vectorized HD map as a point set prediction task, resulting in significant improvements in detection performance. However, these approaches fail to analyze and exploit the inner-instance correlations between predicted points, impeding further advancements. To address these challenges, we investigate the utilization of inner-$\textbf{INS}$tance information for vectorized h$\textbf{IGH}$-definition mapping through $\textbf{T}$ransformers and introduce InsightMapper. This paper presents three novel designs within InsightMapper that leverage inner-instance information in distinct ways, including hybrid query generation, inner-instance query fusion, and inner-instance feature aggregation. Comparative experiments are conducted on the NuScenes dataset, showcasing the superiority of our proposed method. InsightMapper surpasses previous state-of-the-art (SOTA) methods by 5.78 mAP and 5.12 TOPO, which assess topology correctness. Simultaneously, InsightMapper maintains high efficiency during both training and inference phases, resulting in remarkable comprehensive performance. The project page for this work is available at https://tonyxuqaq.github.io/InsightMapper/ .
翻訳日:2023-09-29 20:08:47 公開日:2023-09-28
# 高品質計画のためのhtnに基づく確率的コンティンジェント計画

Probabilistic contingent planning based on HTN for high-quality plans ( http://arxiv.org/abs/2308.06922v2 )

ライセンス: Link先を確認
Peng Zhao(参考訳) 決定論的計画(Deterministic planning)は、計画が完全に予測可能な経路に沿って進化し、ほとんどの実射影において実用的価値を失うと仮定する。 より現実的な見方は、計画が部分的に観測可能であることを事前に考慮し、より柔軟で堅牢なソリューションを目指すべきだということです。 さらに重要なことは、部分的に観測可能な環境でプランの品質が劇的に変化することは避けられないことである。 本稿では,HTN(High-Quality Contingent Planner)と呼ばれる確率的階層型タスクネットワーク(HTN)プランナを提案する。 HTN計画の形式は部分的な可観測性に拡張され、コストについて評価される。 次に,高品質計画のための新しいヒューリスティックを探索し,統合計画アルゴリズムを開発した。 最後に,確率的継続計画と高品質計画の立案におけるプランナーの有効性と効率性を検証する実証的研究を行った。

Deterministic planning assumes that the planning evolves along a fully predictable path, and therefore it loses the practical value in most real projections. A more realistic view is that planning ought to take into consideration partial observability beforehand and aim for a more flexible and robust solution. What is more significant, it is inevitable that the quality of plan varies dramatically in the partially observable environment. In this paper we propose a probabilistic contingent Hierarchical Task Network (HTN) planner, named High-Quality Contingent Planner (HQCP), to generate high-quality plans in the partially observable environment. The formalisms in HTN planning are extended into partial observability and are evaluated regarding the cost. Next, we explore a novel heuristic for high-quality plans and develop the integrated planning algorithm. Finally, an empirical study verifies the effectiveness and efficiency of the planner both in probabilistic contingent planning and for obtaining high-quality plans.
翻訳日:2023-09-29 20:08:15 公開日:2023-09-28
# Kairos: 全システム前処理を用いた実用的な侵入検知と調査

Kairos: Practical Intrusion Detection and Investigation using Whole-system Provenance ( http://arxiv.org/abs/2308.05034v3 )

ライセンス: Link先を確認
Zijun Cheng, Qiujian Lv, Jinyuan Liang, Yan Wang, Degang Sun, Thomas Pasquier, Xueyuan Han(参考訳) 警告グラフは、システムの実行履歴を記述した構造化監査ログである。 最近の研究では、ホスト侵入検出のためのプロヴァンスグラフを分析する様々な手法が研究され、特に高度な永続的脅威に焦点を当てている。 Sifting through their design documents, we identify four common dimensions that drive the development of provenance-based intrusion detection systems (PIDSes): scope (can PIDSes detect modern attacks that infiltrate across application boundaries?), attack agnosticity (can PIDSes detect novel attacks without a priori knowledge of attack characteristics?), timeliness (can PIDSes efficiently monitor host systems as they run?), and attack reconstruction (can PIDSes distill attack activity from large provenance graphs so that sysadmins can easily understand and quickly respond to system intrusion?). KAIROSは4次元すべてでデシラタを同時に満足させる最初のPIDSであるが、既存のアプローチでは少なくとも1つを犠牲にして、同等な検出性能を達成するのに苦労している。 Kairosは、新しいグラフニューラルネットワークベースのエンコーダ-デコーダアーキテクチャを活用し、前兆グラフの構造変化の時間的進化を学び、各システムイベントの異常度を定量化する。 そして、この詳細な情報に基づいて攻撃フットプリントを再構築し、システム監査ログのストリーム上で悪意のあるアクティビティを正確に記述するコンパクトな要約グラフを生成する。 最先端のベンチマークデータセットを使用して、Kairosが従来のアプローチより優れていることを示す。

Provenance graphs are structured audit logs that describe the history of a system's execution. Recent studies have explored a variety of techniques to analyze provenance graphs for automated host intrusion detection, focusing particularly on advanced persistent threats. Sifting through their design documents, we identify four common dimensions that drive the development of provenance-based intrusion detection systems (PIDSes): scope (can PIDSes detect modern attacks that infiltrate across application boundaries?), attack agnosticity (can PIDSes detect novel attacks without a priori knowledge of attack characteristics?), timeliness (can PIDSes efficiently monitor host systems as they run?), and attack reconstruction (can PIDSes distill attack activity from large provenance graphs so that sysadmins can easily understand and quickly respond to system intrusion?). We present KAIROS, the first PIDS that simultaneously satisfies the desiderata in all four dimensions, whereas existing approaches sacrifice at least one and struggle to achieve comparable detection performance. Kairos leverages a novel graph neural network-based encoder-decoder architecture that learns the temporal evolution of a provenance graph's structural changes to quantify the degree of anomalousness for each system event. Then, based on this fine-grained information, Kairos reconstructs attack footprints, generating compact summary graphs that accurately describe malicious activity over a stream of system audit logs. Using state-of-the-art benchmark datasets, we demonstrate that Kairos outperforms previous approaches.
翻訳日:2023-09-29 20:07:34 公開日:2023-09-28
# ランダム化線形分類器を用いた確率不変学習

Probabilistic Invariant Learning with Randomized Linear Classifiers ( http://arxiv.org/abs/2308.04412v2 )

ライセンス: Link先を確認
Leonardo Cotta, Gal Yehuda, Assaf Schuster, Chris J. Maddison(参考訳) 既知のタスクの不分散を表現的かつ保存するモデルの設計は、ますます難しい問題になっている。 既存のソリューション 計算リソースやメモリリソースに対する不変性。 本研究では,表現的かつ不変だが資源の少ないランダム性モデルと設計モデルをどのように活用するかを示す。 ランダム化アルゴリズムにインスパイアされた私たちの重要な洞察は、普遍近似と不変性の確率論的概念を受け入れることで、リソースの要求を減らせることである。 具体的には,Randomized Linear Classifiers (RLC) と呼ばれるバイナリ分類モデルのクラスを提案する。 rlcはコンパクト群変換に対する不変性を維持しつつ、高確率で任意の(スムース)関数を近似できるパラメータとサンプルサイズ条件を与える。 この結果を利用して,集合,グラフ,球面データ上の分類タスクに対して有理確率不変量を持つ3つのrlcを設計した。 これらのモデルが、(決定論的)ニューラルネットワークとその不変量よりも少ないリソースを用いて、確率的不変性と普遍性を達成する方法を示す。 最後に、決定論的不変ニューラルネットワークが困難であることが知られている不変タスクにおいて、この新しいモデルの利点を実証的に示す。

Designing models that are both expressive and preserve known invariances of tasks is an increasingly hard problem. Existing solutions tradeoff invariance for computational or memory resources. In this work, we show how to leverage randomness and design models that are both expressive and invariant but use less resources. Inspired by randomized algorithms, our key insight is that accepting probabilistic notions of universal approximation and invariance can reduce our resource requirements. More specifically, we propose a class of binary classification models called Randomized Linear Classifiers (RLCs). We give parameter and sample size conditions in which RLCs can, with high probability, approximate any (smooth) function while preserving invariance to compact group transformations. Leveraging this result, we design three RLCs that are provably probabilistic invariant for classification tasks over sets, graphs, and spherical data. We show how these models can achieve probabilistic invariance and universality using less resources than (deterministic) neural networks and their invariant counterparts. Finally, we empirically demonstrate the benefits of this new class of models on invariant tasks where deterministic invariant neural networks are known to struggle.
翻訳日:2023-09-29 20:07:12 公開日:2023-09-28
# 神経odeの埋め込み機能

Embedding Capabilities of Neural ODEs ( http://arxiv.org/abs/2308.01213v2 )

ライセンス: Link先を確認
Christian Kuehn and Sara-Viola Kuntz(参考訳) 過去数年間に特に注目されたニューラルネットワークのクラスは、ニューラル常微分方程式(ニューラルODE)である。 動的システム理論を用いてニューラルODEの入出力関係を解析し、低次元および高次元の異なるニューラルODEアーキテクチャにおけるマップの正確な埋め込みに関するいくつかの結果を示す。 ニューラルODEアーキテクチャの埋め込み能力は、例えば線形層の追加や位相空間の増大によって向上することができる。 しかし、現在では体系的な理論は存在せず、組込みが不可能な状況の特定だけでなく、様々な組込み結果を開発することで、この目標に貢献する。 用いられる数学的手法には、主成分反復関数方程式、モース関数、懸垂流、解析からのさらなるアイデアなどが含まれる。 実際、主に普遍近似定理が用いられるが、我々の普遍埋め込みに関する幾何学力学系の視点は、なぜある種のニューラルODEアーキテクチャが他よりも優れているのかという根本的な理解を与える。

A class of neural networks that gained particular interest in the last years are neural ordinary differential equations (neural ODEs). We study input-output relations of neural ODEs using dynamical systems theory and prove several results about the exact embedding of maps in different neural ODE architectures in low and high dimension. The embedding capability of a neural ODE architecture can be increased by adding, for example, a linear layer, or augmenting the phase space. Yet, there is currently no systematic theory available and our work contributes towards this goal by developing various embedding results as well as identifying situations, where no embedding is possible. The mathematical techniques used include as main components iterative functional equations, Morse functions and suspension flows, as well as several further ideas from analysis. Although practically, mainly universal approximation theorems are used, our geometric dynamical systems viewpoint on universal embedding provides a fundamental understanding, why certain neural ODE architectures perform better than others.
翻訳日:2023-09-29 20:06:55 公開日:2023-09-28
# セマンティクスセグメンテーションのためのプレーンビジョントランスフォーマにおける動的トークンプルーニング

Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation ( http://arxiv.org/abs/2308.01045v2 )

ライセンス: Link先を確認
Quan Tang, Bowen Zhang, Jiajun Liu, Fagui Liu, Yifan Liu(参考訳) 視覚トランスフォーマーは様々な視覚タスクで主要な性能を達成しているが、それでも高い計算複雑性に苦しんでいる。 セマンティクスセグメンテーションのような密集した予測タスクでは、高分解能の入力や出力が計算に関わるトークンを多く含んでいるため、状況は悪化する。 イメージ分類タスクでは、より注意の少ないトークンを直接削除することが議論されているが、パッチ毎に密な予測が必要となるため、セマンティックセグメンテーションに拡張することはできない。 この目的のために、セマンティックセグメンテーションのためのトークンの早期終了に基づく動的トークンプルーニング(DToP)手法を導入する。 そこで我々は,広く採用されている補助ロスネットワークアーキテクチャをいくつかの段階に分け,各補助ブロックがトークンの難易度をランク付けする。 前方通過を完了させることなく,前もって簡単なトークンの予測を確定することができる。 さらに、各セマンティクスカテゴリに対して、最も高い信頼度トークンをk$にして、代表的コンテキスト情報を保持する。 したがって、計算の複雑さは、人間のセグメンテーションのように、入力の難易度によって変化する。 提案するdtopアーキテクチャは,現在のセマンティクスセグメンテーション法における計算コストの平均20-% - 35-%を,精度劣化のないプレーンビジョントランスフォーマに基づいて削減することを提案している。

Vision transformers have achieved leading performance on various visual tasks yet still suffer from high computational complexity. The situation deteriorates in dense prediction tasks like semantic segmentation, as high-resolution inputs and outputs usually imply more tokens involved in computations. Directly removing the less attentive tokens has been discussed for the image classification task but can not be extended to semantic segmentation since a dense prediction is required for every patch. To this end, this work introduces a Dynamic Token Pruning (DToP) method based on the early exit of tokens for semantic segmentation. Motivated by the coarse-to-fine segmentation process by humans, we naturally split the widely adopted auxiliary-loss-based network architecture into several stages, where each auxiliary block grades every token's difficulty level. We can finalize the prediction of easy tokens in advance without completing the entire forward pass. Moreover, we keep $k$ highest confidence tokens for each semantic category to uphold the representative context information. Thus, computational complexity will change with the difficulty of the input, akin to the way humans do segmentation. Experiments suggest that the proposed DToP architecture reduces on average $20\% - 35\%$ of computational cost for current semantic segmentation methods based on plain vision transformers without accuracy degradation.
翻訳日:2023-09-29 20:06:38 公開日:2023-09-28
# MDSC:音楽とダンスのスタイル整合性の評価に向けて

MDSC: Towards Evaluating the Style Consistency Between Music and Dance ( http://arxiv.org/abs/2309.01340v2 )

ライセンス: Link先を確認
Zixiang Zhou, Baoyuan Wang(参考訳) ダンスと音楽の一致度を評価する最初の評価指標であるMDSC(Music-Dance-Style Consistency)を提案する。 既存の測定基準では、動きの忠実性と多様性と、音楽と動きのリズムマッチングの程度のみが評価できる。 MDSCは、生成したダンス・モーション・シーケンスとコンディショニング・ミュージック・シーケンスがいかにスタイリスティックに相関しているかを測定する。 運動と音楽の埋め込み距離を直接測定することは最適解ではないことがわかった。 代わりに、クラスタリング問題としてモデル化することで、この問題に取り組みます。 具体的には 1)音楽エンコーダとモーションエンコーダの事前訓練を行い、 2) クラスタ内距離を最小化し, クラスタ間距離を最大化し, 共同空間内での動作と音楽の埋め込みを地図化・調整することを学ぶ。 3) 評価のために, ダンスの動きを組込み, クラスタ間距離, クラスタ間距離, およびそれらの比率にエンコードする。 提案手法は,音楽条件付き動作生成手法の結果に基づいて評価し,ユーザスタディと組み合わせることで,音楽距離スタイルの相関を計測する上で,ロバストな評価基準であることが判明した。 コードはhttps://github.com/zixiangzhou916/mdscで入手できる。

We propose MDSC(Music-Dance-Style Consistency), the first evaluation metric which assesses to what degree the dance moves and music match. Existing metrics can only evaluate the fidelity and diversity of motion and the degree of rhythmic matching between music and motion. MDSC measures how stylistically correlated the generated dance motion sequences and the conditioning music sequences are. We found that directly measuring the embedding distance between motion and music is not an optimal solution. We instead tackle this through modelling it as a clustering problem. Specifically, 1) we pre-train a music encoder and a motion encoder, then 2) we learn to map and align the motion and music embedding in joint space by jointly minimizing the intra-cluster distance and maximizing the inter-cluster distance, and 3) for evaluation purpose, we encode the dance moves into embedding and measure the intra-cluster and inter-cluster distances, as well as the ratio between them. We evaluate our metric on the results of several music-conditioned motion generation methods, combined with user study, we found that our proposed metric is a robust evaluation metric in measuring the music-dance style correlation. The code is available at: https://github.com/zixiangzhou916/MDSC.
翻訳日:2023-09-29 20:00:10 公開日:2023-09-28
# グラフニューラルネットワークに基づく強化学習を用いた組合せ最適化のためのQUBO型ハミルトン型損失関数

A Graph Neural Network-Based QUBO-Formulated Hamiltonian-Inspired Loss Function for Combinatorial Optimization using Reinforcement Learning ( http://arxiv.org/abs/2308.13978v2 )

ライセンス: Link先を確認
Redwan Ahmed Rizvee, Md. Mosaddek Khan(参考訳) Quadratic Unconstrained Binary Optimization (QUBO) は、NP-hard組合せ最適化問題をバイナリ変数の形でモデル化する一般的な手法である。 ハミルトニアン函数は、最適化の文脈において目的関数として使用されるQUBO問題を定式化するためにしばしば用いられる。 近年,単純なグラフニューラルネットワーク(GNN)アーキテクチャに基づくグラフ上での組合せ最適化(CO)問題に対処するために,汎用スケーラブルフレームワークであるPI-GNNが提案されている。 彼らの新しい貢献は、GNNを用いて最適化されたQUBO形式のハミルトン型損失関数である。 本研究では,高密度グラフで特に観察される上記の設定に関する重要な問題に対処する。 強化学習に基づくパラダイムは、多くのCO問題に対処するために広く使われている。 ここでは,強化学習パラダイムの汎用報酬関数としてquboによるハミルトニアンの適合性を定式化し,経験的に評価し,トレーニング中のノード投影状態を報酬の形式として直接統合する。 実験では,PI-GNN法と比較して最大44%改善した。 実装はhttps://github.com/rizveeredwan/learning-graph-structureにあります。

Quadratic Unconstrained Binary Optimization (QUBO) is a generic technique to model various NP-hard combinatorial optimization problems in the form of binary variables. The Hamiltonian function is often used to formulate QUBO problems where it is used as the objective function in the context of optimization. Recently, PI-GNN, a generic scalable framework, has been proposed to address the Combinatorial Optimization (CO) problems over graphs based on a simple Graph Neural Network (GNN) architecture. Their novel contribution was a generic QUBO-formulated Hamiltonian-inspired loss function that was optimized using GNN. In this study, we address a crucial issue related to the aforementioned setup especially observed in denser graphs. The reinforcement learning-based paradigm has also been widely used to address numerous CO problems. Here we also formulate and empirically evaluate the compatibility of the QUBO-formulated Hamiltonian as the generic reward function in the Reinforcement Learning paradigm to directly integrate the actual node projection status during training as the form of rewards. In our experiments, we observed up to 44% improvement in the RL-based setup compared to the PI-GNN algorithm. Our implementation can be found in https://github.com/rizveeredwan/learning-graph-structure.
翻訳日:2023-09-29 19:58:40 公開日:2023-09-28
# 非局所フェルミオン反発によるハバード・チューレスポンプの安定化

Stabilization of Hubbard-Thouless pumps through nonlocal fermionic repulsion ( http://arxiv.org/abs/2308.13375v3 )

ライセンス: Link先を確認
Javier Arg\"uello-Luengo and Manfred J. Mark and Francesca Ferlaino and Maciej Lewenstein and Luca Barbiero and Sergi Juli\`a-Farr\'e(参考訳) チューレスポンピングは量子系における量子化された位相不変量を探索する強力な概念である。 我々は,この機構をライス・ミール・フェルミ・ハバードモデルで探索し,競合するオンサイトおよびインターサイト相互作用の存在を特徴とする。 オンサイト反発による量子化ポンプの崩壊を示す最近の実験および理論的結果とは対照的に, 十分大きなサイト間相互作用により, thoulessポンプの相互作用が引き起こされることを示した。 さらに,大規模相互作用における安定なトポロジカルトランスポートの発生は,モデル基底相図における自然結合秩序波の存在と関係していることを明らかにした。 最後に,光格子内の超低温磁性原子に基づく具体的な実験装置について検討し,新たに導入したthoulessポンプを実現する。 その結果,相互作用量子系におけるThoulessポンプの安定化機構が得られた。

Thouless pumping represents a powerful concept to probe quantized topological invariants in quantum systems. We explore this mechanism in a generalized Rice-Mele Fermi-Hubbard model characterized by the presence of competing onsite and intersite interactions. Contrary to recent experimental and theoretical results, showing a breakdown of quantized pumping induced by the onsite repulsion, we prove that sufficiently large intersite interactions allow for an interaction-induced recovery of Thouless pumps. Our analysis further reveals that the occurrence of stable topological transport at large interactions is connected to the presence of a spontaneous bond-order-wave in the ground-state phase diagram of the model. Finally, we discuss a concrete experimental setup based on ultracold magnetic atoms in an optical lattice to realize the newly introduced Thouless pump. Our results provide a new mechanism to stabilize Thouless pumps in interacting quantum systems.
翻訳日:2023-09-29 19:58:21 公開日:2023-09-28
# 連続スペクトル定常状態の正規化に関する定理

A theorem for the normalization of continuous spectrum stationary states ( http://arxiv.org/abs/2308.11653v2 )

ライセンス: Link先を確認
G. K\"albermann (Soil and Water dept.(Emeritus), Faculty of Agriculture, Rehovot, Israel)(参考訳) 一次元シュリンガー方程式における連続スペクトル定常状態の正規化の評価を簡略化する解析式を提案する。

We present analytic formulae that simplify the evaluation of the normalization of continuous spectrum stationary states in the one-dimensional Schr\"odinger equation.
翻訳日:2023-09-29 19:57:37 公開日:2023-09-28
# STAEformer: 時空間適応型埋め込みによる交通予報用バニラ変圧器SOTA

STAEformer: Spatio-Temporal Adaptive Embedding Makes Vanilla Transformer SOTA for Traffic Forecasting ( http://arxiv.org/abs/2308.10425v4 )

ライセンス: Link先を確認
Hangchen Liu, Zheng Dong, Renhe Jiang, Jiewen Deng, Jinliang Deng, Quanjun Chen and Xuan Song(参考訳) インテリジェントトランスポーテーションシステム(ITS)の急速な発展に伴い、正確な交通予測が重要な課題となっている。 重要なボトルネックは、複雑な時空間的トラフィックパターンを捉えることだ。 近年、この問題に対処するために複雑なアーキテクチャを持つ多数のニューラルネットワークが提案されている。 しかし、ネットワークアーキテクチャの進歩は性能向上に遭遇している。 本研究では,バニラ変圧器において優れた結果が得られる時空間適応埋め込みと呼ばれる新しい成分を提案する。 提案した時空間適応型エンベディングトランス (STAEformer) は, 5つの実世界の交通予測データセットに対して最先端の性能を実現する。 さらに,交通時系列の時空間関係と時系列情報を効果的に把握することにより,時空間適応埋め込みが交通予測において重要な役割を果たすことを示した。

With the rapid development of the Intelligent Transportation System (ITS), accurate traffic forecasting has emerged as a critical challenge. The key bottleneck lies in capturing the intricate spatio-temporal traffic patterns. In recent years, numerous neural networks with complicated architectures have been proposed to address this issue. However, the advancements in network architectures have encountered diminishing performance gains. In this study, we present a novel component called spatio-temporal adaptive embedding that can yield outstanding results with vanilla transformers. Our proposed Spatio-Temporal Adaptive Embedding transformer (STAEformer) achieves state-of-the-art performance on five real-world traffic forecasting datasets. Further experiments demonstrate that spatio-temporal adaptive embedding plays a crucial role in traffic forecasting by effectively capturing intrinsic spatio-temporal relations and chronological information in traffic time series.
翻訳日:2023-09-29 19:57:34 公開日:2023-09-28
# 思考のアルゴリズム:大規模言語モデルにおけるアイデア探索の強化

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models ( http://arxiv.org/abs/2308.10379v2 )

ライセンス: Link先を確認
Bilgehan Sel, Ahmad Al-Tawaha, Vanshaj Khattar, Ruoxi Jia, Ming Jin(参考訳) チェーン・オブ・マインド(chain-of-thought)アプローチを克服する現在の文献では、しばしば外部のモダス・オペランディ(modus operandi)に頼り、生成プロセスを再開し、大きな言語モデル(llm)の推論能力を高める。 このモードはクエリ要求の数をエスカレートし、コスト、メモリ、計算オーバーヘッドを増加させる。 これに対応するために,アルゴリズム推論経路を通じてLLMを推進し,文脈内学習の新たなモードを開拓する新しい戦略である「思考のアルゴリズム」を提案する。 アルゴリズムの例を用いて,llmの帰納的反復ダイナミクスを活用し,そのアイデア探索を1つないし数個のクエリで拡張する。 本手法は従来手法よりも優れており,木探索アルゴリズムを応用した最近のマルチクエリ戦略と同等である。 興味深いことに,本研究の結果から,アルゴリズムを用いたLLMの指導がアルゴリズム自体を上回る性能をもたらすことが示唆され,LLMの直感を最適化された検索に織り込む能力が示唆された。 我々は,本手法の有効性とそのニュアンスを基礎として検討する。

Current literature, aiming to surpass the "Chain-of-Thought" approach, often resorts to an external modus operandi involving halting, modifying, and then resuming the generation process to boost Large Language Models' (LLMs) reasoning capacities. This mode escalates the number of query requests, leading to increased costs, memory, and computational overheads. Addressing this, we propose the Algorithm of Thoughts -- a novel strategy that propels LLMs through algorithmic reasoning pathways, pioneering a new mode of in-context learning. By employing algorithmic examples, we exploit the innate recurrence dynamics of LLMs, expanding their idea exploration with merely one or a few queries. Our technique outperforms earlier single-query methods and stands on par with a recent multi-query strategy that employs an extensive tree search algorithm. Intriguingly, our results suggest that instructing an LLM using an algorithm can lead to performance surpassing that of the algorithm itself, hinting at LLM's inherent ability to weave its intuition into optimized searches. We probe into the underpinnings of our method's efficacy and its nuances in application.
翻訳日:2023-09-29 19:57:20 公開日:2023-09-28
# 視覚とタッチによる一般的な手内物体回転

General In-Hand Object Rotation with Vision and Touch ( http://arxiv.org/abs/2309.09979v2 )

ライセンス: Link先を確認
Haozhi Qi, Brent Yi, Sudharshan Suresh, Mike Lambeta, Yi Ma, Roberto Calandra, Jitendra Malik(参考訳) マルチモーダル感覚入力を活用することで,複数の軸に沿って指先に基づく物体の回転を可能にするシステムであるRotateItを紹介する。 本システムは, 地表面の物体形状や物理的特性にアクセス可能なシミュレーションで訓練されている。 そして、現実的でうるさい振動性感覚入力と固有受容感覚入力で操作するために蒸留する。 これらのマルチモーダル入力は、Visuotactile Transformerを介して融合され、デプロイ中にオブジェクトの形状や物理的特性をオンラインで推測することができる。 従来の手法よりも優れた性能を示し,視覚・触覚センシングの重要性を示した。

We introduce RotateIt, a system that enables fingertip-based object rotation along multiple axes by leveraging multimodal sensory inputs. Our system is trained in simulation, where it has access to ground-truth object shapes and physical properties. Then we distill it to operate on realistic yet noisy simulated visuotactile and proprioceptive sensory inputs. These multimodal inputs are fused via a visuotactile transformer, enabling online inference of object shapes and physical properties during deployment. We show significant performance improvements over prior methods and the importance of visual and tactile sensing.
翻訳日:2023-09-29 19:49:37 公開日:2023-09-28
# 動的アンサンブル選択を用いた不均衡データストリーム分類

Imbalanced Data Stream Classification using Dynamic Ensemble Selection ( http://arxiv.org/abs/2309.09175v2 )

ライセンス: Link先を確認
Priya.S and Haribharathi Sivakumar and Vijay Arvind.R(参考訳) 現代のストリーミングデータの分類は、コンセプトドリフトとクラス不均衡データから大きな課題に直面している。 これは分類器の出力に悪影響を及ぼし、不適切な分類につながる。 さらに、多重クラスの重複のような他の要因は出力の正しさの程度を制限する。 本研究では,データ前処理と動的アンサンブル選択技術を用いた非定常ドリフト型不均衡データストリームの分類フレームワークを定式化し,データ前処理と動的アンサンブル選択を統合する新しい枠組みを提案する。 提案手法は,2種類のコンセプトドリフトと組み合わせて,不均衡比の異なる6つのデータストリームを用いて評価した。 各ストリームは8つの特徴によって記述された500のオブジェクトの200チャンクで構成され、5つのコンセプトドリフトを含んでいる。 7つの前処理技術と2つの動的アンサンブル選択法を検討した。 実験結果によると、データ前処理とDynamic Ensemble Selection技術を組み合わせることで、不均衡なデータストリームを扱う場合の精度が大幅に向上する。

Modern streaming data categorization faces significant challenges from concept drift and class imbalanced data. This negatively impacts the output of the classifier, leading to improper classification. Furthermore, other factors such as the overlapping of multiple classes limit the extent of the correctness of the output. This work proposes a novel framework for integrating data pre-processing and dynamic ensemble selection, by formulating the classification framework for the nonstationary drifting imbalanced data stream, which employs the data pre-processing and dynamic ensemble selection techniques. The proposed framework was evaluated using six artificially generated data streams with differing imbalance ratios in combination with two different types of concept drifts. Each stream is composed of 200 chunks of 500 objects described by eight features and contains five concept drifts. Seven pre-processing techniques and two dynamic ensemble selection methods were considered. According to experimental results, data pre-processing combined with Dynamic Ensemble Selection techniques significantly delivers more accuracy when dealing with imbalanced data streams.
翻訳日:2023-09-29 19:49:05 公開日:2023-09-28
# 非古典光とブロックされたリドバーグ原子アンサンブルの強い非線形相互作用

Strongly non-linear interaction between non-classical light and a blockaded Rydberg atomic ensemble ( http://arxiv.org/abs/2309.08257v2 )

ライセンス: Link先を確認
Jan Lowinski, Lukas Heller, F\'elix Hoffet, Auxiliadora Padr\'on-Brito, Klara Theophilo, Hugues de Riedmatten(参考訳) 本研究では,非古典光と波長可変多光子成分との相互作用について検討した。 dlcz量子メモリから放出される非古典的場は、リドバーグの電磁誘導透過性を用いて記憶され、双極子封鎖によって強い非線形応答を経験する。 その結果, rydbergアンサンブルの保存効率は, 入力場の多光子強度関数として減少し, 非線形性が得られた。 また、rydberg状態における保存後の検索フィールドの自己相関関数 $g^{(2)}(0)$ は大幅に減少し、非古典的入力光を用いた単一光子フィルタリングの最初の実演となった。 最後に,入力状態に対する媒体の影響をモデル化する簡単なシミュレーションを開発した。 この研究は、物質を媒介とする光子-光子相互作用と非古典光への一歩である。

We investigate the interaction between non-classical light with a tunable multiphoton component and a highly nonlinear medium based on cold Rydberg atoms. The non-classical field emitted by a DLCZ quantum memory is stored using Rydberg electromagnetically induced transparency, experiencing strong nonlinear response due to the dipole blockade. We show that the storage efficiency in the Rydberg ensemble decreases as function of the multiphoton strength of the input field, as a result of the nonlinearity. We also show that the autocorrelation function $g^{(2)}(0)$ of the retrieved field after storage in the Rydberg state is considerably reduced, leading to the first demonstration of single photon filtering with non-classical input light. Finally, we develop a simple simulation that allows us to model the effect of our medium on the input state. This work is a step towards matter-mediated photon-photon interactions with non-classical light.
翻訳日:2023-09-29 19:48:50 公開日:2023-09-28
# IoT環境における未知の攻撃の検出: ネットワーク侵入検出を強化するオープンセット分類器

Detecting Unknown Attacks in IoT Environments: An Open Set Classifier for Enhanced Network Intrusion Detection ( http://arxiv.org/abs/2309.07461v2 )

ライセンス: Link先を確認
Yasir Ali Farrukh, Syed Wali, Irfan Khan and Nathaniel D. Bastian(参考訳) モノのインターネット(IoT)デバイスが人生のあらゆる面に広く統合され、相互接続の時代が到来し、サイバーセキュリティの課題に対する新たな道が生まれ、堅牢な侵入検知システムの必要性が強調されている。 しかし、従来のセキュリティシステムはクローズドワールドの視点で設計されており、新たな不慣れな攻撃が絶えず発生している、進化を続ける脅威の状況に対処する上での課題に直面することが多い。 本稿では,IoT環境に適したネットワーク侵入検知システム(NIDS)の領域におけるオープンセット認識(OSR)問題の緩和を目的としたフレームワークを提案する。 ネットワークトラフィックから空間的・時間的パターンを抽出し,パケットレベルデータのイメージベース表現に重きを置いている。 さらに、スタック化とサブクラスタ化技術を統合し、良性行動の複雑で多様な性質を効果的にモデル化することにより、未知の攻撃の特定を可能にする。 経験的な結果はフレームワークの有効性を著しく低下させ、既存のアプローチや最近の進歩と比較すると、以前目にしたことのない攻撃に対する88\%検出率を誇示している。 今後の作業は、さまざまなオープンネスレベルとアタックシナリオにわたる広範な実験を行い、iot環境を保護するために提案するソリューションの適応性とパフォーマンスをさらに強化します。

The widespread integration of Internet of Things (IoT) devices across all facets of life has ushered in an era of interconnectedness, creating new avenues for cybersecurity challenges and underscoring the need for robust intrusion detection systems. However, traditional security systems are designed with a closed-world perspective and often face challenges in dealing with the ever-evolving threat landscape, where new and unfamiliar attacks are constantly emerging. In this paper, we introduce a framework aimed at mitigating the open set recognition (OSR) problem in the realm of Network Intrusion Detection Systems (NIDS) tailored for IoT environments. Our framework capitalizes on image-based representations of packet-level data, extracting spatial and temporal patterns from network traffic. Additionally, we integrate stacking and sub-clustering techniques, enabling the identification of unknown attacks by effectively modeling the complex and diverse nature of benign behavior. The empirical results prominently underscore the framework's efficacy, boasting an impressive 88\% detection rate for previously unseen attacks when compared against existing approaches and recent advancements. Future work will perform extensive experimentation across various openness levels and attack scenarios, further strengthening the adaptability and performance of our proposed solution in safeguarding IoT environments.
翻訳日:2023-09-29 19:48:32 公開日:2023-09-28
# Harmonic-NAS:資源制約デバイス上でのハードウェア対応マルチモーダルニューラルネットワーク探索

Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices ( http://arxiv.org/abs/2309.06612v2 )

ライセンス: Link先を確認
Mohamed Imed Eddine Ghebriout, Halima Bouzidi, Smail Niar, Hamza Ouarnoughi(参考訳) 近年のマルチモーダルニューラルネットワーク(mm-nn)への関心の高まりは、多種多様なデータソースからのマルチスケール情報を効果的に処理し統合できることに起因する。 MM-NNは適切な一方向のバックボーンと特定の融合ネットワークを用いて複数のモードから特徴を抽出する。 これはマルチモーダル情報表現の強化に役立つが、そのようなネットワークの設計は労働集約的である。 ユニモーダルバックボーンのアーキテクチャパラメータをチューニングし、融合点を選択し、融合のための操作を選択する必要がある。 さらに、IoT(Internet of Things)システムでは、推論レイテンシとエネルギー消費が精度に加えて重要な指標となる最先端オプションとして、マルチモダリティAIが登場している。 本稿では,リソース制約のあるデバイスにハードウェアを意識した,単調バックボーンとマルチモーダル融合ネットワークの協調最適化のためのフレームワークであるHarmonic-NASを提案する。 harmonic-nasは、ユニモーダルバックボーンアーキテクチャと融合戦略と演算子のための2層最適化アプローチを含んでいる。 ハードウェア次元を最適化に組み込むことにより、様々なデバイスやマルチモーダルデータセットの評価結果が、10.9%の精度向上、1.1倍のレイテンシ削減、2.14倍のエネルギー効率向上を達成する最先端アプローチよりも高調波nasが優れていることを実証した。

The recent surge of interest surrounding Multimodal Neural Networks (MM-NN) is attributed to their ability to effectively process and integrate multiscale information from diverse data sources. MM-NNs extract and fuse features from multiple modalities using adequate unimodal backbones and specific fusion networks. Although this helps strengthen the multimodal information representation, designing such networks is labor-intensive. It requires tuning the architectural parameters of the unimodal backbones, choosing the fusing point, and selecting the operations for fusion. Furthermore, multimodality AI is emerging as a cutting-edge option in Internet of Things (IoT) systems where inference latency and energy consumption are critical metrics in addition to accuracy. In this paper, we propose Harmonic-NAS, a framework for the joint optimization of unimodal backbones and multimodal fusion networks with hardware awareness on resource-constrained devices. Harmonic-NAS involves a two-tier optimization approach for the unimodal backbone architectures and fusion strategy and operators. By incorporating the hardware dimension into the optimization, evaluation results on various devices and multimodal datasets have demonstrated the superiority of Harmonic-NAS over state-of-the-art approaches achieving up to 10.9% accuracy improvement, 1.91x latency reduction, and 2.14x energy efficiency gain.
翻訳日:2023-09-29 19:48:10 公開日:2023-09-28
# インスタンス非依存幾何学と接触ダイナミクス学習

Instance-Agnostic Geometry and Contact Dynamics Learning ( http://arxiv.org/abs/2309.05832v2 )

ライセンス: Link先を確認
Mengti Sun, Bowen Jiang, Bibit Bianchini, Camillo Jose Taylor, Michael Posa(参考訳) 本稿では,視覚とダイナミクスを融合して,図形を共有表現として使用することにより,形状,軌道,物理的特性を同時に学習する,インスタンスに依存しない学習フレームワークを提案する。 衝突モデルに先立つ動作キャプチャ入力と既知の形状を仮定する多くのコンタクト学習アプローチとは異なり,提案手法では,対象の幾何学的および動的特性をrgbdビデオから学習する。 本研究では,視覚システムである BundleSDF と,ダイナミックスシステムである ContactNets を統合し,ダイナミックスモジュールからの出力を利用して視覚モジュールからのポーズや幾何学を改良する循環学習パイプラインを提案する。 実験は、剛体および凸体の幾何学と力学を学習し、現在の追跡フレームワークを改善するフレームワークの能力を実証する。

This work presents an instance-agnostic learning framework that fuses vision with dynamics to simultaneously learn shape, pose trajectories, and physical properties via the use of geometry as a shared representation. Unlike many contact learning approaches that assume motion capture input and a known shape prior for the collision model, our proposed framework learns an object's geometric and dynamic properties from RGBD video, without requiring either category-level or instance-level shape priors. We integrate a vision system, BundleSDF, with a dynamics system, ContactNets, and propose a cyclic training pipeline to use the output from the dynamics module to refine the poses and the geometry from the vision module, using perspective reprojection. Experiments demonstrate our framework's ability to learn the geometry and dynamics of rigid and convex objects and improve upon the current tracking framework.
翻訳日:2023-09-29 19:47:45 公開日:2023-09-28
# LLMの量子化のための符号付き勾配線による軽量ラウンドリングの最適化

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs ( http://arxiv.org/abs/2309.05516v2 )

ライセンス: Link先を確認
Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv(参考訳) 言語モデル(LLM)は、言語関連タスクの実行において、その例外的な能力を証明している。 しかし、メモリとストレージの要求がかなり大きいため、デプロイメントには重大な課題が伴う。 この問題に対して、特に3ビットと4ビットの重みのみの量子化が最も有効な解の1つとして登場した。 ビット数が減少すると量子化グリッドは拡大し、上下ラウンドの重要性が強調される。 従来の研究では、乱れの追加による微調整と下向きの丸めが精度を高めることが実証されているが、これらの乱れの正確かつ限定的な境界によって、丸め値を変更する閾値のみが重要である。 そこで本研究では,重み付け作業の最適化のための簡潔かつ高効率な手法を提案する。 我々の手法はSignRoundと呼ばれ、符号付き勾配勾配を用いた軽量なブロックワイドチューニングを伴い、400ステップ以内で優れた結果が得られる。 SignRoundは、追加の推論オーバーヘッドを導入することなく、最近のメソッドと驚くほど競合する。 ソースコードは、もうすぐ \url{https://github.com/intel/neural-compressor} で公開される。

Large Language Models (LLMs) have proven their exceptional capabilities in performing language-related tasks. However, their deployment poses significant challenges due to their considerable memory and storage requirements. In response to this issue, weight-only quantization, particularly 3 and 4-bit weight-only quantization, has emerged as one of the most viable solutions. As the number of bits decreases, the quantization grid broadens, thus emphasizing the importance of up and down rounding. While previous studies have demonstrated that fine-tuning up and down rounding with the addition of perturbations can enhance accuracy in some scenarios, our study is driven by the precise and limited boundary of these perturbations, where only the threshold for altering the rounding value is of significance. Consequently, we propose a concise and highly effective approach for optimizing the weight rounding task. Our method, named SignRound, involves lightweight block-wise tuning using signed gradient descent, enabling us to achieve outstanding results within 400 steps. SignRound competes impressively against recent methods without introducing additional inference overhead. The source code will be publicly available at \url{https://github.com/intel/neural-compressor} soon.
翻訳日:2023-09-29 19:47:06 公開日:2023-09-28
# ガウスの混合物は、多項式のサンプル数でプライベートに学習できる

Mixtures of Gaussians are Privately Learnable with a Polynomial Number of Samples ( http://arxiv.org/abs/2309.03847v2 )

ライセンス: Link先を確認
Mohammad Afzali, Hassan Ashtiani, Christopher Liaw(参考訳) 差分プライバシー(DP)の制約下でのガウスの混合度を推定する問題について検討する。 主な結果は、$\tilde{o}(k^2 d^4 \log(1/\delta) / \alpha^2 \varepsilon)$サンプルは、$(\varepsilon, \delta)$-dpを満たしながら、全変動距離までの$k$ガウスの混合物を推定するのに十分である。 これはgmmsの構造的な仮定をしない問題の上限となる最初の有限個のサンプル複雑性である。 この問題を解決するために、我々は他のタスクに役立つかもしれない新しいフレームワークを考案する。 高レベルでは、ある分布のクラス(ガウシアンなど)が(1)決定可能なリストであり、(2)全変動距離に関して「局所的に小さい」被覆(bun et al., 2021)を認めるならば、その混合のクラスはプライベートに学習可能であることを示す。 この証明は、ガウスとは異なり、GMMが局所的な小さな被覆(Aden-Ali et al., 2021b)を含まないことを示す既知の障壁を回避している。

We study the problem of estimating mixtures of Gaussians under the constraint of differential privacy (DP). Our main result is that $\tilde{O}(k^2 d^4 \log(1/\delta) / \alpha^2 \varepsilon)$ samples are sufficient to estimate a mixture of $k$ Gaussians up to total variation distance $\alpha$ while satisfying $(\varepsilon, \delta)$-DP. This is the first finite sample complexity upper bound for the problem that does not make any structural assumptions on the GMMs. To solve the problem, we devise a new framework which may be useful for other tasks. On a high level, we show that if a class of distributions (such as Gaussians) is (1) list decodable and (2) admits a "locally small'' cover (Bun et al., 2021) with respect to total variation distance, then the class of its mixtures is privately learnable. The proof circumvents a known barrier indicating that, unlike Gaussians, GMMs do not admit a locally small cover (Aden-Ali et al., 2021b).
翻訳日:2023-09-29 19:46:47 公開日:2023-09-28
# 分子表現学習における神経スケーリング則の解明

Uncovering Neural Scaling Laws in Molecular Representation Learning ( http://arxiv.org/abs/2309.15123v2 )

ライセンス: Link先を確認
Dingshuo Chen, Yanqiao Zhu, Jieyu Zhang, Yuanqi Du, Zhixun Li, Qiang Liu, Shu Wu, Liang Wang(参考訳) 分子表現学習(MRL)は、仮想スクリーニングや逆設計といった様々なタスクにおいて、薬物や材料発見のための強力なツールとして登場した。 モデル中心技術の発展への関心は高まっているが、データ量と品質が分子表現に与える影響は、この分野においてまだ明確には分かっていない。 本稿では,データ中心の観点からMRLのニューラルスケーリング挙動を探索し,(1)データモダリティ,(2)データセット分割,(3)事前学習の役割,(4)モデルキャパシティの4つの重要な次元について検討する。 実験により,データボリュームとMRL性能の整合性について検証した。 さらに,詳細な分析結果から,学習効率向上への道筋を見出した。 これらのスケーリング法則に挑戦するため、分子データに7つの一般的なデータプルーニング戦略を適用し、その性能をベンチマークする。 本研究は,データ中心型MRLの重要性と今後の研究の方向性を明らかにするものである。

Molecular Representation Learning (MRL) has emerged as a powerful tool for drug and materials discovery in a variety of tasks such as virtual screening and inverse design. While there has been a surge of interest in advancing model-centric techniques, the influence of both data quantity and quality on molecular representations is not yet clearly understood within this field. In this paper, we delve into the neural scaling behaviors of MRL from a data-centric viewpoint, examining four key dimensions: (1) data modalities, (2) dataset splitting, (3) the role of pre-training, and (4) model capacity. Our empirical studies confirm a consistent power-law relationship between data volume and MRL performance across these dimensions. Additionally, through detailed analysis, we identify potential avenues for improving learning efficiency. To challenge these scaling laws, we adapt seven popular data pruning strategies to molecular data and benchmark their performance. Our findings underline the importance of data-centric MRL and highlight possible directions for future research.
翻訳日:2023-09-29 19:41:50 公開日:2023-09-28
# ブリッジブロック分解による大規模mtp$_2$ガウス図形モデルの学習

Learning Large-Scale MTP$_2$ Gaussian Graphical Models via Bridge-Block Decomposition ( http://arxiv.org/abs/2309.13405v2 )

ライセンス: Link先を確認
Xiwen Wang, Jiaxi Ying, Daniel P. Palomar(参考訳) 本稿では,階数2 (\text{mtp}_2$) の完全正の多変量ガウス図形モデルを学習する問題について検討する。 大規模なスパースグラフによく存在するブリッジの概念を導入することにより、(1)閾値付きサンプル共分散グラフ上で \emph{bridge-block decomposition} によって誘導されるいくつかの小さなサブプロブレムと(2) 対応するエントリに対する明示的な解の集合を通して、問題全体が等価に最適化可能であることを示す。 現実的な側面から、この単純で証明可能な規律は、大きな問題を小さなトラクタブルなものに分解するために適用することができ、計算複雑性の大幅な削減と既存のアルゴリズムの大幅な改善につながる。 合成および実世界の実験により,提案手法は最先端のベンチマークと比較すると,大幅な高速化を示した。

This paper studies the problem of learning the large-scale Gaussian graphical models that are multivariate totally positive of order two ($\text{MTP}_2$). By introducing the concept of bridge, which commonly exists in large-scale sparse graphs, we show that the entire problem can be equivalently optimized through (1) several smaller-scaled sub-problems induced by a \emph{bridge-block decomposition} on the thresholded sample covariance graph and (2) a set of explicit solutions on entries corresponding to \emph{bridges}. From practical aspect, this simple and provable discipline can be applied to break down a large problem into small tractable ones, leading to enormous reduction on the computational complexity and substantial improvements for all existing algorithms. The synthetic and real-world experiments demonstrate that our proposed method presents a significant speed-up compared to the state-of-the-art benchmarks.
翻訳日:2023-09-29 19:41:34 公開日:2023-09-28
# agrisort:精密農業におけるロボットのリアルタイム追跡・検出フレームワーク

AgriSORT: A Simple Online Real-time Tracking-by-Detection framework for robotics in precision agriculture ( http://arxiv.org/abs/2309.13393v2 )

ライセンス: Link先を確認
Leonardo Saraceni, Ionut M. Motoi, Daniele Nardi, Thomas A. Ciarfuglia(参考訳) マルチオブジェクト追跡(MOT)の問題は、各オブジェクトに固有の識別子を保持しながら、ビデオシーケンス内のすべてのオブジェクトを検出し、追跡することである。 これはロボティクスにとって挑戦的で根本的な問題です。 精密農業では、極端なカメラの動き、突然の照明変化、強い咬合によって、満足のいくソリューションを達成することの難しさが増幅される。 ほとんどの現代のトラッカーは、関連のために動きではなくオブジェクトの出現に依存しているが、ほとんどのターゲットが農業の場合と同じ外観の静的オブジェクトである場合、効果がない。 この目的のために、SORT [5] の軌跡において、我々は、フレーム間のトラックの正確かつ高速な伝播を可能にする動き情報のみに基づく精密農業のための、簡単なオンラインリアルタイム追跡パイプラインであるAgriSORTを提案する。 AgriSORTの主な焦点は、効率性、柔軟性、最小限の依存関係、ロボットプラットフォームへのデプロイの容易さである。 提案したパイプラインを,テーブルグレープのブドウ畑で撮影されたビデオシーケンスに基づいて,特にインスタンスの自己相似性と密度が強いため,農業環境に適した新しいMOTベンチマークで検証した。 コードとデータセットは、将来の比較のために利用できる。

The problem of multi-object tracking (MOT) consists in detecting and tracking all the objects in a video sequence while keeping a unique identifier for each object. It is a challenging and fundamental problem for robotics. In precision agriculture the challenge of achieving a satisfactory solution is amplified by extreme camera motion, sudden illumination changes, and strong occlusions. Most modern trackers rely on the appearance of objects rather than motion for association, which can be ineffective when most targets are static objects with the same appearance, as in the agricultural case. To this end, on the trail of SORT [5], we propose AgriSORT, a simple, online, real-time tracking-by-detection pipeline for precision agriculture based only on motion information that allows for accurate and fast propagation of tracks between frames. The main focuses of AgriSORT are efficiency, flexibility, minimal dependencies, and ease of deployment on robotic platforms. We test the proposed pipeline on a novel MOT benchmark specifically tailored for the agricultural context, based on video sequences taken in a table grape vineyard, particularly challenging due to strong self-similarity and density of the instances. Both the code and the dataset are available for future comparisons.
翻訳日:2023-09-29 19:41:16 公開日:2023-09-28
# スパイクニューラルネットワークにおける二元的ロテリチケット探索によるスパースリワード獲得

Gaining the Sparse Rewards by Exploring Binary Lottery Tickets in Spiking Neural Network ( http://arxiv.org/abs/2309.13302v2 )

ライセンス: Link先を確認
Hao Cheng, Jiahang Cao, Erjia Xiao, Pu Zhao, Mengshu Sun, Jiaxu Wang, Jize Zhang, Xue Lin, Bhavya Kailkhura, Kaidi Xu, Renjing Xu(参考訳) 脳にインスパイアされた戦略としてのスパイクニューラルネットワーク(snn)は、その固有のスパイク情報状態に由来する高いスパース性と低電力特性のために多くの注目を集めている。 snnの効率をさらに高めるために、人工ニューラルネットワーク(ann)が元のネットワークのパフォーマンスを犠牲にすることなくサブネットワークを含むことを示す宝くじ(lts)仮説もsnsに存在すると宣言する研究もある。 しかし、SNNが処理するスパイク情報は、スパーシフィケーションにおけるバイナライゼーションと自然な類似性と親和性を持っている。 そこで,本研究では,(1)2進SNNにおけるLTの有無,(2)2進SNNにおけるスパイキング機構が,単純なモデルバイナライゼーションに比べて2進情報を扱う上で優れた戦略であるか否かを考察する。 これらの消費を認証するために、異なるネットワーク構造下でのバイナリウェイトスパイキングロッテリティケット(BinW-SLT)を見つけるためのスパーストレーニング手法を提案する。 総合的な評価により、BinW-SLTはCIFAR-10とCIFAR-100で最大5.86%、+3.17%向上し、完全精度のSNNとANNと比較して1.86倍と8.92倍の省エネが得られることを示した。

Spiking Neural Network (SNN) as a brain-inspired strategy receives lots of attention because of the high-sparsity and low-power properties derived from its inherent spiking information state. To further improve the efficiency of SNN, some works declare that the Lottery Tickets (LTs) Hypothesis, which indicates that the Artificial Neural Network (ANN) contains a subnetwork without sacrificing the performance of the original network, also exists in SNN. However, the spiking information handled by SNN has a natural similarity and affinity with binarization in sparsification. Therefore, to further explore SNN efficiency, this paper focuses on (1) the presence or absence of LTs in the binary SNN, and (2) whether the spiking mechanism is a superior strategy in terms of handling binary information compared to simple model binarization. To certify these consumptions, a sparse training method is proposed to find Binary Weights Spiking Lottery Tickets (BinW-SLT) under different network structures. Through comprehensive evaluations, we show that BinW-SLT could attain up to +5.86% and +3.17% improvement on CIFAR-10 and CIFAR-100 compared with binary LTs, as well as achieve 1.86x and 8.92x energy saving compared with full-precision SNN and ANN.
翻訳日:2023-09-29 19:40:52 公開日:2023-09-28
# S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees

S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees ( http://arxiv.org/abs/2309.12041v2 )

ライセンス: Link先を確認
Moritz Kirschte, Thorsten Peinemann, Joshua Stock, Carlos Cotrini, Esfandiar Mohammadi(参考訳) 勾配強化決定木(gbdt:gradient boosting decision tree)のプライバシー保護学習は、国勢調査データや医療メタデータなどの表データに対して、強力なユーティリティプライバシートレードオフをもたらす可能性がある。 証明可能なプライバシプロパティに関する最先端の考え方は、差分プライバシであり、単一のデータポイントの影響が制限され、否定可能であることを要求している。 差分プライベートなGBDT学習者を導入し,ユーティリティプライバシトレードオフを改善するために4つの主要なテクニックを利用する。 1) 決定木の葉のプライバシリークを, 従来よりも厳密に会計し, 改良されたノイズスケーリング手法を用いることで, 期待値が$o(1/n)$, かつデータポイントが$n$であるようなノイズを発生させる。 2) 個別のr\'enyiフィルタを本手法に統合し,反復的学習過程において過小に活用されたデータポイントから学習する。 3)無作為な決定木分割の概念を取り入れ,学習の場にプライバシー予算を集中させる。 (4)プライバシー強化のためのサブサンプリングを展開。 我々の評価では、abaloneデータセット($<4k$ トレーニングデータポイント)に対して、$r^2$-scoreが$0.39$ で$\varepsilon=0.15$という値を示しました。 アダルトデータセット(50k$トレーニングデータポイント)では、テストエラーが$18.7\,\%$ for $\varepsilon=0.07$で、最も近い前の作業は$\varepsilon=1.0$でしか得られない。 abalone dataset for $\varepsilon=0.54$ for $r^2$-score of $0.47$ これはgbdtの非プライベートバージョンで$r^2$-scoreが$0.54$に非常に近い。 アダルトデータセットの$\varepsilon=0.54$については、テストエラーが17.1\,\%$で、gbdtの非プライベートバージョンが13.7\,\%$に非常に近い。

Privacy-preserving learning of gradient boosting decision trees (GBDT) has the potential for strong utility-privacy tradeoffs for tabular data, such as census data or medical meta data: classical GBDT learners can extract non-linear patterns from small sized datasets. The state-of-the-art notion for provable privacy-properties is differential privacy, which requires that the impact of single data points is limited and deniable. We introduce a novel differentially private GBDT learner and utilize four main techniques to improve the utility-privacy tradeoff. (1) We use an improved noise scaling approach with tighter accounting of privacy leakage of a decision tree leaf compared to prior work, resulting in noise that in expectation scales with $O(1/n)$, for $n$ data points. (2) We integrate individual R\'enyi filters to our method to learn from data points that have been underutilized during an iterative training process, which -- potentially of independent interest -- results in a natural yet effective insight to learning streams of non-i.i.d. data. (3) We incorporate the concept of random decision tree splits to concentrate privacy budget on learning leaves. (4) We deploy subsampling for privacy amplification. Our evaluation shows for the Abalone dataset ($<4k$ training data points) a $R^2$-score of $0.39$ for $\varepsilon=0.15$, which the closest prior work only achieved for $\varepsilon=10.0$. On the Adult dataset ($50k$ training data points) we achieve test error of $18.7\,\%$ for $\varepsilon=0.07$ which the closest prior work only achieved for $\varepsilon=1.0$. For the Abalone dataset for $\varepsilon=0.54$ we achieve $R^2$-score of $0.47$ which is very close to the $R^2$-score of $0.54$ for the nonprivate version of GBDT. For the Adult dataset for $\varepsilon=0.54$ we achieve test error $17.1\,\%$ which is very close to the test error $13.7\,\%$ of the nonprivate version of GBDT.
翻訳日:2023-09-29 19:40:26 公開日:2023-09-28
# 音声言語表現学習のための大規模データセット

A Large-scale Dataset for Audio-Language Representation Learning ( http://arxiv.org/abs/2309.11500v2 )

ライセンス: Link先を確認
Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie(参考訳) AIコミュニティは、大規模なマルチモーダルデータセットによって駆動される強力な基盤モデルの開発に大きく貢献している。 しかし, 音声表現学習コミュニティでは, 現在の音声データセットは, 音量不足, 簡素な内容, 難解な収集手順などの制約に悩まされている。 これらの課題に対処するため,我々は,一連の公開ツールやapiに基づく革新的で自動的な音声キャプション生成パイプラインを提案し,19万以上の音声テキストペアからなる,auto-acdと呼ばれる大規模で高品質な音声言語データセットを構築する。 提案するデータセットの有効性を示すために,我々のデータセット上で人気のあるモデルをトレーニングし,音声言語検索,音声キャプション,環境分類といった下流タスクの性能向上を示す。 さらに,新しいテストセットを確立し,音声テキストタスクのベンチマークを提供する。 提案されたデータセットはhttps://auto-acd.github.io/でリリースされる。

The AI community has made significant strides in developing powerful foundation models, driven by large-scale multimodal datasets. However, in the audio representation learning community, the present audio-language datasets suffer from limitations such as insufficient volume, simplistic content, and arduous collection procedures. To tackle these challenges, we present an innovative and automatic audio caption generation pipeline based on a series of public tools or APIs, and construct a large-scale, high-quality, audio-language dataset, named as Auto-ACD, comprising over 1.9M audio-text pairs. To demonstrate the effectiveness of the proposed dataset, we train popular models on our dataset and show performance improvement on various downstream tasks, namely, audio-language retrieval, audio captioning, environment classification. In addition, we establish a novel test set and provide a benchmark for audio-text tasks. The proposed dataset will be released at https://auto-acd.github.io/.
翻訳日:2023-09-29 19:39:01 公開日:2023-09-28
# ルート探索と最適化における不要な点を避けるための壁の作成

Creating walls to avoid unwanted points in root finding and optimization ( http://arxiv.org/abs/2309.11475v2 )

ライセンス: Link先を確認
Tuyen Trung Truong(参考訳) ルート探索と最適化において、ある閉集合 $A$ 1 が存在する場合、あるメソッドによって構成された列が A に収束しないのが好まれる(ただし、凸や連結であるような$A$上の余分な性質は仮定しない)。 例えば、もしルートを見つけたいとすると、1つのルート$x^*$(手元が知らないかもしれない事実)のアトラクションの流域の初期点を選ぶと、必ずそのルートに現れる。 この場合、アルゴリズムの次の実行において、このポイント$z^*$を避けるメカニズムを持つ必要がある。 本稿では,これを実現するための2つの新しい手法を提案する。 最初の方法では、距離関数の適切なパワーによってコスト関数を$A$に分割する。 この考えは 1 変数の関数のすべての根を見つける方法に着想を得たものである。 制約付き最適化にもっと適した2番目のメソッドでは、関数の値が$A$で大きな定数になるように再定義します。 また, これに基づいて, 正次元成分のアトラクションを回避し, 別の成分に到達するためのアルゴリズムを提案する。 応用として、与えられた領域における 1 複素変数の準同型関数の根を見つけるための厳密な保証を証明する。 その過程で,現在の文献における既存手法との比較を行った。 新しいアプローチの有用性を説明するために、さまざまな異なる設定でいくつかの例を挙げる。

In root finding and optimization, there are many cases where there is a closed set $A$ one likes that the sequence constructed by one's favourite method will not converge to A (here, we do not assume extra properties on $A$ such as being convex or connected). For example, if one wants to find roots, and one chooses initial points in the basin of attraction for 1 root $x^*$ (a fact which one may not know before hand), then one will always end up in that root. In this case, one would like to have a mechanism to avoid this point $z^*$ in the next runs of one's algorithm. In this paper, we propose two new methods aiming to achieve this. In the first method, we divide the cost function by an appropriate power of the distance function to $A$. This idea is inspired by how one would try to find all roots of a function in 1 variable. In the second method, which is more suitable for constrained optimization, we redefine the value of the function to be a big constant on $A$. We also propose, based on this, an algorithm to escape the basin of attraction of a component of positive dimension to reach another component. As an application, we prove a rigorous guarantee for finding roots of a meromorphic function of 1 complex variable in a given domain. Along the way, we compare with main existing relevant methods in the current literature. We provide several examples in various different settings to illustrate the usefulness of the new approach.
翻訳日:2023-09-29 19:38:44 公開日:2023-09-28
# 大規模言語モデルから得られた確率に基づく特許請求の範囲測定のための新しいアプローチ

A novel approach to measuring patent claim scope based on probabilities obtained from (large) language models ( http://arxiv.org/abs/2309.10003v2 )

ライセンス: Link先を確認
S\'ebastien Ragot(参考訳) 本研究は,特許クレームの範囲を,このクレームに含まれる自己情報の相互性として測定することを提案する。 言語モデルからクレームの発生確率を求め、この確率を用いて自己情報を算出する。 情報理論の根底にあるこのアプローチは、不可能な概念が通常の概念よりも情報的である、という仮定に基づいている。 逆に、クレームを定義するのに必要な情報が驚くほど、その範囲は狭くなる。 最も単純なモデル(各単語または文字が同一の確率で割り当てられる)から中間モデル(平均語または文字の周波数を使用する)から大きな言語モデル(GPT2)まで、5つの言語モデルが検討されている。 興味深いことに、最も単純な言語モデルから得られるスコープは、クレームに関連する単語や文字の数の相互関係に比例する。 異なる発明に向けられた複数の特許クレームに適用され、各シリーズは徐々に減少する範囲を持つように考案されたクレームからなる。 言語モデルの性能は、いくつかのアドホックテストに対して評価される。 モデルが洗練すればするほど、結果は良くなる。 すなわち、GPT2確率モデルは単語と文字の周波数に基づくモデルよりも優れており、それ自身は単語または文字数に基づく最も単純なモデルより優れている。 それでも、文字数の方が単語数よりも信頼性の高い指標であるようだ。

This work proposes to measure the scope of a patent claim as the reciprocal of the self-information contained in this claim. A probability of occurrence of the claim is obtained from a language model and this probability is used to compute the self-information. Grounded in information theory, this approach is based on the assumption that an unlikely concept is more informative than a usual concept, insofar as it is more surprising. In turn, the more surprising the information required to defined the claim, the narrower its scope. Five language models are considered, ranging from simplest models (each word or character is assigned an identical probability) to intermediate models (using average word or character frequencies), to a large language model (GPT2). Interestingly, the scope resulting from the simplest language models is proportional to the reciprocal of the number of words or characters involved in the claim, a metric already used in previous works. Application is made to multiple series of patent claims directed to distinct inventions, where each series consists of claims devised to have a gradually decreasing scope. The performance of the language models is assessed with respect to several ad hoc tests. The more sophisticated the model, the better the results. I.e., the GPT2 probability model outperforms models based on word and character frequencies, which themselves outdo the simplest models based on word or character counts. Still, the character count appears to be a more reliable indicator than the word count.
翻訳日:2023-09-29 19:37:50 公開日:2023-09-28
# 量子速度ゆがみ関数の効率的な計算

Efficient Computation of the Quantum Rate-Distortion Function ( http://arxiv.org/abs/2309.15919v1 )

ライセンス: Link先を確認
Kerry He, James Saunderson, Hamza Fawzi(参考訳) 量子速度ゆらぎ関数は量子情報理論において基本的な役割を果たすが、この関数を適度なチャネル次元に対して高い精度で効率的に計算できる実用的なアルゴリズムは存在しない。 本稿では, 対称性の低減が, 絡み合い支援型量子速度歪み問題の一般的な例を著しく単純化し, 数値アルゴリズムによらず, より効率的な計算を可能にすることを示す。 これらの問題のいくつかについては、対称性の低下により量子速度歪関数の閉形式式を導出することができる。 さらに,証明可能な部分線形収束率を持つ量子レートゆらぎ関数を計算するために,ミラー降下アルゴリズムの非現実的変種を提案する。 本稿では,このミラー降下アルゴリズムがBlahut-Arimotoとどのように関係しているかを示す。 これらの手法を用いて,マルチキュービット量子レート歪み関数を計算した最初の数値実験を行い,提案アルゴリズムが既存手法と比較して高速かつ高精度に解くことを示す。

The quantum rate-distortion function plays a fundamental role in quantum information theory, however there is currently no practical algorithm which can efficiently compute this function to high accuracy for moderate channel dimensions. In this paper, we show how symmetry reduction can significantly simplify common instances of the entanglement-assisted quantum rate-distortion problems, allowing for more efficient computation regardless of the numerical algorithm being used. For some of these problem instances, symmetry reduction allows us to derive closed-form expressions for the quantum rate-distortion function. Additionally, we propose an inexact variant of the mirror descent algorithm to compute the quantum rate-distortion function with provable sublinear convergence rates. We show how this mirror descent algorithm is related to Blahut-Arimoto and expectation-maximization methods previously used to solve similar problems in information theory. Using these techniques, we present the first numerical experiments to compute a multi-qubit quantum rate-distortion function, and show that our proposed algorithm solves faster and to higher accuracy when compared to existing methods.
翻訳日:2023-09-29 19:20:52 公開日:2023-09-28
# 共変量調整した逆ファクト処理条件対応曲線の非パラメトリック推定

Nonparametric estimation of a covariate-adjusted counterfactual treatment regimen response curve ( http://arxiv.org/abs/2309.16099v1 )

ライセンス: Link先を確認
Ashkan Ertefaie, Luke Duttweiler, Brent A. Johnson and Mark J. van der Laan(参考訳) 治療体制下での平均結果(すなわち価値関数)の柔軟な推定は、パーソナライズされた医療への重要なステップである。 そこで我々は,対象パラメータを条件値関数として定義し,ベースライン共変数の集合を成層ベース値関数と呼ぶ。 我々は,半パラメトリックな決定規則のクラスに着目し,そのクラス内の非パラメトリックな共変量調整型レマン応答曲線推定器を提案する。 私たちの仕事はいくつかの点で貢献します。 まず、スムーズな規則応答曲線関数の逆確率重み付き非パラメトリック効率推定器を提案する。 ニュアサンス関数を十分に満たさないと漸近線型性が達成されることを示す。 アンダースムーシングの漸近的および有限なサンプル基準を提案する。 次に,ガウス過程理論を用いて,平滑化レジーメン-応答曲線関数に対する同時信頼区間を提案する。 第3に、レジーム-応答曲線推定器の最適化器の一貫性と収束率を提供するため、最適な半パラメトリック則を推定できる。 後者は最適化器が最適動的処理レジームに対応するため重要である。 いくつかの有限サンプル特性はシミュレーションによって探究される。

Flexible estimation of the mean outcome under a treatment regimen (i.e., value function) is the key step toward personalized medicine. We define our target parameter as a conditional value function given a set of baseline covariates which we refer to as a stratum based value function. We focus on semiparametric class of decision rules and propose a sieve based nonparametric covariate adjusted regimen-response curve estimator within that class. Our work contributes in several ways. First, we propose an inverse probability weighted nonparametrically efficient estimator of the smoothed regimen-response curve function. We show that asymptotic linearity is achieved when the nuisance functions are undersmoothed sufficiently. Asymptotic and finite sample criteria for undersmoothing are proposed. Second, using Gaussian process theory, we propose simultaneous confidence intervals for the smoothed regimen-response curve function. Third, we provide consistency and convergence rate for the optimizer of the regimen-response curve estimator; this enables us to estimate an optimal semiparametric rule. The latter is important as the optimizer corresponds with the optimal dynamic treatment regimen. Some finite-sample properties are explored with simulations.
翻訳日:2023-09-29 18:27:20 公開日:2023-09-28
# 敵対的事例は避けられる:―敵対的ロバスト性におけるデータ集中の役割―

Adversarial Examples Might be Avoidable: The Role of Data Concentration in Adversarial Robustness ( http://arxiv.org/abs/2309.16096v1 )

ライセンス: Link先を確認
Ambar Pal, Jeremias Sulam, Ren\'e Vidal(参考訳) 現代の機械学習分類器の敵例に対する感受性は、これらが避けられないかもしれないという理論的な結果を動機づけている。 しかし、これらの結果は自然データ分布に適用するには一般的すぎる。 実際、人間は視覚に関わるタスクに非常に頑健です。 この明らかな対立は、この問題を深く掘り下げる動機となっている: 敵の例は本当に避けられないのか? 本研究では,データ分布の重要な特性 -- 入力空間の小さな部分集合に集中する -- がロバストな分類器が存在するかどうかを理論的に証明する。 さらに,低次元線形部分空間の結合に集中したデータ分布では,データ構造を自然に活用することで,ロバスト性保証を良好に享受できる分類器が生まれ,特定の領域において証明可能な認証方法が改善されることを実証する。

The susceptibility of modern machine learning classifiers to adversarial examples has motivated theoretical results suggesting that these might be unavoidable. However, these results can be too general to be applicable to natural data distributions. Indeed, humans are quite robust for tasks involving vision. This apparent conflict motivates a deeper dive into the question: Are adversarial examples truly unavoidable? In this work, we theoretically demonstrate that a key property of the data distribution -- concentration on small-volume subsets of the input space -- determines whether a robust classifier exists. We further demonstrate that, for a data distribution concentrated on a union of low-dimensional linear subspaces, exploiting data structure naturally leads to classifiers that enjoy good robustness guarantees, improving upon methods for provable certification in certain regimes.
翻訳日:2023-09-29 18:27:03 公開日:2023-09-28
# TPE:多対人コラボレーションによる概念的ツールよりも優れた構成推論を目指して

TPE: Towards Better Compositional Reasoning over Conceptual Tools with Multi-persona Collaboration ( http://arxiv.org/abs/2309.16090v1 )

ライセンス: Link先を確認
Hongru Wang, Huimin Wang, Lingzhi Wang, Minda Hu, Rui Wang, Boyang Xue, Hongyuan Lu, Fei Mi, Kam-Fai Wong(参考訳) 大規模言語モデル(LLM)は、電卓やレトリバーなどの様々な機能ツール、特に質問応答タスクの計画において、例外的な性能を示した。 本稿では,対話システムのコンテキストにおける概念的ツールを中心に,これらのツールの定義を拡大する。 概念ツールは、体系的あるいは調査的な思考を支援する認知的概念を特定する。 これらの概念ツールは、複数の心理学的戦略や学習戦略を1ターンで動的に適用し、有用な応答を構成するなど、実践において重要な役割を果たす。 これらの概念的ツールによるLCMの推論と計画能力をさらに強化するため、多人数共同作業フレームワークThink-Plan-Execute(TPE)を紹介した。 このフレームワークは、応答生成プロセスをthinker、planner、executorという3つの異なる役割に分解する。 具体的には、ユーザ感情や嗜好といった会話の文脈で表される内部状態を分析し、グローバルなガイドラインを定式化する。 プランナーは異なる概念ツール(例えば、ソースや戦略)を呼び出す実行可能なプランを生成し、Executorはすべての中間結果をコヒーレントなレスポンスにコンパイルする。 この構造化アプローチは、応答の説明可能性と制御性を高めるだけでなく、トークン冗長性も低下させる。 マルチソース(FoCus)やマルチストラテジーインタラクション(CIMA,PsyQA)など,対話応答生成タスクにおけるTPEの有効性を示す。 これは、単なる機能的なツール以上の複雑なツール学習を必要とする実世界の対話インタラクションを扱う可能性を明らかにする。 完全なコードとデータは複製のためにリリースされます。

Large language models (LLMs) have demonstrated exceptional performance in planning the use of various functional tools, such as calculators and retrievers, particularly in question-answering tasks. In this paper, we expand the definition of these tools, centering on conceptual tools within the context of dialogue systems. A conceptual tool specifies a cognitive concept that aids systematic or investigative thought. These conceptual tools play important roles in practice, such as multiple psychological or tutoring strategies being dynamically applied in a single turn to compose helpful responses. To further enhance the reasoning and planning capability of LLMs with these conceptual tools, we introduce a multi-persona collaboration framework: Think-Plan-Execute (TPE). This framework decouples the response generation process into three distinct roles: Thinker, Planner, and Executor. Specifically, the Thinker analyzes the internal status exhibited in the dialogue context, such as user emotions and preferences, to formulate a global guideline. The Planner then generates executable plans to call different conceptual tools (e.g., sources or strategies), while the Executor compiles all intermediate results into a coherent response. This structured approach not only enhances the explainability and controllability of responses but also reduces token redundancy. We demonstrate the effectiveness of TPE across various dialogue response generation tasks, including multi-source (FoCus) and multi-strategy interactions (CIMA and PsyQA). This reveals its potential to handle real-world dialogue interactions that require more complicated tool learning beyond just functional tools. The full code and data will be released for reproduction.
翻訳日:2023-09-29 18:26:51 公開日:2023-09-28
# 短距離系から現れる絡み合いハミルトニアンの関連する長距離相互作用

Relevant long-range interaction of the entanglement Hamiltonian emerges from a short-range system ( http://arxiv.org/abs/2309.16089v1 )

ライセンス: Link先を確認
Chuhao Li, Rui-Zhen Huang, Yi-Ming Ding, Zi Yang Meng, Yan-Cheng Wang, Zheng Yan(参考訳) li-ハルダン予想を超えて、エンタングルメントハミルトニアン (eh) は実際に仮想辺上の元のハミルトニアンとあまり似ていないことが分かる。 必然的に、EHは物理学に大きな影響を与えるいくつかの関連する長距離相互作用項を持つ。 一般性を失うことなく,スピン-1/2ハイゼンベルク複層を解析し,両層間の絡み合い情報を得る。 ゴールドストーンモードを持つエンタングルメントスペクトルは、li-ハルダン予想と一致する単層上のハイゼンベルクモデルのように思われるが、実際にはehの有限温度相転移が存在することを実証する。 結果はメルミン=ワグナーの定理に反し、EHの中に関連する長距離項が存在することを意味する。 これは、Li-Haldane予想が、完全に異なる物理を導く可能性があるEHの必要な補正を無視していることを明らかにする。

Beyond the Li-Haldane conjecture, we find the entanglement Hamiltonian (EH) is actually not closely similar to the original Hamiltonian on the virtual edge. Unexpectedly, the EH has some relevant long-range interacting terms which hugely affect the physics. Without loss of generality, we study a spin-1/2 Heisenberg bilayer to obtain the entanglement information between the two layers. Although the entanglement spectrum carrying Goldstone mode seems like a Heisenberg model on a single layer which is consistent with Li-Haldane conjecture, we demonstrate there actually is a finite temperature phase transition for the EH. The results violate the Mermin-Wagner theorem which means there should be relevant long-range terms in the EH. It reveals that the Li-Haldane conjecture ignores necessary corrections for the EH which may lead totally different physics.
翻訳日:2023-09-29 18:26:22 公開日:2023-09-28
# 強結合系における駆動光学系の時間的進化

Temporal evolution of a driven optomechanical system in the strong coupling regime ( http://arxiv.org/abs/2309.16087v1 )

ライセンス: Link先を確認
L. Medina-Dozal, J. R\'ecamier, H. M. Moya-Cessa, F. Soto-Eguibar, R. Rom\'an-Ancheyta, I. Ramos-Prieto and A. R. Urz\'ua(参考訳) 電磁場と機械振動子の正規化結合である$G/\omega_m$が1と比べて無視できない場合、リー代数法を用いて強制オプトメカニカル量子系の時間進化演算子を得る。 強制項のため、相互作用図ハミルトニアンは指数数演算子を含むので、それに対処するために、これらの指数関数を初期コヒーレント状態間の平均値によって近似する。 我々の近似は、光子数、フォノン数、マンデルパラメータ、およびウィグナー関数の数値解と比較した場合に正当化され、良好な一致を示す。

We obtain a time-evolution operator for a forced optomechanical quantum system using Lie algebraic methods when the normalized coupling between the electromagnetic field and a mechanical oscillator, $G/\omega_m$, is not negligible compared to one. Due to the forcing term, the interaction picture Hamiltonian contains the number operator in the exponents, and in order to deal with it, we approximate these exponentials by their average values taken between initial coherent states. Our approximation is justified when we compare our results with the numerical solution of the number of photons, phonons, Mandel parameter, and the Wigner function, showing an excellent agreement.
翻訳日:2023-09-29 18:26:05 公開日:2023-09-28
# イオン化プロトン-アンモニア分子衝突の古典的軌道モデル:多重イオン化の役割

Classical-trajectory model for ionizing proton-ammonia molecule collisions: the role of multiple ionization ( http://arxiv.org/abs/2309.16083v1 )

ライセンス: Link先を確認
Alba Jorge, Marko Horbatsch, Tom Kirchner(参考訳) 半古典的近似を用いた独立電子モデルを用いて、アンモニア分子と陽子の高速衝突における電子放出の差分断を解析する。 電子軌道に対する効果的なポテンシャルモデルを導入し、古典軌道モンテカルロ(ctmc)アプローチの文脈で一電子動力学に応用した。 電子放出角度とエネルギーの断面差を実験データと比較する。 従来の散乱理論に基づく量子力学結果と比較して、時間依存半古典的CTMCアプローチは、中間電子エネルギーと高電離電子エネルギーの類似した品質の結果を提供する。 現在のモデルと独立原子モデル計算との間には,q$-foldイオン化のための全断面にいくつかの相違がある。 二重イオン化断面積は、荷電破片の偶然のカウントから得られた最近の実験データよりもかなり大きい。 計算された三重イオン化断面積は、中間エネルギーで数桁のq=3$の実験一致データを超える。

We use an independent electron model with semi-classical approximation to electron dynamics to investigate differential cross sections for electron emission in fast collisions of protons with ammonia molecules. An effective potential model for the electronic orbitals is introduced, and utilized in the context of the classical-trajectory Monte Carlo (CTMC) approach for single-electron dynamics. Cross sections differential in electron emission angle and energy are compared with experimental data. Compared to previous scattering-theory based quantum-mechanical results the time-dependent semi-classical CTMC approach provides results of similar quality for intermediate and high ionized electron energies. We find some discrepancies in the total cross sections for $q$-fold ionization between the present model and independent-atom-model calculations. The double ionization cross sections are considerably larger than recent experimental data which are derived from coincidence counting of charged fragments. The calculated triple ionization cross sections exceed the experimental coincidence data for $q=3$ by several orders of magnitude at intermediate energies.
翻訳日:2023-09-29 18:25:54 公開日:2023-09-28
# 残余ワンアウトアンサンブルによる言語モデルにおけるプライベートテキストシーケンスの獲得

Forgetting Private Textual Sequences in Language Models via Leave-One-Out Ensemble ( http://arxiv.org/abs/2309.16082v1 )

ライセンス: Link先を確認
Zhe Liu, Ozlem Kalinli(参考訳) 近年の研究では、言語モデルがトレーニングコーパスに希少または独特なトークンシーケンスを記憶する傾向があることが示されている。 モデルをデプロイした後、実践者は個人の要求によってモデルから個人情報を削除するように要求される。 個人が忘れられる権利を実践するたびに、基礎となるモデルを再トレーニングすることは、計算コストがかかる。 そこで本研究では,教師主導の枠組みを用いて,モデルから忘れられる必要のあるテキストシーケンスを学習するための,新たなアンサンブル手法を提案する。 提案手法では,複数の教師が互いに連携して学習し,各順序を取り除き,この系列を含む集合上で訓練した教師を除外し,残りの教師から予測を集約し,微調整時の監督を行う。 librispeechとwikitext-103データセットの実験は、提案手法が他の手法よりも優れたプライバシ利用トレードオフを達成していることを示している。

Recent research has shown that language models have a tendency to memorize rare or unique token sequences in the training corpus. After deploying a model, practitioners might be asked to delete any personal information from the model by individuals' requests. Re-training the underlying model every time individuals would like to practice their rights to be forgotten is computationally expensive. We employ a teacher-student framework and propose a novel leave-one-out ensemble method to unlearn the targeted textual sequences that need to be forgotten from the model. In our approach, multiple teachers are trained on disjoint sets; for each targeted sequence to be removed, we exclude the teacher trained on the set containing this sequence and aggregate the predictions from remaining teachers to provide supervision during fine-tuning. Experiments on LibriSpeech and WikiText-103 datasets show that the proposed method achieves superior privacy-utility trade-offs than other counterparts.
翻訳日:2023-09-29 18:25:39 公開日:2023-09-28
# コントラストエンコーダを用いたタスク指向koopman制御

Task-Oriented Koopman-Based Control with Contrastive Encoder ( http://arxiv.org/abs/2309.16077v1 )

ライセンス: Link先を確認
Xubo Lyu, Hanyang Hu, Seth Siriya, Ye Pu, Mo Chen(参考訳) タスク指向のKoopman-based controlは、エンドツーエンドの強化学習とコントラストエンコーダを利用して、反復ループ内でKoopmanの潜在埋め込み、演算子および関連する線形コントローラを同時に学習する。 タスクコストをコントローラ学習の主目的として優先順位付けすることにより、コプマン制御を低次元システムを超えて高次元の複雑な非線形システムへと拡張する、よく同定されたモデルにおけるコントローラ設計への依存を減らす。

We present task-oriented Koopman-based control that utilizes end-to-end reinforcement learning and contrastive encoder to simultaneously learn the Koopman latent embedding, operator and associated linear controller within an iterative loop. By prioritizing the task cost as main objective for controller learning, we reduce the reliance of controller design on a well-identified model, which extends Koopman control beyond low-dimensional systems to high-dimensional, complex nonlinear systems, including pixel-based scenarios.
翻訳日:2023-09-29 18:25:21 公開日:2023-09-28
# infer and adapt: 逆強化学習による実演による二足歩行報酬学習

Infer and Adapt: Bipedal Locomotion Reward Learning from Demonstrations via Inverse Reinforcement Learning ( http://arxiv.org/abs/2309.16074v1 )

ライセンス: Link先を確認
Feiyang Wu, Zhaoyuan Gu, Hanran Wu, Anqi Wu, Ye Zhao(参考訳) 二足歩行ロボットが高度に不均一で動的に変化する地形を操る方法を学ぶことは、ロボットのダイナミクスと相互作用する環境の複雑さのために困難である。 デモから学ぶことの最近の進歩は、複雑な環境でのロボット学習に有望な結果を示している。 専門家政策の模倣学習はよく研究されているが、専門家報酬関数の学習の研究は足の移動においてほとんど未熟である。 本稿では、複雑な地形上の二足歩行問題を解決するために、最先端の逆強化学習(IRL)技術を導入する。 専門家の報酬関数を学習するためのアルゴリズムを提案し,その学習関数を解析した。 非線形関数近似により,専門家の移動戦略に対する有意義な洞察を明らかにする。 さらに,推定報酬関数を用いた二足歩行政策のトレーニングが,見知らぬ地形での歩行性能を高めることを実証的に示し,報奨学習がもたらす適応性を強調した。

Enabling bipedal walking robots to learn how to maneuver over highly uneven, dynamically changing terrains is challenging due to the complexity of robot dynamics and interacted environments. Recent advancements in learning from demonstrations have shown promising results for robot learning in complex environments. While imitation learning of expert policies has been well-explored, the study of learning expert reward functions is largely under-explored in legged locomotion. This paper brings state-of-the-art Inverse Reinforcement Learning (IRL) techniques to solving bipedal locomotion problems over complex terrains. We propose algorithms for learning expert reward functions, and we subsequently analyze the learned functions. Through nonlinear function approximation, we uncover meaningful insights into the expert's locomotion strategies. Furthermore, we empirically demonstrate that training a bipedal locomotion policy with the inferred reward functions enhances its walking performance on unseen terrains, highlighting the adaptability offered by reward learning.
翻訳日:2023-09-29 18:25:11 公開日:2023-09-28
# d$^3$fields: ゼロショット汎用ロボット操作のための動的3次元ディスクリプタフィールド

D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Robotic Manipulation ( http://arxiv.org/abs/2309.16118v1 )

ライセンス: Link先を確認
Yixuan Wang, Zhuoran Li, Mingtong Zhang, Katherine Driggs-Campbell, Jiajun Wu, Li Fei-Fei, Yunzhu Li(参考訳) シーン表現はロボット操作システムにおいて重要な設計選択である。 理想的な表現は、多様な操作タスクの要求を満たすために、3D、ダイナミック、セマンティックであるべきです。 しかし、以前の作品は同時に3つの性質を欠いていることが多い。 本研究では,d$^3$fieldsdynamic 3dディスクリプタフィールドを導入する。 これらのフィールドは基盤となる3d環境のダイナミクスをキャプチャし、セマンティック機能とインスタンスマスクの両方をエンコードする。 具体的には,ワークスペース内の任意の3次元点を多視点2次元視覚観測に投影し,基礎モデルから得られる特徴を補間する。 融合ディスクリプタフィールドは、さまざまなコンテキスト、スタイル、インスタンスを持つ2Dイメージを使用してフレキシブルな目標仕様を可能にする。 これらの記述子フィールドの有効性を評価するため、ゼロショット方式で幅広いロボット操作タスクに我々の表現を適用した。 実世界のシナリオとシミュレーションの両方において、D$^3$Fieldsは一般化可能であり、ゼロショットロボット操作タスクに有効であることを示す。 Dense Object NetsやDINOのような最先端の高密度記述子と比較すると、D$3$Fieldsはより優れた一般化能力と操作精度を示す。

Scene representation has been a crucial design choice in robotic manipulation systems. An ideal representation should be 3D, dynamic, and semantic to meet the demands of diverse manipulation tasks. However, previous works often lack all three properties simultaneously. In this work, we introduce D$^3$Fields - dynamic 3D descriptor fields. These fields capture the dynamics of the underlying 3D environment and encode both semantic features and instance masks. Specifically, we project arbitrary 3D points in the workspace onto multi-view 2D visual observations and interpolate features derived from foundational models. The resulting fused descriptor fields allow for flexible goal specifications using 2D images with varied contexts, styles, and instances. To evaluate the effectiveness of these descriptor fields, we apply our representation to a wide range of robotic manipulation tasks in a zero-shot manner. Through extensive evaluation in both real-world scenarios and simulations, we demonstrate that D$^3$Fields are both generalizable and effective for zero-shot robotic manipulation tasks. In quantitative comparisons with state-of-the-art dense descriptors, such as Dense Object Nets and DINO, D$^3$Fields exhibit significantly better generalization abilities and manipulation accuracy.
翻訳日:2023-09-29 18:19:22 公開日:2023-09-28
# E2Net:Elastic Expansion Networkによるリソース効率の良い継続的学習

E2Net: Resource-Efficient Continual Learning with Elastic Expansion Network ( http://arxiv.org/abs/2309.16117v1 )

ライセンス: Link先を確認
RuiQi Liu, Boyu Diao, Libo Huang, Zhulin An and Yongjun Xu(参考訳) 連続学習法は、以前の知識を根絶することなく新しいタスクを学ぶように設計されている。 しかし,連続学習では高い計算能力と記憶能力を必要とすることが多い。 本稿では,Elastic Expansion Network (E2Net) と呼ばれる資源効率のよい連続学習手法を提案する。 コアサブネット蒸留と正確なリプレイサンプル選択を活用することで、e2netは、処理時間を最小化しながら、同じ計算およびストレージ制約内で優れた平均精度を達成し、忘れることを減らすことができる。 E2Netでは、パラメータ量を評価し、作業ネットワークと類似性を出力し、作業ネットワーク内の類似サブネットを蒸留することにより、リハーサルバッファへの依存を軽減し、以前のタスク間の知識伝達を容易にすることで、代表コアサブネットを識別する代表ネットワーク蒸留を提案する。 記憶資源の利用性を高めるため,代表ネットワークの構造に基づくサンプル記憶戦略を用いて,リハーサル効率を最適化するSubnet Constraint Experience Replayを提案する。 さまざまなデータセットを持つクラウド環境とエッジ環境にまたがる大規模な実験は、E2Netが一貫して最先端の手法より優れていることを示している。 さらに,本手法は,ストレージ要件と計算条件の両方において競合よりも優れている。

Continual Learning methods are designed to learn new tasks without erasing previous knowledge. However, Continual Learning often requires massive computational power and storage capacity for satisfactory performance. In this paper, we propose a resource-efficient continual learning method called the Elastic Expansion Network (E2Net). Leveraging core subnet distillation and precise replay sample selection, E2Net achieves superior average accuracy and diminished forgetting within the same computational and storage constraints, all while minimizing processing time. In E2Net, we propose Representative Network Distillation to identify the representative core subnet by assessing parameter quantity and output similarity with the working network, distilling analogous subnets within the working network to mitigate reliance on rehearsal buffers and facilitating knowledge transfer across previous tasks. To enhance storage resource utilization, we then propose Subnet Constraint Experience Replay to optimize rehearsal efficiency through a sample storage strategy based on the structures of representative networks. Extensive experiments conducted predominantly on cloud environments with diverse datasets and also spanning the edge environment demonstrate that E2Net consistently outperforms state-of-the-art methods. In addition, our method outperforms competitors in terms of both storage and computational requirements.
翻訳日:2023-09-29 18:19:01 公開日:2023-09-28
# 反復生成過程の組成的彫刻

Compositional Sculpting of Iterative Generative Processes ( http://arxiv.org/abs/2309.16115v1 )

ライセンス: Link先を確認
Timur Garipov, Sebastiaan De Peuter, Ge Yang, Vikas Garg, Samuel Kaski, Tommi Jaakkola(参考訳) 生成モデルの高いトレーニングコストと特定のタスクに対する微調整の必要性は、モデルの再利用と構成に強い関心をもたらした。 GFlowNetsや拡散モデルのような反復生成プロセスを構成する上で重要な課題は、望ましい目標分布を実現するためには、生成プロセスのすべてのステップを調整し、微妙なバランス条件を満たす必要があることである。 本稿では,反復生成プロセスの合成を定義するための一般的な手法である合成彫刻を提案する。 次に,分類器指導に基づくこれらの構成からサンプリングする手法を提案する。 我々はGFlowNetと拡散モデルの両方で合成彫刻を実現する方法を紹介する。 2つのバイナリ演算に$\unicode{x2014}$という調和平均(p_1 \otimes p_2$)と、ペア間のコントラスト(p_1 \unicode{x25D1}\,p_2$)と、これらの演算を複数のコンポーネント分布に一般化する。 画像および分子生成タスクに関する実験結果を提供する。

High training costs of generative models and the need to fine-tune them for specific tasks have created a strong interest in model reuse and composition. A key challenge in composing iterative generative processes, such as GFlowNets and diffusion models, is that to realize the desired target distribution, all steps of the generative process need to be coordinated, and satisfy delicate balance conditions. In this work, we propose Compositional Sculpting: a general approach for defining compositions of iterative generative processes. We then introduce a method for sampling from these compositions built on classifier guidance. We showcase ways to accomplish compositional sculpting in both GFlowNets and diffusion models. We highlight two binary operations $\unicode{x2014}$ the harmonic mean ($p_1 \otimes p_2$) and the contrast ($p_1 \unicode{x25D1}\,p_2$) between pairs, and the generalization of these operations to multiple component distributions. We offer empirical results on image and molecular generation tasks.
翻訳日:2023-09-29 18:18:40 公開日:2023-09-28
# ガウス過程またはベイズニューラルネットワークによる制約軌道探索のためのアクティブ学習性能の比較

Comparing Active Learning Performance Driven by Gaussian Processes or Bayesian Neural Networks for Constrained Trajectory Exploration ( http://arxiv.org/abs/2309.16114v1 )

ライセンス: Link先を確認
Sapphira Akins, Frances Zhu(参考訳) 自律性を高めたロボットは、宇宙探査能力、特に人間探検家のためのその場での探査とサンプリングのために進歩します。 現在、人間は科学的な目的を達成するためにロボットを運転しているが、ロボットの位置によっては、人間とロボットの間の情報交換と運転指令がミッションの遂行に不適切な遅延を引き起こす可能性がある。 科学的目的と探索戦略をエンコードした自律ロボットは、通信遅延を発生せず、より迅速にミッションを遂行することができる。 アクティブラーニングアルゴリズムは、インテリジェントな探索の能力を提供するが、基礎となるモデル構造は、環境の理解を正確に形成するアクティブラーニングアルゴリズムの性能を変化させる。 本稿では,ガウス過程やベイズニューラルネットワークによって駆動される活動学習アルゴリズムと,惑星表面ローバーのような軌道に制約のあるエージェントに符号化された探索戦略との性能差について検討する。 これらの2つの積極的学習戦略は、複数のデータセットに沿った興味のある変数の空間分布を予測する科学盲点戦略に対してシミュレーション環境で試験された。 興味のあるパフォーマンス指標は、ルート平均二乗(rms)誤差、トレーニング時間、モデル収束、収束までの全距離、収束までの全サンプルにおけるモデル精度である。 ガウス過程で符号化されたアクティブラーニング戦略は、より高速に正確なモデルに収束し、より表現力のある機能基盤のために、ベイズニューラルネットワークが大規模データ構造においてより正確なモデルを達成するいくつかの複雑な環境を除いて、より短い距離の軌跡を提案する。 論文は、将来の宇宙ミッションの探査戦略の実施時期と方法に関するアドバイスで締めくくられている。

Robots with increasing autonomy progress our space exploration capabilities, particularly for in-situ exploration and sampling to stand in for human explorers. Currently, humans drive robots to meet scientific objectives, but depending on the robot's location, the exchange of information and driving commands between the human operator and robot may cause undue delays in mission fulfillment. An autonomous robot encoded with a scientific objective and an exploration strategy incurs no communication delays and can fulfill missions more quickly. Active learning algorithms offer this capability of intelligent exploration, but the underlying model structure varies the performance of the active learning algorithm in accurately forming an understanding of the environment. In this paper, we investigate the performance differences between active learning algorithms driven by Gaussian processes or Bayesian neural networks for exploration strategies encoded on agents that are constrained in their trajectories, like planetary surface rovers. These two active learning strategies were tested in a simulation environment against science-blind strategies to predict the spatial distribution of a variable of interest along multiple datasets. The performance metrics of interest are model accuracy in root mean squared (RMS) error, training time, model convergence, total distance traveled until convergence, and total samples until convergence. Active learning strategies encoded with Gaussian processes require less computation to train, converge to an accurate model more quickly, and propose trajectories of shorter distance, except in a few complex environments in which Bayesian neural networks achieve a more accurate model in the large data regime due to their more expressive functional bases. The paper concludes with advice on when and how to implement either exploration strategy for future space missions.
翻訳日:2023-09-29 18:18:21 公開日:2023-09-28
# 3次元オブジェクト生成のための3次元生成対向ネットワークを用いた効果的なNeRFとSDF表現の学習:ICCV 2023 OmniObject3Dチャレンジの技術報告

Learning Effective NeRFs and SDFs Representations with 3D Generative Adversarial Networks for 3D Object Generation: Technical Report for ICCV 2023 OmniObject3D Challenge ( http://arxiv.org/abs/2309.16110v1 )

ライセンス: Link先を確認
Zheyuan Yang, Yibo Liu, Guile Wu, Tongtong Cao, Yuan Ren, Yang Liu, Bingbing Liu(参考訳) 本稿では,iccv 2023 omniobject3dチャレンジの3次元オブジェクト生成のためのソリューションを提案する。 近年, 3次元オブジェクト生成はプロセスが良く, 有望な結果が得られたが, 複雑でテクスチャ化された高忠実度な結果の生成が難しいため, 依然として困難な課題である。 本研究では,3次元オブジェクト生成のための3次元生成支援ネットワーク(GAN)を用いて,効果的なNeRFおよびSDF表現の学習について検討する。 具体的には、最近の研究に触発されて、ラベル埋め込みとカラーマッピングを取り入れたバックボーンとして、効率的な幾何学的3D GANを使用し、異なる分類体系でモデルを同時に訓練することができる。 そして、デコーダを通して得られた特徴を集約し、高忠実度合成画像をレンダリングするためのneural radiance field(nerfs)ベースの表現を生成する。 一方、3Dメッシュでオブジェクトを効果的に表現するために、Signed Distance Function(SDF)を最適化する。 さらに、このモデルでは、オブジェクト毎に大量の画像を使用するか、クラス毎に1つのモデルをトレーニングする代わりに、さまざまなクラスから、各オブジェクトの少数のイメージで効果的にトレーニングすることができる。 このパイプラインにより、3Dオブジェクト生成に有効なモデルを最適化できる。 このソリューションはICCV 2023 OmniObject3D Challengeにおける最後のトップ3のソリューションの1つである。

In this technical report, we present a solution for 3D object generation of ICCV 2023 OmniObject3D Challenge. In recent years, 3D object generation has made great process and achieved promising results, but it remains a challenging task due to the difficulty of generating complex, textured and high-fidelity results. To resolve this problem, we study learning effective NeRFs and SDFs representations with 3D Generative Adversarial Networks (GANs) for 3D object generation. Specifically, inspired by recent works, we use the efficient geometry-aware 3D GANs as the backbone incorporating with label embedding and color mapping, which enables to train the model on different taxonomies simultaneously. Then, through a decoder, we aggregate the resulting features to generate Neural Radiance Fields (NeRFs) based representations for rendering high-fidelity synthetic images. Meanwhile, we optimize Signed Distance Functions (SDFs) to effectively represent objects with 3D meshes. Besides, we observe that this model can be effectively trained with only a few images of each object from a variety of classes, instead of using a great number of images per object or training one model per class. With this pipeline, we can optimize an effective model for 3D object generation. This solution is one of the final top-3-place solutions in the ICCV 2023 OmniObject3D Challenge.
翻訳日:2023-09-29 18:17:49 公開日:2023-09-28
# 非競合学習ダイナミクスの崩壊を防ぐ特徴正規化

Feature Normalization Prevents Collapse of Non-contrastive Learning Dynamics ( http://arxiv.org/abs/2309.16109v1 )

ライセンス: Link先を確認
Han Bao(参考訳) コントラスト学習は自己教師付き表現学習フレームワークであり、データ拡張によって生成された2つのポジティブなビューはデータ表現空間におけるアトラクション力によって類似し、反発力は否定的な例から遠く離れている。 BYOLとSimSiamで表される非コントラスト学習は、さらに否定的な例を取り除き、計算効率を向上させる。 学習された表現は、一見すると反発力の欠如のために1つの点に崩壊する可能性があるが、tianら(2021年)は学習ダイナミクス分析を通じて、データの強化が正規化よりも十分に強い場合、表現は崩壊を避けることができることを明らかにした。 しかし、それらの分析は一般に使われる特徴正規化、つまり表現の類似度を測定する前の正規化を考慮せず、したがって過剰に強い正規化は特徴正規化の存在下で不自然な振る舞いであるダイナミクスを崩壊させる可能性がある。 したがって, 特徴正規化を伴うコサイン損失を考慮して, L2損失に基づく先行理論を拡張した。 また,コサイン損失は6次ダイナミクスを誘導する(l2損失は3次損失を誘導する)が,与えられた初期パラメータを持つ解が崩壊しても安定平衡が動的に現れることを示した。 そこで我々は,機能正規化がダイナミクスの崩壊を堅牢に防止する上で重要な役割を担っている,新たな理解を提供する。

Contrastive learning is a self-supervised representation learning framework, where two positive views generated through data augmentation are made similar by an attraction force in a data representation space, while a repulsive force makes them far from negative examples. Non-contrastive learning, represented by BYOL and SimSiam, further gets rid of negative examples and improves computational efficiency. While learned representations may collapse into a single point due to the lack of the repulsive force at first sight, Tian et al. (2021) revealed through the learning dynamics analysis that the representations can avoid collapse if data augmentation is sufficiently stronger than regularization. However, their analysis does not take into account commonly-used feature normalization, a normalizer before measuring the similarity of representations, and hence excessively strong regularization may collapse the dynamics, which is an unnatural behavior under the presence of feature normalization. Therefore, we extend the previous theory based on the L2 loss by considering the cosine loss, which involves feature normalization. We show that the cosine loss induces sixth-order dynamics (while the L2 loss induces a third-order one), in which a stable equilibrium dynamically emerges even if there are only collapsed solutions with given initial parameters. Thus, we offer a new understanding that feature normalization plays an important role in robustly preventing the dynamics collapse.
翻訳日:2023-09-29 18:17:25 公開日:2023-09-28
# Channel Vision Transformers:画像はC x 16 x 16ワードより価値がある

Channel Vision Transformers: An Image Is Worth C x 16 x 16 Words ( http://arxiv.org/abs/2309.16108v1 )

ライセンス: Link先を確認
Yujia Bao, Srinivasan Sivanandan, Theofanis Karaletsos(参考訳) Vision Transformer (ViT) は現代のコンピュータビジョンの領域において強力なアーキテクチャとして登場した。 しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。 これらの領域では、画像はしばしば複数のチャネルを含み、それぞれが意味的に異なる独立した情報を持っている。 さらに、モデルは、トレーニングやテスト中に密に利用できない可能性があるため、入力チャネルの疎結合性に対する堅牢性を示す必要がある。 本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正と、テスト時間中に部分チャネルのみを表示する場合のロバスト性を保証するための追加の正規化手法として階層型チャネルサンプリング(HCS)を導入する。 提案モデルであるChannelViTは,各入力チャネルから独立してパッチトークンを構築し,各パッチトークンに付加される学習可能なチャネル埋め込みを利用する。 我々は、ImageNet、JUMP-CP(顕微鏡細胞イメージング)、So2Sat(衛星イメージング)におけるChannelViTの性能を評価する。 以上の結果から,channelvit は vit を分類タスクで上回っており,テスト中に入力チャネルのサブセットが使用される場合でもよく一般化できることがわかった。 実験全体を通して、HCSは採用されているアーキテクチャとは独立して強力な正則化器であることが証明され、堅牢なViTトレーニングのための簡単なテクニックであることが示唆された。 最後に、channelvitはトレーニング中にすべてのチャネルへのアクセスが制限された場合でも効果的に一般化し、スパースセンサーを用いた実環境下でのマルチチャネルイメージングの可能性を強調している。

Vision Transformer (ViT) has emerged as a powerful architecture in the realm of modern computer vision. However, its application in certain imaging fields, such as microscopy and satellite imaging, presents unique challenges. In these domains, images often contain multiple channels, each carrying semantically distinct and independent information. Furthermore, the model must demonstrate robustness to sparsity in input channels, as they may not be densely available during training or testing. In this paper, we propose a modification to the ViT architecture that enhances reasoning across the input channels and introduce Hierarchical Channel Sampling (HCS) as an additional regularization technique to ensure robustness when only partial channels are presented during test time. Our proposed model, ChannelViT, constructs patch tokens independently from each input channel and utilizes a learnable channel embedding that is added to the patch tokens, similar to positional embeddings. We evaluate the performance of ChannelViT on ImageNet, JUMP-CP (microscopy cell imaging), and So2Sat (satellite imaging). Our results show that ChannelViT outperforms ViT on classification tasks and generalizes well, even when a subset of input channels is used during testing. Across our experiments, HCS proves to be a powerful regularizer, independent of the architecture employed, suggesting itself as a straightforward technique for robust ViT training. Lastly, we find that ChannelViT generalizes effectively even when there is limited access to all channels during training, highlighting its potential for multi-channel imaging under real-world conditions with sparse sensors.
翻訳日:2023-09-29 18:16:51 公開日:2023-09-28
# 異なるプライベートなセキュアな乗算:騒音の気泡に情報を隠蔽する

Differentially Private Secure Multiplication: Hiding Information in the Rubble of Noise ( http://arxiv.org/abs/2309.16105v1 )

ライセンス: Link先を確認
Viveck R. Cadambe, Ateet Devulapalli, Haewon Jeong, Flavio P. Calmon(参考訳) プライベート分散マルチパーティ乗算の問題点を考察する。 Shamirの秘密共有コーディング戦略は、Ben Or、Goldwasser、Wigdersonの有名なアルゴリズム("BGW"アルゴリズム)を通じて、分散計算における完全な情報理論のプライバシを実現することが確立されている。 しかし、完全なプライバシーと正確性には正直な多数、すなわち$n \geq 2t+1$の計算ノードが必要である。 厳密な乗算ではなく、ある程度の制御された情報漏洩と近似乗算を可能にして、正直なノード数が少数であるような設定の符号化スキーム、すなわち$n<2t+1.$ について検討し、完全なプライバシーではなく {differential} プライバシを用いて情報漏洩を測定することで、$n < 2t+1$ の場合に厳密なプライバシー正確性のトレードオフを開発し、平均二乗誤差メトリックを精度に使用する。 新たな技術的側面は、異なるプライバシと異なるレイヤでのShamirシークレット共有からアイデアをマージする、複雑な層状ノイズ分布である。

We consider the problem of private distributed multi-party multiplication. It is well-established that Shamir secret-sharing coding strategies can enable perfect information-theoretic privacy in distributed computation via the celebrated algorithm of Ben Or, Goldwasser and Wigderson (the "BGW algorithm"). However, perfect privacy and accuracy require an honest majority, that is, $N \geq 2t+1$ compute nodes are required to ensure privacy against any $t$ colluding adversarial nodes. By allowing for some controlled amount of information leakage and approximate multiplication instead of exact multiplication, we study coding schemes for the setting where the number of honest nodes can be a minority, that is $N< 2t+1.$ We develop a tight characterization privacy-accuracy trade-off for cases where $N < 2t+1$ by measuring information leakage using {differential} privacy instead of perfect privacy, and using the mean squared error metric for accuracy. A novel technical aspect is an intricately layered noise distribution that merges ideas from differential privacy and Shamir secret-sharing at different layers.
翻訳日:2023-09-29 18:16:23 公開日:2023-09-28
# 部分分割による幾何学的局所量子・古典符号

Geometrically Local Quantum and Classical Codes from Subdivision ( http://arxiv.org/abs/2309.16104v1 )

ライセンス: Link先を確認
Ting-Chun Lin, Adam Wills, Min-Hsiu Hsieh(参考訳) 幾何学的に局所的な量子符号は$\mathbb{R}^D$内の誤り訂正符号であり、チェックは固定空間距離内の量子ビットにのみ作用する。 主な疑問は: 幾何学的に局所的なコードに対して最適な次元と距離は何か? この質問は、ポリログまでの最適な次元と距離を持つコードを構築したPortnoy氏によって最近答えられた。 本稿では,ポリログまでの最適エネルギー障壁を持つコードを構築することにより,Portnoyの研究を拡張した。 鍵となる要素は、バランスの取れた製品コードに分割して得られるより単純なコード構成である。 古典コードへの応用についても論じる。

A geometrically local quantum code is an error correcting code situated within $\mathbb{R}^D$, where the checks only act on qubits within a fixed spatial distance. The main question is: What is the optimal dimension and distance for a geometrically local code? This question was recently answered by Portnoy which constructed codes with optimal dimension and distance up to polylogs. This paper extends Portnoy's work by constructing a code which additionally has an optimal energy barrier up to polylogs. The key ingredient is a simpler code construction obtained by subdividing the balanced product codes. We also discuss applications to classical codes.
翻訳日:2023-09-29 18:15:54 公開日:2023-09-28
# ユーティリティ駆動区間規則の発見

Discovering Utility-driven Interval Rules ( http://arxiv.org/abs/2309.16102v1 )

ライセンス: Link先を確認
Chunkai Zhang, Maohua Lyu, Huaijin Hao, Wensheng Gan, Philip S. Yu(参考訳) 人工知能では、高利用シーケンシャルルールマイニング(husrm)は、シーケンス内のイベント間の関連を明らかにする知識発見手法である。 近年,高能率配列規則の発見に有効な手法が提案されている。 しかし、既存のメソッドはすべてポイントベースのシーケンスに関連している。 一定期間持続するインターバルイベントは一般的である。 伝統的なインターバルイベントシーケンス知識発見タスクは主にパターン発見に焦点を当てているが、パターンはインターバルイベント間の相関関係をよく明らかにすることはできない。 さらに、既存のHUSRMアルゴリズムは、インターバルイベントシーケンス間の関係がポイントベースのシーケンスよりもはるかに複雑であるため、インターバルイベントシーケンスに直接適用することはできない。 本研究では,この課題を解決するために,すべてのユーティリティ駆動インターバルルール(uirs)をインターバル-イベントシーケンスデータベースから抽出できるユーティリティ駆動インターバルルールマイニング(uirminer)アルゴリズムを提案する。 UIRMinerでは、まず関係表現の数値符号化を導入し、関係計算と関係表現の記憶に多くの時間を費やすことができる。 さらに,探索空間を縮小するために,その関係に効用上限を組み込んだ補完的刈り取り戦略を提案する。 最後に、現実世界と合成データセットの両方で実装された豊富な実験は、uirminerが効果的で効率的なアルゴリズムであることを検証する。

For artificial intelligence, high-utility sequential rule mining (HUSRM) is a knowledge discovery method that can reveal the associations between events in the sequences. Recently, abundant methods have been proposed to discover high-utility sequence rules. However, the existing methods are all related to point-based sequences. Interval events that persist for some time are common. Traditional interval-event sequence knowledge discovery tasks mainly focus on pattern discovery, but patterns cannot reveal the correlation between interval events well. Moreover, the existing HUSRM algorithms cannot be directly applied to interval-event sequences since the relation in interval-event sequences is much more intricate than those in point-based sequences. In this work, we propose a utility-driven interval rule mining (UIRMiner) algorithm that can extract all utility-driven interval rules (UIRs) from the interval-event sequence database to solve the problem. In UIRMiner, we first introduce a numeric encoding relation representation, which can save much time on relation computation and storage on relation representation. Furthermore, to shrink the search space, we also propose a complement pruning strategy, which incorporates the utility upper bound with the relation. Finally, plentiful experiments implemented on both real-world and synthetic datasets verify that UIRMiner is an effective and efficient algorithm.
翻訳日:2023-09-29 18:15:43 公開日:2023-09-28
# メタ最適化合成サンプルを用いた半教師付き生成学習

Generative Semi-supervised Learning with Meta-Optimized Synthetic Samples ( http://arxiv.org/abs/2309.16143v1 )

ライセンス: Link先を確認
Shin'ya Yamaguchi(参考訳) 半教師付き学習(semi-supervised learning, ssl)はラベル付きおよびラベル付きデータセットを用いた深層分類モデルのトレーニングに有望なアプローチである。 しかし、既存のSSLメソッドは大きなラベルのないデータセットに依存しており、法的制約(GDPRなど)のため、多くの現実世界のアプリケーションで常に利用できるとは限らない。 本稿では,SSLモデルをラベルなしのデータセットなしでトレーニングできるか,という課題について検討する。 実際のラベルなしデータセットの代わりに、多様なドメイン(イメージネットなど)に数百万のサンプルを含むデータセットに基づいてトレーニングされた生成基盤モデルから生成された合成データセットを用いたSSL方式を提案する。 私たちの主な概念は、生成基盤モデルからラベルなしのサンプルをエミュレートする合成サンプルを特定し、これらの合成サンプルを使用して分類を訓練することです。 これを実現するために,本手法は交代最適化問題として定式化されている。 (i)生成基礎モデルのメタラーニングと (ii) 実ラベル付きおよび合成ラベルなしサンプルを用いた分類器のSSL。 のために i) 潜在変数を最適化し, 実ラベル付きサンプルに類似したサンプルを生成し, 検証損失を最小限に抑えるメタラーニング目標を提案する。 のために (ii) 合成試料から得られた性能改善を最大化するために分類器の特徴抽出器を定式化する単純な教師なし損失関数を提案する。 提案手法はSSL上の生成基盤モデルを用いてベースラインよりも優れていることを確認した。 また,本手法は,ラベル付きデータセットが極めて少ないシナリオにおいて,実際のラベル付きデータセットを用いてSSLより優れていることを示す。 このことから, 合成試料は, 実際の未ラベルデータよりも効率よく向上する可能性が示唆された。

Semi-supervised learning (SSL) is a promising approach for training deep classification models using labeled and unlabeled datasets. However, existing SSL methods rely on a large unlabeled dataset, which may not always be available in many real-world applications due to legal constraints (e.g., GDPR). In this paper, we investigate the research question: Can we train SSL models without real unlabeled datasets? Instead of using real unlabeled datasets, we propose an SSL method using synthetic datasets generated from generative foundation models trained on datasets containing millions of samples in diverse domains (e.g., ImageNet). Our main concepts are identifying synthetic samples that emulate unlabeled samples from generative foundation models and training classifiers using these synthetic samples. To achieve this, our method is formulated as an alternating optimization problem: (i) meta-learning of generative foundation models and (ii) SSL of classifiers using real labeled and synthetic unlabeled samples. For (i), we propose a meta-learning objective that optimizes latent variables to generate samples that resemble real labeled samples and minimize the validation loss. For (ii), we propose a simple unsupervised loss function that regularizes the feature extractors of classifiers to maximize the performance improvement obtained from synthetic samples. We confirm that our method outperforms baselines using generative foundation models on SSL. We also demonstrate that our methods outperform SSL using real unlabeled datasets in scenarios with extremely small amounts of labeled datasets. This suggests that synthetic samples have the potential to provide improvement gains more efficiently than real unlabeled data.
翻訳日:2023-09-29 18:08:48 公開日:2023-09-28
# 広告画像をテキストにアライメントして、正確なクロスモーダルスポンサー検索を可能にするaldination before search

Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search ( http://arxiv.org/abs/2309.16141v1 )

ライセンス: Link先を確認
Yuanmin Tang, Jing Yu, Keke Gai, Yujing Wang, Yue Hu, Gang Xiong and Qi Wu(参考訳) クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリによって望ましい商品を探すと、マルチモーダル広告(ads)を表示する。 マルチモーダル広告はクエリアドレスマッチングの補完的な詳細をもたらすため、画像とテキストの両方で広告固有の情報を調整できることは、正確で柔軟な検索に不可欠である。 Conventional research mainly studies from the view of modeling the implicit correlations between images and texts for query-ads matching, ignoring the alignment of detailed product information and resulting in suboptimal search performance.In this work, we propose a simple alignment network for explicitly mapping fine-grained visual parts in ads images to the corresponding text, which leverages the co-occurrence structure consistency between vision and language spaces without requiring expensive labeled training data. さらに,2つの異なるプロセスでクロスモーダルアライメントとクエリアドマッチングを効果的に行うクロスモーダルスポンサード検索の新しいモデルを提案する。 このように、モデルは同一言語空間におけるマルチモーダル入力と一致し、トレーニングデータのわずか半分で優れた性能が得られる。 当社のモデルは,大規模商用データセットで最先端のモデルを2.57%上回っている。 本手法は,スポンサー付き検索の他に,一般のクロスモーダル検索に適用できる。 MSCOCOデータセット上の典型的なクロスモーダル検索タスクについて検討し、一貫した性能向上を実現し、本手法の一般化能力を証明する。 私たちのコードはhttps://github.com/Pter61/AlignCMSS/で利用可能です。

Cross-Modal sponsored search displays multi-modal advertisements (ads) when consumers look for desired products by natural language queries in search engines. Since multi-modal ads bring complementary details for query-ads matching, the ability to align ads-specific information in both images and texts is crucial for accurate and flexible sponsored search. Conventional research mainly studies from the view of modeling the implicit correlations between images and texts for query-ads matching, ignoring the alignment of detailed product information and resulting in suboptimal search performance.In this work, we propose a simple alignment network for explicitly mapping fine-grained visual parts in ads images to the corresponding text, which leverages the co-occurrence structure consistency between vision and language spaces without requiring expensive labeled training data. Moreover, we propose a novel model for cross-modal sponsored search that effectively conducts the cross-modal alignment and query-ads matching in two separate processes. In this way, the model matches the multi-modal input in the same language space, resulting in a superior performance with merely half of the training data. Our model outperforms the state-of-the-art models by 2.57% on a large commercial dataset. Besides sponsored search, our alignment method is applicable for general cross-modal search. We study a typical cross-modal retrieval task on the MSCOCO dataset, which achieves consistent performance improvement and proves the generalization ability of our method. Our code is available at https://github.com/Pter61/AlignCMSS/
翻訳日:2023-09-29 18:08:21 公開日:2023-09-28
# CLIP-Hand3D:コンテキスト認識による3Dハンドポース推定の爆発

CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware Prompting ( http://arxiv.org/abs/2309.16140v1 )

ライセンス: Link先を確認
Shaoxiang Guo, Qing Cai, Lin Qi, Junyu Dong(参考訳) コントラスト言語-画像事前学習(CLIP)は多くのコンピュータビジョンタスクで登場し、有望なパフォーマンスを達成した。 しかし,3次元空間における関節位置の離散的な性質から,姿勢認識機能を持つブリッジングテキストプロンプトが重要な課題となるため,CLIPを3次元手動ポーズ推定に一般化できるかどうかはまだ未定である。 本稿では, テキストプロンプトと不規則な詳細なポーズ分布とのギャップを埋めるために, clip-hand3d と呼ばれる単眼画像を用いた新しい3次元ポーズ推定器を提案する。 特に、様々な3次元空間方向の手関節の分布順序は、ポーズラベルから導かれ、その後、テキスト表現に符号化された対応するテキストプロンプトを形成する。 同時に、3D空間内の21個の手関節を検索し、その空間分布(x,y,z軸)を符号化してポーズ認識特徴を形成する。 その後、CLIPに基づくコントラスト学習パラダイムに従って、一対のポーズテキスト機能に対するセマンティック一貫性を最大化する。 さらに、特徴ピラミッドから結合認識キューを効果的にクエリできる粗いメッシュ回帰器を設計する。 いくつかのパブリックハンドベンチマークにおいて、提案手法は、類似のスケールバックボーンを用いた手法と比較して、最先端性能を実現しつつ、かなり高速な推論速度を実現することを示す。

Contrastive Language-Image Pre-training (CLIP) starts to emerge in many computer vision tasks and has achieved promising performance. However, it remains underexplored whether CLIP can be generalized to 3D hand pose estimation, as bridging text prompts with pose-aware features presents significant challenges due to the discrete nature of joint positions in 3D space. In this paper, we make one of the first attempts to propose a novel 3D hand pose estimator from monocular images, dubbed as CLIP-Hand3D, which successfully bridges the gap between text prompts and irregular detailed pose distribution. In particular, the distribution order of hand joints in various 3D space directions is derived from pose labels, forming corresponding text prompts that are subsequently encoded into text representations. Simultaneously, 21 hand joints in the 3D space are retrieved, and their spatial distribution (in x, y, and z axes) is encoded to form pose-aware features. Subsequently, we maximize semantic consistency for a pair of pose-text features following a CLIP-based contrastive learning paradigm. Furthermore, a coarse-to-fine mesh regressor is designed, which is capable of effectively querying joint-aware cues from the feature pyramid. Extensive experiments on several public hand benchmarks show that the proposed model attains a significantly faster inference speed while achieving state-of-the-art performance compared to methods utilizing the similar scale backbone.
翻訳日:2023-09-29 18:07:59 公開日:2023-09-28
# 不確かさと多様性サンプリングによるインスタンスセグメンテーションのための2段階アクティブラーニング

Two-Step Active Learning for Instance Segmentation with Uncertainty and Diversity Sampling ( http://arxiv.org/abs/2309.16139v1 )

ライセンス: Link先を確認
Ke Yu, Stephen Albro, Giulia DeSalvo, Suraj Kothawade, Abdullah Rashwan, Sasan Tavakkol, Kayhan Batmanghelich, Xiaoqi Yin(参考訳) 高品質なインスタンスセグメンテーションモデルのトレーニングには、インスタンスマスクと分類を備えたラベル付きイメージの豊富さが必要となる。 アクティブラーニングは、ラベリングのための最も情報的で代表的なイメージを選択することで、最小限のラベリングコストで最適なパフォーマンスを追求することで、この課題に対処する。 潜在的な可能性にもかかわらず、アクティブラーニングは、ラベリングを少なくする画像分類のような他のタスクと比較して、インスタンスのセグメンテーションではあまり研究されていない。 本研究では,不確実性に基づくサンプリングと多様性に基づくサンプリングを統合したポストホック能動学習アルゴリズムを提案する。 提案アルゴリズムは単純で実装が容易なだけでなく,様々なデータセットに対して優れた性能を実現する。 その実用的な応用は、実際のオーバーヘッド画像データセットで実証され、ラベリング効率を5倍にする。

Training high-quality instance segmentation models requires an abundance of labeled images with instance masks and classifications, which is often expensive to procure. Active learning addresses this challenge by striving for optimum performance with minimal labeling cost by selecting the most informative and representative images for labeling. Despite its potential, active learning has been less explored in instance segmentation compared to other tasks like image classification, which require less labeling. In this study, we propose a post-hoc active learning algorithm that integrates uncertainty-based sampling with diversity-based sampling. Our proposed algorithm is not only simple and easy to implement, but it also delivers superior performance on various datasets. Its practical application is demonstrated on a real-world overhead imagery dataset, where it increases the labeling efficiency fivefold.
翻訳日:2023-09-29 18:07:32 公開日:2023-09-28
# コンテキストI2W: ゼロショット合成画像検索のための文脈依存語への画像マッピング

Context-I2W: Mapping Images to Context-dependent Words for Accurate Zero-Shot Composed Image Retrieval ( http://arxiv.org/abs/2309.16137v1 )

ライセンス: Link先を確認
Yuanmin Tang, Jing Yu, Keke Gai, Zhuang Jiamin, Gang Xiong, Yue Hu and Qi Wu(参考訳) タスク固有のモデルのトレーニングに高価なラベルを必要とするComposeed Image Retrievalタスクとは異なり、Zero-Shot Composed Image Retrieval (ZS-CIR)は、ドメイン、シーン、オブジェクト、属性に関連する幅広い視覚的コンテンツ操作意図を持つ多様なタスクを含む。 ZS-CIRタスクの鍵となる課題は、様々な操作記述のための参照画像に適応的な注意を払って、より正確な画像表現を学ぶことである。 本稿では,記述関連画像情報をzs-cirの正確な記述からなる擬似単語トークンに適応的に変換する,コンテキスト依存型マッピングネットワークcontext-i2wを提案する。 具体的には、Intent View Selectorが最初に回転規則を動的に学習し、同一画像をタスク固有の操作ビューにマップする。 次に、Visual Target Extractorは、複数の学習可能なクエリのガイダンスの下で、ZS-CIRタスクの主要なターゲットをカバーするローカル情報をキャプチャする。 2つの補完モジュールは協力して、余分な監督なしに、イメージをコンテキスト依存の擬似ワードトークンにマッピングする。 提案モデルは,zs-cirタスクにおいて,ドメイン変換,オブジェクト構成,オブジェクト操作,属性操作などの強力な一般化能力を示す。 最高の方法よりも1.88%から3.60%の一貫性があり、zs-cirの新たな最先端結果が得られる。 私たちのコードはhttps://github.com/pter61/context_i2wで利用可能です。

Different from Composed Image Retrieval task that requires expensive labels for training task-specific models, Zero-Shot Composed Image Retrieval (ZS-CIR) involves diverse tasks with a broad range of visual content manipulation intent that could be related to domain, scene, object, and attribute. The key challenge for ZS-CIR tasks is to learn a more accurate image representation that has adaptive attention to the reference image for various manipulation descriptions. In this paper, we propose a novel context-dependent mapping network, named Context-I2W, for adaptively converting description-relevant Image information into a pseudo-word token composed of the description for accurate ZS-CIR. Specifically, an Intent View Selector first dynamically learns a rotation rule to map the identical image to a task-specific manipulation view. Then a Visual Target Extractor further captures local information covering the main targets in ZS-CIR tasks under the guidance of multiple learnable queries. The two complementary modules work together to map an image to a context-dependent pseudo-word token without extra supervision. Our model shows strong generalization ability on four ZS-CIR tasks, including domain conversion, object composition, object manipulation, and attribute manipulation. It obtains consistent and significant performance boosts ranging from 1.88% to 3.60% over the best methods and achieves new state-of-the-art results on ZS-CIR. Our code is available at https://github.com/Pter61/context_i2w.
翻訳日:2023-09-29 18:07:19 公開日:2023-09-28
# コヒーレントワンウェイ量子鍵分布の有限鍵解析

Finite-Key Analysis for Coherent-One-Way Quantum Key Distribution ( http://arxiv.org/abs/2309.16136v1 )

ライセンス: Link先を確認
Ming-Yang Li, Xiao-Yu Cao, Yuan-Mei Xie, Hua-Lei Yin, Zeng-Bing Chen(参考訳) coherent-one-way (cow) quantum key distribution (qkd) は重要な通信プロトコルであり、実験的に実装され、実用的な製品にデプロイされている。 しかし、COW-QKDの既存のセキュリティ分析では、有限鍵系におけるコヒーレント攻撃に対する短い送信距離または免疫が欠如している。 本研究では,asymptotic においてセキュアな伝送距離を延ばすことが証明された,新しい変種 cow-qkd の普遍的構成可能な枠組み内で,厳密な有限鍵セキュリティ解析を行う。 量子残差ハッシュ補題とエントロピー不確実性関係を組み合わせ、鍵レート式を導出する。 統計的パラメータを推定する場合,最近提案されたkatoの不等式を用いてコヒーレント攻撃に対する安全性を確保し,高い鍵レートを達成する。 本研究は,COW-QKDの安全性と実用性を確認し,さらなる理論的研究と実験実施の基礎を築いた。

Coherent-one-way (COW) quantum key distribution (QKD) is a significant communication protocol that has been implemented experimentally and deployed in practical products due to its simple equipment requirements. However, existing security analyses of COW-QKD either provide a short transmission distance or lack immunity against coherent attacks in the finite-key regime. In this study, we present a tight finite-key security analysis within the universally composable framework for a new variant of COW-QKD, which has been proven to extend the secure transmission distance in the asymptotic case. We combine the Quantum Leftover Hash Lemma and entropic uncertainty relation to derive the key rate formula. When estimating statistical parameters, we use the recently proposed Kato's inequality to ensure security against coherent attacks and achieve a higher key rate. Our work confirms the security and feasibility of COW-QKD for practical application and lays the foundation for further theoretical study and experimental implementation.
翻訳日:2023-09-29 18:06:50 公開日:2023-09-28
# ロングテール認識のための脳間および脳内コントラスト損失を考慮したデュアルブランチモデル

A dual-branch model with inter- and intra-branch contrastive loss for long-tailed recognition ( http://arxiv.org/abs/2309.16135v1 )

ライセンス: Link先を確認
Qiong Chen, Tianlin Huang, Geren Zhu, Enlu Lin(参考訳) 現実世界のデータはしばしば長い尾の分布を示し、ヘッドクラスはデータの大半を占め、テールクラスはごくわずかなサンプルしか持たない。 長い尾のデータセットで訓練されたモデルはテールクラスへの適応性が低く、決定境界は曖昧である。 そこで本稿では,不均衡学習ブランチとコントラシブ学習ブランチ(CoLB)を含む,単純で効果的なDual-Branch Long-Tailed Recognition(DB-LTR)を提案する。 共有バックボーンと線形分類器で構成される不均衡学習部は、データ不均衡問題に対処するために共通の不均衡学習アプローチを利用する。 CoLBでは,各テールクラスのプロトタイプを学習し,ブランチ間コントラスト損失,ブランチ内コントラスト損失,メトリック損失を算出する。 CoLBは、テールクラスに適応するモデルの能力を改善し、不均衡な学習ブランチを支援し、よく表現された特徴空間と識別的な決定境界を学ぶ。 CIFAR100-LT、ImageNet-LT、Places-LTの3つの長期ベンチマークデータセットに対する大規模な実験により、我々のDB-LTRは比較手法よりも競争力があり優れていることが示された。

Real-world data often exhibits a long-tailed distribution, in which head classes occupy most of the data, while tail classes only have very few samples. Models trained on long-tailed datasets have poor adaptability to tail classes and the decision boundaries are ambiguous. Therefore, in this paper, we propose a simple yet effective model, named Dual-Branch Long-Tailed Recognition (DB-LTR), which includes an imbalanced learning branch and a Contrastive Learning Branch (CoLB). The imbalanced learning branch, which consists of a shared backbone and a linear classifier, leverages common imbalanced learning approaches to tackle the data imbalance issue. In CoLB, we learn a prototype for each tail class, and calculate an inter-branch contrastive loss, an intra-branch contrastive loss and a metric loss. CoLB can improve the capability of the model in adapting to tail classes and assist the imbalanced learning branch to learn a well-represented feature space and discriminative decision boundary. Extensive experiments on three long-tailed benchmark datasets, i.e., CIFAR100-LT, ImageNet-LT and Places-LT, show that our DB-LTR is competitive and superior to the comparative methods.
翻訳日:2023-09-29 18:06:31 公開日:2023-09-28
# MASK4D:4Dパノプティカルセグメンテーション用マスクトランス

MASK4D: Mask Transformer for 4D Panoptic Segmentation ( http://arxiv.org/abs/2309.16133v1 )

ライセンス: Link先を確認
Kadir Yilmaz and Jonas Schult and Alexey Nekrasov and Bastian Leibe(参考訳) 動的環境で安全に相互作用する自律エージェントの意思決定プロセスには,時間とともに正確なインスタンスの認識と追跡が不可欠である。 そこで本研究では,LiDAR点雲の4次元パノプティックセグメンテーションの課題に対してMask4Dを提案する。 Mask4Dは、セマンティックインスタンスのセグメンテーションと、スパースと不規則な3Dポイント雲の追跡を単一のジョイントモデルに統一する最初のトランスフォーマーベースのアプローチである。 本モデルは,確率的クラスタリングや投票に基づく中心予測など,手作りの非学習型アソシエーション戦略に頼ることなく,セマンティック・インスタンスとその時間的関連を直接予測する。 mask4dは時空間的インスタンスクエリを導入し、シーケンス内の各意味トラックレットの意味的および幾何学的性質をエンコードする。 より詳細な研究では,空間的に離れた場合でも,時空間のインスタンスクエリが複数の意味的に類似したインスタンスをマージする傾向があるため,空間的にコンパクトなインスタンス予測を促進することが重要である。 この目的のために,空間的コンパクトな予測を促す補助タスクとして使用される時空間インスタンスクエリから,6-dofバウンディングボックスパラメータを回帰する。 mask4dはsemantickittiテストセットで68.4 lstqの新たな最先端を達成し、公開されたトップパフォーマンスメソッドを少なくとも+4.5%改善した。

Accurately perceiving and tracking instances over time is essential for the decision-making processes of autonomous agents interacting safely in dynamic environments. With this intention, we propose Mask4D for the challenging task of 4D panoptic segmentation of LiDAR point clouds. Mask4D is the first transformer-based approach unifying semantic instance segmentation and tracking of sparse and irregular sequences of 3D point clouds into a single joint model. Our model directly predicts semantic instances and their temporal associations without relying on any hand-crafted non-learned association strategies such as probabilistic clustering or voting-based center prediction. Instead, Mask4D introduces spatio-temporal instance queries which encode the semantic and geometric properties of each semantic tracklet in the sequence. In an in-depth study, we find that it is critical to promote spatially compact instance predictions as spatio-temporal instance queries tend to merge multiple semantically similar instances, even if they are spatially distant. To this end, we regress 6-DOF bounding box parameters from spatio-temporal instance queries, which is used as an auxiliary task to foster spatially compact predictions. Mask4D achieves a new state-of-the-art on the SemanticKITTI test set with a score of 68.4 LSTQ, improving upon published top-performing methods by at least +4.5%.
翻訳日:2023-09-29 18:06:08 公開日:2023-09-28
# 時空間差分方程式学習のためのスペクトルアプローチ

A Spectral Approach for Learning Spatiotemporal Neural Differential Equations ( http://arxiv.org/abs/2309.16131v1 )

ライセンス: Link先を確認
Mingtao Xia, Xiangting Li, Qijing Shen, Tom Chou(参考訳) 急速に発展する機械学習手法は、観測データから微分方程式(des)を計算的に再構成する研究の関心を刺激し、基礎となる因果メカニズムに関するさらなる洞察を提供する。 本稿では空間のスペクトル展開を利用して時空間DESを学習する新しいニューラル-ODE法を提案する。 スペクトルニューラルデラーニングアプローチの主な利点は、空間的離散化に依存しないため、対象とする時空間方程式が非境界空間領域に作用する長距離非局所的空間的相互作用を含むことができることである。 我々のスペクトルアプローチは、有界領域で動作するPDEを学習するための最新の機械学習アプローチと同じくらい正確であることが示されている。 PDEと積分微分方程式の両方を学習するためのスペクトルフレームワークを開発することにより、非有界なDESやより広範な問題に適用するための機械学習手法を拡張する。

Rapidly developing machine learning methods has stimulated research interest in computationally reconstructing differential equations (DEs) from observational data which may provide additional insight into underlying causative mechanisms. In this paper, we propose a novel neural-ODE based method that uses spectral expansions in space to learn spatiotemporal DEs. The major advantage of our spectral neural DE learning approach is that it does not rely on spatial discretization, thus allowing the target spatiotemporal equations to contain long range, nonlocal spatial interactions that act on unbounded spatial domains. Our spectral approach is shown to be as accurate as some of the latest machine learning approaches for learning PDEs operating on bounded domains. By developing a spectral framework for learning both PDEs and integro-differential equations, we extend machine learning methods to apply to unbounded DEs and a larger class of problems.
翻訳日:2023-09-29 18:05:42 公開日:2023-09-28
# バランスのとれた低光画像強調のための共同補正と補正

Joint Correcting and Refinement for Balanced Low-Light Image Enhancement ( http://arxiv.org/abs/2309.16128v1 )

ライセンス: Link先を確認
Nana Yu, Hong Shi, Jie Wang and Yahong Han(参考訳) 低照度画像強調タスクは、明るさ、色、照明の適切なバランスを要求する。 既存の手法では、このバランスにどのように注意を払うかを考えることなく、画像の一面にフォーカスすることが多いが、色歪みや過剰露光などの問題を引き起こす。 これは人間の視覚知覚と高レベルの視覚モデルの性能の両方に深刻な影響を及ぼす。 本研究は, 輝度, 色, 照明のバランスをより効果的に調整できる新しい相乗構造を提案する。 具体的には、主に明るさ、色、照明の輝度のバランスをとる3つの段階からなる、いわゆるJCRNet(Joint Correcting and Refinement Network)を提案する。 ステージ1: 基本エンコーダデコーダとローカル監視機構を用いて, ローカル情報とより包括的な詳細情報を抽出して拡張する。 ステージ2: 横断的な特徴伝達と空間的特徴変換により、色補正と特徴改善がさらに促進される。 ステージ3: 予測された真実像と地上の真実像の残差をモデルに埋め込むための動的照明調整手法を用いて、照明バランスを適応的に調整する。 広範な実験により,提案手法は,ベンチマークデータセット9点において,21の最先端手法よりも総合的な性能向上を示すことが示された。 さらに、より説得力のある実験を行い、下流視覚タスク(例えば、唾液度検出)における我々のアプローチの有効性を検証する。 いくつかの拡張モデルと比較して,提案手法はセグメント化結果と定量化指標を効果的に改善する。 ソースコードはhttps://github.com/woshiyll/JCRNetで入手できる。

Low-light image enhancement tasks demand an appropriate balance among brightness, color, and illumination. While existing methods often focus on one aspect of the image without considering how to pay attention to this balance, which will cause problems of color distortion and overexposure etc. This seriously affects both human visual perception and the performance of high-level visual models. In this work, a novel synergistic structure is proposed which can balance brightness, color, and illumination more effectively. Specifically, the proposed method, so-called Joint Correcting and Refinement Network (JCRNet), which mainly consists of three stages to balance brightness, color, and illumination of enhancement. Stage 1: we utilize a basic encoder-decoder and local supervision mechanism to extract local information and more comprehensive details for enhancement. Stage 2: cross-stage feature transmission and spatial feature transformation further facilitate color correction and feature refinement. Stage 3: we employ a dynamic illumination adjustment approach to embed residuals between predicted and ground truth images into the model, adaptively adjusting illumination balance. Extensive experiments demonstrate that the proposed method exhibits comprehensive performance advantages over 21 state-of-the-art methods on 9 benchmark datasets. Furthermore, a more persuasive experiment has been conducted to validate our approach the effectiveness in downstream visual tasks (e.g., saliency detection). Compared to several enhancement models, the proposed method effectively improves the segmentation results and quantitative metrics of saliency detection. The source code will be available at https://github.com/woshiyll/JCRNet.
翻訳日:2023-09-29 18:05:26 公開日:2023-09-28
# 意味セグメンテーションのためのオブジェクトスタイル補償によるオープン複合ドメイン適応

Open Compound Domain Adaptation with Object Style Compensation for Semantic Segmentation ( http://arxiv.org/abs/2309.16127v1 )

ライセンス: Link先を確認
Tingliang Feng, Hao Shi, Xueyang Liu, Wei Feng, Liang Wan, Yanlin Zhou and Di Lin(参考訳) セマンティクス画像のセグメンテーション手法の多くは、オープンコンプレックス領域適応の成功を借用している。 ソースドメインとターゲットドメインのイメージ間のスタイルギャップを最小限に抑え、セグメンテーションネットワークをトレーニングするターゲットドメインのイメージに対する正確な擬似アノテーションをより容易に予測する。 既存の手法は画像のシーンスタイルをグローバルに適応させるが、異なるカテゴリやインスタンスのオブジェクトスタイルは不適切に適応する。 本稿では,複数の異なる特徴セットを持つオブジェクトレベル離散メモリを構築するObject Style Compensationを提案する。 セット内の不一致機能は、ターゲットからソースドメインに適応した同じカテゴリのオブジェクトインスタンスのスタイル変更をキャプチャする。 我々は、ソースドメインとターゲットドメインの画像から相違点の特徴を学習し、相違点の特徴をメモリに格納する。 このメモリを用いて、様々なカテゴリのオブジェクトインスタンスのスタイル情報を補正し、オブジェクトのスタイルをソースドメインの統一的なスタイルに適応するための適切な相違点を選択する。 本手法により,対象領域の画像に対する擬似アノテーションの計算精度が向上し,異なるデータセットに対して最先端の結果が得られる。

Many methods of semantic image segmentation have borrowed the success of open compound domain adaptation. They minimize the style gap between the images of source and target domains, more easily predicting the accurate pseudo annotations for target domain's images that train segmentation network. The existing methods globally adapt the scene style of the images, whereas the object styles of different categories or instances are adapted improperly. This paper proposes the Object Style Compensation, where we construct the Object-Level Discrepancy Memory with multiple sets of discrepancy features. The discrepancy features in a set capture the style changes of the same category's object instances adapted from target to source domains. We learn the discrepancy features from the images of source and target domains, storing the discrepancy features in memory. With this memory, we select appropriate discrepancy features for compensating the style information of the object instances of various categories, adapting the object styles to a unified style of source domain. Our method enables a more accurate computation of the pseudo annotations for target domain's images, thus yielding state-of-the-art results on different datasets.
翻訳日:2023-09-29 18:05:02 公開日:2023-09-28
# UVL: ビデオのローカライゼーションのための統一フレームワーク

UVL: A Unified Framework for Video Tampering Localization ( http://arxiv.org/abs/2309.16126v1 )

ライセンス: Link先を確認
Pengfei Pei, Xianfeng Zhao, Jinchuan Li, Yun Cao(参考訳) ディープラーニング技術の発展により、様々な偽造手法が無限に現れる。 一方で、これらの偽ビデオを検出する手法は、いくつかのデータセットで優れたパフォーマンスを達成している。 しかし、これらの手法は未知のビデオへの一般化が悪く、新しい偽造法では非効率である。 この課題に対処するため,我々は,偽造を合成するための新しい統一型ビデオ改ざんローカライズフレームワークuvlを提案する。 具体的には、UVLは合成前駆体の共通特徴を抽出し、合成端の境界アーチファクト、生成した画素の不自然な分布、および前駆領域と原点との非相関を抽出する。 これらの特徴は様々な種類の合成フォージェリーに広く存在し、未知のビデオを検出するための一般化に役立つ。 ビデオインペインティング、ビデオスプライシング、ディープフェイクの3種類の合成偽造に関する広範囲な実験は、提案されたuvlが様々なベンチマークで最先端のパフォーマンスを達成し、クロスデータセットにおいて既存の方法を大きく上回っていることを示している。

With the development of deep learning technology, various forgery methods emerge endlessly. Meanwhile, methods to detect these fake videos have also achieved excellent performance on some datasets. However, these methods suffer from poor generalization to unknown videos and are inefficient for new forgery methods. To address this challenging problem, we propose UVL, a novel unified video tampering localization framework for synthesizing forgeries. Specifically, UVL extracts common features of synthetic forgeries: boundary artifacts of synthetic edges, unnatural distribution of generated pixels, and noncorrelation between the forgery region and the original. These features are widely present in different types of synthetic forgeries and help improve generalization for detecting unknown videos. Extensive experiments on three types of synthetic forgery: video inpainting, video splicing and DeepFake show that the proposed UVL achieves state-of-the-art performance on various benchmarks and outperforms existing methods by a large margin on cross-dataset.
翻訳日:2023-09-29 18:04:42 公開日:2023-09-28
# ModuLoRA: モジュラ量子化器の統合による消費者向けGPU上の3ビットLCMの微細化

ModuLoRA: Finetuning 3-Bit LLMs on Consumer GPUs by Integrating with Modular Quantizers ( http://arxiv.org/abs/2309.16119v1 )

ライセンス: Link先を確認
Junjie Yin, Jiahao Dong, Yingheng Wang, Christopher De Sa, Volodymyr Kuleshov(参考訳) 65Bパラメータを3ビットまたは4ビットの精度で48GBのGPU上で微調整できる大規模言語モデル(LLM)のメモリ効率向上アルゴリズムを提案する。 モジュール型低ランク適応法 (ModuLoRA) は,低ランクアダプタ (LoRA) による微調整とユーザ特定量量量化器を統合している。 我々の手法は、ブラックボックス量子化モジュールからの低精度LCM重みを適応的に実現する単純な量子化に依存している。 このアプローチは、最先端の3ビット OPTQ量子化を平均化する最初の3ビットLCMの微調整を可能にする。 実験では,既存の手法に比べてはるかに少ないメモリでテキスト分類,自然言語推論,命令追従タスクにおいて,モジュローラは競争性能を達成し,一般的な要約タスクでは最先端のルージュスコアを上回った。 私たちはmoduloraを、alpaca llmsに続く3ビット命令の最初のファミリーを含む一連の低精度モデルとともに、消費者向けgpu上でllmsを定量化し、実行し、微調整するためのユーザフレンドリーなライブラリであるllmtoolsの一部としてリリースしました。

We propose a memory-efficient finetuning algorithm for large language models (LLMs) that supports finetuning LLMs with 65B parameters in 3-bit or 4-bit precision on as little as one 48GB GPU. Our method, modular low-rank adaptation (ModuLoRA), integrates any user-specified weight quantizer with finetuning via low-rank adapters (LoRAs). Our approach relies on a simple quantization-agnostic backward pass that adaptively materializes low-precision LLM weights from a custom black-box quantization module. This approach enables finetuning 3-bit LLMs for the first time--leveraging state-of-the-art 3-bit OPTQ quantization often outperforms finetuning that relies on less sophisticated 4-bit and 8-bit methods. In our experiments, ModuLoRA attains competitive performance on text classification, natural language infernece, and instruction following tasks using significantly less memory than existing approaches, and we also surpass the state-of-the-art ROUGE score on a popular summarization task. We release ModuLoRA together with a series of low-precision models--including the first family of 3-bit instruction following Alpaca LLMs--as part of LLMTOOLS, a user-friendly library for quantizing, running, and finetuning LLMs on consumer GPUs.
翻訳日:2023-09-29 18:04:21 公開日:2023-09-28
# 物体ナビゲーションにおける終端学習

Learning to Terminate in Object Navigation ( http://arxiv.org/abs/2309.16164v1 )

ライセンス: Link先を確認
Yuhang Song and Anh Nguyen and Chun-Yi Lee(参考訳) 本稿では,自律ナビゲーションシステムにおけるオブジェクトナビゲーションの課題に取り組み,特にDeep Reinforcement Learning(DRL)に基づく手法において,長期の最適なエピソード長を持つ環境におけるターゲットアプローチとエピソード終了の問題に焦点をあてる。 環境探索や物体の局所化には有効であるが,従来のDRL法は深度情報がないため最適経路計画や終端認識に苦慮することが多い。 これらの制約を克服するために、我々は、Depth-Inference Termination Agent (DITA) という新しいアプローチを提案し、これは、ジャッジモデルと呼ばれる教師付きモデルを用いて、暗黙的にオブジェクトの深さを推測し、強化学習と共同で終了を決定する。 判断モデルと強化学習を並行して訓練し, 報酬信号により, 前者を効率的に指導する。 評価の結果,提案手法は優れた性能を示し,全ての部屋の基準法よりも9.3%向上し,長いエピソード環境において51.2%改善し,パス長による成功度(SPL)はわずかに改善した。 コードとリソース、視覚化は、https://github.com/HuskyKingdom/DITA_acml2023で公開されている。

This paper tackles the critical challenge of object navigation in autonomous navigation systems, particularly focusing on the problem of target approach and episode termination in environments with long optimal episode length in Deep Reinforcement Learning (DRL) based methods. While effective in environment exploration and object localization, conventional DRL methods often struggle with optimal path planning and termination recognition due to a lack of depth information. To overcome these limitations, we propose a novel approach, namely the Depth-Inference Termination Agent (DITA), which incorporates a supervised model called the Judge Model to implicitly infer object-wise depth and decide termination jointly with reinforcement learning. We train our judge model along with reinforcement learning in parallel and supervise the former efficiently by reward signal. Our evaluation shows the method is demonstrating superior performance, we achieve a 9.3% gain on success rate than our baseline method across all room types and gain 51.2% improvements on long episodes environment while maintaining slightly better Success Weighted by Path Length (SPL). Code and resources, visualization are available at: https://github.com/HuskyKingdom/DITA_acml2023
翻訳日:2023-09-29 16:11:32 公開日:2023-09-28
# 予測不能環境におけるマルチロボット協調のための信頼できないコマンドの活用:バンドサブモジュラー最大化アプローチ

Leveraging Untrustworthy Commands for Multi-Robot Coordination in Unpredictable Environments: A Bandit Submodular Maximization Approach ( http://arxiv.org/abs/2309.16161v1 )

ライセンス: Link先を確認
Zirui Xu, Xiaofeng Lin, Vasileios Tzoumas(参考訳) 予測不能かつ部分的に観測不能な環境でのマルチエージェント協調の問題について検討する。 コマンドはロボットに提案されるアクションであり、パフォーマンスが不明確であれば保証されることは信頼できない。 このようなコマンドは、人間のオペレータや機械学習アルゴリズムによって生成され、信頼できないが、複雑なマルチロボットタスクにおいて、ロボットのパフォーマンスを高めることができる。 ターゲット追跡や環境マッピング,エリア監視といった,複雑なマルチロボットタスクがモチベーションになっています。 このようなタスクは、ロボット間での情報重なり合うため、しばしばサブモジュールの最大化問題としてモデル化される。 外部コマンドが任意に悪い場合でも性能保証を享受できるmeta bandit sequential greedy(metabsg)というアルゴリズムを提供する。 MetaBSGはメタアルゴリズムを利用して、ロボットがコマンドに従うべきか、最近開発されたサブモジュール調整アルゴリズムBandit Sequential Greedy (BSG) [1]を学習する。 特にMetaBSGは、コマンドとBSGアルゴリズムのより良い性能を漸近的に達成し、その亜最適性を、後向きの最適な時間変化マルチロボットアクションに対して定量化することができる。 したがって、metabsgは信頼できない命令の堅牢化と解釈できる。 本アルゴリズムをマルチターゲット追跡のシミュレーションシナリオで検証する。

We study the problem of multi-agent coordination in unpredictable and partially-observable environments with untrustworthy external commands. The commands are actions suggested to the robots, and are untrustworthy in that their performance guarantees, if any, are unknown. Such commands may be generated by human operators or machine learning algorithms and, although untrustworthy, can often increase the robots' performance in complex multi-robot tasks. We are motivated by complex multi-robot tasks such as target tracking, environmental mapping, and area monitoring. Such tasks are often modeled as submodular maximization problems due to the information overlap among the robots. We provide an algorithm, Meta Bandit Sequential Greedy (MetaBSG), which enjoys performance guarantees even when the external commands are arbitrarily bad. MetaBSG leverages a meta-algorithm to learn whether the robots should follow the commands or a recently developed submodular coordination algorithm, Bandit Sequential Greedy (BSG) [1], which has performance guarantees even in unpredictable and partially-observable environments. Particularly, MetaBSG asymptotically can achieve the better performance out of the commands and the BSG algorithm, quantifying its suboptimality against the optimal time-varying multi-robot actions in hindsight. Thus, MetaBSG can be interpreted as robustifying the untrustworthy commands. We validate our algorithm in simulated scenarios of multi-target tracking.
翻訳日:2023-09-29 16:11:10 公開日:2023-09-28
# FireFly v2:時空間FPGAアクセラレータを用いた高性能スパイクニューラルネットワークのハードウェアサポートの改善

FireFly v2: Advancing Hardware Support for High-Performance Spiking Neural Network with a Spatiotemporal FPGA Accelerator ( http://arxiv.org/abs/2309.16158v1 )

ライセンス: Link先を確認
Jindong Li, Guobin Shen, Dongcheng Zhao, Qian Zhang, Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は、強力な生物学的解釈性と高エネルギー効率のため、ニューラルネットワーク(ANN)の代替として期待されている。 特殊なSNNハードウェアは、電力と性能の点で汎用デバイスよりも明確な利点を提供する。 しかし、最先端(SOTA)SNNアルゴリズムのハードウェアサポートを前進させ、計算とメモリ効率を改善する余地はある。 特殊なハードウェア上で高性能なSNNをサポートするためのさらなるステップとして、現在のSOTA SNNアルゴリズムにおける非スパイク操作の問題に対処できるFPGA SNNアクセラレータであるFireFly v2を導入し、既存のSNNハードウェアへのエンドツーエンドデプロイメントにおける障害を提示する。 SNN特性をより効果的に整合させるために,4次元の並列性を実現し,膜電位記憶の必要性をなくし,オンザフライスパイク処理とスパイク生成を可能にする時空間データフローを設計する。 ハードウェアアクセラレーション性能をさらに向上するため,500-600MHzで動作するシストリックアレイに基づくバックエンドとして高性能スパイク演算エンジンを開発した。 私たちの知る限り、FireFly v2はFPGAベースの実装の中で最も高いクロック周波数を実現しています。 さらに、先進的なSNNアルゴリズムで一般的に使用される非スパイク操作をサポートする最初のSNNアクセラレータである。 FireFly v2は前バージョンのFireFlyと比較してスループットとDSP効率を2倍にし、現在のFPGAアクセラレータに比べてDSP効率が1.33倍、電力効率が1.42倍になった。

Spiking Neural Networks (SNNs) are expected to be a promising alternative to Artificial Neural Networks (ANNs) due to their strong biological interpretability and high energy efficiency. Specialized SNN hardware offers clear advantages over general-purpose devices in terms of power and performance. However, there's still room to advance hardware support for state-of-the-art (SOTA) SNN algorithms and improve computation and memory efficiency. As a further step in supporting high-performance SNNs on specialized hardware, we introduce FireFly v2, an FPGA SNN accelerator that can address the issue of non-spike operation in current SOTA SNN algorithms, which presents an obstacle in the end-to-end deployment onto existing SNN hardware. To more effectively align with the SNN characteristics, we design a spatiotemporal dataflow that allows four dimensions of parallelism and eliminates the need for membrane potential storage, enabling on-the-fly spike processing and spike generation. To further improve hardware acceleration performance, we develop a high-performance spike computing engine as a backend based on a systolic array operating at 500-600MHz. To the best of our knowledge, FireFly v2 achieves the highest clock frequency among all FPGA-based implementations. Furthermore, it stands as the first SNN accelerator capable of supporting non-spike operations, which are commonly used in advanced SNN algorithms. FireFly v2 has doubled the throughput and DSP efficiency when compared to our previous version of FireFly and it exhibits 1.33 times the DSP efficiency and 1.42 times the power efficiency compared to the current most advanced FPGA accelerators.
翻訳日:2023-09-29 16:10:49 公開日:2023-09-28
# RLHFにおける逆(In-)整合性のトリクルダウン影響

The Trickle-down Impact of Reward (In-)consistency on RLHF ( http://arxiv.org/abs/2309.16155v1 )

ライセンス: Link先を確認
Lingfeng Shen and Sihao Chen and Linfeng Song and Lifeng Jin and Baolin Peng and Haitao Mi and Daniel Khashabi and Dong Yu(参考訳) Reinforcement Learning from Human Feedback (RLHF) における標準的な実践は、望ましい世代に対する人間の好みを反映するように訓練されたReward Model (RM) に対する最適化である。 注目すべき課題は、RMの(現在)一貫性 -- 異なるプロンプトに対する意味的変化を認識し、報酬の割り当てを適切に適応できるか -- と、下流のRLHFモデルへの影響である。 本稿では,rmの不整合に関する一連の研究課題を考察する:(1)報奨モデルの一貫性をどうやって測定できるのか? (2)既存のRMはどの程度一貫性があり、どのように改善できるのか? (3)RLHFモデルトレーニングの結果、報酬の不整合がチャットボットにどのような影響を及ぼすか? RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。 コントラスト命令のそれぞれの例は、異なる基底真理応答を持つ語彙的に類似した命令のペアを特徴としている。 一貫性のあるRMは、対応する命令と応答を他の組み合わせよりも高くランク付けすることが期待されている。 平均的な人間に比べて、基準的ランク付け目標で訓練された現在のRMは、コントラスト命令で不運に失敗する。 追加のトレーニング予算を用いることなく、rm一貫性を効率的に改善できることを示すために、rmトレーニングと推論段階での補間による報酬整合性を高めるconvexdaとrewardfusionの2つの手法を提案する。 より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られ,報奨不整合が下流のRLHFプロセスにトリクルダウン効果を示すことが示唆された。

Standard practice within Reinforcement Learning from Human Feedback (RLHF) involves optimizing against a Reward Model (RM), which itself is trained to reflect human preferences for desirable generations. A notable subject that is understudied is the (in-)consistency of RMs -- whether they can recognize the semantic changes to different prompts and appropriately adapt their reward assignments -- and their impact on the downstream RLHF model. In this paper, we visit a series of research questions relevant to RM inconsistency: (1) How can we measure the consistency of reward models? (2) How consistent are the existing RMs and how can we improve them? (3) In what ways does reward inconsistency influence the chatbots resulting from the RLHF model training? We propose Contrast Instructions -- a benchmarking strategy for the consistency of RM. Each example in Contrast Instructions features a pair of lexically similar instructions with different ground truth responses. A consistent RM is expected to rank the corresponding instruction and response higher than other combinations. We observe that current RMs trained with the standard ranking objective fail miserably on Contrast Instructions compared to average humans. To show that RM consistency can be improved efficiently without using extra training budget, we propose two techniques ConvexDA and RewardFusion, which enhance reward consistency through extrapolation during the RM training and inference stage, respectively. We show that RLHF models trained with a more consistent RM yield more useful responses, suggesting that reward inconsistency exhibits a trickle-down effect on the downstream RLHF process.
翻訳日:2023-09-29 16:10:19 公開日:2023-09-28
# 量子統計モデルと測定のためのテスト領域のタイトな円錐近似

Tight conic approximation of testing regions for quantum statistical models and measurements ( http://arxiv.org/abs/2309.16153v1 )

ライセンス: Link先を確認
Michele Dall'Arno and Francesco Buscemi(参考訳) 量子統計モデル(すなわち正規化密度行列の族)と量子測定(すなわち正の作用素値測度)は線型写像と見なすことができる: 前者は効果の空間を確率分布の空間にマッピングし、後者は状態の空間を確率分布の空間にマッピングする。 そのような線型写像の画像は、対応するモデルや測定の試験領域と呼ばれる。 テスト領域は、量子ケースで分析的に扱うには実用的でないことで悪名高い。 最初の結果は、任意の量子統計モデルまたは任意の有限次元における測定の試験領域の暗黙的な外的近似を提供することである:すなわち、所望の画像を含む確率空間の領域は、与えられたモデルまたは測定のみに依存する公式を用いて暗黙的に定義される。 私たちが構成する外近似は、そのような外近似の中で最小限であり、一定のスケーリング係数まで最大内部近似となるという意味では閉である。 最後に、近似式を適用し、半デバイス独立な方法で、ある量子統計モデルや測定を別のものに変換する能力を特徴付ける。

Quantum statistical models (i.e., families of normalized density matrices) and quantum measurements (i.e., positive operator-valued measures) can be regarded as linear maps: the former, mapping the space of effects to the space of probability distributions; the latter, mapping the space of states to the space of probability distributions. The images of such linear maps are called the testing regions of the corresponding model or measurement. Testing regions are notoriously impractical to treat analytically in the quantum case. Our first result is to provide an implicit outer approximation of the testing region of any given quantum statistical model or measurement in any finite dimension: namely, a region in probability space that contains the desired image, but is defined implicitly, using a formula that depends only on the given model or measurement. The outer approximation that we construct is minimal among all such outer approximations, and close, in the sense that it becomes the maximal inner approximation up to a constant scaling factor. Finally, we apply our approximation formulas to characterize, in a semi-device independent way, the ability to transform one quantum statistical model or measurement into another.
翻訳日:2023-09-29 16:09:52 公開日:2023-09-28
# 非エルミート系における対称性保護退化点のブレイディングトポロジー

Braiding topology of symmetry-protected degeneracy points in non-Hermitian systems ( http://arxiv.org/abs/2309.16152v1 )

ライセンス: Link先を確認
Jia-Zheng Li, Kai Bai, Cheng Guo, Tian-Rui Liu, Liang Fang, Duanduan Wan, Meng Xiao(参考訳) 非エルミート系における退化点は非常に興味深い。 対称性のない状態での挙動を理解するための枠組みが存在するが、コディメンションが小さい対称性が保護された縮退点には適用されない。 本研究では,これらの対称性が保護される縮退点のブレイディングトポロジーと非可換保存則について検討する。 単純な消滅とは対照的に、ペアワイズで生成した対称性保護縮退点が、アーベル像を超えた高階縮退点に融合する。 電気回路系におけるモデルハミルトニアンおよびフルウェーブシミュレーションを用いてこれらの結果を検証する。

Degeneracy points in non-Hermitian systems are of great interest. While a framework exists for understanding their behavior in the absence of symmetry, it does not apply to symmetry-protected degeneracy points with reduced codimension. In this work, we investigate the braiding topology and non-abelian conservation rule of these symmetry-protected degenerate points. We find that, contrary to simple annihilation, pairwise created symmetry-protected degeneracy points merge into a higher order degeneracy point, which goes beyond the abelian picture. We verify these findings using a model Hamiltonian and full-wave simulations in an electric circuit system.
翻訳日:2023-09-29 16:09:30 公開日:2023-09-28
# AE-GPT:大規模言語モデルを用いてサーベイランスレポートから副次事象を抽出する-インフルエンザワクチン副次事象の事例

AE-GPT: Using Large Language Models to Extract Adverse Events from Surveillance Reports-A Use Case with Influenza Vaccine Adverse Events ( http://arxiv.org/abs/2309.16150v1 )

ライセンス: Link先を確認
Yiming Li, Jianfu Li, Jianping He, Cui Tao(参考訳) ワクチンは世界的な健康に役立ち、感染症やパンデミックの流行を緩和するが、時には有害事象(AE)を引き起こすことがある。 近年,Large Language Models (LLMs) は臨床報告の中でAEを効果的に同定し,カタログ化することを約束している。 1990年から2016年までのVAERS(Vaccine Adverse Event Reporting System)のデータを利用することで、特にALMのAE抽出能力を評価することに焦点を当てた。 GPT-2, GPT-3変異株, GPT-4, Llama 2を含む各種のLLMをInfluenzaワクチンを用いて検討した。 微調整 GPT 3.5 モデル (AE-GPT) は0.704 マイクロ F1 スコアを厳密な試合、0.816 スコアを緩和した。 AE-GPT の励振性能は、医学データ処理における LLM のポテンシャルを裏付けるもので、高度な AE 検出に向けた重要な歩みを示している。

Though Vaccines are instrumental in global health, mitigating infectious diseases and pandemic outbreaks, they can occasionally lead to adverse events (AEs). Recently, Large Language Models (LLMs) have shown promise in effectively identifying and cataloging AEs within clinical reports. Utilizing data from the Vaccine Adverse Event Reporting System (VAERS) from 1990 to 2016, this study particularly focuses on AEs to evaluate LLMs' capability for AE extraction. A variety of prevalent LLMs, including GPT-2, GPT-3 variants, GPT-4, and Llama 2, were evaluated using Influenza vaccine as a use case. The fine-tuned GPT 3.5 model (AE-GPT) stood out with a 0.704 averaged micro F1 score for strict match and 0.816 for relaxed match. The encouraging performance of the AE-GPT underscores LLMs' potential in processing medical data, indicating a significant stride towards advanced AE detection, thus presumably generalizable to other AE extraction tasks.
翻訳日:2023-09-29 16:09:19 公開日:2023-09-28
# OSM-Net:1対1の対話型ヘッドジェネレーション

OSM-Net: One-to-Many One-shot Talking Head Generation with Spontaneous Head Motions ( http://arxiv.org/abs/2309.16148v1 )

ライセンス: Link先を確認
Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong Han(参考訳) ワンショット発声頭部生成には明示的な頭部運動基準がないため,頭部運動を伴う発声頭部の生成は困難である。 既存の作品の中には口の部分のみを編集し、まだ話している頭を生成するものもあり、非現実的な頭のパフォーマンスをもたらす。 他の作品では、音声信号と頭部の動きシーケンスを1対1でマッピングし、同じコンテンツを話すときに頭の動きが異なる振る舞いをすることができるため、アンビグニティ対応をマッピングに導入している。 この不合理なマッピング形式は多様性のモデル化に失敗し、ほぼ静的あるいは誇張された頭の動きを生み出します。 したがって、1対1の会話ヘッド生成タスクは実際には1対多の不適切な問題であり、発話時の多様な頭の動きを示す。 上記の観察に基づいて, 自然な頭部運動を持つ一発一発対話型頭部生成ネットワークである osm-net を提案する。 OSM-Netは、リッチで様々なクリップレベルのヘッドモーション機能を含むモーションスペースを構築する。 空間の各基底は、フレームではなくクリップ内で有意義な頭の動きの特徴を表しており、これにより、話す頭の中でよりコヒーレントで自然な動きの変化をもたらす。 駆動音声は動き空間にマッピングされ、周囲の様々な動き特徴を適切な範囲でサンプリングして1対多のマッピングを実現する。 さらに、ランドマーク制約と時間ウィンドウ特徴入力により、正確な表現特徴抽出とビデオ生成が改善される。 広範な実験により、osm-netは他の手法と比較して合理的な一対多マッピングパラダイムの下でより自然な頭の動きを生成することが示された。

One-shot talking head generation has no explicit head movement reference, thus it is difficult to generate talking heads with head motions. Some existing works only edit the mouth area and generate still talking heads, leading to unreal talking head performance. Other works construct one-to-one mapping between audio signal and head motion sequences, introducing ambiguity correspondences into the mapping since people can behave differently in head motions when speaking the same content. This unreasonable mapping form fails to model the diversity and produces either nearly static or even exaggerated head motions, which are unnatural and strange. Therefore, the one-shot talking head generation task is actually a one-to-many ill-posed problem and people present diverse head motions when speaking. Based on the above observation, we propose OSM-Net, a \textit{one-to-many} one-shot talking head generation network with natural head motions. OSM-Net constructs a motion space that contains rich and various clip-level head motion features. Each basis of the space represents a feature of meaningful head motion in a clip rather than just a frame, thus providing more coherent and natural motion changes in talking heads. The driving audio is mapped into the motion space, around which various motion features can be sampled within a reasonable range to achieve the one-to-many mapping. Besides, the landmark constraint and time window feature input improve the accurate expression feature extraction and video generation. Extensive experiments show that OSM-Net generates more natural realistic head motions under reasonable one-to-many mapping paradigm compared with other methods.
翻訳日:2023-09-29 16:08:57 公開日:2023-09-28
# T-COL:可変機械学習システムにおける一般ユーザ嗜好に対する対実的説明の生成

T-COL: Generating Counterfactual Explanations for General User Preferences on Variable Machine Learning Systems ( http://arxiv.org/abs/2309.16146v1 )

ライセンス: Link先を確認
Ming Wang, Daling Wang, Wenfang Wu, Shi Feng, Yifei Zhang(参考訳) 機械学習(ML)ベースのシステムは、解釈可能性の欠如に悩まされている。 この問題に対処するために, 反事実説明 (ces) が提案されている。 CEは、ある結果が予測された理由を説明することに加えて、ユーザに対して実行可能な提案を提供するため、ユニークなものだ。 しかし、CEの応用は、一般的なユーザの好みと可変MLシステムという2つの大きな課題によって妨げられている。 特にユーザの好みは、特定の機能値よりも一般的な傾向がある。 さらに、CEはMLモデルのバリエーションに合わせてカスタマイズされ、検証モデルが変更されても堅牢性を維持する必要がある。 これらの課題を克服するために、ユーザリサーチによって検証されたいくつかの一般的なユーザ嗜好を提案し、CEの特性にマッピングする。 また, 任意の2つの構造と, 一般的なユーザの嗜好に適応可能なCEを生成する条件群を有する, \uline{T}ree-based \uline{C}onditions \uline{O}ptional \uline{L}inks (T-COL) という新しい手法を導入する。 一方、条件のグループによってT-COLはより堅牢なCEを生成し、MLモデルを置き換える際に高い妥当性を持つ。 我々は,T-COLが生成するCEの特性を異なるユーザ嗜好の下で実験的に比較し,T-COLは大規模言語モデルを含むベースライン手法と比較して,ユーザの嗜好や可変MLシステムに適していることを示した。

Machine learning (ML) based systems have been suffering a lack of interpretability. To address this problem, counterfactual explanations (CEs) have been proposed. CEs are unique as they provide workable suggestions to users, in addition to explaining why a certain outcome was predicted. However, the application of CEs has been hindered by two main challenges, namely general user preferences and variable ML systems. User preferences, in particular, tend to be general rather than specific feature values. Additionally, CEs need to be customized to suit the variability of ML models, while also maintaining robustness even when these validation models change. To overcome these challenges, we propose several possible general user preferences that have been validated by user research and map them to the properties of CEs. We also introduce a new method called \uline{T}ree-based \uline{C}onditions \uline{O}ptional \uline{L}inks (T-COL), which has two optional structures and several groups of conditions for generating CEs that can be adapted to general user preferences. Meanwhile, a group of conditions lead T-COL to generate more robust CEs that have higher validity when the ML model is replaced. We compared the properties of CEs generated by T-COL experimentally under different user preferences and demonstrated that T-COL is better suited for accommodating user preferences and variable ML systems compared to baseline methods including Large Language Models.
翻訳日:2023-09-29 16:08:31 公開日:2023-09-28
# 大規模言語モデルにおける信頼・コンピテンスギャップ : 認知的研究

The Confidence-Competence Gap in Large Language Models: A Cognitive Study ( http://arxiv.org/abs/2309.16145v1 )

ライセンス: Link先を確認
Aniket Kumar Singh, Suman Devkota, Bishal Lamichhane, Uttam Dhakal, Chandra Dhakal(参考訳) 大規模言語モデル(llm)は、さまざまなドメインのパフォーマンスにおいて、ユビキタスな注目を集めています。 本研究はLLMの認知能力と信頼性のダイナミクスを探索する。 私たちは、自己評価された信頼と実際のパフォーマンスの整合性について深く理解しています。 我々は,これらのモデルを多様なアンケートや実世界のシナリオを用いて活用し,LLMの反応に対する信頼感を抽出する。 この結果から,モデルが誤答しても高い信頼性を示す興味深い事例が判明した。 これは人間の心理学で観察されたダンニング・クルーガー効果を思い出させる。 対照的に、モデルが正しい回答で低い信頼を示す場合があり、潜在的な過小評価バイアスが明らかである。 我々の結果は、認知過程のより深い理解の必要性を浮き彫りにした。 LLMの自己評価機構のニュアンスを調べることで,機能の向上と,これらの強迫性のある言語モデルの適用可能性の拡大に役立つ,注目すべき発見を提供する。

Large Language Models (LLMs) have acquired ubiquitous attention for their performances across diverse domains. Our study here searches through LLMs' cognitive abilities and confidence dynamics. We dive deep into understanding the alignment between their self-assessed confidence and actual performance. We exploit these models with diverse sets of questionnaires and real-world scenarios and extract how LLMs exhibit confidence in their responses. Our findings reveal intriguing instances where models demonstrate high confidence even when they answer incorrectly. This is reminiscent of the Dunning-Kruger effect observed in human psychology. In contrast, there are cases where models exhibit low confidence with correct answers revealing potential underestimation biases. Our results underscore the need for a deeper understanding of their cognitive processes. By examining the nuances of LLMs' self-assessment mechanism, this investigation provides noteworthy revelations that serve to advance the functionalities and broaden the potential applications of these formidable language models.
翻訳日:2023-09-29 16:08:01 公開日:2023-09-28
# 逐次ランダムアクセス符号を用いた半デバイス非依存量子非マルコフ性証明

Semi-device-independent certification of quantum non-Markovianity using sequential Random Access Codes ( http://arxiv.org/abs/2309.16190v1 )

ライセンス: Link先を確認
Abhinash Kumar Roy, Varun Srivastava, Soumik Mahanti, Christina Giarmatzi, and Alexei Gilchrist(参考訳) オープン量子システムにおける多重時間相関のキャラクタリゼーションは極めて重要である。 本研究では,プロセス行列形式を用いたマルチタイムプロセスについて検討し,量子非マルコフ環境の存在がQRAC(Sequate Preform-measure Quantum Random Access Codes)における通信能力向上に重要な役割を果たすことを示す。 相関環境は、射影的測定であっても、複数のパーティに対して量子的優位性を実現する。 特に、マルコフ過程や古典的非マルコフ過程、すなわち、環境からの古典的フィードバックを伴う量子過程は、逐次的な量子アドバンテージを与えないことを示す。 対照的に、量子非マルコフ環境の存在下での優位性を達成することは可能である。 したがって、このアプローチは半デバイスに依存しない量子非マルコフ性証明を可能にする。 完全過程の知識を必要とする絡み合い検出基準とは対照的に、この方法では観測された測定統計から量子非マルコフ環境の存在を証明できる。 さらに、量子メモリは、半デバイス非依存の方法で、アンシャープ機器の不明確な認証領域を改善する。

The characterization of multi-time correlations in open quantum systems is of fundamental importance. In this work, we investigate multi-time processes using the process matrix formalism and show that the presence of a quantum non-Markovian environment plays a significant role in enhancing the communication capacity in sequential prepare-transform-measure Quantum Random Access Codes (QRAC). The correlated environment enables a quantum advantage to multiple parties, even with projective measurements. In particular, we show that the Markovian and classical non-Markovian processes, i.e. quantum processes with classical feedback from the environment, do not yield sequential quantum advantage. In contrast, it is possible to achieve an advantage in the presence of a quantum non-Markovian environment. Therefore this approach allows a semi-device-independent certification of quantum non-Markovianity. As opposed to entanglement-detection criteria which require the knowledge of the complete process, this method allows to certify the presence of a quantum non-Markovian environment from the observed measurement statistics. Moreover, quantum memory ameliorates the unambiguous certifiable region of unsharp instruments in a semi-device-independent manner.
翻訳日:2023-09-29 16:03:57 公開日:2023-09-28
# Cloth2Body:2D衣服から3D人体メッシュを生成する

Cloth2Body: Generating 3D Human Body Mesh from 2D Clothing ( http://arxiv.org/abs/2309.16189v1 )

ライセンス: Link先を確認
Lu Dai, Liqian Ma, Shenhan Qian, Hao Liu, Ziwei Liu, Hui Xiong(参考訳) 本稿では,2次元衣料品画像から3次元人体メッシュを生成することを目的としたClos2Body問題を定義し,検討する。 既存のヒューマンメッシュリカバリ問題とは異なり、Clos2Bodyは入力の部分的な観察と出力の多様性によって生じる新たな課題に対処する必要がある。 実際、課題は3つあります。 まず、人間の体を服に当てる方法。 第二に、衣服の種類から身体の形状を効果的に推定する方法。 最後に、2D衣料品画像から多様でもっともらしい結果を生成する方法。 そこで本稿では,2次元衣料画像からポーズと形状でパラメータ化された3次元ボディメッシュを正確に推定できるエンドツーエンドフレームワークを提案する。 この線に沿って、まずKinematics-aware Pose Estimation を用いてボディポーズパラメータを推定する。 3dスケルトンはプロキシとして使われ、次いで逆キネマティクスモジュールによって推定精度が向上する。 さらに,物体サイズとカメラの遠近性の影響を分離することにより,再計画された3dメッシュを2d衣料画像に適合させるための適応的奥行きトリックを考案した。 次に,身体形状パラメータを推定する物理インフォームド形状推定法を提案する。 3次元形状パラメータは、rgb画像から推定される部分体測定に基づいて予測され、ピクセル単位での人間-クロースアライメントを改善するだけでなく、柔軟なユーザー編集を可能にする。 最後に,遺伝的アルゴリズムにインスパイアされた骨格移植法である進化型ポーズ生成法を設計し,推論中に多様な合理的ポーズを生成する。 合成, 実世界の両データの実験結果から, 提案手法は最先端の性能を実現し, 衣服とよく整合した2次元画像から, 自然, 多様な3Dボディーメッシュを効果的に回収する。

In this paper, we define and study a new Cloth2Body problem which has a goal of generating 3D human body meshes from a 2D clothing image. Unlike the existing human mesh recovery problem, Cloth2Body needs to address new and emerging challenges raised by the partial observation of the input and the high diversity of the output. Indeed, there are three specific challenges. First, how to locate and pose human bodies into the clothes. Second, how to effectively estimate body shapes out of various clothing types. Finally, how to generate diverse and plausible results from a 2D clothing image. To this end, we propose an end-to-end framework that can accurately estimate 3D body mesh parameterized by pose and shape from a 2D clothing image. Along this line, we first utilize Kinematics-aware Pose Estimation to estimate body pose parameters. 3D skeleton is employed as a proxy followed by an inverse kinematics module to boost the estimation accuracy. We additionally design an adaptive depth trick to align the re-projected 3D mesh better with 2D clothing image by disentangling the effects of object size and camera extrinsic. Next, we propose Physics-informed Shape Estimation to estimate body shape parameters. 3D shape parameters are predicted based on partial body measurements estimated from RGB image, which not only improves pixel-wise human-cloth alignment, but also enables flexible user editing. Finally, we design Evolution-based pose generation method, a skeleton transplanting method inspired by genetic algorithms to generate diverse reasonable poses during inference. As shown by experimental results on both synthetic and real-world data, the proposed framework achieves state-of-the-art performance and can effectively recover natural and diverse 3D body meshes from 2D images that align well with clothing.
翻訳日:2023-09-29 16:03:38 公開日:2023-09-28
# Stackelbergのバッチポリシ学習

Stackelberg Batch Policy Learning ( http://arxiv.org/abs/2309.16188v1 )

ライセンス: Link先を確認
Wenzhuo Zhou, Annie Qu(参考訳) バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。 ログ化された経験から値関数モデルクラスを校正し、学習モデルの下である種の悲観的評価を行う、最悪の最適性アルゴリズムが、バッチRLの有望なパラダイムとして登場した。 しかし、この流れに関する現代の作品は、最適化の風景に隠れた階層的な意思決定構造を見落としている。 本稿では,ゲーム理論的な視点を採用し,政策学習図をリーダ・フォロワー構造を持つ2プレイヤー汎用ゲームとしてモデル化する。 提案手法は,通常の個々の勾配ではなく,目標の完全な導出に従って,リーダープレイヤーが更新する確率的勾配に基づく学習アルゴリズムであるstackelberglearnerを提案する。 派生学習力学は、StackelbergLearnerをゲーム理論の解釈に自然に結び付け、微分可能なStackelberg平衡に対する収束を保証する。 理論的な観点からは、一般的な関数近似を伴うインスタンス依存の後悔境界を提供し、アルゴリズムがバッチデータでカバーされる任意のコンパレータポリシーに対抗できる最善のエフォートポリシーを学習できることを示します。 特に、我々の理論的後悔の保証は、データカバレッジと強い関数近似条件、例えばベルマン閉包(bellman closedness)のない実現可能性のみを必要とする。 包括的実験により,本アルゴリズムはバッチrlベンチマークや実世界のデータセットにおいて,最先端の手法と同等以上の性能を発揮することがわかった。

Batch reinforcement learning (RL) defines the task of learning from a fixed batch of data lacking exhaustive exploration. Worst-case optimality algorithms, which calibrate a value-function model class from logged experience and perform some type of pessimistic evaluation under the learned model, have emerged as a promising paradigm for batch RL. However, contemporary works on this stream have commonly overlooked the hierarchical decision-making structure hidden in the optimization landscape. In this paper, we adopt a game-theoretical viewpoint and model the policy learning diagram as a two-player general-sum game with a leader-follower structure. We propose a novel stochastic gradient-based learning algorithm: StackelbergLearner, in which the leader player updates according to the total derivative of its objective instead of the usual individual gradient, and the follower player makes individual updates and ensures transition-consistent pessimistic reasoning. The derived learning dynamic naturally lends StackelbergLearner to a game-theoretic interpretation and provides a convergence guarantee to differentiable Stackelberg equilibria. From a theoretical standpoint, we provide instance-dependent regret bounds with general function approximation, which shows that our algorithm can learn a best-effort policy that is able to compete against any comparator policy that is covered by batch data. Notably, our theoretical regret guarantees only require realizability without any data coverage and strong function approximation conditions, e.g., Bellman closedness, which is in contrast to prior works lacking such guarantees. Through comprehensive experiments, we find that our algorithm consistently performs as well or better as compared to state-of-the-art methods in batch RL benchmark and real-world datasets.
翻訳日:2023-09-29 16:03:07 公開日:2023-09-28
# 第一原理からのより一般的な診断理論

A More General Theory of Diagnosis from First Principles ( http://arxiv.org/abs/2309.16180v1 )

ライセンス: Link先を確認
Alban Grastien and Patrik Haslum and Sylvie Thi\'ebaux(参考訳) モデルに基づく診断は、人工知能、形式的手法、制御を含む様々なコミュニティで活発に研究されている。 このことは、システムの異なるクラスに対処し、異なる形の診断を求める異なるアプローチのセットにつながった。 本稿では, レーターの理論をシステムの種類や診断と無関係に一般化することで, それらの差異を解消する。 この第一原理からの診断のより一般的な理論は、最小診断を仮説の探索空間における望ましい診断候補の集合として定義する。 最小診断の計算は、診断仮説の空間を探索し、システムのモデルと観測との整合性をテストし、後継や他の探索空間の領域を除外する衝突を生成することによって達成される。 比較的軽度な仮定の下で,本アルゴリズムは適切な診断候補のセットを正しく計算する。 ここでの最大の難しさは、探索空間がもはやライターの理論のようにパワーセットではなく、結果として(探索空間の有限性のような)暗黙的な性質の多くがもはや保持されないことである。 対立の概念も一般化する必要があるので、より一般的な概念を提示する。 本稿では, 実世界の離散事象問題から, 実例から評価した, 満足度とヒューリスティック検索に基づく2つのアルゴリズムの実装について述べる。 我々の理論の一般化にもかかわらず、これらの実装は離散イベントシステム用に設計された特別な目的のアルゴリズムを超越し、既存の診断アプローチに及ばない問題の解決を可能にする。

Model-based diagnosis has been an active research topic in different communities including artificial intelligence, formal methods, and control. This has led to a set of disparate approaches addressing different classes of systems and seeking different forms of diagnoses. In this paper, we resolve such disparities by generalising Reiter's theory to be agnostic to the types of systems and diagnoses considered. This more general theory of diagnosis from first principles defines the minimal diagnosis as the set of preferred diagnosis candidates in a search space of hypotheses. Computing the minimal diagnosis is achieved by exploring the space of diagnosis hypotheses, testing sets of hypotheses for consistency with the system's model and the observation, and generating conflicts that rule out successors and other portions of the search space. Under relatively mild assumptions, our algorithms correctly compute the set of preferred diagnosis candidates. The main difficulty here is that the search space is no longer a powerset as in Reiter's theory, and that, as consequence, many of the implicit properties (such as finiteness of the search space) no longer hold. The notion of conflict also needs to be generalised and we present such a more general notion. We present two implementations of these algorithms, using test solvers based on satisfiability and heuristic search, respectively, which we evaluate on instances from two real world discrete event problems. Despite the greater generality of our theory, these implementations surpass the special purpose algorithms designed for discrete event systems, and enable solving instances that were out of reach of existing diagnosis approaches.
翻訳日:2023-09-29 16:02:39 公開日:2023-09-28
# BEVHeight++:ロバストな3Dオブジェクト検出を目指す

BEVHeight++: Toward Robust Visual Centric 3D Object Detection ( http://arxiv.org/abs/2309.16179v1 )

ライセンス: Link先を確認
Lei Yang, Tao Tang, Jun Li, Peng Chen, Kun Yuan, Li Wang, Yi Huang, Xinyu Zhang, Kaicheng Yu(参考訳) 最近の自律走行システムは、自走車センサーの認識方法の開発に重点を置いているが、人々は視覚範囲を超えて知覚能力を拡張するために、インテリジェントな路面カメラを活用する別のアプローチを見過ごす傾向がある。 最先端の視覚中心の鳥の目視検出手法は, 路面カメラの性能に劣ることがわかった。 これは、車と地面の深度差が急速に縮み、距離が大きくなるときにカメラセンターの深度を回復することに主に焦点が当てられているためである。 本稿では,BEVHeight++と呼ばれるシンプルで効果的な手法を提案し,この問題に対処する。 基本的に,距離に依存しない定式化を実現し,カメラのみの知覚手法の最適化プロセスを容易にする。 高さと深さの両方の符号化手法を取り入れることで、2次元からBEV空間へのより正確で堅牢な投影を実現する。 道路カメラの3D検出ベンチマークでは、従来の視覚中心の手法をはるかに上回っている。 ego-vehicleのシナリオでは、BEVHeight++は深さのみのメソッドよりも優れています。 具体的には、 nuScenes 検証セットで評価すると、BEVDepth よりも +1.9% NDS と +1.1% mAP の顕著な改善が得られる。 さらに, nuScenes テストセットでは, NDS が+2.8%, mAP が+1.7%増加した。

While most recent autonomous driving system focuses on developing perception methods on ego-vehicle sensors, people tend to overlook an alternative approach to leverage intelligent roadside cameras to extend the perception ability beyond the visual range. We discover that the state-of-the-art vision-centric bird's eye view detection methods have inferior performances on roadside cameras. This is because these methods mainly focus on recovering the depth regarding the camera center, where the depth difference between the car and the ground quickly shrinks while the distance increases. In this paper, we propose a simple yet effective approach, dubbed BEVHeight++, to address this issue. In essence, we regress the height to the ground to achieve a distance-agnostic formulation to ease the optimization process of camera-only perception methods. By incorporating both height and depth encoding techniques, we achieve a more accurate and robust projection from 2D to BEV spaces. On popular 3D detection benchmarks of roadside cameras, our method surpasses all previous vision-centric methods by a significant margin. In terms of the ego-vehicle scenario, our BEVHeight++ possesses superior over depth-only methods. Specifically, it yields a notable improvement of +1.9% NDS and +1.1% mAP over BEVDepth when evaluated on the nuScenes validation set. Moreover, on the nuScenes test set, our method achieves substantial advancements, with an increase of +2.8% NDS and +1.7% mAP, respectively.
翻訳日:2023-09-29 16:02:14 公開日:2023-09-28
# 気候モデルにおける機械学習パラメータの系統的サンプリングと検証

Systematic Sampling and Validation of Machine Learning-Parameterizations in Climate Models ( http://arxiv.org/abs/2309.16177v1 )

ライセンス: Link先を確認
Jerry Lin, Sungduk Yu, Tom Beucler, Pierre Gentine, David Walling, Mike Pritchard(参考訳) ハイブリッド物理機械学習(ML)の気候シミュレーションの進歩は、性能結合(オンライン)シミュレーションを得ることの難しさによって制限されている。 数百のサブグリッドクロージャのMLパラメータ化(対流と放射の領域)をオフラインで評価することは簡単だが、同じ規模のオンライン評価は技術的に難しい。 当社のソフトウェア自動化は,これまで検討されたよりも大規模にオンラインモデリングエラーのサンプリングを実現しています。 これを用いて,ハイブリッド気候モデルの性能を評価し,それを改善するための戦略を定義する。 モデルオンライン性能は,メモリ,相対湿度入力特徴変換,入力変数の追加により改善する。 また,オンラインエラーの統計値とオンラインエラーの統計値の差異も明らかにした。 つまり、パラメータ化設計選択の影響を検出するために、数百の候補MLモデルをオンラインで評価すべきである。 これは現在の文献で報告される傾向よりもかなり多いサンプリングである。

Progress in hybrid physics-machine learning (ML) climate simulations has been limited by the difficulty of obtaining performant coupled (i.e. online) simulations. While evaluating hundreds of ML parameterizations of subgrid closures (here of convection and radiation) offline is straightforward, online evaluation at the same scale is technically challenging. Our software automation achieves an order-of-magnitude larger sampling of online modeling errors than has previously been examined. Using this, we evaluate the hybrid climate model performance and define strategies to improve it. We show that model online performance improves when incorporating memory, a relative humidity input feature transformation, and additional input variables. We also reveal substantial variation in online error and inconsistencies between offline vs. online error statistics. The implication is that hundreds of candidate ML models should be evaluated online to detect the effects of parameterization design choices. This is considerably more sampling than tends to be reported in the current literature.
翻訳日:2023-09-29 16:01:42 公開日:2023-09-28
# 質問応答における弱視とデータ拡張の利用

Using Weak Supervision and Data Augmentation in Question Answering ( http://arxiv.org/abs/2309.16175v1 )

ライセンス: Link先を確認
Chumki Basu, Himanshu Garg, Allen McIntosh, Sezai Sablak, John R. Wullert II(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの始まりは、タイムリーで病気固有の質問に答えるために、バイオメディカル文献へのアクセスの必要性を強調した。 パンデミックの初期、私たちが直面した最大の課題の1つは、質問応答(qa)のための機械学習モデルのトレーニングに使用できる、covid-19に関する査読済みのバイオメディカル記事の欠如でした。 本稿では、深層ニューラルネットワークQAモデルのトレーニングにおいて、弱い監視とデータ拡張が果たす役割について検討する。 まず,情報検索アルゴリズムBM25を用いて学術論文の構造的抽象化から自動生成されるラベルが,抽出QAモデルを訓練するための弱い監視信号を提供するかどうかを検討する。 また, バイオメディカル領域の専門家による注釈付きデータがない場合に, 臨床検査用.govスキーマと記事の構造的抽象化によって案内される情報検索技術を用いて, 新たなQAペアをキュレートする。 さらに,単語形態や意味の変化を考慮した語彙データベースなどの外部ソースからの言語特徴を用いた深層ニューラルネットワークモデルの学習データの拡張について検討する。 学習データをよりよく活用するために、我々はカリキュラム学習をドメイン適応に適用し、QAペアの特性に基づいて段階的にQAモデルを微調整する。 システムの中核部におけるQAモデルのコンテキストにおける手法の評価を行い、COVID-19に関する質問に答える。

The onset of the COVID-19 pandemic accentuated the need for access to biomedical literature to answer timely and disease-specific questions. During the early days of the pandemic, one of the biggest challenges we faced was the lack of peer-reviewed biomedical articles on COVID-19 that could be used to train machine learning models for question answering (QA). In this paper, we explore the roles weak supervision and data augmentation play in training deep neural network QA models. First, we investigate whether labels generated automatically from the structured abstracts of scholarly papers using an information retrieval algorithm, BM25, provide a weak supervision signal to train an extractive QA model. We also curate new QA pairs using information retrieval techniques, guided by the clinicaltrials.gov schema and the structured abstracts of articles, in the absence of annotated data from biomedical domain experts. Furthermore, we explore augmenting the training data of a deep neural network model with linguistic features from external sources such as lexical databases to account for variations in word morphology and meaning. To better utilize our training data, we apply curriculum learning to domain adaptation, fine-tuning our QA model in stages based on characteristics of the QA pairs. We evaluate our methods in the context of QA models at the core of a system to answer questions about COVID-19.
翻訳日:2023-09-29 16:01:18 公開日:2023-09-28
# Distill to Delete: 知識蒸留によるグラフネットワークの非学習

Distill to Delete: Unlearning in Graph Networks with Knowledge Distillation ( http://arxiv.org/abs/2309.16173v1 )

ライセンス: Link先を確認
Yash Sinha, Murari Mandal, Mohan Kankanhalli(参考訳) グラフアンラーニングは、事前訓練されたグラフニューラルネットワーク(GNN)から情報を削除するための重要な方法として登場した。 ノード、ノードのクラス、エッジ、エッジのクラスを削除することができる。 アンラーニング方式により、GNNモデルはデータ保護規則(すなわち、忘れられる権利)に準拠し、進化するデータ分布に適応し、繰り返しのリトレーニングを避けることにより、GPU時間炭素フットプリントを削減することができる。 既存のパーティショニングとアグリゲーションベースのメソッドには、ローカルグラフ依存の扱いが貧弱であることと、オーバーヘッドコストの増大による制限がある。 最近では、GNNDeleteはこれらの問題を緩和するモデルに依存しないアプローチを提供している。 我々の研究は、GNN(D2DGN)において、知識蒸留によるグラフアンラーニングにおけるこれらの課題に対処するために、新しいアプローチを取る。 完全なグラフ知識が分割され、保持と削除のためにマークされる、モデルに依存しない蒸留フレームワークである。 反応ベースのソフトターゲットと特徴ベースのノード埋め込みで蒸留を行い、klの発散を最小限に抑える。 未学習モデルは、保持されたグラフ要素に関する知識を保持しながら、削除されたグラフ要素の影響を効果的に除去する。 D2DGNは、エッジおよびノードアンラーニングタスクにおいて、様々な実世界のグラフデータセットで最大43.1\%(AUC)の評価を行う際に、既存のメソッドのパフォーマンスを上回る。 その他の注目すべきアドバンテージは、効率の向上、ターゲット要素の除去におけるパフォーマンス向上、保持された要素のパフォーマンスの保存、オーバーヘッドコストゼロである。 D2DGN は AUC の最先端 GNNDelete を 2.4 %$ に上回り、メンバーシップ推論比を+1.3$ に改善し、転送パスあたり 10.2\times10^6$ を減らし、最大$\mathbf{3.2}\times$ を高速化します。

Graph unlearning has emerged as a pivotal method to delete information from a pre-trained graph neural network (GNN). One may delete nodes, a class of nodes, edges, or a class of edges. An unlearning method enables the GNN model to comply with data protection regulations (i.e., the right to be forgotten), adapt to evolving data distributions, and reduce the GPU-hours carbon footprint by avoiding repetitive retraining. Existing partitioning and aggregation-based methods have limitations due to their poor handling of local graph dependencies and additional overhead costs. More recently, GNNDelete offered a model-agnostic approach that alleviates some of these issues. Our work takes a novel approach to address these challenges in graph unlearning through knowledge distillation, as it distills to delete in GNN (D2DGN). It is a model-agnostic distillation framework where the complete graph knowledge is divided and marked for retention and deletion. It performs distillation with response-based soft targets and feature-based node embedding while minimizing KL divergence. The unlearned model effectively removes the influence of deleted graph elements while preserving knowledge about the retained graph elements. D2DGN surpasses the performance of existing methods when evaluated on various real-world graph datasets by up to $43.1\%$ (AUC) in edge and node unlearning tasks. Other notable advantages include better efficiency, better performance in removing target elements, preservation of performance for the retained elements, and zero overhead costs. Notably, our D2DGN surpasses the state-of-the-art GNNDelete in AUC by $2.4\%$, improves membership inference ratio by $+1.3$, requires $10.2\times10^6$ fewer FLOPs per forward pass and up to $\mathbf{3.2}\times$ faster.
翻訳日:2023-09-29 16:00:21 公開日:2023-09-28
# ai自己意識による大規模言語モデルソフトイデオロギー化

Large Language Model Soft Ideologization via AI-Self-Consciousness ( http://arxiv.org/abs/2309.16167v1 )

ライセンス: Link先を確認
Xiaotian Zhou, Qian Wang, Xiaofeng Wang, Haixu Tang, Xiaozhong Liu(参考訳) 大規模言語モデル(LLM)は、多岐にわたる自然言語タスクにおいて人間レベルの性能を示す。 しかしながら、LLMの脅威と脆弱性をイデオロギーの観点から論じる研究はほとんどなく、特に選挙や教育といったセンシティブな分野への展開が増えている。 本研究では,AI自己意識を用いたGPTソフトイデオロギーの意義を考察する。 GPTの自己会話を利用することで、AIは意図したイデオロギーを"理解"し、LLMイデオロギー注入のための微調整データを生成できる。 情報検閲のような従来の政府のイデオロギー操作技術と比較すると、LCMのイデオロギー化は有利である。

Large language models (LLMs) have demonstrated human-level performance on a vast spectrum of natural language tasks. However, few studies have addressed the LLM threat and vulnerability from an ideology perspective, especially when they are increasingly being deployed in sensitive domains, e.g., elections and education. In this study, we explore the implications of GPT soft ideologization through the use of AI-self-consciousness. By utilizing GPT self-conversations, AI can be granted a vision to "comprehend" the intended ideology, and subsequently generate finetuning data for LLM ideology injection. When compared to traditional government ideology manipulation techniques, such as information censorship, LLM ideologization proves advantageous; it is easy to implement, cost-effective, and powerful, thus brimming with risks.
翻訳日:2023-09-29 15:59:19 公開日:2023-09-28
# CoinRun: 目標の誤用を解決する

CoinRun: Solving Goal Misgeneralisation ( http://arxiv.org/abs/2309.16166v1 )

ライセンス: Link先を確認
Stuart Armstrong and Alexandre Maranh\~ao and Oliver Daniels-Koch and Patrick Leask and Rebecca Gorman(参考訳) 目標の非一般化は、aiアライメントにおける重要な課題である -- 強力な人工知能を使って、目標を人間の意図と人間のモラルに合わせること。 本稿では、ACE(Algorithm for Concept Extrapolation)エージェントが、ゴールの誤一般化における主要な標準課題の1つ、CoinRunチャレンジをいかに解決できるかを示す。 新しい環境では新たな報酬情報を使用しない。 これは、新規で批判的な状況でも、自律的なエージェントが人間の利益のためにどのように行動するかを示唆する。

Goal misgeneralisation is a key challenge in AI alignment -- the task of getting powerful Artificial Intelligences to align their goals with human intentions and human morality. In this paper, we show how the ACE (Algorithm for Concept Extrapolation) agent can solve one of the key standard challenges in goal misgeneralisation: the CoinRun challenge. It uses no new reward information in the new environment. This points to how autonomous agents could be trusted to act in human interests, even in novel and critical situations.
翻訳日:2023-09-29 15:59:03 公開日:2023-09-28
# VDC:視覚言語的不整合による汚れサンプル検出用ヴァーサタイルデータクリーニング装置

VDC: Versatile Data Cleanser for Detecting Dirty Samples via Visual-Linguistic Inconsistency ( http://arxiv.org/abs/2309.16211v1 )

ライセンス: Link先を確認
Zihao Zhu, Mingda Zhang, Shaokui Wei, Bingzhe Wu, Baoyuan Wu(参考訳) AIシステム構築におけるデータの役割は、最近、データ中心AIという新たな概念によって強調されている。 残念ながら、現実のデータセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている可能性がある。 このような汚いサンプルが存在するため、DNNは不安定で信頼性が低いため、汚いサンプルを検出してデータセットの品質と現実性を改善することが重要である。 既存の検出器は汚染されたサンプルやノイズのラベルの検出にのみ焦点を合わせており、他のドメインからの汚れたサンプルを扱う場合、しばしば弱い一般化になりがちである。 To capture the semantic inconsistency between modalities, we propose versatile data cleanser (VDC) leveraging the surpassing capabilities of multimodal large language models (MLLM) in cross-modal alignment and reasoning.It consists of three consecutive modules: the visual question generation module to generate insightful questions about the image; the visual question answering module to acquire the semantics of the visual content by answering the questions with MLLM; followed by the visual answer evaluation module to evaluate the inconsistency.Extensive experiments demonstrate its superior performance and generalization to various categories and types of dirty samples.

The role of data in building AI systems has recently been emphasized by the emerging concept of data-centric AI. Unfortunately, in the real-world, datasets may contain dirty samples, such as poisoned samples from backdoor attack, noisy labels in crowdsourcing, and even hybrids of them. The presence of such dirty samples makes the DNNs vunerable and unreliable.Hence, it is critical to detect dirty samples to improve the quality and realiability of dataset. Existing detectors only focus on detecting poisoned samples or noisy labels, that are often prone to weak generalization when dealing with dirty samples from other domains.In this paper, we find a commonality of various dirty samples is visual-linguistic inconsistency between images and associated labels. To capture the semantic inconsistency between modalities, we propose versatile data cleanser (VDC) leveraging the surpassing capabilities of multimodal large language models (MLLM) in cross-modal alignment and reasoning.It consists of three consecutive modules: the visual question generation module to generate insightful questions about the image; the visual question answering module to acquire the semantics of the visual content by answering the questions with MLLM; followed by the visual answer evaluation module to evaluate the inconsistency.Extensive experiments demonstrate its superior performance and generalization to various categories and types of dirty samples.
翻訳日:2023-09-29 15:51:06 公開日:2023-09-28
# Swinunter を用いた腹部多臓器郭清術

Abdominal multi-organ segmentation in CT using Swinunter ( http://arxiv.org/abs/2309.16210v1 )

ライセンス: Link先を確認
Mingjin Chen, Yongkang He, Yongyi Lu(参考訳) CT(Computed tomography)における腹部多臓器分画は,疾患検出や治療計画など多くの臨床応用に不可欠である。 この観点からは、ディープラーニング手法は前例のない性能を示している。 しかし,臓器の曖昧な境界,複雑な背景,実質的に異なる臓器サイズスケールのため,単一のネットワークを用いて異なる臓器を正確に分割することは依然として困難である。 この作業では、トレーニングにトランスフォーマーベースのモデルを使用しました。 前年のコンペで、トップ5のメソッドのすべてがcnnベースのメソッドを使用していたことが判明した。 この競争における何千ものサンプルにより、トランスフォーマーベースのモデルはより優れた結果が得られる可能性がある。 公開検証セットの結果は、トランスフォーマティブベースのモデルが許容できる結果と推論時間を達成できることも示している。

Abdominal multi-organ segmentation in computed tomography (CT) is crucial for many clinical applications including disease detection and treatment planning. Deep learning methods have shown unprecedented performance in this perspective. However, it is still quite challenging to accurately segment different organs utilizing a single network due to the vague boundaries of organs, the complex background, and the substantially different organ size scales. In this work we used make transformer-based model for training. It was found through previous years' competitions that basically all of the top 5 methods used CNN-based methods, which is likely due to the lack of data volume that prevents transformer-based methods from taking full advantage. The thousands of samples in this competition may enable the transformer-based model to have more excellent results. The results on the public validation set also show that the transformer-based model can achieve an acceptable result and inference time.
翻訳日:2023-09-29 15:50:44 公開日:2023-09-28
# 対数ミニマックス関数に基づく非凸三階テンソル回復

Nonconvex third-order Tensor Recovery Based on Logarithmic Minimax Function ( http://arxiv.org/abs/2309.16208v1 )

ライセンス: Link先を確認
Hongbing Zhang(参考訳) 近年の研究では、低ランクテンソル回復に基づく非凸緩和が注目されている。 そこで本研究では,新たな対数最小関数(LM)を提案する。 LM関数と対数ペナルティ,ミニマックス対数ペナルティ(MCP),ミニマックス対数ペナルティ(MLCP)関数の比較分析により,提案関数は小さな特異値に対してより強いペナルティを課しながら大きな特異値を保護することができることが明らかになった。 これに基づいて、重み付きテンソルLMノルムをテンソルチューブランクの非凸緩和として定義する。 次に,TLMに基づく低ランクテンソル完備化(LRTC)モデルとTLMベースの高剛性主成分分析(TRPCA)モデルを提案する。 さらに,提案手法に対して理論的収束保証を提供する。 各種実データを用いて総合的な実験を行い, 類似のEMLCP法との比較分析を行った。 その結果,提案手法は最先端手法よりも優れていた。

Recent researches have shown that low-rank tensor recovery based non-convex relaxation has gained extensive attention. In this context, we propose a new Logarithmic Minimax (LM) function. The comparative analysis between the LM function and the Logarithmic, Minimax concave penalty (MCP), and Minimax Logarithmic concave penalty (MLCP) functions reveals that the proposed function can protect large singular values while imposing stronger penalization on small singular values. Based on this, we define a weighted tensor LM norm as a non-convex relaxation for tensor tubal rank. Subsequently, we propose the TLM-based low-rank tensor completion (LRTC) model and the TLM-based tensor robust principal component analysis (TRPCA) model respectively. Furthermore, we provide theoretical convergence guarantees for the proposed methods. Comprehensive experiments were conducted on various real datasets, and a comparison analysis was made with the similar EMLCP method. The results demonstrate that the proposed method outperforms the state-of-the-art methods.
翻訳日:2023-09-29 15:50:31 公開日:2023-09-28
# パラメータセービング対向トレーニング:ハイパーネットによるマルチ摂動ロバストネスの強化

Parameter-Saving Adversarial Training: Reinforcing Multi-Perturbation Robustness via Hypernetworks ( http://arxiv.org/abs/2309.16207v1 )

ライセンス: Link先を確認
Huihui Gong, Minjing Dong, Siqi Ma, Seyit Camtepe, Surya Nepal, Chang Xu(参考訳) 敵意トレーニングは、敵意の摂動を防御する最も一般的で効果的な方法の1つである。 しかし、ほとんどの防御機構は単一のタイプの摂動のみを考慮し、様々な攻撃手法は実際のシナリオでデプロイされたモデルに対してより強力な攻撃を行うために採用される可能性がある。 様々な攻撃に対する防御は、単一モデルに対する多重摂動ロバスト性に対する理論的制限のため、マルチ摂動敵訓練とその変種が準最適ロバスト性トレードオフしか達成できないため、難しい問題となる。 さらに、ストレージ効率のよいシナリオでは、大規模モデルをデプロイするのは現実的ではない。 これらの欠点を解決するため,本論文では,ハイパーネットワークを利用して単一摂動に対する特殊モデルを訓練し,これらの特殊モデルを集約して複数の摂動に対して防御するマルチ摂動学習フレームワークであるparameter- saving adversarial training (psat)を提案する。 最終的に,提案手法と最先端のsingle/multi-perturbationロバスト法を比較し,提案手法のロバスト性とパラメータ効率,例えばresnet-50をバックボーンとするcifar-10データセットに対して,psatは,最先端ロバスト性トレードオフ精度を達成するために約80%のパラメータを節約することを示した。

Adversarial training serves as one of the most popular and effective methods to defend against adversarial perturbations. However, most defense mechanisms only consider a single type of perturbation while various attack methods might be adopted to perform stronger adversarial attacks against the deployed model in real-world scenarios, e.g., $\ell_2$ or $\ell_\infty$. Defending against various attacks can be a challenging problem since multi-perturbation adversarial training and its variants only achieve suboptimal robustness trade-offs, due to the theoretical limit to multi-perturbation robustness for a single model. Besides, it is impractical to deploy large models in some storage-efficient scenarios. To settle down these drawbacks, in this paper we propose a novel multi-perturbation adversarial training framework, parameter-saving adversarial training (PSAT), to reinforce multi-perturbation robustness with an advantageous side effect of saving parameters, which leverages hypernetworks to train specialized models against a single perturbation and aggregate these specialized models to defend against multiple perturbations. Eventually, we extensively evaluate and compare our proposed method with state-of-the-art single/multi-perturbation robust methods against various latest attack methods on different datasets, showing the robustness superiority and parameter efficiency of our proposed method, e.g., for the CIFAR-10 dataset with ResNet-50 as the backbone, PSAT saves approximately 80\% of parameters with achieving the state-of-the-art robustness trade-off accuracy.
翻訳日:2023-09-29 15:50:14 公開日:2023-09-28
# クロスモーダルトランスフォーマーGAN : アルツハイマー病解析のための脳構造Functional Deep Fusing Network

Cross-Modal Transformer GAN: Brain Structural-Functional Deep Fusing Network for Alzheimer's Disease Analysis ( http://arxiv.org/abs/2309.16206v1 )

ライセンス: Link先を確認
Qiankun Zuo, Junren Pan, and Shuqiang Wang(参考訳) 脳の構造機能画像の融合は、アルツハイマー病(AD)の悪化を分析する大きな可能性を示している。 しかし,マルチモーダル画像からの相関情報と補完情報を効果的に融合させることは大きな課題である。 本稿では,機能的磁気共鳴画像(fMRI)や拡散テンソル画像(DTI)に含まれる機能的・構造的情報を効果的に融合させるため,CT-GANと呼ばれる新しいモデルを提案する。 CT-GANは、位相的特徴を学習し、効率的なエンドツーエンドでマルチモーダルイメージングデータからマルチモーダル接続を生成する。 さらに、スワッピングバイアテンション機構は、共通の特徴を徐々に整列させ、モダリティ間の相補的特徴を効果的に強化するように設計されている。 生成した接続特性を解析することにより,AD関連脳接続を同定することができる。 パブリックADNIデータセットの評価から,提案したCT-GANは予測性能を劇的に向上し,AD関連脳領域を効果的に検出できることが示された。 提案モデルはまた、AD関連異常神経回路を検出するための新たな洞察を提供する。

Fusing structural-functional images of the brain has shown great potential to analyze the deterioration of Alzheimer's disease (AD). However, it is a big challenge to effectively fuse the correlated and complementary information from multimodal neuroimages. In this paper, a novel model termed cross-modal transformer generative adversarial network (CT-GAN) is proposed to effectively fuse the functional and structural information contained in functional magnetic resonance imaging (fMRI) and diffusion tensor imaging (DTI). The CT-GAN can learn topological features and generate multimodal connectivity from multimodal imaging data in an efficient end-to-end manner. Moreover, the swapping bi-attention mechanism is designed to gradually align common features and effectively enhance the complementary features between modalities. By analyzing the generated connectivity features, the proposed model can identify AD-related brain connections. Evaluations on the public ADNI dataset show that the proposed CT-GAN can dramatically improve prediction performance and detect AD-related brain regions effectively. The proposed model also provides new insights for detecting AD-related abnormal neural circuits.
翻訳日:2023-09-29 15:49:43 公開日:2023-09-28
# DiffGAN-F2S:脳MRIによる構造接続性予測のための対称性と高効率拡散GAN

DiffGAN-F2S: Symmetric and Efficient Denoising Diffusion GANs for Structural Connectivity Prediction from Brain fMRI ( http://arxiv.org/abs/2309.16205v1 )

ライセンス: Link先を確認
Qiankun Zuo, Ruiheng Li, Yi Di, Hao Tian, Changhong Jing, Xuhang Chen, Shuqiang Wang(参考訳) 機能的接続(FC)から構造的接続(SC)へのマッピングは、マルチモーダル脳ネットワークの融合を促進し、臨床応用のための潜在的なバイオマーカーを発見する。 しかし、SCと機能的磁気共鳴画像(fMRI)の信頼性の高い非線形マッピング関係を直接ブリッジすることは困難である。 本稿では,脳のfMRIからF2Sまでをエンド・ツー・エンドで予測するために,新しい拡散生成対向ネットワークを用いたfMRI-to-SC(DiffGAN-F2S)モデルを提案する。 具体的には、DiffGAN-F2Sは拡散確率モデル(DDPM)と敵対学習を活用し、fMRIから数ステップで高忠実度SCを効率的に生成する。 デュアルチャネルマルチヘッド空間アテンション(DMSA)とグラフ畳み込みモジュールを設計することにより、対称グラフ生成器はまず直接および間接的に連結された脳領域間のグローバルな関係を捉え、次に局所的な脳領域の相互作用をモデル化する。 fMRIと構造接続の複雑なマッピング関係を明らかにすることができる。 さらに、空間的に接続された整合性損失を発生元に制約し、グローバルな局所的な位相情報を正確に固有のSC予測のために保存する。 一般アルツハイマー病神経イメージングイニシアチブ(adni)データセット上でテストした結果,提案モデルは4次元画像データから経験的sc保存接続を効果的に生成し,他の関連モデルと比較してsc予測の優れた性能を示す。 さらに,本モデルでは,脳の重要領域の大部分と経験的手法から得られた接続を同定し,マルチモーダル脳ネットワークを融合し臨床疾患を解析する代替手段を提供する。

Mapping from functional connectivity (FC) to structural connectivity (SC) can facilitate multimodal brain network fusion and discover potential biomarkers for clinical implications. However, it is challenging to directly bridge the reliable non-linear mapping relations between SC and functional magnetic resonance imaging (fMRI). In this paper, a novel diffusision generative adversarial network-based fMRI-to-SC (DiffGAN-F2S) model is proposed to predict SC from brain fMRI in an end-to-end manner. To be specific, the proposed DiffGAN-F2S leverages denoising diffusion probabilistic models (DDPMs) and adversarial learning to efficiently generate high-fidelity SC through a few steps from fMRI. By designing the dual-channel multi-head spatial attention (DMSA) and graph convolutional modules, the symmetric graph generator first captures global relations among direct and indirect connected brain regions, then models the local brain region interactions. It can uncover the complex mapping relations between fMRI and structural connectivity. Furthermore, the spatially connected consistency loss is devised to constrain the generator to preserve global-local topological information for accurate intrinsic SC prediction. Testing on the public Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, the proposed model can effectively generate empirical SC-preserved connectivity from four-dimensional imaging data and shows superior performance in SC prediction compared with other related models. Furthermore, the proposed model can identify the vast majority of important brain regions and connections derived from the empirical method, providing an alternative way to fuse multimodal brain networks and analyze clinical disease.
翻訳日:2023-09-29 15:49:22 公開日:2023-09-28
# Marathi- English Code-mixed Text Generation (英語)

Marathi-English Code-mixed Text Generation ( http://arxiv.org/abs/2309.16202v1 )

ライセンス: Link先を確認
Dhiraj Amin, Sharvari Govilkar, Sagar Kulkarni, Yash Shashikant Lalit, Arshi Ajaz Khwaja, Daries Xavier, Sahil Girijashankar Gupta(参考訳) コードミキシング(Code-mixing)は、異なる言語からの言語要素をブレンドして意味のある文を形成するもので、多言語設定で一般的であり、ヒングリッシュやミングリッシュのようなハイブリッド言語を生み出す。 インドで3番目に話される言語であるマラティー語は、精度と形式のために英語を統合することが多い。 Marathi-English (Minglish)のようなコード混合言語システムの開発は、リソース制約に直面している。 本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。 2987のコードミックス質問では、平均CMIは0.2、平均DCMは7.4で、有効で理解可能なコードミックス文を示している。 これらの結果は、多言語社会における言語的ギャップを埋める、強化されたNLPツールの可能性をもたらす。

Code-mixing, the blending of linguistic elements from distinct languages to form meaningful sentences, is common in multilingual settings, yielding hybrid languages like Hinglish and Minglish. Marathi, India's third most spoken language, often integrates English for precision and formality. Developing code-mixed language systems, like Marathi-English (Minglish), faces resource constraints. This research introduces a Marathi-English code-mixed text generation algorithm, assessed with Code Mixing Index (CMI) and Degree of Code Mixing (DCM) metrics. Across 2987 code-mixed questions, it achieved an average CMI of 0.2 and an average DCM of 7.4, indicating effective and comprehensible code-mixed sentences. These results offer potential for enhanced NLP tools, bridging linguistic gaps in multilingual societies.
翻訳日:2023-09-29 15:48:51 公開日:2023-09-28
# MOON:教育ノートのシナリオを補完する学生を支援する

MOON: Assisting Students in Completing Educational Notebook Scenarios ( http://arxiv.org/abs/2309.16201v1 )

ライセンス: Link先を確認
Christophe Casseau (LaBRI), Jean-R\'emy Falleri (LaBRI, IUF), Thomas Degueule (LaBRI), Xavier Blanc (LaBRI)(参考訳) jupyterノートブックは、教師が生徒にインタラクティブな実践セッションを提供するために、ますます採用されている。 ノートブックには、テキストの説明、マルチメディアコンテンツ、実行可能なコードを、実験と探索を促進する柔軟な実行モデルと組み合わせる機能など、多くの魅力的な機能がある。 しかし、この実行モデルは、生徒が教師の意図した実行順序に従わなければすぐに問題となり、学習を妨げる誤りや誤解を招く結果につながる可能性がある。 この悪影響に対処するため、教師は通常、生徒がノートの使い方について詳細な説明を書く。 しかし、デジタルメディアの利用は読書の効率を低下させ、文章による指示に準拠していることが知られており、ノートの誤用が頻発し、実践セッション中に学生が迷子になってしまう。 本稿では,この問題を解決すべく設計された新しいアプローチであるmoonを提案する。 中心となる考え方は、教師にスクリプトの形でノートブックの期待される使用を形式化し、このスクリプトを解釈して、ノートブックと対話しながらリアルタイムで視覚的な表示を学生に案内する言語を提供することである。 提案手法は,21人の学生を対象としたランダム化制御実験を用いて評価し,MOONが学生が意図したシナリオに順応するのに役立つことを示す。 追跡調査の結果,調査対象学生の約75%がMOONを有用あるいは有用とみなしていることがわかった。

Jupyter notebooks are increasingly being adopted by teachers to deliver interactive practical sessions to their students. Notebooks come with many attractive features, such as the ability to combine textual explanations, multimedia content, and executable code alongside a flexible execution model which encourages experimentation and exploration. However, this execution model can quickly become an issue when students do not follow the intended execution order of the teacher, leading to errors or misleading results that hinder their learning. To counter this adverse effect, teachers usually write detailed instructions about how students are expected to use the notebooks. Yet, the use of digital media is known to decrease reading efficiency and compliance with written instructions, resulting in frequent notebook misuse and students getting lost during practical sessions. In this article, we present a novel approach, MOON, designed to remedy this problem. The central idea is to provide teachers with a language that enables them to formalize the expected usage of their notebooks in the form of a script and to interpret this script to guide students with visual indications in real time while they interact with the notebooks. We evaluate our approach using a randomized controlled experiment involving 21 students, which shows that MOON helps students comply better with the intended scenario without hindering their ability to progress. Our follow-up user study shows that about 75% of the surveyed students perceived MOON as rather useful or very useful.
翻訳日:2023-09-29 15:48:35 公開日:2023-09-28
# マックススライス相互情報

Max-Sliced Mutual Information ( http://arxiv.org/abs/2309.16200v1 )

ライセンス: Link先を確認
Dor Tsur, Ziv Goldfeld and Kristjan Greenewald(参考訳) 高次元の確率変数間の依存性の定量化は、統計的学習と推論の中心である。 2つの古典的手法は正準相関解析(CCA)であり、これは元の変数の最大相関型を識別するものであり、シャノンの相互情報は高次依存を捉える普遍的依存度である。 しかし、cca は線形依存のみを考慮し、これは特定の応用には不十分である可能性があり、相互情報はしばしば高次元での計算/評価には役に立たない。 本研究は,最大スライシング相互情報(mSMI)と呼ばれるCCAのスケーラブルな情報理論の一般化という形で中間層を提案する。 mSMI は高次元変数の低次元射影間の最大相互情報と等しく、ガウスの場合 CCA に還元される。 データの複雑な依存関係をキャプチャすると同時に、高速な計算やサンプルからのスケーラブルな見積もることができる。 我々はmSMIがシャノンの相互情報(変分形式や独立性の識別など)の良好な構造特性を保っていることを示す。 次に、mSMIの統計的推定を行い、効率よく計算可能な神経推定器を提案し、それを非漸近誤差境界と結合する。 本稿では,mSMIの独立性テスト,多視点表現学習,アルゴリズムフェアネス,生成モデルなど,様々なタスクに対する有用性を示す実験を行う。 我々はmSMIが計算オーバーヘッドが少なく競合する手法より一貫して優れていることを観察する。

Quantifying the dependence between high-dimensional random variables is central to statistical learning and inference. Two classical methods are canonical correlation analysis (CCA), which identifies maximally correlated projected versions of the original variables, and Shannon's mutual information, which is a universal dependence measure that also captures high-order dependencies. However, CCA only accounts for linear dependence, which may be insufficient for certain applications, while mutual information is often infeasible to compute/estimate in high dimensions. This work proposes a middle ground in the form of a scalable information-theoretic generalization of CCA, termed max-sliced mutual information (mSMI). mSMI equals the maximal mutual information between low-dimensional projections of the high-dimensional variables, which reduces back to CCA in the Gaussian case. It enjoys the best of both worlds: capturing intricate dependencies in the data while being amenable to fast computation and scalable estimation from samples. We show that mSMI retains favorable structural properties of Shannon's mutual information, like variational forms and identification of independence. We then study statistical estimation of mSMI, propose an efficiently computable neural estimator, and couple it with formal non-asymptotic error bounds. We present experiments that demonstrate the utility of mSMI for several tasks, encompassing independence testing, multi-view representation learning, algorithmic fairness, and generative modeling. We observe that mSMI consistently outperforms competing methods with little-to-no computational overhead.
翻訳日:2023-09-29 15:48:11 公開日:2023-09-28
# ハニカム格子上の非エルミートフェルミオン超流動の理論:例外多様体とファンホーブ特異点の相互作用

Theory of Non-Hermitian Fermionic Superfluidity on a Honeycomb Lattice: Interplay between Exceptional Manifolds and Van Hove Singularity ( http://arxiv.org/abs/2309.16191v1 )

ライセンス: Link先を確認
Soma Takemori, Kazuki Yamamoto, Akihisa Koga(参考訳) ハニカム格子上のクーパー対の散逸による非エルミートフェルミオン超流動の研究を行い、複素値相互作用を持つ魅力的なハバードモデルの解析を行った。 注目すべきことに, 位相境界上のcuspにより異常に拡大した散逸誘起超流動相の出現を示す。 この非伝統的な位相遷移は、平衡に相反しないファン・ホーブ特異点と例外的な直線の間の相互作用から生じる。 さらに,無限小散逸は臨界点において非自明な超流動解を誘導することを示した。 この結果は、量子ガス顕微鏡を用いて特別な測定結果を後付けし、オープン量子系における例外多様体によって引き起こされる非エルミート多体物理学の理解の道を開くことにより、光解離法による超低温原子で試験することができる。

We study the non-Hermitian fermionic superfluidity subject to dissipation of Cooper pairs on a honeycomb lattice, for which we analyze the attractive Hubbard model with a complex-valued interaction. Remarkably, we demonstrate the emergence of the dissipation-induced superfluid phase that is anomalously enlarged by a cusp on the phase boundary. We find that this unconventional phase transition originates from the interplay between exceptional lines and van Hove singularity, which has no counterpart in equilibrium. Moreover, we demonstrate that the infinitesimal dissipation induces the nontrivial superfluid solution at the critical point. Our results can be tested in ultracold atoms with photoassociation techniques by postselcting special measurement outcomes with the use of quantum-gas microscopy and pave the way for understanding non-Hermitian many-body physics triggered by exceptional manifolds in open quantum systems.
翻訳日:2023-09-29 15:47:45 公開日:2023-09-28
# beyond reverse kl: 多様な分岐制約による直接選好最適化の一般化

Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints ( http://arxiv.org/abs/2309.16240v1 )

ライセンス: Link先を確認
Chaoqi Wang, Yibo Jiang, Chenghao Yang, Han Liu, Yuxin Chen(参考訳) 大規模言語モデル(LLM)の能力の増大は、人工知能の機会を高めるが、AIシステムの潜在的な誤用や効果的なAIアライメントの必要性など、安全性上の懸念を同時に増幅する。 Reinforcement Learning from Human Feedback (RLHF)は、AIアライメントへの有望な経路として登場したが、その複雑さと、別の報酬モデルへの依存により、課題が持ち上がった。 直接選好最適化(DPO)は代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 本稿では多種多様な分散制約を組み込んだDPOに対する一般化アプローチである$f$-DPOを提案する。 また,jensen-shannon divergence, forward kl divergences および $\alpha$-divergences を含むある種の$f$-divergences の下では,karush-kuhn-tucker条件に対処して,報酬と最適政策の複雑な関係も単純化できることを示した。 これにより、Bradley-Terryモデルにおける正規化定数を推定する必要がなくなり、報酬関数と最適ポリシーの間のトラクタブルマッピングが可能になる。 提案手法は,広範に分散した制約の下で,より効率的かつ教師付きなLLMを最適化する。 経験的に、これらの分岐を採用することで、アライメントのパフォーマンスと生成の多様性のバランスが保証される。 重要なことに、$f$-DPOは分散効率においてPPOベースの手法よりも優れており、分散制約は予測校正誤差(ECE)に直接影響する。

The increasing capabilities of large language models (LLMs) raise opportunities for artificial general intelligence but concurrently amplify safety concerns, such as potential misuse of AI systems, necessitating effective AI alignment. Reinforcement Learning from Human Feedback (RLHF) has emerged as a promising pathway towards AI alignment but brings forth challenges due to its complexity and dependence on a separate reward model. Direct Preference Optimization (DPO) has been proposed as an alternative, and it remains equivalent to RLHF under the reverse KL regularization constraint. This paper presents $f$-DPO, a generalized approach to DPO by incorporating diverse divergence constraints. We show that under certain $f$-divergences, including Jensen-Shannon divergence, forward KL divergences and $\alpha$-divergences, the complex relationship between the reward and optimal policy can also be simplified by addressing the Karush-Kuhn-Tucker conditions. This eliminates the need for estimating the normalizing constant in the Bradley-Terry model and enables a tractable mapping between the reward function and the optimal policy. Our approach optimizes LLMs to align with human preferences in a more efficient and supervised manner under a broad set of divergence constraints. Empirically, adopting these divergences ensures a balance between alignment performance and generation diversity. Importantly, $f$-DPO outperforms PPO-based methods in divergence efficiency, and divergence constraints directly influence expected calibration error (ECE).
翻訳日:2023-09-29 15:41:40 公開日:2023-09-28
# 物体運動ガイドによる人体動作合成

Object Motion Guided Human Motion Synthesis ( http://arxiv.org/abs/2309.16237v1 )

ライセンス: Link先を確認
Jiaman Li, Jiajun Wu, C. Karen Liu(参考訳) コンテキスト環境における人間の振る舞いのモデリングは、キャラクターアニメーション、具体化されたAI、VR/AR、ロボット工学に幅広い応用がある。 現実のシナリオでは、人間は環境と頻繁に対話し、日々のタスクを完了するために様々な物体を操作する。 本研究では,大型物体の操作における人体運動合成の問題点について検討する。 対象運動のみから全体操作動作を生成する条件拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。 OMOMOは手と物体間の接触制約を正確に強制することができないため、まず手の位置を物体の動きから予測し、次に予測された手の位置に基づいて全身のポーズを合成する2つの別々の分極過程を学習する。 2つの発声過程間の中間表現として手の位置を使用することで、接触制約を明示的に強制し、より物理的に妥当な操作動作をもたらすことができる。 学習モデルを用いて,スマートフォンを操作対象物に装着するだけで,全身の人間の操作動作をキャプチャするシステムを開発した。 広範な実験を通じて,提案するパイプラインの有効性と,未知のオブジェクトに一般化する能力を示す。 さらに、高品質な人間と物体の相互作用データセットが不足しているため、3次元オブジェクト形状、物体の動き、人間の動きからなる大規模なデータセットを収集する。 データセットには15個のオブジェクトに対する人間と物体の相互作用動作が含まれており、総時間はおよそ10時間である。

Modeling human behaviors in contextual environments has a wide range of applications in character animation, embodied AI, VR/AR, and robotics. In real-world scenarios, humans frequently interact with the environment and manipulate various objects to complete daily tasks. In this work, we study the problem of full-body human motion synthesis for the manipulation of large-sized objects. We propose Object MOtion guided human MOtion synthesis (OMOMO), a conditional diffusion framework that can generate full-body manipulation behaviors from only the object motion. Since naively applying diffusion models fails to precisely enforce contact constraints between the hands and the object, OMOMO learns two separate denoising processes to first predict hand positions from object motion and subsequently synthesize full-body poses based on the predicted hand positions. By employing the hand positions as an intermediate representation between the two denoising processes, we can explicitly enforce contact constraints, resulting in more physically plausible manipulation motions. With the learned model, we develop a novel system that captures full-body human manipulation motions by simply attaching a smartphone to the object being manipulated. Through extensive experiments, we demonstrate the effectiveness of our proposed pipeline and its ability to generalize to unseen objects. Additionally, as high-quality human-object interaction datasets are scarce, we collect a large-scale dataset consisting of 3D object geometry, object motion, and human motion. Our dataset contains human-object interaction motion for 15 objects, with a total duration of approximately 10 hours.
翻訳日:2023-09-29 15:41:08 公開日:2023-09-28
# 分子発見における言語モデル

Language models in molecular discovery ( http://arxiv.org/abs/2309.16235v1 )

ライセンス: Link先を確認
Nikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born(参考訳) 言語モデル、特にトランスフォーマーベースのアーキテクチャの成功は、小さな分子、タンパク質またはポリマーで機能する「科学的言語モデル」を生んだ他のドメインに波及した。 化学において、言語モデル(英: language model)は、初期の創薬における最近の発見が示すように、分子発見サイクルの加速に寄与する。 本稿では, 分子発見における言語モデルの役割を概観し, 薬物設計, 特性予測, 反応化学におけるその強みを概説する。 我々は、貴重なオープンソースソフトウェア資産を強調し、科学言語モデリングの分野への参入障壁を低くする。 最後に、チャットボットインターフェースと計算化学ツールへのアクセスを組み合わせた将来の分子設計のビジョンをスケッチする。 私たちの貢献は、研究者、化学者、AI愛好家にとって、言語モデルがどのようにして化学発見を加速するかを理解するための貴重なリソースとして役立ちます。

The success of language models, especially transformer-based architectures, has trickled into other domains giving rise to "scientific language models" that operate on small molecules, proteins or polymers. In chemistry, language models contribute to accelerating the molecule discovery cycle as evidenced by promising recent findings in early-stage drug discovery. Here, we review the role of language models in molecular discovery, underlining their strength in de novo drug design, property prediction and reaction chemistry. We highlight valuable open-source software assets thus lowering the entry barrier to the field of scientific language modeling. Last, we sketch a vision for future molecular design that combines a chatbot interface with access to computational chemistry tools. Our contribution serves as a valuable resource for researchers, chemists, and AI enthusiasts interested in understanding how language models can and will be used to accelerate chemical discovery.
翻訳日:2023-09-29 15:40:43 公開日:2023-09-28
# 政治図をリアルタイムで分析する: 感情分析にYouTubeメタデータを活用する

Analyzing Political Figures in Real-Time: Leveraging YouTube Metadata for Sentiment Analysis ( http://arxiv.org/abs/2309.16234v1 )

ライセンス: Link先を確認
Danendra Athallariq Harya Putra and Arief Purnama Muharram(参考訳) YouTubeビデオメタデータのビッグデータを用いた感情分析を行い、政党を代表する様々な政治的人物の世論を分析する。 これはYouTubeが、さまざまな政治的人物の意見を含め、人々が自身を表現するためのプラットフォームになったためである。 結果として生じる感情分析は、政治幹部が大衆の感情を理解し、適切な効果的な政治戦略を開発するのに役立つ。 本研究の目的は,youtubeビデオメタデータを活用した感情分析システムの構築である。 感情分析システムは、ビッグデータ処理にはApache Kafka、Apache PySpark、Hadoop、ディープラーニング処理にはTensorFlow、サーバへのデプロイメントにはFastAPIを使用して構築された。 本研究で使用されるyoutubeビデオメタデータはビデオ記述である。 感情分析モデルはLSTMアルゴリズムを用いて構築され、ポジティブとネガティブの2種類の感情を生成する。 感情分析の結果は、シンプルなwebベースのダッシュボード形式で視覚化される。

Sentiment analysis using big data from YouTube videos metadata can be conducted to analyze public opinions on various political figures who represent political parties. This is possible because YouTube has become one of the platforms for people to express themselves, including their opinions on various political figures. The resulting sentiment analysis can be useful for political executives to gain an understanding of public sentiment and develop appropriate and effective political strategies. This study aimed to build a sentiment analysis system leveraging YouTube videos metadata. The sentiment analysis system was built using Apache Kafka, Apache PySpark, and Hadoop for big data handling; TensorFlow for deep learning handling; and FastAPI for deployment on the server. The YouTube videos metadata used in this study is the video description. The sentiment analysis model was built using LSTM algorithm and produces two types of sentiments: positive and negative sentiments. The sentiment analysis results are then visualized in the form a simple web-based dashboard.
翻訳日:2023-09-29 15:40:28 公開日:2023-09-28
# 残差記憶変換器を用いた可制御テキスト生成

Controllable Text Generation with Residual Memory Transformer ( http://arxiv.org/abs/2309.16231v1 )

ライセンス: Link先を確認
Hanqing Zhang, Sun Si, Haiming Wu, Dawei Song(参考訳) GPT3やChatGPTといった大規模因果言語モデル(CLM)は、テキスト生成において大きな成功を収めている。 しかし、柔軟性、制御粒度、生成効率のバランスを保ちながら、CLMの生成プロセスを制御することは、依然としてオープンな課題である。 本稿では,制御可能なテキスト生成(CTG)の代替として,任意の時間ステップでCLMの生成に付随する非侵襲的で軽量な制御プラグインを設計する。 提案する制御プラグイン,すなわちResidual Memory Transformer (RMT) は,任意の種類の制御条件を受け入れ,残学習パラダイムを通じてCLMと連携して,より柔軟で汎用的で効率的なCTGを実現するエンコーダデコーダを備えている。 各種制御タスクにおいて, 自動評価と人的評価の両面で, 広範囲な実験を行う。 その結果、RTTは最先端のアプローチよりも優れており、我々のアプローチの有効性と汎用性を証明している。

Large-scale Causal Language Models (CLMs), e.g., GPT3 and ChatGPT, have brought great success in text generation. However, it is still an open challenge to control the generation process of CLM while balancing flexibility, control granularity, and generation efficiency. In this paper, we provide a new alternative for controllable text generation (CTG), by designing a non-intrusive, lightweight control plugin to accompany the generation of CLM at arbitrary time steps. The proposed control plugin, namely Residual Memory Transformer (RMT), has an encoder-decoder setup, which can accept any types of control conditions and cooperate with CLM through a residual learning paradigm, to achieve a more flexible, general, and efficient CTG. Extensive experiments are carried out on various control tasks, in the form of both automatic and human evaluations. The results show the superiority of RMT over a range of state-of-the-art approaches, proving the effectiveness and versatility of our approach.
翻訳日:2023-09-29 15:40:15 公開日:2023-09-28
# Brand Network Booster: ブランド接続性を改善する新システム

Brand Network Booster: A New System for Improving Brand Connectivity ( http://arxiv.org/abs/2309.16228v1 )

ライセンス: Link先を確認
J. Cancellieri, W. Didimo, A. Fronzetti Colladon, F. Montecchiani(参考訳) 本稿では,ブランドイメージの探索と接続性向上のための洞察を提供するために,意味ネットワークの詳細な分析を行うための新たな意思決定支援システムを提案する。 ネットワーク分析の観点では、敵ノード, 制約付き予算, 重み付きネットワークを考慮し、リンクの追加や既存の接続の重み付けによって接続性の向上を図ることを含む、最大相互性改善問題の拡張版を解くことにより、この目標が達成されることを示す。 本稿では,2つのケーススタディとともに,その性能について論じる。 当社のツールとアプローチは,ネットワーク研究者にとっても,マーケティングおよびコミュニケーションマネージャの戦略的意思決定プロセスを支援する上でも有用である。

This paper presents a new decision support system offered for an in-depth analysis of semantic networks, which can provide insights for a better exploration of a brand's image and the improvement of its connectivity. In terms of network analysis, we show that this goal is achieved by solving an extended version of the Maximum Betweenness Improvement problem, which includes the possibility of considering adversarial nodes, constrained budgets, and weighted networks - where connectivity improvement can be obtained by adding links or increasing the weight of existing connections. We present this new system together with two case studies, also discussing its performance. Our tool and approach are useful both for network scholars and for supporting the strategic decision-making processes of marketing and communication managers.
翻訳日:2023-09-29 15:39:54 公開日:2023-09-28
# GInX-Eval: グラフニューラルネットワーク説明の分布内評価に向けて

GInX-Eval: Towards In-Distribution Evaluation of Graph Neural Network Explanations ( http://arxiv.org/abs/2309.16223v1 )

ライセンス: Link先を確認
Kenza Amara and Mennatallah El-Assady and Rex Ying(参考訳) グラフニューラルネットワーク(gnn)の多様な説明可能性手法が最近開発され、モデルの予測に最も寄与するグラフのエッジとノードを強調している。 しかし、それが人間かモデルかに関わらず、これらの説明の正確性を評価する方法はまだ明確ではない。 現在の評価手順における非対応ボトルネックの1つは、分布がトレーニングデータと異なる分散説明の問題である。 この重要な問題は、人気のある忠実度や忠実度スコアなど、既存の評価指標に影響する。 本稿では,忠実度指標の限界について述べる。 GInX-Eval (Graph In-Distribution eXplanation Evaluation) は,忠実性の落とし穴を克服し,説明可能性に関する新たな知見を提供するグラフ説明の評価手法である。 再トレーニング戦略を用いて、ginxスコアはモデルの有益なエッジ数を測定し、edgerankスコアはその重要度によって説明されたエッジが正しく順序付けされているかどうかを評価する。 GInX-Eval は、GNN モデルに接地真実の説明が指示されるかどうかを検証する。 さらに,グラデーションに基づく手法を含む多くの一般的な手法が,エッジのランダムな指定よりも優れた説明を重要な部分グラフとして生成し,現在の研究成果に異議を唱えることを示した。 GInX-Evalの結果は複数のデータセット間で一致しており、人間の評価と一致している。

Diverse explainability methods of graph neural networks (GNN) have recently been developed to highlight the edges and nodes in the graph that contribute the most to the model predictions. However, it is not clear yet how to evaluate the correctness of those explanations, whether it is from a human or a model perspective. One unaddressed bottleneck in the current evaluation procedure is the problem of out-of-distribution explanations, whose distribution differs from those of the training data. This important issue affects existing evaluation metrics such as the popular faithfulness or fidelity score. In this paper, we show the limitations of faithfulness metrics. We propose GInX-Eval (Graph In-distribution eXplanation Evaluation), an evaluation procedure of graph explanations that overcomes the pitfalls of faithfulness and offers new insights on explainability methods. Using a retraining strategy, the GInX score measures how informative removed edges are for the model and the EdgeRank score evaluates if explanatory edges are correctly ordered by their importance. GInX-Eval verifies if ground-truth explanations are instructive to the GNN model. In addition, it shows that many popular methods, including gradient-based methods, produce explanations that are not better than a random designation of edges as important subgraphs, challenging the findings of current works in the area. Results with GInX-Eval are consistent across multiple datasets and align with human evaluation.
翻訳日:2023-09-29 15:39:41 公開日:2023-09-28
# 視覚的ポーズ推定を用いた市販ビンピッキングワークセル--world robot summit 2018 kittingタスクを事例として

Off-the-shelf bin picking workcell with visual pose estimation: A case study on the world robot summit 2018 kitting task ( http://arxiv.org/abs/2309.16221v1 )

ライセンス: Link先を確認
Frederik Hagelskj{\ae}r, Kasper H{\o}j Lorenzen and Dirk Kraft(参考訳) World Robot Summit 2018 Assembly Challengeには4つのタスクがあった。 ビンピッキング(bin-picking)が必要だったキットタスクは、最も少ないポイントが得られたタスクだった。 しかし、ビンピッキングはロボットのセットアップの柔軟性を大幅に向上させる重要なスキルであり、したがって重要な研究分野である。 近年,センサ技術とポーズ推定アルゴリズムが進歩している。 これらの進歩により、視覚的なポーズ推定を行う際のパフォーマンスが向上する。 本稿では,新しい視覚センサとポーズ推定アルゴリズムを用いて,ビン内のポーズ推定をうまく行うことができることを示す。 また,完全なビンピッキングを行うための力に基づく把持アプローチとともに,ビンピッキングのためのワークセルを実装した。 このセットは、world robot summit 2018 assembly challengeでテストされ、コンペティションのすべてのチームよりも高いスコアを獲得しました。 これは、現在の技術が以前の結果よりもずっと高いレベルでバイナリピッキングを実行できることを示している。

The World Robot Summit 2018 Assembly Challenge included four different tasks. The kitting task, which required bin-picking, was the task in which the fewest points were obtained. However, bin-picking is a vital skill that can significantly increase the flexibility of robotic set-ups, and is, therefore, an important research field. In recent years advancements have been made in sensor technology and pose estimation algorithms. These advancements allow for better performance when performing visual pose estimation. This paper shows that by utilizing new vision sensors and pose estimation algorithms pose estimation in bins can be performed successfully. We also implement a workcell for bin picking along with a force based grasping approach to perform the complete bin picking. Our set-up is tested on the World Robot Summit 2018 Assembly Challenge and successfully obtains a higher score compared with all teams at the competition. This demonstrate that current technology can perform bin-picking at a much higher level compared with previous results.
翻訳日:2023-09-29 15:39:18 公開日:2023-09-28
# chameleonsのアンマスキング - 医療用表データにおける分散検出のベンチマーク

Unmasking the Chameleons: A Benchmark for Out-of-Distribution Detection in Medical Tabular Data ( http://arxiv.org/abs/2309.16220v1 )

ライセンス: Link先を確認
Mohammad Azizmalayeri, Ameen Abu-Hanna, Giovanni Cin\'a(参考訳) その成功にもかかわらず、機械学習(ML)モデルは、トレーニング分布から派生していないデータに効果的に一般化しない。 現実の医療システムにMLモデルを確実に採用し、アウト・オブ・ディストリビューション(OOD)データの不正確な予測を避けるためには、OODサンプルを検出することが不可欠である。 他の分野、特にコンピュータビジョンにおいて、多くのOOD検出アプローチが提案されているが、医療表データを扱う際の課題が解決されるかどうかは不明である。 そこで本研究では,近距離OODと遠距離OODを含む一連のテストにおいて,様々な手法を比較した再現性ベンチマークを提案する。 我々のベンチマークでは、いくつかの病院で数十万人のICU患者を含む2つの公開データセットであるeICUとMIMIC-IVの最新バージョンを活用している。 我々は,MLP,ResNet,Transformerなど,様々な予測アーキテクチャにまたがる多種多様な密度ベース手法とSOTAポストホック検出器を検討する。 私たちの発見は 一 遠方のOODについては解決されたものの、近方のOODについては未解決のままである。 二 ポストホック法だけでは、性能が良くないが、距離に基づく機構と組み合わせて、大幅に改善する。 三 トランスフォーマーアーキテクチャは、MPPやResNetに比べてはるかに信頼性が低い。

Despite their success, Machine Learning (ML) models do not generalize effectively to data not originating from the training distribution. To reliably employ ML models in real-world healthcare systems and avoid inaccurate predictions on out-of-distribution (OOD) data, it is crucial to detect OOD samples. Numerous OOD detection approaches have been suggested in other fields - especially in computer vision - but it remains unclear whether the challenge is resolved when dealing with medical tabular data. To answer this pressing need, we propose an extensive reproducible benchmark to compare different methods across a suite of tests including both near and far OODs. Our benchmark leverages the latest versions of eICU and MIMIC-IV, two public datasets encompassing tens of thousands of ICU patients in several hospitals. We consider a wide array of density-based methods and SOTA post-hoc detectors across diverse predictive architectures, including MLP, ResNet, and Transformer. Our findings show that i) the problem appears to be solved for far-OODs, but remains open for near-OODs; ii) post-hoc methods alone perform poorly, but improve substantially when coupled with distance-based mechanisms; iii) the transformer architecture is far less overconfident compared to MLP and ResNet.
翻訳日:2023-09-29 15:39:03 公開日:2023-09-28
# GAFlow:ガウスの注意を光フローに組み込む

GAFlow: Incorporating Gaussian Attention into Optical Flow ( http://arxiv.org/abs/2309.16217v1 )

ライセンス: Link先を確認
Ao Luo, Fan Yang, Xin Li, Lang Nie, Chunyu Lin, Haoqiang Fan, Shuaicheng Liu(参考訳) 光の流れ、または画像列からの運動場の推定は、コンピュータビジョンの基本的な問題の一つである。 同じカテゴリの一貫した表現の実現を目指すほとんどのピクセル単位でのタスクとは異なり、光学フローは局所的な識別と滑らかさを得るための追加の要求を提起するが、既存のアプローチでは十分に検討されていない。 本稿では,gaussian attention (ga) を光フローモデルに押し込み,表現学習中の局所的性質を強調し,マッチング時の運動親和性を強制する。 具体的には,既存の変圧器ブロックに容易に接続できる新しいガウス拘束層(gcl)を導入し,細粒度構造情報を含む近傍を強調する。 さらに, 信頼度の高い動き解析のために, ガウス分布から本能的に回転する性質を継承するだけでなく, 文脈的関連領域に着目した新たなガウス的注意モジュール (ggam) を提案する。 完全装備モデルであるgaussian attention flow network(gaflow)は,従来の光学フローフレームワークに自然に一連の新しいガウス型モジュールを組み込んで,信頼性の高い動作解析を行う。 標準光学フローデータセットの広範な実験は、一般化能力評価とオンラインベンチマークテストの両方の観点から提案手法の例外的な性能を一貫して実証している。 コードはhttps://github.com/LA30/GAFlow.comで入手できる。

Optical flow, or the estimation of motion fields from image sequences, is one of the fundamental problems in computer vision. Unlike most pixel-wise tasks that aim at achieving consistent representations of the same category, optical flow raises extra demands for obtaining local discrimination and smoothness, which yet is not fully explored by existing approaches. In this paper, we push Gaussian Attention (GA) into the optical flow models to accentuate local properties during representation learning and enforce the motion affinity during matching. Specifically, we introduce a novel Gaussian-Constrained Layer (GCL) which can be easily plugged into existing Transformer blocks to highlight the local neighborhood that contains fine-grained structural information. Moreover, for reliable motion analysis, we provide a new Gaussian-Guided Attention Module (GGAM) which not only inherits properties from Gaussian distribution to instinctively revolve around the neighbor fields of each point but also is empowered to put the emphasis on contextually related regions during matching. Our fully-equipped model, namely Gaussian Attention Flow network (GAFlow), naturally incorporates a series of novel Gaussian-based modules into the conventional optical flow framework for reliable motion analysis. Extensive experiments on standard optical flow datasets consistently demonstrate the exceptional performance of the proposed approach in terms of both generalization ability evaluation and online benchmark testing. Code is available at https://github.com/LA30/GAFlow.
翻訳日:2023-09-29 15:38:42 公開日:2023-09-28
# GAMMA:Articulated Objectsの一般化可能なArticulation ModelとManipulation

GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects ( http://arxiv.org/abs/2309.16264v1 )

ライセンス: Link先を確認
Qiaojun Yu, Junbo Wang, Wenhai Liu, Ce Hao, Liu Liu, Lin Shao, Weiming Wang and Cewu Lu(参考訳) キャビネットやドアなどの人工物は日常生活に広く普及している。 しかし, 3次元関節オブジェクトを直接操作することは, 幾何学的形状, 意味的カテゴリ, 運動論的制約が多様であるため, 困難である。 先行研究は主に特定の関節型を持つ関節オブジェクトの認識と操作に焦点を当てた。 ジョイントパラメータを推定するか、軌道計画を容易にする適切な把持姿勢を区別するかのどちらかである。 これらのアプローチは、特定の種類の明瞭なオブジェクトに成功しているが、見つからないオブジェクトに対する一般化性に欠けており、より広いシナリオでのアプリケーションを大幅に妨げている。 本稿では,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデリングとポーズの相性の両方を学習するGAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の枠組みを提案する。 さらに、ガンマは適応操作を採用し、モデリングエラーを反復的に低減し、操作性能を向上させる。 我々は,partnet-mobilityデータセットを用いてガンマを訓練し,サピエンシミュレーションと実世界のフランカロボットアームを用いた総合実験により評価する。 その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。 最終バージョンでは、シミュレーションと実際のロボットの両方で、すべてのコードとデータセットをオープンソース化します。 画像とビデオはプロジェクトのwebサイトで公開される。 http://sites.google.com/view/gamma-articulation

Articulated objects like cabinets and doors are widespread in daily life. However, directly manipulating 3D articulated objects is challenging because they have diverse geometrical shapes, semantic categories, and kinetic constraints. Prior works mostly focused on recognizing and manipulating articulated objects with specific joint types. They can either estimate the joint parameters or distinguish suitable grasp poses to facilitate trajectory planning. Although these approaches have succeeded in certain types of articulated objects, they lack generalizability to unseen objects, which significantly impedes their application in broader scenarios. In this paper, we propose a novel framework of Generalizable Articulation Modeling and Manipulating for Articulated Objects (GAMMA), which learns both articulation modeling and grasp pose affordance from diverse articulated objects with different categories. In addition, GAMMA adopts adaptive manipulation to iteratively reduce the modeling errors and enhance manipulation performance. We train GAMMA with the PartNet-Mobility dataset and evaluate with comprehensive experiments in SAPIEN simulation and real-world Franka robot arms. Results show that GAMMA significantly outperforms SOTA articulation modeling and manipulation algorithms in unseen and cross-category articulated objects. We will open-source all codes and datasets in both simulation and real robots for reproduction in the final version. Images and videos are published on the project website at: http://sites.google.com/view/gamma-articulation
翻訳日:2023-09-29 15:31:41 公開日:2023-09-28
# マルチエージェントシステムにおける協調ダイナミクス:平均場平衡によるゲーム理論シナリオの探索

Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria ( http://arxiv.org/abs/2309.16263v1 )

ライセンス: Link先を確認
Vaigarai Sathi, Sabahat Shaik, Jaswanth Nidamanuri(参考訳) 協調はマルチエージェントシステム(MAS)とマルチエージェント強化学習(MARL)において基本的であり、エージェントは個々の利得と集団報酬のバランスを取る必要がある。 本稿では,ゲーム理論的なシナリオ,すなわち囚人のジレンマにおいて,エージェントが個人的および集団的結果の両方を最適化する戦略を検討することを目的としている。 既存の協調戦略は、繰り返しゲームにおけるグループ指向行動の促進に有効である。 グループ報酬を奨励する修正は、分散システムで見られる現実のジレンマに対処し、より高い個人の利益をもたらす。 この研究は、従来の計算と平衡決定が難しい、指数関数的に増加するエージェント集団(n \longrightarrow +\infty$)のシナリオにまで及んでいる。 平均場ゲーム理論を利用して、繰り返しゲーム中の無限大エージェント集合に対して平衡解と報酬構造が確立される。 最後に,Multi Agent-Posthumous Credit Assignment Trainerを用いてシミュレーションを行い,シミュレーションアルゴリズムを適用し,グループ報酬に協力するシナリオを作成する。 これらの実践的な実装は、理論概念を現実世界の応用で橋渡しする。

Cooperation is fundamental in Multi-Agent Systems (MAS) and Multi-Agent Reinforcement Learning (MARL), often requiring agents to balance individual gains with collective rewards. In this regard, this paper aims to investigate strategies to invoke cooperation in game-theoretic scenarios, namely the Iterated Prisoner's Dilemma, where agents must optimize both individual and group outcomes. Existing cooperative strategies are analyzed for their effectiveness in promoting group-oriented behavior in repeated games. Modifications are proposed where encouraging group rewards will also result in a higher individual gain, addressing real-world dilemmas seen in distributed systems. The study extends to scenarios with exponentially growing agent populations ($N \longrightarrow +\infty$), where traditional computation and equilibrium determination are challenging. Leveraging mean-field game theory, equilibrium solutions and reward structures are established for infinitely large agent sets in repeated games. Finally, practical insights are offered through simulations using the Multi Agent-Posthumous Credit Assignment trainer, and the paper explores adapting simulation algorithms to create scenarios favoring cooperation for group rewards. These practical implementations bridge theoretical concepts with real-world applications.
翻訳日:2023-09-29 15:31:20 公開日:2023-09-28
# schr\"odingerizationによる拡張定理と微分方程式の量子シミュレーションへの応用

Dilation theorem via Schr\"odingerisation, with applications to the quantum simulation of differential equations ( http://arxiv.org/abs/2309.16262v1 )

ライセンス: Link先を確認
Junpeng Hu, Shi Jin, Nana Liu, Lei Zhang(参考訳) 作用素論におけるナギーのユニタリ拡張定理は、収縮をユニタリ作用素に拡張する可能性を主張する。 量子コンピューティングで使用される場合、その実装は主に有限次元シナリオに基づくブロックエンコーディング技術に依存している。 本研究では,最近考案したschr\"odingerizationアプローチを考察し,代替拡張手法としての有効性を実証する。 このアプローチは、特に線型常微分方程式や偏微分方程式の解法において広範に応用される$V(t)=\exp(-At)$の形で作用素に適用できる。 重要なことに、schr\"odingerization のアプローチは可算領域と可算領域の両方において有限次元と無限次元の両方に適応できる。 無限次元ヒルベルト空間にある量子系の場合、ダイレーションは単一の無限次元モードを追加することを含み、これはアナログ量子コンピューティングに適合するシュル・オジンジェライゼーション手順の連続可変版である。 さらに、連続変数を判別することにより、量子ビットベースの量子コンピューティングに適した有限次元のシナリオにも有効に利用することができる。

Nagy's unitary dilation theorem in operator theory asserts the possibility of dilating a contraction into a unitary operator. When used in quantum computing, its practical implementation primarily relies on block-encoding techniques, based on finite-dimensional scenarios. In this study, we delve into the recently devised Schr\"odingerisation approach and demonstrate its viability as an alternative dilation technique. This approach is applicable to operators in the form of $V(t)=\exp(-At)$, which arises in wide-ranging applications, particularly in solving linear ordinary and partial differential equations. Importantly, the Schr\"odingerisation approach is adaptable to both finite and infinite-dimensional cases, in both countable and uncountable domains. For quantum systems lying in infinite dimensional Hilbert space, the dilation involves adding a single infinite dimensional mode, and this is the continuous-variable version of the Schr\"odingerisation procedure which makes it suitable for analog quantum computing. Furthermore, by discretising continuous variables, the Schr\"odingerisation method can also be effectively employed in finite-dimensional scenarios suitable for qubit-based quantum computing.
翻訳日:2023-09-29 15:30:58 公開日:2023-09-28
# QonFusion -- ガウス確率変数への量子的アプローチ:安定拡散とブラウン運動への応用

QonFusion -- Quantum Approaches to Gaussian Random Variables: Applications in Stable Diffusion and Brownian Motion ( http://arxiv.org/abs/2309.16258v1 )

ライセンス: Link先を確認
Shlomo Kashani(参考訳) 本研究では,非パラメトリック量子回路に着目したガウス確率変数(GRV)の生成戦略について述べる。 この量子中心のアプローチは、PyTorch の \textbf{torch.rand} 関数のような従来の擬似乱数生成器(PRNG)の代替となる。 本研究の主なテーマは,古典的な拡散モデルに量子ランダム数生成器(QRNG)を組み込むことである。 特に、量子ガウス確率変数生成器は、安定拡散 (sd) とブラウン運動 (bm) の両方のシミュレーションを容易にする2つの役割を果たす。 これはパラメトリック量子回路(PQC)を利用する一般的な方法とは大きく異なり、しばしば変分量子固有解法(VQE)と併用される。 従来の手法は複雑なシステムの基底状態を正確に近似したり、詳細な確率分布をモデル化するが、パラメータをチューニングするために計算的に要求される最適化プロセスが必要である。 我々の非パラメトリック戦略は、この必要性を損なう。 既存の計算フレームワークへの方法論の同化を容易にするため、我々は、pytorchとpennylaneの両方と共用するpythonライブラリであるqonfusionを、古典的な計算パラダイムと量子計算パラダイムの橋渡しとして機能させました。 我々は,ガウスサンプルの統計等価性を検証するテストを含む広範囲の統計試験により,量子的アプローチから古典的サンプルへのqonfusionの検証を行った。 QonFusion は \url{https://boltzmannentropy.github.io/qonfusion.github.io/} で入手できる。

In the present study, we delineate a strategy focused on non-parametric quantum circuits for the generation of Gaussian random variables (GRVs). This quantum-centric approach serves as a substitute for conventional pseudorandom number generators (PRNGs), such as the \textbf{torch.rand} function in PyTorch. The principal theme of our research is the incorporation of Quantum Random Number Generators (QRNGs) into classical models of diffusion. Notably, our Quantum Gaussian Random Variable Generator fulfills dual roles, facilitating simulations in both Stable Diffusion (SD) and Brownian Motion (BM). This diverges markedly from prevailing methods that utilize parametric quantum circuits (PQCs), often in conjunction with variational quantum eigensolvers (VQEs). Although conventional techniques can accurately approximate ground states in complex systems or model elaborate probability distributions, they require a computationally demanding optimization process to tune parameters. Our non-parametric strategy obviates this necessity. To facilitate assimilating our methodology into existing computational frameworks, we put forward QonFusion, a Python library congruent with both PyTorch and PennyLane, functioning as a bridge between classical and quantum computational paradigms. We validate QonFusion through extensive statistical testing, including tests which confirm the statistical equivalence of the Gaussian samples from our quantum approach to classical counterparts within defined significance limits. QonFusion is available at \url{https://boltzmannentropy.github.io/qonfusion.github.io/} to reproduce all findings here.
翻訳日:2023-09-29 15:30:38 公開日:2023-09-28
# CNN-transfer Learningアルゴリズムを用いた鶏卵の非破壊受精検出

Nondestructive chicken egg fertility detection using CNN-transfer learning algorithms ( http://arxiv.org/abs/2309.16257v1 )

ライセンス: Link先を確認
Shoffan Saifullah, Rafal Drezewski, Anton Yudhana, Andri Pranolo, Wilis Kaswijanti, Andiko Putro Suryotomo, Seno Aji Putra, Alin Khaliduzzaman, Anton Satria Prabuwono, Nathalie Japkowicz(参考訳) 本研究では,CNN-Transfer Learningの非破壊鶏卵受精検出への応用について検討した。 4つのモデル、vgg16、resnet50、inceptionnet、mobilenetを、拡張画像(回転、フリップ、スケール、翻訳、リフレクション)を用いてデータセット(200個の単一卵画像)で訓練し、評価した。 実験の結果, すべてのモデルが精度が高く, 鶏卵の肥育状態を正確に学習し, 分類する能力を示したが, 試験セットで評価すると, 精度と性能のばらつきが認められた。 インセプションネットは、受精卵と非受精卵を正確に分類し、最高の全体的な性能を示した。 評価メトリクスのすべてのパラメータにおいて、トレーニングとテストの両方において優れたパフォーマンスを示した。 テストセットでは0.98の精度、受精卵を検知する感度1の感度、不妊卵を識別する特異度0.96の精度を達成した。 高いパフォーマンスは、異なるスケールで効率的に機能をキャプチャすることで、精度とロバスト性が向上したユニークなアーキテクチャに起因する。 モデルのさらなる最適化と微調整は、他のモデルの場合、受精卵や不受精卵を正確に検出する際の限界に対処する必要があるかもしれない。 本研究は,CNN-Transfer Learningの非破壊的肥育検出の可能性を強調し,モデルの能力を高め,正確な分類を保証するためのさらなる研究の必要性を強調した。

This study explored the application of CNN-Transfer Learning for nondestructive chicken egg fertility detection for precision poultry hatchery practices. Four models, VGG16, ResNet50, InceptionNet, and MobileNet, were trained and evaluated on a dataset (200 single egg images) using augmented images (rotation, flip, scale, translation, and reflection). Although the training results demonstrated that all models achieved high accuracy, indicating their ability to accurately learn and classify chicken eggs' fertility state, when evaluated on the testing set, variations in accuracy and performance were observed. InceptionNet exhibited the best overall performance, accurately classifying fertile and non-fertile eggs. It demonstrated excellent performance in both training and testing sets in all parameters of the evaluation metrics. In testing set, it achieved an accuracy of 0.98, a sensitivity of 1 for detecting fertile eggs, and a specificity of 0.96 for identifying non-fertile eggs. The higher performance is attributed to its unique architecture efficiently capturing features at different scales leading to improved accuracy and robustness. Further optimization and fine-tuning of the models might necessary to address the limitations in accurately detecting fertile and non-fertile eggs in case of other models. This study highlighted the potential of CNN-Transfer Learning for nondestructive fertility detection and emphasizes the need for further research to enhance the models' capabilities and ensure accurate classification.
翻訳日:2023-09-29 15:30:10 公開日:2023-09-28
# 量子ハミルトニアンの低エネルギー状態としての密度サブ格子の発見について

On finding dense sub-lattices as low energy states of a quantum Hamiltonian ( http://arxiv.org/abs/2309.16256v1 )

ライセンス: Link先を確認
J\'ulia Barber\`a Rodr\'iguez, Nicolas Gama, Anand Kumar Narayanan, David Joseph(参考訳) 格子ベースの暗号は量子後暗号の最も顕著な候補の1つとして現れており、大規模なフォールトトレラント量子コンピュータの差し迫った脅威に対して安全であると予測されている。 最短ベクトル問題(SVP)は、与えられた格子の中で最短の非ゼロベクトルを見つけることである。 格子ベースの暗号の基本であり、量子コンピュータでも難しいと考えられている。 我々は、与えられた格子の最も密度の高い$K$-Densest Sub-lattice(K$-DSP)を求めるために、$K$-Densest Sub-lattice Problem(K$-DSP)として知られるSVPの自然な一般化を研究する。 我々は、k$-dspをz-バシスハミルトニアンの最初の励起状態を見つけると定式化し、k$-dspはグローバー探索、量子ギブスサンプリング、断熱、変分量子アルゴリズムを含む一連の量子アルゴリズムを通して調査することができる。 アルゴリズムの複雑さは、入力格子が提示される基礎に依存する。 任意の入力基底を量子アルゴリズムに適した入力に前処理する古典的な多項式時間アルゴリズムを提案する。 前処理では、$O(KN^2)$ qubitsが$N$の入力格子に対して$K$-DSPを解くのに十分であることを示す。 低次元の量子近似最適化アルゴリズム $k$-dsp ソルバの性能を実証し、良好な事前処理された入力ベースの影響を明らかにした。 次に、SVPに関する$K$-DSPの難しさについて議論し、$K$-DSP上にポスト量子暗号を構築する理由があるかどうかを確認する。 我々は、実行時指数$(5KN\log{N})/2$で$K$-DSPを解く量子アルゴリズムを考案した。 したがって、固定$K$の場合、$K$-DSP は SVP よりも多項式的に難しい。

Lattice-based cryptography has emerged as one of the most prominent candidates for post-quantum cryptography, projected to be secure against the imminent threat of large-scale fault-tolerant quantum computers. The Shortest Vector Problem (SVP) is to find the shortest non-zero vector in a given lattice. It is fundamental to lattice-based cryptography and believed to be hard even for quantum computers. We study a natural generalization of the SVP known as the $K$-Densest Sub-lattice Problem ($K$-DSP): to find the densest $K$-dimensional sub-lattice of a given lattice. We formulate $K$-DSP as finding the first excited state of a Z-basis Hamiltonian, making $K$-DSP amenable to investigation via an array of quantum algorithms, including Grover search, quantum Gibbs sampling, adiabatic, and Variational Quantum Algorithms. The complexity of the algorithms depends on the basis through which the input lattice is presented. We present a classical polynomial-time algorithm that takes an arbitrary input basis and preprocesses it into inputs suited to quantum algorithms. With preprocessing, we prove that $O(KN^2)$ qubits suffice for solving $K$-DSP for $N$ dimensional input lattices. We empirically demonstrate the performance of a Quantum Approximate Optimization Algorithm $K$-DSP solver for low dimensions, highlighting the influence of a good preprocessed input basis. We then discuss the hardness of $K$-DSP in relation to the SVP, to see if there is reason to build post-quantum cryptography on $K$-DSP. We devise a quantum algorithm that solves $K$-DSP with run-time exponent $(5KN\log{N})/2$. Therefore, for fixed $K$, $K$-DSP is no more than polynomially harder than the SVP.
翻訳日:2023-09-29 15:29:45 公開日:2023-09-28
# 完全インクリメンタルニューラルネットワーク依存構文解析の課題について

On the Challenges of Fully Incremental Neural Dependency Parsing ( http://arxiv.org/abs/2309.16254v1 )

ライセンス: Link先を確認
Ana Ezquerro, Carlos G\'omez-Rodr\'iguez, David Vilares(参考訳) BiLSTMやTransformerベースの双方向エンコーダの普及以来、最先端の構文解析器は、文全体にアクセスし、人間の言語処理から逸脱するインクリメンタル性を欠いている。 本稿では、最新のアーキテクチャと完全にインクリメンタルな依存関係解析が競合するかどうかを考察する。 完全インクリメンタルなシーケンスラベルとトランジッションベースのデコーダを組み合わせた,厳密な左から右のニューラルネットワークエンコーダを構築する。 その結果、現代のアーキテクチャによる完全な漸進的な解析は、双方向のパースにかなり遅れており、精神言語学的に妥当なパースという課題が指摘されている。

Since the popularization of BiLSTMs and Transformer-based bidirectional encoders, state-of-the-art syntactic parsers have lacked incrementality, requiring access to the whole sentence and deviating from human language processing. This paper explores whether fully incremental dependency parsing with modern architectures can be competitive. We build parsers combining strictly left-to-right neural encoders with fully incremental sequence-labeling and transition-based decoders. The results show that fully incremental parsing with modern architectures considerably lags behind bidirectional parsing, noting the challenges of psycholinguistically plausible parsing.
翻訳日:2023-09-29 15:29:11 公開日:2023-09-28
# FORB:Universal Image Embeddingのためのフラットオブジェクト検索ベンチマーク

FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding ( http://arxiv.org/abs/2309.16249v1 )

ライセンス: Link先を確認
Pengxiang Wu, Siman Wang, Kevin Dela Rosa, Derek Hao Hu(参考訳) 画像検索はコンピュータビジョンの基本的なタスクである。 この分野の最近の進歩にもかかわらず、限られた数のドメインで多くの技術が評価され、少数のインスタンスカテゴリがある。 特に、既存の作品の多くは3Dランドマークのような領域しか考慮していないため、ロゴやその他の2Dフラットオブジェクトのような他の領域にこれらの作品によってなされた結論を一般化することは困難である。 このギャップを埋めるために,様々なパターンのフラット画像に対して視覚的検索手法をベンチマークするための新しいデータセットを提案する。 我々のフラットオブジェクト検索ベンチマーク(FORB)は一般的に採用されている3Dオブジェクトドメインを補完し、さらに重要なことは、分布外領域への画像埋め込み品質を評価するテストベッドとして機能する。 本ベンチマークでは,提案手法の検索精度を候補ランクの観点で検討するとともに,多くの作品で無視されているスコアマージンの一致について検討する。 実験では,forbの課題と豊富な多様性を浮き彫りにするだけでなく,異なる検索戦略の隠れた特性を明らかにする。 提案するベンチマークは、増大するプロジェクトであり、数量とさまざまなオブジェクトの両方を広げることを期待しています。 データセットとサポートコードはhttps://github.com/pxiangwu/forb/で入手できる。

Image retrieval is a fundamental task in computer vision. Despite recent advances in this field, many techniques have been evaluated on a limited number of domains, with a small number of instance categories. Notably, most existing works only consider domains like 3D landmarks, making it difficult to generalize the conclusions made by these works to other domains, e.g., logo and other 2D flat objects. To bridge this gap, we introduce a new dataset for benchmarking visual search methods on flat images with diverse patterns. Our flat object retrieval benchmark (FORB) supplements the commonly adopted 3D object domain, and more importantly, it serves as a testbed for assessing the image embedding quality on out-of-distribution domains. In this benchmark we investigate the retrieval accuracy of representative methods in terms of candidate ranks, as well as matching score margin, a viewpoint which is largely ignored by many works. Our experiments not only highlight the challenges and rich heterogeneity of FORB, but also reveal the hidden properties of different retrieval strategies. The proposed benchmark is a growing project and we expect to expand in both quantity and variety of objects. The dataset and supporting codes are available at https://github.com/pxiangwu/FORB/.
翻訳日:2023-09-29 15:29:00 公開日:2023-09-28
# Spider4SPARQL:知識グラフ質問回答システム評価のための複雑なベンチマーク

Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph Question Answering Systems ( http://arxiv.org/abs/2309.16248v1 )

ライセンス: Link先を確認
Catherine Kosten, Philippe Cudr\'e-Mauroux, Kurt Stockinger(参考訳) 近年,Large Language Models(LLMs)の数が急増し,KBQAシステムを評価する上で,大規模かつ現実的なベンチマークを提供することがますます重要になっている。 これまでのベンチマークのほとんどは、パターンベースのSPARQLクエリ生成アプローチに依存しています。 その後の自然言語(NL)質問生成は、クラウドソーシングやルールベースのパラフレーズやNL質問テンプレートなどの自動化手法によって行われる。 これらのデータセットの中にはかなりの大きさのものもあるが、その落とし穴はパターンベースの世代アプローチにある。 本稿では,従来の9,693件のNL質問と4,721件のユニークな,斬新で複雑なSPARQLクエリを備えた,新しいSPARQLベンチマークデータセットであるSpider4SPARQLを紹介する。 nl/sparqlペアに加えて、対応する166のナレッジグラフと138の異なるドメインをカバーするオントロジーも提供しています。 我々の複雑なベンチマークは、現代のKGQAシステムの強みと弱みを評価する新しい方法を可能にする。 我々は,最先端の kgqa システムと llms を用いてシステム評価を行い,最大 45 % の実行精度を達成し,spider4sparql が今後の研究にとって困難なベンチマークであることを示す。

With the recent spike in the number and availability of Large Language Models (LLMs), it has become increasingly important to provide large and realistic benchmarks for evaluating Knowledge Graph Question Answering (KBQA) systems. So far the majority of benchmarks rely on pattern-based SPARQL query generation approaches. The subsequent natural language (NL) question generation is conducted through crowdsourcing or other automated methods, such as rule-based paraphrasing or NL question templates. Although some of these datasets are of considerable size, their pitfall lies in their pattern-based generation approaches, which do not always generalize well to the vague and linguistically diverse questions asked by humans in real-world contexts. In this paper, we introduce Spider4SPARQL - a new SPARQL benchmark dataset featuring 9,693 previously existing manually generated NL questions and 4,721 unique, novel, and complex SPARQL queries of varying complexity. In addition to the NL/SPARQL pairs, we also provide their corresponding 166 knowledge graphs and ontologies, which cover 138 different domains. Our complex benchmark enables novel ways of evaluating the strengths and weaknesses of modern KGQA systems. We evaluate the system with state-of-the-art KGQA systems as well as LLMs, which achieve only up to 45\% execution accuracy, demonstrating that Spider4SPARQL is a challenging benchmark for future research.
翻訳日:2023-09-29 15:28:38 公開日:2023-09-28
# 安定化器-GKP符号における局所更新回復の限界:量子最適輸送アプローチ

Limitations of local update recovery in stabilizer-GKP codes: a quantum optimal transport approach ( http://arxiv.org/abs/2309.16241v1 )

ライセンス: Link先を確認
Robert K\"onig and Cambyse Rouz\'e(参考訳) 局所的な更新回復は、ノイズの作用を交互に補正する局所補正マップを適用して量子情報を維持する。 有限次元設定における量子LDPC符号に基づく最近の構成により、GKP安定化器符号と局所更新回復のための耐故障しきい値の解析上界を確立する。 我々の境界は、任意の環境状態を持つ1モードビームスプリッターのテンソル生成物であるノイズチャネルに適用され、特に各モードで独立に発生する光子損失を捕捉する。 回復マップの局所性の関数として明示的に与えられる閾値を超える損失率に対して、符号化された情報は指数率で失われることを示す。 これはラズボロフによる初期結果を離散変数(cv)量子系へと拡張する。 この結果を証明するために,2つのCV密度関数間のワッサーシュタイン距離に類似したボゾン状態の計量について検討し,これをワッサーシュタイン距離と呼ぶ。 これは、最近デ・パルマらによって紹介された1次量子ワッサーシュタイン距離の CV 拡張(英語版) と考えることができ、これは CV 設定における局所性の概念を捉えているという意味で、クーディシステム(英語版)の文脈においてである。 有限平均光子数を持つ状態のトレース距離と直径境界との関係を含む、いくつかの基本的な性質を定式化する。 次に, 量子チャネルにおけるその収縮特性, テンソル化, 局所性, 厳密な収縮について検討した。 定式化の単純さと有限次元の応用性が確立されたことから、このボソニック・ワッサーシュタイン距離はCV量子系の研究において汎用的なツールとなると信じている。

Local update recovery seeks to maintain quantum information by applying local correction maps alternating with and compensating for the action of noise. Motivated by recent constructions based on quantum LDPC codes in the finite-dimensional setting, we establish an analytic upper bound on the fault-tolerance threshold for concatenated GKP-stabilizer codes with local update recovery. Our bound applies to noise channels that are tensor products of one-mode beamsplitters with arbitrary environment states, capturing, in particular, photon loss occurring independently in each mode. It shows that for loss rates above a threshold given explicitly as a function of the locality of the recovery maps, encoded information is lost at an exponential rate. This extends an early result by Razborov from discrete to continuous variable (CV) quantum systems. To prove our result, we study a metric on bosonic states akin to the Wasserstein distance between two CV density functions, which we call the bosonic Wasserstein distance. It can be thought of as a CV extension of a quantum Wasserstein distance of order 1 recently introduced by De Palma et al. in the context of qudit systems, in the sense that it captures the notion of locality in a CV setting. We establish several basic properties, including a relation to the trace distance and diameter bounds for states with finite average photon number. We then study its contraction properties under quantum channels, including tensorization, locality and strict contraction under beamsplitter-type noise channels. Due to the simplicity of its formulation, and the established wide applicability of its finite-dimensional counterpart, we believe that the bosonic Wasserstein distance will become a versatile tool in the study of CV quantum systems.
翻訳日:2023-09-29 15:28:14 公開日:2023-09-28
# DiLu: 大規模言語モデルによる自律運転のための知識駆動アプローチ

DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2309.16292v1 )

ライセンス: Link先を確認
Licheng Wen, Daocheng Fu, Xin Li, Xinyu Cai, Tao Ma, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yu Qiao(参考訳) 近年の自動運転の進歩は、広く採用されているデータ駆動アプローチに依存しているが、データセットのバイアス、過剰適合、解釈不能といった課題に直面している。 人間の運転の知識駆動性からインスピレーションを得た上で,このような機能を自律運転システムに組み込む方法について考察し,対話型環境とドライバエージェントと,この問題に対処するためのメモリコンポーネントを統合したパラダイムを要約する。 創発的能力を持つ大規模言語モデルを活用して,推論とリフレクションモジュールを組み合わせたdiluフレームワークを提案する。 大規模な実験により、DiLuは経験を蓄積し、強化学習に基づく手法よりも一般化能力において大きな優位性を示す。 さらに、DiLuは現実のデータセットから体験を直接取得することができ、実用的な自動運転システムにデプロイされる可能性を強調している。 私たちの知る限りでは、人間がどのように運転するかという観点から、私たちは初めて、自律運転システムに知識駆動能力を導入しました。

Recent advancements in autonomous driving have relied on data-driven approaches, which are widely adopted but face challenges including dataset bias, overfitting, and uninterpretability. Drawing inspiration from the knowledge-driven nature of human driving, we explore the question of how to instill similar capabilities into autonomous driving systems and summarize a paradigm that integrates an interactive environment, a driver agent, as well as a memory component to address this question. Leveraging large language models with emergent abilities, we propose the DiLu framework, which combines a Reasoning and a Reflection module to enable the system to perform decision-making based on common-sense knowledge and evolve continuously. Extensive experiments prove DiLu's capability to accumulate experience and demonstrate a significant advantage in generalization ability over reinforcement learning-based methods. Moreover, DiLu is able to directly acquire experiences from real-world datasets which highlights its potential to be deployed on practical autonomous driving systems. To the best of our knowledge, we are the first to instill knowledge-driven capability into autonomous driving systems from the perspective of how humans drive.
翻訳日:2023-09-29 15:21:55 公開日:2023-09-28
# rl法の効率分離:モデルフリー、モデルベース、ゴールコンディショニング

Efficiency Separation between RL Methods: Model-Free, Model-Based and Goal-Conditioned ( http://arxiv.org/abs/2309.16291v1 )

ライセンス: Link先を確認
Brieuc Pinon, Rapha\"el Jungers, Jean-Charles Delvenne(参考訳) 我々は,広範囲の強化学習(RL)アルゴリズムの効率性に対する基本的な制限を証明した。 この制限は、モデルフリーなrlメソッドだけでなく、木探索による計画のようなモデルベースメソッドにも適用される。 このクラスの抽象的な定義の下で、これらの手法が環境と相互作用して最適な振る舞いを見つけるために地平線において低い境界指数に悩まされるようなRL問題の族を提供する。 しかし、この特定の問題群に合わせたものではない方法があり、家族内の問題を効率的に解くことができる。 対照的に、我々の制限は、例えばゴール条件付き手法や逆ダイナミクスモデルを構成するアルゴリズムなど、文献で提案されているいくつかの手法には適用されない。

We prove a fundamental limitation on the efficiency of a wide class of Reinforcement Learning (RL) algorithms. This limitation applies to model-free RL methods as well as a broad range of model-based methods, such as planning with tree search. Under an abstract definition of this class, we provide a family of RL problems for which these methods suffer a lower bound exponential in the horizon for their interactions with the environment to find an optimal behavior. However, there exists a method, not tailored to this specific family of problems, which can efficiently solve the problems in the family. In contrast, our limitation does not apply to several types of methods proposed in the literature, for instance, goal-conditioned methods or other algorithms that construct an inverse dynamics model.
翻訳日:2023-09-29 15:21:37 公開日:2023-09-28
# lawbench: 大きな言語モデルの法的知識をベンチマークする

LawBench: Benchmarking Legal Knowledge of Large Language Models ( http://arxiv.org/abs/2309.16289v1 )

ライセンス: Link先を確認
Zhiwei Fei, Xiaoyu Shen, Dawei Zhu, Fengzhe Zhou, Zhuo Han, Songyang Zhang, Kai Chen, Zongwen Shen, Jidong Ge(参考訳) 大規模言語モデル(LLM)は様々な面で強力な能力を示している。 しかし、高度に専門化され、安全な法的領域に適用する際には、どの程度の法的知識を持ち、確実に法的関連業務を遂行できるかは明らかでない。 このギャップに対処するため,包括的評価ベンチマークLawBenchを提案する。 法ベンチは, 法的知識記憶: LLMが必要な法的概念, 記事, 事実を記憶できるかどうか, (2) 法的知識理解: LLMが法的テキストの中で存在, 出来事, 関係を理解できるかどうか, (3) 法的知識適用: LLMが法的知識を適切に活用し, 現実的な法的タスクを解決できるかどうか, という3つの認知レベルから, LLMの法的能力の正確な評価を慎重に行なっている。 LawBenchには、シングルラベル分類(SLC)、マルチラベル分類(MLC)、回帰、抽出、生成の5つのタスクタイプをカバーする20のタスクが含まれている。 我々はLawBench上で51のLLMを広範囲に評価し、20の多言語LLM、22の中国語LLM、9の法定LLMを含む。 以上の結果から, GPT-4 は法域内で最も優れた LLM であり, 両者の差は大きいことがわかった。 法的な特定のテキストに対する微調整 LLM は、いくつかの改善をもたらすが、法的なタスクで使用可能な信頼性の高い LLM を得るには、まだ長い道のりがある。 すべてのデータ、モデル予測、評価コードはhttps://github.com/open-compass/lawbench/でリリースされる。 このベンチマークは、LLMのドメイン特定能力を詳細に理解し、法的領域におけるLLMの開発を高速化することを願っている。

Large language models (LLMs) have demonstrated strong capabilities in various aspects. However, when applying them to the highly specialized, safe-critical legal domain, it is unclear how much legal knowledge they possess and whether they can reliably perform legal-related tasks. To address this gap, we propose a comprehensive evaluation benchmark LawBench. LawBench has been meticulously crafted to have precise assessment of the LLMs' legal capabilities from three cognitive levels: (1) Legal knowledge memorization: whether LLMs can memorize needed legal concepts, articles and facts; (2) Legal knowledge understanding: whether LLMs can comprehend entities, events and relationships within legal text; (3) Legal knowledge applying: whether LLMs can properly utilize their legal knowledge and make necessary reasoning steps to solve realistic legal tasks. LawBench contains 20 diverse tasks covering 5 task types: single-label classification (SLC), multi-label classification (MLC), regression, extraction and generation. We perform extensive evaluations of 51 LLMs on LawBench, including 20 multilingual LLMs, 22 Chinese-oriented LLMs and 9 legal specific LLMs. The results show that GPT-4 remains the best-performing LLM in the legal domain, surpassing the others by a significant margin. While fine-tuning LLMs on legal specific text brings certain improvements, we are still a long way from obtaining usable and reliable LLMs in legal tasks. All data, model predictions and evaluation code are released in https://github.com/open-compass/LawBench/. We hope this benchmark provides in-depth understanding of the LLMs' domain-specified capabilities and speed up the development of LLMs in the legal domain.
翻訳日:2023-09-29 15:21:23 公開日:2023-09-28
# 一般化可能な不均一フェデレーション相互相関と事例類似学習

Generalizable Heterogeneous Federated Cross-Correlation and Instance Similarity Learning ( http://arxiv.org/abs/2309.16286v1 )

ライセンス: Link先を確認
Wenke Huang, Mang Ye, Zekun Shi, Bo Du(参考訳) フェデレーション学習(federated learning)は,プライバシを保全するマルチパーティ学習パラダイムとして重要なものだ。 モデルの不均一性と破滅的忘れは、適用性と一般化性を大幅に制限する2つの重要な課題である。 本稿では,ドメイン内識別性とドメイン間一般化を両立させる新しいFCCL+,フェデレーション相関と非ターゲット蒸留との類似性学習を提案する。 不均質な問題に対して,我々は無関係な公開データを不均一な参加者間のコミュニケーションに活用する。 相互相関行列を構築し,ロジットと機能レベルの両方におけるインスタンス類似度分布を調整し,通信障壁を効果的に克服し,汎用性を向上させる。 局所的な更新段階における破滅的な忘れ物として、FCCL+は、ドメイン間の知識を維持しながら、最適化競合問題を避け、後続のクラス関係を描写することで、ドメイン間情報の蒸留を満載するフェデレート非ターゲット蒸留を導入した。 既存のヘテロジニアスフェデレート学習を同じ設定で評価するための標準ベンチマークが存在しないことを考慮し、4つのドメインシフトシナリオの下で広範囲な代表手法を備えた総合ベンチマークを提示し、ヘテロジニアスフェデレート設定と均質フェデレート設定の両方をサポートする。 実験により,提案手法の優位性と各種シナリオにおけるモジュールの効率性を示す。

Federated learning is an important privacy-preserving multi-party learning paradigm, involving collaborative learning with others and local updating on private data. Model heterogeneity and catastrophic forgetting are two crucial challenges, which greatly limit the applicability and generalizability. This paper presents a novel FCCL+, federated correlation and similarity learning with non-target distillation, facilitating the both intra-domain discriminability and inter-domain generalization. For heterogeneity issue, we leverage irrelevant unlabeled public data for communication between the heterogeneous participants. We construct cross-correlation matrix and align instance similarity distribution on both logits and feature levels, which effectively overcomes the communication barrier and improves the generalizable ability. For catastrophic forgetting in local updating stage, FCCL+ introduces Federated Non Target Distillation, which retains inter-domain knowledge while avoiding the optimization conflict issue, fulling distilling privileged inter-domain information through depicting posterior classes relation. Considering that there is no standard benchmark for evaluating existing heterogeneous federated learning under the same setting, we present a comprehensive benchmark with extensive representative methods under four domain shift scenarios, supporting both heterogeneous and homogeneous federated settings. Empirical results demonstrate the superiority of our method and the efficiency of modules on various scenarios.
翻訳日:2023-09-29 15:20:45 公開日:2023-09-28
# 変化キャプションのための自己監督型クロスビュー表現再構成

Self-supervised Cross-view Representation Reconstruction for Change Captioning ( http://arxiv.org/abs/2309.16283v1 )

ライセンス: Link先を確認
Yunbin Tu, Liang Li, Li Su, Zheng-Jun Zha, Chenggang Yan, Qingming Huang(参考訳) 変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。 その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。 本稿では,scorer(self-supervised cross-view representation reconstruction)ネットワークを提案する。 具体的には、まず、類似/異種画像からのクロスビュー特徴間の関係をモデル化するマルチヘッドトークンワイドマッチングを設計する。 次に、SCORERは、2つの類似画像の相互参照コントラストアライメントを最大化することにより、2つのビュー不変画像表現を自己監督的に学習する。 これらの結果に基づき、変化しないオブジェクトの表現を横断的アテンションで再構成し、キャプション生成のための安定した差分表現を学習する。 さらに,キャプションの品質を向上させるために,モーダルな後方推論を考案した。 このモジュールは逆に ``hallucination'' 表現をキャプションと ``before' 表現でモデル化する。 この表現を `after' 表現に近づけることで、自己指導的な方法での違いを知らせるようにキャプションを強制する。 広範な実験により、4つのデータセットで最新の結果が得られた。 コードはhttps://github.com/tuyunbin/SCORERで公開されている。

Change captioning aims to describe the difference between a pair of similar images. Its key challenge is how to learn a stable difference representation under pseudo changes caused by viewpoint change. In this paper, we address this by proposing a self-supervised cross-view representation reconstruction (SCORER) network. Concretely, we first design a multi-head token-wise matching to model relationships between cross-view features from similar/dissimilar images. Then, by maximizing cross-view contrastive alignment of two similar images, SCORER learns two view-invariant image representations in a self-supervised way. Based on these, we reconstruct the representations of unchanged objects by cross-attention, thus learning a stable difference representation for caption generation. Further, we devise a cross-modal backward reasoning to improve the quality of caption. This module reversely models a ``hallucination'' representation with the caption and ``before'' representation. By pushing it closer to the ``after'' representation, we enforce the caption to be informative about the difference in a self-supervised manner. Extensive experiments show our method achieves the state-of-the-art results on four datasets. The code is available at https://github.com/tuyunbin/SCORER.
翻訳日:2023-09-29 15:20:20 公開日:2023-09-28
# 弱い測定と見なされる量子共鳴

Quantum Resonance viewed as Weak Measurement ( http://arxiv.org/abs/2309.16281v1 )

ライセンス: Link先を確認
Daiki Ueda and Izumi Tsutsui(参考訳) 量子共鳴(quantum resonance)、すなわち特定の条件下で利用可能な遷移確率の増幅は、SI単位で採用される2番目の時間と、CP違反に直接関係する中性子の電気双極子モーメントを含む物理学の基本量を決定する強力な手段を提供する。 本稿では、Rabi共鳴とRamsey共鳴の2つの典型的な例を再検討し、これらがいずれも弱い値増幅であり、共鳴点付近では、感度におけるRamsey共鳴の既知の利点につながる測定強度を除いて、遷移確率の挙動が全く同じであることを示す。 逆にこれは、例えばラムゼー共鳴を通じて弱い値を測定することができることを示唆している。 実際、中性子電気双極子モーメントの以前の測定は、中性子のスピンの弱い値の想像上の成分を、中性子ビームによる従来の弱値測定よりも3桁の精度で決定した可能性がある。

Quantum resonance, i.e., amplification in transition probability available under certain conditions, offers a powerful means for determining fundamental quantities in physics, including the time duration of the second adopted in the SI units and neutron's electric dipole moment which is directly linked to CP violation. We revisit two of the typical examples, the Rabi resonance and the Ramsey resonance, and show that both of these represent the weak value amplification and that near the resonance points they share exactly the same behavior of transition probabilities except for the measurement strength whose difference leads to the known advantage of the Ramsey resonance in the sensitivity. Conversely, this suggests that the weak value may be measured, for instance, through the Ramsey resonance. In fact, we argue that previous measurements of neutron electric dipole moment have potentially determined the imaginary component of the weak value of the spin of neutrons with higher precision than the conventional weak value measurement via neutron beams by three orders of magnitude.
翻訳日:2023-09-29 15:19:59 公開日:2023-09-28
# UPB @ ACTI: 微調整文変換器による陰謀検出

UPB @ ACTI: Detecting Conspiracies using fine tuned Sentence Transformers ( http://arxiv.org/abs/2309.16275v1 )

ライセンス: Link先を確認
Andrei Paraschiv and Mihai Dascalu(参考訳) 陰謀論は、情報整合性や社会的信頼への挑戦を招き、オンライン談話の目立った、そして関連する側面となっている。 そこで我々は,acti @ evalita 2023 共有タスクによって提案された共謀理論の検出に対処した。 事前訓練された文変換モデルとデータ拡張技術を組み合わせることで、両方のサブタスクの最終リーダーボードにおいて、第1位を確保できる。 提案手法は,F1スコアが85.71%,F1スコアが91.23%,F1スコアが他の競合システムを上回った。

Conspiracy theories have become a prominent and concerning aspect of online discourse, posing challenges to information integrity and societal trust. As such, we address conspiracy theory detection as proposed by the ACTI @ EVALITA 2023 shared task. The combination of pre-trained sentence Transformer models and data augmentation techniques enabled us to secure first place in the final leaderboard of both sub-tasks. Our methodology attained F1 scores of 85.71% in the binary classification and 91.23% for the fine-grained conspiracy topic classification, surpassing other competing systems.
翻訳日:2023-09-29 15:19:41 公開日:2023-09-28
# 高次元データのためのペア・サンプル仮説検定の枠組み

A framework for paired-sample hypothesis testing for high-dimensional data ( http://arxiv.org/abs/2309.16274v1 )

ライセンス: Link先を確認
Ioannis Bargiotas, Argyris Kalogeratos, Nicolas Vayatis(参考訳) 多次元設定における標準的なペアサンプルテストアプローチは、個々の特徴に対して複数の単変量テストを適用し、p値調整を行う。 このようなアプローチは、データが多数の機能を持つ場合に悩まされる。 多くの研究で、分類精度が2サンプルテストのプロキシとして見られることが示されている。 しかし、この戦略を多次元のペア・サンプル・テストにまで拡張する方法に関する理論的基礎や実践的なレシピは提案されていない。 本研究では,各インスタンスを接続するラインセグメントの垂直二分割超平面によって定義される決定規則によってスコアリング関数が生成できる,という考え方を提唱する。 すると、最適スコアリング関数はこれらの規則の擬媒質によって得られ、ホッジス・リーマン推定器を自然に拡張することによって推定する。 そこで我々は,二段階テスト手順の枠組みを提案する。 まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。 ペアのサンプルは、この集約された規則によって得点され、一次元の表現を生成する。 第2に、得られた表現に対してウィルコクソン署名ランクテストを行う。 実験の結果,従来の多変量および多変量試験と比較して,本手法の精度は大幅に向上し,同時に各特徴が最終結果に寄与することを推定した。

The standard paired-sample testing approach in the multidimensional setting applies multiple univariate tests on the individual features, followed by p-value adjustments. Such an approach suffers when the data carry numerous features. A number of studies have shown that classification accuracy can be seen as a proxy for two-sample testing. However, neither theoretical foundations nor practical recipes have been proposed so far on how this strategy could be extended to multidimensional paired-sample testing. In this work, we put forward the idea that scoring functions can be produced by the decision rules defined by the perpendicular bisecting hyperplanes of the line segments connecting each pair of instances. Then, the optimal scoring function can be obtained by the pseudomedian of those rules, which we estimate by extending naturally the Hodges-Lehmann estimator. We accordingly propose a framework of a two-step testing procedure. First, we estimate the bisecting hyperplanes for each pair of instances and an aggregated rule derived through the Hodges-Lehmann estimator. The paired samples are scored by this aggregated rule to produce a unidimensional representation. Second, we perform a Wilcoxon signed-rank test on the obtained representation. Our experiments indicate that our approach has substantial performance gains in testing accuracy compared to the traditional multivariate and multiple testing, while at the same time estimates each feature's contribution to the final result.
翻訳日:2023-09-29 15:19:29 公開日:2023-09-28
# キャプションとしてのソーシャルメディアファッション知識抽出

Social Media Fashion Knowledge Extraction as Captioning ( http://arxiv.org/abs/2309.16270v1 )

ライセンス: Link先を確認
Yifei Yuan, Wenxuan Zhang, Yang Deng, and Wai Lam(参考訳) ソーシャルメディアはファッション産業の活性化に重要な役割を果たしており、毎日大量のファッション関連の投稿が生成される。 投稿から豊かなファッション情報を得るために,ソーシャルメディアのファッション知識抽出の課題について検討する。 ファッション知識は、通常、機会、人物属性、ファッションアイテム情報で構成され、タプルのセットとして効果的に表現することができる。 ファッション知識抽出に関するこれまでの研究のほとんどは、ソーシャルメディア投稿のリッチテキスト情報を考慮していないファッション製品イメージに基づいている。 ソーシャルメディアにおけるファッション知識抽出に関する既存の研究は分類に基づいており、事前にファッション知識カテゴリのセットを手動で決定する必要がある。 本研究では,マルチモーダルポスト情報のインタープレイをキャプチャするキャプション問題として,タスクをキャストすることを提案する。 具体的には,ファッション知識タプルを文変換法により自然言語キャプションに変換する。 このフレームワークは,ソーシャルメディア投稿から直接文ベースのファッション知識を生成することを目的としている。 事前学習モデルの大きな成功に触発されて,マルチモーダル事前学習モデルに基づいたモデルを構築し,知識抽出能力を向上させるための補助タスクをいくつか設計した。 タスクに直接借用可能な既存のデータセットは存在しないため、手動のファッション知識アノテーションを備えたソーシャルメディア投稿からなるデータセットを導入する。 本モデルの有効性を示すために広範な実験を行った。

Social media plays a significant role in boosting the fashion industry, where a massive amount of fashion-related posts are generated every day. In order to obtain the rich fashion information from the posts, we study the task of social media fashion knowledge extraction. Fashion knowledge, which typically consists of the occasion, person attributes, and fashion item information, can be effectively represented as a set of tuples. Most previous studies on fashion knowledge extraction are based on the fashion product images without considering the rich text information in social media posts. Existing work on fashion knowledge extraction in social media is classification-based and requires to manually determine a set of fashion knowledge categories in advance. In our work, we propose to cast the task as a captioning problem to capture the interplay of the multimodal post information. Specifically, we transform the fashion knowledge tuples into a natural language caption with a sentence transformation method. Our framework then aims to generate the sentence-based fashion knowledge directly from the social media post. Inspired by the big success of pre-trained models, we build our model based on a multimodal pre-trained generative model and design several auxiliary tasks for enhancing the knowledge extraction. Since there is no existing dataset which can be directly borrowed to our task, we introduce a dataset consisting of social media posts with manual fashion knowledge annotation. Extensive experiments are conducted to demonstrate the effectiveness of our model.
翻訳日:2023-09-29 15:19:07 公開日:2023-09-28
# B5Gネットワーク自動化のための階層型ネットワークデータ分析フレームワーク:設計と実装

Hierarchical Network Data Analytics Framework for B5G Network Automation: Design and Implementation ( http://arxiv.org/abs/2309.16269v1 )

ライセンス: Link先を確認
Youbin Jeon and Sangheon Pack(参考訳) 5Gは、より柔軟で柔軟な方法で新興サービスをサポートするために、モジュール化されたネットワーク機能(NF)を導入した。 このようなモジュール化NF管理の複雑さを軽減するためには、ネットワークの自動化と管理が不可欠であり、第3世代パートナーシッププロジェクト(3GPP)がネットワークデータ分析機能(NWDAF)を導入している。 しかし、従来のNWDAFでは、推論とトレーニングの両方を行なわなければならないため、分析要求の増加に対して、解析結果をタイムリーにNFに提供することは困難である。 本稿では,複数葉NWDAFに推論タスクを分散し,根元NWDAFでトレーニングタスクを行う階層型ネットワークデータ分析フレームワーク(H-NDAF)を提案する。 オープンソースソフトウェア(例えばfree5GC)を用いた大規模なシミュレーションの結果、H-NDAFは従来のNWDAFと比較して十分な正確な分析と分析提供時間を提供できることを示した。

5G introduced modularized network functions (NFs) to support emerging services in a more flexible and elastic manner. To mitigate the complexity in such modularized NF management, automated network operation and management are indispensable, and thus the 3rd generation partnership project (3GPP) has introduced a network data analytics function (NWDAF). However, a conventional NWDAF needs to conduct both inference and training tasks, and thus it is difficult to provide the analytics results to NFs in a timely manner for an increased number of analytics requests. In this article, we propose a hierarchical network data analytics framework (H-NDAF) where inference tasks are distributed to multiple leaf NWDAFs and training tasks are conducted at the root NWDAF. Extensive simulation results using open-source software (i.e., free5GC) demonstrate that H-NDAF can provide sufficiently accurate analytics and faster analytics provision time compared to the conventional NWDAF.
翻訳日:2023-09-29 15:18:44 公開日:2023-09-28
# 再帰的に構成された多粒度表現を用いた拡張変換器

Augmenting transformers with recursively composed multi-grained representations ( http://arxiv.org/abs/2309.16319v1 )

ライセンス: Link先を確認
Xiang Hu, Qingyang Zhu, Kewei Tu, Wei Wu(参考訳) 本稿では,原文の階層的構文構造を,学習と推論の両方において金木に頼らずに明示的にモデル化できる再帰的合成変換器ReCATを提案する。 この線に沿った既存の研究は、階層木構造に従うデータを制限するため、スパン間通信が欠如している。 そこでは,ボトムアップパスが低レベルのスパンを構成することで,ボトムアップパスが高レベルのスパンの表現を形成する一方で,トップダウンパスがスパンの内外の情報を組み合わせた,新しいコンテキスト内面(CIO)層を提案する。 トランスフォーマーの埋め込み層とアテンション層の間にcio層を積み重ねることで、recatモデルは深いスパン内相互作用と深いスパン間相互作用の両方を実行し、それによって、他のスパンと完全にコンテキスト化された複数の粒度の表現を生成することができる。 さらに、CIO層をTransformerと共同で事前トレーニングすることで、ReCATはスケーリング能力、パフォーマンスの強化、解釈性を同時に享受することができる。 様々な文レベルおよびスパンレベルのタスクについて実験を行う。 評価結果から、ReCATは、再帰的ネットワークと自然言語推論タスクのトランスフォーマーを組み合わせた全てのスパンレベルタスクとベースラインにおいて、バニラトランスフォーマーモデルを大幅に上回ることを示す。 さらに興味深いのは、ReCATによって誘導される階層構造は、人間に注釈付けされた構文木との強い整合性を示し、CIO層によってもたらされる優れた解釈可能性を示していることだ。

We present ReCAT, a recursive composition augmented Transformer that is able to explicitly model hierarchical syntactic structures of raw texts without relying on gold trees during both learning and inference. Existing research along this line restricts data to follow a hierarchical tree structure and thus lacks inter-span communications. To overcome the problem, we propose a novel contextual inside-outside (CIO) layer that learns contextualized representations of spans through bottom-up and top-down passes, where a bottom-up pass forms representations of high-level spans by composing low-level spans, while a top-down pass combines information inside and outside a span. By stacking several CIO layers between the embedding layer and the attention layers in Transformer, the ReCAT model can perform both deep intra-span and deep inter-span interactions, and thus generate multi-grained representations fully contextualized with other spans. Moreover, the CIO layers can be jointly pre-trained with Transformers, making ReCAT enjoy scaling ability, strong performance, and interpretability at the same time. We conduct experiments on various sentence-level and span-level tasks. Evaluation results indicate that ReCAT can significantly outperform vanilla Transformer models on all span-level tasks and baselines that combine recursive networks with Transformers on natural language inference tasks. More interestingly, the hierarchical structures induced by ReCAT exhibit strong consistency with human-annotated syntactic trees, indicating good interpretability brought by the CIO layers.
翻訳日:2023-09-29 15:11:42 公開日:2023-09-28
# DeepPCR:ニューラルネットワークにおけるシーケンス操作の並列化

DeepPCR: Parallelizing Sequential Operations in Neural Networks ( http://arxiv.org/abs/2309.16318v1 )

ライセンス: Link先を確認
Federico Danieli, Miguel Sarabia, Xavier Suau, Pau Rodr\'iguez, Luca Zappella(参考訳) 深層ニューラルネットワークの推論とトレーニングを加速するために、並列化技術はユビキタスになった。 それにもかかわらず、いくつかの操作は連続的に実行される。 例えば、前方及び後方のパスは層々ごとに実行され、拡散モデルの出力は一連の分別ステップを適用することで生成される。 このシーケンシャルなアプローチは、ステップの数に比例する計算コストをもたらし、ステップの数が増えるにつれて潜在的なボトルネックを示す。 本研究では,ニューラルネットワークの推論と学習に一般的に使用される逐次演算を並列化する新しいアルゴリズムであるdeeppcrを提案する。 DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。 これによりシーケンシャル演算の計算の複雑さが$\mathcal{o}(l)$から$\mathcal{o}(\log_2l)$に低減され、大きな$l$の高速化が得られる。 アルゴリズムの理論的に低い複雑性を検証し, 高速化のための条件を特定するため, マルチ層パーセプトロンの前方・後方パスを並列化するDeepPCRの有効性を検証し, 後方パスを最大30\times$, 後方パスを最大200\times$とした。 さらに,最大1024層までのresnetのトレーニングと拡散モデルの生成を並列化することで,deeppcrの柔軟性を示す。

Parallelization techniques have become ubiquitous for accelerating inference and training of deep neural networks. Despite this, several operations are still performed in a sequential manner. For instance, the forward and backward passes are executed layer-by-layer, and the output of diffusion models is produced by applying a sequence of denoising steps. This sequential approach results in a computational cost proportional to the number of steps involved, presenting a potential bottleneck as the number of steps increases. In this work, we introduce DeepPCR, a novel algorithm which parallelizes typically sequential operations used in inference and training of neural networks. DeepPCR is based on interpreting a sequence of $L$ steps as the solution of a specific system of equations, which we recover using the Parallel Cyclic Reduction algorithm. This reduces the complexity of computing the sequential operations from $\mathcal{O}(L)$ to $\mathcal{O}(\log_2L)$, thus yielding a speedup for large $L$. To verify the theoretical lower complexity of the algorithm, and to identify regimes for speedup, we test the effectiveness of DeepPCR in parallelizing the forward and backward pass in multi-layer perceptrons, and reach speedups of up to $30\times$ for forward and $200\times$ for backward pass. We additionally showcase the flexibility of DeepPCR by parallelizing training of ResNets with as many as 1024 layers, and generation in diffusion models, enabling up to $7\times$ faster training and $11\times$ faster generation, respectively, when compared to the sequential approach.
翻訳日:2023-09-29 15:11:10 公開日:2023-09-28
# astroconformer: トランスフォーマー型深層学習モデルによる恒星光曲線解析の展望

Astroconformer: The Prospects of Analyzing Stellar Light Curves with Transformer-Based Deep Learning Models ( http://arxiv.org/abs/2309.16316v1 )

ライセンス: Link先を確認
Jia-Shu Pan, Yuan-Sen Ting, Jie Yu(参考訳) 恒星の光度曲線は恒星の振動と粒状化に関する豊富な情報を包含し、恒星の内部構造と進化状態に関する重要な洞察を与える。 従来の強誘電的手法は、光曲線に含まれる貴重な位相情報を無視し、主にパワースペクトル分析に制限されている。 畳み込みニューラルネットワーク(CNN)を利用した最近の機械学習応用は、光曲線から星の属性を推測することに成功したが、畳み込み演算に固有の局所的特徴抽出によって制限されることが多い。 この制約を回避するために、星の光度曲線の長距離依存性をキャプチャするトランスフォーマティブベースのディープラーニングフレームワークである$\textit{astroconformer}$を提案する。 表面重力(\log g$)の推定に焦点を当てた実験分析は、$\textit{kepler}$光曲線から導かれた注意深くキュレートされたデータセットに基礎を置いている。 これらの光度曲線は、0.2から4.4までのアステロジスティックな$\log g$値を持つ。 我々の結果は、トレーニングデータが豊富である状況において、$\textit{Astroconformer}$は、$\log g \approx 3 $ 0.017 dexの root-mean-square-error (RMSE) を達成する。 トレーニングデータが不足している地域であっても、rmseは0.1 dexに達する。 K-nearestの近隣モデル(\textit{The SWAN}$)だけでなく、最先端のCNNよりも優れています。 アブレーション研究により、この特定のタスクにおけるモデルの有効性は、その受容野の大きさに大きく影響しており、より大きな受容野は性能の向上に関係していることが確認された。 さらに、$\textit{Astroconformer}$内の注意機構は、光曲線に存在する恒星振動や顆粒の固有特性とよく一致していることがわかった。

Light curves of stars encapsulate a wealth of information about stellar oscillations and granulation, thereby offering key insights into the internal structure and evolutionary state of stars. Conventional asteroseismic techniques have been largely confined to power spectral analysis, neglecting the valuable phase information contained within light curves. While recent machine learning applications in asteroseismology utilizing Convolutional Neural Networks (CNNs) have successfully inferred stellar attributes from light curves, they are often limited by the local feature extraction inherent in convolutional operations. To circumvent these constraints, we present $\textit{Astroconformer}$, a Transformer-based deep learning framework designed to capture long-range dependencies in stellar light curves. Our empirical analysis, which focuses on estimating surface gravity ($\log g$), is grounded in a carefully curated dataset derived from $\textit{Kepler}$ light curves. These light curves feature asteroseismic $\log g$ values spanning from 0.2 to 4.4. Our results underscore that, in the regime where the training data is abundant, $\textit{Astroconformer}$ attains a root-mean-square-error (RMSE) of 0.017 dex around $\log g \approx 3 $. Even in regions where training data are sparse, the RMSE can reach 0.1 dex. It outperforms not only the K-nearest neighbor-based model ($\textit{The SWAN}$) but also state-of-the-art CNNs. Ablation studies confirm that the efficacy of the models in this particular task is strongly influenced by the size of their receptive fields, with larger receptive fields correlating with enhanced performance. Moreover, we find that the attention mechanisms within $\textit{Astroconformer}$ are well-aligned with the inherent characteristics of stellar oscillations and granulation present in the light curves.
翻訳日:2023-09-29 15:10:42 公開日:2023-09-28
# ベイズ型ニューラルネットワークのプライマー:レビューと討論

A Primer on Bayesian Neural Networks: Review and Debates ( http://arxiv.org/abs/2309.16314v1 )

ライセンス: Link先を確認
Julyan Arbel, Konstantinos Pitas, Mariia Vladimirova, Vincent Fortuin(参考訳) ニューラルネットワークは様々な問題領域で顕著な性能を達成したが、その適用性は予測の過信、解釈可能性の欠如、敵攻撃に対する脆弱性など固有の制限によって妨げられている。 これらの課題に対処するため、ベイズニューラルネットワーク(BNN)は従来のニューラルネットワークの魅力的な拡張として現れ、不確実性推定を予測能力に統合している。 この包括的プライマーは、ニューラルネットワークとベイズ推論の基本概念を体系的に紹介し、BNNの開発のための相乗的統合を解明する。 対象者は、ベイズ的な手法の潜在的な背景を持つ統計学者と、深層ニューラルネットワークに精通するがベイズ的な統計に限定した機械学習の専門知識を欠いた統計学者である。 私たちは、一般的に採用されている優先順位の概要を提供し、モデルの振る舞いとパフォーマンスへの影響を調べます。 さらに,BNNにおけるトレーニングや推論に関する実践的考察についても検討する。 さらに,現在進行中の議論や論争の存在を認め,BNN研究の領域における先進的な話題を探求する。 最先端の開発に関する洞察を提供することで、このプライマーは研究者や実践者がBNNにしっかりとした基盤を持つだけでなく、この動的分野の潜在的な応用を照らす。 貴重なリソースとして、BNNとその将来性についての理解を深め、知識とイノベーションの追求におけるさらなる進歩を促進する。

Neural networks have achieved remarkable performance across various problem domains, but their widespread applicability is hindered by inherent limitations such as overconfidence in predictions, lack of interpretability, and vulnerability to adversarial attacks. To address these challenges, Bayesian neural networks (BNNs) have emerged as a compelling extension of conventional neural networks, integrating uncertainty estimation into their predictive capabilities. This comprehensive primer presents a systematic introduction to the fundamental concepts of neural networks and Bayesian inference, elucidating their synergistic integration for the development of BNNs. The target audience comprises statisticians with a potential background in Bayesian methods but lacking deep learning expertise, as well as machine learners proficient in deep neural networks but with limited exposure to Bayesian statistics. We provide an overview of commonly employed priors, examining their impact on model behavior and performance. Additionally, we delve into the practical considerations associated with training and inference in BNNs. Furthermore, we explore advanced topics within the realm of BNN research, acknowledging the existence of ongoing debates and controversies. By offering insights into cutting-edge developments, this primer not only equips researchers and practitioners with a solid foundation in BNNs, but also illuminates the potential applications of this dynamic field. As a valuable resource, it fosters an understanding of BNNs and their promising prospects, facilitating further advancements in the pursuit of knowledge and innovation.
翻訳日:2023-09-29 15:10:06 公開日:2023-09-28
# ジオメトリーの量子重ね合わせとしての振動子間の重力中間絡み合い

Gravity Mediated Entanglement between Oscillators as Quantum Superposition of Geometries ( http://arxiv.org/abs/2309.16312v1 )

ライセンス: Link先を確認
Ofek Bengyat, Andrea Di Biagio, Markus Aspelmeyer, Marios Christodoulou(参考訳) 重力誘起絡み合いを観測するためのプロトコルは、通常、2つの離散経路の重畳または連続的に非局在化された(高調波発振器)運動状態に準備された2つの粒子の相互作用を構成する。 この2つの異なるアプローチが重力の量子の性質について同じ結論を導けるかどうかという重要な疑問がある。 この質問に答えるために、我々は2つの特徴を含む、経路積分的アプローチを用いて分析する: 2つの高度に非局在化された質量状態の中心の重ね合わせ。 2つの一般的なプロトコルは、同様の認識論的関連性を持っていると結論づける。 どちらの場合においても、線形化された量子重力における絡み合いの出現は、重力が高度に非古典的な状態にあるためである。

Protocols for observing gravity induced entanglement typically comprise the interaction of two particles prepared either in a superposition of two discrete paths, or in a continuously delocalized (harmonic oscillator) state of motion. An important open question has been whether these two different approaches allow to draw the same conclusions on the quantum nature of gravity. To answer this question, we analyse using the path-integral approach a setup that contains both features: a superposition of two highly delocalized center of mass states. We conclude that the two usual protocols are of similar epistemological relevance. In both cases the appearance of entanglement, within linearised quantum gravity, is due to gravity being in a highly non-classical state: a superposition of distinct geometries.
翻訳日:2023-09-29 15:09:38 公開日:2023-09-28
# Snippet Anomalous Attention を用いた弱スーパービジョンビデオ異常検出

Weakly-Supervised Video Anomaly Detection with Snippet Anomalous Attention ( http://arxiv.org/abs/2309.16309v1 )

ライセンス: Link先を確認
Yidan Fan, Yongxin Yu, Wenhuan Lu, Yahong Han(参考訳) 非トリミングビデオに含まれる異常事象に焦点を当て、ビデオ異常検出の研究者の間では関心が高まっている。 異なるビデオ異常検出シナリオにおいて、弱い教師付きビデオ異常検出は、トレーニング段階でフレーム毎のラベルがなく、粗い監督としてビデオレベルラベルのみに依存するため、大きな課題となる。 従来の手法では、識別的特徴をエンドツーエンドで学習するか、2段階の自己学習戦略を用いてスニペットレベルの擬似ラベルを生成する。 しかし、どちらのアプローチにも一定の制限がある。 前者はスニペットレベルで情報的特徴を見落としやすい傾向にあり、後者はノイズに影響を受けやすい。 本稿では,上記の問題に対処するために,弱教師付き異常検出のための異常注意機構を提案する。 本手法は擬似ラベルの監督なしにスニペットレベルのエンコードされた特徴を考慮に入れる。 具体的には,まずスニペットレベルの異常な注意を発生させ,元の異常スコアとともにマルチブランチ・スーパービジョン・モジュールに入力する。 モジュールはビデオのさまざまな領域を学習し、検出が困難な領域も含み、注意の最適化を支援する。 ベンチマークデータセットXDViolenceとUCF-Crimeの実験により,本手法の有効性が検証された。 また,提案したスニペットレベルの注意により,より正確な局所化が得られる。

With a focus on abnormal events contained within untrimmed videos, there is increasing interest among researchers in video anomaly detection. Among different video anomaly detection scenarios, weakly-supervised video anomaly detection poses a significant challenge as it lacks frame-wise labels during the training stage, only relying on video-level labels as coarse supervision. Previous methods have made attempts to either learn discriminative features in an end-to-end manner or employ a twostage self-training strategy to generate snippet-level pseudo labels. However, both approaches have certain limitations. The former tends to overlook informative features at the snippet level, while the latter can be susceptible to noises. In this paper, we propose an Anomalous Attention mechanism for weakly-supervised anomaly detection to tackle the aforementioned problems. Our approach takes into account snippet-level encoded features without the supervision of pseudo labels. Specifically, our approach first generates snippet-level anomalous attention and then feeds it together with original anomaly scores into a Multi-branch Supervision Module. The module learns different areas of the video, including areas that are challenging to detect, and also assists the attention optimization. Experiments on benchmark datasets XDViolence and UCF-Crime verify the effectiveness of our method. Besides, thanks to the proposed snippet-level attention, we obtain a more precise anomaly localization.
翻訳日:2023-09-29 15:09:15 公開日:2023-09-28
# クエリベースのオブジェクト検出器は少ない段階で設計できるか?

Can the Query-based Object Detector Be Designed with Fewer Stages? ( http://arxiv.org/abs/2309.16306v1 )

ライセンス: Link先を確認
Jialin Li, Weifu Fu, Yuhuan Lin, Qiang Nie, Yong Liu(参考訳) クエリベースのオブジェクト検出器は、DETRの公開以来、大幅に進歩してきた。 しかし、既存の手法のほとんどは、マルチステージエンコーダとデコーダ、あるいは両方の組み合わせに依存している。 精度が高いにもかかわらず、多段階パラダイム(典型的には6段階)は計算負荷などの問題に悩まされ、その必要性を再考する。 本稿では,クエリーベースの検出機能を強化するための複数の手法について検討し,これらの知見に基づいて,GOLO(Global Once and Local Once)と呼ばれる2段階デコードパラダイムに従う新しいモデルを提案する。 マルチステージデコーダを用いた他の主流クエリベースモデルと比較すると,デコーダのステージは少なく,性能は高い。 COCOデータセットの実験結果から,本手法の有効性が示された。

Query-based object detectors have made significant advancements since the publication of DETR. However, most existing methods still rely on multi-stage encoders and decoders, or a combination of both. Despite achieving high accuracy, the multi-stage paradigm (typically consisting of 6 stages) suffers from issues such as heavy computational burden, prompting us to reconsider its necessity. In this paper, we explore multiple techniques to enhance query-based detectors and, based on these findings, propose a novel model called GOLO (Global Once and Local Once), which follows a two-stage decoding paradigm. Compared to other mainstream query-based models with multi-stage decoders, our model employs fewer decoder stages while still achieving considerable performance. Experimental results on the COCO dataset demonstrate the effectiveness of our approach.
翻訳日:2023-09-29 15:08:40 公開日:2023-09-28
# 深度補完のためのマルチスケールリカレントLSTMと変圧器ネットワーク

Multi-scale Recurrent LSTM and Transformer Network for Depth Completion ( http://arxiv.org/abs/2309.16301v1 )

ライセンス: Link先を確認
Xiaogang Jia, Yusong Tan, Songlei Jian, Yonggang Che(参考訳) lidarの奥行き完了は新しいホットな奥行き推定のトピックである。 このタスクでは、色空間と深度空間の特徴を融合させることが重要かつ困難なポイントである。 本稿では,従来のLSTMおよびTransformerモジュールをNLPから深度補完へ移行し,それらを適切に再設計する。 具体的には、Forget Gate, Update Gate, Output Gate, Skip gate を用いて、色と深さの効率的な融合を実現し、複数スケールでループ最適化を行う。 最後に,Transformerのマルチヘッドアテンション機構により,より深い特徴を融合させる。 実験の結果,ネットワーク構造と後処理ステップを繰り返すことなく,単純なエンコーダ・デコーダネットワーク構造にモジュールを追加することで,最先端の性能を実現することができた。 提案手法は,現在主流の自動運転kittiベンチマークデータセットで第1位である。 これはまた、最先端のパフォーマンスを達成する他の方法のバックボーンネットワークと見なすこともできる。

Lidar depth completion is a new and hot topic of depth estimation. In this task, it is the key and difficult point to fuse the features of color space and depth space. In this paper, we migrate the classic LSTM and Transformer modules from NLP to depth completion and redesign them appropriately. Specifically, we use Forget gate, Update gate, Output gate, and Skip gate to achieve the efficient fusion of color and depth features and perform loop optimization at multiple scales. Finally, we further fuse the deep features through the Transformer multi-head attention mechanism. Experimental results show that without repetitive network structure and post-processing steps, our method can achieve state-of-the-art performance by adding our modules to a simple encoder-decoder network structure. Our method ranks first on the current mainstream autonomous driving KITTI benchmark dataset. It can also be regarded as a backbone network for other methods, which likewise achieves state-of-the-art performance.
翻訳日:2023-09-29 15:08:04 公開日:2023-09-28
# casil: 二重認知行動アーキテクチャによるスキルの認識と模倣

CasIL: Cognizing and Imitating Skills via a Dual Cognition-Action Architecture ( http://arxiv.org/abs/2309.16299v1 )

ライセンス: Link先を確認
Zixuan Chen, Ze Ji, Shuyang Liu, Jing Huo, Yiyu Chen, Yang Gao(参考訳) ロボットは、移動や操作などの長期的タスクにおいて、専門家のスキルを効果的に模倣する。 ロボットのための既存の模倣学習(IL)アプローチは、複雑なタスクにおいて、まだサブ最適性能に相応しい。 本稿では,この課題が人間の認知的先行にどのように対処できるかを考察する。 ヒューリスティックには、直感的な人間の認知的先行性を導入することによって、通常の行動の概念を二重認知(ハイレベル)-行動(低レベル)アーキテクチャに拡張し、ロボットエージェントが生の視覚的デモンストレーションから重要なスキルを効果的に認識し模倣するための、認知-行動に基づくスキル模倣学習(CasIL)と呼ばれる、人間とロボットのインタラクションによる新しいスキルILフレームワークを提案する。 CasILは認識と行動の模倣の両方を可能にし、ハイレベルなスキル認知は低レベルの原始的な行動を明示的に導く。 我々は,MuJoCoおよびRLBenchベンチマークを用いて,四足歩行ロボットの障害物回避およびポイントゴールナビゲーションタスクの評価を行った。 実験結果から,我々のCasILは,多種多種多様なロボット作業において,他のロボットと比較して,競争力と強靭なスキル模倣能力を有することがわかった。

Enabling robots to effectively imitate expert skills in longhorizon tasks such as locomotion, manipulation, and more, poses a long-standing challenge. Existing imitation learning (IL) approaches for robots still grapple with sub-optimal performance in complex tasks. In this paper, we consider how this challenge can be addressed within the human cognitive priors. Heuristically, we extend the usual notion of action to a dual Cognition (high-level)-Action (low-level) architecture by introducing intuitive human cognitive priors, and propose a novel skill IL framework through human-robot interaction, called Cognition-Action-based Skill Imitation Learning (CasIL), for the robotic agent to effectively cognize and imitate the critical skills from raw visual demonstrations. CasIL enables both cognition and action imitation, while high-level skill cognition explicitly guides low-level primitive actions, providing robustness and reliability to the entire skill IL process. We evaluated our method on MuJoCo and RLBench benchmarks, as well as on the obstacle avoidance and point-goal navigation tasks for quadrupedal robot locomotion. Experimental results show that our CasIL consistently achieves competitive and robust skill imitation capability compared to other counterparts in a variety of long-horizon robotic tasks.
翻訳日:2023-09-29 15:07:47 公開日:2023-09-28
# cocdeデータはどのトレーニング段階でllms推論に役立つか?

At Which Training Stage Does Cocde Data Help LLMs Reasoning? ( http://arxiv.org/abs/2309.16298v1 )

ライセンス: Link先を確認
Yingwei Ma and Yue Liu and Yue Yu and Yuanliang Zhang and Yu Jiang and Changjian Wang and Shanshan Li(参考訳) 大きな言語モデル(LLM)は驚くべき推論能力を示し、言語技術の基盤となっている。 LLMのトレーニングにおけるコードデータの大きな成功にインスパイアされた私たちは、LLMの推論にコードデータを導入するトレーニングステージが本当に役立つのか疑問に思っています。 そこで本研究では,LLMにおけるコードデータの影響を系統的に検討する。 具体的には,事前学習段階,命令調整段階,および両者について,それぞれコードデータを導入する。 次に、LLMの推論能力は5つの領域の6つの推論タスクを通して包括的かつ公平に評価される。 実験結果を批判的に分析し,結論を考察する。 第一に、コードとテキストの混合による事前学習LLMは、他のタスクへの負の転送なしに、LLMの一般的な推論能力を著しく向上させることができる。 さらに、命令チューニングの段階では、LLMにタスク固有の推論能力が与えられる。 さらに、コードとテキストデータの動的混合戦略は、LCMがトレーニング中に段階的に推論能力を学ぶのを助ける。 これらの洞察は、科学的質問応答や法的支援など、彼らの応用に対する推論能力に関するllmの理解を深める。 ソースコードとモデルパラメータはリンクでリリースされる。~\url{https://github.com/yingweima2022/CodeLLM}。

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities and become the foundation of language technologies. Inspired by the great success of code data in training LLMs, we naturally wonder at which training stage introducing code data can really help LLMs reasoning. To this end, this paper systematically explores the impact of code data on LLMs at different stages. Concretely, we introduce the code data at the pre-training stage, instruction-tuning stage, and both of them, respectively. Then, the reasoning capability of LLMs is comprehensively and fairly evaluated via six reasoning tasks in five domains. We critically analyze the experimental results and provide conclusions with insights. First, pre-training LLMs with the mixture of code and text can significantly enhance LLMs' general reasoning capability almost without negative transfer on other tasks. Besides, at the instruction-tuning stage, code data endows LLMs the task-specific reasoning capability. Moreover, the dynamic mixing strategy of code and text data assists LLMs to learn reasoning capability step-by-step during training. These insights deepen the understanding of LLMs regarding reasoning ability for their application, such as scientific question answering, legal support, etc. The source code and model parameters are released at the link:~\url{https://github.com/yingweima2022/CodeLLM}.
翻訳日:2023-09-29 15:07:06 公開日:2023-09-28
# 量子ウォーク混合は周期格子上の古典よりも高速である

Quantum walk mixing is faster than classical on periodic lattices ( http://arxiv.org/abs/2309.16352v1 )

ライセンス: Link先を確認
Shyam Dhamapurkar and Xiu-Hao Deng(参考訳) この研究は、効率的な量子サンプリングとアルゴリズム性能に不可欠な量子混合時間に焦点を当てている。 我々は、周期格子 $\mathbb{Z}_{n_1}\times \mathbb{Z}_{n_2}\times \dots \times \mathbb{Z}_{n_d}$ 上の連続時間量子ウォークに関するリヒターの以前の分析を拡張し、非同一次元を$n_i$ とする。 従来のランダムウォークよりも高速な混合を実現する2つの量子ウォークを示す。 1つは座標回りの量子ウォークで、混合時間は$o\left(\sum{i=1}^{d} n_i \right) \log{(d/\epsilon)}\right)$と$o(d \log(d/\epsilon)$である。 2つ目は、$O(\log(1/\epsilon))$の連続時間量子ウォークで、$O\left(\sum_{i=1}^d n_i(\log(n_1))^2 \log(1/\epsilon)\right)$の混合時間を持つと推測されている。 その結果, 一般化周期格子上の古典混合時間の二次速度向上を示す。 予測されたより高速な混合時間を支える解析的証拠と数値シミュレーションを提供する。 最終的な目標は、正則グラフ上の量子ウォークの一般予想を証明することである。

This work focuses on the quantum mixing time, which is crucial for efficient quantum sampling and algorithm performance. We extend Richter's previous analysis of continuous time quantum walks on the periodic lattice $\mathbb{Z}_{n_1}\times \mathbb{Z}_{n_2}\times \dots \times \mathbb{Z}_{n_d}$, allowing for non-identical dimensions $n_i$. We present two quantum walks that achieve faster mixing compared to classical random walks. The first is a coordinate-wise quantum walk with a mixing time of $O\left(\left(\sum{i=1}^{d} n_i \right) \log{(d/\epsilon)}\right)$ and $O(d \log(d/\epsilon))$ measurements. The second is a continuous-time quantum walk with $O(\log(1/\epsilon))$ measurements, conjectured to have a mixing time of $O\left(\sum_{i=1}^d n_i(\log(n_1))^2 \log(1/\epsilon)\right)$. Our results demonstrate a quadratic speedup over classical mixing times on the generalized periodic lattice. We provide analytical evidence and numerical simulations supporting the conjectured faster mixing time. The ultimate goal is to prove the general conjecture for quantum walks on regular graphs.
翻訳日:2023-09-29 15:01:18 公開日:2023-09-28
# Dark Side Augmentation: メトリクス学習のための様々な夜の例を生成する

Dark Side Augmentation: Generating Diverse Night Examples for Metric Learning ( http://arxiv.org/abs/2309.16351v1 )

ライセンス: Link先を確認
Albert Mohwald, Tomas Jenicek and Ond\v{r}ej Chum(参考訳) CNN記述子に基づく画像検索手法は、正と負のイメージペアの多種多様な例からのメトリック学習に依存している。 トレーニングデータの可用性と可変性に制限のある夜間画像などのドメインは、標準ベンチマークでうまく機能するメソッドであっても、検索性能が低下する。 本稿では,GANをベースとした合成画像生成装置の訓練について提案する。 このようなジェネレータは、強化の形式としてメトリクス学習で使われ、不足した領域にトレーニングデータを供給する。 各種発電機の評価と解析を行った。 我々は,エッジの整合性を通じて原画像と翻訳画像の整合性を強制する,新しい軽量GANアーキテクチャに貢献する。 提案アーキテクチャでは、夜間と昼の両方の画像で動作するエッジ検出器の同時トレーニングも可能である。 訓練例の変動性をさらに高め,訓練モデルの一般化を最大化するために,多様なアンカーマイニング手法を提案する。 提案手法は,オックスフォードとパリのデータセットのパフォーマンスを保ちながら,標準的な東京24/7昼夜検索ベンチマークの最先端結果を改善する。 これは一致した昼夜画像の画像ペアをトレーニングする必要なしに達成される。 ソースコードはhttps://github.com/mohwald/gandtrで入手できる。

Image retrieval methods based on CNN descriptors rely on metric learning from a large number of diverse examples of positive and negative image pairs. Domains, such as night-time images, with limited availability and variability of training data suffer from poor retrieval performance even with methods performing well on standard benchmarks. We propose to train a GAN-based synthetic-image generator, translating available day-time image examples into night images. Such a generator is used in metric learning as a form of augmentation, supplying training data to the scarce domain. Various types of generators are evaluated and analyzed. We contribute with a novel light-weight GAN architecture that enforces the consistency between the original and translated image through edge consistency. The proposed architecture also allows a simultaneous training of an edge detector that operates on both night and day images. To further increase the variability in the training examples and to maximize the generalization of the trained model, we propose a novel method of diverse anchor mining. The proposed method improves over the state-of-the-art results on a standard Tokyo 24/7 day-night retrieval benchmark while preserving the performance on Oxford and Paris datasets. This is achieved without the need of training image pairs of matching day and night images. The source code is available at https://github.com/mohwald/gandtr .
翻訳日:2023-09-29 15:00:43 公開日:2023-09-28
# 人間のフィードバックはゴールドスタンダードではない

Human Feedback is not Gold Standard ( http://arxiv.org/abs/2309.16349v1 )

ライセンス: Link先を確認
Tom Hosking, Phil Blunsom, Max Bartolo(参考訳) 人間のフィードバックは、大きな言語モデルのパフォーマンスを評価するためのデファクトスタンダードとなり、トレーニングの目的としてますます使われています。 しかし、生成された出力のどの特性が、この単一の'preference'スコアをキャプチャするかは、はっきりしない。 選好スコアは主観的であり、望ましくない偏見に対して開放的であると仮定する。 我々は、トレーニングと評価の両方に人的フィードバックを使うことを批判的に分析し、それが重要なエラー基準の範囲を完全に捉えているかどうかを検証する。 選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。 さらに、選好スコアとエラーアノテーションの両方が、共同創設者の影響を受け得ると仮定し、命令調整モデルを利用して、2つの可能な相反する次元に沿って変化する出力を生成する。 出力のアサーション性は事実性エラーの認識率を歪め、人間のアノテーションが完全に信頼性のある評価基準や訓練目標ではないことを示す。 最後に,人間のフィードバックをトレーニング対象として用いることで,モデル出力の主張性が不釣り合いに向上することを示す。 選好スコアが望ましい目的と適切に一致しているかどうかを慎重に検討するよう、今後の取り組みを奨励する。

Human feedback has become the de facto standard for evaluating the performance of Large Language Models, and is increasingly being used as a training objective. However, it is not clear which properties of a generated output this single `preference' score captures. We hypothesise that preference scores are subjective and open to undesirable biases. We critically analyse the use of human feedback for both training and evaluation, to verify whether it fully captures a range of crucial error criteria. We find that while preference scores have fairly good coverage, they under-represent important aspects like factuality. We further hypothesise that both preference scores and error annotation may be affected by confounders, and leverage instruction-tuned models to generate outputs that vary along two possible confounding dimensions: assertiveness and complexity. We find that the assertiveness of an output skews the perceived rate of factuality errors, indicating that human annotations are not a fully reliable evaluation metric or training objective. Finally, we offer preliminary evidence that using human feedback as a training objective disproportionately increases the assertiveness of model outputs. We encourage future work to carefully consider whether preference scores are well aligned with the desired objective.
翻訳日:2023-09-29 15:00:25 公開日:2023-09-28
# 複雑な長軸ロボットマニピュレーションタスクのための固有言語誘導探索

Intrinsic Language-Guided Exploration for Complex Long-Horizon Robotic Manipulation Tasks ( http://arxiv.org/abs/2309.16347v1 )

ライセンス: Link先を確認
Eleftherios Triantafyllidis, Filippos Christianos and Zhibin Li(参考訳) 現在の強化学習アルゴリズムは、ばらばらで複雑な環境で苦労している。 本稿では,大規模言語モデル(IGE-LLMs)フレームワークの本質的なガイドド・エクスプロレーションを提案する。 IGE-LLMは、LLMを補助的な本質的な報酬として活用することにより、強化学習における探索過程をガイドし、ロボット操作タスクのスパースな報酬で複雑なロングホライゾンに対処する。 我々は,探索に挑戦する環境と,探索とロングホリゾンの両方に挑戦する複雑なロボット操作タスクにおける,フレームワークと関連する本質的学習手法を評価する。 ige-llmsの結果 (i)本質的な方法よりも顕著に高い性能を示し、意思決定にLLMを直接使用すること。 (ii) モジュラリティを強調する既存の学習方法を組み合わせて補完することができる。 (iii) 異なる本質的スケーリングパラメータにかなり敏感であり、 (4)不確実性と地平線の増加に対する堅牢性を維持する。

Current reinforcement learning algorithms struggle in sparse and complex environments, most notably in long-horizon manipulation tasks entailing a plethora of different sequences. In this work, we propose the Intrinsically Guided Exploration from Large Language Models (IGE-LLMs) framework. By leveraging LLMs as an assistive intrinsic reward, IGE-LLMs guides the exploratory process in reinforcement learning to address intricate long-horizon with sparse rewards robotic manipulation tasks. We evaluate our framework and related intrinsic learning methods in an environment challenged with exploration, and a complex robotic manipulation task challenged by both exploration and long-horizons. Results show IGE-LLMs (i) exhibit notably higher performance over related intrinsic methods and the direct use of LLMs in decision-making, (ii) can be combined and complement existing learning methods highlighting its modularity, (iii) are fairly insensitive to different intrinsic scaling parameters, and (iv) maintain robustness against increased levels of uncertainty and horizons.
翻訳日:2023-09-29 15:00:04 公開日:2023-09-28
# 疫学論理プログラム:いくつかの性質の研究

Epistemic Logic Programs: a study of some properties ( http://arxiv.org/abs/2309.16344v1 )

ライセンス: Link先を確認
Stefania Costantini, Andrea Formisano(参考訳) Epistemic Logic Programs (ELPs) では、Answer Set Programming (ASP) をエピステミック演算子で拡張する。 このようなプログラムのセマンティクスは世界観の観点で提供され、これは信念集合の集合、すなわち構文上は原子の集合の集合である。 異なるセマンティックアプローチは、世界観の異なる特徴付けを提案する。 最近の研究では、認識的分割プロパティのようなelpの任意のセマンティクスで満たされるべきセマンティクスプロパティを導入し、もし満足すれば、‘従来の’asp.netと似たボトムアップ方式でワールドビューをモジュール的に計算できるようになっている。 ボトムアップからトップダウンのアプローチから分割へと移行し、視点を変える可能性を分析する。 我々は,ボトムアップ方式と同等の基本的なトップダウン方式を提案する。 次に、我々の新しい定義である拡張アプローチを提案する。 i) 既存の意味論の多くに適用可能であること。 (ii) `` traditional'' asp と同様に作用する (iii)いかなる意味論でも、少なくとも認識論的階層化プログラムのクラス(直観的には、認識的演算子の使用が階層化されているもの)で分割するというボトムアップの概念と一致する。 (iv) 一般的なaspプログラミング方法論に固執する。

Epistemic Logic Programs (ELPs), extend Answer Set Programming (ASP) with epistemic operators. The semantics of such programs is provided in terms of world views, which are sets of belief sets, i.e., syntactically, sets of sets of atoms. Different semantic approaches propose different characterizations of world views. Recent work has introduced semantic properties that should be met by any semantics for ELPs, like the Epistemic Splitting Property, that, if satisfied, allows to modularly compute world views in a bottom-up fashion, analogously to ``traditional'' ASP. We analyze the possibility of changing the perspective, shifting from a bottom-up to a top-down approach to splitting. We propose a basic top-down approach, which we prove to be equivalent to the bottom-up one. We then propose an extended approach, where our new definition: (i) is provably applicable to many of the existing semantics; (ii) operates similarly to ``traditional'' ASP; (iii) provably coincides under any semantics with the bottom-up notion of splitting at least on the class of Epistemically Stratified Programs (which are, intuitively, those where the use of epistemic operators is stratified); (iv) better adheres to common ASP programming methodology.
翻訳日:2023-09-29 14:59:48 公開日:2023-09-28
# LagrangeBench - ラグランジアン流体力学ベンチマークスイート

LagrangeBench: A Lagrangian Fluid Mechanics Benchmarking Suite ( http://arxiv.org/abs/2309.16342v1 )

ライセンス: Link先を確認
Artur P. Toshev, Gianluca Galletti, Fabian Fritz, Stefan Adami, Nikolaus A. Adams(参考訳) 機械学習はグリッドベースのPDEモデリングに様々な科学的応用で成功している。 しかし、自由曲面や複素物理学の問題に対する好ましいアプローチであるラグランジュ粒子の離散化に基づく学習されたPDE解法は、いまだほとんど探索されていない。 本稿では,ラグランジュ粒子問題に対する最初のベンチマークスイートであるLagrangeBenchについて紹介する。 特に、私たちの貢献は、 (a) テイラー・グリーン渦・蓋駆動キャビティ・逆ポアゼイユ流・ダム破砕を含む平滑粒子流体力学(SPH)法により生成された流体力学データセット(3次元で4つ,3次元で3つ) b) 様々なトレーニング戦略と近隣の検索ルーチンを備えた効率的なJAXベースのAPI (c) GNSやSEGNNのような確立されたグラフニューラルネットワーク(GNN)をベースラインで実装したJAX。 最後に、学習されたサーロゲートの性能を測定するために、確立された位置誤差を超えて、粒子分布の運動エネルギーmseやシンクホーン距離などの物理指標を導入する。 私たちのコードベースはURLで利用可能です。

Machine learning has been successfully applied to grid-based PDE modeling in various scientific applications. However, learned PDE solvers based on Lagrangian particle discretizations, which are the preferred approach to problems with free surfaces or complex physics, remain largely unexplored. We present LagrangeBench, the first benchmarking suite for Lagrangian particle problems, focusing on temporal coarse-graining. In particular, our contribution is: (a) seven new fluid mechanics datasets (four in 2D and three in 3D) generated with the Smoothed Particle Hydrodynamics (SPH) method including the Taylor-Green vortex, lid-driven cavity, reverse Poiseuille flow, and dam break, each of which includes different physics like solid wall interactions or free surface, (b) efficient JAX-based API with various recent training strategies and neighbors search routine, and (c) JAX implementation of established Graph Neural Networks (GNNs) like GNS and SEGNN with baseline results. Finally, to measure the performance of learned surrogates we go beyond established position errors and introduce physical metrics like kinetic energy MSE and Sinkhorn distance for the particle distribution. Our codebase is available under the URL: https://github.com/tumaer/lagrangebench
翻訳日:2023-09-29 14:59:25 公開日:2023-09-28
# EFFL: マシュー効果の緩和のためのフェデレートラーニングにおける平等

EFFL: Egalitarian Fairness in Federated Learning for Mitigating Matthew Effect ( http://arxiv.org/abs/2309.16338v1 )

ライセンス: Link先を確認
Jiashi Gao, Changwu Huang, Ming Tang, Shin Hwei Tan, Xin Yao, Xuetao Wei(参考訳) フェデレーション学習(fl)の最近の進歩は、プライバシを保護しながら、大規模かつ広く分散したクライアントからの機械学習(ml)モデルの協調トレーニングを可能にする。 しかしながら、異なるクライアントのデータセットが異種である場合、従来のflメカニズムは、より貧弱なクライアントを限られたデータリソースで適切に表現しないグローバルモデルを生成し、その結果、そのローカルデータに対する精度とバイアスが低下する。 アドバンテージがいかに優位になり、時間とともに不利になるかを説明するmatthew effectによると、このようなグローバルモデルをクライアントアプリケーションにデプロイすることで、クライアント間のリソース格差が悪化し、社会福祉と公正の原則が損なわれる可能性がある。 そこで本研究では,egalitarian fairness(egalitarian fairness federated learning(effl)を提案する。 EFFLは、クライアント間の平等性を達成することに加えて、各クライアントに対する経験的リスク損失とバイアスを最小限に抑える、パフォーマンスの最適性も目標としている。 我々は、EFFLを制約付き多目的最適化(MCMOO)問題として定式化し、決定バイアスと平等公正性を制約とし、最適化すべき複数の目的として全てのクライアントに対する経験的リスク損失を最小化する。 制約空間内でのパレート最適解を得るための勾配に基づく3段階アルゴリズムを提案する。 大規模な実験により、EFFLは他の最先端のFLアルゴリズムよりも優れた性能を示し、全てのクライアントの間で平等性を高めた高性能グローバルモデルを実現する。

Recent advances in federated learning (FL) enable collaborative training of machine learning (ML) models from large-scale and widely dispersed clients while protecting their privacy. However, when different clients' datasets are heterogeneous, traditional FL mechanisms produce a global model that does not adequately represent the poorer clients with limited data resources, resulting in lower accuracy and higher bias on their local data. According to the Matthew effect, which describes how the advantaged gain more advantage and the disadvantaged lose more over time, deploying such a global model in client applications may worsen the resource disparity among the clients and harm the principles of social welfare and fairness. To mitigate the Matthew effect, we propose Egalitarian Fairness Federated Learning (EFFL), where egalitarian fairness refers to the global model learned from FL has: (1) equal accuracy among clients; (2) equal decision bias among clients. Besides achieving egalitarian fairness among the clients, EFFL also aims for performance optimality, minimizing the empirical risk loss and the bias for each client; both are essential for any ML model training, whether centralized or decentralized. We formulate EFFL as a constrained multi-constrained multi-objectives optimization (MCMOO) problem, with the decision bias and egalitarian fairness as constraints and the minimization of the empirical risk losses on all clients as multiple objectives to be optimized. We propose a gradient-based three-stage algorithm to obtain the Pareto optimal solutions within the constraint space. Extensive experiments demonstrate that EFFL outperforms other state-of-the-art FL algorithms in achieving a high-performance global model with enhanced egalitarian fairness among all clients.
翻訳日:2023-09-29 14:59:01 公開日:2023-09-28
# 数点学習のための対数変換支援ガウスサンプリング

Logarithm-transform aided Gaussian Sampling for Few-Shot Learning ( http://arxiv.org/abs/2309.16337v1 )

ライセンス: Link先を確認
Vaibhav Ganatra(参考訳) 最近の画像分類では、モデルが新しいクラスに適応するために使われる表現学習の台頭が、ほんの少しのトレーニング例で見られた。 したがって、それらの基礎となる確率分布のような表現の性質は極めて重要である。 ガウス分布からサンプリングされた表現は近年, [19] 数ショット分類のための分類器の訓練に用いられている。 これらの手法はガウス分布を近似するために実験データの分布を変換することに依存する。 本稿では,実験データをガウス様分布に変換する既存手法より優れている新しいガウス変換を提案する。 次に、この新しい変換を少数の画像分類に利用し、より少ないデータをサンプリングしながら、性能を大幅に向上させる。

Few-shot image classification has recently witnessed the rise of representation learning being utilised for models to adapt to new classes using only a few training examples. Therefore, the properties of the representations, such as their underlying probability distributions, assume vital importance. Representations sampled from Gaussian distributions have been used in recent works, [19] to train classifiers for few-shot classification. These methods rely on transforming the distributions of experimental data to approximate Gaussian distributions for their functioning. In this paper, I propose a novel Gaussian transform, that outperforms existing methods on transforming experimental data into Gaussian-like distributions. I then utilise this novel transformation for few-shot image classification and show significant gains in performance, while sampling lesser data.
翻訳日:2023-09-29 14:58:29 公開日:2023-09-28
# ディープニューラルネットワークによる12レベル心電図からの心房細動の終末リスク予測

End-to-end Risk Prediction of Atrial Fibrillation from the 12-Lead ECG by Deep Neural Networks ( http://arxiv.org/abs/2309.16335v1 )

ライセンス: Link先を確認
Theogene Habineza, Ant\^onio H. Ribeiro, Daniel Gedon, Joachim A. Behar, Antonio Luiz P. Ribeiro, Thomas B. Sch\"on(参考訳) 背景:心房細動(AF)は、毎年何百万人もの人に影響を及ぼす最も一般的な心不整脈の1つであり、脳卒中や心不全などの心血管疾患のリスクの増加と密接に関連している。 機械学習は心電図から心房細動の発生リスクを評価する有望な結果を示している。 ブラジルで収集した大規模コードデータセット上で,このようなアルゴリズムを開発し,評価することを目的とする。 結果: ディープニューラルネットワークモデルでは, 提示された心電図でAFを示さずに, AUCスコア0.845で今後AFを発症する患者を同定した。 生存モデルから,高リスク群(将来のAF症例の確率0.7以上)の患者は40週間以内にAFを発症する可能性が50%高く,低リスク群(将来のAF症例の確率0.1以下)の患者は7年後までAFを解放する確率が85%以上あることが明らかとなった。 結論: AFリスク予測モデルの開発と検証を行った。 臨床に応用すれば、このモデルは意思決定や患者管理プロセスにおいて価値のある情報を提供する可能性がある。

Background: Atrial fibrillation (AF) is one of the most common cardiac arrhythmias that affects millions of people each year worldwide and it is closely linked to increased risk of cardiovascular diseases such as stroke and heart failure. Machine learning methods have shown promising results in evaluating the risk of developing atrial fibrillation from the electrocardiogram. We aim to develop and evaluate one such algorithm on a large CODE dataset collected in Brazil. Results: The deep neural network model identified patients without indication of AF in the presented ECG but who will develop AF in the future with an AUC score of 0.845. From our survival model, we obtain that patients in the high-risk group (i.e. with the probability of a future AF case being greater than 0.7) are 50% more likely to develop AF within 40 weeks, while patients belonging to the minimal-risk group (i.e. with the probability of a future AF case being less than or equal to 0.1) have more than 85% chance of remaining AF free up until after seven years. Conclusion: We developed and validated a model for AF risk prediction. If applied in clinical practice, the model possesses the potential of providing valuable and useful information in decision-making and patient management processes.
翻訳日:2023-09-29 14:58:16 公開日:2023-09-28
# Choi-proximity regularization による非マルコフ量子力学の完全正則の復元

Recovering complete positivity of non-Markovian quantum dynamics with Choi-proximity regularization ( http://arxiv.org/abs/2309.16320v1 )

ライセンス: Link先を確認
Antonio D'Abbruzzo and Donato Farina and Vittorio Giovannetti(参考訳) 開量子系の理論における関連する問題は、弱結合近似の後に得られる力学写像の完全正則性の欠如であり、その有名な例がレッドフィールドマスター方程式である。 追加のマルコフの仮定の下でよく定義された進化を回復するための多くのアプローチが存在するが、この体制以外ではそれほど知られていない。 本稿では,任意の原動力学写像の非マルコフ的特徴を保ちつつ,完全ポジタリティ違反問題を解く数値的手法を提案する。 このアイデアは、量子プロセストモグラフィーに関する最近の研究を模倣して、非物理的Choi演算子を最も近い物理演算子に置き換えることである。 また、正規化力学は正確なダイナミクスを再現する観点でより正確であることも示している: これは、正の損失が関連する影響をもたらすような中程度の結合系において、これらのマスター方程式をヒューリスティックに利用することを可能にする。

A relevant problem in the theory of open quantum systems is the lack of complete positivity of dynamical maps obtained after weak-coupling approximations, a famous example being the Redfield master equation. A number of approaches exist to recover well-defined evolutions under additional Markovian assumptions, but much less is known beyond this regime. Here we propose a numerical method to cure the complete-positivity violation issue while preserving the non-Markovian features of an arbitrary original dynamical map. The idea is to replace its unphysical Choi operator with its closest physical one, mimicking recent work on quantum process tomography. We also show that the regularized dynamics is more accurate in terms of reproducing the exact dynamics: this allows to heuristically push the utilization of these master equations in moderate coupling regimes, where the loss of positivity can have relevant impact.
翻訳日:2023-09-29 14:57:51 公開日:2023-09-28
# 無人航空機の点雲と空中画像を用いた樹木検出法に関する総合的考察

A Comprehensive Review on Tree Detection Methods Using Point Cloud and Aerial Imagery from Unmanned Aerial Vehicles ( http://arxiv.org/abs/2309.16375v1 )

ライセンス: Link先を確認
Weijie Kuang, Hann Woei Ho, Ye Zhou, Shahrel Azmin Suandi, and Farzad Ismail(参考訳) 無人航空機(UAV)はコスト効率が高く柔軟な使用シナリオを持つ最先端技術と考えられている。 多くの論文が農業におけるuavの適用をレビューしているが、木検出への応用のレビューはまだ不十分である。 本稿では,UAVが収集したUAVデータに対する木検出手法について述べる。 ポイントクラウド(point cloud)とイメージ(images)の2種類のデータがあり、それぞれ光検出と測位(lidar)センサーとカメラによって取得される。 ポイントクラウドデータを用いた検出手法のうち,本論文は主にLiDARとDigital Aerial Photography(DAP)に基づいてこれらの手法を分類する。 本稿では,画像を直接検出する手法について,Deep Learning (DL) 法を用いるか否かを検証した。 本稿では,LiDAR と DAP に基づく点クラウドデータの比較と組み合わせについて概説する。 また,本手法の性能,相対的なメリット,応用分野についても紹介する。 一方,本研究では,近年の異なる手法による木検出研究の回数について考察する。 以上の結果から,画像上のDL法を用いた検出課題が主流となってきており,2022年までの樹木検出研究の総数の45%にDL法による検出課題が増加している。 このレビューは、特定の森林で樹木検出を行いたい研究者や、農夫がUAVを使って農業生産を管理したい研究者の指導に役立つだろう。

Unmanned Aerial Vehicles (UAVs) are considered cutting-edge technology with highly cost-effective and flexible usage scenarios. Although many papers have reviewed the application of UAVs in agriculture, the review of the application for tree detection is still insufficient. This paper focuses on tree detection methods applied to UAV data collected by UAVs. There are two kinds of data, the point cloud and the images, which are acquired by the Light Detection and Ranging (LiDAR) sensor and camera, respectively. Among the detection methods using point-cloud data, this paper mainly classifies these methods according to LiDAR and Digital Aerial Photography (DAP). For the detection methods using images directly, this paper reviews these methods by whether or not to use the Deep Learning (DL) method. Our review concludes and analyses the comparison and combination between the application of LiDAR-based and DAP-based point cloud data. The performance, relative merits, and application fields of the methods are also introduced. Meanwhile, this review counts the number of tree detection studies using different methods in recent years. From our statics, the detection task using DL methods on the image has become a mainstream trend as the number of DL-based detection researches increases to 45% of the total number of tree detection studies up to 2022. As a result, this review could help and guide researchers who want to carry out tree detection on specific forests and for farmers to use UAVs in managing agriculture production.
翻訳日:2023-09-29 14:48:50 公開日:2023-09-28
# MHG-GNN:分子ハイパーグラフグラフとグラフニューラルネットワークの組み合わせ

MHG-GNN: Combination of Molecular Hypergraph Grammar with Graph Neural Network ( http://arxiv.org/abs/2309.16374v1 )

ライセンス: Link先を確認
Akihiro Kishimoto, Hiroshi Kajino, Masataka Hirose, Junta Fuchiwaki, Indra Priyadarsini, Lisa Hamada, Hajime Shinohara, Daiju Nakano and Seiji Takeda(参考訳) 特性予測は物質発見において重要な役割を果たす。 最終的に物質科学の基礎モデルを開発するための最初のステップとして、グラフニューラルネットワーク(GNN)と分子ハイパーグラフ文法(MHG)を組み合わせたMHG-GNNと呼ばれる新しいオートエンコーダを導入する。 多様な材料を用いた様々な特性予測タスクの結果,mhg-gnnは有望であることがわかった。

Property prediction plays an important role in material discovery. As an initial step to eventually develop a foundation model for material science, we introduce a new autoencoder called the MHG-GNN, which combines graph neural network (GNN) with Molecular Hypergraph Grammar (MHG). Results on a variety of property prediction tasks with diverse materials show that MHG-GNN is promising.
翻訳日:2023-09-29 14:48:30 公開日:2023-09-28
# 音響領域におけるミニマシャープ性に関する考察:音響シーン分類のためのフィルタ非正規化評価

Bringing the Discussion of Minima Sharpness to the Audio Domain: a Filter-Normalised Evaluation for Acoustic Scene Classification ( http://arxiv.org/abs/2309.16369v1 )

ライセンス: Link先を確認
Manuel Milling, Andreas Triantafyllopoulos, Iosif Tsangko, Simon David Noel Rampp, Bj\"orn Wolfgang Schuller(参考訳) 深いニューラルネットワークの文脈における損失最小値のシャープさと一般化の相関は、長い間議論されてきた。 コンピュータビジョンの領域で選択されたベンチマークデータセットの文脈において主に研究されているが、DCASE2020チャレンジデータの音声シーン分類タスクにおけるこの側面について検討する。 本解析は, 2次元フィルタ正規化可視化と派生シャープネス測度に基づいている。 我々の探索分析では、フラットなミニマよりもシャープなミニマの方が、フラットなミニマよりも優れた一般化を示す傾向が示されている。 さらに、特に、オプティマイザの選択がミニマの鋭さの主要な要因であることに気付き、可視性に関して結果の限界について議論する。 私たちのコード、トレーニングされたモデル状態、損失ランドスケープの可視化が公開されています。

The correlation between the sharpness of loss minima and generalisation in the context of deep neural networks has been subject to discussion for a long time. Whilst mostly investigated in the context of selected benchmark data sets in the area of computer vision, we explore this aspect for the audio scene classification task of the DCASE2020 challenge data. Our analysis is based on twodimensional filter-normalised visualisations and a derived sharpness measure. Our exploratory analysis shows that sharper minima tend to show better generalisation than flat minima -even more so for out-of-domain data, recorded from previously unseen devices-, thus adding to the dispute about better generalisation capabilities of flat minima. We further find that, in particular, the choice of optimisers is a main driver of the sharpness of minima and we discuss resulting limitations with respect to comparability. Our code, trained model states and loss landscape visualisations are publicly available.
翻訳日:2023-09-29 14:47:57 公開日:2023-09-28
# FG-NeRF:フローGANに基づく独立推定自由不確実性推定のための確率的ニューラル放射場

FG-NeRF: Flow-GAN based Probabilistic Neural Radiance Field for Independence-Assumption-Free Uncertainty Estimation ( http://arxiv.org/abs/2309.16364v1 )

ライセンス: Link先を確認
Songlin Wei, Jiazhao Zhang, Yang Wang, Fanbo Xiang, Hao Su, He Wang(参考訳) 確率性を持つ神経放射野は、妥当な放射野のサンプリングと下流タスクの不確かさの定量化を可能にして大きな関心を集めている。 既存の著作物では、放射場の点や入力ビューの画素の独立な仮定に依拠し、確率密度関数の扱いやすい形式を得る。 しかし、この仮定は複雑な幾何学やテクスチャを扱う際の性能に不注意に影響を及ぼす。 本研究では,Flow-GANに基づく独立推定自由確率型ニューラル放射場を提案する。 逆学習の生成能力と正規化フローの強力な表現性を組み合わせることで,シーン全体の密度・放射分布を明示的にモデル化する。 確率的nerfを平均シフト確率的残留神経モデルとして表現する。 我々のモデルは明確な可能性関数を使わずに訓練され、独立性の仮定は避けられる。 具体的には、異なるストライドとセンターでトレーニングイメージをサンプリングし、パッチベースの逆学習でジェネレータをトレーニングするために使用される固定サイズのパッチを作成します。 提案手法は,より少ないレンダリング誤差と,合成データセットと実世界のデータセットの信頼性の高い不確実性を予測し,最先端の性能を示す。

Neural radiance fields with stochasticity have garnered significant interest by enabling the sampling of plausible radiance fields and quantifying uncertainty for downstream tasks. Existing works rely on the independence assumption of points in the radiance field or the pixels in input views to obtain tractable forms of the probability density function. However, this assumption inadvertently impacts performance when dealing with intricate geometry and texture. In this work, we propose an independence-assumption-free probabilistic neural radiance field based on Flow-GAN. By combining the generative capability of adversarial learning and the powerful expressivity of normalizing flow, our method explicitly models the density-radiance distribution of the whole scene. We represent our probabilistic NeRF as a mean-shifted probabilistic residual neural model. Our model is trained without an explicit likelihood function, thereby avoiding the independence assumption. Specifically, We downsample the training images with different strides and centers to form fixed-size patches which are used to train the generator with patch-based adversarial learning. Through extensive experiments, our method demonstrates state-of-the-art performance by predicting lower rendering errors and more reliable uncertainty on both synthetic and real-world datasets.
翻訳日:2023-09-29 14:47:40 公開日:2023-09-28
# ベンダー分解を用いたマルチエネルギーシステム最適化のための量子および古典計算の統合

Integrating quantum and classical computing for multi-energy system optimization using Benders decomposition ( http://arxiv.org/abs/2309.16363v1 )

ライセンス: Link先を確認
Ludger Leenders, Martin Sollich, Christiane Reinert, Andr\'e Bardow(参考訳) 近年、量子コンピュータは、特に特定の問題に対する計算性能を著しく向上させる能力によって、注目を集めている。 計算性能は量子アニールにより数学的に最適化できる。 この特殊な量子コンピュータは二分最適化問題を解くことができる。 しかし、マルチエネルギーシステムの最適化は一般に整数と連続的な決定変数を含む。 混合整数問題構造のため、マルチエネルギーシステムの最適化に量子アニールを直接使用することはできない。 マルチエネルギーシステムの最適化問題を解決するために,量子コンピュータと古典コンピュータの最適化を組み合わせたハイブリッドベンダー分解手法を提案する。 このアプローチでは、量子コンピュータは元のエネルギーシステムの最適化問題からの整数変数のみを含むマスター問題を解く。 サブプロブレムは連続変数を含み、古典的なコンピュータによって解決される。 性能向上のために,改良手法をベンダー分解に適用する。 本研究では,コスト最適多エネルギーシステムの設計を事例スタディで実施する。 我々は,Benders分解手法が多エネルギー系の設計に適用可能であるという概念の証明を提供するが,計算時間は古典的コンピュータのみを用いた手法よりも依然として高い。 そこで我々は,大規模かつフォールトトレラントな量子コンピュータに期待できるアプローチの潜在的な改善を推定する。

During recent years, quantum computers have received increasing attention, primarily due to their ability to significantly increase computational performance for specific problems. Computational performance could be improved for mathematical optimization by quantum annealers. This special type of quantum computer can solve quadratic unconstrained binary optimization problems. However, multi-energy systems optimization commonly involves integer and continuous decision variables. Due to their mixed-integer problem structure, quantum annealers cannot be directly used for multi-energy system optimization. To solve multi-energy system optimization problems, we present a hybrid Benders decomposition approach combining optimization on quantum and classical computers. In our approach, the quantum computer solves the master problem, which involves only the integer variables from the original energy system optimization problem. The subproblem includes the continuous variables and is solved by a classical computer. For better performance, we apply improvement techniques to the Benders decomposition. We test the approach on a case study to design a cost-optimal multi-energy system. While we provide a proof of concept that our Benders decomposition approach is applicable for the design of multi-energy systems, the computational time is still higher than for approaches using classical computers only. We therefore estimate the potential improvement of our approach to be expected for larger and fault-tolerant quantum computers.
翻訳日:2023-09-29 14:47:20 公開日:2023-09-28
# 非可換位相空間におけるディラック方程式のエレンフェストの理論

Ehrenfest's Theorem for the Dirac Equation in Noncommutative Phase-Space ( http://arxiv.org/abs/2309.16360v1 )

ライセンス: Link先を確認
Ilyas Haouam(参考訳) 本稿では,ディラック粒子の位置と運動運動運動量演算子の時間微分を電磁場と非可換な設定で計算する非可換位相空間におけるディラック方程式からehrenfestの定理を考察する。 これにより、位相空間の非可換性がエレンフェストの定理に及ぼす影響を調べることができる。 線形boppシフトとmoyal-weyl積の両方で、非可換性が挿入される。

In this article, we investigate Ehrenfest's theorem from the Dirac equation in a noncommutative phase-space where we calculate the time derivative of the position and the kinetic momentum operators for Dirac particles in interaction with electromagnetic field and within a noncommutative setting. This allows examining the effect of the phase-space noncommutativity on Ehrenfest's theorem. Knowing that with both the linear Bopp-Shift and Moyal-Weyl product, the noncommutativity is inserted.
翻訳日:2023-09-29 14:47:04 公開日:2023-09-28
# テキスト強調時間知識グラフにおける時間間隔予測のための事前学習言語モデルの活用

Leveraging Pre-trained Language Models for Time Interval Prediction in Text-Enhanced Temporal Knowledge Graphs ( http://arxiv.org/abs/2309.16357v1 )

ライセンス: Link先を確認
Duygu Sezen Islakoglu, Mel Chekol, Yannis Velegrakis(参考訳) ほとんどの知識グラフ補完(KGC)法は、与えられたグラフの実体と関係の潜在表現をベクトル空間にマッピングすることで学習する。 これらの手法の大部分は静的知識グラフに焦点をあてるが、公開されているKGの多くは、ある事実が真実である時点/時期を示す時間情報を含んでいる。 このようなグラフは時相知識グラフと呼ばれることが多い。 さらに、知識グラフは、エンティティと関係のテキスト記述を含むこともある。 静的なKGC法による表現学習において,時間的情報とテキスト記述の両方を考慮に入れず,グラフの構造的情報のみを活用する。 近年,リンク予測を改善するために時間的情報を用いている研究もあるが,テキスト記述を活用せず,帰納的推論(トレーニングで確認されていないエンティティの予測)をサポートしない研究もある。 テキスト強調時間知識グラフ補完のための事前学習言語モデル(PLM)のパワーを利用するTEMTと呼ばれる新しいフレームワークを提案する。 PLMのパラメータに格納される知識により、TEMTは事実のリッチな意味表現を生成でき、以前は目に見えない実体を一般化することができる。 TEMTは、KGで利用可能なテキスト情報と時間情報を活用し、それらを別々に扱い、それらを融合して事実の信頼性スコアを得る。 以前のアプローチとは異なり、temtは異なる時点間の依存性を効果的に捕捉し、見えないエンティティの予測を可能にする。 TEMTの性能を評価するため,トランスダクティブとインダクティブの両方で時間間隔予測を行い,三重分類を行った。 実験の結果,TEMTは最先端技術と競合していることがわかった。

Most knowledge graph completion (KGC) methods learn latent representations of entities and relations of a given graph by mapping them into a vector space. Although the majority of these methods focus on static knowledge graphs, a large number of publicly available KGs contain temporal information stating the time instant/period over which a certain fact has been true. Such graphs are often known as temporal knowledge graphs. Furthermore, knowledge graphs may also contain textual descriptions of entities and relations. Both temporal information and textual descriptions are not taken into account during representation learning by static KGC methods, and only structural information of the graph is leveraged. Recently, some studies have used temporal information to improve link prediction, yet they do not exploit textual descriptions and do not support inductive inference (prediction on entities that have not been seen in training). We propose a novel framework called TEMT that exploits the power of pre-trained language models (PLMs) for text-enhanced temporal knowledge graph completion. The knowledge stored in the parameters of a PLM allows TEMT to produce rich semantic representations of facts and to generalize on previously unseen entities. TEMT leverages textual and temporal information available in a KG, treats them separately, and fuses them to get plausibility scores of facts. Unlike previous approaches, TEMT effectively captures dependencies across different time points and enables predictions on unseen entities. To assess the performance of TEMT, we carried out several experiments including time interval prediction, both in transductive and inductive settings, and triple classification. The experimental results show that TEMT is competitive with the state-of-the-art.
翻訳日:2023-09-29 14:46:55 公開日:2023-09-28
# Transformer-VQ:ベクトル量子化による線形時間変換器

Transformer-VQ: Linear-Time Transformers via Vector Quantization ( http://arxiv.org/abs/2309.16354v1 )

ライセンス: Link先を確認
Lucas D. Lingle(参考訳) 本稿では,デコーダのみの変換器であるTransformer-VQを紹介する。 Transformer-VQの効率的な注意力はベクトル量子化キーと新しいキャッシュ機構によって実現される。 大規模な実験では、Transformer-VQ は Enwik8 (0.99 bpb)、PG-19 (26.6 ppl)、ImageNet64 (3.16 bpb) で非常に競争力がある。 コード: https://github.com/transformer-vq/transformer_vq

We introduce Transformer-VQ, a decoder-only transformer computing softmax-based dense self-attention in linear time. Transformer-VQ's efficient attention is enabled by vector-quantized keys and a novel caching mechanism. In large-scale experiments, Transformer-VQ is shown highly competitive in quality, with strong results on Enwik8 (0.99 bpb), PG-19 (26.6 ppl), and ImageNet64 (3.16 bpb). Code: https://github.com/transformer-vq/transformer_vq
翻訳日:2023-09-29 14:46:30 公開日:2023-09-28
# ShapeDBA: ShapeDTW Barycenter Averaging を用いた効率的な時系列プロトタイプ生成

ShapeDBA: Generating Effective Time Series Prototypes using ShapeDTW Barycenter Averaging ( http://arxiv.org/abs/2309.16353v1 )

ライセンス: Link先を確認
Ali Ismail-Fawaz, Hassan Ismail Fawaz, Fran\c{c}ois Petitjean, Maxime Devanne, Jonathan Weber, Stefano Berretti, Geoffrey I. Webb, Germain Forestier(参考訳) 時系列データは、医療分野から製造や無線通信まで、ほぼすべての領域で見ることができる。 現実的で有用な例やプロトタイプを生成することは、基本的なデータ分析タスクです。 本稿では,時系列データの現実的かつ有用な実例とプロトタイプを生成するための新しい手法について検討する。 我々のアプローチでは、新しい時系列平均であるShapeDTW Barycentric Averageを使用します。 そこで我々は,新しい手法で正確な時系列プロトタイプを生成することに注意を向ける。 既存の時系列プロトタイピングアプローチは、DTW Barycentering Average (DBA) や SoftDBA といった動的時間ウォーピング(DTW)の類似性尺度に依存している。 これらの最後のアプローチは、彼らのプロトタイプに分散アーティファクトを生成するという共通の問題に苦しむ。 これは主に、DTWの変種と、その近傍の類似性を検出できないことが原因であり、代わりに絶対的な類似性を検出する。 提案手法であるShapeDBAは,DTWのShapeDTW変種を用いてこの問題を克服する。 他のプロトタイピング手法と比較して,shapebaの結果を評価するために,一般的な時系列分析形式である時系列クラスタリングを選択した。 提案手法は,k-meansクラスタリングアルゴリズムと組み合わせて,UCRアーカイブから得られた合計123のデータセットを用いて評価し,適応ランダム指数を用いて,最先端の新たな結果が得られることを示す。

Time series data can be found in almost every domain, ranging from the medical field to manufacturing and wireless communication. Generating realistic and useful exemplars and prototypes is a fundamental data analysis task. In this paper, we investigate a novel approach to generating realistic and useful exemplars and prototypes for time series data. Our approach uses a new form of time series average, the ShapeDTW Barycentric Average. We therefore turn our attention to accurately generating time series prototypes with a novel approach. The existing time series prototyping approaches rely on the Dynamic Time Warping (DTW) similarity measure such as DTW Barycentering Average (DBA) and SoftDBA. These last approaches suffer from a common problem of generating out-of-distribution artifacts in their prototypes. This is mostly caused by the DTW variant used and its incapability of detecting neighborhood similarities, instead it detects absolute similarities. Our proposed method, ShapeDBA, uses the ShapeDTW variant of DTW, that overcomes this issue. We chose time series clustering, a popular form of time series analysis to evaluate the outcome of ShapeDBA compared to the other prototyping approaches. Coupled with the k-means clustering algorithm, and evaluated on a total of 123 datasets from the UCR archive, our proposed averaging approach is able to achieve new state-of-the-art results in terms of Adjusted Rand Index.
翻訳日:2023-09-29 14:46:20 公開日:2023-09-28
# 確率的運転環境における不確実性認識決定変圧器

Uncertainty-Aware Decision Transformer for Stochastic Driving Environments ( http://arxiv.org/abs/2309.16397v1 )

ライセンス: Link先を確認
Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao(参考訳) オフライン強化学習(RL)は、アクティブな相互作用なしにポリシーを学ぶための有望なフレームワークとして現れ、特に自律運転タスクにアピールしている。 トランスフォーマーの最近の成功は、オフラインRLをシーケンスモデリングとして刺激し、長い水平タスクでうまく機能する。 しかし、同じ目標が同一の行動によって一貫して達成できるという誤った仮定を持つ確率的環境では、非常に楽観的である。 本稿では,確率駆動環境において,新たな遷移モデルや複雑な生成モデルを導入することなく計画するためのUNREST(Uncertainty-aware deciSion Transformer)を提案する。 具体的には、UNRESTは遷移と返却の間の条件付き相互情報によって状態の不確実性を推定し、それに従ってセグメントシーケンスを出力する。 UNRESTは、駆動環境の'不確実性蓄積'と'時間的局所性'の性質を発見し、環境遷移よりもエージェントアクションの真の結果から学ぶために、決定トランスフォーマーのグローバルリターンを、不確実な未解決のリターンに置き換える。 また、慎重な計画を立てる際の環境不確実性を動的に評価する。 広範囲な実験結果は、様々な運転シナリオにおけるunrestの優れた性能と、不確実性推定戦略のパワーを示している。

Offline Reinforcement Learning (RL) has emerged as a promising framework for learning policies without active interactions, making it especially appealing for autonomous driving tasks. Recent successes of Transformers inspire casting offline RL as sequence modeling, which performs well in long-horizon tasks. However, they are overly optimistic in stochastic environments with incorrect assumptions that the same goal can be consistently achieved by identical actions. In this paper, we introduce an UNcertainty-awaRE deciSion Transformer (UNREST) for planning in stochastic driving environments without introducing additional transition or complex generative models. Specifically, UNREST estimates state uncertainties by the conditional mutual information between transitions and returns, and segments sequences accordingly. Discovering the `uncertainty accumulation' and `temporal locality' properties of driving environments, UNREST replaces the global returns in decision transformers with less uncertain truncated returns, to learn from true outcomes of agent actions rather than environment transitions. We also dynamically evaluate environmental uncertainty during inference for cautious planning. Extensive experimental results demonstrate UNREST's superior performance in various driving scenarios and the power of our uncertainty estimation strategy.
翻訳日:2023-09-29 14:40:04 公開日:2023-09-28
# 文書レベルの関係抽出に関する総合調査(2016-2022)

A Comprehensive Survey of Document-level Relation Extraction (2016-2022) ( http://arxiv.org/abs/2309.16396v1 )

ライセンス: Link先を確認
Julien Delaunay, Thi Hong Hanh Tran, Carlos-Emiliano Gonz\'alez-Gallardo, Georgeta Bordea, Nicolas Sidere, Antoine Doucet(参考訳) 文書レベル関係抽出 (docre) は自然言語処理 (nlp) における活発な研究分野であり、文の境界を越えたエンティティ間の関係を同定し抽出する。 従来の文レベルの関係抽出と比較して、DocREは分析のためのより広い文脈を提供しており、複数の文や段落にまたがる関係を識別するので、より難しい。 この課題は、エンティティ間の関係をよりよく理解するために、非構造化の大規模文書(科学論文、法律契約、ニュース記事など)から知識ベースを自動で構築し、蓄積するための実行可能なソリューションとして、関心が高まっている。 本稿では,この分野の最近の進歩を包括的に概観し,文レベルの関係抽出に比較して,その応用を強調する。

Document-level relation extraction (DocRE) is an active area of research in natural language processing (NLP) concerned with identifying and extracting relationships between entities beyond sentence boundaries. Compared to the more traditional sentence-level relation extraction, DocRE provides a broader context for analysis and is more challenging because it involves identifying relationships that may span multiple sentences or paragraphs. This task has gained increased interest as a viable solution to build and populate knowledge bases automatically from unstructured large-scale documents (e.g., scientific papers, legal contracts, or news articles), in order to have a better understanding of relationships between entities. This paper aims to provide a comprehensive overview of recent advances in this field, highlighting its different applications in comparison to sentence-level relation extraction.
翻訳日:2023-09-29 14:39:42 公開日:2023-09-28
# HIC-YOLOv5:小さなオブジェクト検出のために改善されたYOLOv5

HIC-YOLOv5: Improved YOLOv5 For Small Object Detection ( http://arxiv.org/abs/2309.16393v1 )

ライセンス: Link先を確認
Shiyi Tang, Yini Fang, Shu Zhang(参考訳) オブジェクト検出の分野では、小さなオブジェクト検出が難しい問題となっている。 いくつかの注意ブロックの追加や機能融合ネットワーク全体の構造の変更など、このタスクの改善を提案する作業がいくつかある。 しかし、これらのモデルの計算コストが大きいため、リアルタイムオブジェクト検出システムのデプロイは不可能であり、改善の余地は残されている。 この目的のために改良された YOLOv5 モデル HIC-YOLOv5 が提案されている。 まず、より高解像度な特徴マップを提供するために、小さなオブジェクトに特有の追加の予測ヘッドを追加する。 次に、バックボーンとネックとの間に畳み込みブロックを採用し、特徴マップのチャネル情報を増やす。 さらに,背骨の端部にCBAMというアテンション機構を適用し,従来の作業に比べて計算コストを低減させるだけでなく,チャネル領域と空間領域の両方において重要な情報を強調する。 我々の結果は、HIC-YOLOv5がmAP@[.5:.95]を6.42%改善し、mAP@0.5を9.38%改善したことを示している。

Small object detection has been a challenging problem in the field of object detection. There has been some works that proposes improvements for this task, such as adding several attention blocks or changing the whole structure of feature fusion networks. However, the computation cost of these models is large, which makes deploying a real-time object detection system unfeasible, while leaving room for improvement. To this end, an improved YOLOv5 model: HIC-YOLOv5 is proposed to address the aforementioned problems. Firstly, an additional prediction head specific to small objects is added to provide a higher-resolution feature map for better prediction. Secondly, an involution block is adopted between the backbone and neck to increase channel information of the feature map. Moreover, an attention mechanism named CBAM is applied at the end of the backbone, thus not only decreasing the computation cost compared with previous works but also emphasizing the important information in both channel and spatial domain. Our result shows that HIC-YOLOv5 has improved mAP@[.5:.95] by 6.42% and mAP@0.5 by 9.38% on VisDrone-2019-DET dataset.
翻訳日:2023-09-29 14:39:27 公開日:2023-09-28
# ソボレフトレーニングによる2次元Copula近似変換:2-Catsネットワーク

Differential 2D Copula Approximating Transforms via Sobolev Training: 2-Cats Networks ( http://arxiv.org/abs/2309.16391v1 )

ライセンス: Link先を確認
Flavio Figueiredo, Jos\'e Geraldo Fernandes, Jackson Silva, Renato M. Assun\c{c}\~ao(参考訳) Copulasはデータ次元間の依存関係をキャプチャする強力な統計ツールである。 Copulasを適用する際、まず独立な辺と簡単なタスクを推定し、次に1つの対応関数である$C$を1つの辺を接続することで、多変量分布関数を推定できる。 2次元データに対して、コプラとは、$C: (u,v)\in \mathbf{I}^2 \rightarrow \mathbf{I}$, where $\mathbf{I} = [0, 1]$という形の2つの増加関数である。 本稿では,ニューラルネットワーク(NN)が2次元コプラを非パラメトリックに近似する方法を示す。 我々のアプローチは2-Catsと呼ばれ、物理インフォームドニューラルネットワークとソボレフトレーニング文学にインスパイアされている。 2d Copula の出力が最先端よりも良く推定できることを示すだけでなく、我々のアプローチは非パラメトリックであり、Copula $C$ の数学的性質を尊重する。

Copulas are a powerful statistical tool that captures dependencies across data dimensions. When applying Copulas, we can estimate multivariate distribution functions by initially estimating independent marginals, an easy task, and then a single copulating function, $C$, to connect the marginals, a hard task. For two-dimensional data, a copula is a two-increasing function of the form $C: (u,v)\in \mathbf{I}^2 \rightarrow \mathbf{I}$, where $\mathbf{I} = [0, 1]$. In this paper, we show how Neural Networks (NNs) can approximate any two-dimensional copula non-parametrically. Our approach, denoted as 2-Cats, is inspired by the Physics-Informed Neural Networks and Sobolev Training literature. Not only do we show that we can estimate the output of a 2d Copula better than the state-of-the-art, our approach is non-parametric and respects the mathematical properties of a Copula $C$.
翻訳日:2023-09-29 14:39:06 公開日:2023-09-28
# 交通環境における低解像度画像認識法の改良

An Enhanced Low-Resolution Image Recognition Method for Traffic Environments ( http://arxiv.org/abs/2309.16390v1 )

ライセンス: Link先を確認
Zongcai Tan, Zhenhai Gao(参考訳) 現在、低解像度画像認識は、インテリジェントな交通認識の分野で大きな課題に直面している。 高解像度画像と比較すると、低解像度画像は小さなサイズ、低い品質、詳細さの欠如に悩まされ、従来のニューラルネットワーク認識アルゴリズムの精度が著しく低下する。 低解像度画像認識の鍵は、効果的な特徴抽出にある。 そこで本稿では,残余加群の基本次元と特徴抽出と計算効率への影響について述べる。 実験に基づいて、残差ネットワークの基本構造と共通特徴部分空間アルゴリズムを利用する二重分岐残差ネットワーク構造を導入する。 さらに、低解像度画像認識の精度を高めるために中間層特徴の利用も取り入れている。 さらに,ネットワークパラメータと計算オーバーヘッドを低減するために知識蒸留を用いる。 交通環境における低解像度画像認識におけるこのアルゴリズムの有効性を実験的に検証した。

Currently, low-resolution image recognition is confronted with a significant challenge in the field of intelligent traffic perception. Compared to high-resolution images, low-resolution images suffer from small size, low quality, and lack of detail, leading to a notable decrease in the accuracy of traditional neural network recognition algorithms. The key to low-resolution image recognition lies in effective feature extraction. Therefore, this paper delves into the fundamental dimensions of residual modules and their impact on feature extraction and computational efficiency. Based on experiments, we introduce a dual-branch residual network structure that leverages the basic architecture of residual networks and a common feature subspace algorithm. Additionally, it incorporates the utilization of intermediate-layer features to enhance the accuracy of low-resolution image recognition. Furthermore, we employ knowledge distillation to reduce network parameters and computational overhead. Experimental results validate the effectiveness of this algorithm for low-resolution image recognition in traffic environments.
翻訳日:2023-09-29 14:38:42 公開日:2023-09-28
# 不確かさ誘導によるバイオメディカル画像スプライシング検出

Biomedical Image Splicing Detection using Uncertainty-Guided Refinement ( http://arxiv.org/abs/2309.16388v1 )

ライセンス: Link先を確認
Xun Lin, Wenzhong Tang, Shuai Wang, Zitong Yu, Yizhong Liu, Haoran Wang, Ying Fu, Alex Kot(参考訳) 近年,画像操作が疑われる生物医学的学術出版物が急増し,生物医学的画像法医学が研究のホットスポットとなっている。 操作検出装置が関係している間、生体画像中のスプライシングトレースの特定検出は未発見のままである。 人工物、異常パターン、ノイズなどの生体画像内の破壊的要因は、スプライシングトレースのような誤解を招く特徴を示しており、このタスクの課題は大幅に増大した。 さらに,高品質なスプライシングバイオメディカル画像の不足は,この分野の潜在的な進歩を妨げている。 本研究では,これらの破壊要因の影響を軽減するために,不確実性誘導型リファインメントネットワーク(URN)を提案する。 このurnは,領域間の破壊要因による信頼できない情報流の伝播を抑制することにより,堅牢な特徴を得ることができる。 さらに、URNはデコードフェーズ中に不確実な予測領域の精製に集中することができる。 さらに,1,290個のスプライシング画像からなるバイオメディカルイメージスプライシング(BioSp)検出のためのデータセットを構築した。 既存のデータセットと比較すると、BioSpは最大数のスプライシングイメージと最も多様なソースで構成されている。 3つのベンチマークデータセットに関する包括的実験により,提案手法の優越性が示された。 一方,クロスデータセット領域シフトに対するurnの一般化性と,後処理アプローチに対する頑健性を検証する。 BioSpデータセットは受け入れ次第リリースします。

Recently, a surge in biomedical academic publications suspected of image manipulation has led to numerous retractions, turning biomedical image forensics into a research hotspot. While manipulation detectors are concerning, the specific detection of splicing traces in biomedical images remains underexplored. The disruptive factors within biomedical images, such as artifacts, abnormal patterns, and noises, show misleading features like the splicing traces, greatly increasing the challenge for this task. Moreover, the scarcity of high-quality spliced biomedical images also limits potential advancements in this field. In this work, we propose an Uncertainty-guided Refinement Network (URN) to mitigate the effects of these disruptive factors. Our URN can explicitly suppress the propagation of unreliable information flow caused by disruptive factors among regions, thereby obtaining robust features. Moreover, URN enables a concentration on the refinement of uncertainly predicted regions during the decoding phase. Besides, we construct a dataset for Biomedical image Splicing (BioSp) detection, which consists of 1,290 spliced images. Compared with existing datasets, BioSp comprises the largest number of spliced images and the most diverse sources. Comprehensive experiments on three benchmark datasets demonstrate the superiority of the proposed method. Meanwhile, we verify the generalizability of URN when against cross-dataset domain shifts and its robustness to resist post-processing approaches. Our BioSp dataset will be released upon acceptance.
翻訳日:2023-09-29 14:38:29 公開日:2023-09-28
# 量子状態のストリーム化

Streaming quantum state purification ( http://arxiv.org/abs/2309.16387v1 )

ライセンス: Link先を確認
Andrew M. Childs, Honghao Fu, Debbie Leung, Zhi Li, Maris Ozols, and Vedang Vyas(参考訳) 量子状態浄化は、状態の複数のノイズコピーを使用して、未知の純粋な量子状態のほぼ純粋なコピーを復元するタスクである。 この基本的なタスクは、ノイズの多いチャネル上の量子通信や不完全なデバイスによる量子計算に応用できるが、以前にも研究されてきた。 初期誤差パラメータから始まる任意の次元のクォーディットのスワップテストに基づいて効率的な浄化手順を導出する。 初期誤差パラメータと次元を定数として扱うことで,本手法が最終誤差パラメータに漸近的に最適なサンプル複雑性を持つことを示す。 我々のプロトコルは単純な再帰的構造を持ち、状態がストリーミング形式で一度に1つ提供されると適用でき、実装には小さな量子メモリしか必要としない。

Quantum state purification is the task of recovering a nearly pure copy of an unknown pure quantum state using multiple noisy copies of the state. This basic task has applications to quantum communication over noisy channels and quantum computation with imperfect devices, but has only been studied previously for the case of qubits. We derive an efficient purification procedure based on the swap test for qudits of any dimension, starting with any initial error parameter. Treating the initial error parameter and the dimension as constants, we show that our procedure has sample complexity asymptotically optimal in the final error parameter. Our protocol has a simple recursive structure that can be applied when the states are provided one at a time in a streaming fashion, requiring only a small quantum memory to implement.
翻訳日:2023-09-29 14:38:08 公開日:2023-09-28
# マルチスワップ$k$-means++

Multi-Swap $k$-Means++ ( http://arxiv.org/abs/2309.16384v1 )

ライセンス: Link先を確認
Lorenzo Beretta, Vincent Cohen-Addad, Silvio Lattanzi and Nikos Parotsidis(参考訳) Arthur と Vassilvitskii の $k$-means++ アルゴリズム (SODA 2007) は、よく使われる $k$-means クラスタリングの目的を最適化するための実践者の選択アルゴリズムであり、期待して$O(\log k)$-approximation を与えることが知られている。 より高品質なソリューションを得るため、lattanziとsohler (icml 2019)は、$k$-means++を$o(k \log \log k)$ローカル検索ステップで拡張し、$k$-means++サンプリングディストリビューションで取得し、$c$が大きな絶対定数である$k$-meansクラスタリング問題に$c$近似を与えることを提案している。 ここでは、より大規模で洗練された地域検索地区を考慮し、複数のセンターを同時に置き換えることにより、その局所検索アルゴリズムを一般化し拡張する。 このアルゴリズムは 9 + \varepsilon$ 近似比を達成しており、局所探索に最適である。 重要なことは、我々のアプローチが実質的な改善をもたらすことを示し、いくつかのデータセット上でのLattanziとSohler(ICML 2019)のアプローチに対して、大幅な品質改善を示す。

The $k$-means++ algorithm of Arthur and Vassilvitskii (SODA 2007) is often the practitioners' choice algorithm for optimizing the popular $k$-means clustering objective and is known to give an $O(\log k)$-approximation in expectation. To obtain higher quality solutions, Lattanzi and Sohler (ICML 2019) proposed augmenting $k$-means++ with $O(k \log \log k)$ local search steps obtained through the $k$-means++ sampling distribution to yield a $c$-approximation to the $k$-means clustering problem, where $c$ is a large absolute constant. Here we generalize and extend their local search algorithm by considering larger and more sophisticated local search neighborhoods hence allowing to swap multiple centers at the same time. Our algorithm achieves a $9 + \varepsilon$ approximation ratio, which is the best possible for local search. Importantly we show that our approach yields substantial practical improvements, we show significant quality improvements over the approach of Lattanzi and Sohler (ICML 2019) on several datasets.
翻訳日:2023-09-29 14:37:54 公開日:2023-09-28
# RLLTE:強化学習の長期的発展プロジェクト

RLLTE: Long-Term Evolution Project of Reinforcement Learning ( http://arxiv.org/abs/2309.16382v1 )

ライセンス: Link先を確認
Mingqi Yuan, Zequn Zhang, Yang Xu, Shihao Luo, Bo Li, Xin Jin, Wenjun Zeng(参考訳) 本稿では,RLLTEについて紹介する。RLLTEは長期的進化であり,高度にモジュール化された,強化学習(RL)研究と応用のためのオープンソースフレームワークである。 トップノーチアルゴリズムの実装を提供するだけでなく、RLLTEはアルゴリズム開発のためのツールキットとしても機能する。 より具体的には、RLLTEはRLアルゴリズムを搾取探索の観点から完全に分離し、アルゴリズム開発と進化を加速する多数のコンポーネントを提供する。 特に、RLLTEは、モデルトレーニング、評価、デプロイメント、ベンチマークハブ、LLM(Large Language Model)を内蔵した大規模言語モデル(LLM)を含む、完全な豪華なエコシステムを構築する最初のRLフレームワークである。 RLLTEは、RLエンジニアリングの基準を設定し、産業や学界に高い刺激を与えると期待されている。

We present RLLTE: a long-term evolution, extremely modular, and open-source framework for reinforcement learning (RL) research and application. Beyond delivering top-notch algorithm implementations, RLLTE also serves as a toolkit for developing algorithms. More specifically, RLLTE decouples the RL algorithms completely from the exploitation-exploration perspective, providing a large number of components to accelerate algorithm development and evolution. In particular, RLLTE is the first RL framework to build a complete and luxuriant ecosystem, which includes model training, evaluation, deployment, benchmark hub, and large language model (LLM)-empowered copilot. RLLTE is expected to set standards for RL engineering practice and be highly stimulative for industry and academia.
翻訳日:2023-09-29 14:37:24 公開日:2023-09-28
# アイスキューブイベント再構成のための条件正規化流

Conditional normalizing flows for IceCube event reconstruction ( http://arxiv.org/abs/2309.16380v1 )

ライセンス: Link先を確認
Thorsten Gl\"usenkamp (for the IceCube collaboration)(参考訳) アイスキューブ・ニュートリノ天文台 (icecube neutrino observatory) は、南極氷に配備される3立方キロメートルの高エネルギーニュートリノ検出器である。 2つの主要なイベントクラスは電荷電流電子とミューオンニュートリノ相互作用である。 本稿では,条件付き正規化フローを用いて,これらのクラスに対する方向とエネルギーの推定について論じる。 これらは、系統的な不確実性を含む生データに基づいて個々のイベントの後方分布を導出することができ、次世代の再構築に非常に有望である。 各正規化フローに対して、微分エントロピーとKL分割を最大エントロピー近似に利用して結果を解釈する。 正規化フローは南極氷の複雑な光学的性質と埋め込み検出器との関係を正しく組み込む。 シャワーの場合、高光子吸収領域では差分エントロピーが増加し、澄んだ氷では減少する。 ミューオンの場合、微分エントロピーはトラックの長さと強く相関する。 低光子数や高度に非対称な輪郭形状でもカバレッジは維持される。 高光子数の場合、分布はより狭くなり、ベルンシュタイン=ヴォン=ミッセの漸近定理から期待されるように対称になる。 シャワー方向再構成では, 従来の解析では無視されていたアジマス-ゼニスの非対称性のため, 1TeV から 100TeV の領域が最も恩恵を受ける可能性がある。 このエネルギー範囲での事象は、近年の銀河面拡散ニュートリノ放射の発見において重要な役割を果たす。

The IceCube Neutrino Observatory is a cubic-kilometer high-energy neutrino detector deployed in the Antarctic ice. Two major event classes are charged-current electron and muon neutrino interactions. In this contribution, we discuss the inference of direction and energy for these classes using conditional normalizing flows. They allow to derive a posterior distribution for each individual event based on the raw data that can include systematic uncertainties, which makes them very promising for next-generation reconstructions. For each normalizing flow we use the differential entropy and the KL-divergence to its maximum entropy approximation to interpret the results. The normalizing flows correctly incorporate complex optical properties of the Antarctic ice and their relation to the embedded detector. For showers, the differential entropy increases in regions of high photon absorption and decreases in clear ice. For muons, the differential entropy strongly correlates with the contained track length. Coverage is maintained, even for low photon counts and highly asymmetrical contour shapes. For high-photon counts, the distributions get narrower and become more symmetrical, as expected from the asymptotic theorem of Bernstein-von-Mises. For shower directional reconstruction, we find the region between 1 TeV and 100 TeV to potentially benefit the most from normalizing flows because of azimuth-zenith asymmetries which have been neglected in previous analyses by assuming symmetrical contours. Events in this energy range play a vital role in the recent discovery of the galactic plane diffuse neutrino emission.
翻訳日:2023-09-29 14:37:10 公開日:2023-09-28
# 拡散モデルのより小さなステップへの蒸留ODE解法

Distilling ODE Solvers of Diffusion Models into Smaller Steps ( http://arxiv.org/abs/2309.16421v1 )

ライセンス: Link先を確認
Sanghwan Kim, Hao Tang, and Fisher Yu(参考訳) 蒸留技術は拡散モデルのサンプリング速度を大幅に改善し、1ステップか数ステップで生成することができるようになった。 しかし, これらの蒸留法では, 各データセット, サンプル, ネットワークの広範な訓練が必要であり, 実用性に限界がある。 この制限に対処するため,D-ODEソルバ(Distilled-ODE solver, D-ODE solver, D-ODE solver)を提案する。 D-ODEソルバは、既存のODEソルバに単一のパラメータ調整を単に適用することで定式化される。 その後、より小さな段数を持つD-ODEソルバを、より大きい段数の段数を持つODEソルバで最適化する。 D-ODEソルバはDDIM, PNDM, DPM-Solver, DEIS, EDMなど, 既存のODEソルバよりも優れており, 特に少ないステップでサンプルを生成する場合が多い。 提案手法は, 従来の蒸留法に比べて計算オーバーヘッドが小さいため, 従来の試料装置との簡易かつ迅速な統合が可能である。 さらに、D-ODEソルバは、ODEソルバのサンプリング軌道を保ちながら画質を向上させる。

Distillation techniques have substantially improved the sampling speed of diffusion models, allowing of the generation within only one step or a few steps. However, these distillation methods require extensive training for each dataset, sampler, and network, which limits their practical applicability. To address this limitation, we propose a straightforward distillation approach, Distilled-ODE solvers (D-ODE solvers), that optimizes the ODE solver rather than training the denoising network. D-ODE solvers are formulated by simply applying a single parameter adjustment to existing ODE solvers. Subsequently, D-ODE solvers with smaller steps are optimized by ODE solvers with larger steps through distillation over a batch of samples. Our comprehensive experiments indicate that D-ODE solvers outperform existing ODE solvers, including DDIM, PNDM, DPM-Solver, DEIS, and EDM, especially when generating samples with fewer steps. Our method incur negligible computational overhead compared to previous distillation techniques, enabling simple and rapid integration with previous samplers. Qualitative analysis further shows that D-ODE solvers enhance image quality while preserving the sampling trajectory of ODE solvers.
翻訳日:2023-09-29 14:28:06 公開日:2023-09-28
# AutoCLIP:視覚言語モデルのための自動調整ゼロショット分類器

AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models ( http://arxiv.org/abs/2309.16414v1 )

ライセンス: Link先を確認
Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi(参考訳) CLIPのような視覚言語モデル上に構築された分類器は、幅広い画像分類タスクで顕著なゼロショット性能を示している。 これまでの研究では、プロンプトテンプレートに基づいた各クラス用の記述子セットを自動生成する方法を、手作業によるテンプレートから、大きな言語モデルから得られたテンプレートまで、ランダムな単語や文字で構築されたテンプレートまで、さまざまな方法で研究してきた。 対照的に、各エンコードされたクラス記述子からゼロショットの分類子を導出することは、ほとんど変化していない: 平均エンコードされたクラス記述子とエンコードされたイメージの間のコサイン類似性を最大化するクラスに分類する。 しかし、すべてのクラス記述子を等しく重み付けすることは、特定の記述子が与えられた画像上の視覚的な手がかりと他の画像よりもマッチする場合に最適である。 本研究では,ゼロショット分類器の自動調整手法であるAutoCLIPを提案する。 AutoCLIPは、推論時にクラス記述子-画像類似性の統計から派生した、画像単位のプロンプトテンプレートを割り当てる。 AutoCLIPは完全に教師なし、オーバーヘッドが非常に少なく、数行のコードで簡単に実装できる。 視覚言語モデル、データセット、およびプロンプトテンプレートの幅広い範囲において、autoclipはベースラインを一貫して、最大3%精度で上回っている。

Classifiers built upon vision-language models such as CLIP have shown remarkable zero-shot performance across a broad range of image classification tasks. Prior work has studied different ways of automatically creating descriptor sets for every class based on prompt templates, ranging from manually engineered templates over templates obtained from a large language model to templates built from random words and characters. In contrast, deriving zero-shot classifiers from the respective encoded class descriptors has remained nearly unchanged, that is: classify to the class that maximizes the cosine similarity between its averaged encoded class descriptors and the encoded image. However, weighting all class descriptors equally can be suboptimal when certain descriptors match visual clues on a given image better than others. In this work, we propose AutoCLIP, a method for auto-tuning zero-shot classifiers. AutoCLIP assigns to each prompt template per-image weights, which are derived from statistics of class descriptor-image similarities at inference time. AutoCLIP is fully unsupervised, has very low overhead, and can be easily implemented in few lines of code. We show that for a broad range of vision-language models, datasets, and prompt templates, AutoCLIP outperforms baselines consistently and by up to 3 percent point accuracy.
翻訳日:2023-09-29 14:27:44 公開日:2023-09-28
# 遺伝的工学アルゴリズム(gea) : 組合せ最適化問題を解決する効率的なメタヒューリスティックアルゴリズム

Genetic Engineering Algorithm (GEA): An Efficient Metaheuristic Algorithm for Solving Combinatorial Optimization Problems ( http://arxiv.org/abs/2309.16413v1 )

ライセンス: Link先を確認
Majid Sohrabi, Amir M. Fathollahi-Fard, and Vasilii A. Gromov(参考訳) 遺伝的アルゴリズム(GA)は、様々な解空間の探索、様々な表現の扱い、並列性の利用、優れた解の保存、動的変化への適応、組合せ的多様性の取り扱い、ヒューリスティック検索の能力により、組合せ最適化問題の解法における効率性で知られている。 しかし、早期収束、問題固有の知識の欠如、クロスオーバーや突然変異演算子のランダム性といった制限により、ガスは一般に最適解を見つけるのに非効率になる。 本稿では,遺伝子工学の概念から着想を得た遺伝子工学アルゴリズム(GEA)というメタヒューリスティックアルゴリズムを提案する。 GEAは従来のGAを再設計し、既存の遺伝子に基づいて新規遺伝子を単離、精製、挿入、発現するための新しい検索手法を導入し、所望の形質の出現と選択された遺伝子に基づく特定の染色体の生成につながった。 ベンチマークインスタンス上での最先端アルゴリズムに対する比較評価は、GAAの優れた性能を示し、組合せ最適化問題の革新的で効率的な解としての可能性を示している。

Genetic Algorithms (GAs) are known for their efficiency in solving combinatorial optimization problems, thanks to their ability to explore diverse solution spaces, handle various representations, exploit parallelism, preserve good solutions, adapt to changing dynamics, handle combinatorial diversity, and provide heuristic search. However, limitations such as premature convergence, lack of problem-specific knowledge, and randomness of crossover and mutation operators make GAs generally inefficient in finding an optimal solution. To address these limitations, this paper proposes a new metaheuristic algorithm called the Genetic Engineering Algorithm (GEA) that draws inspiration from genetic engineering concepts. GEA redesigns the traditional GA while incorporating new search methods to isolate, purify, insert, and express new genes based on existing ones, leading to the emergence of desired traits and the production of specific chromosomes based on the selected genes. Comparative evaluations against state-of-the-art algorithms on benchmark instances demonstrate the superior performance of GEA, showcasing its potential as an innovative and efficient solution for combinatorial optimization problems.
翻訳日:2023-09-29 14:27:21 公開日:2023-09-28
# テストによる選択的非パラメトリック回帰

Selective Nonparametric Regression via Testing ( http://arxiv.org/abs/2309.16412v1 )

ライセンス: Link先を確認
Fedor Noskov, Alexander Fishkov and Maxim Panov(参考訳) エラークリティカルな機械学習アプリケーションにとって、禁忌(選択予測)の可能性のある予測は重要な問題である。 分類はよく研究されているが、回帰に対する選択的なアプローチは開発されていない。 本研究では,非パラメトリックなヘテロスケダスティック回帰問題を考察し,所定の点における条件分散の値に関する仮説を検証し,棄却手続きを開発する。 既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。 我々は、結果として生じる推定子のリスクに対する非漸近的境界を証明し、いくつかの異なる収束レジームの存在を示す。 理論解析は、シミュレーションおよび実世界のデータに関する一連の実験で示される。

Prediction with the possibility of abstention (or selective prediction) is an important problem for error-critical machine learning applications. While well-studied in the classification setup, selective approaches to regression are much less developed. In this work, we consider the nonparametric heteroskedastic regression problem and develop an abstention procedure via testing the hypothesis on the value of the conditional variance at a given point. Unlike existing methods, the proposed one allows to account not only for the value of the variance itself but also for the uncertainty of the corresponding variance predictor. We prove non-asymptotic bounds on the risk of the resulting estimator and show the existence of several different convergence regimes. Theoretical analysis is illustrated with a series of experiments on simulated and real-world data.
翻訳日:2023-09-29 14:26:59 公開日:2023-09-28
# 線形符号の組合せ構造について

On combinatorial structures in linear codes ( http://arxiv.org/abs/2309.16411v1 )

ライセンス: Link先を確認
Nou\'edyn Baspin(参考訳) この研究において、$[n,k,d] の接続グラフ $G$ が与えられたとき、$\sum_i |K_i|\in \Omega(k), \ |K_i| \in \Omega(d)$, $K_i$'s が$\tilde{\Omega}( \sqrt{k}/{n}})$-expander となるような$\{K_i\}_i, K_i \subset G$ が存在する。 もしコードがクラシックなら、代わりに$k_i$'sが$\tilde{\omega}\left({{k}/{n}}\right)$-expanderであることを示します。 また、これらの境界に対する逆も示す。 特に、古典符号の BPT はすべてのユークリッド次元において厳密であることを示す。 最後に、独立した関心を持つような「くだらない」部分グラフを持たないグラフの構造定理を証明する。

In this work we show that given a connectivity graph $G$ of a $[[n,k,d]]$ quantum code, there exists $\{K_i\}_i, K_i \subset G$, such that $\sum_i |K_i|\in \Omega(k), \ |K_i| \in \Omega(d)$, and the $K_i$'s are $\tilde{\Omega}( \sqrt{{k}/{n}})$-expander. If the codes are classical we show instead that the $K_i$'s are $\tilde{\Omega}\left({{k}/{n}}\right)$-expander. We also show converses to these bounds. In particular, we show that the BPT bound for classical codes is tight in all Euclidean dimensions. Finally, we prove structural theorems for graphs with no "dense" subgraphs which might be of independent interest.
翻訳日:2023-09-29 14:26:48 公開日:2023-09-28
# 平均交換性を考慮した合成処理グループの構築

Constructing Synthetic Treatment Groups without the Mean Exchangeability Assumption ( http://arxiv.org/abs/2309.16409v1 )

ライセンス: Link先を確認
Yuhang Zhang, Yue Liu, Zhihua Zhang(参考訳) 本研究の目的は、複数のランダム化制御試験から、制御群データしか持たないターゲット集団に情報を転送することである。 以前の研究は平均交換可能性の仮定に批判的に依存している。 しかし、多くの研究で指摘されているように、平均交換可能性の仮定は破られるかもしれない。 本研究は, 合成制御法により, 原料集団の処理群を加重混合することにより, 対象個体群に対する合成処理群を構築した。 資源集団の重み付き対照群と対象集団との条件付き最大平均差を最小にすることで重量を推定する。 本研究は,Sieve semiparametric theoryに基づく合成処理群推定器の漸近正規性を確立した。 本手法は平均交換可能性仮定に違反した場合に新たな相補的アプローチとして機能する。 本手法の有効性を実証するために,合成および実世界のデータセットを用いて実験を行った。

The purpose of this work is to transport the information from multiple randomized controlled trials to the target population where we only have the control group data. Previous works rely critically on the mean exchangeability assumption. However, as pointed out by many current studies, the mean exchangeability assumption might be violated. Motivated by the synthetic control method, we construct a synthetic treatment group for the target population by a weighted mixture of treatment groups of source populations. We estimate the weights by minimizing the conditional maximum mean discrepancy between the weighted control groups of source populations and the target population. We establish the asymptotic normality of the synthetic treatment group estimator based on the sieve semiparametric theory. Our method can serve as a novel complementary approach when the mean exchangeability assumption is violated. Experiments are conducted on synthetic and real-world datasets to demonstrate the effectiveness of our methods.
翻訳日:2023-09-29 14:26:25 公開日:2023-09-28
# 優れた量子LDPC符号を用いた手術に向けて

Towards surgery with good quantum LDPC codes ( http://arxiv.org/abs/2309.16406v1 )

ライセンス: Link先を確認
Alexander Cowtan(参考訳) 本稿では,Panteleev-Kalachev \cite{PK} の量子LDPC符号を用いて,任意の論理量子ビットを用いた手術を行うことができることを示す。 また, 漸近的ペナルティを伴って手術を行うための4つの条件のうち3つを満たせることを証明した。 最後の条件も満足すれば、$k, d\in \theta(n)$を維持しながらコード手術を行うことができます。

We show that the good quantum LDPC codes of Panteleev-Kalachev \cite{PK} allow for surgery using any logical qubits, albeit incurring an asymptotic penalty which lowers the rate and distance scaling. We also prove that we can satisfy 3 of the 4 conditions for performing surgery \textit{without} incurring an asymptotic penalty. If the last condition is also satisfied then we can perform code surgery while maintaining $k, d\in \Theta(n)$.
翻訳日:2023-09-29 14:26:14 公開日:2023-09-28
# VAEによるRNO-Gデータの潜在空間分類

VAE-based latent-space classification of RNO-G data ( http://arxiv.org/abs/2309.16401v1 )

ライセンス: Link先を確認
Thorsten Gl\"usenkamp (for the RNO-G collaboration)(参考訳) グリーンランドのラジオニュートリノ観測所(Radio Neutrino Observatory in Greenland, RNO-G)は、グリーンランドのサミット・ステーションにある超高エネルギーニュートリノ検出器である。 現在も7つの駅が運営されている。 ニュートリノ検出はニュートリノ-核子相互作用によって生じるアスカリヤ放射を測定することによって行われる。 ニュートリノの候補は、宇宙線や人為的ノイズなど、より高い速度で記録されている他の背景の中で見つけなければならない。 本稿では,変分オートエンコーダの潜時空間を用いて,異なるノイズクラスを分類する手法について述べる。 潜在空間は、分類を抽出可能なコンパクト表現を形成する。 我々はうるさいと静かな局からのデータを分析する。 本手法は,騒音と静局の両方に対して,物理的風による信号を含む複数のイベントを定性的に検出し,分離する。

The Radio Neutrino Observatory in Greenland (RNO-G) is a radio-based ultra-high energy neutrino detector located at Summit Station, Greenland. It is still being constructed, with 7 stations currently operational. Neutrino detection works by measuring Askaryan radiation produced by neutrino-nucleon interactions. A neutrino candidate must be found amidst other backgrounds which are recorded at much higher rates -- including cosmic-rays and anthropogenic noise -- the origins of which are sometimes unknown. Here we describe a method to classify different noise classes using the latent space of a variational autoencoder. The latent space forms a compact representation that makes classification tractable. We analyze data from a noisy and a silent station. The method automatically detects and allows us to qualitatively separate multiple event classes, including physical wind-induced signals, for both the noisy and the quiet station.
翻訳日:2023-09-29 14:26:03 公開日:2023-09-28
# プラズマ乱流の物理保存ai加速シミュレーション

Physics-Preserving AI-Accelerated Simulations of Plasma Turbulence ( http://arxiv.org/abs/2309.16400v1 )

ライセンス: Link先を確認
Robin Greif, Frank Jenko, Nils Thuerey(参考訳) 流体、気体、プラズマの乱流は、実用的かつ基本的に重要な問題である。 その既約複雑性は通常、ブルートフォーススタイルで計算的に取り組めない。 ここでは,大規模渦シミュレーション(les)手法と機械学習(ml)を組み合わせることで,最大ダイナミクスのみを明示的に保持し,小規模ダイナミクスをmlベースのサブグリッドスケールモデルで記述する。 この手法を自己駆動型プラズマ乱流に適用することにより、慣性範囲の大部分を除去し、乱流系の統計的物理的特性を維持しながら、計算労力を約3桁削減することができる。

Turbulence in fluids, gases, and plasmas remains an open problem of both practical and fundamental importance. Its irreducible complexity usually cannot be tackled computationally in a brute-force style. Here, we combine Large Eddy Simulation (LES) techniques with Machine Learning (ML) to retain only the largest dynamics explicitly, while small-scale dynamics are described by an ML-based sub-grid-scale model. Applying this novel approach to self-driven plasma turbulence allows us to remove large parts of the inertial range, reducing the computational effort by about three orders of magnitude, while retaining the statistical physical properties of the turbulent system.
翻訳日:2023-09-29 14:25:50 公開日:2023-09-28
# 集中型ディープラーニングにおけるディファレンシャルプライバシの最近の進歩:系統的調査

Recent Advances of Differential Privacy in Centralized Deep Learning: A Systematic Survey ( http://arxiv.org/abs/2309.16398v1 )

ライセンス: Link先を確認
Lea Demelius, Roman Kern, Andreas Tr\"ugler(参考訳) 微分プライバシーは、特に厳密な数学的プライバシー保証を定式化できるため、機械学習におけるデータ保護の一般的な方法となっている。 この調査は、偏りのある私的深層学習の現状の概要、最近の進歩とオープンな問題の徹底的な分析、およびこの分野における今後の発展の可能性に関する議論を提供する。 組織的な文献レビューに基づいて、プライベートモデルの監査と評価方法、プライバシとユーティリティのトレードオフの改善、幅広い脅威や攻撃に対する保護、微分プライベートな生成モデル、新興アプリケーションドメインといったトピックに対処する。

Differential Privacy has become a widely popular method for data protection in machine learning, especially since it allows formulating strict mathematical privacy guarantees. This survey provides an overview of the state-of-the-art of differentially private centralized deep learning, thorough analyses of recent advances and open problems, as well as a discussion of potential future developments in the field. Based on a systematic literature review, the following topics are addressed: auditing and evaluation methods for private models, improvements of privacy-utility trade-offs, protection against a broad range of threats and attacks, differentially private generative models, and emerging application domains.
翻訳日:2023-09-29 14:25:38 公開日:2023-09-28
# 双方向選挙と個人視点による連合学習におけるバックドア攻撃への抵抗

Resisting Backdoor Attacks in Federated Learning via Bidirectional Elections and Individual Perspective ( http://arxiv.org/abs/2309.16456v1 )

ライセンス: Link先を確認
Zhen Qin, Feiyi Chen, Chen Zhi, Xueqiang Yan, Shuiguang Deng(参考訳) フェデレート学習(fl)におけるバックドア攻撃に対する防御手法 a) 感染モデルの影響を軽減すること,又は b) 感染モデルを除くこと 前者はモデルの精度に悪影響を及ぼすが、後者は通常、良性モデルと感染したモデルアップデートの境界がグローバルに明確になる。 しかしながら、モデル更新は、ローカルデータの多様な分布のため、現実的には、混合や分散が容易である。 本研究はflの感染モデルを排除することに焦点を当てる。 従来の世界的視点とは違って,Snowballは,私たちによる1つの原則と,FLとディープラーニングの2つの原則に着想を得た,双方向の選挙を通じて,新たな反バックドアFLフレームワークを提案する。 特徴的である。 a) 各候補者モデルが、いくつかのモデル更新が集計の選任者として選出されるように、複数のピアに投票するボトムアップ選挙 b) トップダウン選挙では、候補者の選任により、選任者が徐々に拡大する。 5つの実世界のデータセット上でのflのバックドア攻撃と比較し,バックドア攻撃に対する優れた抵抗とグローバルモデルの正確性への影響を示した。

Existing approaches defend against backdoor attacks in federated learning (FL) mainly through a) mitigating the impact of infected models, or b) excluding infected models. The former negatively impacts model accuracy, while the latter usually relies on globally clear boundaries between benign and infected model updates. However, model updates are easy to be mixed and scattered throughout in reality due to the diverse distributions of local data. This work focuses on excluding infected models in FL. Unlike previous perspectives from a global view, we propose Snowball, a novel anti-backdoor FL framework through bidirectional elections from an individual perspective inspired by one principle deduced by us and two principles in FL and deep learning. It is characterized by a) bottom-up election, where each candidate model update votes to several peer ones such that a few model updates are elected as selectees for aggregation; and b) top-down election, where selectees progressively enlarge themselves through picking up from the candidates. We compare Snowball with state-of-the-art defenses to backdoor attacks in FL on five real-world datasets, demonstrating its superior resistance to backdoor attacks and slight impact on the accuracy of the global model.
翻訳日:2023-09-29 14:20:49 公開日:2023-09-28
# 対人ロバスト性と行動可能な説明とのトレードオフについて

On the Trade-offs between Adversarial Robustness and Actionable Explanations ( http://arxiv.org/abs/2309.16452v1 )

ライセンス: Link先を確認
Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju(参考訳) 機械学習モデルは、さまざまなハイテイクな設定でますます採用されているため、これらのモデルの予測が逆向きに堅牢であるだけでなく、関連するステークホルダーにも容易に説明できることが重要になる。 しかし、これら2つの概念が同時に達成できるのか、あるいはそれらの間にトレードオフが存在するのかは不明である。 本研究は、エンドユーザーが会話の手段を提供する行動可能な説明に対して、逆向きに頑健なモデルが与える影響を研究するための最初の試みである。 提案手法は, モデルが逆向きに頑健である場合, 最先端のアルゴリズムが出力するリコースのコスト(実装結果)と妥当性(正のモデル予測の確率)を理論的かつ実証的に分析する。 より具体的には、非ロバスト線形および非線形モデルに対して、最先端アルゴリズムが生成するリコースのコストと妥当性の差に関する理論的境界を導出する。 複数の実世界のデータセットによる実験結果は、我々の理論的結果を評価し、その結果のコストと妥当性に様々なモデルロバスト性の影響を示す。 分析の結果, 対向ロバストモデルがコストを大幅に増加させ, 結果の妥当性を低下させることで, 対向ロバスト性と作用可能な説明とのトレードオフに光を当てることが判明した。

As machine learning models are increasingly being employed in various high-stakes settings, it becomes important to ensure that predictions of these models are not only adversarially robust, but also readily explainable to relevant stakeholders. However, it is unclear if these two notions can be simultaneously achieved or if there exist trade-offs between them. In this work, we make one of the first attempts at studying the impact of adversarially robust models on actionable explanations which provide end users with a means for recourse. We theoretically and empirically analyze the cost (ease of implementation) and validity (probability of obtaining a positive model prediction) of recourses output by state-of-the-art algorithms when the underlying models are adversarially robust vs. non-robust. More specifically, we derive theoretical bounds on the differences between the cost and the validity of the recourses generated by state-of-the-art algorithms for adversarially robust vs. non-robust linear and non-linear models. Our empirical results with multiple real-world datasets validate our theoretical results and show the impact of varying degrees of model robustness on the cost and validity of the resulting recourses. Our analyses demonstrate that adversarially robust models significantly increase the cost and reduce the validity of the resulting recourses, thus shedding light on the inherent trade-offs between adversarial robustness and actionable explanations
翻訳日:2023-09-29 14:20:25 公開日:2023-09-28
# 新しいクラス発見に向けて:新しい皮膚病変クラスタリングに関する研究

Towards Novel Class Discovery: A Study in Novel Skin Lesions Clustering ( http://arxiv.org/abs/2309.16451v1 )

ライセンス: Link先を確認
Wei Feng, Lie Ju, Lin Wang, Kaimin Song, Zongyuan Ge(参考訳) 既存の深層学習モデルは皮膚画像から皮膚疾患を認識する上で有望な性能を達成した。 しかし、これらのモデルは事前に定義されたカテゴリのサンプルのみを認識でき、クリニックにデプロイされると、新しい未知のカテゴリからのデータが常に現れている。 したがって、新しいデータから新しい意味カテゴリーを自動的に発見し、識別することが重要である。 本稿では,既知のクラス知識に基づいてdermoscopy画像データセットから新しい意味クラスを自動的に発見する新しいクラス発見フレームワークを提案する。 具体的には、まずコントラスト学習を用いて、既知のカテゴリと未知のカテゴリの全データに基づいて、頑健で偏りのない特徴表現を学習する。 次に,不確実性を考慮した多視点クロス仮想スーパービジョン戦略を提案し,自己ラベル戦略によって生成された疑似ラベルを用いて,全データカテゴリを共同で学習する。 最後に,局所的なサンプル類似性を通じて周辺情報を集約することで,疑似ラベルをさらに洗練し,未知のカテゴリに対するモデルのクラスタリング性能を向上させる。 皮膚科学データセットISIC 2019について広範な実験を行い,本手法が既知のカテゴリからの知識を有効活用し,新たな意味カテゴリーを発見できることを実験的に示した。 また,広範囲なアブレーション実験により,異なるモジュールの有効性を検証した。 私たちのコードはまもなくリリースされます。

Existing deep learning models have achieved promising performance in recognizing skin diseases from dermoscopic images. However, these models can only recognize samples from predefined categories, when they are deployed in the clinic, data from new unknown categories are constantly emerging. Therefore, it is crucial to automatically discover and identify new semantic categories from new data. In this paper, we propose a new novel class discovery framework for automatically discovering new semantic classes from dermoscopy image datasets based on the knowledge of known classes. Specifically, we first use contrastive learning to learn a robust and unbiased feature representation based on all data from known and unknown categories. We then propose an uncertainty-aware multi-view cross pseudo-supervision strategy, which is trained jointly on all categories of data using pseudo labels generated by a self-labeling strategy. Finally, we further refine the pseudo label by aggregating neighborhood information through local sample similarity to improve the clustering performance of the model for unknown categories. We conducted extensive experiments on the dermatology dataset ISIC 2019, and the experimental results show that our approach can effectively leverage knowledge from known categories to discover new semantic categories. We also further validated the effectiveness of the different modules through extensive ablation experiments. Our code will be released soon.
翻訳日:2023-09-29 14:19:57 公開日:2023-09-28
# 空間回帰のための擬似, 計算効率の良い機械学習手法

A parsimonious, computationally efficient machine learning method for spatial regression ( http://arxiv.org/abs/2309.16448v1 )

ライセンス: Link先を確認
Milan \v{Z}ukovi\v{c} and Dionissios T. Hristopulos(参考訳) 本研究では,空間的・時間的回帰のための物理的にインスパイアされた機械学習手法であるMPRS(Modified Planar rotator Method)を導入する。 MPRSは、空間的あるいは時間的相関を、基礎となる確率分布の特定の形式を仮定することなく、短距離、距離依存の ``interactions'' を介して組み込む非パラメトリックモデルである。 予測は、平衡条件のモンテカルロシミュレーションを利用する完全自律学習アルゴリズムを用いて得られる。 MPRSは散在するデータと任意の空間次元を処理できる。 我々は,MPRS予測性能(パラメータ調整なしで)が通常のクリグや逆距離重み付けのような標準的な補間法と競合することを示す,1次元,2次元,3次元の各種合成語および実単語データの試験を報告する。 特にmprsは、粗度および非ガウジアンデータ(例えば、日降水量時系列)に対して特に効果的なギャップ充填法である。 MPRSは大規模なサンプルに対して優れた計算効率とスケーラビリティを示す。 数百万のノードを含む大量のデータセットは、標準的なパーソナルコンピュータで数秒で処理できる。

We introduce the modified planar rotator method (MPRS), a physically inspired machine learning method for spatial/temporal regression. MPRS is a non-parametric model which incorporates spatial or temporal correlations via short-range, distance-dependent ``interactions'' without assuming a specific form for the underlying probability distribution. Predictions are obtained by means of a fully autonomous learning algorithm which employs equilibrium conditional Monte Carlo simulations. MPRS is able to handle scattered data and arbitrary spatial dimensions. We report tests on various synthetic and real-word data in one, two and three dimensions which demonstrate that the MPRS prediction performance (without parameter tuning) is competitive with standard interpolation methods such as ordinary kriging and inverse distance weighting. In particular, MPRS is a particularly effective gap-filling method for rough and non-Gaussian data (e.g., daily precipitation time series). MPRS shows superior computational efficiency and scalability for large samples. Massive data sets involving millions of nodes can be processed in a few seconds on a standard personal computer.
翻訳日:2023-09-29 14:19:36 公開日:2023-09-28
# 計画のためのニューロシンボリック推論:大規模言語モデルと満足度解法を用いた反例誘導帰納的合成

Neuro Symbolic Reasoning for Planning: Counterexample Guided Inductive Synthesis using Large Language Models and Satisfiability Solving ( http://arxiv.org/abs/2309.16436v1 )

ライセンス: Link先を確認
Sumit Kumar Jha, Susmit Jha, Patrick Lincoln, Nathaniel D. Bastian, Alvaro Velasquez, Rickard Ewetz, Sandeep Neema(参考訳) gpt-4のようなインストラクショントレーニングを備えた生成型大言語モデル(llm)は、人間の指示に従って、これらのプロンプトに対する人間的な応答を生成することができる。 自然言語応答とは別に、コードや計画、論理仕様といった形式的なアーティファクトを自然言語プロンプトから生成する上でも有効であることが判明した。 精度が著しく改善されているにもかかわらず、これらのモデルは、構文的コヒーレンスにもかかわらず、事実的に誤りまたは文脈的に不適切な結果をもたらすことが知られている。 この制限により、これらのモデルを使用して安全クリティカルなアプリケーションで使用される形式的なアーティファクトを合成することが困難になる。 テキスト要約や質問回答のようなタスクとは異なり、LLMが生成するコードや計画、その他の形式的なアーティファクトのバグは破滅的です。 我々は,SMT法を導出的推論エンジンとして利用して,LLMから生成した解を解析し,解が正しくない場合に逆例を生成できることを仮定し,インストラクション学習されたLLMのダイアログ機能を利用したLLMへのフィードバックを提供する。 インダクティブLLMとインダクティブSMTソルバとのこの相互作用は、LLMを反復的に操り、正しい応答を生成する。 実験では,ブロック領域上のプランニングを,我々のアプローチを評価するための合成タスクとして利用した。 GPT-4, GPT3.5 Turbo, Davinci, Curie, Babbage, Ada をLSM, Z3 をSMTソルバとして使用する。 本手法では,smtソルバへのクエリの定式化も自然言語から自動的に生成するので,ユーザが自然言語で計画問題を伝えることができる。 提案手法により,非熟練者が自然言語で問題を記述できるようになり,LLMとSMTの解法を組み合わせることで,有効に正しい解が得られる。

Generative large language models (LLMs) with instruct training such as GPT-4 can follow human-provided instruction prompts and generate human-like responses to these prompts. Apart from natural language responses, they have also been found to be effective at generating formal artifacts such as code, plans, and logical specifications from natural language prompts. Despite their remarkably improved accuracy, these models are still known to produce factually incorrect or contextually inappropriate results despite their syntactic coherence - a phenomenon often referred to as hallucination. This limitation makes it difficult to use these models to synthesize formal artifacts that are used in safety-critical applications. Unlike tasks such as text summarization and question-answering, bugs in code, plan, and other formal artifacts produced by LLMs can be catastrophic. We posit that we can use the satisfiability modulo theory (SMT) solvers as deductive reasoning engines to analyze the generated solutions from the LLMs, produce counterexamples when the solutions are incorrect, and provide that feedback to the LLMs exploiting the dialog capability of instruct-trained LLMs. This interaction between inductive LLMs and deductive SMT solvers can iteratively steer the LLM to generate the correct response. In our experiments, we use planning over the domain of blocks as our synthesis task for evaluating our approach. We use GPT-4, GPT3.5 Turbo, Davinci, Curie, Babbage, and Ada as the LLMs and Z3 as the SMT solver. Our method allows the user to communicate the planning problem in natural language; even the formulation of queries to SMT solvers is automatically generated from natural language. Thus, the proposed technique can enable non-expert users to describe their problems in natural language, and the combination of LLMs and SMT solvers can produce provably correct solutions.
翻訳日:2023-09-29 14:19:18 公開日:2023-09-28
# Radar Instance Transformer: Sparse Radar Point Cloudsにおける信頼性の高い移動インスタンスセグメンテーション

Radar Instance Transformer: Reliable Moving Instance Segmentation in Sparse Radar Point Clouds ( http://arxiv.org/abs/2309.16435v1 )

ライセンス: Link先を確認
Matthias Zeller and Vardeep S. Sandhu and Benedikt Mersch and Jens Behley and Michael Heidingsfeld and Cyrill Stachniss(参考訳) 移動物体の知覚は、動的環境下で衝突回避を行う自律ロボットにとって不可欠である。 LiDARやカメラは、シーンの解釈を著しく強化するが、直接の動作情報や、悪天候下での対面制限は提供しない。 レーダーセンサーはこれらの制限を克服し、ドップラー速度を提供し、動的物体の直接情報を提供する。 本稿では,安全クリティカルなタスクのシーン解釈を強化するため,レーダーポイント雲におけるインスタンス分割の移動問題に対処する。 私たちのRadar Instance Transformerは、ニューラルネットワークを介して集約されたスキャンを渡すことなく、現在のレーダースキャンを時間情報で強化します。 スパースポイントクラウド処理における情報損失を防止するためのバックボーンを提案する。 インスタンストランスフォーマーヘッドにはセグメンテーションを強化するために不可欠な情報が含まれていますが、信頼性があり、クラスに依存しないインスタンス割り当ても可能です。 まとめると、このアプローチは、多様な環境を含む新しい移動インスタンスセグメンテーションベンチマークにおいて優れたパフォーマンスを示し、シーン解釈を強化するモデル非依存モジュールを提供する。 ベンチマークはradarscenesデータセットに基づいており、受け入れられると利用可能になる。

The perception of moving objects is crucial for autonomous robots performing collision avoidance in dynamic environments. LiDARs and cameras tremendously enhance scene interpretation but do not provide direct motion information and face limitations under adverse weather. Radar sensors overcome these limitations and provide Doppler velocities, delivering direct information on dynamic objects. In this paper, we address the problem of moving instance segmentation in radar point clouds to enhance scene interpretation for safety-critical tasks. Our Radar Instance Transformer enriches the current radar scan with temporal information without passing aggregated scans through a neural network. We propose a full-resolution backbone to prevent information loss in sparse point cloud processing. Our instance transformer head incorporates essential information to enhance segmentation but also enables reliable, class-agnostic instance assignments. In sum, our approach shows superior performance on the new moving instance segmentation benchmarks, including diverse environments, and provides model-agnostic modules to enhance scene interpretation. The benchmark is based on the RadarScenes dataset and will be made available upon acceptance.
翻訳日:2023-09-29 14:18:46 公開日:2023-09-28
# qsethが再び攻撃:格子問題、強いシミュレーション、集合問題に対するより細かい量子下限

QSETH strikes again: finer quantum lower bounds for lattice problem, strong simulation, hitting set problem, and more ( http://arxiv.org/abs/2309.16431v1 )

ライセンス: Link先を確認
Yanlin Chen, Yilei Chen, Rajendra Kumar, Subhasree Patro, Florian Speelman(参考訳) 一見望ましくないように見えるが、量子コンピュータがそれぞれの古典的コンピュータに対して計算上の優位性がないという問題が存在することは驚くべき事実ではない。 さらに、現在の量子ハードウェアでは「有用な」計算上の優位性がないという問題がある。 しかし、量子コンピュータに特定の問題を素早く解決させたくなければ、この状況は有益である。 このような状況下では、量子コンピュータ上でこれらの問題を解決することが難しいという証拠を持ちたいと思いますが、その正確な複雑さは何ですか? そのためには、下限を証明しなければならないが、無条件時間下限を証明するのは容易ではない。 その結果、条件付き下界へのアプローチは古典的なコミュニティでは非常に人気があり、量子コミュニティでは勢いが増している。 本稿では,QSETH フレームワーク [Buhrman-Patro-Speelman 2021] を用いて,パリティ-CNFSAT やカウント-CNFSAT などの CNFSAT の自然変種の量子複雑性を理解することができ,また近似#CNFSAT の非自明な複雑さについてコメントすることができる。 本プロセスでは,QSETHフレームワークを元の論文で論じられた(要求および要求)よりも詳細に検討し,QSETHフレームワークを効果的に利用する上で有用なガイドとして機能する。

While seemingly undesirable, it is not a surprising fact that there are certain problems for which quantum computers offer no computational advantage over their respective classical counterparts. Moreover, there are problems for which there is no `useful' computational advantage possible with the current quantum hardware. This situation however can be beneficial if we don't want quantum computers to solve certain problems fast - say problems relevant to post-quantum cryptography. In such a situation, we would like to have evidence that it is difficult to solve those problems on quantum computers; but what is their exact complexity? To do so one has to prove lower bounds, but proving unconditional time lower bounds has never been easy. As a result, resorting to conditional lower bounds has been quite popular in the classical community and is gaining momentum in the quantum community. In this paper, by the use of the QSETH framework [Buhrman-Patro-Speelman 2021], we are able to understand the quantum complexity of a few natural variants of CNFSAT, such as parity-CNFSAT or counting-CNFSAT, and also are able to comment on the non-trivial complexity of approximate-#CNFSAT; both of these have interesting implications about the complexity of (variations of) lattice problems, strong simulation and hitting set problem, and more. In the process, we explore the QSETH framework in greater detail than was (required and) discussed in the original paper, thus also serving as a useful guide on how to effectively use the QSETH framework.
翻訳日:2023-09-29 14:18:16 公開日:2023-09-28
# テキストからビデオへのモデル適応による多種多様な音声対ビデオ生成

Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation ( http://arxiv.org/abs/2309.16429v1 )

ライセンス: Link先を確認
Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi(参考訳) 多様な意味クラスから自然音声サンプルを導いた多様でリアルな映像を生成する作業について考察する。 この作業のためには、ビデオは、グローバルかつ時間的に、入力された音声に合わせる必要がある:グローバルに、入力されたオーディオは、出力されたビデオ全体とセマンティックに関連付けられ、時間的に、入力されたオーディオの各セグメントは、そのビデオの対応するセグメントに関連付けられている。 既存のテキスト条件付きビデオ生成モデルと事前学習したオーディオエンコーダモデルを用いる。 提案手法は,テキストからビデオへの生成モデルで期待される入力表現にオーディオベースの表現をマッピングすることを学ぶ軽量適応ネットワークに基づいている。 そのため、テキスト、オーディオ、そして初めて確認できる限り初めて、テキストとオーディオの両方でビデオを生成することができる。 提案手法は,音声-ビデオサンプルの有意な意味的多様性を示す3つのデータセット上で広く検証され,さらに,生成された映像と入力音声サンプルのアラインメントを評価するための新しい評価指標(av-align)を提案する。 AV-Alignは両方のモードにおけるエネルギーピークの検出と比較に基づいている。 最近の最先端のアプローチと比較して,本手法は,コンテンツと時間軸の両方において,入力音に合致した映像を生成する。 また,本手法で生成した映像は高い視覚品質を示し,より多様であることを示す。

We consider the task of generating diverse and realistic videos guided by natural audio samples from a wide variety of semantic classes. For this task, the videos are required to be aligned both globally and temporally with the input audio: globally, the input audio is semantically associated with the entire output video, and temporally, each segment of the input audio is associated with a corresponding segment of that video. We utilize an existing text-conditioned video generation model and a pre-trained audio encoder model. The proposed method is based on a lightweight adaptor network, which learns to map the audio-based representation to the input representation expected by the text-to-video generation model. As such, it also enables video generation conditioned on text, audio, and, for the first time as far as we can ascertain, on both text and audio. We validate our method extensively on three datasets demonstrating significant semantic diversity of audio-video samples and further propose a novel evaluation metric (AV-Align) to assess the alignment of generated videos with input audio samples. AV-Align is based on the detection and comparison of energy peaks in both modalities. In comparison to recent state-of-the-art approaches, our method generates videos that are better aligned with the input sound, both with respect to content and temporal axis. We also show that videos produced by our method present higher visual quality and are more diverse.
翻訳日:2023-09-29 14:17:12 公開日:2023-09-28
# インクリメンタルISSシステムの非線形MPC設計とGRUネットワークへの応用

Nonlinear MPC design for incrementally ISS systems with application to GRU networks ( http://arxiv.org/abs/2309.16428v1 )

ライセンス: Link先を確認
Fabio Bonassi, Alessio La Bella, Marcello Farina, Riccardo Scattolini(参考訳) 本稿では、指数関数的にインクリメンタルな入力-状態安定(ISS)システムのための非線形モデル予測制御(NMPC)戦略の設計について述べる。 特に、終端成分の有意な計算を必要とせず、閉ループ安定性を保証する最小予測地平線の明示的な定義に依存する、新しい定式化が考案された。 設計手法は、リカレントニューラルネットワーク(RNN)によって学習されたシステムの制御に特に適しており、モデリング能力の強化と、単純な代数的条件によりISS特性の漸進性を研究することができる。 このアプローチは Gated Recurrent Unit (GRU) ネットワークに適用され、収束保証を備えた調整状態オブザーバの設計方法も提供する。 結果の制御アーキテクチャはベンチマークシステムでテストされ、優れた制御性能と効率的な適用性を示す。

This brief addresses the design of a Nonlinear Model Predictive Control (NMPC) strategy for exponentially incremental Input-to-State Stable (ISS) systems. In particular, a novel formulation is devised, which does not necessitate the onerous computation of terminal ingredients, but rather relies on the explicit definition of a minimum prediction horizon ensuring closed-loop stability. The designed methodology is particularly suited for the control of systems learned by Recurrent Neural Networks (RNNs), which are known for their enhanced modeling capabilities and for which the incremental ISS properties can be studied thanks to simple algebraic conditions. The approach is applied to Gated Recurrent Unit (GRU) networks, providing also a method for the design of a tailored state observer with convergence guarantees. The resulting control architecture is tested on a benchmark system, demonstrating its good control performances and efficient applicability.
翻訳日:2023-09-29 14:16:42 公開日:2023-09-28
# Prompt-and-Align:Few-Shot Fakeニュース検出のためのPrompt-based Socialアライメント

Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News Detection ( http://arxiv.org/abs/2309.16424v1 )

ライセンス: Link先を確認
Jiaying Wu, Shen Li, Ailin Deng, Miao Xiong, Bryan Hooi(参考訳) ニュースのタイムリーな性質のため、自動フェイクニュース検出の大幅な進歩にもかかわらず、限られたファクトチェックに基づいてニュース記事の有効性を効果的に予測する方法は、依然として決定的な疑問である。 既存のアプローチは通常、"トレイン・トゥ・スクラッチ(train-from-scratch)"パラダイムに従っている。 表現型事前学習言語モデル(plm)は「事前訓練と微調整」の方法で適応されているが、事前訓練と下流目標の矛盾もまたコストのかかるタスク固有の監督を必要とする。 本稿では,PLMにおける事前学習知識と社会的文脈トポロジーを併用した,数発のフェイクニュース検出のための新しいプロンプトベースパラダイムであるPrompt-and-Align(P&A)を提案する。 提案手法では,ニュース記事をタスク関連テキストプロンプトにラップすることでラベル不足を軽減し,PLMがタスク固有の知識を直接抽出する。 PLMを付加的なトレーニングオーバーヘッドを生じさせることなく補うために、利用者の正確性に関する経験的な観察(例えば、ソーシャルユーザが同じ正確性タイプのニュースを消費する傾向にある)により、ニュース記事間でニュース近接グラフを構築し、共有読者の正確性に一貫性のある信号を捕捉し、グラフエッジに沿った予測を自信的に調整する。 3つの実世界のベンチマークに関する広範囲な実験により、p&aは新しい最先端のフェイクニュース検出性能をかなりのマージンで設定できることが示されている。

Despite considerable advances in automated fake news detection, due to the timely nature of news, it remains a critical open question how to effectively predict the veracity of news articles based on limited fact-checks. Existing approaches typically follow a "Train-from-Scratch" paradigm, which is fundamentally bounded by the availability of large-scale annotated data. While expressive pre-trained language models (PLMs) have been adapted in a "Pre-Train-and-Fine-Tune" manner, the inconsistency between pre-training and downstream objectives also requires costly task-specific supervision. In this paper, we propose "Prompt-and-Align" (P&A), a novel prompt-based paradigm for few-shot fake news detection that jointly leverages the pre-trained knowledge in PLMs and the social context topology. Our approach mitigates label scarcity by wrapping the news article in a task-related textual prompt, which is then processed by the PLM to directly elicit task-specific knowledge. To supplement the PLM with social context without inducing additional training overheads, motivated by empirical observation on user veracity consistency (i.e., social users tend to consume news of the same veracity type), we further construct a news proximity graph among news articles to capture the veracity-consistent signals in shared readerships, and align the prompting predictions along the graph edges in a confidence-informed manner. Extensive experiments on three real-world benchmarks demonstrate that P&A sets new states-of-the-art for few-shot fake news detection performance by significant margins.
翻訳日:2023-09-29 14:16:18 公開日:2023-09-28
# 重み付きデータに基づく高次元ロバストレグレッション:漸近性と普遍性

High-dimensional robust regression under heavy-tailed data: Asymptotics and Universality ( http://arxiv.org/abs/2309.16476v1 )

ライセンス: Link先を確認
Urte Adomaityte and Leonardo Defilippis and Bruno Loureiro and Gabriele Sicuro(参考訳) 共変量および応答関数の重み付き汚染の存在下での頑健な回帰推定器の高次元特性について検討した。 特に,2次・高次モーメントが存在しない場合を含む楕円共変量および雑音データ分布に基づいて訓練したM-推定器の鋭い漸近特性について述べる。 その結果, 位置パラメータ$\delta$を最適に調整したフーバー損失は, 重み付き雑音の存在下では最適であり, 最適性能を達成するためのさらなる正規化の必要性を浮き彫りにした。 この結果はまた、サンプルの複雑さと汚染の関数として$\delta$の奇妙な遷移の存在を明らかにする。 さらに,リッジ回帰の過度リスクに対する減衰率を導出する。 有限第2モーメントを持つ雑音分布に対して最適かつ普遍的であるが、共変量第2モーメントが存在しない場合、その減衰速度は著しく高速であることを示す。 最後に,混合モデル上で訓練された任意の凸正規化を伴う一般化線形推定のような,よりリッチなモデルとデータ分布に容易に一般化できることを示す。

We investigate the high-dimensional properties of robust regression estimators in the presence of heavy-tailed contamination of both the covariates and response functions. In particular, we provide a sharp asymptotic characterisation of M-estimators trained on a family of elliptical covariate and noise data distributions including cases where second and higher moments do not exist. We show that, despite being consistent, the Huber loss with optimally tuned location parameter $\delta$ is suboptimal in the high-dimensional regime in the presence of heavy-tailed noise, highlighting the necessity of further regularisation to achieve optimal performance. This result also uncovers the existence of a curious transition in $\delta$ as a function of the sample complexity and contamination. Moreover, we derive the decay rates for the excess risk of ridge regression. We show that, while it is both optimal and universal for noise distributions with finite second moment, its decay rate can be considerably faster when the covariates' second moment does not exist. Finally, we show that our formulas readily generalise to a richer family of models and data distributions, such as generalised linear estimation with arbitrary convex regularisation trained on mixture models.
翻訳日:2023-09-29 14:08:34 公開日:2023-09-28
# テンソルネットワークからの回路対ハミルトニアンと耐障害性

Circuit-to-Hamiltonian from tensor networks and fault tolerance ( http://arxiv.org/abs/2309.16475v1 )

ライセンス: Link先を確認
Anurag Anshu, Nikolas P. Breuckmann, Quynh T. Nguyen(参考訳) 任意の量子回路から基底状態が量子計算を符号化する局所ハミルトニアンへの写像を定義する。 以前の全ての地図はファインマン・キタエフ構造に依存しており、計算ステップを追跡する補助的な「クロックレジスター」を導入した。 一方で我々の構成は、関連する親ハミルトニアンのインジェクションテンソルネットワークに依存しており、クロックレジスタの導入を回避している。 これは、独立した確率的ノイズを持つ量子計算のノイズバージョンのみを含む基底状態のコストによって生じる。 量子フォールトトレランス(quantum fault tolerance)を使用することで、これを修正できます。 確率ノイズに加えて,回路奥行きのエネルギー密度が指数関数的に小さい状態は,逆雑音を伴う量子計算のノイズバージョンを符号化することを示す。 また,エネルギー密度が多項式的に小さい'組合せ状態'は,逆雑音を伴う量子計算を符号化することを示した。 これは、エネルギー密度が多項式的に小さい状態が同様の性質を持つことを示す証拠となる。 アプリケーションとして,加法誤差に対する制約型インジェクティブテンソルネットワークはBQPハードであることを示す。 また、QMA検証が対数深度で可能であるという観測と合わせて、量子PCP予想への我々の構成の影響についても論じる。

We define a map from an arbitrary quantum circuit to a local Hamiltonian whose ground state encodes the quantum computation. All previous maps relied on the Feynman-Kitaev construction, which introduces an ancillary `clock register' to track the computational steps. Our construction, on the other hand, relies on injective tensor networks with associated parent Hamiltonians, avoiding the introduction of a clock register. This comes at the cost of the ground state containing only a noisy version of the quantum computation, with independent stochastic noise. We can remedy this - making our construction robust - by using quantum fault tolerance. In addition to the stochastic noise, we show that any state with energy density exponentially small in the circuit depth encodes a noisy version of the quantum computation with adversarial noise. We also show that any `combinatorial state' with energy density polynomially small in depth encodes the quantum computation with adversarial noise. This serves as evidence that any state with energy density polynomially small in depth has a similar property. As an application, we show that contracting injective tensor networks to additive error is BQP-hard. We also discuss the implication of our construction to the quantum PCP conjecture, combining with an observation that QMA verification can be done in logarithmic depth.
翻訳日:2023-09-29 14:08:16 公開日:2023-09-28
# 雇用再割り当て問題のQUBO解決

QUBO Resolution of the Job Reassignment Problem ( http://arxiv.org/abs/2309.16473v1 )

ライセンス: Link先を確認
I\~nigo Perez Delgado, Beatriz Garc\'ia Markaida, Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta(参考訳) 本稿では、JSP(Job Reassignment Problem)のヒューリスティックな解決のためのサブプロブレメーション方式を提案する。 JSPのコスト関数はQUBOハミルトニアンによって記述され、ゲートベースとアニーリング量子コンピュータの両方で実装できる。 k$ジョブのジョブプールでは、$\mathcal{o}(k^2)$バイナリ変数 -qubits -- が、$\mathcal{o}(2^{k^2})$のランタイムの完全な問題を解決するために必要となる。 提示されたヒューリスティックスでは、解決すべき$D$サブプロブレムの平均変数数は$\mathcal{O}(K^2/2D)$、期待される総ランタイム$\mathcal{O}(D2^{K^2/2D})$である。

We present a subproblemation scheme for heuristical solving of the JSP (Job Reassignment Problem). The cost function of the JSP is described via a QUBO hamiltonian to allow implementation in both gate-based and annealing quantum computers. For a job pool of $K$ jobs, $\mathcal{O}(K^2)$ binary variables -- qubits -- are needed to solve the full problem, for a runtime of $\mathcal{O}(2^{K^2})$. With the presented heuristics, the average variable number of each of the $D$ subproblems to solve is $\mathcal{O}(K^2/2D)$, and the expected total runtime $\mathcal{O}(D2^{K^2/2D})$, achieving an exponential speedup.
翻訳日:2023-09-29 14:07:54 公開日:2023-09-28
# リバースエンジニアリングによる非断熱幾何量子計算の機械学習による量子最適制御

Machine-learning-inspired quantum optimal control of nonadiabatic geometric quantum computation via reverse engineering ( http://arxiv.org/abs/2309.16470v1 )

ライセンス: Link先を確認
Meng-Yun Mao and Zheng Cheng and Yan Xia and Andrzej M. Ole\'s and Wen-Long You(参考訳) 量子コンピュータの実用化において、量子制御は相応の役割を果たす。 しかし、より適切で多様な制御パラメータを見つけるためには、いくつかの課題を克服する必要がある。 本稿では,周期的特徴量拡張を持つニューラルネットワークをアンサッツとして用いる制御パラメータを最適化する,有望で一般化可能な平均忠実性に基づく機械学習手法を提案する。 逆工学による単一量子ビットゲートの実装において、三角関数の単純な形における制御パラメータと比較すると、このアプローチは$\pi / 8$ゲート(tゲート)のような位相ゲートよりも高い忠実度 (>99.99\%$$) が得られる。 単一量子ビットゲートは、システマティックノイズ、付加白色ガウスノイズ、デコヒーレンスに対して頑健である。 ニューラルネットワークがモデル空間を拡張する能力を持っていることを数値的に示す。 最適化の助けを借りて、ボソニックシステムにおいて、高い品質のカスケードマルチキュービットゲートを実装するための実現可能な方法を提供する。 したがって、機械学習にインスパイアされた手法は、非断熱幾何学的量子計算の量子最適制御において実現可能である。

Quantum control plays an irreplaceable role in practical use of quantum computers. However, some challenges have to be overcome to find more suitable and diverse control parameters. We propose a promising and generalizable average-fidelity-based machine-learning-inspired method to optimize the control parameters, in which a neural network with periodic feature enhancement is used as an ansatz. In the implementation of a single-qubit gate by cat-state nonadiabatic geometric quantum computation via reverse engineering, compared with the control parameters in the simple form of a trigonometric function, our approach can yield significantly higher-fidelity ($>99.99\%$) phase gates, such as the $\pi / 8$ gate (T gate). Single-qubit gates are robust against systematic noise, additive white Gaussian noise and decoherence. We numerically demonstrate that the neural network possesses the ability to expand the model space. With the help of our optimization, we provide a feasible way to implement cascaded multi-qubit gates with high quality in a bosonic system. Therefore, the machine-learning-inspired method may be feasible in quantum optimal control of nonadiabatic geometric quantum computation.
翻訳日:2023-09-29 14:07:34 公開日:2023-09-28
# システム一般化のための構成プログラム生成

Compositional Program Generation for Systematic Generalization ( http://arxiv.org/abs/2309.16467v1 )

ライセンス: Link先を確認
Tim Klinger and Luke Liu and Soham Dan and Maxwell Crouse and Parikshit Ram and Alexander Gray(参考訳) 構成的一般化は、ごく少数の例から新しい概念を学ぶことができる人間の重要な能力である。 現在ユビキタスなトランスフォーマーを含む機械学習モデルは、このような一般化に苦労し、通常、トレーニング中に意味のある一般化のために概念の数千の例を必要とします。 この人間と人工神経アーキテクチャの能力の違いは、コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャの研究を動機付けている。 CPGには、モジュラリティ、型抽象化、再帰的合成という3つの重要な特徴があり、これにより、数ショットで新しい概念を体系的に一般化し、様々なシーケンスからシーケンスまでの言語タスクで生産的に機能する。 各入力に対して、CPGは入力ドメインの文法とパーサを使用して、それぞれの文法規則が独自の意味モジュール、確率的コピーまたは置換プログラムに割り当てられる型階層を生成する。 同じ階層を持つインスタンスは、同じ構成のプログラムで処理され、異なる階層を持つインスタンスは異なるプログラムで処理される。 CPGはセマンティックモジュールのパラメータを学び、新しいタイプのセマンティックスを漸進的に学習することができる。 入力言語の文脈自由文法と、ソース言語の各単語を出力言語の解釈にマッピングする辞書が与えられると、cpgは標準および極端に少数ショット設定のscanおよびcogsベンチマークで完全な一般化を達成することができる。

Compositional generalization is a key ability of humans that enables us to learn new concepts from only a handful examples. Machine learning models, including the now ubiquitous transformers, struggle to generalize in this way, and typically require thousands of examples of a concept during training in order to generalize meaningfully. This difference in ability between humans and artificial neural architectures, motivates this study on a neuro-symbolic architecture called the Compositional Program Generator (CPG). CPG has three key features: modularity, type abstraction, and recursive composition, that enable it to generalize both systematically to new concepts in a few-shot manner, as well as productively by length on various sequence-to-sequence language tasks. For each input, CPG uses a grammar of the input domain and a parser to generate a type hierarchy in which each grammar rule is assigned its own unique semantic module, a probabilistic copy or substitution program. Instances with the same hierarchy are processed with the same composed program, while those with different hierarchies may be processed with different programs. CPG learns parameters for the semantic modules and is able to learn the semantics for new types incrementally. Given a context-free grammar of the input language and a dictionary mapping each word in the source language to its interpretation in the output language, CPG can achieve perfect generalization on the SCAN and COGS benchmarks, in both standard and extreme few-shot settings.
翻訳日:2023-09-29 14:07:13 公開日:2023-09-28
# 強磁場対生成による極紫外光子絡み込み

Entangling extreme ultraviolet photons through strong field pair generation ( http://arxiv.org/abs/2309.16466v1 )

ライセンス: Link先を確認
Jamison Sloan, Alexey Gorlach, Matan Even Tzur, Nicholas Rivera, Oren Cohen, Ido Kaminer, Marin Solja\v{c}i\'c(参考訳) 絡み合った光子対は、量子情報、計算、気象学にとって重要な資源である。 これらの状態は光周波数で定期的に発生するが、光源は極端紫外線(xuv)と軟x線周波数では顕著に欠如している。 本稿では、高調波発生(hhg)に用いられる強駆動系が、これらの高周波数で絡み合う光子対の多角性源となることを示す。 本研究では、非摂動駆動系からの光子対放出の一般理論を「強磁場対生成(SFPG)」と呼ぶ。 強力に駆動された希ガスは、大きなXUV帯域上で1ショットあたり数千対の絡み合ったペアを生成可能であることを示す。 放出されたペアは、背景のHHG信号と区別するために利用される角度と周波数の特徴的な特性を持つ。 SFPG理論をHHGの3段階モデルに結合し、この対の放出は電子再結合における高周波真空変動の影響から生じることを示す。 SFPGが生成する光は, 香港-奥羽-マンデル相関関係を示し, ヘラルド単一光子アト秒パルスの源として利用することができる。 我々の発見は、量子光学をXUV以降に伝播させる継続的な努力に役立つ。

Entangled photon pairs are a vital resource for quantum information, computation, and metrology. Although these states are routinely generated at optical frequencies, sources of quantum of light are notably lacking at extreme ultraviolet (XUV) and soft X-ray frequencies. Here, we show that strongly driven systems used for high harmonic generation (HHG) can become versatile sources of entangled photon pairs at these high frequencies. We present a general theory of photon pair emission from non-perturbatively driven systems, which we refer to as "strong field pair generation" (SFPG). We show that strongly driven noble gases can generate thousands of entangled pairs per shot over a large XUV bandwidth. The emitted pairs have distinctive properties in angle and frequency, which can be exploited to discriminate them from the background HHG signal. We connect SFPG theory to the three-step-model of HHG, showing that this pair emission originates from the impact of high frequency vacuum fluctuations on electron recombination. The light produced by SFPG exhibits attosecond Hong-Ou-Mandel correlations, and can be leveraged as a source of heralded single photon attosecond pulses. Our findings aid ongoing efforts to propel quantum optics into the XUV and beyond.
翻訳日:2023-09-29 14:06:48 公開日:2023-09-28
# 高次元パラメータ空間における補正探索のためのメタヒューリスティック

A Metaheuristic for Amortized Search in High-Dimensional Parameter Spaces ( http://arxiv.org/abs/2309.16465v1 )

ライセンス: Link先を確認
Dominic Boutet and Sylvain Baillet (Montreal Neurological Institute, McGill University, Montreal QC, Canada)(参考訳) 生体物理系の力学モデルに対するパラメータ推定は依然として難しい問題である。 難解勾配、高次元空間、非線形モデル関数は、一般に大きな計算予算なしで問題となる。 この領域における最近の研究は、その統計分布の下でパラメータを考慮し、最適なパラメータ値の点推定を導出しないベイズ推定法に焦点を当てている。 本稿では,これらのボトルネックに対処するため,特徴量変換(DR-FFIT)から次元的縮小を推し進めるメタヒューリスティックを提案する。 DR-FFITは、高次元空間における勾配自由パラメータ探索を容易にする効率的なサンプリング戦略を実装している。 人工ニューラルネットワークを用いて、モデルの興味のある特徴を識別可能なプロキシを得る。 結果として得られる勾配は、定義されたサンプリング領域内のモデルの局所活性部分空間を推定することができる。 このアプローチは、計算コストの低い高非線形探索空間の高次元化を可能にする。 実験データから, dr-ffitは, 確立されたメタヒューリスティックスに対するランダム探索およびシミュレーション・アニーリングの性能を向上し, すべて実行時のコスト内において, モデルの適合性を向上させることが示された。

Parameter inference for dynamical models of (bio)physical systems remains a challenging problem. Intractable gradients, high-dimensional spaces, and non-linear model functions are typically problematic without large computational budgets. A recent body of work in that area has focused on Bayesian inference methods, which consider parameters under their statistical distributions and therefore, do not derive point estimates of optimal parameter values. Here we propose a new metaheuristic that drives dimensionality reductions from feature-informed transformations (DR-FFIT) to address these bottlenecks. DR-FFIT implements an efficient sampling strategy that facilitates a gradient-free parameter search in high-dimensional spaces. We use artificial neural networks to obtain differentiable proxies for the model's features of interest. The resulting gradients enable the estimation of a local active subspace of the model within a defined sampling region. This approach enables efficient dimensionality reductions of highly non-linear search spaces at a low computational cost. Our test data show that DR-FFIT boosts the performances of random-search and simulated-annealing against well-established metaheuristics, and improves the goodness-of-fit of the model, all within contained run-time costs.
翻訳日:2023-09-29 14:06:29 公開日:2023-09-28
# ドメイン一般化のための多様な目標と貢献スケジューリング

Diverse Target and Contribution Scheduling for Domain Generalization ( http://arxiv.org/abs/2309.16460v1 )

ライセンス: Link先を確認
Shaocong Long, Qianyu Zhou, Chenhao Ying, Lizhuang Ma, Yuan Luo(参考訳) 分散シフトの下での一般化は、コンピュータビジョンにおいて大きな課題である。 ドメイン一般化(DG)のトレーニングターゲットとしてワンホットラベルを直接使うという一般的な慣行は、勾配の矛盾を招き、固有のクラス特性を捉えるには不十分であり、クラス内変異を増大させるのが困難である。 さらに、DGの既存の手法は、主にソース(参照)ドメインの異なる寄与を見落とし、その結果、これらのドメインから不均一に学習する。 これらの問題に対処するため、まずDGにおける勾配衝突の存在を理論的・実証的に分析し、最適化過程における分布シフトと勾配衝突の関係を明らかにする。 本稿では、実証的なソースドメインのリスクからDGの新たな視点を示し、DGの新しいパラダイムであるDTCS(Diverse Target and Contribution Scheduling)を提案する。 dtcsは2つの革新的なモジュールで構成されている: 多様なターゲット監督(dts)と多様な貢献バランス(dcb)であり、1つのホットラベルの共通利用とdgのソースドメインに対する同等の貢献に関連する制限に対処することを目的としている。 具体的には、dtsは異なるソフトラベルをトレーニングターゲットとして採用し、ドメイン間の様々な特徴分布を考慮し、勾配衝突を緩和し、dcbは異なるソースドメインの損失を公平に減少させることで、ソースドメインの貢献を動的にバランスさせる。 4つのベンチマークデータセットを解析した結果,提案手法は最先端手法と比較して競争性能が向上し,DTCSの有効性とメリットが示された。

Generalization under the distribution shift has been a great challenge in computer vision. The prevailing practice of directly employing the one-hot labels as the training targets in domain generalization~(DG) can lead to gradient conflicts, making it insufficient for capturing the intrinsic class characteristics and hard to increase the intra-class variation. Besides, existing methods in DG mostly overlook the distinct contributions of source (seen) domains, resulting in uneven learning from these domains. To address these issues, we firstly present a theoretical and empirical analysis of the existence of gradient conflicts in DG, unveiling the previously unexplored relationship between distribution shifts and gradient conflicts during the optimization process. In this paper, we present a novel perspective of DG from the empirical source domain's risk and propose a new paradigm for DG called Diverse Target and Contribution Scheduling (DTCS). DTCS comprises two innovative modules: Diverse Target Supervision (DTS) and Diverse Contribution Balance (DCB), with the aim of addressing the limitations associated with the common utilization of one-hot labels and equal contributions for source domains in DG. In specific, DTS employs distinct soft labels as training targets to account for various feature distributions across domains and thereby mitigates the gradient conflicts, and DCB dynamically balances the contributions of source domains by ensuring a fair decline in losses of different source domains. Extensive experiments with analysis on four benchmark datasets show that the proposed method achieves a competitive performance in comparison with the state-of-the-art approaches, demonstrating the effectiveness and advantages of the proposed DTCS.
翻訳日:2023-09-29 14:06:04 公開日:2023-09-28
# 知識によるLLMの増強:幻覚予防に関する調査

Augmenting LLMs with Knowledge: A survey on hallucination prevention ( http://arxiv.org/abs/2309.16459v1 )

ライセンス: Link先を確認
Konstantinos Andriopoulos, Johan Pouwelse(参考訳) 大規模事前学習された言語モデルでは、実際の知識をパラメータに格納し、下流自然言語処理タスクを微調整した場合に顕著な結果を得る能力が実証されている。 それでも、正確さで知識にアクセスして操作する能力は制約を受けず、タスク固有のアーキテクチャと比較して、知識集約的なタスクのパフォーマンスの差が生じます。 加えて、オープン研究のフロンティアとして、モデル決定の証明を提供し、最新世界の知識を維持するという課題が続いている。 これらの制限に対処するため、明示的な非パラメトリックメモリに対する異なるアクセス機構を持つ事前学習モデルの統合が、有望なソリューションとして現れている。 この調査は、外部知識ベースや検索エンジンを含む外部知識ソースを活用できるように拡張された言語モデル(LM)の領域を掘り下げるものである。 これらの拡張LMは、欠落したトークンを予測するという標準的な目的に固執する一方で、多種多様でおそらくパラメトリックでない外部モジュールを活用して、従来の言語モデリングパラダイムから離れ、コンテキスト処理能力を増強する。 大規模言語モデルの拡張における現在の進歩を探究し、この新たな研究の方向性は幻覚や根拠のない応答、スケーラビリティの課題など、従来のlmmで一般的な問題に対処する可能性を秘めていると結論づけた。

Large pre-trained language models have demonstrated their proficiency in storing factual knowledge within their parameters and achieving remarkable results when fine-tuned for downstream natural language processing tasks. Nonetheless, their capacity to access and manipulate knowledge with precision remains constrained, resulting in performance disparities on knowledge-intensive tasks when compared to task-specific architectures. Additionally, the challenges of providing provenance for model decisions and maintaining up-to-date world knowledge persist as open research frontiers. To address these limitations, the integration of pre-trained models with differentiable access mechanisms to explicit non-parametric memory emerges as a promising solution. This survey delves into the realm of language models (LMs) augmented with the ability to tap into external knowledge sources, including external knowledge bases and search engines. While adhering to the standard objective of predicting missing tokens, these augmented LMs leverage diverse, possibly non-parametric external modules to augment their contextual processing capabilities, departing from the conventional language modeling paradigm. Through an exploration of current advancements in augmenting large language models with knowledge, this work concludes that this emerging research direction holds the potential to address prevalent issues in traditional LMs, such as hallucinations, un-grounded responses, and scalability challenges.
翻訳日:2023-09-29 14:05:32 公開日:2023-09-28
# universal sleep decoder: 被験者間の覚醒と睡眠の神経表現の調整

Universal Sleep Decoder: Aligning awake and sleep neural representation across subjects ( http://arxiv.org/abs/2309.16457v1 )

ライセンス: Link先を確認
Hui Zheng, Zhongtao Chen, Haiteng Wang, Jianyang Zhou, Lin Zheng, Yunzhe Liu(参考訳) 睡眠中の脳活動から記憶内容を復号することは、長い間神経科学の目標だった。 げっ歯類における睡眠中の記憶の自発的再活性化は、記憶の強化とオフライン学習を支援することが知られているが、人間の記憶再生は、注意深い睡眠データセットの欠如と、覚醒と睡眠の間の神経パターンの実質的な違いのために困難である。 これらの課題に対処するため、我々は新しい認知神経科学実験を設計し、覚醒と睡眠の間に52人の被験者から包括的、注意深い脳波(EEG)データセットを収集した。 このベンチマークデータセットを活用することで、被験者間での覚醒と睡眠の神経表現を調整するユニバーサル睡眠デコーダ(USD)を開発した。 本モデルでは、睡眠データを用いた復号化性能に匹敵する、見えない被験者で最大16.6%のゼロショット精度を実現する。 さらに、試験対象に対する微調整USDではデコード精度が25.9%まで向上し、ベースラインの確率は6.7%よりも大幅に向上した。 モデル比較とアブレーション分析により、我々の設計選択が明らかになる。 (i)覚醒と睡眠の神経信号を統合するための追加の対照目的 (ii)異なる主題を取り入れるプリトレイン・フィニチューンパラダイムは、これらのパフォーマンスに大きく寄与する。 総じて、我々の発見と方法論は睡眠デコードの分野で重要な進歩を示している。

Decoding memory content from brain activity during sleep has long been a goal in neuroscience. While spontaneous reactivation of memories during sleep in rodents is known to support memory consolidation and offline learning, capturing memory replay in humans is challenging due to the absence of well-annotated sleep datasets and the substantial differences in neural patterns between wakefulness and sleep. To address these challenges, we designed a novel cognitive neuroscience experiment and collected a comprehensive, well-annotated electroencephalography (EEG) dataset from 52 subjects during both wakefulness and sleep. Leveraging this benchmark dataset, we developed the Universal Sleep Decoder (USD) to align neural representations between wakefulness and sleep across subjects. Our model achieves up to 16.6% top-1 zero-shot accuracy on unseen subjects, comparable to decoding performances using individual sleep data. Furthermore, fine-tuning USD on test subjects enhances decoding accuracy to 25.9% top-1 accuracy, a substantial improvement over the baseline chance of 6.7%. Model comparison and ablation analyses reveal that our design choices, including the use of (i) an additional contrastive objective to integrate awake and sleep neural signals and (ii) the pretrain-finetune paradigm to incorporate different subjects, significantly contribute to these performances. Collectively, our findings and methodologies represent a significant advancement in the field of sleep decoding.
翻訳日:2023-09-29 14:05:07 公開日:2023-09-28
# トルカ視覚質問応答ベンチマーク

Toloka Visual Question Answering Benchmark ( http://arxiv.org/abs/2309.16511v1 )

ライセンス: Link先を確認
Dmitry Ustalov and Nikita Pavlichenko and Sergey Koshelev and Daniil Likhobaba and Alisa Smirnova(参考訳) 本稿では,視覚的質問応答タスクにおいて,機械学習システムの性能と人間のレベルの専門知識を比較するためのクラウドソース型データセットであるToloka Visual Question Answeringを提案する。 このタスクでは、画像とテキストの質問が与えられたら、その質問に正しく応答するオブジェクトの周りに境界ボックスを描く必要がある。 各画像検索ペアは応答を含み、画像毎に1つの正しい応答しか持たない。 私たちのデータセットには45,199対のイメージと質問が含まれており、真理境界ボックスを備え、列車と2つのテストサブセットに分割されています。 データセットの説明とCC BYライセンス下でのリリースに加えて、オープンソースのゼロショットベースラインモデルに関する一連の実験を行い、WSDMカップで多フェーズコンペを開催しました。 しかし、論文提出時までには、組合評価スコアの交点によって、非専門家のクラウドソーシングベースラインを上回った機械学習モデルは存在しなかった。

In this paper, we present Toloka Visual Question Answering, a new crowdsourced dataset allowing comparing performance of machine learning systems against human level of expertise in the grounding visual question answering task. In this task, given an image and a textual question, one has to draw the bounding box around the object correctly responding to that question. Every image-question pair contains the response, with only one correct response per image. Our dataset contains 45,199 pairs of images and questions in English, provided with ground truth bounding boxes, split into train and two test subsets. Besides describing the dataset and releasing it under a CC BY license, we conducted a series of experiments on open source zero-shot baseline models and organized a multi-phase competition at WSDM Cup that attracted 48 participants worldwide. However, by the time of paper submission, no machine learning model outperformed the non-expert crowdsourcing baseline according to the intersection over union evaluation score.
翻訳日:2023-09-29 13:59:31 公開日:2023-09-28
# レイヤーコード

Layer Codes ( http://arxiv.org/abs/2309.16503v1 )

ライセンス: Link先を確認
Dominic J. Williamson and Nou\'edyn Baspin(参考訳) 表面符号は2次元の位相符号であり、2次元の局所性の制約の下で物理キュービット数に最適にスケールするコードパラメータを持つ。 3次元では、類似の単純かつ最適なコードは以前は知られていなかった。 本稿では,安定化器コードを入力とし,関連するコードパラメータを持つ3次元トポロジカルコードを出力する構成法を提案する。 出力符号は1次元接合に沿って結合された表面コードの層によって形成されるトポロジカル欠陥ネットワークであり、最大安定化器チェックウェイトは6である。 入力が良好な低密度パリティチェック符号の族である場合、出力は最適スケーリング符号パラメータと多項式エネルギー障壁を持つ3次元トポロジー符号である。

The surface code is a two dimensional topological code with code parameters that scale optimally with the number of physical qubits, under the constraint of two dimensional locality. In three spatial dimensions an analogous simple yet optimal code was not previously known. Here, we introduce a construction that takes as input a stabilizer code and produces as output a three dimensional topological code with related code parameters. The output codes have the special structure of being topological defect networks formed by layers of surface code joined along one dimensional junctions, with a maximum stabilizer check weight of six. When the input is a family of good low density parity check codes, the output is a three dimensional topological code with optimal scaling code parameters and a polynomial energy barrier.
翻訳日:2023-09-29 13:59:16 公開日:2023-09-28
# ccedit:拡散モデルによる創造的かつ制御可能なビデオ編集

CCEdit: Creative and Controllable Video Editing via Diffusion Models ( http://arxiv.org/abs/2309.16496v1 )

ライセンス: Link先を確認
Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo(参考訳) 本稿では,創造的かつ制御可能なビデオ編集の課題に対処する汎用的なフレームワークであるCCEditを紹介する。 CCEditは、幅広いユーザー編集要件に対応し、ビデオの構造と外観を分離する革新的なアプローチを通じて、創造的な制御を強化する。 基本となるControlNetアーキテクチャを活用して構造的整合性を維持するとともに,DreamBoothやLoRAといったテキスト・ツー・イメージ生成のための最先端のパーソナライズ技術と互換性のある適応可能な時間モジュールをシームレスに統合する。 提案するcceditフレームワークの特筆すべき機能と編集機能に関する広範な実験評価を行った。 デモビデオはhttps://www.youtube.com/watch? v=UQw4jq-igN4。

In this work, we present CCEdit, a versatile framework designed to address the challenges of creative and controllable video editing. CCEdit accommodates a wide spectrum of user editing requirements and enables enhanced creative control through an innovative approach that decouples video structure and appearance. We leverage the foundational ControlNet architecture to preserve structural integrity, while seamlessly integrating adaptable temporal modules compatible with state-of-the-art personalization techniques for text-to-image generation, such as DreamBooth and LoRA.Furthermore, we introduce reference-conditioned video editing, empowering users to exercise precise creative control over video editing through the more manageable process of editing key frames. Our extensive experimental evaluations confirm the exceptional functionality and editing capabilities of the proposed CCEdit framework. Demo video is available at https://www.youtube.com/watch?v=UQw4jq-igN4.
翻訳日:2023-09-29 13:58:25 公開日:2023-09-28
# deep single models vs. ensembles: 駐車監視システムの迅速な展開のための洞察

Deep Single Models vs. Ensembles: Insights for a Fast Deployment of Parking Monitoring Systems ( http://arxiv.org/abs/2309.16495v1 )

ライセンス: Link先を確認
Andre Gustavo Hochuli, Jean Paul Barddal, Gillian Cezar Palhano, Leonardo Matheus Mendes, Paulo Ricardo Lisboa de Almeida(参考訳) 高密度の都市部で利用可能な駐車場を探すことは、最寄りの駐車スペースを事前に知っているシステムによって軽減されるドライバーにとってストレスの多い作業である。 この目的のために、画像ベースのシステムは、他のセンサーベースの代替品(例えば超音波センサー)よりもコスト上の優位性を提供し、設置やメンテナンスのための物理的なインフラを少なくする。 最近のディープラーニングの進歩にもかかわらず、インテリジェントな駐車監視の展開は依然として困難である。 本研究では,多種多様なシナリオにまたがって,利用可能なラベル付き駐車場イメージを用いてトレーニングを行い,新たな環境に展開可能な駐車スペース監視を実現する,グローバルフレームワーク構築の課題を明らかにすることを目的とした。 融合戦略やアンサンブル手法を含む、さまざまなデータセットとディープラーニングアーキテクチャを含む徹底した実験を通じて、多様なデータセットでトレーニングされたモデルは、ターゲットパーキングロットにおけるデータアノテーションやモデルトレーニングの負担なしに95%の精度を達成できることがわかった。

Searching for available parking spots in high-density urban centers is a stressful task for drivers that can be mitigated by systems that know in advance the nearest parking space available. To this end, image-based systems offer cost advantages over other sensor-based alternatives (e.g., ultrasonic sensors), requiring less physical infrastructure for installation and maintenance. Despite recent deep learning advances, deploying intelligent parking monitoring is still a challenge since most approaches involve collecting and labeling large amounts of data, which is laborious and time-consuming. Our study aims to uncover the challenges in creating a global framework, trained using publicly available labeled parking lot images, that performs accurately across diverse scenarios, enabling the parking space monitoring as a ready-to-use system to deploy in a new environment. Through exhaustive experiments involving different datasets and deep learning architectures, including fusion strategies and ensemble methods, we found that models trained on diverse datasets can achieve 95\% accuracy without the burden of data annotation and model training on the target parking lot
翻訳日:2023-09-29 13:58:07 公開日:2023-09-28
# マルチレセプティブフィールド非局所ネットワークによる高精度軽量デハジングと新しいコントラスト正規化

Accurate and lightweight dehazing via multi-receptive-field non-local network and novel contrastive regularization ( http://arxiv.org/abs/2309.16494v1 )

ライセンス: Link先を確認
Zewei He, Zixuan Chen, Ziqian Lu, Xuecheng Sun, Zhe-Ming Lu(参考訳) 近年,深層学習に基づく手法が画像デハジング領域を支配している。 高度なモデルで非常に競争力のあるデハージング性能が達成されているが、有用な特徴を抽出するための効果的なソリューションはまだ探索されていない。 さらに、多くの視覚タスクで突破した非ローカルネットワークは、画像のデハージングに適切に適用されていない。 そこで本稿では,マルチストリーム特徴注意ブロック(MSFAB)とクロス非局所ブロック(CNLB)からなるマルチ受信フィールド非局所ネットワーク(MRFNLN)について述べる。 まず、デヘイジングのためによりリッチな特徴を抽出することから始めます。 具体的には,マルチストリーム特徴抽出(MSFE)サブブロックを設計し,異なる受容領域を持つ3つの並列畳み込み($1\times 1$,$3\times 3$,$5\times 5$)を用いてマルチスケール特徴抽出を行う。 MSFEの後、我々は重要なチャネルや領域に適応的に焦点を合わせるためにアテンションサブブロックを用いる。 MSFEとアテンションサブブロックは当社のMSFABを構成する。 そして、クエリ以外の長距離依存関係をキャプチャできるクロス非ローカルブロック(CNLB)を設計する。 クエリブランチの同じ入力ソースの代わりに、キーと値のブランチは、以前の機能を使って強化される。 CNLBは、空間ピラミッドダウンサンプリング(SPDS)戦略を利用して、性能を犠牲にすることなく計算とメモリ消費を減らすことで、計算に優しい。 最後に、低レベル詳細を強調し、表現空間における高レベル意味情報を無視して、新しい詳細にフォーカスしたコントラスト正規化(dfcr)を示す。 MRFNLNモデルは1.5万パラメータ未満の最近の最先端脱ハージング法よりも優れていた。

Recently, deep learning-based methods have dominated image dehazing domain. Although very competitive dehazing performance has been achieved with sophisticated models, effective solutions for extracting useful features are still under-explored. In addition, non-local network, which has made a breakthrough in many vision tasks, has not been appropriately applied to image dehazing. Thus, a multi-receptive-field non-local network (MRFNLN) consisting of the multi-stream feature attention block (MSFAB) and cross non-local block (CNLB) is presented in this paper. We start with extracting richer features for dehazing. Specifically, we design a multi-stream feature extraction (MSFE) sub-block, which contains three parallel convolutions with different receptive fields (i.e., $1\times 1$, $3\times 3$, $5\times 5$) for extracting multi-scale features. Following MSFE, we employ an attention sub-block to make the model adaptively focus on important channels/regions. The MSFE and attention sub-blocks constitute our MSFAB. Then, we design a cross non-local block (CNLB), which can capture long-range dependencies beyond the query. Instead of the same input source of query branch, the key and value branches are enhanced by fusing more preceding features. CNLB is computation-friendly by leveraging a spatial pyramid down-sampling (SPDS) strategy to reduce the computation and memory consumption without sacrificing the performance. Last but not least, a novel detail-focused contrastive regularization (DFCR) is presented by emphasizing the low-level details and ignoring the high-level semantic information in the representation space. Comprehensive experimental results demonstrate that the proposed MRFNLN model outperforms recent state-of-the-art dehazing methods with less than 1.5 Million parameters.
翻訳日:2023-09-29 13:57:47 公開日:2023-09-28
# 風力発電予測のためのアセットバンドル

Asset Bundling for Wind Power Forecasting ( http://arxiv.org/abs/2309.16492v1 )

ライセンス: Link先を確認
Hanyu Zhang, Mathieu Tanneau, Chaofan Huang, V. Roshan Joseph, Shangkun Wang, Pascal Van Hentenryck(参考訳) アメリカの電力網、特に風力と太陽光発電における断続的、再生可能エネルギーの浸透が増加し、運用上の不確実性が増大する。 その文脈では、正確な予測は特に、大きな変動を示し、予測が歴史的に困難である風力発電にとって重要である。 この課題を克服するために、アセットバンドル、機械学習、予測和解技術を統合する新しいBPR(Bunddle-Predict-Reconcile)フレームワークを提案する。 BPRフレームワークはまず中間階層レベル(バンドル)を学習し、続いて資産、バンドル、フリートレベルでの風力発電を予測し、最後にすべての予測を整合性を確保するために調整する。 このアプローチは,主学習タスクを支援する補助学習タスク(バンドルレベルの時系列を予測する)を効果的に導入する。 また,風力時系列の時空間ダイナミクスを捉える新たなアセットバンドル基準も導入した。 MISOフットプリント内の283の風力発電所の産業規模データセットを用いて,大規模な数値実験を行った。 この実験は、短期予測と日中予測を考慮し、天気予報を共変量として含む様々な予測モデルを評価する。 その結果、BPRの利点が示され、特に艦隊レベルでは、ベースラインよりも予測精度が一貫して大幅に向上した。

The growing penetration of intermittent, renewable generation in US power grids, especially wind and solar generation, results in increased operational uncertainty. In that context, accurate forecasts are critical, especially for wind generation, which exhibits large variability and is historically harder to predict. To overcome this challenge, this work proposes a novel Bundle-Predict-Reconcile (BPR) framework that integrates asset bundling, machine learning, and forecast reconciliation techniques. The BPR framework first learns an intermediate hierarchy level (the bundles), then predicts wind power at the asset, bundle, and fleet level, and finally reconciles all forecasts to ensure consistency. This approach effectively introduces an auxiliary learning task (predicting the bundle-level time series) to help the main learning tasks. The paper also introduces new asset-bundling criteria that capture the spatio-temporal dynamics of wind power time series. Extensive numerical experiments are conducted on an industry-size dataset of 283 wind farms in the MISO footprint. The experiments consider short-term and day-ahead forecasts, and evaluates a large variety of forecasting models that include weather predictions as covariates. The results demonstrate the benefits of BPR, which consistently and significantly improves forecast accuracy over baselines, especially at the fleet level.
翻訳日:2023-09-29 13:57:14 公開日:2023-09-28
# 公正な表現に毒を盛る

Towards Poisoning Fair Representations ( http://arxiv.org/abs/2309.16487v1 )

ライセンス: Link先を確認
Tianci Liu, Haoyu Wang, Feijie Wu, Hengtong Zhang, Pan Li, Lu Su, Jing Gao(参考訳) 公正な機械学習は、年齢層や女性のような特定のサブグループに対するモデル予測バイアスを緩和しようと試みている。 近年,深層ニューラルネットワークによって訓練された公正表現学習 (frl) は,データから人口統計情報を含まない表現を推定し,分類や他の下流タスクへの入力として用いるという優れた性能を示している。 FRL法の開発にもかかわらず、敵シナリオ下でモデル堅牢性をベンチマークする一般的なプロトコルであるデータ中毒攻撃下での脆弱性は未調査である。 データ中毒攻撃は、浅層モデル分類器に公正性制約を組み込んだ古典的公正機械学習手法のために開発された。 しかしながら、これらの攻撃はFRLでは特にフェアネスの目標とモデルアーキテクチャが異なるため不足している。 本研究は、FRLを攻撃した最初のデータ中毒フレームワークを提案する。 訓練データに慎重に作製した毒素サンプルを注入することにより,人口統計情報を含む不公平な表現を可能な限り出力するように誘導する。 この攻撃は、効果的な近似解が提案される、禁止された二段階最適化を伴う。 必要な数の毒サンプルに関する理論的分析が導出され、攻撃に対する防御に光を放つ。 ベンチマークフェアネスデータセットと最先端フェア表現学習モデルに関する実験は,攻撃の優位性を示している。

Fair machine learning seeks to mitigate model prediction bias against certain demographic subgroups such as elder and female. Recently, fair representation learning (FRL) trained by deep neural networks has demonstrated superior performance, whereby representations containing no demographic information are inferred from the data and then used as the input to classification or other downstream tasks. Despite the development of FRL methods, their vulnerability under data poisoning attack, a popular protocol to benchmark model robustness under adversarial scenarios, is under-explored. Data poisoning attacks have been developed for classical fair machine learning methods which incorporate fairness constraints into shallow-model classifiers. Nonetheless, these attacks fall short in FRL due to notably different fairness goals and model architectures. This work proposes the first data poisoning framework attacking FRL. We induce the model to output unfair representations that contain as much demographic information as possible by injecting carefully crafted poisoning samples into the training data. This attack entails a prohibitive bilevel optimization, wherefore an effective approximated solution is proposed. A theoretical analysis on the needed number of poisoning samples is derived and sheds light on defending against the attack. Experiments on benchmark fairness datasets and state-of-the-art fair representation learning models demonstrate the superiority of our attack.
翻訳日:2023-09-29 13:56:53 公開日:2023-09-28
# htc-dc net:単一リモートセンシング画像からの単眼高さ推定

HTC-DC Net: Monocular Height Estimation from Single Remote Sensing Images ( http://arxiv.org/abs/2309.16486v1 )

ライセンス: Link先を確認
Sining Chen, Yilei Shi, Zhitong Xiong, Xiao Xiang Zhu(参考訳) 3次元地理情報は生活環境を理解する上で非常に重要であるが、特に大規模なリモートセンシングデータからの3次元知覚は制限されている。 そこで,本稿では,現在リモートセンシングデータの最もリッチな源の一つである光学画像からの単眼高さ推定手法を提案する。 不適切な問題として、単眼の高さ推定は、性能を改善するために拡張表現のためによく設計されたネットワークを必要とする。 さらに、高さ値の分布は、例えば、背景をヘッドとして、低重画素と長重なっており、訓練されたネットワークは通常偏りがあり、建物の高さを過小評価する傾向がある。 そこで本研究では,この問題を回帰タスクとして定式化するのではなく,分類回帰パラダイムに従ってhtc-dc netを提案し,head-tail cut (htc) とdistribution-based constraints (dcs) を主な貢献とする。 HTC-DC Netは、機能抽出器としてバックボーンネットワーク、HTC-AdaBinsモジュール、ハイブリッド回帰プロセスで構成されている。 HTC-AdaBinsモジュールは、各入力画像に対応するビンを決定するための分類フェーズとして機能する。 視覚変換器エンコーダを備え、局所的なコンテキストを全体情報に組み込むとともに、HTCが前景と背景画素のパフォーマンスのバランスをとるためのモノクロ高さ推定における長い尾の問題に対処する。 ハイブリッド回帰プロセスは、DCを介して訓練された分類段階からのビンの平滑化を通じて回帰を行う。 提案するネットワークはisprs vaihingen (0.09 m)、dfc19 (1.3 m)、gbh (3 m)の3つの異なる解像度のデータセットでテストされている。 実験の結果,提案手法は既存手法よりも大きなマージンで優れていることがわかった。 広範なアブレーション研究は、各設計要素の有効性を示す。

3D geo-information is of great significance for understanding the living environment; however, 3D perception from remote sensing data, especially on a large scale, is restricted. To tackle this problem, we propose a method for monocular height estimation from optical imagery, which is currently one of the richest sources of remote sensing data. As an ill-posed problem, monocular height estimation requires well-designed networks for enhanced representations to improve performance. Moreover, the distribution of height values is long-tailed with the low-height pixels, e.g., the background, as the head, and thus trained networks are usually biased and tend to underestimate building heights. To solve the problems, instead of formalizing the problem as a regression task, we propose HTC-DC Net following the classification-regression paradigm, with the head-tail cut (HTC) and the distribution-based constraints (DCs) as the main contributions. HTC-DC Net is composed of the backbone network as the feature extractor, the HTC-AdaBins module, and the hybrid regression process. The HTC-AdaBins module serves as the classification phase to determine bins adaptive to each input image. It is equipped with a vision transformer encoder to incorporate local context with holistic information and involves an HTC to address the long-tailed problem in monocular height estimation for balancing the performances of foreground and background pixels. The hybrid regression process does the regression via the smoothing of bins from the classification phase, which is trained via DCs. The proposed network is tested on three datasets of different resolutions, namely ISPRS Vaihingen (0.09 m), DFC19 (1.3 m) and GBH (3 m). Experimental results show the superiority of the proposed network over existing methods by large margins. Extensive ablation studies demonstrate the effectiveness of each design component.
翻訳日:2023-09-29 13:56:35 公開日:2023-09-28
# ドメインの一般化を再考する:識別可能性と一般化可能性

Rethinking Domain Generalization: Discriminability and Generalizability ( http://arxiv.org/abs/2309.16483v1 )

ライセンス: Link先を確認
Shaocong Long, Qianyu Zhou, Chenhao Ying, Lizhuang Ma, Yuan Luo(参考訳) ドメイン一般化(dg)は、優れた識別性を維持しながら、強い一般化性を持つ堅牢なモデルの開発に尽力する。 それでも、重要なDG技術は、特徴識別可能性を見越して、ドメイン不変表現を学習することで特徴一般化性を改善する傾向にある。 一方、特徴の一般化可能性と識別可能性の同時達成は、しばしば固有の矛盾を伴う複雑な課題を示す。 この課題は、ドメイン不変な特徴が、不安定な要因、すなわち散発的な相関を含むことにより、識別可能性の低下を表わすときに特に顕著になる。 一方で、一般的なドメイン不変メソッドはカテゴリレベルのアライメントとして分類することができ、実質的な一般化可能性を持つ必要のない特徴を捨て、クラス内変異を狭める可能性がある。 これらの障害を克服するため,我々はDGを,強い差別性と堅牢な一般化性を備えた特徴を同時に付与する新たな視点から再考し,新しい枠組みであるDMDA(Distriminative Microscopic Distribution Alignment)を提案する。 DMDAにはSelective Channel Pruning~(SCP)とMicro-level Distribution Alignment(MDA)という2つのコアコンポーネントが含まれている。 具体的には、SCPはニューラルネットワーク内での冗長性を緩和し、正確な分類による安定した属性を優先順位付けしようとする。 このアプローチは、スプリアス領域不変性の悪影響を緩和し、特徴の判別性を増幅する。 さらに、MDAは各クラス内のマイクロレベルのアライメントをアクセントし、単なるカテゴリレベルのアライメントを超える。 この戦略は十分な一般化可能な特徴に対応し、クラス内のバリエーションを促進する。 4つのベンチマークデータセットの大規模な実験は,本手法の有効性を裏付けるものである。

Domain generalization (DG) endeavors to develop robust models that possess strong generalizability while preserving excellent discriminability. Nonetheless, pivotal DG techniques tend to improve the feature generalizability by learning domain-invariant representations, inadvertently overlooking the feature discriminability. On the one hand, the simultaneous attainment of generalizability and discriminability of features presents a complex challenge, often entailing inherent contradictions. This challenge becomes particularly pronounced when domain-invariant features manifest reduced discriminability owing to the inclusion of unstable factors, \emph{i.e.,} spurious correlations. On the other hand, prevailing domain-invariant methods can be categorized as category-level alignment, susceptible to discarding indispensable features possessing substantial generalizability and narrowing intra-class variations. To surmount these obstacles, we rethink DG from a new perspective that concurrently imbues features with formidable discriminability and robust generalizability, and present a novel framework, namely, Discriminative Microscopic Distribution Alignment (DMDA). DMDA incorporates two core components: Selective Channel Pruning~(SCP) and Micro-level Distribution Alignment (MDA). Concretely, SCP attempts to curtail redundancy within neural networks, prioritizing stable attributes conducive to accurate classification. This approach alleviates the adverse effect of spurious domain invariance and amplifies the feature discriminability. Besides, MDA accentuates micro-level alignment within each class, going beyond mere category-level alignment. This strategy accommodates sufficient generalizable features and facilitates within-class variations. Extensive experiments on four benchmark datasets corroborate the efficacy of our method.
翻訳日:2023-09-29 13:56:03 公開日:2023-09-28
# KLoB:言語モデルにおける知識配置手法の評価ベンチマーク

KLoB: a Benchmark for Assessing Knowledge Locating Methods in Language Models ( http://arxiv.org/abs/2309.16535v1 )

ライセンス: Link先を確認
Yiming Ju, Zheng Zhang(参考訳) 近年、言語モデルに格納された事実的知識を変える主要なアプローチの一つとして、location-then-editパラダイムが登場している。 しかし、現在位置決め手法が、所望の知識を埋め込んだ正確なパラメータを特定できるかどうかについては、研究の欠如がある。 さらに、多くの研究者が事実知識の局所性仮説の妥当性を疑問視しているが、より深い議論と研究のための仮説をテストする方法は提供されていない。 そこで本研究では,信頼性の高い知識探索手法が満たすべき3つの本質的性質を調べるベンチマークであるklobを紹介する。 klobは言語モデルの既存の位置付け手法を評価するベンチマークとして機能し、事実知識の局所性仮説の妥当性を再評価する方法を提供する。 当社は \url{https://github.com/juyiming/KLoB} で公開しています。

Recently, Locate-Then-Edit paradigm has emerged as one of the main approaches in changing factual knowledge stored in the Language models. However, there is a lack of research on whether present locating methods can pinpoint the exact parameters embedding the desired knowledge. Moreover, although many researchers have questioned the validity of locality hypothesis of factual knowledge, no method is provided to test the a hypothesis for more in-depth discussion and research. Therefore, we introduce KLoB, a benchmark examining three essential properties that a reliable knowledge locating method should satisfy. KLoB can serve as a benchmark for evaluating existing locating methods in language models, and can contributes a method to reassessing the validity of locality hypothesis of factual knowledge. Our is publicly available at \url{https://github.com/juyiming/KLoB}.
翻訳日:2023-09-29 13:47:42 公開日:2023-09-28
# MotionLM: 言語モデリングとしてのマルチエージェントモーション予測

MotionLM: Multi-Agent Motion Forecasting as Language Modeling ( http://arxiv.org/abs/2309.16534v1 )

ライセンス: Link先を確認
Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp(参考訳) 道路エージェントの将来行動の信頼性予測は、自動運転車の安全計画にとって重要な要素である。 ここでは,連続的軌跡を離散的動きトークンの列として表現し,この領域上の言語モデリングタスクとしてマルチエージェント動き予測をキャストする。 まず、マルチモーダル分布を学習するために、アンカーや明示的な潜在変数最適化を必要としない。 代わりに、単一の標準言語モデリング目標を活用し、シーケンストークンの平均ログ確率を最大化する。 第2に,対話的スコアリングに先立ち,個々のエージェントの軌跡生成を行うポストホックなインタラクションヒューリスティックスをバイパスする手法である。 代わりに、MotionLMは単一の自己回帰復号プロセスで対話的なエージェント先物に対する共同分布を生成する。 さらに、モデルの逐次分解は、時間的因果条件付きロールアウトを可能にする。 提案手法は,waymoオープンモーションデータセットにおけるマルチエージェント動作予測のための新たな最先端性能を確立し,インタラクティブ・チャレンジ・リーダーボードでランキング1位となった。

Reliable forecasting of the future behavior of road agents is a critical component to safe planning in autonomous vehicles. Here, we represent continuous trajectories as sequences of discrete motion tokens and cast multi-agent motion prediction as a language modeling task over this domain. Our model, MotionLM, provides several advantages: First, it does not require anchors or explicit latent variable optimization to learn multimodal distributions. Instead, we leverage a single standard language modeling objective, maximizing the average log probability over sequence tokens. Second, our approach bypasses post-hoc interaction heuristics where individual agent trajectory generation is conducted prior to interactive scoring. Instead, MotionLM produces joint distributions over interactive agent futures in a single autoregressive decoding process. In addition, the model's sequential factorization enables temporally causal conditional rollouts. The proposed approach establishes new state-of-the-art performance for multi-agent motion prediction on the Waymo Open Motion Dataset, ranking 1st on the interactive challenge leaderboard.
翻訳日:2023-09-29 13:47:30 公開日:2023-09-28
# HOI4ABOT:人間と物体の相互作用予測

HOI4ABOT: Human-Object Interaction Anticipation for Human Intention Reading Collaborative roBOTs ( http://arxiv.org/abs/2309.16524v1 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Daniel Sliwowski, Dongheui Lee(参考訳) ロボットは私たちの生活にますます統合され、さまざまなタスクで私たちを支援している。 人間とロボットの効果的な協調を確保するためには、人間の意図を理解し、行動を予測することが不可欠である。 本稿では,協調型ロボットのためのHuman-Object Interaction(HOI)予測フレームワークを提案する。 ビデオからHOIを検出し,予測するための,効率的かつ堅牢なトランスフォーマーベースモデルを提案する。 この強化された予測は、ロボットが人間を積極的に支援することを可能にし、より効率的で直感的なコラボレーションをもたらす。 我々のモデルは、vidhoiデータセットにおけるhoi検出と予測の結果を上回り、それぞれ1.76%と1.04%の増加と15.4倍高速である。 提案手法の有効性を実ロボット実験の結果から示し,hoisを予測できるロボットの能力が人間とロボットの対話性向上の鍵であることを実証した。 詳細はプロジェクトのWebページ(https://evm7.github.io/HOI4ABOT_page/)で確認できます。

Robots are becoming increasingly integrated into our lives, assisting us in various tasks. To ensure effective collaboration between humans and robots, it is essential that they understand our intentions and anticipate our actions. In this paper, we propose a Human-Object Interaction (HOI) anticipation framework for collaborative robots. We propose an efficient and robust transformer-based model to detect and anticipate HOIs from videos. This enhanced anticipation empowers robots to proactively assist humans, resulting in more efficient and intuitive collaborations. Our model outperforms state-of-the-art results in HOI detection and anticipation in VidHOI dataset with an increase of 1.76% and 1.04% in mAP respectively while being 15.4 times faster. We showcase the effectiveness of our approach through experimental results in a real robot, demonstrating that the robot's ability to anticipate HOIs is key for better Human-Robot Interaction. More information can be found on our project webpage: https://evm7.github.io/HOI4ABOT_page/
翻訳日:2023-09-29 13:47:12 公開日:2023-09-28
# 周期駆動量子スピン系における時間結晶電子キメラ

Time Crystal Embodies Chimera in Periodically Driven Quantum Spin System ( http://arxiv.org/abs/2309.16523v1 )

ライセンス: Link先を確認
Mahbub Rahaman, Akitada Sakurai, Analabha Roy(参考訳) キメラ状態(chimera states)は、複数の相互接続された要素からなるシステムが、同期と非同期の振る舞いの特徴的な組み合わせを示すキャプティベーション発生である。 これらの状態の出現は、量子的絡み合いと系の構成要素間の相互作用の微妙なバランスの間の複雑な相互依存性に起因する。 典型的な多体周期駆動系における離散時間結晶(DTC)の出現は、時間翻訳対称性の破れがあるときに起こる。 異なる種類のスピンスピンスピン相互作用に対する無秩序スピン1/2鎖の制御スピン回転誤差の下で,結合dtcと強磁性動的多体局在(dmbl)相が共存している。 我々は、周期的に駆動される量子多体系における外部静的場に対して堅牢なDTC-DMBL-Chimera相の出現に対する新しいアプローチに寄与する。

Chimera states are a captivating occurrence in which a system comprised of multiple interconnected elements exhibits a distinctive combination of synchronized and desynchronized behavior. The emergence of these states can be attributed to the complex interdependence between quantum entanglement and the delicate balance of interactions among system constituents. The emergence of Discrete Time Crystal (DTC) in typical many-body periodically driven systems occurs when there is a breaking of time translation symmetry. Coexisting coupled DTC and a ferromagnetic dynamically many-body localized (DMBL) phase at distinct regions have been investigated under the controlled spin rotational error of a disorder-free spin-1/2 chain for different types of spin-spin interactions. We contribute a novel approach for the emergence of the DTC-DMBL-Chimera phase, which is robust against external static fields in a periodically driven quantum many-body system.
翻訳日:2023-09-29 13:46:53 公開日:2023-09-28
# 量子ホビットルーティング:一般化トラベリングセールスマン問題のアナーラー実装

Quantum hobbit routing: Annealer implementation of generalized Travelling Salesperson Problem ( http://arxiv.org/abs/2309.16522v1 )

ライセンス: Link先を確認
I\~nigo Perez Delgado, Beatriz Garc\'ia Markaida, Aitor Moreno Fdez. de Leceta, Jon Ander Ochoa Uriarte(参考訳) 本稿では,dwave のアドバンテージ$$$_$system4.1 量子アニーリングデバイス上で$\mathcal{o}(n)$ qubits を用いて,二分最適化 (qubo) 形式上で,よく知られたトラベルセールスパーソン問題 (tsp) -n=9$ジョブを一般化したジョブ選択問題 (jsp) の実装を提案する。 TSPの最もよく知られている量子アルゴリズムは$\mathcal{O}(N^2)$ qubitsである。 量子法を用いて解が見つかる。 しかし、ハードウェアはまだ検索空間サイズの増加を補うことができないため、量子結果と問題の徹底的あるいは同等にサンプリングされた古典的解を比較する場合、現在の全体的な利点は得られない。

In this paper, we present an implementation of a Job Selection Problem (JSP) -- a generalization of the well-known Travelling Salesperson Problem (TSP) -- of $N=9$ jobs on its Quadratic Unconstrained Binary Optimization (QUBO) form, using $\mathcal{O}(N)$ qubits on DWave's Advantage$\_$system4.1 quantum annealing device. The best known quantum algorithm for TSP to date uses $\mathcal{O}(N^2)$ qubits. A solution is found using the quantum method. However, since hardware is not yet able to compensate the increase in search-space size, no present overall advantage is achieved when comparing the quantum results with either exhaustive or equiprobably sampled classical solutions of the problem.
翻訳日:2023-09-29 13:46:40 公開日:2023-09-28
# 深部条件生成時系列モデルを用いたパーソナライズされたインスリン治療戦略の作成

Generating Personalized Insulin Treatments Strategies with Deep Conditional Generative Time Series Models ( http://arxiv.org/abs/2309.16521v1 )

ライセンス: Link先を確認
Manuel Sch\"urch, Xiang Li, Ahmed Allam, Giulia Rathmes, Amina Mollaysa, Claudia Cavelti-Weder, Michael Krauthammer(参考訳) 本稿では,深層生成時系列モデルと決定理論を組み合わせてパーソナライズされた治療戦略を生成する新しい枠組みを提案する。 歴史的な患者の軌跡データを利用して、深部生成時系列モデルを通じて、現実的なパーソナライズされた治療と将来の成果の軌跡を共同学習する。 特に, 個別化患者履歴に合わせた新しい多変量治療戦略を創出し, 条件付き期待効用最大化に基づく最適予測結果に向けて訓練することを可能にする。 入院糖尿病患者に対して、パーソナライズされたインスリン治療戦略と血糖予測を生成し、パーソナライズされた治療戦略を作成するためのアプローチの可能性を示す。 キーワード:深部生成モデル、確率的意思決定支援、パーソナライズされた治療生成、インスリンおよび血糖予測

We propose a novel framework that combines deep generative time series models with decision theory for generating personalized treatment strategies. It leverages historical patient trajectory data to jointly learn the generation of realistic personalized treatment and future outcome trajectories through deep generative time series models. In particular, our framework enables the generation of novel multivariate treatment strategies tailored to the personalized patient history and trained for optimal expected future outcomes based on conditional expected utility maximization. We demonstrate our framework by generating personalized insulin treatment strategies and blood glucose predictions for hospitalized diabetes patients, showcasing the potential of our approach for generating improved personalized treatment strategies. Keywords: deep generative model, probabilistic decision support, personalized treatment generation, insulin and blood glucose prediction
翻訳日:2023-09-29 13:46:16 公開日:2023-09-28
# AtomSurf : タンパク質構造学習のための表面表現

AtomSurf : Surface Representation for Learning on Protein Structures ( http://arxiv.org/abs/2309.16519v1 )

ライセンス: Link先を確認
Vincent Mallet, Souhaib Attaiki and Maks Ovsjanikov(参考訳) 近年のCryo-EMとタンパク質構造予測アルゴリズムの進歩は、大規模タンパク質構造をアクセスしやすくし、機械学習に基づく機能アノテーションの道を開いた。 タンパク質構造から学ぶ重要な側面は、これらの構造を幾何学的対象(格子、グラフ、表面など)として表現し、この表現に合わせた学習法を適用することである。 与えられたアプローチのパフォーマンスは、表現とそれに対応する学習方法の両方に依存する。 本稿では,タンパク質を$\textit{3d mesh surface}$として表現し,それを確立された表現ベンチマークに組み込む。 最初の発見は、有望な予備結果にもかかわらず、表面表現だけでは3Dグリッドと競合しないように見えることである。 そこで本研究では,表面表現とグラフベース手法を組み合わせた相乗的アプローチを導入し,学習における両方の表現を組み込んだ汎用フレームワークを提案する。 この組み合わせを使うことで、$\textit{all test task}$.to-the-artの結果が得られます。 私たちのコードとデータはオンラインで見つけることができます。

Recent advancements in Cryo-EM and protein structure prediction algorithms have made large-scale protein structures accessible, paving the way for machine learning-based functional annotations.The field of geometric deep learning focuses on creating methods working on geometric data. An essential aspect of learning from protein structures is representing these structures as a geometric object (be it a grid, graph, or surface) and applying a learning method tailored to this representation. The performance of a given approach will then depend on both the representation and its corresponding learning method. In this paper, we investigate representing proteins as $\textit{3D mesh surfaces}$ and incorporate them into an established representation benchmark. Our first finding is that despite promising preliminary results, the surface representation alone does not seem competitive with 3D grids. Building on this, we introduce a synergistic approach, combining surface representations with graph-based methods, resulting in a general framework that incorporates both representations in learning. We show that using this combination, we are able to obtain state-of-the-art results across $\textit{all tested tasks}$. Our code and data can be found online: https://github.com/Vincentx15/atom2D .
翻訳日:2023-09-29 13:45:58 公開日:2023-09-28
# ラテントノイズセグメンテーション : ニューラルノイズがセグメンテーションとグルーピングの出現にどのように導くか

Latent Noise Segmentation: How Neural Noise Leads to the Emergence of Segmentation and Grouping ( http://arxiv.org/abs/2309.16515v1 )

ライセンス: Link先を確認
Ben Lonnqvist, Zhengqing Wu, Michael H. Herzog(参考訳) オブジェクトセグメンテーションのような一般的なタスクにおいて人間レベルのパフォーマンスを達成するディープニューラルネットワーク(DNN)は通常、教師付きラベルを必要とする。 対照的に、人間は監督なしでこれらのタスクを無力に実行することができる。 これを実現するために、人間の視覚システムは知覚的グループ化を利用する。 視覚系のモデルとコンピュータビジョンモデルの両方を改善するには、教師なしの方法で知覚的グループ化がどのように起こるかを理解することが重要である。 本研究では,教師なしの知覚的グループ化とセグメンテーションに対する直観に反するアプローチを提案する。 我々は,(1)現実的な仮定の下では,物体を分離するためにニューラルノイズを用いることが可能であることを数学的に証明し,(2)DNNにノイズを加えることにより,ネットワークがセグメンテーションラベルで訓練されていない場合でも,画像のセグメンテーションを可能にすることを示す。 興味深いことに、(3)ノイズを用いたセグメンテーション対象物は、人間の知覚的グルーピング現象と一致したセグメンテーション性能をもたらす。 我々は、知覚的グループ化を具体的にテストするために設計された6つのデータセットであるgood gestalt(gg)データセットを紹介し、dnnモデルが人間の知覚における多くの重要な現象を再現していることを示す。 最後に,DNNの感度を異なる大きさの雑音に対して解析することにより,その生態学的妥当性を示す。 いくつかのモデル変種は、非常に低いレベルのニューラルノイズ(\sigma<0.001$)で一貫して成功し、驚くべきことに、このようなセグメンテーションは少数のサンプルを必要とする。 そこで本研究では,視覚系における知覚的グルーピングの形成に関する新しい説明,および神経雑音の潜在的利点として,教師なしセグメント化法を提案する。

Deep Neural Networks (DNNs) that achieve human-level performance in general tasks like object segmentation typically require supervised labels. In contrast, humans are able to perform these tasks effortlessly without supervision. To accomplish this, the human visual system makes use of perceptual grouping. Understanding how perceptual grouping arises in an unsupervised manner is critical for improving both models of the visual system, and computer vision models. In this work, we propose a counterintuitive approach to unsupervised perceptual grouping and segmentation: that they arise because of neural noise, rather than in spite of it. We (1) mathematically demonstrate that under realistic assumptions, neural noise can be used to separate objects from each other, and (2) show that adding noise in a DNN enables the network to segment images even though it was never trained on any segmentation labels. Interestingly, we find that (3) segmenting objects using noise results in segmentation performance that aligns with the perceptual grouping phenomena observed in humans. We introduce the Good Gestalt (GG) datasets -- six datasets designed to specifically test perceptual grouping, and show that our DNN models reproduce many important phenomena in human perception, such as illusory contours, closure, continuity, proximity, and occlusion. Finally, we (4) demonstrate the ecological plausibility of the method by analyzing the sensitivity of the DNN to different magnitudes of noise. We find that some model variants consistently succeed with remarkably low levels of neural noise ($\sigma<0.001$), and surprisingly, that segmenting this way requires as few as a handful of samples. Together, our results suggest a novel unsupervised segmentation method requiring few assumptions, a new explanation for the formation of perceptual grouping, and a potential benefit of neural noise in the visual system.
翻訳日:2023-09-29 13:45:35 公開日:2023-09-28
# トランスモン量子によるマグノンとフォノンのコヒーレント状態の工学的絡み合い

Engineering Entangled Coherent States of Magnons and Phonons via a Transmon Qubit ( http://arxiv.org/abs/2309.16514v1 )

ライセンス: Link先を確認
Marios Kounalakis, Silvia Viola Kusminskiy, Yaroslav M. Blanter(参考訳) 本研究では,マグノンの絡み合ったコヒーレント状態(ECS),すなわち磁気系における集合スピン励起の量子,あるいは機械共振器におけるフォノンの生成と制御手法を提案する。 提案したハイブリッド回路アーキテクチャは、磁化イットリウム鉄ガーネット(YIG)一対の球形共振器または機械的ビーム共振器に束縛された超伝導トランスモン量子ビットを含む。 具体的には、超伝導量子干渉装置(SQUID)によって形成される量子ビットインダクタを変調する磁気/機械量子ゆらぎによる結合結果である。 量子ビットと各モードの放射圧相互作用により、マグノンやフォノンの最大絡み合った状態を生成することができることを示す。 さらに,現実的な散逸機構を含む高忠実度なマグノニクスおよび機械的ベル状態の生成プロトコルを数値的に示す。 さらに, 標準量子ビット制御と共振器電界変位を用いた準備状態の読み出し方式を考案した。 本研究は,ハイブリッドマグネニクスおよびメカニカル量子ネットワークにおけるECSを用いた量子情報の代替プラットフォームを実証する。

We propose a scheme for generating and controlling entangled coherent states (ECS) of magnons, i.e. the quanta of the collective spin excitations in magnetic systems, or phonons in mechanical resonators. The proposed hybrid circuit architecture comprises a superconducting transmon qubit coupled to a pair of magnonic Yttrium Iron Garnet (YIG) spherical resonators or mechanical beam resonators via flux-mediated interactions. Specifically, the coupling results from the magnetic/mechanical quantum fluctuations modulating the qubit inductor, formed by a superconducting quantum interference device (SQUID). We show that the resulting radiation-pressure interaction of the qubit with each mode, can be employed to generate maximally-entangled states of magnons or phonons. In addition, we numerically demonstrate a protocol for the preparation of magnonic and mechanical Bell states with high fidelity including realistic dissipation mechanisms. Furthermore, we have devised a scheme for reading out the prepared states using standard qubit control and resonator field displacements. Our work demonstrates an alternative platform for quantum information using ECS in hybrid magnonic and mechanical quantum networks.
翻訳日:2023-09-29 13:44:57 公開日:2023-09-28
# 複雑性から明快へ:クリフォードの幾何代数と凸性による深層ニューラルネットワーク重みの解析的表現

From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity ( http://arxiv.org/abs/2309.16512v1 )

ライセンス: Link先を確認
Mert Pilanci(参考訳) 本稿では,幾何学的(クリフォード)代数と凸最適化に基づくニューラルネットワークの新たな解析法を提案する。 我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。 さらに、トレーニング問題は、トレーニングデータセットの幾何学的構造を符号化するウェッジ製品特徴よりも凸最適化に還元される。 この構造は、データベクトルによって生成される三角形と平行同位体の符号付き体積で与えられる。 凸問題は、関連するウェッジ製品の特徴のみを見つけるために$\ell_1$正規化によってサンプルの小さなサブセットを見つける。 本分析は,深層ニューラルネットワークの内部動作に関する新たな視点を提供し,隠れ層の役割に光を当てる。

In this paper, we introduce a novel analysis of neural networks based on geometric (Clifford) algebra and convex optimization. We show that optimal weights of deep ReLU neural networks are given by the wedge product of training samples when trained with standard regularized loss. Furthermore, the training problem reduces to convex optimization over wedge product features, which encode the geometric structure of the training dataset. This structure is given in terms of signed volumes of triangles and parallelotopes generated by data vectors. The convex problem finds a small subset of samples via $\ell_1$ regularization to discover only relevant wedge product features. Our analysis provides a novel perspective on the inner workings of deep neural networks and sheds light on the role of the hidden layers.
翻訳日:2023-09-29 13:44:37 公開日:2023-09-28
# 連通注意による音声・映像話者の検証

Audio-Visual Speaker Verification via Joint Cross-Attention ( http://arxiv.org/abs/2309.16569v1 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam(参考訳) 話者検証は音声信号を用いて広く研究されており、深層モデルによる顕著な改善が示されている。 近年,音声信号の単一モダリティにのみ依存するよりも,相補的で包括的な情報提供が可能な顔や声の探索が急増している。 顔と声の融合に関する文献における現在の手法は、個々の顔や声のモダリティよりも改善されているが、話者認証のためには、音声・視覚融合の可能性は十分に検討されていない。 音声と視覚の融合に基づく既存の手法のほとんどは、スコアレベル融合または単純な特徴結合に依存する。 本研究では,モーダル間補間情報と話者検証のためのモーダル内情報を完全に活用するために,モーダル間共同注意を探索した。 具体的には, 顔と声の相互関係を効果的に把握するために, 共同特徴提示と個々の特徴表現の相関関係に基づいて, 交差注意重みを推定する。 モーダル内およびモーダル間関係の有効利用により,話者照合のための音声・視覚融合の性能が著しく向上することを示した。 提案手法の性能はVoxceleb1データセットで評価されている。 その結果,提案手法は話者照合における視聴覚融合の最先端手法を著しく上回ることがわかった。

Speaker verification has been widely explored using speech signals, which has shown significant improvement using deep models. Recently, there has been a surge in exploring faces and voices as they can offer more complementary and comprehensive information than relying only on a single modality of speech signals. Though current methods in the literature on the fusion of faces and voices have shown improvement over that of individual face or voice modalities, the potential of audio-visual fusion is not fully explored for speaker verification. Most of the existing methods based on audio-visual fusion either rely on score-level fusion or simple feature concatenation. In this work, we have explored cross-modal joint attention to fully leverage the inter-modal complementary information and the intra-modal information for speaker verification. Specifically, we estimate the cross-attention weights based on the correlation between the joint feature presentation and that of the individual feature representations in order to effectively capture both intra-modal as well inter-modal relationships among the faces and voices. We have shown that efficiently leveraging the intra- and inter-modal relationships significantly improves the performance of audio-visual fusion for speaker verification. The performance of the proposed approach has been evaluated on the Voxceleb1 dataset. Results show that the proposed approach can significantly outperform the state-of-the-art methods of audio-visual fusion for speaker verification.
翻訳日:2023-09-29 13:39:02 公開日:2023-09-28
# ポンプ誘起異常点と強結合に及ぼす活性媒質中の相関の影響

Influence of correlations in active medium on pump-induced exceptional points and strong coupling ( http://arxiv.org/abs/2309.16566v1 )

ライセンス: Link先を確認
I.S. Pashkevich, I.V. Doronin, A.A. Zyablovsky, E.S. Andrianov(参考訳) 例外的な点は、レーザーの撮像、センシング、設計といった応用への大きな展望を示している。 近年,ポンプにより誘導される異常点を増幅する能動媒質系が,光と物質との強い結合をポンプにより制御する可能性から注目されている。 このような構造において、フォノンや不純物のような外部自由度と活性分子の相互作用は、異なる分子の分極間の相関を破壊させる。 ポンプ誘起異常点近傍の系の挙動に及ぼす相関崩壊の影響について検討した。 相関崩壊の程度にかかわらず,強い結合が持続し,固有周波数とともに集団反転の負の値で結合することを示す。 したがって,例外点が相関減衰に対して頑健であることを示し,例外点を持つ系を設計する上で重要である。

Exceptional points show great prospects for applications such as imaging, sensing and designing lasers. Recently, systems with amplifying active medium exhibiting pump-induced exceptional points have attracted much attention due to possibility of controlling strong coupling between light and matter with the aid of pumping. In such structures, the interaction of active molecules with external degrees of freedom, such as phonons or impurities, leads to the destruction of the correlation between polarizations of different molecules. We study the effect of the correlations decay on a system behavior near pump-induced exceptional point. We show that strong coupling persists and eigenvectors together with eigenfrequencies coalesce at a negative value of population inversion, regardless of correlation decay magnitude. Thus, we show that exceptional points are robust to correlation decay, which is crucial for designing systems with exceptional points.
翻訳日:2023-09-29 13:38:40 公開日:2023-09-28
# 解釈の強化:教師なしで本質的に解釈可能なグラフ埋め込み

Augment to Interpret: Unsupervised and Inherently Interpretable Graph Embeddings ( http://arxiv.org/abs/2309.16564v1 )

ライセンス: Link先を確認
Gregory Scafarto and Madalina Ciortan and Simon Tihon and Quentin Ferre(参考訳) 教師なしの学習により、大量のデータが利用可能になり、さまざまな下流タスクで使用可能な埋め込みを生成することができる。 しかし,非教師なし表現学習の解釈可能性の欠如は,近年の透明AI規制の限界要因となっている。 本稿では,グラフ表現学習について検討し,意味論を保存したデータ拡張を学習し,解釈を生成できることを示す。 私たちがINGENIOUSと名付けた我々のフレームワークは、本質的に解釈可能な埋め込みを生成し、コストのかかるポストホック分析の必要性を排除する。 また、教師なし表現学習の解釈可能性の未検討領域における形式主義とメトリクスの欠如に対処する追加の指標も導入する。 本研究は,グラフレベルとノードレベルの両方のタスクに適用した実験的研究によって支持され,解釈可能な埋め込みがその後のダウンストリームタスクに最先端のパフォーマンスを提供することを示す。

Unsupervised learning allows us to leverage unlabelled data, which has become abundantly available, and to create embeddings that are usable on a variety of downstream tasks. However, the typical lack of interpretability of unsupervised representation learning has become a limiting factor with regard to recent transparent-AI regulations. In this paper, we study graph representation learning and we show that data augmentation that preserves semantics can be learned and used to produce interpretations. Our framework, which we named INGENIOUS, creates inherently interpretable embeddings and eliminates the need for costly additional post-hoc analysis. We also introduce additional metrics addressing the lack of formalism and metrics in the understudied area of unsupervised-representation learning interpretability. Our results are supported by an experimental study applied to both graph-level and node-level tasks and show that interpretable embeddings provide state-of-the-art performance on subsequent downstream tasks.
翻訳日:2023-09-29 13:38:27 公開日:2023-09-28
# クライムド:非拘束的確率的腐敗を伴うバンディットに対する後悔の低水準と上限

CRIMED: Lower and Upper Bounds on Regret for Bandits with Unbounded Stochastic Corruption ( http://arxiv.org/abs/2309.16563v1 )

ライセンス: Link先を確認
Shubhada Agrawal, Timoth\'ee Mathieu, Debabrota Basu, Odalric-Ambrym Maillard(参考訳) 自発的腐敗を伴う多重武装バンディットにおける後悔最小化問題について検討する。 古典的な設定と同様に、エージェントは各時間に選択されたアームの分布から独立して生成される報酬を受け取る。 しかし、これらの報酬は直接観察されていない。 代わりに、固定された$\varepsilon\in (0,\frac{1}{2})$で、エージェントは選択された腕の分布から1-\varepsilon$または確率$\varepsilon$の任意の汚い分布からサンプルを観察する。 重要なのは、これらの腐敗分布に前提を課さないことです。 この設定では、潜在的に非有界な汚職を伴って、特定の腕分布の族に対する後悔に基づく問題依存の低い境界を確立する。 CRIMEDは漸近的に最適化されたアルゴリズムで、ガウス分布と既知の分散を持つ帯域に対する後悔の正確な下限を達成する。 さらに,クリミアの後悔行動の有限サンプル分析も行う。 特にcrimindは、$\varepsilon$の値が$\frac{1}{2}$の腐敗を効果的に処理できる。 さらに,任意の汚職の存在下での中央値に対する厳密な集中結果が,独立利害関係にある場合の$\varepsilon$ から$\frac{1}{2}$ までの値であっても開発される。 また,ガウスモデルにおける誤特定を扱うアルゴリズムの拡張についても述べる。

We investigate the regret-minimisation problem in a multi-armed bandit setting with arbitrary corruptions. Similar to the classical setup, the agent receives rewards generated independently from the distribution of the arm chosen at each time. However, these rewards are not directly observed. Instead, with a fixed $\varepsilon\in (0,\frac{1}{2})$, the agent observes a sample from the chosen arm's distribution with probability $1-\varepsilon$, or from an arbitrary corruption distribution with probability $\varepsilon$. Importantly, we impose no assumptions on these corruption distributions, which can be unbounded. In this setting, accommodating potentially unbounded corruptions, we establish a problem-dependent lower bound on regret for a given family of arm distributions. We introduce CRIMED, an asymptotically-optimal algorithm that achieves the exact lower bound on regret for bandits with Gaussian distributions with known variance. Additionally, we provide a finite-sample analysis of CRIMED's regret performance. Notably, CRIMED can effectively handle corruptions with $\varepsilon$ values as high as $\frac{1}{2}$. Furthermore, we develop a tight concentration result for medians in the presence of arbitrary corruptions, even with $\varepsilon$ values up to $\frac{1}{2}$, which may be of independent interest. We also discuss an extension of the algorithm for handling misspecification in Gaussian model.
翻訳日:2023-09-29 13:38:12 公開日:2023-09-28
# 輪郭住民による農地分割と分類のための投票ネットワーク

Voting Network for Contour Levee Farmland Segmentation and Classification ( http://arxiv.org/abs/2309.16561v1 )

ライセンス: Link先を確認
Abolfazl Meyarian and Xiaohui Yuan(参考訳) 高解像度の空中画像は、農地のセグメンテーションの細部を詳細に表現できる。 しかし、小さなオブジェクトや特徴はオブジェクト境界の線引きに歪みをもたらし、クラス混乱を軽減するためにより大きなコンテキストビューが必要である。 本研究では,高解像度空中画像からの輪郭リーブを用いた農地分割のためのエンドツーエンドトレーニングネットワークを提案する。 画像分割と分類を実現するために複数の投票ブロックを含む融合ブロックを考案する。 融合ブロックをバックボーンに統合し,セグメンテーションスライスとセグメンテーションスライスの両方を生成する。 セグメンテーションスライスを使用して、予測に対して多数決を行う。 ネットワークは、セグメントの最も可能性の高いクラスラベルをピクセルに割り当てるよう訓練され、構成ピクセルを別々に分析するのではなく、農地の概念を学ぶ。 本手法は,国立農業画像プログラムのイメージを用いて評価する。 平均精度は94.34\%であった。 提案手法は最先端手法と比較して,F1スコアの平均6.96%と2.63%の改善が得られた。

High-resolution aerial imagery allows fine details in the segmentation of farmlands. However, small objects and features introduce distortions to the delineation of object boundaries, and larger contextual views are needed to mitigate class confusion. In this work, we present an end-to-end trainable network for segmenting farmlands with contour levees from high-resolution aerial imagery. A fusion block is devised that includes multiple voting blocks to achieve image segmentation and classification. We integrate the fusion block with a backbone and produce both semantic predictions and segmentation slices. The segmentation slices are used to perform majority voting on the predictions. The network is trained to assign the most likely class label of a segment to its pixels, learning the concept of farmlands rather than analyzing constitutive pixels separately. We evaluate our method using images from the National Agriculture Imagery Program. Our method achieved an average accuracy of 94.34\%. Compared to the state-of-the-art methods, the proposed method obtains an improvement of 6.96% and 2.63% in the F1 score on average.
翻訳日:2023-09-29 13:37:42 公開日:2023-09-28
# SU(d)-Symmetric Random Unitary:量子スクランブル、誤り訂正、機械学習

SU(d)-Symmetric Random Unitaries: Quantum Scrambling, Error Correction, and Machine Learning ( http://arxiv.org/abs/2309.16556v1 )

ライセンス: Link先を確認
Zimu Li, Han Zheng, Yunfei Wang, Liang Jiang, Zi-Wen Liu, Junyu Liu(参考訳) 連続対称性の存在下での量子情報処理は非常に重要であり、多くの新しい物理現象や数学的現象を示す。 SU(d) は、非アベリア対称性の基本型であり、量子計算において重要な役割を果たすため、特に興味のある連続対称性群である。 本稿では,su(d)対称ランダムユニタリの応用を物理学から量子コンピューティングまで,非可換保存量を持つ情報スクランブル,共変量子誤差補正確率コード,幾何学的量子機械学習という3つの異なる文脈で解説する。 まず、SU(d)対称性の存在下では、局所保存量は、量子ビットの局所パウリ基底で$\Omega(1/n^{3/2})$、システムサイズに関する一般量子ビットの局所対称基底で$\Omega(1/n^{(d+2)^2/2})$として崩壊する$t \rightarrow \infty$と、U(1)の場合の$O(1/n)$減衰と、時間外順序相関子(OTOC)の意味での非対称性の場合の指数の指数減衰に対して、残留値を示す。 第二に、SU(d)-対称ユニタリは漸近的に最適である(近似イーストン・クニル定理と呼ばれる符号誤差の基本的な極限を飽和させるという意味で)、任意の定数$k$論理クォーディットを符号化して拡張するSU(d)-共変符号(Kong \&Liu; PRXQ 3, 020314 (2022))]を構築することができる。 最後に,量子量子機械学習における一般アンサッツの指数収束保証に必要な量子ニューラルタンジェントカーネル(QNTK)によるオーバーパーティショニング閾値を導出し,パラメータの数はヒルベルト空間全体ではなく,所望の部分空間の次元にのみ一致することを示した。 我々は、連続した対称性を持つ量子情報に関するさらなる研究を期待する。

Quantum information processing in the presence of continuous symmetry is of wide importance and exhibits many novel physical and mathematical phenomena. SU(d) is a continuous symmetry group of particular interest since it represents a fundamental type of non-Abelian symmetry and also plays a vital role in quantum computation. Here, we explicate the applications of SU(d)-symmetric random unitaries in three different contexts ranging from physics to quantum computing: information scrambling with non-Abelian conserved quantities, covariant quantum error correcting random codes, and geometric quantum machine learning. First, we show that, in the presence of SU(d) symmetry, the local conserved quantities would exhibit residual values even at $t \rightarrow \infty$ which decays as $\Omega(1/n^{3/2})$ under local Pauli basis for qubits and $\Omega(1/n^{(d+2)^2/2})$ under local symmetric basis for general qudits with respect to the system size, in contrast to $O(1/n)$ decay for U(1) case and the exponential decay for no-symmetry case in the sense of out-of-time ordered correlator (OTOC). Second, we show that SU(d)-symmetric unitaries can be used to construct asymptotically optimal (in the sense of saturating the fundamental limits on the code error that have been called the approximate Eastin-Knill theorems) SU(d)-covariant codes that encodes any constant $k$ logical qudits, extending [Kong \& Liu; PRXQ 3, 020314 (2022)]. Finally, we derive an overpartameterization threshold via the quantum neural tangent kernel (QNTK) required for exponential convergence guarantee of generic ansatz for geometric quantum machine learning, which reveals that the number of parameters required scales only with the dimension of desired subspaces rather than that of the entire Hilbert space. We expect that our work invites further research on quantum information with continuous symmetries.
翻訳日:2023-09-29 13:37:25 公開日:2023-09-28
# matrixcity: 都市規模のニューラルレンダリングのための大規模都市データセット

MatrixCity: A Large-scale City Dataset for City-scale Neural Rendering and Beyond ( http://arxiv.org/abs/2309.16553v1 )

ライセンス: Link先を確認
Yixuan Li, Lihan Jiang, Linning Xu, Yuanbo Xiangli, Zhenzhi Wang, Dahua Lin, Bo Dai(参考訳) neural radiance fields (nerf)とそれに続く変種は、ニューラルネットワークのレンダリングの著しい進歩をもたらした。 最近のニューラルレンダリングは、オブジェクトや小さなシーンに焦点を当てているが、都市規模のシーンのためのニューラルレンダリング手法の開発は多くの現実世界のアプリケーションにおいて大きな可能性がある。 しかし、この一連の研究は、総合的で高品質なデータセットが存在しないことから妨げられているが、実際の都市規模のシーンでこのようなデータセットを収集することは、費用がかかり、センシティブで、技術的に困難である。 この目的のために,都市規模のニューラルレンダリング研究のための大規模,包括的,高品質な合成データセットを構築する。 我々はunreal engine 5 city sample projectを利用して、地上カメラのポーズと追加データモダリティを伴って、空と街並みのビューを簡単に収集するパイプラインを開発した。 光、天気、人、車の群衆といった環境要因に対する柔軟なコントロールも私たちのパイプラインで利用可能です。 得られたパイロットデータセットMatrixCityは、合計28km^2$の2つの都市マップから、67kの空中画像と452kのストリート画像を含んでいる。 MatrixCityに加えて、徹底的なベンチマークも実施されており、都市規模のニューラルレンダリングのタスクにおけるユニークな課題だけでなく、将来の作業に対する潜在的な改善も強調されている。 データセットとコードは、プロジェクトのページで公開されます。

Neural radiance fields (NeRF) and its subsequent variants have led to remarkable progress in neural rendering. While most of recent neural rendering works focus on objects and small-scale scenes, developing neural rendering methods for city-scale scenes is of great potential in many real-world applications. However, this line of research is impeded by the absence of a comprehensive and high-quality dataset, yet collecting such a dataset over real city-scale scenes is costly, sensitive, and technically difficult. To this end, we build a large-scale, comprehensive, and high-quality synthetic dataset for city-scale neural rendering researches. Leveraging the Unreal Engine 5 City Sample project, we develop a pipeline to easily collect aerial and street city views, accompanied by ground-truth camera poses and a range of additional data modalities. Flexible controls over environmental factors like light, weather, human and car crowd are also available in our pipeline, supporting the need of various tasks covering city-scale neural rendering and beyond. The resulting pilot dataset, MatrixCity, contains 67k aerial images and 452k street images from two city maps of total size $28km^2$. On top of MatrixCity, a thorough benchmark is also conducted, which not only reveals unique challenges of the task of city-scale neural rendering, but also highlights potential improvements for future works. The dataset and code will be publicly available at our project page: https://city-super.github.io/matrixcity/.
翻訳日:2023-09-29 13:36:33 公開日:2023-09-28
# リアルタイム疫学指標における不均一性の補正

Correcting for heterogeneity in real-time epidemiological indicators ( http://arxiv.org/abs/2309.16546v1 )

ライセンス: Link先を確認
Aaron Rumack, Roni Rosenfeld, F. William Townes(参考訳) 補助的なデータソースは、伝統的な監視信号よりも細かな空間的および時間的解像度、より大きなカバレッジ、低レイテンシで利用できるため、疫学的監視においてますます重要になっている。 本稿では,これらのデータソースから得られた信号の空間的・時間的不均一性の問題について述べる。 本稿では,'guiding' 信号を用いてこれらのバイアスを補正し,モデリングや予測に使用できるより信頼性の高い信号を生成する手法を提案する。 この手法は、不均一性を低ランク行列で近似することができ、時間とともに時間的不均一性は滑らかであると仮定する。 また,補正の行列ランクと時間的滑らか度を表すパラメータを選択するために,ハイパーパラメータ選択アルゴリズムを提案する。 根拠の真理がなければ、この方法が本当に異質性を減少させると主張するために、マップとプロットを使う。 補助データソースからの多様性の低減は、流行のモデル化と予測において、その有用性を大幅に増加させる。

Auxiliary data sources have become increasingly important in epidemiological surveillance, as they are often available at a finer spatial and temporal resolution, larger coverage, and lower latency than traditional surveillance signals. We describe the problem of spatial and temporal heterogeneity in these signals derived from these data sources, where spatial and/or temporal biases are present. We present a method to use a ``guiding'' signal to correct for these biases and produce a more reliable signal that can be used for modeling and forecasting. The method assumes that the heterogeneity can be approximated by a low-rank matrix and that the temporal heterogeneity is smooth over time. We also present a hyperparameter selection algorithm to choose the parameters representing the matrix rank and degree of temporal smoothness of the corrections. In the absence of ground truth, we use maps and plots to argue that this method does indeed reduce heterogeneity. Reducing heterogeneity from auxiliary data sources greatly increases their utility in modeling and forecasting epidemics.
翻訳日:2023-09-29 13:36:10 公開日:2023-09-28
# 言語モデル蒸留による教師なし事実検証

Unsupervised Fact Verification by Language Model Distillation ( http://arxiv.org/abs/2309.16540v1 )

ライセンス: Link先を確認
Adri\'an Bazaga and Pietro Li\`o and Gos Micklem(参考訳) 教師なし事実検証は、信頼できる知識ベースからの証拠を用いて、何らかのデータアノテーションなしでクレームを検証することを目的としている。 この課題に対処するために、アルゴリズムは、意味的に意味があり、ソース情報とセマンティックアライメントを見つけるのに十分コンパクトであるすべての要求に対して、機能を生成する必要がある。 注釈付きコーパスとそのラベルを学習してアライメント問題に取り組む従来の研究とは対照的に,事前学習した言語モデルを活用して,アノテーションを必要とせずに自己管理された特徴を高品質なクレームファクトアライメントに分解する,SFAVEL(Self-supervised Fact Verification via Language Model Distillation)を提案する。 これは、コーパス間の意味的関係を維持しながら、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しいコントラスト損失関数によって実現される。 特に、線形評価を伴う標準FEVER事実検証ベンチマーク(+8%精度)において、新しい最先端化を実現する結果を示す。

Unsupervised fact verification aims to verify a claim using evidence from a trustworthy knowledge base without any kind of data annotation. To address this challenge, algorithms must produce features for every claim that are both semantically meaningful, and compact enough to find a semantic alignment with the source information. In contrast to previous work, which tackled the alignment problem by learning over annotated corpora of claims and their corresponding labels, we propose SFAVEL (Self-supervised Fact Verification via Language Model Distillation), a novel unsupervised framework that leverages pre-trained language models to distil self-supervised features into high-quality claim-fact alignments without the need for annotations. This is enabled by a novel contrastive loss function that encourages features to attain high-quality claim and evidence alignments whilst preserving the semantic relationships across the corpora. Notably, we present results that achieve a new state-of-the-art on the standard FEVER fact verification benchmark (+8% accuracy) with linear evaluation.
翻訳日:2023-09-29 13:35:51 公開日:2023-09-28
# 好酸球分画の不確実性定量化

Uncertainty Quantification for Eosinophil Segmentation ( http://arxiv.org/abs/2309.16536v1 )

ライセンス: Link先を確認
Kevin Lin, Donald Brown, Sana Syed, Adam Greene(参考訳) 好酸球性食道炎(EoE)は有病率が高くなるアレルギー性疾患である。 eoeの診断には、1つの高出力領域(400倍の倍率)で15以上の好酸球を見つける必要がある。 患者がEoEを持っているかどうかを判断することは困難であり、診断を助けるために使用される医療画像のアプローチは、効率と精度の両方を考慮する必要がある。 深部画像セグメンテーションを用いた好酸球定量化のための adorno et al 法の改良を提案する。 我々の新しいアプローチは、Deep Learningにおける一般的なアプローチであるMonte Carlo Dropoutを活用して、現在のディープラーニングモデルに対する不確実な定量化を提供します。 この不確実性は、出力画像に可視化され、モデルの性能を評価し、ディープラーニングアルゴリズムがどのように機能するかの洞察を与え、好酸球を同定する病理学者を支援することができる。

Eosinophilic Esophagitis (EoE) is an allergic condition increasing in prevalence. To diagnose EoE, pathologists must find 15 or more eosinophils within a single high-power field (400X magnification). Determining whether or not a patient has EoE can be an arduous process and any medical imaging approaches used to assist diagnosis must consider both efficiency and precision. We propose an improvement of Adorno et al's approach for quantifying eosinphils using deep image segmentation. Our new approach leverages Monte Carlo Dropout, a common approach in deep learning to reduce overfitting, to provide uncertainty quantification on current deep learning models. The uncertainty can be visualized in an output image to evaluate model performance, provide insight to how deep learning algorithms function, and assist pathologists in identifying eosinophils.
翻訳日:2023-09-29 13:35:27 公開日:2023-09-28
# ヘルスインサイトをナビゲートする - 知識グラフによる説明可能性の鳥の視点

Navigating Healthcare Insights: A Birds Eye View of Explainability with Knowledge Graphs ( http://arxiv.org/abs/2309.16593v1 )

ライセンス: Link先を確認
Satvik Garg, Shivam Parikh, Somya Garg(参考訳) 知識グラフ(KG)は、医療AI、特に医薬品の発見や薬学研究において、多様な情報ソースを統合する構造的な方法を提供し、AIシステムの解釈可能性を高めている。 この解釈可能性は、信頼と透明性が重要な医療において不可欠であり、eXplainable AI(XAI)は医療専門家の意思決定を支援する。 この概要は、医療におけるKGの影響とその説明可能なAIモデルの開発における役割に関する最近の文献を要約する。 構築,関係抽出,推論,薬物・薬物相互作用(DDI),薬物標的相互作用(DTI),薬物開発(DD),逆薬物反応(ADR),バイオインフォマティクスなどの領域におけるKGワークフローについて紹介する。 医療における知識融合学習を通じてkgsをより解釈しやすいものにすることの重要性を強調する。 最後に,研究課題に注目し,今後の方向性について考察する。

Knowledge graphs (KGs) are gaining prominence in Healthcare AI, especially in drug discovery and pharmaceutical research as they provide a structured way to integrate diverse information sources, enhancing AI system interpretability. This interpretability is crucial in healthcare, where trust and transparency matter, and eXplainable AI (XAI) supports decision making for healthcare professionals. This overview summarizes recent literature on the impact of KGs in healthcare and their role in developing explainable AI models. We cover KG workflow, including construction, relationship extraction, reasoning, and their applications in areas like Drug-Drug Interactions (DDI), Drug Target Interactions (DTI), Drug Development (DD), Adverse Drug Reactions (ADR), and bioinformatics. We emphasize the importance of making KGs more interpretable through knowledge-infused learning in healthcare. Finally, we highlight research challenges and provide insights for future directions.
翻訳日:2023-09-29 13:29:17 公開日:2023-09-28
# データ制約赤外物体検出におけるクロスモーダル知識を活用したテンソル分解

Tensor Factorization for Leveraging Cross-Modal Knowledge in Data-Constrained Infrared Object Detection ( http://arxiv.org/abs/2309.16592v1 )

ライセンス: Link先を確認
Manish Sharma, Moitreya Chatterjee, Kuan-Chuan Peng, Suhas Lohit, Michael Jones(参考訳) 赤外線画像における良好な認識性能を得るための主要なボトルネックは、そのようなデータを取得するコストのために十分なラベル付きトレーニングデータがないことである。 RGBモダリティのオブジェクト検出方法は非常に堅牢であること(少なくとも人、車、その他の一般的なクラスでは)は、RGBモダリティからIRモダリティまで、モデル性能を保ちながら、RGBモダリティからオブジェクト検出をスケールするために、この研究で存在する巨大なトレーニングセットを活用することを目的としている。 提案手法のコアとなるテンソルファクト(TensorFact)は,畳み込みニューラルネットワーク(CNN)のレイヤの畳み込みカーネルを,元のCNNよりも少ないパラメータで低ランク係数行列に分割するテンソル分解法である。 我々はまず,これらの因子行列をrgbモダリティ上で事前学習し,多くのトレーニングデータが存在すると仮定した上で,オーバーフィッティングを避けるためにirモダリティのトレーニングを行うためのトレーニング可能なパラメータをほんの数個加えながら,rgbモダリティ上でのみトレーニングされた者からの補足的なヒントを捉えるように促した。 我々は、まず、我々のTensorFact分解ネットワークがRGB画像中のオブジェクトを検出し、元のネットワークをvis-a-visし、FLIR ADAS v1データセットのIR画像にどの程度順応するかを評価することで、我々のアプローチを実証的に検証する。 後者については、データポーシティに起因する課題を提起するシナリオでモデルをトレーニングします。 実験の結果、以下のことが判明した。 (i)TensorFactはRGB画像のパフォーマンス向上を示す。 さらに、この事前学習モデルは、微調整された場合、FLIR ADAS v1データセット上の標準的な最先端オブジェクト検出器をmAP 50スコアで約4%上回っている。

The primary bottleneck towards obtaining good recognition performance in IR images is the lack of sufficient labeled training data, owing to the cost of acquiring such data. Realizing that object detection methods for the RGB modality are quite robust (at least for some commonplace classes, like person, car, etc.), thanks to the giant training sets that exist, in this work we seek to leverage cues from the RGB modality to scale object detectors to the IR modality, while preserving model performance in the RGB modality. At the core of our method, is a novel tensor decomposition method called TensorFact which splits the convolution kernels of a layer of a Convolutional Neural Network (CNN) into low-rank factor matrices, with fewer parameters than the original CNN. We first pretrain these factor matrices on the RGB modality, for which plenty of training data are assumed to exist and then augment only a few trainable parameters for training on the IR modality to avoid over-fitting, while encouraging them to capture complementary cues from those trained only on the RGB modality. We validate our approach empirically by first assessing how well our TensorFact decomposed network performs at the task of detecting objects in RGB images vis-a-vis the original network and then look at how well it adapts to IR images of the FLIR ADAS v1 dataset. For the latter, we train models under scenarios that pose challenges stemming from data paucity. From the experiments, we observe that: (i) TensorFact shows performance gains on RGB images; (ii) further, this pre-trained model, when fine-tuned, outperforms a standard state-of-the-art object detector on the FLIR ADAS v1 dataset by about 4% in terms of mAP 50 score.
翻訳日:2023-09-29 13:28:59 公開日:2023-09-28
# 視覚トランスフォーマーにはレジスタが必要です

Vision Transformers Need Registers ( http://arxiv.org/abs/2309.16588v1 )

ライセンス: Link先を確認
Timoth\'ee Darcet, Maxime Oquab, Julien Mairal and Piotr Bojanowski(参考訳) トランスフォーマーは最近、視覚的表現を学ぶ強力なツールとして登場した。 本稿では,教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。 これらのアーティファクトは、主に画像の低次背景領域に推論中に出現するハイノームトークンに対応し、内部計算に再利用される。 そこで我々は,視覚変換器の入力シーケンスにトークンを付加して,その役割を果たす,シンプルで効果的な解を提案する。 本稿では, 教師付きモデルと自己教師付きモデルの両方において, この問題を完全に解決し, 濃密な視覚予測タスク上での自己教師付き視覚モデルのための新しい技術状況を設定し, より大きなモデルによるオブジェクト発見を可能にするとともに, よりスムーズな特徴マップと下流視覚処理のための注意マップを実現する。

Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
翻訳日:2023-09-29 13:28:19 公開日:2023-09-28
# ガウススプレイティングを用いたテキストから3D

Text-to-3D using Gaussian Splatting ( http://arxiv.org/abs/2309.16585v1 )

ライセンス: Link先を確認
Zilong Chen, Feng Wang, Huaping Liu(参考訳) 本稿では,高品質3dオブジェクト生成のための新しい手法であるgsgen(gaussian splatting based text-to-3d generation)を提案する。 以前の手法では、3dの事前表現と適切な表現がないため、不正確な幾何学と限定的な忠実さに苦しむ。 我々は,最新の最先端表現である3d gaussian splatting を利用して,3d pre の組み入れを可能にする明示的な性質を活用し,既存の欠点を解決する。 具体的には,幾何学最適化段階と外観改善段階を含むプログレッシブ最適化戦略を採用する。 幾何最適化において、通常の2次元SDS損失とともに3次元幾何の下で粗い表現が確立され、3次元一貫性のある粗い形状が確保される。 その後、得られたガウス人は詳細を豊かにするために反復的な改良を行う。 この段階では、コンパクト性に基づくデンシフィケーションによってガウス数を増やし、連続性を高め、忠実性を向上させる。 これらの設計により、より繊細なディテールとより正確な幾何で3Dコンテンツを生成することができる。 広汎な評価は,特に高周波成分の捕捉に有効であることを示す。 ビデオはhttps://gsgen3d.github.ioで提供される。 私たちのコードはhttps://github.com/gsgen3d/gsgenで利用可能です。

In this paper, we present Gaussian Splatting based text-to-3D generation (GSGEN), a novel approach for generating high-quality 3D objects. Previous methods suffer from inaccurate geometry and limited fidelity due to the absence of 3D prior and proper representation. We leverage 3D Gaussian Splatting, a recent state-of-the-art representation, to address existing shortcomings by exploiting the explicit nature that enables the incorporation of 3D prior. Specifically, our method adopts a progressive optimization strategy, which includes a geometry optimization stage and an appearance refinement stage. In geometry optimization, a coarse representation is established under a 3D geometry prior along with the ordinary 2D SDS loss, ensuring a sensible and 3D-consistent rough shape. Subsequently, the obtained Gaussians undergo an iterative refinement to enrich details. In this stage, we increase the number of Gaussians by compactness-based densification to enhance continuity and improve fidelity. With these designs, our approach can generate 3D content with delicate details and more accurate geometry. Extensive evaluations demonstrate the effectiveness of our method, especially for capturing high-frequency components. Video results are provided at https://gsgen3d.github.io. Our code is available at https://github.com/gsgen3d/gsgen
翻訳日:2023-09-29 13:28:03 公開日:2023-09-28
# 協調型分散機械学習システムの開発のための設計ツールボックス

A Design Toolbox for the Development of Collaborative Distributed Machine Learning Systems ( http://arxiv.org/abs/2309.16584v1 )

ライセンス: Link先を確認
David Jin, Niclas Kannengie{\ss}er, Sascha Rank, Ali Sunyaev(参考訳) 機密保持方法でMLモデルの十分なトレーニングを行うためのトレーニングデータを活用するため、例えば、支援学習、フェデレート学習、分割学習を行うために、様々な協調分散機械学習(CDML)システム設計が開発されている。 CDMLシステム設計は、ハイエージェント自律性、機械学習(ML)モデルの機密性、フォールトトレランスなど、さまざまな特性を示している。 異なる特性を持つ多様なCDMLシステム設計に直面しているため、ターゲットとした方法でユースケース要求にマッチする特性を持つCDMLシステムを設計することは困難である。 しかし、不適切なCDMLシステム設計により、CDMLシステムは想定された目的を果たさない可能性がある。 我々はCDMLシステムの開発をガイドできるCDML設計ツールボックスを開発した。 CDML設計ツールボックスをベースとして,CDMLシステムの設計を支援する重要な特徴を持つCDMLシステムアーチタイプを提案する。

To leverage training data for the sufficient training of ML models from multiple parties in a confidentiality-preserving way, various collaborative distributed machine learning (CDML) system designs have been developed, for example, to perform assisted learning, federated learning, and split learning. CDML system designs show different traits, for example, high agent autonomy, machine learning (ML) model confidentiality, and fault tolerance. Facing a wide variety of CDML system designs with different traits, it is difficult for developers to design CDML systems with traits that match use case requirements in a targeted way. However, inappropriate CDML system designs may result in CDML systems failing their envisioned purposes. We developed a CDML design toolbox that can guide the development of CDML systems. Based on the CDML design toolbox, we present CDML system archetypes with distinct key traits that can support the design of CDML systems to meet use case requirements.
翻訳日:2023-09-29 13:27:43 公開日:2023-09-28
# GPT-Fathom: GPT-4以降への進化経路を理解するための大規模言語モデルのベンチマーク

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond ( http://arxiv.org/abs/2309.16583v1 )

ライセンス: Link先を確認
Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)の急速な進歩により、その能力と限界を評価するための総合的な評価スイートの必要性が高まっている。 既存のLCMのリーダーボードは、一貫性のある設定やプロンプトのない他の論文で報告されたスコアを参照することが多い。 本稿では, OpenAI Evals 上に構築されたオープンソースかつ再現可能な LLM 評価スイートである GPT-Fathom を紹介する。 我々は,7つの機能カテゴリにまたがる20以上のベンチマークにおいて,10以上のLLMとOpenAIのレガシモデルを整列した設定で,体系的に評価した。 OpenAIの初期のモデルに関する我々の振り返り研究は、GPT-3からGPT-4への進化経路に関する貴重な洞察を提供する。 コードデータを追加することでLCMの推論能力が改善されるかどうか、SFTとRLHFによってLCMの能力のどの面が改善されるのか、アライメント税はいくらになるのか、といった技術的な詳細を含む。 我々の分析は、先進LLMの透明性向上を目的として、これらの疑問の多くに光を当てている。

With the rapid advancement of large language models (LLMs), there is a pressing need for a comprehensive evaluation suite to assess their capabilities and limitations. Existing LLM leaderboards often reference scores reported in other papers without consistent settings and prompts, which may inadvertently encourage cherry-picking favored settings and prompts for better results. In this work, we introduce GPT-Fathom, an open-source and reproducible LLM evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+ leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across 7 capability categories, all under aligned settings. Our retrospective study on OpenAI's earlier models offers valuable insights into the evolutionary path from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3 progressively improves to GPT-4, including technical details like whether adding code data improves LLM's reasoning capability, which aspects of LLM capability can be improved by SFT and RLHF, how much is the alignment tax, etc. Our analysis sheds light on many of these questions, aiming to improve the transparency of advanced LLMs.
翻訳日:2023-09-29 13:27:29 公開日:2023-09-28
# M-OFDFT:ディープラーニングを用いた分子系の軌道自由密度汎関数理論の障壁克服

M-OFDFT: Overcoming the Barrier of Orbital-Free Density Functional Theory for Molecular Systems Using Deep Learning ( http://arxiv.org/abs/2309.16578v1 )

ライセンス: Link先を確認
He Zhang, Siyuan Liu, Jiacheng You, Chang Liu, Shuxin Zheng, Ziheng Lu, Tong Wang, Nanning Zheng, Bin Shao(参考訳) 軌道自由密度汎関数理論(orbital-free density functional theory,ofdft)は、現代分子研究にますます望まれているコーン・シャムdftよりも低いコストスケールを持つ量子化学式である。 しかし、その精度は運動エネルギー密度関数によって制限されており、非周期分子系では近似が難しいことが知られている。 本研究では,分子システムをディープラーニング関数モデルを用いて解くことができるOFFTアプローチであるM-OFDFTを提案する。 このモデルに本質的非局所性を構築し,原子基底下の拡張係数として簡潔な密度表現によって安価に構成する。 非伝統的な学習課題に対処する技術により、M-OFDFTは以前にOFDFTが触れなかった幅広い分子上でコーンシャムDFTと同等の精度を達成する。 より魅力的なことに、M-OFDFTは、トレーニング中の分子よりもはるかに大きい分子を外挿し、タンパク質を含む大きな分子を研究するための魅力的なスケーリングを生み出し、量子化学における精度-効率のトレードオフフロンティアの進歩を表している。

Orbital-free density functional theory (OFDFT) is a quantum chemistry formulation that has a lower cost scaling than the prevailing Kohn-Sham DFT, which is increasingly desired for contemporary molecular research. However, its accuracy is limited by the kinetic energy density functional, which is notoriously hard to approximate for non-periodic molecular systems. In this work, we propose M-OFDFT, an OFDFT approach capable of solving molecular systems using a deep-learning functional model. We build the essential nonlocality into the model, which is made affordable by the concise density representation as expansion coefficients under an atomic basis. With techniques to address unconventional learning challenges therein, M-OFDFT achieves a comparable accuracy with Kohn-Sham DFT on a wide range of molecules untouched by OFDFT before. More attractively, M-OFDFT extrapolates well to molecules much larger than those in training, which unleashes the appealing scaling for studying large molecules including proteins, representing an advancement of the accuracy-efficiency trade-off frontier in quantum chemistry.
翻訳日:2023-09-29 13:27:05 公開日:2023-09-28
# 1つの文法書から新しい言語を翻訳する学習のためのベンチマーク

A Benchmark for Learning to Translate a New Language from One Grammar Book ( http://arxiv.org/abs/2309.16575v1 )

ライセンス: Link先を確認
Garrett Tanzer, Mirac Suzgun, Eline Visser, Dan Jurafsky, Luke Melas-Kyriazi(参考訳) 大規模言語モデル(LLM)は、コンテキスト内学習や軽量な微調整で素晴らしい成果を上げることができる。 これらのモデルが本当に新しいタスクにどのように順応するか疑問に思うのは当然だが、インターネットスケールのトレーニングセットでは見当たらないタスクをどうやって見つけるのか? 私たちは、Webデータの不足、すなわち低リソース言語によって明確に動機付けられ、ボトルネックになっている分野に目を向けます。 本稿では,200人未満の話者を持つ言語であるkalamangと英語の翻訳を学ぶためのベンチマークであるmtob(machine translation from one book)を紹介する。 このタスクフレーミングは、L1の獲得よりもL2の学習に類似した、ドメイン内の大量のコーパスではなく、単一の人間可読な文法説明書から言語を学ぶことをモデルに求めている。 我々は,現在のLLMを用いたベースラインは有望だが人為的な性能に欠けており,カラマン語で44.7 chrF,英語で45.8 chrF,カラマン語で45.8 chrFを達成している。 MTOBは新しい次元に沿ってLLMの能力を測定するのに役立ち、それを解決するために開発された手法は、従来の機械翻訳とは定性的に異なる種類のデータを活用することで、保存されていないコミュニティのための言語技術へのアクセスを拡大するのに役立つと期待している。

Large language models (LLMs) can perform impressive feats with in-context learning or lightweight finetuning. It is natural to wonder how well these models adapt to genuinely new tasks, but how does one find tasks that are unseen in internet-scale training sets? We turn to a field that is explicitly motivated and bottlenecked by a scarcity of web data: low-resource languages. In this paper, we introduce MTOB (Machine Translation from One Book), a benchmark for learning to translate between English and Kalamang -- a language with less than 200 speakers and therefore virtually no presence on the web -- using several hundred pages of field linguistics reference materials. This task framing is novel in that it asks a model to learn a language from a single human-readable book of grammar explanations, rather than a large mined corpus of in-domain data, more akin to L2 learning than L1 acquisition. We demonstrate that baselines using current LLMs are promising but fall short of human performance, achieving 44.7 chrF on Kalamang to English translation and 45.8 chrF on English to Kalamang translation, compared to 51.6 and 57.0 chrF by a human who learned Kalamang from the same reference materials. We hope that MTOB will help measure LLM capabilities along a new dimension, and that the methods developed to solve it could help expand access to language technology for underserved communities by leveraging qualitatively different kinds of data than traditional machine translation.
翻訳日:2023-09-29 13:26:26 公開日:2023-09-28
# 言語モデル・アズ・ア・サービスARRT:新しいパラダイムの概要と課題

The ARRT of Language-Models-as-a-Service: Overview of a New Paradigm and its Challenges ( http://arxiv.org/abs/2309.16573v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Aleksandar Petrov, Simon Frieder, Christoph Weinhuber, Ryan Burnell, Anthony G. Cohn, Nigel Shadbolt, Michael Wooldridge(参考訳) 現在、最も強力な言語モデルはプロプライエタリなシステムであり、Webまたはソフトウェアプログラミングインターフェースを介してのみアクセス可能である。 これはLanguage-Models-as-a-Service(LMaaS)パラダイムです。 オープンソースモデルのように、フルモデルアクセスが利用可能なシナリオとは対照的に、このようなクローズオフ言語モデルは、評価、ベンチマーク、テストに特有の課題を生み出します。 本稿では,LMaaSのアクセシビリティ,複製性,信頼性,信頼性(ARRT)に対する障害として,上記の課題がどのように振舞うかを述べる。 これら4つの側面それぞれについて,言語モデルに関する情報の欠如から生じる問題点を体系的に検討する。 私たちは現在のソリューションに光を当て、いくつかのレコメンデーションを提供し、今後の進歩の方向性を強調した。 一方で、現在のメジャーなLMaaSに関する最新の知識のワンストップショップとして機能し、インターフェースが提供するライセンスと機能の概要を合成する。

Some of the most powerful language models currently are proprietary systems, accessible only via (typically restrictive) web or software programming interfaces. This is the Language-Models-as-a-Service (LMaaS) paradigm. Contrasting with scenarios where full model access is available, as in the case of open-source models, such closed-off language models create specific challenges for evaluating, benchmarking, and testing them. This paper has two goals: on the one hand, we delineate how the aforementioned challenges act as impediments to the accessibility, replicability, reliability, and trustworthiness (ARRT) of LMaaS. We systematically examine the issues that arise from a lack of information about language models for each of these four aspects. We shed light on current solutions, provide some recommendations, and highlight the directions for future advancements. On the other hand, it serves as a one-stop-shop for the extant knowledge about current, major LMaaS, offering a synthesized overview of the licences and capabilities their interfaces offer.
翻訳日:2023-09-29 13:25:17 公開日:2023-09-28
# 傾斜機能材料の付加的製造のための機械学習手法のレビュー

Review of Machine Learning Methods for Additive Manufacturing of Functionally Graded Materials ( http://arxiv.org/abs/2309.16571v1 )

ライセンス: Link先を確認
Mohammad Karimzadeh, Aleksandar Vakanski, Fei Xu, Xinchang Zhang(参考訳) 複合部品の直接接合を可能にすることで複合部品の製造に革命をもたらし、複合部品のコスト効率の良い製造、製造廃棄物の削減、製造自動化の新たな可能性の開放などいくつかの利点を提供している。 添加物製造が部品性能と特性を向上させる大きな可能性を秘めている材料の1つが傾斜機能材料(fgms)である。 FGMは、航空宇宙、自動車、バイオメディカル、防衛産業の用途に好適な、スムーズな特性を示す先進的な複合材料である。 このような組成は従来の複合材料と異なり、fgmでは位置依存的な組成が徐々に変化し、特性が向上する。 近年, 加工パラメータの最適化, 製品品質の向上, 製造欠陥の検出により, fgm製造の有望な手段として機械学習技術が登場している。 本稿は,まず,fgm製造関連作品の簡単な文献レビューを行った後,添加物製造における機械学習の利用に関するレビューを行い,その後,有向エネルギー蒸着およびfgm製造における機械学習手法の適用に関する文献における出版作品の概要を述べる。

Additive manufacturing has revolutionized the manufacturing of complex parts by enabling direct material joining and offers several advantages such as cost-effective manufacturing of complex parts, reducing manufacturing waste, and opening new possibilities for manufacturing automation. One group of materials for which additive manufacturing holds great potential for enhancing component performance and properties is Functionally Graded Materials (FGMs). FGMs are advanced composite materials that exhibit smoothly varying properties making them desirable for applications in aerospace, automobile, biomedical, and defense industries. Such composition differs from traditional composite materials, since the location-dependent composition changes gradually in FGMs, leading to enhanced properties. Recently, machine learning techniques have emerged as a promising means for fabrication of FGMs through optimizing processing parameters, improving product quality, and detecting manufacturing defects. This paper first provides a brief literature review of works related to FGM fabrication, followed by reviewing works on employing machine learning in additive manufacturing, Afterward, we provide an overview of published works in the literature related to the application of machine learning methods in Directed Energy Deposition and for fabrication of FGMs.
翻訳日:2023-09-29 13:24:49 公開日:2023-09-28
# KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing

KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing ( http://arxiv.org/abs/2309.16608v1 )

ライセンス: Link先を確認
Jiancheng Huang, Yifan Liu, Jin Qin, Shifeng Chen(参考訳) テキスト条件付き画像編集は最近登場し、非常に実用的な作業であり、その可能性は計り知れない。 しかし、同時処理のメソッドのほとんどは、アクション編集を行うことができない。つまり、編集プロンプトのアクションセマンティクスに準拠した結果を生成し、元の画像の内容を保存することはできない。 動作編集の問題を解決するために, 良好な再構成性能と動作編集を実現する手法であるKV Inversionを提案する。 1) 編集結果が対応する動作と一致し、かつ 2) 編集対象物は元の実画像のテクスチャとアイデンティティを保持することができる。 さらに,本手法では,安定拡散モデル自体のトレーニングを必要とせず,大規模なデータセットをスキャンして時間を要するトレーニングを行う必要もない。

Text-conditioned image editing is a recently emerged and highly practical task, and its potential is immeasurable. However, most of the concurrent methods are unable to perform action editing, i.e. they can not produce results that conform to the action semantics of the editing prompt and preserve the content of the original image. To solve the problem of action editing, we propose KV Inversion, a method that can achieve satisfactory reconstruction performance and action editing, which can solve two major problems: 1) the edited result can match the corresponding action, and 2) the edited object can retain the texture and identity of the original real image. In addition, our method does not require training the Stable Diffusion model itself, nor does it require scanning a large-scale dataset to perform time-consuming training.
翻訳日:2023-09-29 13:19:02 公開日:2023-09-28
# 「AIはパフォーマンスを高め、これも同じことをすることは間違いない」:Placebo効果はAIの否定的な記述に対して堅牢である

"AI enhances our performance, I have no doubt this one will do the same": The Placebo effect is robust to negative descriptions of AI ( http://arxiv.org/abs/2309.16606v1 )

ライセンス: Link先を確認
Agnes M. Kloft, Robin Welsch, Thomas Kosch, Steeven Villa(参考訳) 高度なAI期待は、プラセボ効果を通じて人間とAIのインタラクションのパフォーマンスを促進する。 プラセボ効果に対する期待を下げることは望ましいが、過剰にネガティブな期待はノセボ効果を引き起こす可能性がある。 文字識別タスクでは、AIがインターフェースを適用することによってパフォーマンスを向上または低下させるであろうと参加者に通知しましたが、実際にはどんな状態でもAIは存在していません。 ベイズ分析の結果,シェームAIが存在するときのAI記述によらず,参加者は高い期待を抱き,記述的に優れていることがわかった。 認知モデリングを使うことで、この利点をより多くの情報を集める参加者にさかのぼることができる。 レプリケーション調査では、否定的なAI記述は期待を変更せず、AIによるパフォーマンス期待はバイアスがあり、否定的な言語記述に対して堅牢であることを示唆している。 ユーザの期待がAIインタラクションと評価に与える影響を議論し、人間とAIインタラクションのための行動プラセボマーカーを提供する。

Heightened AI expectations facilitate performance in human-AI interactions through placebo effects. While lowering expectations to control for placebo effects is advisable, overly negative expectations could induce nocebo effects. In a letter discrimination task, we informed participants that an AI would either increase or decrease their performance by adapting the interface, but in reality, no AI was present in any condition. A Bayesian analysis showed that participants had high expectations and performed descriptively better irrespective of the AI description when a sham-AI was present. Using cognitive modeling, we could trace this advantage back to participants gathering more information. A replication study verified that negative AI descriptions do not alter expectations, suggesting that performance expectations with AI are biased and robust to negative verbal descriptions. We discuss the impact of user expectations on AI interactions and evaluation and provide a behavioral placebo marker for human-AI interaction
翻訳日:2023-09-29 13:18:47 公開日:2023-09-28
# 融合ネットワークGromov-Wasserstein距離を持つグラフにおけるエッジ特徴の爆発

Exploiting Edge Features in Graphs with Fused Network Gromov-Wasserstein Distance ( http://arxiv.org/abs/2309.16604v1 )

ライセンス: Link先を確認
Junjie Yang, Matthieu Labeau, Florence d'Alch\'e-Buc(参考訳) グラフのペアワイズ比較は、クラスタリング、カーネルベースの分類/回帰、最近では教師付きグラフ予測など、機械学習における多くのアプリケーションにとって鍵となる。 グラフ間の距離は通常、サブストラクチャーの袋や他のグラフ埋め込みのような構造化オブジェクトの情報表現に依存する。 グラフを計量測度空間として表すことで、最適輸送をうまく利用し、グロモフ=ヴァッサーシュタイン距離(Gromov-Wasserstein distances)を比較できる有意義な距離を提供する。 しかし、この距離の族はエッジ属性を見下ろしており、多くの構造化オブジェクトに必須である。 本研究では,ノードとエッジが特徴を持つグラフを比較するために,Gromov-Wasserstein距離の拡張を導入する。 本稿では,距離計算と重心計算のための新しいアルゴリズムを提案する。 グラフが入力空間または出力空間で発生する学習タスクにおいて、分類やグラフ予測などの新しい距離の有効性を実証的に示す。

Pairwise comparison of graphs is key to many applications in Machine learning ranging from clustering, kernel-based classification/regression and more recently supervised graph prediction. Distances between graphs usually rely on informative representations of these structured objects such as bag of substructures or other graph embeddings. A recently popular solution consists in representing graphs as metric measure spaces, allowing to successfully leverage Optimal Transport, which provides meaningful distances allowing to compare them: the Gromov-Wasserstein distances. However, this family of distances overlooks edge attributes, which are essential for many structured objects. In this work, we introduce an extension of Gromov-Wasserstein distance for comparing graphs whose both nodes and edges have features. We propose novel algorithms for distance and barycenter computation. We empirically show the effectiveness of the novel distance in learning tasks where graphs occur in either input space or output space, such as classification and graph prediction.
翻訳日:2023-09-29 13:18:30 公開日:2023-09-28
# 深層学習に基づくマルチユーザSIMOビームフォーミング設計

Deep Learning Based Uplink Multi-User SIMO Beamforming Design ( http://arxiv.org/abs/2309.16603v1 )

ライセンス: Link先を確認
Cemil Vahapoglu and Timothy J. O'Shea and Tamoghna Roy and Sennur Ulukus(参考訳) 第5世代(5g)無線通信ネットワークの進歩により、高いデータレート、広範囲なカバレッジ、最小レイテンシ、エネルギー効率の高いパフォーマンスを提供する無線リソース管理ソリューションの需要が高まった。 それでも、計算複雑性と動的条件に適応する能力に関して、従来のアプローチには欠点があり、理論解析と無線リソースを管理するアルゴリズムソリューションの実践的実行の間にギャップが生じる。 ディープラーニングベースの技術はこのギャップを実質的な表現能力で橋渡しするための有望なソリューションを提供する。 本稿では,アップリンク受信型マルチユーザ入力多重出力(MU-SIMO)ビームフォーミングの設計のための,NNBFと呼ばれる新しい教師なしディープラーニングフレームワークを提案する。 主な目的は、従来の手法とは対照的に、計算効率のよい解も提供しながら、和率の最大化に焦点を当ててスループットを向上させることである。 いくつかのアンテナ構成の実験を行う。 実験の結果,NNBFはゼロ強制ビームフォーミング (ZFBF) や最小平均二乗誤差 (MMSE) 等化器 (MMSE) よりも優れた性能を示した。 さらに、NNBFは単一アンテナのユーザ機器(UE)の数にスケーラブルであるが、ベースライン法は行列擬似逆演算による計算負荷が大きい。

The advancement of fifth generation (5G) wireless communication networks has created a greater demand for wireless resource management solutions that offer high data rates, extensive coverage, minimal latency and energy-efficient performance. Nonetheless, traditional approaches have shortcomings when it comes to computational complexity and their ability to adapt to dynamic conditions, creating a gap between theoretical analysis and the practical execution of algorithmic solutions for managing wireless resources. Deep learning-based techniques offer promising solutions for bridging this gap with their substantial representation capabilities. We propose a novel unsupervised deep learning framework, which is called NNBF, for the design of uplink receive multi-user single input multiple output (MU-SIMO) beamforming. The primary objective is to enhance the throughput by focusing on maximizing the sum-rate while also offering computationally efficient solution, in contrast to established conventional methods. We conduct experiments for several antenna configurations. Our experimental results demonstrate that NNBF exhibits superior performance compared to our baseline methods, namely, zero-forcing beamforming (ZFBF) and minimum mean square error (MMSE) equalizer. Additionally, NNBF is scalable to the number of single-antenna user equipments (UEs) while baseline methods have significant computational burden due to matrix pseudo-inverse operation.
翻訳日:2023-09-29 13:18:14 公開日:2023-09-28
# 加速共振探索による超軽量ダークマターの制約

Constraining Ultralight Dark Matter through an Accelerated Resonant Search ( http://arxiv.org/abs/2309.16600v1 )

ライセンス: Link先を確認
Zitong Xu, Xiaolin Ma, Kai Wei, Yuxuan He, Xing Heng, Xiaofei Huang, Tengyu Ai, Jian Liao, Wei Ji, Jia Liu, Xiao-Ping Wang, Dmitry Budker(参考訳) 超軽量ダークマターの検出を目的とした実験は、共鳴周波数にマッチするダークマター質量に敏感な共鳴効果に依存する。 本研究では,核磁気共鳴(NMR)モードで動作する磁気センサを用いて,超軽量のアクシオンダークマターの核子結合について検討した。 我々のアプローチは、貴ガススピンの中で最低の核磁気モーメントを特徴とする、$^{21}$Neスピンベースのセンサーの使用である。 この構成により、およそ1.5$\times 10^{-23}\,\rm{eV/Hz^{1/2}}$.73 fT/Hz$^{1/2}$の超高感度を約5Hzで達成できる。 解析の結果,特定の条件下では共鳴幅よりもかなり大きいステップで周波数を走査することが有用であることがわかった。 解析結果は実験データと一致しており、スキャン戦略は他の共鳴探索にも適用可能である。 さらに, 中性子と陽子に結合する4.5~15.5Hzのコンプトン周波数範囲において, アクチオン様粒子(ALP)に強い制約を課し, 先行処理を複数倍に改善する。 約4.6~6.6Hz、約7.5Hzの範囲内では、中性子星冷却による天体物理学的限界を超えている。 そこで,超薄暗黒物質に対する加速共鳴探索を行い,競合感度を維持しながら約30倍の走査ステップを実現した。

Experiments aimed at detecting ultralight dark matter typically rely on resonant effects, which are sensitive to the dark matter mass that matches the resonance frequency. In this study, we investigate the nucleon couplings of ultralight axion dark matter using a magnetometer operating in a nuclear magnetic resonance (NMR) mode. Our approach involves the use of a $^{21}$Ne spin-based sensor, which features the lowest nuclear magnetic moment among noble-gas spins. This configuration allows us to achieve an ultrahigh sensitivity of 0.73 fT/Hz$^{1/2}$ at around 5 Hz, corresponding to energy resolution of approximately 1.5$\times 10^{-23}\,\rm{eV/Hz^{1/2}}$. Our analysis reveals that under certain conditions it is beneficial to scan the frequency with steps significantly larger than the resonance width. The analytical results are in agreement with experimental data and the scan strategy is potentially applicable to other resonant searches. Further, our study establishes stringent constraints on axion-like particles (ALP) in the 4.5--15.5 Hz Compton-frequency range coupling to neutrons and protons, improving on prior work by several-fold. Within a band around 4.6--6.6 Hz and around 7.5 Hz, our laboratory findings surpass astrophysical limits derived from neutron-star cooling. Hence, we demonstrate an accelerated resonance search for ultralight dark matter, achieving an approximately 30-fold increase in scanning step while maintaining competitive sensitivity.
翻訳日:2023-09-29 13:17:50 公開日:2023-09-28
# ゼロショット翻訳を改良した負のサンプルの差分調整

Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot Translation ( http://arxiv.org/abs/2309.16599v1 )

ライセンス: Link先を確認
Changtong Zan, Liang Ding, Li Shen, Yibin Lei, Yibing Zhan, Weifeng Liu, Dacheng Tao(参考訳) ゼロショット翻訳(ZST)は、一般的に多言語ニューラルマシン翻訳モデルに基づいており、トレーニングデータにおいて目に見えない言語ペア間の翻訳を目的としている。 推論中のゼロショット言語マッピングをガイドする一般的な実践は、ソースとターゲットの言語IDを意図的に挿入する、例えば、英語の<EN>とドイツ語の<DE>である。 近年の研究では、言語idは時としてzstタスクのナビゲートに失敗し、ターゲット外の問題(生成した翻訳に目標語以外の単語が存在する)に苦しむため、現在の多言語翻訳モデルを広範囲のゼロショット言語シナリオに適用することは困難である。 言語idのナビゲーション能力が弱まる理由を理解するため、zst方向の2つの極端なデコーダ入力ケースを比較する:オフターゲット(オフ)とオンターゲット(オン)ケース。 これら事例の文脈的単語表現(CWR)を教師強制で対照的に可視化することにより、そのことを示す。 1) 文とIDが一致した場合(ON設定)、異なる言語のCWRを独立領域に効果的に分散する。 2) 文とIDが一致しない場合(OFF設定)、異なる言語のCWRをカオス的に分配する。 分析結果から,言語idが脆弱になり,推定中に一般的に存在するが,訓練シナリオでは稀であるオフターゲットトークンに直面するとナビゲーション能力が失われることが示唆された。 これに対し、負のサンプル(OFF)に対して、トレーニング中に言語IDがオン・ターゲットトークンとオフ・ターゲットトークンを区別できるように、その確率を最小化する。 40ZST方向にわたる実験により,本手法は目標外比を平均-48.0%削減し,追加の+0.3%のチューニングコストで+9.1BLEUの改善を実現した。

Zero-shot translation (ZST), which is generally based on a multilingual neural machine translation model, aims to translate between unseen language pairs in training data. The common practice to guide the zero-shot language mapping during inference is to deliberately insert the source and target language IDs, e.g., <EN> for English and <DE> for German. Recent studies have shown that language IDs sometimes fail to navigate the ZST task, making them suffer from the off-target problem (non-target language words exist in the generated translation) and, therefore, difficult to apply the current multilingual translation model to a broad range of zero-shot language scenarios. To understand when and why the navigation capabilities of language IDs are weakened, we compare two extreme decoder input cases in the ZST directions: Off-Target (OFF) and On-Target (ON) cases. By contrastively visualizing the contextual word representations (CWRs) of these cases with teacher forcing, we show that 1) the CWRs of different languages are effectively distributed in separate regions when the sentence and ID are matched (ON setting), and 2) if the sentence and ID are unmatched (OFF setting), the CWRs of different languages are chaotically distributed. Our analyses suggest that although they work well in ideal ON settings, language IDs become fragile and lose their navigation ability when faced with off-target tokens, which commonly exist during inference but are rare in training scenarios. In response, we employ unlikelihood tuning on the negative (OFF) samples to minimize their probability such that the language IDs can discriminate between the on- and off-target tokens during training. Experiments spanning 40 ZST directions show that our method reduces the off-target ratio by -48.0% on average, leading to a +9.1 BLEU improvement with only an extra +0.3% tuning cost.
翻訳日:2023-09-29 13:17:21 公開日:2023-09-28
# クロス予測駆動推論

Cross-Prediction-Powered Inference ( http://arxiv.org/abs/2309.16598v1 )

ライセンス: Link先を確認
Tijana Zrnic, Emmanuel J. Cand\`es(参考訳) 高品質なラベル付きデータに基づく信頼性の高いデータ駆動意思決定のヒントがある一方で、品質ラベルの取得には、退屈な人間のアノテーションや、遅くて高価な科学的測定が伴うことが多い。 例えば、予測されたタンパク質構造は実験的に導かれた構造を補うために使われ、衛星画像からの社会経済指標の予測は正確な測量データを補完するために使われるなどである。 予測は不完全であり、潜在的に偏りがあるため、このプラクティスは下流推論の妥当性に疑問を呈する。 本稿では,機械学習を用いた有効な推論手法であるクロス予測を提案する。 小さなラベル付きデータセットと大きなラベルなしデータセットで、クロスプリディクションは機械学習によるラベルの欠落を暗示し、予測の不正確さを改善するためにデバイアスの形式を適用する。 結果の推論は望ましいエラー確率を達成し、ラベル付きデータのみを利用するものよりも強力である。 優れた事前学習モデルがすでに利用可能であると仮定する、予測駆動推論の最近の提案と密接に関連している。 我々は,ラベル付きデータのごく一部を分割してモデルを訓練する予測型推論の適応よりも,クロス予測の方が一貫して強力であることを示す。 最後に、クロス述語は競合語よりもより安定な結論を与え、その信頼区間は一般にかなり低い変動率を持つ。

While reliable data-driven decision-making hinges on high-quality labeled data, the acquisition of quality labels often involves laborious human annotations or slow and expensive scientific measurements. Machine learning is becoming an appealing alternative as sophisticated predictive techniques are being used to quickly and cheaply produce large amounts of predicted labels; e.g., predicted protein structures are used to supplement experimentally derived structures, predictions of socioeconomic indicators from satellite imagery are used to supplement accurate survey data, and so on. Since predictions are imperfect and potentially biased, this practice brings into question the validity of downstream inferences. We introduce cross-prediction: a method for valid inference powered by machine learning. With a small labeled dataset and a large unlabeled dataset, cross-prediction imputes the missing labels via machine learning and applies a form of debiasing to remedy the prediction inaccuracies. The resulting inferences achieve the desired error probability and are more powerful than those that only leverage the labeled data. Closely related is the recent proposal of prediction-powered inference, which assumes that a good pre-trained model is already available. We show that cross-prediction is consistently more powerful than an adaptation of prediction-powered inference in which a fraction of the labeled data is split off and used to train the model. Finally, we observe that cross-prediction gives more stable conclusions than its competitors; its confidence intervals typically have significantly lower variability.
翻訳日:2023-09-29 13:16:42 公開日:2023-09-28
# 不均一探索空間上のベイズ最適化のための転送学習

Transfer Learning for Bayesian Optimization on Heterogeneous Search Spaces ( http://arxiv.org/abs/2309.16597v1 )

ライセンス: Link先を確認
Zhou Fan, Xinran Han, Zi Wang(参考訳) ベイズ最適化(英: Bayesian optimization, BO)は、一般的なブラックボックス関数最適化法であり、その関数のガウス過程(英語版) (GP) であるベイズモデルに基づいて逐次決定を行う。 モデルの品質を確保するため,「学習」機能に関する観察から学ぶことによって,GP事前設計を自動設計するトランスファーラーニング手法が開発された。 これらのトレーニング関数は通常、"テスト"関数と同じドメイン(最適化されるブラックボックス関数)を持つ必要がある。 本稿では、ドメイン固有のコンテキストから階層型GPの仕様へのニューラルネットマッピングを用いた、異種ドメインのモデル事前学習手法であるMPHDを紹介する。 MPHDはBOとシームレスに統合され、異種検索空間間で知識を伝達することができる。 理論および実験により、mphdの有効性と、ブラックボックス機能最適化課題における優れた性能を示す。

Bayesian optimization (BO) is a popular black-box function optimization method, which makes sequential decisions based on a Bayesian model, typically a Gaussian process (GP), of the function. To ensure the quality of the model, transfer learning approaches have been developed to automatically design GP priors by learning from observations on "training" functions. These training functions are typically required to have the same domain as the "test" function (black-box function to be optimized). In this paper, we introduce MPHD, a model pre-training method on heterogeneous domains, which uses a neural net mapping from domain-specific contexts to specifications of hierarchical GPs. MPHD can be seamlessly integrated with BO to transfer knowledge across heterogeneous search spaces. Our theoretical and empirical results demonstrate the validity of MPHD and its superior performance on challenging black-box function optimization tasks.
翻訳日:2023-09-29 13:16:19 公開日:2023-09-28
# 量子系における局所ミニマ

Local minima in quantum systems ( http://arxiv.org/abs/2309.16596v1 )

ライセンス: Link先を確認
Chi-Fang Chen, Hsin-Yuan Huang, John Preskill, Leo Zhou(参考訳) 量子多体系の基底状態を見つけることは、古典コンピュータと量子コンピュータの両方にとって難しいことが知られている。 その結果、Natureが低温熱浴で量子システムを冷却すると、基底状態は常に効率的に見つけることはできない。 その代わり、自然はエネルギーの局所的な最小値を見つける。 本研究では, 熱摂動下での量子系における局所最小値を求める問題について検討する。 局所的なミニマは基底状態よりも見つけやすいが、局所的な最小値の探索は、局所的な最小値で単一量子ビットを出力するタスクであっても、古典的なコンピュータでは計算が困難であることを示す。 対照的に、量子コンピュータは自然の冷却過程を模倣する熱勾配降下アルゴリズムを用いて、常に局所的な最小値を見つけることができる。 局所ミニマの発見の古典的困難性を確立するために、多項式時間量子アルゴリズムで解ける問題はこれらのハミルトンの基底状態に還元できるような2次元ハミルトニアンの族を考える。 そのようなハミルトニアンにとって、すべての局所ミニマはグローバルミニマであることを証明する。 したがって、量子計算が古典計算よりも強力であると仮定すると、局所的な極小を見つけることは古典的に困難であり、量子計算が容易である。

Finding ground states of quantum many-body systems is known to be hard for both classical and quantum computers. As a result, when Nature cools a quantum system in a low-temperature thermal bath, the ground state cannot always be found efficiently. Instead, Nature finds a local minimum of the energy. In this work, we study the problem of finding local minima in quantum systems under thermal perturbations. While local minima are much easier to find than ground states, we show that finding a local minimum is computationally hard for classical computers, even when the task is to output a single-qubit observable at any local minimum. In contrast, we prove that a quantum computer can always find a local minimum efficiently using a thermal gradient descent algorithm that mimics the cooling process in Nature. To establish the classical hardness of finding local minima, we consider a family of two-dimensional Hamiltonians such that any problem solvable by polynomial-time quantum algorithms can be reduced to finding ground states of these Hamiltonians. We prove that for such Hamiltonians, all local minima are global minima. Therefore, assuming quantum computation is more powerful than classical computation, finding local minima is classically hard and quantumly easy.
翻訳日:2023-09-29 13:16:04 公開日:2023-09-28
# LLMはグラフ学習のための構造情報を効果的に活用できるのか?

Can LLMs Effectively Leverage Structural Information for Graph Learning: When and Why ( http://arxiv.org/abs/2309.16595v1 )

ライセンス: Link先を確認
Jin Huang, Xingjian Zhang, Qiaozhu Mei, Jiaqi Ma(参考訳) 本稿では,構造化データのための大規模言語モデル(llm)について,特にグラフについて検討する。 本研究の目的は,グラフデータに固有の構造情報の導入が,ノード分類タスクにおけるLLMの予測性能を向上させることにある。 when''問題に対処するために、テキストノードの機能が豊富か不足している設定において、構造情報をエンコードするための様々なプロンプト手法について検討する。 という質問に対して、LLMのパフォーマンスに潜在的に寄与する2つの要因、すなわちデータ漏洩とホモフィリーを調査する。 これらの疑問を探究した結果 (i)特にテキストノードの機能に乏しい場合において、llmは構造情報から利益を享受することができる。 (ii)データの漏洩によりllmsの性能が著しく低下していることを示す実質的な証拠は存在せず、 (iii)対象ノードにおけるllmの性能は、そのノードの局所的均質比と強く関連している。

This paper studies Large Language Models (LLMs) for structured data--particularly graphs--a crucial data modality that remains underexplored in the LLM literature. We aim to understand when and why the incorporation of structural information inherent in graph data can improve the prediction performance of LLMs on node classification tasks. To address the ``when'' question, we examine a variety of prompting methods for encoding structural information, in settings where textual node features are either rich or scarce. For the ``why'' questions, we probe into two potential contributing factors to the LLM performance: data leakage and homophily. Our exploration of these questions reveals that (i) LLMs can benefit from structural information, especially when textual node features are scarce; (ii) there is no substantial evidence indicating that the performance of LLMs is significantly attributed to data leakage; and (iii) the performance of LLMs on a target node is strongly positively related to the local homophily ratio of the node.
翻訳日:2023-09-29 13:15:43 公開日:2023-09-28
# mindshift: 精神状態に基づくスマートフォンの使用介入に大規模な言語モデルを活用する

MindShift: Leveraging Large Language Models for Mental-States-Based Problematic Smartphone Use Intervention ( http://arxiv.org/abs/2309.16639v1 )

ライセンス: Link先を確認
Ruolan Wu, Chun Yu, Xiaole Pan, Yujia Liu, Ningning Zhang, Yue Fu, Yuhan Wang, Zhi Zheng, Li Chen, Qiaolei Jiang, Xuhai Xu, Yuanchun Shi(参考訳) 問題のあるスマートフォンの使用は、身体と精神の健康に悪影響を及ぼす。 幅広い先行研究にもかかわらず、既存の説得力のある技術は、ユーザーの身体的状況や精神状態に基づいた動的説得力のあるコンテンツを提供するほど柔軟ではない。 われわれはまずWizard-of-Oz研究(N=12)とインタビュー研究(N=10)を行い、問題のスマートフォン使用の背景にある精神状態(退屈、ストレス、慣性)を要約した。 これは4つの説得戦略(理解、慰め、誘発、足場)の設計に影響を与えます。 我々は,大規模言語モデル(LLM)を活用し,効果的な説得コンテンツの自動生成を可能にする。 我々は,新しいllmを利用したスマートフォン利用介入手法であるmindshiftを開発した。 MindShiftはユーザーの物理的な状況、精神状態、アプリの使用行動、ユーザの目標と習慣を入力として取り、適切な説得戦略で高品質で柔軟な説得的コンテンツを生成する。 5週間のフィールド実験(n=25)を行い,マインドシフトとベースライン手法を比較した。 その結果、マインドシフトは介入受け入れ率を17.8-22.5%向上させ、スマートフォンの使用頻度を12.1-14.4%低下させた。 さらに、ユーザはスマートフォン依存度が大幅に低下し、自己効力感が高まります。 我々の研究は、他の行動変化領域における文脈認識的説得にLLMを活用する可能性に光を当てている。

Problematic smartphone use negatively affects physical and mental health. Despite the wide range of prior research, existing persuasive techniques are not flexible enough to provide dynamic persuasion content based on users' physical contexts and mental states. We first conduct a Wizard-of-Oz study (N=12) and an interview study (N=10) to summarize the mental states behind problematic smartphone use: boredom, stress, and inertia. This informs our design of four persuasion strategies: understanding, comforting, evoking, and scaffolding habits. We leverage large language models (LLMs) to enable the automatic and dynamic generation of effective persuasion content. We develop MindShift, a novel LLM-powered problematic smartphone use intervention technique. MindShift takes users' in-the-moment physical contexts, mental states, app usage behaviors, users' goals & habits as input, and generates high-quality and flexible persuasive content with appropriate persuasion strategies. We conduct a 5-week field experiment (N=25) to compare MindShift with baseline techniques. The results show that MindShift significantly improves intervention acceptance rates by 17.8-22.5% and reduces smartphone use frequency by 12.1-14.4%. Moreover, users have a significant drop in smartphone addiction scale scores and a rise in self-efficacy. Our study sheds light on the potential of leveraging LLMs for context-aware persuasion in other behavior change domains.
翻訳日:2023-09-29 13:07:35 公開日:2023-09-28
# 創発現象としての対応によるEnd-to-End- Image Goal Navigation

End-to-End (Instance)-Image Goal Navigation through Correspondence as an Emergent Phenomenon ( http://arxiv.org/abs/2309.16634v1 )

ライセンス: Link先を確認
Guillaume Bono, Leonid Antsfeld, Boris Chidlovskii, Philippe Weinzaepfel, Christian Wolf(参考訳) 目標指向ビジュアルナビゲーションにおける最近の研究は、シミュレーション環境での大規模機械学習に頼っている。 主な課題は、見えない環境に一般化可能なコンパクト表現の学習と、高次元入力を推論可能な高容量知覚モジュールの学習である。 認識モジュールは、基礎となる視覚対応問題の解決に必要な比較戦略を学ぶ必要があるため、ゴールがカテゴリ(ObjectNav)ではなく、模範イメージ(ImageNav)として与えられる場合、後者は特に困難である。 これは、単独での報酬や標準的な補助作業では困難であることが示されている。 複雑なシーンにおいて、認識における主要なボトルネックの一つであり、極端に広義の相対的なポーズ推定と可視性予測を前提とした2つのプレテキストタスクのシーケンスによってこの問題に対処する。 第1のプレテキストタスクであるクロスビュー補完は、基礎となる視覚対応問題のプロキシであり、第2のタスクはゴール検出と直接検出に対処する。 そこで我々は,大容量双眼VTモデルを用いた新しいデュアルエンコーダを提案し,対応解が学習信号から自然に現れることを示す。 実験では、ImageNav と Instance-ImageNav の2つのベンチマークで、カメラの内在性と高さが観察と目標によって異なる、大幅な改善とSOTAパフォーマンスが示されている。

Most recent work in goal oriented visual navigation resorts to large-scale machine learning in simulated environments. The main challenge lies in learning compact representations generalizable to unseen environments and in learning high-capacity perception modules capable of reasoning on high-dimensional input. The latter is particularly difficult when the goal is not given as a category ("ObjectNav") but as an exemplar image ("ImageNav"), as the perception module needs to learn a comparison strategy requiring to solve an underlying visual correspondence problem. This has been shown to be difficult from reward alone or with standard auxiliary tasks. We address this problem through a sequence of two pretext tasks, which serve as a prior for what we argue is one of the main bottleneck in perception, extremely wide-baseline relative pose estimation and visibility prediction in complex scenes. The first pretext task, cross-view completion is a proxy for the underlying visual correspondence problem, while the second task addresses goal detection and finding directly. We propose a new dual encoder with a large-capacity binocular ViT model and show that correspondence solutions naturally emerge from the training signals. Experiments show significant improvements and SOTA performance on the two benchmarks, ImageNav and the Instance-ImageNav variant, where camera intrinsics and height differ between observation and goal.
翻訳日:2023-09-29 13:07:11 公開日:2023-09-28
# 自分のペアを混ぜる

Mixup Your Own Pairs ( http://arxiv.org/abs/2309.16633v1 )

ライセンス: Link先を確認
Yilei Wu, Zijian Dong, Chongyao Chen, Wangchunshu Zhou, Juan Helen Zhou(参考訳) 表現学習では、回帰は伝統的に分類よりも注意が払われていない。 回帰に分類用に設計された表現学習技術を直接適用すると、しばしば潜在空間における断片化表現が発生し、準最適性能が得られる。 本稿では,2つの重要な側面,すなわち順序性認識と硬さの欠如から,回帰学習におけるコントラスト学習の可能性が隠蔽されていることを論じる。 これらの課題に対処するため、私たちは、実/実サンプルのみに頼るのではなく、"教師付きコントラスト回帰のための自身のコントラストペアを混ぜ合わせる"ことを推奨する。 具体的には,SupReMix (SupReMix) を用いた回帰学習を提案する。 アンカー-包括的混合物(アンカーと異なる負の試料の混合)をハード負のペアとして、アンカー-排他的混合物(2つの異なる負の試料の混合)を埋め込みレベルでハード正のペアとする。 この戦略は、よりリッチな順序情報を統合することで、よりコントラスト的なペアを定式化する。 2次元画像、ボリューム画像、テキスト、表データ、時系列信号を含む6つの回帰データセットと理論解析を組み合わせることで、supremixプリトレーニングが回帰データの連続順序表現を助長し、回帰性能が大幅に向上することを示す。 さらに、SupReMixは、転送学習、不均衡なトレーニングデータ、トレーニングサンプルが少ないシナリオなど、さまざまな回帰的な課題において、他のアプローチよりも優れている。

In representation learning, regression has traditionally received less attention than classification. Directly applying representation learning techniques designed for classification to regression often results in fragmented representations in the latent space, yielding sub-optimal performance. In this paper, we argue that the potential of contrastive learning for regression has been overshadowed due to the neglect of two crucial aspects: ordinality-awareness and hardness. To address these challenges, we advocate "mixup your own contrastive pairs for supervised contrastive regression", instead of relying solely on real/augmented samples. Specifically, we propose Supervised Contrastive Learning for Regression with Mixup (SupReMix). It takes anchor-inclusive mixtures (mixup of the anchor and a distinct negative sample) as hard negative pairs and anchor-exclusive mixtures (mixup of two distinct negative samples) as hard positive pairs at the embedding level. This strategy formulates harder contrastive pairs by integrating richer ordinal information. Through extensive experiments on six regression datasets including 2D images, volumetric images, text, tabular data, and time-series signals, coupled with theoretical analysis, we demonstrate that SupReMix pre-training fosters continuous ordered representations of regression data, resulting in significant improvement in regression performance. Furthermore, SupReMix is superior to other approaches in a range of regression challenges including transfer learning, imbalanced training data, and scenarios with fewer training samples.
翻訳日:2023-09-29 13:06:46 公開日:2023-09-28
# 堅牢なオフライン強化学習 -- 信頼区間の証明

Robust Offline Reinforcement Learning -- Certify the Confidence Interval ( http://arxiv.org/abs/2309.16631v1 )

ライセンス: Link先を確認
Jiarui Yao and Simon Shaolei Du(参考訳) 現在、強化学習(RL)、特に深層学習(RL)は、研究領域でますます注目を集めている。 しかし、RLのセキュリティは攻撃方法が成熟するにつれて明らかな問題となっている。 このような敵攻撃に対して防御するために、敵の訓練やデータフィルタリングなど、いくつかの実践的なアプローチが開発されている。 しかし、これらの手法は主に経験的アルゴリズムと実験に基づいており、アルゴリズムの堅牢性に関する厳密な理論的分析は行わない。 本論文では, ランダムな平滑化を伴わずに, ランダムな平滑化を伴わずに, 効率よく実施できるような, ある方針の堅牢性を証明できるアルゴリズムを開発する。 異なる環境における実験により,アルゴリズムの正確性が確認できた。

Currently, reinforcement learning (RL), especially deep RL, has received more and more attention in the research area. However, the security of RL has been an obvious problem due to the attack manners becoming mature. In order to defend against such adversarial attacks, several practical approaches are developed, such as adversarial training, data filtering, etc. However, these methods are mostly based on empirical algorithms and experiments, without rigorous theoretical analysis of the robustness of the algorithms. In this paper, we develop an algorithm to certify the robustness of a given policy offline with random smoothing, which could be proven and conducted as efficiently as ones without random smoothing. Experiments on different environments confirm the correctness of our algorithm.
翻訳日:2023-09-29 13:06:05 公開日:2023-09-28
# LADによる学習について

On Learning with LAD ( http://arxiv.org/abs/2309.16630v1 )

ライセンス: Link先を確認
C. A. Jothishwaran, Biplav Srivastava, Jitin Singla, Sugata Gangopadhyay(参考訳) データの論理解析であるLADは、解離正規形式(DNF)表現を持つブール関数に基づく2クラス分類器を生成する手法である。 LADアルゴリズムは最適化手法を採用しているが、結果のバイナリ分類器やバイナリルールは過度に適合しない。 仮説集合が少数の立方体単項を持つDNFからなるLADモデルに対して、Vapnik-Chervonenkis次元(VC次元)を推定することにより、過剰適合の欠如を理論的に正当化する。 我々は観察を実証して確認する。

The logical analysis of data, LAD, is a technique that yields two-class classifiers based on Boolean functions having disjunctive normal form (DNF) representation. Although LAD algorithms employ optimization techniques, the resulting binary classifiers or binary rules do not lead to overfitting. We propose a theoretical justification for the absence of overfitting by estimating the Vapnik-Chervonenkis dimension (VC dimension) for LAD models where hypothesis sets consist of DNFs with a small number of cubic monomials. We illustrate and confirm our observations empirically.
翻訳日:2023-09-29 13:05:52 公開日:2023-09-28
# 非コントラストCT画像におけるResnet-LSTMを用いたクラス活性化マップに基づく弱制御出血分類

Class Activation Map-based Weakly supervised Hemorrhage Segmentation using Resnet-LSTM in Non-Contrast Computed Tomography images ( http://arxiv.org/abs/2309.16627v1 )

ライセンス: Link先を確認
Shreyas H Ramananda, Vaanathi Sundaresan(参考訳) 非造影CT(non-contrast CT, NCCT)を用いて重症度評価を行い, 脳内出血と診断した。 ICH病変の正確な自動セグメンテーションは、初期および必須ステップであり、そのような評価に非常に有用である。 しかし, NCCT画像ではMRIなどの他の構造像に比べて, ICHは非常に低コントラストで低SNRで現れる。 近年, 深層学習(DL)に基づく手法は大きな可能性を示しているが, ICHの特徴を捉えるのに十分な多様性を持つ手動の病変レベルラベルを大量に必要としている。 そこで本研究では,画像レベルの2値分類ラベルを用いたncctスキャンにおけるictセグメンテーションの弱い教師付きdl法を提案する。 提案手法は,連続したスライス間の依存関係を学習するために訓練された分類ネットワークからクラスアクティベーションマップを用いて,まず ich の近似位置を決定する。 疑似ICHマスクを用いて、教師なしの方法でICHセグメンテーションを改良する。 この方法は柔軟で、テスト中に計算的に軽量なアーキテクチャを使用する。 本手法は,MICCAI 2022 INSTANCEチャレンジの検証データについて評価し,より少ないトレーニングデータでトレーニングしたにもかかわらず,既存の弱教師付き手法(Dice値0.47)と同等のDice値0.55を達成した。

In clinical settings, intracranial hemorrhages (ICH) are routinely diagnosed using non-contrast CT (NCCT) for severity assessment. Accurate automated segmentation of ICH lesions is the initial and essential step, immensely useful for such assessment. However, compared to other structural imaging modalities such as MRI, in NCCT images ICH appears with very low contrast and poor SNR. Over recent years, deep learning (DL)-based methods have shown great potential, however, training them requires a huge amount of manually annotated lesion-level labels, with sufficient diversity to capture the characteristics of ICH. In this work, we propose a novel weakly supervised DL method for ICH segmentation on NCCT scans, using image-level binary classification labels, which are less time-consuming and labor-efficient when compared to the manual labeling of individual ICH lesions. Our method initially determines the approximate location of ICH using class activation maps from a classification network, which is trained to learn dependencies across contiguous slices. We further refine the ICH segmentation using pseudo-ICH masks obtained in an unsupervised manner. The method is flexible and uses a computationally light architecture during testing. On evaluating our method on the validation data of the MICCAI 2022 INSTANCE challenge, our method achieves a Dice value of 0.55, comparable with those of existing weakly supervised method (Dice value of 0.47), despite training on a much smaller training data.
翻訳日:2023-09-29 13:05:40 公開日:2023-09-28
# 大規模言語モデルのためのストレステストチェーン

Stress Testing Chain-of-Thought Prompting for Large Language Models ( http://arxiv.org/abs/2309.16621v1 )

ライセンス: Link先を確認
Aayush Mishra, Karan Thakkar(参考訳) 本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性を検討する。 従来の研究である{Min2022RethinkingWork}に触発されて、様々なタスクにおけるGPT-3の性能に及ぼすCoTオーダー、CoT値、CoT演算子の影響を解析した。 以上の結果から,CoTの誤用により精度が低下することが示唆された。 CoTの正確な値は、正しい回答を予測するために不可欠である。 さらに、CoT演算子やCoT順序が間違っている不正確な実演は、値ベースの摂動に比べて大幅に性能に影響を与えない。 この研究は、CoTの理解を深め、LLMが文脈で推論を学ぶ能力について、いくつかの新しい疑問を提起する。

This report examines the effectiveness of Chain-of-Thought (CoT) prompting in improving the multi-step reasoning abilities of large language models (LLMs). Inspired by previous studies \cite{Min2022RethinkingWork}, we analyze the impact of three types of CoT prompt perturbations, namely CoT order, CoT values, and CoT operators on the performance of GPT-3 on various tasks. Our findings show that incorrect CoT prompting leads to poor performance on accuracy metrics. Correct values in the CoT is crucial for predicting correct answers. Moreover, incorrect demonstrations, where the CoT operators or the CoT order are wrong, do not affect the performance as drastically when compared to the value based perturbations. This research deepens our understanding of CoT prompting and opens some new questions regarding the capability of LLMs to learn reasoning in context.
翻訳日:2023-09-29 13:05:12 公開日:2023-09-28
# 残差ネットワークにおける奥行きハイパーパラメータ転送:ダイナミクスとスケーリング限界

Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and Scaling Limit ( http://arxiv.org/abs/2309.16620v1 )

ライセンス: Link先を確認
Blake Bordelon, Lorenzo Noci, Mufan Bill Li, Boris Hanin, Cengiz Pehlevan(参考訳) ディープラーニングにおけるハイパーパラメータチューニングのコストはモデルサイズとともに上昇しており、実践者はより小さなネットワークのプロキシを使って新しいチューニング方法を見つけることができる。 そのような提案の1つは$\mu$Pパラメータ化ネットワークを使用し、小さな幅のネットワークに対して最適なハイパーパラメータが任意に広い幅のネットワークに転送される。 しかし、このスキームでは、ハイパーパラメータは深さを渡らない。 救済策として,1/\sqrt{\text{depth}}$と$\mu$Pパラメータ化を組み合わせた残差分数スケールの残差ネットワークについて検討する。 このパラメータ化で訓練された畳み込みResNetやVision Transformerなどの残余アーキテクチャは、CIFAR-10とImageNet上で幅と深さをまたいだ最適なハイパーパラメータの転送を示す。 さらに,我々の経験的発見は理論によって支持され動機づけられる。 ニューラルネットワーク学習ダイナミクスの動的平均場理論(dmft)記述における最近の発展を用いて、この再ネットのパラメータ化は、無限幅と無限深さの極限をうまく定義した特徴学習を許容し、有限サイズのネットワークダイナミクスの収束を示す。

The cost of hyperparameter tuning in deep learning has been rising with model sizes, prompting practitioners to find new tuning methods using a proxy of smaller networks. One such proposal uses $\mu$P parameterized networks, where the optimal hyperparameters for small width networks transfer to networks with arbitrarily large width. However, in this scheme, hyperparameters do not transfer across depths. As a remedy, we study residual networks with a residual branch scale of $1/\sqrt{\text{depth}}$ in combination with the $\mu$P parameterization. We provide experiments demonstrating that residual architectures including convolutional ResNets and Vision Transformers trained with this parameterization exhibit transfer of optimal hyperparameters across width and depth on CIFAR-10 and ImageNet. Furthermore, our empirical findings are supported and motivated by theory. Using recent developments in the dynamical mean field theory (DMFT) description of neural network learning dynamics, we show that this parameterization of ResNets admits a well-defined feature learning joint infinite-width and infinite-depth limit and show convergence of finite-size network dynamics towards this limit.
翻訳日:2023-09-29 13:04:57 公開日:2023-09-28
# ファジィングのためのニューラルプログラム平滑化の再検討

Revisiting Neural Program Smoothing for Fuzzing ( http://arxiv.org/abs/2309.16618v1 )

ライセンス: Link先を確認
Maria-Irina Nicolae, Max Eisele, Andreas Zeller(参考訳) ランダムに生成された入力(ファジング)を使ったテストは、プログラムの脆弱性を自動的に露呈する能力により、大きな注目を集めている。 ファズテストキャンペーンは大量のデータを生成し、機械学習(ML)の適用に最適である。 ML誘導ファジィの特定のファミリーであるニューラルプログラムスムーシング(NPS)は、新しいテストケース生成のためのプログラムターゲットのスムーズな近似としてニューラルネットワークを使用することを目的としている。 本稿では,標準グレーボックスファザ(=11 CPU年,=5.5 GPU年)に対するNPSファザの最も広範囲な評価を行い,(1)NPSファザの本来の性能要求が満たされていないこと,(2)先行作業の基本的,実装的,実験的制限に関連するギャップについて考察する。 2) NPSにおける機械学習と勾配に基づく突然変異の寄与の詳細な分析を行った。 (3)Nuzz++を実装し,NPSファッザの実用的限界に対処することで性能が向上するが,標準グレーボックスファッザはNPSファッザをほぼ超越していることを示す。 その結果,機械学習に基づくファジィリングのベンチマークを目的とした新たなガイドラインが提案され,MLベースのファジィアを容易に再現可能なGPUアクセスプラットフォームであるMLFuzzが提案されている。 neuzz++、mlfuzz、そして私たちのデータはすべてパブリックです。

Testing with randomly generated inputs (fuzzing) has gained significant traction due to its capacity to expose program vulnerabilities automatically. Fuzz testing campaigns generate large amounts of data, making them ideal for the application of machine learning (ML). Neural program smoothing (NPS), a specific family of ML-guided fuzzers, aims to use a neural network as a smooth approximation of the program target for new test case generation. In this paper, we conduct the most extensive evaluation of NPS fuzzers against standard gray-box fuzzers (>11 CPU years and >5.5 GPU years), and make the following contributions: (1) We find that the original performance claims for NPS fuzzers do not hold; a gap we relate to fundamental, implementation, and experimental limitations of prior works. (2) We contribute the first in-depth analysis of the contribution of machine learning and gradient-based mutations in NPS. (3) We implement Neuzz++, which shows that addressing the practical limitations of NPS fuzzers improves performance, but that standard gray-box fuzzers almost always surpass NPS-based fuzzers. (4) As a consequence, we propose new guidelines targeted at benchmarking fuzzing based on machine learning, and present MLFuzz, a platform with GPU access for easy and reproducible evaluation of ML-based fuzzers. Neuzz++, MLFuzz, and all our data are public.
翻訳日:2023-09-29 13:04:38 公開日:2023-09-28
# Qwen 技術報告

Qwen Technical Report ( http://arxiv.org/abs/2309.16609v1 )

ライセンス: Link先を確認
Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu(参考訳) 大規模言語モデル(LLM)は人工知能の分野に革命をもたらし、以前は人間専用と考えられていた自然言語処理タスクを可能にした。 本稿では,大規模な言語モデルシリーズの最初のインストールであるqwenを紹介する。 Qwenは、パラメータ数が異なる異なるモデルを含む包括的な言語モデルシリーズである。 基本的な事前学習された言語モデルであるqwenと、人間のアライメント技術で微調整されたチャットモデルであるqwen-chatが含まれている。 基本言語モデルは,多数のダウンストリームタスクにおいて一貫して優れたパフォーマンスを示し,チャットモデル,特に人的フィードバックからの強化学習(rlhf)を用いたトレーニングは,極めて競争力が高い。 チャットモデルはエージェントアプリケーションを作成するための高度なツール利用と計画機能を持ち、コードインタプリタの利用のような複雑なタスクのより大きなモデルと比較しても印象的なパフォーマンスを示している。 さらに,コーディング特化モデルであるCode-QwenとCode-Qwen-Chatと,ベース言語モデルに基づくMath-Qwen-Chatを開発した。 これらのモデルは、オープンソースモデルと比較して大幅にパフォーマンスが向上し、プロプライエタリモデルにやや遅れている。

Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
翻訳日:2023-09-29 13:04:09 公開日:2023-09-28
# 高対称状態の単元性

Monogamy of highly symmetric states ( http://arxiv.org/abs/2309.16655v1 )

ライセンス: Link先を確認
Rene Allerstorfer and Matthias Christandl and Dmitry Grinko and Ion Nechita and Maris Ozols and Denis Rochette and Philip Verduyn Lunel(参考訳) 我々は、Werner、等方性およびブラウアー状態の場合、完全グラフ上の他の粒子と同じような方法で絡み合う場合、高い絡み合いを持つ2つの粒子がどの程度あるかという問題を研究する。 そのため,多体物理学,計算複雑性,量子暗号に動機付けられた最適化問題を解く。 我々は,半定値プログラムとして質問を形式化し,この最適化問題を表現論のツールを用いて解析的に解く。 特に、最大絡み合う状態への射影の正確な最大値と反対称ヴェルナー状態が決定され、長年の未解決問題を解く。 これらの最適値は、対称群と直交群のSDP双対性と表現論とブラウアー代数を用いて得られる。

We study the question of how highly entangled two particles can be when also entangled in a similar way with other particles on the complete graph for the case of Werner, isotropic and Brauer states. In order to do so we solve optimization problems motivated by many-body physics, computational complexity and quantum cryptography. We formalize our question as a semi-definite program and then solve this optimization problem analytically, using tools from representation theory. In particular, we determine the exact maximum values of the projection to the maximally entangled state and antisymmetric Werner state possible, solving long-standing open problems. We find these optimal values by use of SDP duality and representation theory of the symmetric and orthogonal groups, and the Brauer algebra.
翻訳日:2023-09-29 12:58:13 公開日:2023-09-28
# 武器自動検出のための新しいディープラーニングパイプライン

Novel Deep Learning Pipeline for Automatic Weapon Detection ( http://arxiv.org/abs/2309.16654v1 )

ライセンス: Link先を確認
Haribharathi Sivakumar and Vijay Arvind.R and Pawan Ragavendhar V and G.Balamurugan(参考訳) 武器と銃の暴力は、今日では差し迫った問題となっている。 これらの犯罪や活動の程度は、疫病と称されるところまで高まっている。 この兵器の誤用は、リアルタイムで兵器を検出する自動システムを要求する。 リアルタイム監視ビデオは、ほぼすべての公開フォーラムや場所で撮影、録画される。 これらのビデオには豊富な生データが含まれており、抽出して意味のある情報として処理することができる。 本稿では,異なるアーキテクチャを持つ畳み込みニューラルネットワークの集合からなる新しいパイプラインを提案する。 各ニューラルネットワークは、トレーニングサンプルにほとんど重複しないユニークなミニバッチでトレーニングされる。 本稿では,提案したアーキテクチャとSoA(State-of-the-art)モデルを比較し,複数のデータセットを用いて有望な結果を示す。 提案するパイプラインでは、soaシステムと比較して、精度、特異性、リコールが平均5%向上しました。

Weapon and gun violence have recently become a pressing issue today. The degree of these crimes and activities has risen to the point of being termed as an epidemic. This prevalent misuse of weapons calls for an automatic system that detects weapons in real-time. Real-time surveillance video is captured and recorded in almost all public forums and places. These videos contain abundant raw data which can be extracted and processed into meaningful information. This paper proposes a novel pipeline consisting of an ensemble of convolutional neural networks with distinct architectures. Each neural network is trained with a unique mini-batch with little to no overlap in the training samples. This paper will present several promising results using multiple datasets associated with comparing the proposed architecture and state-of-the-art (SoA) models. The proposed pipeline produced an average increase of 5% in accuracy, specificity, and recall compared to the SoA systems.
翻訳日:2023-09-29 12:58:00 公開日:2023-09-28
# DreamGaussian: 効率的な3Dコンテンツ作成のためのガウススプレイティング

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation ( http://arxiv.org/abs/2309.16653v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng(参考訳) 近年の3Dコンテンツ作成の進歩は, スコア蒸留サンプリング(SDS)による最適化に基づく3D生成に大きく貢献している。 有望な結果が示されたが、これらの手法はサンプルごとの最適化が遅く、実用的利用が制限されることが多い。 本稿では,効率と品質を同時に達成する新たな3dコンテンツ生成フレームワークdreamgaussianを提案する。 我々の重要な洞察は、UV空間におけるメッシュ抽出とテクスチャ改善を伴う3次元ガウススプラッティングモデルを設計することである。 ニューラル・ラジアンス・フィールドにおける占有プルーニングとは対照的に、3次元ガウスの進行的な密度化は3次元生成タスクにおいて著しく速く収束することを示した。 テクスチャ品質をさらに向上させ,下流の応用を容易にするために,3次元ガウスをテクスチャメッシュに変換するアルゴリズムを導入し,細かな調整を施して詳細を洗練させる。 広範な実験により,提案手法の優れた効率性と競争力を実証した。 とくにDreamGaussianは、単一のビューイメージからわずか2分で高品質なテクスチャメッシュを生成し、既存の方法に比べて約10倍の高速化を実現している。

Recent advances in 3D content creation mostly leverage optimization-based 3D generation via score distillation sampling (SDS). Though promising results have been exhibited, these methods often suffer from slow per-sample optimization, limiting their practical usage. In this paper, we propose DreamGaussian, a novel 3D content generation framework that achieves both efficiency and quality simultaneously. Our key insight is to design a generative 3D Gaussian Splatting model with companioned mesh extraction and texture refinement in UV space. In contrast to the occupancy pruning used in Neural Radiance Fields, we demonstrate that the progressive densification of 3D Gaussians converges significantly faster for 3D generative tasks. To further enhance the texture quality and facilitate downstream applications, we introduce an efficient algorithm to convert 3D Gaussians into textured meshes and apply a fine-tuning stage to refine the details. Extensive experiments demonstrate the superior efficiency and competitive generation quality of our proposed approach. Notably, DreamGaussian produces high-quality textured meshes in just 2 minutes from a single-view image, achieving approximately 10 times acceleration compared to existing methods.
翻訳日:2023-09-29 12:57:50 公開日:2023-09-28
# 長期相関を保存する拡散係数:ボソニックボゴリューボフ系におけるアインシュタイン関係と絡み合いの関係

Diffusion coefficients preserving long-time correlations: Consequences on the Einstein relation and on entanglement in a bosonic Bogoliubov system ( http://arxiv.org/abs/2309.16651v1 )

ライセンス: Link先を確認
Yamen Hamdouni(参考訳) 我々は、n$結合調和振動子の系を永続相関を示す平衡状態へと駆動する拡散係数を解析的に導出する。 後者の主な効果は、振動子の自然周波数と摩擦係数の再正規化である。 物理的制約が満たされている場合, アインシュタイン関係は周波数依存性の有効摩擦係数を持つ低温で満たされる可能性がある。 また, 2成分系ボソニックボゴリューボフ系の熱圧縮状態での絡み合い進化についても検討した。 期待とは対照的に、強い結合は絡み合いの急激な死を遅くし、最初に分離可能な状態の場合、絡み合いの発生が起こる可能性がある。

We analytically derive the diffusion coefficients that drive a system of $N$ coupled harmonic oscillators to an equilibrium state exhibiting persistent correlations. It is shown that the main effect of the latter consists in a renormalization of the natural frequencies and the friction coefficients of the oscillators. We find that the Einstein relation may be satisfied at low temperatures with frequency-dependent effective friction coefficients, provided that the physical constraints are fulfilled. We also investigate the entanglement evolution in a bipartite bosonic Bogoliubov system initially prepared in a thermal squeezed state. It is found that, in contrast to what one may expect, strong coupling slows down the entanglement sudden death, and for initially separable states, entanglement generation may occur.
翻訳日:2023-09-29 12:57:29 公開日:2023-09-28
# ConceptGraphs: 知覚と計画のためのオープンVocabulary 3D Scene Graphs

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning ( http://arxiv.org/abs/2309.16650v1 )

ライセンス: Link先を確認
Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull(参考訳) ロボットがさまざまなタスクをこなすためには、意味的にリッチだが、タスク駆動の知覚と計画のためにコンパクトで効率的な世界を3d表現する必要がある。 最近のアプローチでは、3d表現に意味をエンコードするために大きな視覚言語モデルの機能を活用しようと試みている。 しかし、これらの手法は、大規模環境ではうまくスケールしない点ごとの特徴ベクトルを持つマップを生成する傾向があり、また、下流計画に役立つ環境内のエンティティ間の意味的な空間的関係も含まない。 本研究では,3dシーンのためのオープンボカブラリーグラフ構造表現であるconceptgraphsを提案する。 ConceptGraphsは2Dファウンデーションモデルを活用し、マルチビューアソシエーションによって出力を3Dに融合することによって構築される。 得られた表現は、大きな3Dデータセットやファインチューンモデルを集めることなく、新しいセマンティッククラスに一般化される。 抽象的(言語的)プロンプトを通じて特定され,空間的および意味的概念に対する複雑な推論を必要とする,下流計画タスクを通じて,この表現の有用性を実証する。 (プロジェクトページ: https://concept-graphs.github.io/ Explainer video: https://youtu.be/mRhNkQwRYnc )

For robots to perform a wide variety of tasks, they require a 3D representation of the world that is semantically rich, yet compact and efficient for task-driven perception and planning. Recent approaches have attempted to leverage features from large vision-language models to encode semantics in 3D representations. However, these approaches tend to produce maps with per-point feature vectors, which do not scale well in larger environments, nor do they contain semantic spatial relationships between entities in the environment, which are useful for downstream planning. In this work, we propose ConceptGraphs, an open-vocabulary graph-structured representation for 3D scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing their output to 3D by multi-view association. The resulting representations generalize to novel semantic classes, without the need to collect large 3D datasets or finetune models. We demonstrate the utility of this representation through a number of downstream planning tasks that are specified through abstract (language) prompts and require complex reasoning over spatial and semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer video: https://youtu.be/mRhNkQwRYnc )
翻訳日:2023-09-29 12:57:15 公開日:2023-09-28
# FLIP: 言語ガイダンスによるドメイン横断の顔偽造

FLIP: Cross-domain Face Anti-spoofing with Language Guidance ( http://arxiv.org/abs/2309.16649v1 )

ライセンス: Link先を確認
Koushik Srivatsan, Muzammal Naseer, Karthik Nandakumar(参考訳) Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、セキュリティクリティカルなアプリケーションにデプロイされる顔認識システムにおいて不可欠なコンポーネントである。 既存のFAS法は、見えないスプーフタイプ、カメラセンサー、環境条件への一般化性が低い。 近年、画像パッチ間の長距離依存関係をキャプチャできるため、視覚変換器(ViT)モデルがFASタスクに有効であることが示されている。 しかし、適応モジュールや補助損失関数は、ImageNetのような大規模データセットで学習したトレーニング済みのViT重みに適応するためにしばしば必要とされる。 本稿ではまず,vitsをマルチモーダル(クリップなど)プリトレーニングウェイトで初期化することで,視覚言語プレトレーニング(vlp)モデルのゼロショット転送能力に準拠したfasタスクの一般化性が向上することを示す。 次に,自然言語を用いて視覚的表現を接地することで,堅牢なクロスドメインfasを実現する新しい手法を提案する。 具体的には、画像表現とクラス記述のアンサンブル(自然言語のセマンティクスに基づく)を一致させることで、低データ体制におけるFASの一般化性が向上することを示す。 最後に,機能一般化をさらに促進し,ソース領域とターゲット領域のギャップを埋めるマルチモーダルコントラスト学習戦略を提案する。 3つの標準プロトコルに対する大規模な実験により、我々の手法は最先端の手法よりも優れており、適応型VTの5ショット転送よりも優れたゼロショット転送性能が得られることが示された。 コード:https://github.com/koushiksrivats/FLIP

Face anti-spoofing (FAS) or presentation attack detection is an essential component of face recognition systems deployed in security-critical applications. Existing FAS methods have poor generalizability to unseen spoof types, camera sensors, and environmental conditions. Recently, vision transformer (ViT) models have been shown to be effective for the FAS task due to their ability to capture long-range dependencies among image patches. However, adaptive modules or auxiliary loss functions are often required to adapt pre-trained ViT weights learned on large-scale datasets such as ImageNet. In this work, we first show that initializing ViTs with multimodal (e.g., CLIP) pre-trained weights improves generalizability for the FAS task, which is in line with the zero-shot transfer capabilities of vision-language pre-trained (VLP) models. We then propose a novel approach for robust cross-domain FAS by grounding visual representations with the help of natural language. Specifically, we show that aligning the image representation with an ensemble of class descriptions (based on natural language semantics) improves FAS generalizability in low-data regimes. Finally, we propose a multimodal contrastive learning strategy to boost feature generalization further and bridge the gap between source and target domains. Extensive experiments on three standard protocols demonstrate that our method significantly outperforms the state-of-the-art methods, achieving better zero-shot transfer performance than five-shot transfer of adaptive ViTs. Code: https://github.com/koushiksrivats/FLIP
翻訳日:2023-09-29 12:56:52 公開日:2023-09-28
# 最先端監視深度と正規予測器の等分散性の改善

Improving Equivariance in State-of-the-Art Supervised Depth and Normal Predictors ( http://arxiv.org/abs/2309.16646v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Anand Bhattad, Yu-Xiong Wang, David Forsyth(参考訳) 深度と表面の正常な予測器は、トリミングとリサイズに対する同変特性を持つべきであり、入力画像のトリミングは、同じ出力画像のトリミングをもたらす。 しかし、最先端の深度と通常の予測器は、性能が強いにもかかわらず、驚くほど同値ではない。 この問題は、トレーニング中に作物とサイズのデータ拡張が採用されている場合でも存在する。 そこで本研究では,平均化手法と自己整合性損失からなる同変正規化手法を提案する。 我々のアプローチはCNNとTransformerアーキテクチャの両方に適用でき、テスト中に余分なコストがかからず、特にタスクマイノミータスクにおける高密度予測器の教師付きおよび半教師付き学習性能が向上する。 最後に,未ラベル画像の微細化により,NYU-v2で評価した場合,均一性だけでなく,最先端の深度や正規予測値の精度も向上する。 githubのリンク: https://github.com/mikuhatsune/equivariance

Dense depth and surface normal predictors should possess the equivariant property to cropping-and-resizing -- cropping the input image should result in cropping the same output image. However, we find that state-of-the-art depth and normal predictors, despite having strong performances, surprisingly do not respect equivariance. The problem exists even when crop-and-resize data augmentation is employed during training. To remedy this, we propose an equivariant regularization technique, consisting of an averaging procedure and a self-consistency loss, to explicitly promote cropping-and-resizing equivariance in depth and normal networks. Our approach can be applied to both CNN and Transformer architectures, does not incur extra cost during testing, and notably improves the supervised and semi-supervised learning performance of dense predictors on Taskonomy tasks. Finally, finetuning with our loss on unlabeled images improves not only equivariance but also accuracy of state-of-the-art depth and normal predictors when evaluated on NYU-v2. GitHub link: https://github.com/mikuhatsune/equivariance
翻訳日:2023-09-29 12:56:22 公開日:2023-09-28
# reusability report: 生物学的に不均一な神経構造を有する前立腺癌の成層化

Reusability report: Prostate cancer stratification with diverse biologically-informed neural architectures ( http://arxiv.org/abs/2309.16645v1 )

ライセンス: Link先を確認
Christian Pedersen, Tiberiu Tesileanu, Tinghui Wu, Siavash Golkar, Miles Cranmer, Zijun Zhang, Shirley Ho(参考訳) elmarakeby et al., "biologically informed deep neural network for prostate cancer discovery" (生物学的にインフォームドされた前立腺癌発見のための深層ニューラルネットワーク) では、前立腺がんの状態をモデル化するためにスパース・コネクション (p-net) が提示された。 Elmarakebyらが実施した研究の再現性について,元のコードベースと,より最新のライブラリを使用した独自の再実装の両方を用いて検証した。 reactomeの生物学的経路によるネットワークスパーシフィケーションの寄与を定量化し,p-netの優れた性能にその重要性を確認した。 さらに,生体情報をネットワークに組み込むためのニューラルアーキテクチャやアプローチについても検討した。 同じトレーニングデータ上で3種類のグラフニューラルネットワークを実験し,各モデル間の臨床予測の一致について検討した。 分析の結果、異なるアーキテクチャを持つディープニューラルネットワークは、特定のニューラルアーキテクチャの異なる初期化にまたがる個々の患者に対して、誤った予測を行うことがわかった。 これは、異なる神経アーキテクチャがデータの異なる側面に敏感であることを示唆している。

In, Elmarakeby et al., "Biologically informed deep neural network for prostate cancer discovery", a feedforward neural network with biologically informed, sparse connections (P-NET) was presented to model the state of prostate cancer. We verified the reproducibility of the study conducted by Elmarakeby et al., using both their original codebase, and our own re-implementation using more up-to-date libraries. We quantified the contribution of network sparsification by Reactome biological pathways, and confirmed its importance to P-NET's superior performance. Furthermore, we explored alternative neural architectures and approaches to incorporating biological information into the networks. We experimented with three types of graph neural networks on the same training data, and investigated the clinical prediction agreement between different models. Our analyses demonstrated that deep neural networks with distinct architectures make incorrect predictions for individual patient that are persistent across different initializations of a specific neural architecture. This suggests that different neural architectures are sensitive to different aspects of the data, an important yet under-explored challenge for clinical prediction tasks.
翻訳日:2023-09-29 12:56:00 公開日:2023-09-28
# 深部ジオメトリケーションカルトーンラインの展開

Deep Geometrized Cartoon Line Inbetweening ( http://arxiv.org/abs/2309.16643v1 )

ライセンス: Link先を確認
Li Siyao, Tianpei Gu, Weiye Xiao, Henghui Ding, Ziwei Liu, Chen Change Loy(参考訳) 我々は,アニメ産業において,漫画の線画化という重要な課題に対処することを目的としている。 中間フレームは2つの白黒線描画の間に生成され、自動化の恩恵を受ける時間とコストのかかるプロセスである。 しかしながら、ラスタ画像全体の整合と整合に依存する既存のフレーム補間法は、線間インタイニングには不適であり、複雑な線構造を損なうぼやけたアーティファクトをしばしば生成する。 線画の精度と細部を保つために,ラスター線画をエンドポイントのグラフにジオメトリライズし,その間を頂点再配置を伴うグラフ融合問題として再構成する,新しい手法animeinbetを提案する。 本手法は線引きのスパース性と一意な構造を効果的に捉え、間隙に細部を保存できる。 これは、新しいモジュール、すなわち頂点幾何学的埋め込み、頂点対応変換器、頂点再配置の効果的なメカニズムおよび可視性予測器によって実現される。 提案手法をトレーニングするために,地上の真理ベクトル化とマッチングラベルを用いたライン描画のデータセットであるMixamoLine240を導入する。 実験により,animeinbetは高品質,清潔,完全中間線描画を合成し,既存の手法を定量的,定性的に,特に大きな動作の場合において有意な性能を示した。 データとコードはhttps://github.com/lisiyao21/animeinbetで入手できる。

We aim to address a significant but understudied problem in the anime industry, namely the inbetweening of cartoon line drawings. Inbetweening involves generating intermediate frames between two black-and-white line drawings and is a time-consuming and expensive process that can benefit from automation. However, existing frame interpolation methods that rely on matching and warping whole raster images are unsuitable for line inbetweening and often produce blurring artifacts that damage the intricate line structures. To preserve the precision and detail of the line drawings, we propose a new approach, AnimeInbet, which geometrizes raster line drawings into graphs of endpoints and reframes the inbetweening task as a graph fusion problem with vertex repositioning. Our method can effectively capture the sparsity and unique structure of line drawings while preserving the details during inbetweening. This is made possible via our novel modules, i.e., vertex geometric embedding, a vertex correspondence Transformer, an effective mechanism for vertex repositioning and a visibility predictor. To train our method, we introduce MixamoLine240, a new dataset of line drawings with ground truth vectorization and matching labels. Our experiments demonstrate that AnimeInbet synthesizes high-quality, clean, and complete intermediate line drawings, outperforming existing methods quantitatively and qualitatively, especially in cases with large motions. Data and code are available at https://github.com/lisiyao21/AnimeInbet.
翻訳日:2023-09-29 12:55:38 公開日:2023-09-28
# キャビティに結合した強駆動不均一エミッタの異常パーセル崩壊

Anomalous Purcell decay of strongly driven inhomogeneous emitters coupled to a cavity ( http://arxiv.org/abs/2309.16641v1 )

ライセンス: Link先を確認
Michael T. Solomon, Martin Koppenh\"ofer, Cheng Ji, Gregory Grant, Ignas Masiulionis, Sean E. Sullivan, F. Joseph Heremans, Supratik Guha, David D. Awschalom, Aashish A. Clerk, and Alan M. Dibos(参考訳) ナノキャビティ結合型エルビウムアンサンブルの共振蛍光寿命測定をキャビティレーザの変形とポンプパワーの関数として行う。 実験の結果,ゼロキャビティデチューニングと高ポンプフルエンスにおけるアンサンブル崩壊寿命の異常な抑制効果が確認された。 共役空洞に結合した非相互作用スピンのtavis-cummingsモデルを用いて, この減衰速度抑制の定性的側面を捉える。

We perform resonant fluorescence lifetime measurements on a nanocavity-coupled erbium ensemble as a function of cavity-laser detuning and pump power. Our measurements reveal an anomalous suppression of the ensemble decay lifetime at zero cavity detuning and high pump fluence. We capture qualitative aspects of this decay rate suppression using a Tavis-Cummings model of non-interacting spins coupled to a common cavity.
翻訳日:2023-09-29 12:55:11 公開日:2023-09-28
# 一般化可能なインスタンスワイズ不変性のための変換学習

Learning to Transform for Generalizable Instance-wise Invariance ( http://arxiv.org/abs/2309.16672v1 )

ライセンス: Link先を確認
Utkarsh Singhal and Carlos Esteves and Ameesh Makadia and Stella X. Yu(参考訳) コンピュータビジョン研究は長い間、自然データに見られる空間変換に頑健なシステムの構築を目指してきた。 伝統的に、これはアーキテクチャへのデータ拡張やハードコーディングの不変性を使って行われる。 しかし、多すぎる、あるいは少なすぎる不変性が損なわれ、正確な量は未定であり、インスタンスに依存している。 理想的には、適切な不変性はデータから学び、テスト時に推測される。 我々は不変性を予測問題として扱う。 どんな画像でも、正規化フローを使って変換の分布を予測し、それに対する予測を平均化します。 この分布はインスタンスのみに依存するため、それらを分類する前にインスタンスをアライメントし、クラス間の不変性を一般化することができる。 同じ分布は、分配外ポーズに適応するためにも使用できる。 この正規化フローはエンドツーエンドでトレーニングされており、AugerinoやInstaAugよりもはるかに広い範囲の変換を学ぶことができる。 データ拡張として使用すると、cifar 10、cifar10-lt、tinyimagenetで精度とロバスト性が向上する。

Computer vision research has long aimed to build systems that are robust to spatial transformations found in natural data. Traditionally, this is done using data augmentation or hard-coding invariances into the architecture. However, too much or too little invariance can hurt, and the correct amount is unknown a priori and dependent on the instance. Ideally, the appropriate invariance would be learned from data and inferred at test-time. We treat invariance as a prediction problem. Given any image, we use a normalizing flow to predict a distribution over transformations and average the predictions over them. Since this distribution only depends on the instance, we can align instances before classifying them and generalize invariance across classes. The same distribution can also be used to adapt to out-of-distribution poses. This normalizing flow is trained end-to-end and can learn a much larger range of transformations than Augerino and InstaAug. When used as data augmentation, our method shows accuracy and robustness gains on CIFAR 10, CIFAR10-LT, and TinyImageNet.
翻訳日:2023-09-29 12:46:25 公開日:2023-09-28
# CLIPデータのデマイズ

Demystifying CLIP Data ( http://arxiv.org/abs/2309.16671v1 )

ライセンス: Link先を確認
Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer(参考訳) Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行い、現代の認識システムと生成モデルを活性化するアプローチである。 clipの成功の主な要因は、モデルアーキテクチャやトレーニング対象ではなく、そのデータであると考えています。 しかし、クリップはそのデータとその収集方法に関する限られた情報しか提供せず、モデルパラメータでフィルタリングすることでクリップのデータを再現することを目的としている。 本研究は,クリップのデータキュレーションアプローチを明らかにし,メタデータによる言語イメージ事前トレーニング(metaclip)をコミュニティに公開することを目的としています。 MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。 実験では,データのみに集中して,モデルとトレーニング設定を厳格に分離した。 MetaCLIPはCommonCrawlに4億の画像テキストデータペアで適用され、CLIPのデータを複数の標準ベンチマークで上回る。 ゼロショットイメージネット分類では、MetaCLIPは70.8%の精度で、ViT-BモデルでCLIPの68.3%を上回っている。 1Bデータへのスケーリングは同じトレーニング予算を維持しながら、72.4%に達する。 我々の観測は、ViT-Hが80.5%、ベル・アンド・ウィストルを使わずに、様々なモデルサイズにまたがっている。 メタデータのキュレーションコードとトレーニングデータの配布はhttps://github.com/facebookresearch/MetaCLIPで公開されている。

Contrastive Language-Image Pre-training (CLIP) is an approach that has advanced research and applications in computer vision, fueling modern recognition systems and generative models. We believe that the main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective. However, CLIP only provides very limited information about its data and how it has been collected, leading to works that aim to reproduce CLIP's data by filtering with its model parameters. In this work, we intend to reveal CLIP's data curation approach and in our pursuit of making it open to the community introduce Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's concepts) and yields a balanced subset over the metadata distribution. Our experimental study rigorously isolates the model and training settings, concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M image-text data pairs outperforms CLIP's data on multiple standard benchmarks. In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy, surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining the same training budget, attains 72.4%. Our observations hold across various model sizes, exemplified by ViT-H achieving 80.5%, without any bells-and-whistles. Curation code and training data distribution on metadata is made available at https://github.com/facebookresearch/MetaCLIP.
翻訳日:2023-09-29 12:46:10 公開日:2023-09-28
# decaf: 顔と手との相互作用のための単眼変形キャプチャ

Decaf: Monocular Deformation Capture for Face and Hand Interactions ( http://arxiv.org/abs/2309.16670v1 )

ライセンス: Link先を確認
Soshi Shimada, Vladislav Golyanik, Patrick P\'erez, Christian Theobalt(参考訳) モノキュラーrgbビデオからの3dトラッキングの既存の方法は、関節と剛体オブジェクトを主に考慮している。 この設定で密集した非剛体物体の変形をモデル化することは、これまでほとんど適応していなかったが、そのような効果は、AR/VRやアバター通信のような下流の応用の現実性を改善することができる。 これは、単眼視の設定と関連する課題の深刻さによるものである。 3Dテンプレートやパラメトリック3Dモデルを用いて、複数の非剛体物体を独立に追跡することは可能であるが、このようなアプローチは、深さのあいまいさ、不自然な物体内衝突、欠落または不明瞭な変形といった結果の3D推定において、複数のアーチファクトに悩まされる。 そこで本研究では、上記の課題に対処し、単一の単眼RGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を初めて紹介する。 動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。 本手法は,マーカーレスマルチビューカメラシステムで取得した顔変形を実感した,新しいハンドフェイスモーション・インタラクションキャプチャデータセットに依存している。 創成における重要なステップとして,再構成した生の3次元形状を位置ベースダイナミクスを用いて処理し,頭部組織の非一様剛性評価へのアプローチを行い,表面変形,面接触領域,頭部位置の可算な注釈を導出する。 私たちの神経アプローチの核心は、顔の深度を事前に供給する変分自動エンコーダと、接触と変形を推定して3Dトラッキングを導くモジュールです。 最後の3D手と顔の再構築は、定量的にも質的にも、我々の設定に適用できるいくつかのベースラインと比較して、現実的でより妥当です。 https://vcai.mpi-inf.mpg.de/projects/Decaf

Existing methods for 3D tracking from monocular RGB videos predominantly consider articulated and rigid objects. Modelling dense non-rigid object deformations in this setting remained largely unaddressed so far, although such effects can improve the realism of the downstream applications such as AR/VR and avatar communications. This is due to the severe ill-posedness of the monocular view setting and the associated challenges. While it is possible to naively track multiple non-rigid objects independently using 3D templates or parametric 3D models, such an approach would suffer from multiple artefacts in the resulting 3D estimates such as depth ambiguity, unnatural intra-object collisions and missing or implausible deformations. Hence, this paper introduces the first method that addresses the fundamental challenges depicted above and that allows tracking human hands interacting with human faces in 3D from single monocular RGB videos. We model hands as articulated objects inducing non-rigid face deformations during an active interaction. Our method relies on a new hand-face motion and interaction capture dataset with realistic face deformations acquired with a markerless multi-view camera system. As a pivotal step in its creation, we process the reconstructed raw 3D shapes with position-based dynamics and an approach for non-uniform stiffness estimation of the head tissues, which results in plausible annotations of the surface deformations, hand-face contact regions and head-hand positions. At the core of our neural approach are a variational auto-encoder supplying the hand-face depth prior and modules that guide the 3D tracking by estimating the contacts and the deformations. Our final 3D hand and face reconstructions are realistic and more plausible compared to several baselines applicable in our setting, both quantitatively and qualitatively. https://vcai.mpi-inf.mpg.de/projects/Decaf
翻訳日:2023-09-29 12:45:44 公開日:2023-09-28
# 1日で1台のマシンで大きなビデオモデルを訓練する

Training a Large Video Model on a Single Machine in a Day ( http://arxiv.org/abs/2309.16669v1 )

ライセンス: Link先を確認
Yue Zhao, Philipp Kr\"ahenb\"uhl(参考訳) ビデオは巨大で、前処理が複雑で、トレーニングも遅い。 最先端の大規模ビデオモデルは、32以上のGPUのクラスタ上で数日間トレーニングされる。 その結果、アカデミックは大きなビデオモデルのトレーニングを産業に委譲した。 本稿では,1日に8つのコンシューマグレードGPUを持つ1台のマシン上で,最先端のビデオモデルをトレーニングする方法を示す。 IO、CPU、GPUの3つのボトルネックを特定し、それぞれを最適化する。 その結果,高効率なビデオトレーニングパイプラインが実現した。 同等のアーキテクチャの場合、パイプラインは以前の処理に比べて計算量の$\frac{1}{8}$で高い精度を実現します。 コードはhttps://github.com/zhaoyue-zephyrus/avionで入手できる。

Videos are big, complex to pre-process, and slow to train on. State-of-the-art large-scale video models are trained on clusters of 32 or more GPUs for several days. As a consequence, academia largely ceded the training of large video models to industry. In this paper, we show how to still train a state-of-the-art video model on a single machine with eight consumer-grade GPUs in a day. We identify three bottlenecks, IO, CPU, and GPU computation, and optimize each. The result is a highly efficient video training pipeline. For comparable architectures, our pipeline achieves higher accuracies with $\frac{1}{8}$ of the computation compared to prior work. Code is available at https://github.com/zhaoyue-zephyrus/AVION.
翻訳日:2023-09-29 12:45:11 公開日:2023-09-28
# RealFill: 認証画像補完のための参照駆動生成

RealFill: Reference-Driven Generation for Authentic Image Completion ( http://arxiv.org/abs/2309.16668v1 )

ライセンス: Link先を確認
Luming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein(参考訳) 生成画像の最近の進歩は、未知の領域で高品質でプラウチブルな画像コンテンツを生成できるような、塗装や塗装のモデルを生み出してきたが、これらのモデルが幻覚する内容は必ずしも不完全である。 そこで本研究では,画像の欠落領域を埋める新しい画像補完手法であるrealfillを提案する。 RealFillは、シーンの参照画像のみを使用してパーソナライズされた生成的インペイントモデルである。 これらの基準画像は、対象画像にアライメントする必要はなく、大幅に異なる視点、照明条件、カメラの開口部、あるいは画像スタイルで撮影することができる。 パーソナライズされたRealFillは、元のシーンに忠実な視覚的に魅力的なコンテンツでターゲットイメージを完成させる。 我々はRealFillを,多様かつ困難なシナリオの集合をカバーする新しい画像補完ベンチマークで評価し,既存のアプローチよりも大きなマージンで優れていることを確認した。 詳細はプロジェクトのページにある。 https://realfill.github.io

Recent advances in generative imagery have brought forth outpainting and inpainting models that can produce high-quality, plausible image content in unknown regions, but the content these models hallucinate is necessarily inauthentic, since the models lack sufficient context about the true scene. In this work, we propose RealFill, a novel generative approach for image completion that fills in missing regions of an image with the content that should have been there. RealFill is a generative inpainting model that is personalized using only a few reference images of a scene. These reference images do not have to be aligned with the target image, and can be taken with drastically varying viewpoints, lighting conditions, camera apertures, or image styles. Once personalized, RealFill is able to complete a target image with visually compelling contents that are faithful to the original scene. We evaluate RealFill on a new image completion benchmark that covers a set of diverse and challenging scenarios, and find that it outperforms existing approaches by a large margin. See more results on our project page: https://realfill.github.io
翻訳日:2023-09-29 12:45:03 公開日:2023-09-28
# 多くの変数におけるモジュラ量子信号処理

Modular quantum signal processing in many variables ( http://arxiv.org/abs/2309.16665v1 )

ライセンス: Link先を確認
Zane M. Rossi, Jack L. Ceroni, Isaac L. Chuang(参考訳) 量子アルゴリズムの大幅な進歩にもかかわらず、実際は量子プログラムは回路レベルで表現され、古典的な抽象概念に共通する有用な構造的抽象化を形成する。 その結果、多くの量子アルゴリズムが量子信号処理 (qsp) と量子特異値変換 (qsvt) の出現とともに統一されたため、これらのアルゴリズムを複雑なプログラムを構成するために結合できるモジュールとしてキャストする機会が現れた。 しかし、これを複雑にしているのは、QSP/QSVTはしばしば多項式変換によって記述されるが、それらは大きな線形作用素の特異値に適用され、多項式の代数的操作は単純である。 ここでは、モジュラーなマルチ入力出力qspベースのスーパーオペレーターの理論を提供し、ガジェットと呼ばれる基本ユニットを提供し、レゴのような簡単な操作でそれらを適用できることを示した。 これを容易にするため、ガジェットを組み立てて回路にコンパイルするためのPythonパッケージも提供しています。 ガジェットは、有用な多変数関数の大きなファミリーの効率的なブロックエンコーディングを可能にし、qspとqsvtをモナディック型として再キャストする量子アルゴリズム設計への関数プログラミングアプローチを実証する。

Despite significant advances in quantum algorithms, quantum programs in practice are often expressed at the circuit level, forgoing helpful structural abstractions common to their classical counterparts. Consequently, as many quantum algorithms have been unified with the advent of quantum signal processing (QSP) and quantum singular value transformation (QSVT), an opportunity has appeared to cast these algorithms as modules that can be combined to constitute complex programs. Complicating this, however, is that while QSP/QSVT are often described by the polynomial transforms they apply to the singular values of large linear operators, and the algebraic manipulation of polynomials is simple, the QSP/QSVT protocols realizing analogous manipulations of their embedded polynomials are non-obvious. Here we provide a theory of modular multi-input-output QSP-based superoperators, the basic unit of which we call a gadget, and show they can be snapped together with LEGO-like ease at the level of the functions they apply. To demonstrate this ease, we also provide a Python package for assembling gadgets and compiling them to circuits. Viewed alternately, gadgets both enable the efficient block encoding of large families of useful multivariable functions, and substantiate a functional-programming approach to quantum algorithm design in recasting QSP and QSVT as monadic types.
翻訳日:2023-09-29 12:44:42 公開日:2023-09-28
# HyperPPO:ロボット制御のための小さなポリシーを見つけるためのスケーラブルな方法

HyperPPO: A scalable method for finding small policies for robotic control ( http://arxiv.org/abs/2309.16663v1 )

ライセンス: Link先を確認
Shashank Hegde, Zhehui Huang and Gaurav S. Sukhatme(参考訳) 少ないパラメータを持つモデルは、メモリ制限された高性能ロボットの神経制御に必要である。 これらの小さなニューラルネットワークアーキテクチャを見つけるには時間がかかる。 グラフハイパーネットを利用して複数のニューラルアーキテクチャの重みを同時に推定する,オンライン強化学習アルゴリズムHyperPPOを提案する。 提案手法は,高パフォーマンスポリシをエンコードしながら,汎用ネットワークよりもはるかに小さいネットワークの重み付けを推定する。 サンプル効率を維持しながら、同時に複数のトレーニング済みポリシを取得し、計算制約を満たすネットワークアーキテクチャを選択する選択をユーザに提供します。 より多くのトレーニングリソースが、より高いパフォーマンスのアーキテクチャへのコンバージェンスをより早くします。 我々は、HyperPPOが見積もる神経政策が、Crazyflie2.1のクアドローターを分散制御できることを示した。 ウェブサイト:https://sites.google.com/usc.edu/hyperppo

Models with fewer parameters are necessary for the neural control of memory-limited, performant robots. Finding these smaller neural network architectures can be time-consuming. We propose HyperPPO, an on-policy reinforcement learning algorithm that utilizes graph hypernetworks to estimate the weights of multiple neural architectures simultaneously. Our method estimates weights for networks that are much smaller than those in common-use networks yet encode highly performant policies. We obtain multiple trained policies at the same time while maintaining sample efficiency and provide the user the choice of picking a network architecture that satisfies their computational constraints. We show that our method scales well - more training resources produce faster convergence to higher-performing architectures. We demonstrate that the neural policies estimated by HyperPPO are capable of decentralized control of a Crazyflie2.1 quadrotor. Website: https://sites.google.com/usc.edu/hyperppo
翻訳日:2023-09-29 12:44:16 公開日:2023-09-28
# 月経時の女性脳の3次元形状変化を特徴とする測地的回帰

Geodesic Regression Characterizes 3D Shape Changes in the Female Brain During Menstruation ( http://arxiv.org/abs/2309.16662v1 )

ライセンス: Link先を確認
Adele Myers, Caitlin Taylor, Emily Jacobs, Nina Miolane(参考訳) 女性は閉経後のアルツハイマーなどの神経疾患のリスクが高いが、女性の脳の健康と性ホルモンの変動を結びつける研究は限られている。 我々は、性ホルモンの変動中に脳で起こる3d形状の変化を定量化するツールの開発により、この関係を調査しようとしている。 3次元離散曲面の空間上の測地的回帰は、脳の形状の進化を特徴づける原理的な方法を提供する。 しかし、現在の形式では、このアプローチは実用には計算コストがかかりすぎる。 本稿では,3次元離散曲面の形状空間上の測地回帰を加速する近似スキームを提案する。 また、各近似を使用可能なときの親指規則も提供します。 我々は、これらの近似の速度-精度トレードオフを定量化するために、合成データに対するアプローチを検証し、実践者は、精度を犠牲にしつつ、非常に重要なスピードアップを期待できることを示す。 最後に, 本手法を実際の脳形状データに適用し, 月経周期における女性海馬の形状の変化を, プロゲステロンの機能として, 近似法により可能とした(実際)特徴付けとして, 初めて特徴付けする。 我々の研究は、バイオメディシンとコンピュータビジョンの分野における包括的で実践的な形状解析の道を開いた。 私たちの実装はGitHubで公開されています。

Women are at higher risk of Alzheimer's and other neurological diseases after menopause, and yet research connecting female brain health to sex hormone fluctuations is limited. We seek to investigate this connection by developing tools that quantify 3D shape changes that occur in the brain during sex hormone fluctuations. Geodesic regression on the space of 3D discrete surfaces offers a principled way to characterize the evolution of a brain's shape. However, in its current form, this approach is too computationally expensive for practical use. In this paper, we propose approximation schemes that accelerate geodesic regression on shape spaces of 3D discrete surfaces. We also provide rules of thumb for when each approximation can be used. We test our approach on synthetic data to quantify the speed-accuracy trade-off of these approximations and show that practitioners can expect very significant speed-up while only sacrificing little accuracy. Finally, we apply the method to real brain shape data and produce the first characterization of how the female hippocampus changes shape during the menstrual cycle as a function of progesterone: a characterization made (practically) possible by our approximation schemes. Our work paves the way for comprehensive, practical shape analyses in the fields of bio-medicine and computer vision. Our implementation is publicly available on GitHub: https://github.com/bioshape-lab/my28brains.
翻訳日:2023-09-29 12:44:03 公開日:2023-09-28
# SA2-Net:顕微鏡画像分割のためのスケールアウェアアテンションネットワーク

SA2-Net: Scale-aware Attention Network for Microscopic Image Segmentation ( http://arxiv.org/abs/2309.16661v1 )

ライセンス: Link先を確認
Mustansar Fiaz, Moein Heidari, Rao Muhammad Anwer, Hisham Cholakkal(参考訳) 顕微鏡画像分割は、与えられた顕微鏡画像内の各ピクセルに意味的ラベルを割り当てることを目的としている。 畳み込みニューラルネットワーク(CNN)は多くの既存のフレームワークの基礎となっているが、多くの場合、長距離依存を明示的に捉えるのに苦労する。 当初、トランスフォーマーは自己注意でこの問題に対処するために考案されたが、形状、サイズ、外観、ターゲット領域密度など、顕微鏡画像における様々な課題に対処するために、局所的特徴とグローバルな特徴の両方が重要であることが証明されている。 本稿では,マルチスケール特徴学習を利用して,顕微鏡画像内の多様な構造を効果的に処理する,注意誘導型SA2-Netを提案する。 具体的には,細胞などの微細領域のスケールや形状の変動を正確に把握し,正確なセグメンテーションを行うためのSA2モジュールを提案する。 このモジュールは、マルチステージ機能の各レベルにおけるローカルな注意と、複数の解像度にわたるグローバルな関心を取り入れている。 さらに、アダプティブアップアテンション(AuA)モジュールと呼ばれる新しいアップサンプリング戦略を導入することで、ぼやけた領域境界(セル境界など)の問題に対処する。 このモジュールは、明示的な注意機構を用いて顕微鏡領域の局在性を改善するための識別能力を高める。 5つの挑戦的なデータセットに関する広範な実験は、sa2-netモデルの利点を示しています。 ソースコードは \url{https://github.com/mustansarfiaz/sa2-net} で公開されている。

Microscopic image segmentation is a challenging task, wherein the objective is to assign semantic labels to each pixel in a given microscopic image. While convolutional neural networks (CNNs) form the foundation of many existing frameworks, they often struggle to explicitly capture long-range dependencies. Although transformers were initially devised to address this issue using self-attention, it has been proven that both local and global features are crucial for addressing diverse challenges in microscopic images, including variations in shape, size, appearance, and target region density. In this paper, we introduce SA2-Net, an attention-guided method that leverages multi-scale feature learning to effectively handle diverse structures within microscopic images. Specifically, we propose scale-aware attention (SA2) module designed to capture inherent variations in scales and shapes of microscopic regions, such as cells, for accurate segmentation. This module incorporates local attention at each level of multi-stage features, as well as global attention across multiple resolutions. Furthermore, we address the issue of blurred region boundaries (e.g., cell boundaries) by introducing a novel upsampling strategy called the Adaptive Up-Attention (AuA) module. This module enhances the discriminative ability for improved localization of microscopic regions using an explicit attention mechanism. Extensive experiments on five challenging datasets demonstrate the benefits of our SA2-Net model. Our source code is publicly available at \url{https://github.com/mustansarfiaz/SA2-Net}.
翻訳日:2023-09-29 12:43:41 公開日:2023-09-28
# Few-Shot Eczema Segmentationのための視覚的インテクスト学習

Visual In-Context Learning for Few-Shot Eczema Segmentation ( http://arxiv.org/abs/2309.16656v1 )

ライセンス: Link先を確認
Neelesh Kumar, Oya Aran, Venugopal Vasudevan(参考訳) デジタルカメラ画像からのeczemaの自動診断は、患者を自己監視するアプリケーションの開発に不可欠である。 この重要な要素は、このような画像からeczema領域をセグメンテーションすることである。 Eczemaセグメンテーションの現在の方法は、畳み込み(CNN)ベースのU-NetやトランスフォーマーベースのSwin U-Netのようなディープニューラルネットワークに依存している。 有効ではあるが、これらの方法は大量の注釈付きデータを必要とするため、取得が困難である。 ここでは,ほんの一握りの例で,モデルの再トレーニングを必要とせず,数秒のeczemaセグメンテーションを実行できる,視覚的なインコンテキスト学習の能力について検討する。 具体的には,eczemaセグメンテーションにseggptと呼ばれるジェネラリストビジョンモデルを用いたインコンテキスト学習を適用するための戦略を提案する。 428画像(miou:32.60)でトレーニングされたcnn u-netよりも、トレーニングデータセットの代表的な例画像が2つ(miou:36.69)のseggptの方が優れていることが示されている。 また、SegGPTのサンプルの数が増えれば、その性能に悪影響を及ぼす可能性があることも判明した。 この結果から,皮膚画像タスクのより高速かつ優れたソリューション開発における視覚的文脈学習の重要性が浮き彫りになった。 私たちの結果は、トレーニングデータで典型的に過小評価されている少数民族に適応できる包括的ソリューションを開発する方法も舗装しています。

Automated diagnosis of eczema from digital camera images is crucial for developing applications that allow patients to self-monitor their recovery. An important component of this is the segmentation of eczema region from such images. Current methods for eczema segmentation rely on deep neural networks such as convolutional (CNN)-based U-Net or transformer-based Swin U-Net. While effective, these methods require high volume of annotated data, which can be difficult to obtain. Here, we investigate the capabilities of visual in-context learning that can perform few-shot eczema segmentation with just a handful of examples and without any need for retraining models. Specifically, we propose a strategy for applying in-context learning for eczema segmentation with a generalist vision model called SegGPT. When benchmarked on a dataset of annotated eczema images, we show that SegGPT with just 2 representative example images from the training dataset performs better (mIoU: 36.69) than a CNN U-Net trained on 428 images (mIoU: 32.60). We also discover that using more number of examples for SegGPT may in fact be harmful to its performance. Our result highlights the importance of visual in-context learning in developing faster and better solutions to skin imaging tasks. Our result also paves the way for developing inclusive solutions that can cater to minorities in the demographics who are typically heavily under-represented in the training data.
翻訳日:2023-09-29 12:43:13 公開日:2023-09-28
# LOGICSEG:ニューラルロジック学習と推論による視覚意味論のパーシング

LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning ( http://arxiv.org/abs/2309.13556v2 )

ライセンス: Link先を確認
Liulei Li, Wenguan Wang, Yi Yang(参考訳) 現在の高性能セマンティックセグメンテーションモデルは純粋にデータ駆動のサブシンボリックアプローチであり、視覚世界の構造的な性質に盲目である。 これは、複数のレベルで視覚的知覚を抽象化し、そのような構造化された抽象化で象徴的な推論を行う人間の認知とは対照的である。 これらの基本的なギャップを埋めるため、我々は、ニューラルネットワークの帰納的学習と論理推論をリッチデータとシンボリック知識の両方に統合する総合的なビジュアルセマンティックパーサであるlogicsegを開発した。 特に、興味のセマンティックな概念は階層構造として構成され、そこからシンボリックな関係を記述するための一連の制約が導出され、一階述語論理規則として形式化される。 ファジィ論理に基づく連続緩和の後、論理式はデータと神経計算グラフに接地され、論理誘起ネットワークトレーニングを可能にする。 推論中、論理的制約は反復的なプロセスにパッケージ化され、複数の行列乗法によってネットワークに注入され、論理的推論による階層的コヒーレントな予測が達成される。 これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。 様々なセグメンテーションモデルとバックボーンを持つ4つのデータセットに対する大規模な実験は、LOGICSEGの有効性と一般性を検証する。 本研究は視覚的意味解析のための新たな道を開くと信じている。

Current high-performance semantic segmentation models are purely data-driven sub-symbolic approaches and blind to the structured nature of the visual world. This is in stark contrast to human cognition which abstracts visual perceptions at multiple levels and conducts symbolic reasoning with such structured abstraction. To fill these fundamental gaps, we devise LOGICSEG, a holistic visual semantic parser that integrates neural inductive learning and logic reasoning with both rich data and symbolic knowledge. In particular, the semantic concepts of interest are structured as a hierarchy, from which a set of constraints are derived for describing the symbolic relations and formalized as first-order logic rules. After fuzzy logic-based continuous relaxation, logical formulae are grounded onto data and neural computational graphs, hence enabling logic-induced network training. During inference, logical constraints are packaged into an iterative process and injected into the network in a form of several matrix multiplications, so as to achieve hierarchy-coherent prediction with logic reasoning. These designs together make LOGICSEG a general and compact neural-logic machine that is readily integrated into existing segmentation models. Extensive experiments over four datasets with various segmentation models and backbones verify the effectiveness and generality of LOGICSEG. We believe this study opens a new avenue for visual semantic parsing.
翻訳日:2023-09-29 10:56:58 公開日:2023-09-28
# LEyes:合成眼画像を用いた深層学習眼球追跡のための軽量フレームワーク

LEyes: A Lightweight Framework for Deep Learning-Based Eye Tracking using Synthetic Eye Images ( http://arxiv.org/abs/2309.06129v3 )

ライセンス: Link先を確認
Sean Anthony Byrne, Virmarie Maquiling, Marcus Nystr\"om, Enkelejda Kasneci, Diederick C. Niehorster(参考訳) ディープラーニングは視線推定技術を強化しているが、実際のデプロイメントは不適切なトレーニングデータセットによって妨げられている。 この問題は、ハードウェアによって引き起こされる眼像の変化と、記録された参加者間の固有の生物学的差異の両方によって悪化し、特定のデータセットで訓練されたモデルの一般化性を阻害する特徴レベルと画素レベルのばらつきが生じる。 合成データセットはソリューションであり得るが、その生成は時間とリソース集約の両方である。 この問題に対処するために、従来のフォトリアリスティック手法とは異なり、簡単な光分布を用いた映像ベースのアイトラッキングに必要な重要な特徴をモデル化するフレームワーク「ライトアイズ」や「リーズ」を提案する。 LEyesは、さまざまな視線推定タスクにわたるニューラルネットワークのトレーニングを容易にする。 レイを使ってトレーニングされたモデルは、よく知られたデータセットにまたがる瞳孔とcrのローカライズの観点から、常に同じか、他の最先端アルゴリズムよりも優れています。 さらにleyesがトレーニングしたモデルは、業界標準のアイトラッカーをはるかに高いコスト効率のハードウェアで上回っている。 今後、レイズは視線推定モデルのための合成データ生成に革命をもたらし、次世代のビデオベースのアイトラッカーの大幅な改善につながると確信しています。

Deep learning has bolstered gaze estimation techniques, but real-world deployment has been impeded by inadequate training datasets. This problem is exacerbated by both hardware-induced variations in eye images and inherent biological differences across the recorded participants, leading to both feature and pixel-level variance that hinders the generalizability of models trained on specific datasets. While synthetic datasets can be a solution, their creation is both time and resource-intensive. To address this problem, we present a framework called Light Eyes or "LEyes" which, unlike conventional photorealistic methods, only models key image features required for video-based eye tracking using simple light distributions. LEyes facilitates easy configuration for training neural networks across diverse gaze-estimation tasks. We demonstrate that models trained using LEyes are consistently on-par or outperform other state-of-the-art algorithms in terms of pupil and CR localization across well-known datasets. In addition, a LEyes trained model outperforms the industry standard eye tracker using significantly more cost-effective hardware. Going forward, we are confident that LEyes will revolutionize synthetic data generation for gaze estimation models, and lead to significant improvements of the next generation video-based eye trackers.
翻訳日:2023-09-29 10:56:32 公開日:2023-09-28
# 信頼性とオープンワールド学習の橋渡し--解釈性、一般化、ロバスト性を高める探索的ニューラルアプローチ

Bridging Trustworthiness and Open-World Learning: An Exploratory Neural Approach for Enhancing Interpretability, Generalization, and Robustness ( http://arxiv.org/abs/2308.03666v3 )

ライセンス: Link先を確認
Shide Du, Zihan Fang, Shiyang Lan, Yanchao Tan, Manuel G\"unther, Shiping Wang, Wenzhong Guo(参考訳) 人工知能技術の発展を通じて、人工知能と人間のギャップを狭めようとしている研究者にとって、オープンワールドにおける信頼の重要さは、誰もが日々の生活のあらゆる面で普及していると認識することが不可欠である。 しかし、いくつかの課題は、橋渡しが必要な現在の人工知能システムに対する信頼の危機を引き起こす可能性がある。 1) 予測結果の不十分な説明 2)学習モデルに対する不適切な一般化 3)不確かな環境への適応性の低下。 その結果,信頼性とオープンワールド学習をブリッジするニューラルプログラムが,シングルモーダルからマルチモーダルシナリオへと拡張された。 1) 設計レベルの解釈性を高めるために,まず,特定の物理的意味を持つ信頼できるネットワークをカスタマイズする。 2) 信頼性のある学習の一般化を改善するために, フレキシブルラーニングレギュレータによる環境調和型タスクインタフェースを設計する。 3) オープンワールド認識損失をエージェント機構と統合することにより,信頼に値する学習の堅牢性を高めることを提案する。 最終的には, 設計レベルの説明可能性, 環境保全課題インターフェース, オープンワールド認識プログラムの確立を通じて, 信頼性を高める。 これらの設計されたオープンワールドプロトコルは、オープンワールドマルチメディア認識シナリオの下で、幅広い環境にまたがって適用され、大幅なパフォーマンス改善が観察されている。

As researchers strive to narrow the gap between machine intelligence and human through the development of artificial intelligence technologies, it is imperative that we recognize the critical importance of trustworthiness in open-world, which has become ubiquitous in all aspects of daily life for everyone. However, several challenges may create a crisis of trust in current artificial intelligence systems that need to be bridged: 1) Insufficient explanation of predictive results; 2) Inadequate generalization for learning models; 3) Poor adaptability to uncertain environments. Consequently, we explore a neural program to bridge trustworthiness and open-world learning, extending from single-modal to multi-modal scenarios for readers. 1) To enhance design-level interpretability, we first customize trustworthy networks with specific physical meanings; 2) We then design environmental well-being task-interfaces via flexible learning regularizers for improving the generalization of trustworthy learning; 3) We propose to increase the robustness of trustworthy learning by integrating open-world recognition losses with agent mechanisms. Eventually, we enhance various trustworthy properties through the establishment of design-level explainability, environmental well-being task-interfaces and open-world recognition programs. These designed open-world protocols are applicable across a wide range of surroundings, under open-world multimedia recognition scenarios with significant performance improvements observed.
翻訳日:2023-09-29 10:56:09 公開日:2023-09-28
# RepViT: ViTの視点からモバイルCNNを再考

RepViT: Revisiting Mobile CNN From ViT Perspective ( http://arxiv.org/abs/2307.09283v6 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding(参考訳) 近年、軽量視覚トランスフォーマ(vits)は、リソース制約のあるモバイルデバイスでの軽量畳み込みニューラルネットワーク(cnns)と比較して優れた性能と低レイテンシを示している。 この改善は通常、モデルがグローバル表現を学習できるようにするマルチヘッド自己保持モジュールによるものである。 しかし,軽量VTと軽量CNNのアーキテクチャ格差は十分に検討されていない。 本研究では,軽量CNNの効率的な設計を再考し,モバイルデバイスにおけるその可能性を強調する。 我々は、軽量VTの効率的なアーキテクチャ選択を統合することで、標準軽量CNN、特にMobileNetV3のモバイルフレンドリ性を徐々に強化する。 最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。 大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetでは、RepViTは、iPhone 12で1msのレイテンシで80%以上のトップ1の精度を達成しています。 我々の最大のモデルであるRepViT-M2.3は2.3msのレイテンシで83.7\%の精度を得る。 コードとトレーニングされたモデルは \url{https://github.com/jameslahm/repvit} で入手できる。

Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency compared with lightweight Convolutional Neural Networks (CNNs) on resource-constrained mobile devices. This improvement is usually attributed to the multi-head self-attention module, which enables the model to learn global representations. However, the architectural disparities between lightweight ViTs and lightweight CNNs have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs and emphasize their potential for mobile devices. We incrementally enhance the mobile-friendliness of a standard lightweight CNN, specifically MobileNetV3, by integrating the efficient architectural choices of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. On ImageNet, RepViT achieves over 80\% top-1 accuracy with 1ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Our largest model, RepViT-M2.3, obtains 83.7\% accuracy with only 2.3ms latency. The code and trained models are available at \url{https://github.com/jameslahm/RepViT}.
翻訳日:2023-09-29 10:55:46 公開日:2023-09-28
# TinyMetaFed: TinyMLの効果的なフェデレーションメタラーニング

TinyMetaFed: Efficient Federated Meta-Learning for TinyML ( http://arxiv.org/abs/2307.06822v3 )

ライセンス: Link先を確認
Haoyu Ren, Xue Li, Darko Anicic, Thomas A. Runkler(参考訳) Tiny Machine Learning(TinyML)の分野は、マイクロコントローラなどの低フットプリントデバイス上での機械学習の民主化において、大きく進歩している。 これらのミニチュアデバイスの普及は、知識の集約がTinyMLアプリケーションに利益をもたらすかどうかという問題を提起する。 フェデレートされたメタラーニングは、現実世界のデバイス間でのラベル付きデータや異種データ分散の不足に対処するため、この疑問への有望な答えです。 しかし、TinyMLハードウェアのデプロイには独自のリソース制約が伴うため、既存のメソッドはエネルギ、プライバシ、通信の制限により実用的ではない。 TinyMLに適したモデルに依存しないメタラーニングフレームワークであるTinyMetaFedを紹介する。 TinyMetaFedは、新しいデバイスで素早く微調整できるニューラルネットワークの初期化の協調トレーニングを容易にする。 部分的なローカル再構成とトップp%選択的通信による通信の節約とプライバシ保護、オンラインラーニングによる計算効率の向上、およびマイナショット学習によるクライアントの不均一性に対する堅牢性を提供する。 TinyMLの3つのユースケースに対する評価は、TinyMetaFedがエネルギー消費と通信オーバーヘッドを大幅に削減し、収束を加速し、トレーニングプロセスを安定させることを示した。

The field of Tiny Machine Learning (TinyML) has made substantial advancements in democratizing machine learning on low-footprint devices, such as microcontrollers. The prevalence of these miniature devices raises the question of whether aggregating their knowledge can benefit TinyML applications. Federated meta-learning is a promising answer to this question, as it addresses the scarcity of labeled data and heterogeneous data distribution across devices in the real world. However, deploying TinyML hardware faces unique resource constraints, making existing methods impractical due to energy, privacy, and communication limitations. We introduce TinyMetaFed, a model-agnostic meta-learning framework suitable for TinyML. TinyMetaFed facilitates collaborative training of a neural network initialization that can be quickly fine-tuned on new devices. It offers communication savings and privacy protection through partial local reconstruction and Top-P% selective communication, computational efficiency via online learning, and robustness to client heterogeneity through few-shot learning. The evaluations on three TinyML use cases demonstrate that TinyMetaFed can significantly reduce energy consumption and communication overhead, accelerate convergence, and stabilize the training process.
翻訳日:2023-09-29 10:55:26 公開日:2023-09-28
# 垂直的フェデレーション学習 - 概念,進歩,課題

Vertical Federated Learning: Concepts, Advances and Challenges ( http://arxiv.org/abs/2211.12814v4 )

ライセンス: Link先を確認
Yang Liu, Yan Kang, Tianyuan Zou, Yanhong Pu, Yuanqin He, Xiaozhou Ye, Ye Ouyang, Ya-Qin Zhang and Qiang Yang(参考訳) Vertical Federated Learning(VFL)は、同じユーザのセットに関する異なる特徴を持つ複数のパーティが、生のデータやモデルのパラメータを公開せずに、共同で機械学習モデルをトレーニングする、フェデレーション付き学習環境である。 vfl研究と実世界のアプリケーションの急速な成長に動機づけられ、vflの概念とアルゴリズムの包括的なレビューと、有効性、効率性、プライバシなど、さまざまな面での現在の進歩と課題を提供する。 VFL設定とプライバシ保護プロトコルの徹底的な分類を行い、各プロトコルのプライバシ攻撃と防衛戦略を包括的に分析する。 最後に,コミュニケーションや計算,プライバシ,さらには有効性や公平性といった制約の下でのvfl問題を考える,vflowと呼ばれる統一フレームワークを提案する。 最後に,産業応用の最新動向を概観し,vflの課題と今後の方向性について述べる。

Vertical Federated Learning (VFL) is a federated learning setting where multiple parties with different features about the same set of users jointly train machine learning models without exposing their raw data or model parameters. Motivated by the rapid growth in VFL research and real-world applications, we provide a comprehensive review of the concept and algorithms of VFL, as well as current advances and challenges in various aspects, including effectiveness, efficiency, and privacy. We provide an exhaustive categorization for VFL settings and privacy-preserving protocols and comprehensively analyze the privacy attacks and defense strategies for each protocol. In the end, we propose a unified framework, termed VFLow, which considers the VFL problem under communication, computation, privacy, as well as effectiveness and fairness constraints. Finally, we review the most recent advances in industrial applications, highlighting open challenges and future directions for VFL.
翻訳日:2023-09-29 10:55:04 公開日:2023-09-28
# 4つのミンコフスキー真空状態からのAdS$_3$真空状態

AdS$_3$ Vacuum State from Four Minkowski Vacuum States ( http://arxiv.org/abs/2309.15107v2 )

ライセンス: Link先を確認
Lucas Kocia Kovalsky(参考訳) 4つの特定の 1{+}2$ minkowski の真空状態のテンソル積は、パリティや時間反転対称性のないすべての非零スカラー曲率からなる3次元反ド・ジッター時空の無限集合に対する自己整合真空状態である。

We show that a tensor product of four specific $1{+}2$ Minkowski vacuum states is a self-consistent vacuum state for an infinite set of three-dimensional anti-de Sitter spacetimes, which consist of all non-zero scalar curvatures without parity or time-reversal symmetry.
翻訳日:2023-09-29 10:48:47 公開日:2023-09-28
# 可搬型光時計を用いた長距離時間平準化

Long-distance chronometric leveling with a transportable optical clock ( http://arxiv.org/abs/2309.14953v2 )

ライセンス: Link先を確認
J. Grotti, I. Nosske, S. B. Koller, S. Herbers, H. Denker, L. Timmen, G. Vishnyakova, G. Grosche, T. Waterholter, A. Kuhl, S. Koke, E. Benkler, M. Giunta, L. Maisenbacher, A. Matveev, S. D\"orscher, R. Schwarz, A. Al-Masoudi, T. W. H\"ansch, T. H. Udem, R. Holzwarth, C. Lisdat(参考訳) 干渉ファイバリンクを用いた2つの光格子時計の比較により, 2つの位置間の地電位差を457kmで測定し, 時間遷移周波数の重力的赤方偏移を利用した。 ^{87}$Srクロックは、時計の1つが遠隔地に移された前後に並べて比較されている。 時系列的に測定された地球電位差は3918.1(2.4)\,\mathrm{m^2 \, s^{-2}}$であり、独立した測地差は3915.88(0.30)\,\mathrm{m^2 \, s^{-2}}$である。 時間的地球電位差の不確かさは、高さが 24~\mathrm{cm}$ の不確かさと同値である。

We have measured the geopotential difference between two locations separated by 457 km by comparison of two optical lattice clocks via an interferometric fiber link, utilizing the gravitational redshift of the clock transition frequency. The $^{87}$Sr clocks have been compared side-by-side before and after one of the clocks was moved to the remote location. The chronometrically measured geopotential difference of $3918.1(2.4)\,\mathrm{m^2 \, s^{-2}}$ agrees with an independent geodetic determination of $3915.88(0.30)\,\mathrm{m^2 \, s^{-2}}$. The uncertainty of the chronometric geopotential difference is equivalent to an uncertainty of $24~\mathrm{cm}$ in height.
翻訳日:2023-09-29 10:48:39 公開日:2023-09-28
# 動きデータに基づく車線配置への信号のセマンティックマップ学習

Semantic Map Learning of Traffic Light to Lane Assignment based on Motion Data ( http://arxiv.org/abs/2309.14793v2 )

ライセンス: Link先を確認
Thomas Monninger, Andreas Weber, Steffen Staab(参考訳) どの車線が交差点を安全に移動するのに不可欠かを理解する。 自動運転車は通常、車線への信号の割り当てに関する情報を含むHigh Definition (HD)マップに依存している。 この情報の手動プロビジョニングは退屈で高価であり、スケーラブルではない。 この問題に対処するため,提案手法では,車両の信号状態と対応する移動パターンから課題を導出する。 これは幾何学的配置とは独立して、自動化された方法で動作する。 本稿では,パターンに基づく貢献手法を実装し評価することで,この課題に対する基本的な統計的アプローチの有効性を示す。 また,提案手法は,統計的仮説テストを活用することで安全性を考慮に入れた。 最後に,セマンティックマップ学習のための動き予測データセットを再利用するためのデータセット変換を提案する。 Lyft Level 5データセット用の公開APIによって、研究者は独自のアプローチを開発し、評価することができます。

Understanding which traffic light controls which lane is crucial to navigate intersections safely. Autonomous vehicles commonly rely on High Definition (HD) maps that contain information about the assignment of traffic lights to lanes. The manual provisioning of this information is tedious, expensive, and not scalable. To remedy these issues, our novel approach derives the assignments from traffic light states and the corresponding motion patterns of vehicle traffic. This works in an automated way and independently of the geometric arrangement. We show the effectiveness of basic statistical approaches for this task by implementing and evaluating a pattern-based contribution method. In addition, our novel rejection method includes accompanying safety considerations by leveraging statistical hypothesis testing. Finally, we propose a dataset transformation to re-purpose available motion prediction datasets for semantic map learning. Our publicly available API for the Lyft Level 5 dataset enables researchers to develop and evaluate their own approaches.
翻訳日:2023-09-29 10:48:20 公開日:2023-09-28
# マルチモーダル核融合変圧器を用いたタイル分類に基づくビューポート予測

Tile Classification Based Viewport Prediction with Multi-modal Fusion Transformer ( http://arxiv.org/abs/2309.14704v2 )

ライセンス: Link先を確認
Zhihao Zhang and Yiwei Chen and Weizhan Zhang and Caixia Yan and Qinghua Zheng and Qi Wang and Wangdu Chen(参考訳) ビューポート予測は、タイルベースの360度ビデオストリーミングシステムの重要な側面である。 しかし、既存の軌道に基づく手法ではロバスト性が欠如しており、異なるモダリティ入力間の情報構築と融合のプロセスを過大に単純化し、エラー蓄積問題に繋がる。 本稿では,マルチモーダルフュージョン変換器(MFTR)を用いたタイル分類に基づくビューポート予測手法を提案する。 具体的には、MFTRはトランスフォーマーベースのネットワークを使用して、各モード内の長距離依存関係を抽出し、その後、ユーザ履歴入力とビデオコンテンツが将来のビューポート選択に与える影響を捉えるために、モダリティ内およびモダリティ間関係をマイニングする。 さらに、mftrでは、将来のタイルを2つのカテゴリに分類している。 ヘッドトラジェクタの予測と比較すると、tileのバイナリ分類結果に基づいて将来のviewportを選択すると、ロバスト性と解釈性が向上する。 提案したMFTRを評価するために,広く利用されている2つのPVS-HMとXu-Gazeデータセットについて広範な実験を行った。 MFTRは、平均予測精度と重なり比の観点から、最先端手法よりも優れた性能を示し、競合計算効率を示す。

Viewport prediction is a crucial aspect of tile-based 360 video streaming system. However, existing trajectory based methods lack of robustness, also oversimplify the process of information construction and fusion between different modality inputs, leading to the error accumulation problem. In this paper, we propose a tile classification based viewport prediction method with Multi-modal Fusion Transformer, namely MFTR. Specifically, MFTR utilizes transformer-based networks to extract the long-range dependencies within each modality, then mine intra- and inter-modality relations to capture the combined impact of user historical inputs and video contents on future viewport selection. In addition, MFTR categorizes future tiles into two categories: user interested or not, and selects future viewport as the region that contains most user interested tiles. Comparing with predicting head trajectories, choosing future viewport based on tile's binary classification results exhibits better robustness and interpretability. To evaluate our proposed MFTR, we conduct extensive experiments on two widely used PVS-HM and Xu-Gaze dataset. MFTR shows superior performance over state-of-the-art methods in terms of average prediction accuracy and overlap ratio, also presents competitive computation efficiency.
翻訳日:2023-09-29 10:48:07 公開日:2023-09-28
# 生成エッシャーメッシュ

Generative Escher Meshes ( http://arxiv.org/abs/2309.14564v2 )

ライセンス: Link先を確認
Noam Aigerman and Thibault Groueix(参考訳) 本稿では, 床, モザイク, セラミックス, M.C.エッシャーの作品など, 周期的, 反復的, タイル可能な2Dアートを製作するための, 完全自動, テキスト誘導型生成法を提案する。 従来のシームレスなテクスチャの概念である2乗画像とは対照的に,本手法では,同じオブジェクトのコピーを繰り返すだけで構成される2乗でないタイリングを生成する。 これは、2Dメッシュの幾何学と色の両方を最適化し、望まれる物体の形状と外観の2乗でないタイルを生成する。 任意の対称群に対して、すべての可能なタイル可能な形状の空間の制約なし、微分可能パラメータ化(unconstrained, differentiable parameterization of the space of all possible tileable shapes for a given symmetry group)である。 すなわち、2次元メッシュマッピング技術で用いられるラプラシアンの修正Orbifold Tutte Embeddingは、選択した平面対称群に対して可能な全てのタイリング構成を実現できることを示す。 したがって、メッシュのタイル形状とテクスチャを最適化可能なパラメータとみなし、テクスチャ化されたメッシュを微分可能なレンダラでレンダリングする。 トレーニングされた画像拡散モデルを用いて、得られた画像の損失を定義し、テキストプロンプトと一致する外観に基づいてメッシュのパラメータを更新する。 本手法は,様々な周期的タイリングパターンに対して,非自明なタイルを用いて,妥当で魅力的な結果が得られることを示す。

This paper proposes a fully-automatic, text-guided generative method for producing periodic, repeating, tile-able 2D art, such as the one seen on floors, mosaics, ceramics, and the work of M.C. Escher. In contrast to the standard concept of a seamless texture, i.e., square images that are seamless when tiled, our method generates non-square tilings which comprise solely of repeating copies of the same object. It achieves this by optimizing both geometry and color of a 2D mesh, in order to generate a non-square tile in the shape and appearance of the desired object, with close to no additional background details. We enable geometric optimization of tilings by our key technical contribution: an unconstrained, differentiable parameterization of the space of all possible tileable shapes for a given symmetry group. Namely, we prove that modifying the laplacian used in a 2D mesh-mapping technique - Orbifold Tutte Embedding - can achieve all possible tiling configurations for a chosen planar symmetry group. We thus consider both the mesh's tile-shape and its texture as optimizable parameters, rendering the textured mesh via a differentiable renderer. We leverage a trained image diffusion model to define a loss on the resulting image, thereby updating the mesh's parameters based on its appearance matching the text prompt. We show our method is able to produce plausible, appealing results, with non-trivial tiles, for a variety of different periodic tiling patterns.
翻訳日:2023-09-29 10:47:44 公開日:2023-09-28
# ディジタル量子シミュレーションにおける物理法則上のランダム化項群

Randomized term grouping over physical law on digital quantum simulation ( http://arxiv.org/abs/2309.14378v2 )

ライセンス: Link先を確認
Songqinghao Yang(参考訳) 我々は、デジタル量子コンピュータ上でハミルトン力学を計算するために、qDriftに基づくランダム化アルゴリズムを導入する。 物理の保存法則は任意の量子状態の進化の過程で従うからである。 実験により,水素鎖モデルによるスペクトル誤差の低減を実現した。 ノイズモデルについても検討し,回路の深さを同じに保ち,非偏極誤差を無作為に印加したパウリゲートでシミュレートすることで,測定された期待値の減衰を固定する回路を特徴付ける。 これにより、現在のノイズの多いハードウェアの実装とテストが特に可能である。

We introduce a randomized algorithm based on qDrift to compute Hamiltonian dynamics on digital quantum computers. We frame it as physDrift because conservation laws in physics are obeyed during evolution of arbitrary quantum states. Empirically we achieved better spectral error reduction with hydrogen chain model compared to previous protocols. Noisy model are investigated as well and we characterised them in the circuit with different schemes, i.e. an attenuation of the measured expectation value is fixed by keeping the circuit depth the same and depolarising error is simulated with randomly applied Pauli gates. This makes it our proposal particularly feasible for implementing and testing on present-day noisy hardware.
翻訳日:2023-09-29 10:47:18 公開日:2023-09-28
# AIGCによる革新的デジタルストーリーテリング:最近の進歩の探求と考察

Innovative Digital Storytelling with AIGC: Exploration and Discussion of Recent Advances ( http://arxiv.org/abs/2309.14329v2 )

ライセンス: Link先を確認
Rongzhang Gu, Hui Li, Changyue Su, Wayne Wu(参考訳) デジタルストーリーテリングは、アート形式として、コストと品質のバランスに苦戦している。 AIGC(AI- generated Content)の出現は、効率的なデジタルストーリーテリング生産の潜在的な解決策と考えられている。 しかし、この融合の特定の形態、効果、影響は未だ不明であり、aigcの境界とストーリーテリングは未定義のままである。 この研究は、AIGCとデジタルストーリーテリングの現在の統合状況を調査し、サンプルプロジェクトにおける融合の芸術的価値を調査し、インタビューを通じて一般的な問題に対処する。 本研究を通じて,AIGCは画像生成,音声合成,音楽合成に長けているが,人間の創造性や審美的感性,特に複雑なキャラクタアニメーション,表情,音響効果において,人間の代替には至っていないと結論づけた。 研究の目的は、AIGCとデジタルストーリーテリングの組み合わせによる現在の状況、制限、課題に対する大衆の認識を高めることである。

Digital storytelling, as an art form, has struggled with cost-quality balance. The emergence of AI-generated Content (AIGC) is considered as a potential solution for efficient digital storytelling production. However, the specific form, effects, and impacts of this fusion remain unclear, leaving the boundaries of AIGC combined with storytelling undefined. This work explores the current integration state of AIGC and digital storytelling, investigates the artistic value of their fusion in a sample project, and addresses common issues through interviews. Through our study, we conclude that AIGC, while proficient in image creation, voiceover production, and music composition, falls short of replacing humans due to the irreplaceable elements of human creativity and aesthetic sensibilities at present, especially in complex character animations, facial expressions, and sound effects. The research objective is to increase public awareness of the current state, limitations, and challenges arising from combining AIGC and digital storytelling.
翻訳日:2023-09-29 10:47:05 公開日:2023-09-28
# Q-Bench: 低レベルのビジョンに基づく汎用基盤モデルのベンチマーク

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision ( http://arxiv.org/abs/2309.14181v2 )

ライセンス: Link先を確認
Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Chunyi Li, Wenxiu Sun, Qiong Yan, Guangtao Zhai, Weisi Lin(参考訳) MLLM(Multi-modality Large Language Models)の急速な進化は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを引き起こした。 それでも、低レベルの視覚知覚と理解においてMLLMの能力を評価するにはまだ不十分である。 このギャップに対処するために、我々は3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視覚品質評価)でMLLMの潜在能力を体系的に評価する総合的なベンチマークであるQ-Benchを紹介する。 a) 低レベルの知覚能力を評価するために,2,990個の多様なソース画像からなるLLVisionQAデータセットを構築し,その低レベルの属性に着目した人間に質問する。 次に,これらの質問に対するMLLMの正当性を測定した。 b) MLLMの低レベル情報に基づく記述能力を検討するため, 499 画像上の長大な専門家による黄金の低レベルテキスト記述からなるLLDescribeデータセットと, MLLMの出力と黄金の記述との GPT による比較パイプラインを提案する。 c) この2つの課題に加えて, 人間の意見スコアに合わせる視覚的品質評価能力も測定した。 具体的には、MLLMが定量品質スコアを予測できるソフトマックスベースの戦略を設計し、既存の画像品質評価(IQA)データセットで評価する。 評価の結果,MLLMは低レベルの視覚能力を有することが明らかとなった。 しかし、これらのスキルはまだ不安定で比較的不正確であり、これらの能力に対するMLLMの具体的な強化の必要性を示している。 私たちのベンチマークは、MLLMの未解決の可能性を発見し、強化するために、研究コミュニティをより深く掘り下げることを奨励するものです。 プロジェクトページ: https://vqassesment.github.io/Q-Bench

The rapid evolution of Multi-modality Large Language Models (MLLMs) has catalyzed a shift in computer vision from specialized models to general-purpose foundation models. Nevertheless, there is still an inadequacy in assessing the abilities of MLLMs on low-level visual perception and understanding. To address this gap, we present Q-Bench, a holistic benchmark crafted to systematically evaluate potential abilities of MLLMs on three realms: low-level visual perception, low-level visual description, and overall visual quality assessment. a) To evaluate the low-level perception ability, we construct the LLVisionQA dataset, consisting of 2,990 diverse-sourced images, each equipped with a human-asked question focusing on its low-level attributes. We then measure the correctness of MLLMs on answering these questions. b) To examine the description ability of MLLMs on low-level information, we propose the LLDescribe dataset consisting of long expert-labelled golden low-level text descriptions on 499 images, and a GPT-involved comparison pipeline between outputs of MLLMs and the golden descriptions. c) Besides these two tasks, we further measure their visual quality assessment ability to align with human opinion scores. Specifically, we design a softmax-based strategy that enables MLLMs to predict quantifiable quality scores, and evaluate them on various existing image quality assessment (IQA) datasets. Our evaluation across the three abilities confirms that MLLMs possess preliminary low-level visual skills. However, these skills are still unstable and relatively imprecise, indicating the need for specific enhancements on MLLMs towards these abilities. We hope that our benchmark can encourage the research community to delve deeper to discover and enhance these untapped potentials of MLLMs. Project Page: https://vqassessment.github.io/Q-Bench.
翻訳日:2023-09-29 10:46:46 公開日:2023-09-28
# マルチレゾリューション学習による深層畳み込みニューラルネットワークのロバスト性向上

Improving Robustness of Deep Convolutional Neural Networks via Multiresolution Learning ( http://arxiv.org/abs/2309.13752v2 )

ライセンス: Link先を確認
Hongyan Zhou, Yao Liang(参考訳) ディープラーニングの現在の学習プロセスは、ディープニューラルネットワーク(DNN)アーキテクチャや/または学習アルゴリズムに関係なく、基本的には単一の解像度トレーニングである。 マルチレゾリューション学習について検討し,DNNモデルの1次元信号および2次元信号(画像)予測問題に対するロバスト性を大幅に向上させることができることを示す。 我々は、この改善を、ノイズと敵対的ロバスト性の両方と、トレーニングデータセットのサイズを小さくすることで実証する。 また,従来の単一解像度学習環境から得られた観察とは対照的に,マルチレゾリューション学習では標準精度とロバスト性とのトレードオフは不要である可能性が示唆された。

The current learning process of deep learning, regardless of any deep neural network (DNN) architecture and/or learning algorithm used, is essentially a single resolution training. We explore multiresolution learning and show that multiresolution learning can significantly improve robustness of DNN models for both 1D signal and 2D signal (image) prediction problems. We demonstrate this improvement in terms of both noise and adversarial robustness as well as with small training dataset size. Our results also suggest that it may not be necessary to trade standard accuracy for robustness with multiresolution learning, which is, interestingly, contrary to the observation obtained from the traditional single resolution learning setting.
翻訳日:2023-09-29 10:46:16 公開日:2023-09-28
# カメラキャプチャ画像における超高分解能SOTAのアート復元への適応

Adaptation of the super resolution SOTA for Art Restoration in camera capture images ( http://arxiv.org/abs/2309.13655v3 )

ライセンス: Link先を確認
Sandeep Nagar, Abhinaba Bala, Sai Amrit Patnaik(参考訳) 文化遺産の保存が重要視されている。 美術修復の分野では、劣化した美術品のイメージを効果的に復元できるコンピュータビジョンモデルの開発は困難だったが、現在では優れたコンピュータビジョンが実現されている。 伝統的な修復法はしばしば時間がかかり、幅広い専門知識を必要とする。 この研究の目的は、劣化したアートワークの強化と再構築が可能なコンピュータビジョンモデルに基づく自動ソリューションの設計と、元の特性とアーティファクトを維持しながら、視覚品質の向上である。 このモデルは、ノイズ、ボケ、スクラッチ、フェーディング、その他の一般的なタイプの劣化など、さまざまな種類の劣化タイプを扱わなければならない。 我々は、拡散モデル(DM)に基づく画像超解像の現況に適応し、画像復元のための微調整を行う。 以上の結果から,分解の異なる複数のモデルを微調整する代わりに,超解像を微調整することがわかった。 堅牢にするために、複数のデータセットでトレーニングします。 コードリンク: https://github.com/naagar/art_restoration_dm

Preserving cultural heritage is of paramount importance. In the domain of art restoration, developing a computer vision model capable of effectively restoring deteriorated images of art pieces was difficult, but now we have a good computer vision state-of-art. Traditional restoration methods are often time-consuming and require extensive expertise. The aim of this work is to design an automated solution based on computer vision models that can enhance and reconstruct degraded artworks, improving their visual quality while preserving their original characteristics and artifacts. The model should handle a diverse range of deterioration types, including but not limited to noise, blur, scratches, fading, and other common forms of degradation. We adapt the current state-of-art for the image super-resolution based on the Diffusion Model (DM) and fine-tune it for Image art restoration. Our results show that instead of fine-tunning multiple different models for different kinds of degradation, fine-tuning one super-resolution. We train it on multiple datasets to make it robust. code link: https://github.com/Naagar/art_restoration_DM
翻訳日:2023-09-29 10:46:02 公開日:2023-09-28
# 超強結合の量子および古典スペクトル理論の再構成-空洞浴結合とゲージ補正の役割

Reconciling quantum and classical spectral theories of ultrastrong coupling: Role of cavity bath coupling and gauge corrections ( http://arxiv.org/abs/2309.15788v2 )

ライセンス: Link先を確認
Stephen Hughes, Chris Gustin, and Franco Nori(参考訳) 空洞散逸を伴う広く採用されているホップフィールドモデルに着目し,超強結合キャビティと双極子の線形スペクトルが古典的あるいは量子力学的にどのように記述されるかを示す。 (i)ゲージ不変性を維持するための補正、及び (ii)特定の種類のキャビティバスカップリング。 また、この浴槽モデルが超強結合に古典的な類似性を持たない量子ラビモデルに与える影響を示す。

Focusing on the widely adopted Hopfield model with cavity dissipation, we show how the linear spectrum of an ultrastrongly coupled cavity and a dipole can be described either classically or quantum mechanically, but only when the quantum model includes (i) corrections to maintain gauge invariance, and (ii) a specific type of cavity bath coupling. We also show the impact of this bath model on the quantum Rabi model, which has no classical analogue in ultrastrong coupling.
翻訳日:2023-09-29 10:39:24 公開日:2023-09-28
# バイオメディカルタブラリデータを用いた潜時グラフによる半教師付き学習

Latent Graph Powered Semi-Supervised Learning on Biomedical Tabular Data ( http://arxiv.org/abs/2309.15757v2 )

ライセンス: Link先を確認
Boshko Koloski and Bla\v{z} \v{S}krlj and Senja Pollak and Nada Lavra\v{c}(参考訳) 半教師付き学習の分野では、現在のアプローチでは、(未)ラベル付きデータ間のインスタンス間関係を十分に考慮することができない。 本研究では,固有データ関係をキャプチャする潜在グラフを推論する手法を提供することで,この制限に対処する。 グラフベースの表現を利用することで、グラフ全体にシームレスに情報を伝達し、グローバルおよびローカルな知識を効果的に組み込むことができる。 バイオメディカルな表型データセットの評価を通して、我々のアプローチの能力を他の現代の手法と比較する。 本研究は,半教師付き学習手法を強化するための頑健な潜在グラフを構築するための実践的手法として,インスタンス間関係発見の重要性を示す。 本手法は,3つのバイオメディカルデータセットの最先端結果を実現する。

In the domain of semi-supervised learning, the current approaches insufficiently exploit the potential of considering inter-instance relationships among (un)labeled data. In this work, we address this limitation by providing an approach for inferring latent graphs that capture the intrinsic data relationships. By leveraging graph-based representations, our approach facilitates the seamless propagation of information throughout the graph, enabling the effective incorporation of global and local knowledge. Through evaluations on biomedical tabular datasets, we compare the capabilities of our approach to other contemporary methods. Our work demonstrates the significance of inter-instance relationship discovery as practical means for constructing robust latent graphs to enhance semi-supervised learning techniques. Our method achieves state-of-the-art results on three biomedical datasets.
翻訳日:2023-09-29 10:39:14 公開日:2023-09-28
# 可変抑制によるシャープネス認識最適化の強化

Enhancing Sharpness-Aware Optimization Through Variance Suppression ( http://arxiv.org/abs/2309.15639v2 )

ライセンス: Link先を確認
Bingcong Li, Georgios B. Giannakis(参考訳) シャープネスを意識した最小化(SAM)は、大きなデータ拡張がなくても、ディープニューラルネットワークの一般化を向上する上でのメリットを十分に文書化している。 一般化能力を高める「平坦なミニマ」近傍の損失関数の幾何学を取り入れたSAMは、近隣の摂動パラメータによる最大損失を最小化して「平坦な谷」を求める。 損失関数の鋭さを考慮に入れることは重要であるが、このような「過密な敵」は一般化の最も外側のレベルを縮めることができる。 この貢献の新しいアプローチは、そのような親和性を避けるために分散抑制(vasso)を通じて敵の安定化を促進する。 VaSSOの証明可能な安定性は、画像分類や機械翻訳を含むモデルに依存しないタスクにおいてSAMよりも数値的に改善されている。 さらに、実験により、VaSSOはSAMを高レベルのラベルノイズに対して堅牢性で支持することを確認した。

Sharpness-aware minimization (SAM) has well documented merits in enhancing generalization of deep neural networks, even without sizable data augmentation. Embracing the geometry of the loss function, where neighborhoods of 'flat minima' heighten generalization ability, SAM seeks 'flat valleys' by minimizing the maximum loss caused by an adversary perturbing parameters within the neighborhood. Although critical to account for sharpness of the loss function, such an 'over-friendly adversary' can curtail the outmost level of generalization. The novel approach of this contribution fosters stabilization of adversaries through variance suppression (VaSSO) to avoid such friendliness. VaSSO's provable stability safeguards its numerical improvement over SAM in model-agnostic tasks, including image classification and machine translation. In addition, experiments confirm that VaSSO endows SAM with robustness against high levels of label noise.
翻訳日:2023-09-29 10:39:01 公開日:2023-09-28
# 協調学習型自己回帰型マルチモーダルモデル

Jointly Training Large Autoregressive Multimodal Models ( http://arxiv.org/abs/2309.15564v2 )

ライセンス: Link先を確認
Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz(参考訳) 近年、言語とテキストから画像への大規模事前学習の進歩は、機械学習の分野に革命をもたらした。 しかし、シームレスなマルチモーダル出力を生成することのできる単一のロバストモデルにこれらの2つのモダリティを統合することは大きな課題である。 このギャップに対処するために、既存のテキストと画像生成モデルを体系的に融合するモジュラーアプローチであるJoint Autoregressive Mixture(JAM)フレームワークを提案する。 また,混合モーダル生成タスク用に調整した,データ効率の良い命令チューニング戦略を提案する。 最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示し、この目的のために明示的に設計された最初のモデルを示す。

In recent years, advances in the large-scale pretraining of language and text-to-image models have revolutionized the field of machine learning. Yet, integrating these two modalities into a single, robust model capable of generating seamless multimodal outputs remains a significant challenge. To address this gap, we present the Joint Autoregressive Mixture (JAM) framework, a modular approach that systematically fuses existing text and image generation models. We also introduce a specialized, data-efficient instruction-tuning strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned model demonstrates unparalleled performance in generating high-quality multimodal outputs and represents the first model explicitly designed for this purpose.
翻訳日:2023-09-29 10:38:40 公開日:2023-09-28
# 視覚トランスフォーマーとライン統合によるファサード解析の改善

Improving Facade Parsing with Vision Transformers and Line Integration ( http://arxiv.org/abs/2309.15523v2 )

ライセンス: Link先を確認
Bowen Wang, Jiaxing Zhang, Ran Zhang, Yunqin Li, Liangzhi Li, Yuta Nakashima(参考訳) ファサード解析は重要なコンピュータビジョンタスクであり、アーキテクチャ、都市計画、エネルギー効率といった分野の幅広いアプリケーションを扱う。 ディープラーニングベースの手法が、特定のオープンソースデータセットで印象的な結果をもたらすことに成功しているにも関わらず、現実のアプリケーションに対するその生存性は、いまだに不明である。 現実世界のシナリオはかなり複雑で、計算効率が向上する。 既存のデータセットはこれらの設定を表現するのに不足することが多く、以前の手法は精度を高めるために余分なモデルに依存することが多い。 本稿では,実世界のファサード解析タスクの複雑さを網羅したデータセットであるComprehensive Facade Parsing (CFP)を紹介する。 合計602枚の高解像度ストリートビュー画像からなるこのデータセットは、傾斜角や密集した建物など、さまざまな難易度シナリオを捉え、各画像に注意深い注釈を付ける。 Revision-based Transformer Facade Parsing (RTFP) と呼ばれる新しいパイプラインを導入する。 これはファサード解析における視覚トランスフォーマー(vit)の先駆的利用を示し,その効果を実験的に検証した。 また、ファサードの事前知識を用いた単純な線検出のみでセグメント結果を改善することができる効率的かつ正確な修正アルゴリズムであるLine Acquisition, Filtering, Revision (LAFR) を設計する。 ECP 2011, RueMonge 2014およびCFPにおいて, 本手法の優位性を評価した。 データセットとコードはhttps://github.com/wbw520/rtfpで入手できる。

Facade parsing stands as a pivotal computer vision task with far-reaching applications in areas like architecture, urban planning, and energy efficiency. Despite the recent success of deep learning-based methods in yielding impressive results on certain open-source datasets, their viability for real-world applications remains uncertain. Real-world scenarios are considerably more intricate, demanding greater computational efficiency. Existing datasets often fall short in representing these settings, and previous methods frequently rely on extra models to enhance accuracy, which requires much computation cost. In this paper, we introduce Comprehensive Facade Parsing (CFP), a dataset meticulously designed to encompass the intricacies of real-world facade parsing tasks. Comprising a total of 602 high-resolution street-view images, this dataset captures a diverse array of challenging scenarios, including sloping angles and densely clustered buildings, with painstakingly curated annotations for each image. We introduce a new pipeline known as Revision-based Transformer Facade Parsing (RTFP). This marks the pioneering utilization of Vision Transformers (ViT) in facade parsing, and our experimental results definitively substantiate its merit. We also design Line Acquisition, Filtering, and Revision (LAFR), an efficient yet accurate revision algorithm that can improve the segment result solely from simple line detection using prior knowledge of the facade. In ECP 2011, RueMonge 2014, and our CFP, we evaluate the superiority of our method. The dataset and code are available at https://github.com/wbw520/RTFP.
翻訳日:2023-09-29 10:38:27 公開日:2023-09-28
# 自律運転における3次元複数物体追跡:文献レビュー

3D Multiple Object Tracking on Autonomous Driving: A Literature Review ( http://arxiv.org/abs/2309.15411v2 )

ライセンス: Link先を確認
Peng Zhang, Xin Li, Liang He, Xin Lin(参考訳) 3Dマルチオブジェクトトラッキング(3D MOT)は、自動運転において重要な領域であり、近年、学術的関心と商業的約束が急増している。 その最重要さにもかかわらず、3d motは、オブジェクトの出現、広範囲のオクルージョン、小さなターゲットの存在、データのスパーシティ、検出の欠如、そして予測不能なオブジェクトの動きの開始と終了など、無数の困難に直面している。 数え切れないほどの方法論がこれらの問題に対処し始めているが、3D MOTはさらなる探索を保証できる恐ろしい問題として耐えられる。 本稿では,この領域における研究景観の包括的考察,評価,総合的な分析を行い,今後の研究への道筋を示唆しながら,最近の3d motの発展に合わせる。 本研究は,3次元MOTとその関連領域のキーファセットの体系的な説明から始まり,問題記述,分類,方法論的アプローチ,基本原理,実証的研究を含む。 その後、これらの方法論を異なるグループに分類し、その課題、基礎となる理論的根拠、進歩、メリット、デメリットについて、各グループを慎重に分類する。 さらに,実験的なメトリクスの簡潔な再認識を行い,より直感的な評価のための定量的比較を容易にするために,一般的なデータセットの概要を提供する。 最後に,3次元MOT研究の課題と今後の方向性を整理し,本研究の主流となる研究状況について論じる。 この分野での今後の取り組みを導くために,構造化されたルーシッドな道路マップを提案する。

3D multi-object tracking (3D MOT) stands as a pivotal domain within autonomous driving, experiencing a surge in scholarly interest and commercial promise over recent years. Despite its paramount significance, 3D MOT confronts a myriad of formidable challenges, encompassing abrupt alterations in object appearances, pervasive occlusion, the presence of diminutive targets, data sparsity, missed detections, and the unpredictable initiation and termination of object motion trajectories. Countless methodologies have emerged to grapple with these issues, yet 3D MOT endures as a formidable problem that warrants further exploration. This paper undertakes a comprehensive examination, assessment, and synthesis of the research landscape in this domain, remaining attuned to the latest developments in 3D MOT while suggesting prospective avenues for future investigation. Our exploration commences with a systematic exposition of key facets of 3D MOT and its associated domains, including problem delineation, classification, methodological approaches, fundamental principles, and empirical investigations. Subsequently, we categorize these methodologies into distinct groups, dissecting each group meticulously with regard to its challenges, underlying rationale, progress, merits, and demerits. Furthermore, we present a concise recapitulation of experimental metrics and offer an overview of prevalent datasets, facilitating a quantitative comparison for a more intuitive assessment. Lastly, our deliberations culminate in a discussion of the prevailing research landscape, highlighting extant challenges and charting possible directions for 3D MOT research. We present a structured and lucid road-map to guide forthcoming endeavors in this field.
翻訳日:2023-09-29 10:38:01 公開日:2023-09-28
# 大規模多言語自己教師型学習における共同予測とDenoising

Joint Prediction and Denoising for Large-scale Multilingual Self-supervised Learning ( http://arxiv.org/abs/2309.15317v2 )

ライセンス: Link先を確認
William Chen, Jiatong Shi, Brian Yan, Dan Berrebbi, Wangyou Zhang, Yifan Peng, Xuankai Chang, Soumi Maiti, Shinji Watanabe(参考訳) 多言語自己教師付き学習(ssl)は、多くの言語を扱うのに必要な費用と複雑さのため、最先端(sota)メソッドに遅れを取っていることが多い。 これによりSSLの再現性はさらに損なわれ、リソース使用のためにすでに研究グループに制限されている。 より強力な技術は、より効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示しています。 我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。 WavLabLMを構築するために,多言語データの言語不均衡に対応するために設計された,新しい多段階事前学習手法を開発した。 WavLabLMは、トレーニングデータの10%未満でML-SUPERB上のXLS-Rに匹敵するパフォーマンスを達成し、SSLを学術計算で実現している。 これは、xls-rの性能の94%を、わずか3%のデータ、gpu4つ、限定的なトライアルで維持できる。 ESPnetですべてのコードとモデルをオープンソースにしています。

Multilingual self-supervised learning (SSL) has often lagged behind state-of-the-art (SOTA) methods due to the expenses and complexity required to handle many languages. This further harms the reproducibility of SSL, which is already limited to few research groups due to its resource usage. We show that more powerful techniques can actually lead to more efficient pre-training, opening SSL to more research groups. We propose WavLabLM, which extends WavLM's joint prediction and denoising to 40k hours of data across 136 languages. To build WavLabLM, we devise a novel multi-stage pre-training method, designed to address the language imbalance of multilingual data. WavLabLM achieves comparable performance to XLS-R on ML-SUPERB with less than 10% of the training data, making SSL realizable with academic compute. We show that further efficiency can be achieved with a vanilla HuBERT Base model, which can maintain 94% of XLS-R's performance with only 3% of the data, 4 GPUs, and limited trials. We open-source all code and models in ESPnet.
翻訳日:2023-09-29 10:37:32 公開日:2023-09-28
# 機械学習と線形プログラミングを用いた日常ファンタシーフットボールの最適ラインアップ生成法と検証

Method and Validation for Optimal Lineup Creation for Daily Fantasy Football Using Machine Learning and Linear Programming ( http://arxiv.org/abs/2309.15253v2 )

ライセンス: Link先を確認
Joseph M. Mahoney, Tomasz B. Paniak(参考訳) デイリーファンタジースポーツ(英: Daily fantasy Sports、DFS)は、個人選手の実際のパフォーマンスをファンタジーポイント(FPTS)に変換するオンラインコンテストである。 ユーザーはラインアップのプレイヤーを選択して、設定されたプレイヤーの給与上限内でFPTSを最大化する。 本稿では,(1)不確実性の下でNFL選手のパフォーマンスを予測する手法の開発,(2)所定の給与制限下でFPTSを最大化するための最適ラインアップを決定することに焦点を当てる。 教師付き学習ニューラルネットワークが作成され、来週より前に過去のプレーヤーのパフォーマンス(2018 NFLのレギュラーシーズン)に基づいてFPTSを投影するために使用された。 これらの投影されたFPTSは、最適ラインアップを見つけるために混合整数線形プログラムで使用された。 結果のラインアップの性能をランダムに作成したラインアップと比較した。 平均すると、最適ラインアップはランダムラインアップよりも優れていた。 生成されたラインアップは、DraftKingsのユーザーによる現実世界のラインアップと比較された。 生成したラインアップは一般的に31パーセント(中間)に低下した。 本研究をベースライン比較として, FPTS法と予測法をさらに改良することができる。

Daily fantasy sports (DFS) are weekly or daily online contests where real-game performances of individual players are converted to fantasy points (FPTS). Users select players for their lineup to maximize their FPTS within a set player salary cap. This paper focuses on (1) the development of a method to forecast NFL player performance under uncertainty and (2) determining an optimal lineup to maximize FPTS under a set salary limit. A supervised learning neural network was created and used to project FPTS based on past player performance (2018 NFL regular season for this work) prior to the upcoming week. These projected FPTS were used in a mixed integer linear program to find the optimal lineup. The performance of resultant lineups was compared to randomly-created lineups. On average, the optimal lineups outperformed the random lineups. The generated lineups were then compared to real-world lineups from users on DraftKings. The generated lineups generally fell in approximately the 31st percentile (median). The FPTS methods and predictions presented here can be further improved using this study as a baseline comparison.
翻訳日:2023-09-29 10:37:12 公開日:2023-09-28
# 量子サブシステムの予測複雑性

Predictive complexity of quantum subsystems ( http://arxiv.org/abs/2309.15200v2 )

ライセンス: Link先を確認
Curtis T. Asplund and Elisa Panciu(参考訳) 我々は、異なるサブシステムからなる量子システムの予測状態と予測複雑性を定義する。 この複雑さは絡み合いエントロピーの一般化である。 確率的および複素系理論の予測状態解析の統計的または予測的複雑性に触発されるが、本質的に量子的である。 サブシステムの予測状態は、外部ヒルベルト空間における状態ベクトルの同値類によって形成され、しばらくの間そのサブシステムの同じ将来の振る舞いを効果的に予測する。 図示的な例として、等方的ハイゼンベルクモデルスピン鎖の力学の計算を行い、エンタングルメントエントロピーと比較して、予測複雑性はマグノン衝突のような動的に重要な事象をよりよく表すことを示す。 量子系における様々な対称性を情報理論的な方法でどのように特徴付けるのかを議論し、応用や拡張の可能性についてコメントする。

We define predictive states and predictive complexity for quantum systems composed of distinct subsystems. This complexity is a generalization of entanglement entropy. It is inspired by the statistical or forecasting complexity of predictive state analysis of stochastic and complex systems theory, but is intrinsically quantum. Predictive states of a subsystem are formed by equivalence classes of state vectors in the exterior Hilbert space that effectively predict the same future behavior of that subsystem for some time. As an illustrative example, we present calculations in the dynamics of an isotropic Heisenberg model spin chain and show that, in comparison to the entanglement entropy, the predictive complexity better signifies dynamically important events, such as magnon collisions. We discuss how this quantity may usefully characterize a variety of symmetries in quantum systems in an information-theoretic way, and comment on possible applications and extensions.
翻訳日:2023-09-29 10:36:54 公開日:2023-09-28
# dpa-wno:確率力学問題のクラスのためのグレーボックスモデル

DPA-WNO: A gray box model for a class of stochastic mechanics problem ( http://arxiv.org/abs/2309.15128v2 )

ライセンス: Link先を確認
Tushar and Souvik Chakraborty(参考訳) 科学と工学におけるよく知られた支配物理学は、しばしばある仮定と近似に基づいている。 したがって、これらの方程式に基づく解析や設計も近似である。 データ駆動モデルの出現は、ある程度この課題に対処しているが、純粋にデータ駆動モデルはしばしば対処している。 a)解釈可能性の欠如 (b)データ格納であり、 (c) トレーニングウィンドウ以外は一般化しない。 オペレータ学習は、最近、上記の課題に対処する潜在的な代替案として提案されているが、課題はまだ持続的である。 ここでは、可能な解決策の1つは、データ駆動モデルを使用して、欠落した物理を修正・特定するデータ物理融合にあると論じる。 そこで我々は,新しい微分可能物理拡張ウェーブレットニューラル演算子(DPA-WNO)を提案する。 提案したDPA-WNOは、異なる物理解法とウェーブレットニューラル演算子(WNO)をブレンドし、WNOの役割は、欠落した物理をモデル化することである。 これにより、物理学ベースの解法に関連する解釈可能性と一般化性を保ちながら、データから学習するwnoの能力を活用できるフレームワークが提案されている。 初期条件におけるランダム性に起因する時間依存不確かさの定量化問題に対する提案手法の適用性を示す。 提案手法を用いて, 各種科学・工学分野の4つのベンチマーク不確実性定量化および信頼性解析例を解く。 その結果,提案手法の興味深い特徴が得られた。

The well-known governing physics in science and engineering is often based on certain assumptions and approximations. Therefore, analyses and designs carried out based on these equations are also approximate. The emergence of data-driven models has, to a certain degree, addressed this challenge; however, the purely data-driven models often (a) lack interpretability, (b) are data-hungry, and (c) do not generalize beyond the training window. Operator learning has recently been proposed as a potential alternative to address the aforementioned challenges; however, the challenges are still persistent. We here argue that one of the possible solutions resides in data-physics fusion, where the data-driven model is used to correct/identify the missing physics. To that end, we propose a novel Differentiable Physics Augmented Wavelet Neural Operator (DPA-WNO). The proposed DPA-WNO blends a differentiable physics solver with the Wavelet Neural Operator (WNO), where the role of WNO is to model the missing physics. This empowers the proposed framework to exploit the capability of WNO to learn from data while retaining the interpretability and generalizability associated with physics-based solvers. We illustrate the applicability of the proposed approach in solving time-dependent uncertainty quantification problems due to randomness in the initial condition. Four benchmark uncertainty quantification and reliability analysis examples from various fields of science and engineering are solved using the proposed approach. The results presented illustrate interesting features of the proposed approach.
翻訳日:2023-09-29 10:36:38 公開日:2023-09-28