このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230802となっている論文です。

PDF登録状況(公開日: 20230802)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッド古典量子システム統合におけるソフトウェアアーキテクチャの課題

Software Architecture Challenges in Integrating Hybrid Classical-Quantum Systems ( http://arxiv.org/abs/2311.04221v1 )

ライセンス: Link先を確認
Vlad Stirbu, Tommi Mikkonen(参考訳) 量子コンピューティングの出現は、多くの科学と産業の応用領域を根本的に変換できる革命的パラダイムを提案する。 量子コンピュータが計算を指数関数的にスケールする能力は、現在のコンピュータが提供しているよりも、特定のアルゴリズムタスクのパフォーマンスと効率を向上させる。 しかし、そのような改善の恩恵を受けるためには、量子コンピュータは既存のソフトウェアシステムと統合されなければならない。 本稿では,より大型の古典量子コンピュータの構築から生じる課題を調査し,これらの課題を克服するためのアプローチについて議論する。

The emergence of quantum computing proposes a revolutionary paradigm that can radically transform numerous scientific and industrial application domains. The ability of quantum computers to scale computations exponentially imply better performance and efficiency for certain algorithmic tasks than current computers provide. However, to gain benefit from such improvement, quantum computers must be integrated with existing software systems, a process that is not straightforward. In this paper, we investigate challenges that emerge from building larger hybrid classical-quantum computers, and discuss some approaches that could be employed to overcome these challenges.
翻訳日:2024-01-15 16:31:40 公開日:2023-08-02
# 宣言的スマートコントラクトの安全性検証

Safety Verification of Declarative Smart Contracts ( http://arxiv.org/abs/2211.14585v3 )

ライセンス: Link先を確認
Haoxian Chen, Lan Lu, Brendan Massey, Yuepeng Wang, Boon Thau Loo(参考訳) smart contractsは近年、多数のデジタル資産を管理している。 これらの契約のバグは大きな損失をもたらした。 スマートコントラクトの正しさを検証することは重要なタスクである。 本稿では,スマートコントラクトの実装と仕様のためのロジックベースのドメイン固有言語であるdeconで記述された宣言型スマートコントラクトを対象とする,自動安全検証ツールdcvを提案する。 DCVは、数学的誘導によって安全性を証明し、開発者からのアノテーションなしでヒューリスティックパターンを用いて誘導不変性を自動推論することができる。 20のベンチマークコントラクトに対する評価では,DCVはパブリックリポジトリから適応したスマートコントラクトの検証に有効であり,他のツールがサポートしていないコントラクトの検証が可能である。 さらに、DCVは検証時間においてベースラインツールを著しく上回る。

Smart contracts manage a large number of digital assets nowadays. Bugs in these contracts have led to significant financial loss. Verifying the correctness of smart contracts is, therefore, an important task. This paper presents an automated safety verification tool, DCV, that targets declarative smart contracts written in DeCon, a logic-based domain-specific language for smart contract implementation and specification. DCV proves safety properties by mathematical induction and can automatically infer inductive invariants using heuristic patterns, without annotations from the developer. Our evaluation on 20 benchmark contracts shows that DCV is effective in verifying smart contracts adapted from public repositories, and can verify contracts not supported by other tools. Furthermore, DCV significantly outperforms baseline tools in verification time.
翻訳日:2023-10-24 14:08:06 公開日:2023-08-02
# 第2回要求工学・テスト国際ワークショップ(RET)概要報告

Summary of 2nd International Workshop on Requirements Engineering and Testing (RET) ( http://arxiv.org/abs/2308.01933v1 )

ライセンス: Link先を確認
Elizabeth Bjarnason, Mirko Morandini, Markus Borg, Michael Unterkalmsteiner, Michael Felderer, Matthew Staats(参考訳) RET(Requirements Engineering and Testing)ワークショップシリーズは、Requirements Engineering (RE)とTestingの2つの異なる分野の研究者と実践者のためのミーティングポイントを提供する。 目標は、アイデア、課題、プラクティス、経験、結果の交換を通じて、これら2つの領域の接続とアライメントを改善することです。 長期的な目標は、REとTestingの交差点、すなわちRET内で、コミュニティと知識の体系を構築することです。 第2回ワークショップはイタリアのフィレンツェでICSE 2015と共同で開催された。 ワークショップは第1回と同じインタラクティブなやり方で行われ、基調講演、ディスカッションに十分な時間を持つペーパープレゼンテーション、グループエクササイズなどが行われた。 真のインパクトと関連性のために、この横断的な領域は、REとテストの両方、そして研究者と実践者の両方からの貢献を必要とします。 短い経験論文から2つの分野のつながりをカバーする完全な研究論文まで、様々な論文が提示された。 第2回ワークショップの主な成果の1つは、RE、テスト、調整効果を識別するRET領域の初期定義に従って、提示されたワークショップ論文の分類である。

The RET (Requirements Engineering and Testing) workshop series provides a meeting point for researchers and practitioners from the two separate fields of Requirements Engineering (RE) and Testing. The goal is to improve the connection and alignment of these two areas through an exchange of ideas, challenges, practices, experiences and results. The long term aim is to build a community and a body of knowledge within the intersection of RE and Testing, i.e. RET. The 2nd workshop was held in co-location with ICSE 2015 in Florence, Italy. The workshop continued in the same interactive vein as the 1st one and included a keynote, paper presentations with ample time for discussions, and a group exercise. For true impact and relevance this cross-cutting area requires contribution from both RE and Testing, and from both researchers and practitioners. A range of papers were presented from short experience papers to full research papers that cover connections between the two fields. One of the main outputs of the 2nd workshop was a categorization of the presented workshop papers according to an initial definition of the area of RET which identifies the aspects RE, Testing and coordination effect.
翻訳日:2023-10-23 15:31:57 公開日:2023-08-02
# 手動テストは匂いがする! 自然言語テストのカタログ化と識別

Manual Tests Do Smell! Cataloging and Identifying Natural Language Test Smells ( http://arxiv.org/abs/2308.01386v1 )

ライセンス: Link先を確認
Elvys Soares, Manoel Aranda, Naelson Oliveira, M\'arcio Ribeiro, Rohit Gheyi, Emerson Souza, Ivan Machado, Andr\'e Santos, Baldoino Fonseca, Rodrigo Bonif\'acio(参考訳) 背景: テストの臭いは、テストコードの保守性、カバレッジ、信頼性に悪影響を及ぼす可能性のある自動ソフトウェアテストの設計と実装における潜在的な問題を示しています。 説明が不十分な場合、自然言語で書かれた手動テストは関連する問題に悩まされ、テストの臭いの観点から分析することができる。 手動でテストしたソフトウェア製品に対する偏見はあるものの、手動テストにおけるテストの臭いについてはほとんど知られていない。 目的: 本研究は, 手動テストにおけるテスト臭のカタログ作成に寄与することを目的としている。 方法: 経験的戦略を2つ実施する。 まず、ubuntuの運用システム、ブラジルの電子投票機、大手スマートフォンメーカーのユーザインターフェースという3つのシステムの手動テストにおける探索的な研究です。 本研究は,構文解析と形態素解析に基づく8種類のテスト臭と識別規則のカタログを提案し,24名のテスト技術者による検証を行った。 第2に,提案手法を用いて自然言語処理(NLP)に基づいたツールを作成し,対象システムのテストを分析し,結果を検証する。 結果:8種類の試薬が検出された。 24人の企業内テスト専門家を対象とした調査では、80.7%が私たちのカタログ定義と例に同意した。 NLPベースのツールでは,92%の精度,95%のリコール,93.5%のf値が達成され,分析システムでは13,169件の検査結果が得られた。 結論: 自然言語テストの臭いのカタログや,現在のNLPメカニズムの能力について,将来性のある結果と,異なるイディオムで記述されたテスト解析の労力を削減した新たな検出戦略に貢献する。

Background: Test smells indicate potential problems in the design and implementation of automated software tests that may negatively impact test code maintainability, coverage, and reliability. When poorly described, manual tests written in natural language may suffer from related problems, which enable their analysis from the point of view of test smells. Despite the possible prejudice to manually tested software products, little is known about test smells in manual tests, which results in many open questions regarding their types, frequency, and harm to tests written in natural language. Aims: Therefore, this study aims to contribute to a catalog of test smells for manual tests. Method: We perform a two-fold empirical strategy. First, an exploratory study in manual tests of three systems: the Ubuntu Operational System, the Brazilian Electronic Voting Machine, and the User Interface of a large smartphone manufacturer. We use our findings to propose a catalog of eight test smells and identification rules based on syntactical and morphological text analysis, validating our catalog with 24 in-company test engineers. Second, using our proposals, we create a tool based on Natural Language Processing (NLP) to analyze the subject systems' tests, validating the results. Results: We observed the occurrence of eight test smells. A survey of 24 in-company test professionals showed that 80.7% agreed with our catalog definitions and examples. Our NLP-based tool achieved a precision of 92%, recall of 95%, and f-measure of 93.5%, and its execution evidenced 13,169 occurrences of our cataloged test smells in the analyzed systems. Conclusion: We contribute with a catalog of natural language test smells and novel detection strategies that better explore the capabilities of current NLP mechanisms with promising results and reduced effort to analyze tests written in different idioms.
翻訳日:2023-10-23 15:30:13 公開日:2023-08-02
# TEASMA:突然変異解析を用いたディープニューラルネットワークのテスト評価のための実践的アプローチ

TEASMA: A Practical Approach for the Test Assessment of Deep Neural Networks using Mutation Analysis ( http://arxiv.org/abs/2308.01311v1 )

ライセンス: Link先を確認
Amin Abbasishahkoo and Mahboubeh Dadkhah and Lionel Briand and Dayi Lin(参考訳) ディープニューラルネットワーク(dnn)のデプロイの成功、特に安全クリティカルなシステムでは、テスト結果に対する十分な信頼性を確保するために、十分なテストセットによる検証が必要である。 近年,従来のソフトウェアにおけるテスト精度を計測する主要な手法の一つである変異解析がDNNに適用されている。 この手法は, 実際の欠陥を表す変異体を生成することに基づいており, テスト精度の評価に利用できる。 本稿では,訓練後のDNNモデルを直接修正する突然変異演算子を用いて,DNNの試験入力を確実に評価できるかどうかを初めて検討する。 TEASMAは,DNNテストセットの妥当性を評価するための学習後突然変異に基づく手法である。 TEASMAを使用すると、エンジニアはテスト結果が信頼できるかどうかを判断し、デプロイ前にDNNを検証することができる。 DNNモデルのトレーニングセットに基づいて、TEASMAは、その突然変異スコアからテストセットの故障検出率(FDR)の正確な予測モデルを構築する方法を提供し、その評価を可能にする。 複数のDNNモデルにおいて,予測されたFDR値は実値と強い線形相関(R2 >= 0.94)を持つことを示す。 その結果、TEASMAは、テスト結果を信頼するか、テストセットを改善するべきかを確実に判断するための信頼性の高い基盤を提供するという実証的な証拠が示唆された。

Successful deployment of Deep Neural Networks (DNNs), particularly in safety-critical systems, requires their validation with an adequate test set to ensure a sufficient degree of confidence in test outcomes. Mutation analysis, one of the main techniques for measuring test adequacy in traditional software, has been adapted to DNNs in recent years. This technique is based on generating mutants that aim to be representative of actual faults and thus can be used for test adequacy assessment. In this paper, we investigate for the first time whether mutation operators that directly modify the trained DNN model (i.e., post-training) can be used for reliably assessing the test inputs of DNNs. We propose and evaluate TEASMA, an approach based on post-training mutation for assessing the adequacy of DNN's test sets. In practice, TEASMA allows engineers to decide whether they will be able to trust test results and thus validate the DNN before its deployment. Based on a DNN model's training set, TEASMA provides a methodology to build accurate prediction models of the Fault Detection Rate (FDR) of a test set from its mutation score, thus enabling its assessment. Our large empirical evaluation, across multiple DNN models, shows that predicted FDR values have a strong linear correlation (R2 >= 0.94) with actual values. Consequently, empirical evidence suggests that TEASMA provides a reliable basis for confidently deciding whether to trust test results or improve the test set.
翻訳日:2023-10-23 15:29:42 公開日:2023-08-02
# マイクロサービスのためのAPIによる通信処理

Handling Communication via APIs for Microservices ( http://arxiv.org/abs/2308.01302v1 )

ライセンス: Link先を確認
Vini Kanvar, Ridhi Jain and Srikanth Tamilselvam(参考訳) クラウド移行中の企業は、クラウドのメリットを最大化するために、モノリスアプリケーションをマイクロサービスに分解したいと考えている。 現在の研究は、モノリスを小さなクラスタに分割して、結合や凝集など、標準的なメトリクスをまたいでうまく機能させる方法に重点を置いています。 しかしながら、パーティションの取得、マイクロサービス間の依存関係の特定、依存関係のさらなる低減方法の探求、アプリケーションの振る舞いを変更することなく堅牢な通信を可能にするための適切なコード変更など、研究はほとんど行われていません。 本稿では,JSONを用いた従来の通信技術による課題について論じ,API経由のIDパスの代替手法を提案する。 APIの数を減らすアルゴリズムも開発しています。 そのため、各クラスにメソッドとその関連する変数のサブグラフを構築し、より機能的に整合したマイクロサービスに配置します。 5つのパブリックJavaアプリケーションに関する定量的および質的研究は、IDを使用したリファクタリングされたマイクロサービスが、JSONよりも明らかに時間とメモリの複雑さを向上したことを示している。 私たちの自動化は、手動リファクタリング作業の40-60\%を削減します。

Enterprises in their journey to the cloud, want to decompose their monolith applications into microservices to maximize cloud benefits. Current research focuses a lot on how to partition the monolith into smaller clusters that perform well across standard metrics like coupling, cohesion, etc. However, there is little research done on taking the partitions, identifying their dependencies between the microservices, exploring ways to further reduce the dependencies, and making appropriate code changes to enable robust communication without modifying the application behaviour. In this work, we discuss the challenges with the conventional techniques of communication using JSON and propose an alternative way of ID-passing via APIs. We also devise an algorithm to reduce the number of APIs. For this, we construct subgraphs of methods and their associated variables in each class and relocate them to their more functionally aligned microservices. Our quantitative and qualitative studies on five public Java applications clearly demonstrate that our refactored microservices using ID have decidedly better time and memory complexities than JSON. Our automation reduces 40-60\% of the manual refactoring efforts.
翻訳日:2023-10-23 15:29:16 公開日:2023-08-02
# 双対原理と生物学的に有理な学習--代表定理とヘビー学習をつなぐ

Duality Principle and Biologically Plausible Learning: Connecting the Representer Theorem and Hebbian Learning ( http://arxiv.org/abs/2309.16687v1 )

ライセンス: Link先を確認
Yanis Bahroun, Dmitri B. Chklovskii, Anirvan M. Sengupta(参考訳) 近年,教師なし問題に着目した神経計算のアルゴリズムベースを導出し,理解するために,類似性マッチングと呼ばれる規範的アプローチが導入された。 計算対象からアルゴリズムを導出し、解剖学的および生理学的観察との適合性を評価する。 特に、PCAのような一般的なモデルの原始的な定式化ではなく、双対的な代替を考えることによって、ニューラルアーキテクチャを導入する。 しかし、その代表定理との関係は未定である。 本研究では,本手法の教えを用いて,教師付き学習アルゴリズムを探索し,ヘビアン学習の概念を明らかにすることを提案する。 規則化された教師付き学習を検証し、ニューラルネットワークの出現と、加法と乗法による更新規則の出現を解明する。 本研究では,新しいアルゴリズムの開発ではなく,Representer定理が生物学的に有効な学習アルゴリズムの研究に最適なレンズを提供することを示す。 この分野における多くの過去と現在の進歩は、生物学的な可算性を導入するためにある種の双対定式化に依存していると論じる。 つまり、二重定式化が存在する限り、生物学的に可算なアルゴリズムを導出することができる。 私たちの研究は、神経計算の理解を進める上で、representer定理が果たす重要な役割に光を当てている。

A normative approach called Similarity Matching was recently introduced for deriving and understanding the algorithmic basis of neural computation focused on unsupervised problems. It involves deriving algorithms from computational objectives and evaluating their compatibility with anatomical and physiological observations. In particular, it introduces neural architectures by considering dual alternatives instead of primal formulations of popular models such as PCA. However, its connection to the Representer theorem remains unexplored. In this work, we propose to use teachings from this approach to explore supervised learning algorithms and clarify the notion of Hebbian learning. We examine regularized supervised learning and elucidate the emergence of neural architecture and additive versus multiplicative update rules. In this work, we focus not on developing new algorithms but on showing that the Representer theorem offers the perfect lens to study biologically plausible learning algorithms. We argue that many past and current advancements in the field rely on some form of dual formulation to introduce biological plausibility. In short, as long as a dual formulation exists, it is possible to derive biologically plausible algorithms. Our work sheds light on the pivotal role of the Representer theorem in advancing our comprehension of neural computation.
翻訳日:2023-10-23 05:59:51 公開日:2023-08-02
# ecoBLE:Bluetooth低エネルギーのための低計算エネルギー消費予測フレームワーク

ecoBLE: A Low-Computation Energy Consumption Prediction Framework for Bluetooth Low Energy ( http://arxiv.org/abs/2309.16686v1 )

ライセンス: Link先を確認
Luisa Schuhmacher, Sofie Pollin, Hazem Sallouha(参考訳) Bluetooth Low Energy (BLE) はモノのインターネット(IoT)アプリケーションのためのデファクト技術であり、非常に低エネルギー消費を約束している。 しかし、この低エネルギー消費は無線部分のみを考慮し、他のハードウェアやソフトウェアコンポーネントのエネルギー消費を見落としている。 デプロイ後のIoTノードのエネルギー消費の監視と予測は、低エネルギー消費の確保、残りのバッテリ寿命の計算、省エネノードに必要なエネルギーの予測、異常の検出に大きく貢献する。 本稿では、Long Short-Term Memory Projection (LSTMP)ベースのBLEエネルギー消費予測フレームワークと、BLEが広く採用されている医療アプリケーションシナリオのデータセットを紹介する。 無線による理論エネルギーモデルとは異なり、我々のフレームワークは、無線、センサ、マイクロコントローラユニット(MCU)を含むIoTノードの全コンポーネントを考慮して、包括的なエネルギー消費予測を提供する。 測定結果から,提案手法は平均絶対誤差(MAPE)が最大12%の異なるBLEノードのエネルギー消費を予測し,予測モデルのサイズが5倍の最先端エネルギー消費予測に匹敵する精度を示した。

Bluetooth Low Energy (BLE) is a de-facto technology for Internet of Things (IoT) applications, promising very low energy consumption. However, this low energy consumption accounts only for the radio part, and it overlooks the energy consumption of other hardware and software components. Monitoring and predicting the energy consumption of IoT nodes after deployment can substantially aid in ensuring low energy consumption, calculating the remaining battery lifetime, predicting needed energy for energy-harvesting nodes, and detecting anomalies. In this paper, we introduce a Long Short-Term Memory Projection (LSTMP)-based BLE energy consumption prediction framework together with a dataset for a healthcare application scenario where BLE is widely adopted. Unlike radio-focused theoretical energy models, our framework provides a comprehensive energy consumption prediction, considering all components of the IoT node, including the radio, sensor as well as microcontroller unit (MCU). Our measurement-based results show that the proposed framework predicts the energy consumption of different BLE nodes with a Mean Absolute Percentage Error (MAPE) of up to 12%, giving comparable accuracy to state-of-the-art energy consumption prediction with a five times smaller prediction model size.
翻訳日:2023-10-23 05:59:18 公開日:2023-08-02
# マルチモーダルタンパク質表現学習によるリガンド生成のためのターゲット対応変分自動エンコーダ

Target-aware Variational Auto-encoders for Ligand Generation with Multimodal Protein Representation Learning ( http://arxiv.org/abs/2309.16685v1 )

ライセンス: Link先を確認
Nhat Khang Ngo and Truong Son Hy(参考訳) 特定のポケットの知識がなければ、タンパク質標的のグローバルな構造に基づくリガンドの生成は、パイプライン内の潜在的薬物様候補の探索スペースを減らすのに役立つため、薬物発見において重要な役割を果たす。 しかし、現代の手法では、タンパク質ごとに調整されたネットワークを最適化する必要がある。 この問題に対処するために,グラフトランスフォーマーをベースとした新しいマルチモーダルディープニューラルネットワークにより,任意のタンパク質ターゲットに高い結合親和性を持つリガンドを生成するターゲット対応変分自動エンコーダであるTargetVAEを紹介する。 これはタンパク質の異なる表現(アミノ酸配列、3D構造など)を1つのモデルに統一する最初の試みであり、これはタンパク質マルチモーダルネットワーク(PMN)と呼ばれる。 私たちのマルチモーダルアーキテクチャは、タンパク質構造全体から学び、それらのシーケンシャル、トポロジカル、幾何学的な情報を捉えることができます。 提案手法は,生成モデルの品質評価,未確認目標のリガンド生成,ドッキングスコア計算,結合親和性予測など,広範な実験と評価を行うことにより,その優位性を示す。 実験結果は,提案手法の有望な性能を示す。 私たちのソフトウェアパッケージはhttps://github.com/HySonLab/Ligand_Generationで公開されています。

Without knowledge of specific pockets, generating ligands based on the global structure of a protein target plays a crucial role in drug discovery as it helps reduce the search space for potential drug-like candidates in the pipeline. However, contemporary methods require optimizing tailored networks for each protein, which is arduous and costly. To address this issue, we introduce TargetVAE, a target-aware variational auto-encoder that generates ligands with high binding affinities to arbitrary protein targets, guided by a novel multimodal deep neural network built based on graph Transformers as the prior for the generative model. This is the first effort to unify different representations of proteins (e.g., sequence of amino-acids, 3D structure) into a single model that we name as Protein Multimodal Network (PMN). Our multimodal architecture learns from the entire protein structures and is able to capture their sequential, topological and geometrical information. We showcase the superiority of our approach by conducting extensive experiments and evaluations, including the assessment of generative model quality, ligand generation for unseen targets, docking score computation, and binding affinity prediction. Empirical results demonstrate the promising performance of our proposed approach. Our software package is publicly available at https://github.com/HySonLab/Ligand_Generation
翻訳日:2023-10-23 05:58:21 公開日:2023-08-02
# 拡散に基づくアプローチによるリガンド変換生成のためのサイド情報の活用

Leveraging Side Information for Ligand Conformation Generation using Diffusion-Based Approaches ( http://arxiv.org/abs/2309.16684v1 )

ライセンス: Link先を確認
Jiamin Wu, He Cao, Yuan Yao(参考訳) リガンド分子コンホメーション生成は、薬物発見において重要な課題である。 深層学習モデルはこの問題に対処するために開発され、特に近年では生成モデルを用いている。 しかしながら、これらのモデルはしばしば本質的な側情報がないため、意味のある構造やランダム性を欠いたコンフォメーションを生成する。 例えば、標的タンパク質の化学的および幾何学的特徴、リガンド-標的化合物相互作用、リガンド化学特性などである。 これらの制約がなければ、生成されたコンフォメーションは、新しい薬物のさらなる選択と設計に適さないかもしれない。 この制限に対処するために、サイド情報を活用し、フレキシブルな制約を標準拡散モデルに組み込むリガンドコンホメーションを生成する新しい手法を提案する。 メッセージパッシングの概念から着想を得て,ターゲットノードとリガンドノード間の情報交換を容易にする機構であるリガンド-ターゲットマッサージパッシングブロックを導入する。 非共有結合相互作用を捉えるために,リガンド-ターゲット化合物の中間端と内端に導入する。 生成したコンフォメーションの生物学的関連性をさらに向上するため,スカラー化学特性を用いてエネルギーモデルを訓練する。 これらのモデルは標準分母拡散確率モデルの進歩を導くもので、より生物学的に有意義なコンフォーメーションをもたらす。 PDBBind-2020データセットを用いてSIDEGENの性能を評価し,他の手法と比較した。 その結果, Aligned RMSD と Ligand RMSD の両評価に改善が認められた。 特に,本モデルは中央アライメント rmsd メトリックの点で geodiff (pdbbind-2020 でトレーニング) を20%上回っている。

Ligand molecule conformation generation is a critical challenge in drug discovery. Deep learning models have been developed to tackle this problem, particularly through the use of generative models in recent years. However, these models often generate conformations that lack meaningful structure and randomness due to the absence of essential side information. Examples of such side information include the chemical and geometric features of the target protein, ligand-target compound interactions, and ligand chemical properties. Without these constraints, the generated conformations may not be suitable for further selection and design of new drugs. To address this limitation, we propose a novel method for generating ligand conformations that leverage side information and incorporate flexible constraints into standard diffusion models. Drawing inspiration from the concept of message passing, we introduce ligand-target massage passing block, a mechanism that facilitates the exchange of information between target nodes and ligand nodes, thereby incorporating target node features. To capture non-covalent interactions, we introduce ligand-target compound inter and intra edges. To further improve the biological relevance of the generated conformations, we train energy models using scalar chemical features. These models guide the progress of the standard Denoising Diffusion Probabilistic Models, resulting in more biologically meaningful conformations. We evaluate the performance of SIDEGEN using the PDBBind-2020 dataset, comparing it against other methods. The results demonstrate improvements in both Aligned RMSD and Ligand RMSD evaluations. Specifically, our model outperforms GeoDiff (trained on PDBBind-2020) by 20% in terms of the median aligned RMSD metric.
翻訳日:2023-10-23 05:57:47 公開日:2023-08-02
# 深部強化学習によるSolo12四足ロボットの制御

Controlling the Solo12 Quadruped Robot with Deep Reinforcement Learning ( http://arxiv.org/abs/2309.16683v1 )

ライセンス: Link先を確認
Michel Aractingi (LAAS-GEPETTO), Pierre-Alexandre L\'eziart (LAAS-GEPETTO), Thomas Flayols (LAAS-GEPETTO), Julien Perez, Tomi Silander, Philippe Sou\`eres (LAAS-GEPETTO)(参考訳) 四足歩行ロボットは、複雑で困難な環境での移動能力を活用するために、頑丈で一般的な移動能力を必要とする。 そこで本研究では,Solo12の4倍体上に,堅牢なエンドツーエンド学習ベースのコントローラを初めて実装した。 本手法は,関節インピーダンス参照の深部強化学習に基づく。 結果として生じる制御ポリシーは、エネルギー消費が効率的で、堅牢で、展開が容易な速度基準に従っている。 実ロボット上での移動の学習手順と方法について詳述する。 実験の結果,Solo12ロボットは学習コントローラの移動・展開が容易であるため,学習と制御を組み合わせた研究に適したオープンソースプラットフォームであることがわかった。

Quadruped robots require robust and general locomotion skills to exploit their mobility potential in complex and challenging environments. In this work, we present the first implementation of a robust end-to-end learning-based controller on the Solo12 quadruped. Our method is based on deep reinforcement learning of joint impedance references. The resulting control policies follow a commanded velocity reference while being efficient in its energy consumption, robust and easy to deploy. We detail the learning procedure and method for transfer on the real robot. In our experiments, we show that the Solo12 robot is a suitable open-source platform for research combining learning and control because of the easiness in transferring and deploying learned controllers.
翻訳日:2023-10-23 05:57:21 公開日:2023-08-02
# 計算流体力学のための完全量子インスピレーションフレームワーク

Complete quantum-inspired framework for computational fluid dynamics ( http://arxiv.org/abs/2308.12972v1 )

ライセンス: Link先を確認
Raghavendra D. Peddinti, Stefano Pisoni, Alessandro Marini, Philippe Lott, Henrique Argentieri, Egor Tiunov and Leandro Aolita(参考訳) 計算流体力学(computational fluid dynamics)は、産業応用の重要な研究分野である。 中心的な課題は複雑な幾何学における乱流をシミュレートすることであり、これは離散化されたメッシュが必要とする大きなベクトル次元のために計算力の集中的なタスクである。 本稿では、メモリと実行時スケーリングをメッシュサイズで多義的に行う非圧縮性流体のフルスタック解法を提案する。 我々のフレームワークは、量子状態の強力な圧縮表現である行列生成状態に基づいている。 これは、非自明な境界条件を持つ多様なジオメトリの没入対象のまわりのフローを解き、圧縮符号化から直接解を取得できること、すなわち高価な高密度ベクトル表現を通り抜けることなく完備である。 これらの開発は、実際の流体問題のより効率的なシミュレーションを可能にするツールボックスを提供する。

Computational fluid dynamics is both an active research field and a key tool for industrial applications. The central challenge is to simulate turbulent flows in complex geometries, a compute-power intensive task due to the large vector dimensions required by discretized meshes. Here, we propose a full-stack solver for incompressible fluids with memory and runtime scaling polylogarithmically in the mesh size. Our framework is based on matrix-product states, a powerful compressed representation of quantum states. It is complete in that it solves for flows around immersed objects of diverse geometries, with non-trivial boundary conditions, and can retrieve the solution directly from the compressed encoding, i.e. without ever passing through the expensive dense-vector representation. These developments provide a toolbox with potential for radically more efficient simulations of real-life fluid problems.
翻訳日:2023-09-03 21:41:46 公開日:2023-08-02
# 日刊ニュースが株価予測に及ぼす影響

Effects of Daily News Sentiment on Stock Price Forecasting ( http://arxiv.org/abs/2308.08549v1 )

ライセンス: Link先を確認
S.Srinivas, R.Gadela, R.Sabu, A.Das, G.Nath and V.Datla(参考訳) 株式の将来価格を予測することは困難な作業である。 しかし、追加の要素を組み込むことで、将来の価格を予測するために株式の過去の価格データのみに頼るのではなく、我々の予測を大幅に改善することができる。 調査によると、同社に関する毎日のニュースの影響を受けている投資家の感情は、株価変動に大きな影響を及ぼす可能性がある。 この情報を得るための情報源はたくさんありますが、それらは多くのノイズで散らばっており、それらから感情を正確に抽出することは困難です。 したがって、我々の研究の焦点は、NITY50株に関するニュースから感情を捉える効率的なシステムを設計し、これらの株価の金融ニュースの感情が、一定期間にわたって価格にどの程度影響しているかを調べることである。 本稿では,約50万件のニュース記事からなる約3.7年周期でニュースデータベースを作成するための,堅牢なデータ収集と事前処理フレームワークを提案する。 また、このタイムラインの株価情報をキャプチャして、さまざまなセクションの感情スコアを含む複数の時系列データを作成し、異なる感情ライブラリを用いて計算する。 これに基づいて、評価スコアを特徴として使用し、性能を比較し、株価を予測するためにいくつかのLSTMモデルを適合させます。

Predicting future prices of a stock is an arduous task to perform. However, incorporating additional elements can significantly improve our predictions, rather than relying solely on a stock's historical price data to forecast its future price. Studies have demonstrated that investor sentiment, which is impacted by daily news about the company, can have a significant impact on stock price swings. There are numerous sources from which we can get this information, but they are cluttered with a lot of noise, making it difficult to accurately extract the sentiments from them. Hence the focus of our research is to design an efficient system to capture the sentiments from the news about the NITY50 stocks and investigate how much the financial news sentiment of these stocks are affecting their prices over a period of time. This paper presents a robust data collection and preprocessing framework to create a news database for a timeline of around 3.7 years, consisting of almost half a million news articles. We also capture the stock price information for this timeline and create multiple time series data, that include the sentiment scores from various sections of the article, calculated using different sentiment libraries. Based on this, we fit several LSTM models to forecast the stock prices, with and without using the sentiment scores as features and compare their performances.
翻訳日:2023-08-27 05:24:47 公開日:2023-08-02
# RBN性能, オーバーライドトラクタダイナミクスの鍵因子としての興奮・抑制バランス

Excitatory/Inhibitory Balance Emerges as a Key Factor for RBN Performance, Overriding Attractor Dynamics ( http://arxiv.org/abs/2308.10831v1 )

ライセンス: Link先を確認
Emmanuel Calvet, Jean Rouat, Bertrand Reulet(参考訳) 貯水池計算は従来の学習法に代わる時間と費用効率の代替手段であり、二元ニューラルネットワークの計算性能を最適化するために「カオスのエッジ」として知られる批判的体制が発見されている。 しかし, 接続性, 力学, 性能の関連性を調べる際に, 貯水池と貯水池の変動についてはほとんど注目されていない。 物理的貯水池コンピュータが普及するにつれ、ネットワーク設計への体系的アプローチの開発が重要である。 本稿では,Random Boolean Networks (RBNs) について検討し,特定の分布パラメータが臨界点付近の多様なダイナミクスをもたらすことを示す。 異なる動的アトラクタを特定し,その統計を定量化し,ほとんどの貯水池が支配的なアトラクタを持っていることを明らかにした。 次に、記憶と予測という2つの課題で性能を評価し、ポジティブな興奮のバランスがメモリ性能の高い臨界点を生み出すことを見出した。 比較して、負の抑制バランスは、より良い予測性能を持つ別の重要なポイントをもたらす。 興味深いことに、内在的なアトラクタダイナミクスは、いずれの場合もパフォーマンスにほとんど影響がない。

Reservoir computing provides a time and cost-efficient alternative to traditional learning methods.Critical regimes, known as the "edge of chaos," have been found to optimize computational performance in binary neural networks. However, little attention has been devoted to studying reservoir-to-reservoir variability when investigating the link between connectivity, dynamics, and performance. As physical reservoir computers become more prevalent, developing a systematic approach to network design is crucial. In this article, we examine Random Boolean Networks (RBNs) and demonstrate that specific distribution parameters can lead to diverse dynamics near critical points. We identify distinct dynamical attractors and quantify their statistics, revealing that most reservoirs possess a dominant attractor. We then evaluate performance in two challenging tasks, memorization and prediction, and find that a positive excitatory balance produces a critical point with higher memory performance. In comparison, a negative inhibitory balance delivers another critical point with better prediction performance. Interestingly, we show that the intrinsic attractor dynamics have little influence on performance in either case.
翻訳日:2023-08-27 05:06:15 公開日:2023-08-02
# 薬物発見における微小分子特性の機械学習

Machine Learning Small Molecule Properties in Drug Discovery ( http://arxiv.org/abs/2308.12354v1 )

ライセンス: Link先を確認
Nikolai Schapin, Maciej Majewski, Alejandro Varela, Carlos Arroniz, Gianni De Fabritiis(参考訳) 機械学習(ML)は、薬物発見における小さな分子特性を予測するための有望なアプローチである。 本稿では,近年,この目的のために導入された各種ML手法について概観する。 本稿では, 結合親和性, 溶解性, ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) など, 幅広い特性について検討する。 既存の一般的なデータセットや分子ディスクリプタ、化学指紋やグラフベースのニューラルネットワークなどの埋め込みについて論じる。 我々はまた,薬剤発見のヒット・トゥ・リードおよびリード最適化段階における複数の特性の予測と最適化の課題を浮き彫りにして,リード候補を最適化しながら多様な特性のバランスをとるために使用できる多目的最適化手法について概説する。 最後に,モデル予測の理解,特に創薬における重要な意思決定のための技術を評価する。 概して、このレビューは、薬物発見における小さな分子特性予測のためのMLモデルのランドスケープに関する洞察を提供する。 これまでのところ、さまざまなアプローチがありますが、そのパフォーマンスはしばしば同等です。 ニューラルネットワークはより柔軟だが、必ずしも単純なモデルを上回るものではない。 これは、精度の高いモデルのトレーニングには、高品質なトレーニングデータの可用性が依然として不可欠であり、標準化されたベンチマーク、追加のパフォーマンスメトリクス、さまざまなテクニックとモデルのよりリッチな比較を可能にするためのベストプラクティスが必要であることを示している。

Machine learning (ML) is a promising approach for predicting small molecule properties in drug discovery. Here, we provide a comprehensive overview of various ML methods introduced for this purpose in recent years. We review a wide range of properties, including binding affinities, solubility, and ADMET (Absorption, Distribution, Metabolism, Excretion, and Toxicity). We discuss existing popular datasets and molecular descriptors and embeddings, such as chemical fingerprints and graph-based neural networks. We highlight also challenges of predicting and optimizing multiple properties during hit-to-lead and lead optimization stages of drug discovery and explore briefly possible multi-objective optimization techniques that can be used to balance diverse properties while optimizing lead candidates. Finally, techniques to provide an understanding of model predictions, especially for critical decision-making in drug discovery are assessed. Overall, this review provides insights into the landscape of ML models for small molecule property predictions in drug discovery. So far, there are multiple diverse approaches, but their performances are often comparable. Neural networks, while more flexible, do not always outperform simpler models. This shows that the availability of high-quality training data remains crucial for training accurate models and there is a need for standardized benchmarks, additional performance metrics, and best practices to enable richer comparisons between the different techniques and models that can shed a better light on the differences between the many techniques.
翻訳日:2023-08-27 04:38:37 公開日:2023-08-02
# attention-free spikformer:単純な線形変換によるスパイク列の混合

Attention-free Spikformer: Mixing Spike Sequences with Simple Linear Transforms ( http://arxiv.org/abs/2308.02557v1 )

ライセンス: Link先を確認
Qingyu Wang, Duzhen Zhang, Tielin Zhang, Bo Xu(参考訳) Spikformerは、自己注意能力とスパイキングニューラルネットワーク(SNN)の生物学的特性を統合することで、SNN設計に卓越したTransformerアーキテクチャを適用している。 Spiking Self-Attention(SSA)モジュールを導入し、スパイクフォームクエリ、キー、バリューを使用してスパースなビジュアル機能をミックスすることで、以前のSNNライクなフレームワークと比較して、多数のデータセット上でのステートオフ・ザ・アート(SOTA)パフォーマンスを実現する。 本稿では、SSAをフーリエ変換やウェーブレット変換のような非パラメータ化線形変換(LT)に置き換えることで、Spikformerアーキテクチャを高速化できることを実証する。 これらの変換はスパイク列の混合に利用され、二次時間複雑性を対数線形時間複雑性に還元する。 周波数と時間領域を交互に組み合わせて、疎い視覚的特徴を抽出し、強力な性能と効率を示す。 我々はニューロモルフィックと静的両方のデータセットを用いた画像分類実験を行った。 その結果,SOTA Spikformer と SSA と比較すると,LT の Spikformer はニューロモルフィックデータセットでは Top-1 の精度が高く,静的データセットでは Top-1 の精度が同等であることが示唆された。 さらに、LTを使用したSpikformerは、トレーニング速度が約29ドル~51ドル%改善され、推論速度が611ドル~70ドル%改善され、学習可能なパラメータを必要としないため、メモリ使用量が4ドル~26ドル%削減される。

By integrating the self-attention capability and the biological properties of Spiking Neural Networks (SNNs), Spikformer applies the flourishing Transformer architecture to SNN design. It introduces a Spiking Self-Attention (SSA) module to mix sparse visual features using spike-form Query, Key, and Value, resulting in State-Of-The-Art (SOTA) performance on numerous datasets compared to previous SNN-like frameworks. In this paper, we demonstrate that the Spikformer architecture can be accelerated by replacing the SSA with an unparameterized Linear Transform (LT) such as Fourier and Wavelet transforms. These transforms are utilized to mix spike sequences, reducing the quadratic time complexity to log-linear time complexity. They alternate between the frequency and time domains to extract sparse visual features, showcasing powerful performance and efficiency. We conduct extensive experiments on image classification using both neuromorphic and static datasets. The results indicate that compared to the SOTA Spikformer with SSA, Spikformer with LT achieves higher Top-1 accuracy on neuromorphic datasets and comparable Top-1 accuracy on static datasets. Moreover, Spikformer with LT achieves approximately $29$-$51\%$ improvement in training speed, $61$-$70\%$ improvement in inference speed, and reduces memory usage by $4$-$26\%$ due to not requiring learnable parameters.
翻訳日:2023-08-14 01:01:36 公開日:2023-08-02
# 産業記憶:ニューラルワード埋め込みと機械学習による政府調査の発見を探る

Industrial Memories: Exploring the Findings of Government Inquiries with Neural Word Embedding and Machine Learning ( http://arxiv.org/abs/2308.02556v1 )

ライセンス: Link先を確認
Susan Leavy, Emilie Pine and Mark T Keane(参考訳) 本稿では,政府調査の結果を詳述した大量のテキストの探索を支援するテキストマイニングシステムを提案する。 その歴史的意義と潜在的社会的影響にもかかわらず、問い合わせの鍵となる発見は、しばしば長い文書の中に隠され、一般にはアクセスできないままである。 我々は,アイルランド政府の産業学校への探究の成果を変換し,単語の埋め込み,テキストの分類,可視化を通じて,テキストの探索によって新たな歴史的洞察を明らかにするインタラクティブなWebベースプラットフォームを提案する。

We present a text mining system to support the exploration of large volumes of text detailing the findings of government inquiries. Despite their historical significance and potential societal impact, key findings of inquiries are often hidden within lengthy documents and remain inaccessible to the general public. We transform the findings of the Irish government's inquiry into industrial schools and through the use of word embedding, text classification and visualisation, present an interactive web-based platform that enables the exploration of the text to uncover new historical insights.
翻訳日:2023-08-14 01:01:06 公開日:2023-08-02
# 個人化レビューに基づくレーティング予測のための事前学習言語モデルを用いた知識認識協調フィルタリング

Knowledge-aware Collaborative Filtering with Pre-trained Language Model for Personalized Review-based Rating Prediction ( http://arxiv.org/abs/2308.02555v1 )

ライセンス: Link先を確認
Quanxiu Wang, Xinlei Cao, Jianyong Wang, Wei Zhang(参考訳) パーソナライズされたレビューベースレーティング予測は、既存のレビューを活用してユーザ興味やアイテム特性をモデル化することを目的としている。 現存する研究の多くは主に2つの問題に直面している。 まず、各レビューのきめ細かい部分に含まれる豊富な知識と知識グラフは、ユーザとイテムの相互作用をモデル化するための純粋なテキストを補完するものとして、ほとんど考えられない。 第二に、事前学習された言語モデルのパワーは、パーソナライズされたレビューベースの評価予測のために慎重に研究されていない。 本稿では,事前学習型言語モデル(kcf-plm)を用いた知識認識協調フィルタリング手法を提案する。 最初の問題として、豊富な知識を活用するために、KCF-PLMは、抽出されたアスペクトの相互作用をユーザ-イテム対としてモデル化するトランスフォーマーネットワークを開発した。 2つ目の問題として、ユーザとアイテムをより良く表現するために、KCF-PLMは、事前訓練された言語モデルへの入力として、ユーザまたはアイテムの履歴レビューをすべて取ります。 さらに、KCF-PLMは、知識グラフ上での表現伝搬とアスペクト表現の注意喚起により、トランスフォーマーネットワークと事前訓練された言語モデルを統合する。 したがって、KCF-PLMはレビューテキスト、アスペクト、知識グラフ、事前訓練された言語モデルを組み合わせてレビューベースの評価予測を行う。 我々は、KCF-PLMの有効性を実証し、いくつかの公開データセットに関する包括的な実験を行う。

Personalized review-based rating prediction aims at leveraging existing reviews to model user interests and item characteristics for rating prediction. Most of the existing studies mainly encounter two issues. First, the rich knowledge contained in the fine-grained aspects of each review and the knowledge graph is rarely considered to complement the pure text for better modeling user-item interactions. Second, the power of pre-trained language models is not carefully studied for personalized review-based rating prediction. To address these issues, we propose an approach named Knowledge-aware Collaborative Filtering with Pre-trained Language Model (KCF-PLM). For the first issue, to utilize rich knowledge, KCF-PLM develops a transformer network to model the interactions of the extracted aspects w.r.t. a user-item pair. For the second issue, to better represent users and items, KCF-PLM takes all the historical reviews of a user or an item as input to pre-trained language models. Moreover, KCF-PLM integrates the transformer network and the pre-trained language models through representation propagation on the knowledge graph and user-item guided attention of the aspect representations. Thus KCF-PLM combines review text, aspect, knowledge graph, and pre-trained language models together for review-based rating prediction. We conduct comprehensive experiments on several public datasets, demonstrating the effectiveness of KCF-PLM.
翻訳日:2023-08-14 01:00:56 公開日:2023-08-02
# インターネット機器のコンピュータビジョン技術に関する調査

Survey on Computer Vision Techniques for Internet-of-Things Devices ( http://arxiv.org/abs/2308.02553v1 )

ライセンス: Link先を確認
Ishmeet Kaur and Adwaita Janardhan Jadhav(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、ほとんどのコンピュータビジョン問題を解決する最先端技術である。 DNNは最先端の結果を得るために数十億のパラメータと演算を必要とする。 この要件により、DNNは計算量、メモリ、エネルギー不足を極端に増加させ、結果として限られたコンピューティングリソースを持つ小さなバッテリ駆動のIoT(Internet-of-Things)デバイスにデプロイすることが困難になる。 交通カメラなどのインターネット・オブ・Things機器へのDNNの展開は、自動事故検出や緊急応答などの応用を可能にすることで公衆の安全を向上することができるが、本稿では、DNNの展開性を大幅に向上させることなく、低消費電力かつ省エネなDNN実装の最近の進歩について調査する。 一般に、これらの技法はメモリの要求量、演算演算数、またはその両方を減少させる。 これらのテクニックは、ニューラルネットワーク圧縮、ネットワークアーキテクチャ検索と設計、コンパイラとグラフ最適化の3つの主要なカテゴリに分けられる。 本稿では,畳み込みおよび変圧器の低消費電力化技術について検討し,その利点,欠点,オープン研究の問題点を概説する。

Deep neural networks (DNNs) are state-of-the-art techniques for solving most computer vision problems. DNNs require billions of parameters and operations to achieve state-of-the-art results. This requirement makes DNNs extremely compute, memory, and energy-hungry, and consequently difficult to deploy on small battery-powered Internet-of-Things (IoT) devices with limited computing resources. Deployment of DNNs on Internet-of-Things devices, such as traffic cameras, can improve public safety by enabling applications such as automatic accident detection and emergency response.Through this paper, we survey the recent advances in low-power and energy-efficient DNN implementations that improve the deployability of DNNs without significantly sacrificing accuracy. In general, these techniques either reduce the memory requirements, the number of arithmetic operations, or both. The techniques can be divided into three major categories: neural network compression, network architecture search and design, and compiler and graph optimizations. In this paper, we survey both low-power techniques for both convolutional and transformer DNNs, and summarize the advantages, disadvantages, and open research problems.
翻訳日:2023-08-14 01:00:32 公開日:2023-08-02
# メータショーアマッピングのためのAI強化データ処理と発見集団ソーシング

AI-Enhanced Data Processing and Discovery Crowd Sourcing for Meteor Shower Mapping ( http://arxiv.org/abs/2308.02664v1 )

ライセンス: Link先を確認
Siddha Ganju, Amartya Hatua, Peter Jenniskens, Sahyadri Krishna, Chicheng Ren, Surya Ambardar(参考訳) nasaが2010年に資金提供したallsky meteor surveillance(cams)プロジェクトは、北半球と南半球の16か国で、低照度カメラで検出された流星群を三角測量することで、流星群をマッピングすることを目指している。 そのミッションは、今後の気象雨の帰還を検証し、発見し、予測することである。 本研究では,自動化されたクラウドベースのai対応パイプラインを実装してデータ処理を合理化し,データ可視化を改善し,流星検出の監視に一般市民を巻き込むことで発見率を向上させることを目的とした。 本稿では、解釈可能なアクティブラーニングとAIパイプラインを使用して、データの取り込み、処理、洞察生成を自動化するプロセスについて述べる。 本研究は、気象ラジアントマップの可視化を容易にするためのインタラクティブwebポータル(nasa meteor shower portal)の開発についても述べる。 これまでcamsは200以上の新しい流星群を発見し、これまでに報告された数十の流星群を検証してきた。

The Cameras for Allsky Meteor Surveillance (CAMS) project, funded by NASA starting in 2010, aims to map our meteor showers by triangulating meteor trajectories detected in low-light video cameras from multiple locations across 16 countries in both the northern and southern hemispheres. Its mission is to validate, discover, and predict the upcoming returns of meteor showers. Our research aimed to streamline the data processing by implementing an automated cloud-based AI-enabled pipeline and improve the data visualization to improve the rate of discoveries by involving the public in monitoring the meteor detections. This article describes the process of automating the data ingestion, processing, and insight generation using an interpretable Active Learning and AI pipeline. This work also describes the development of an interactive web portal (the NASA Meteor Shower portal) to facilitate the visualization of meteor radiant maps. To date, CAMS has discovered over 200 new meteor showers and has validated dozens of previously reported showers.
翻訳日:2023-08-14 00:48:23 公開日:2023-08-02
# 離散トークンからマルチバンド拡散を用いた高忠実度オーディオへ

From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion ( http://arxiv.org/abs/2308.02560v1 )

ライセンス: Link先を確認
Robin San Roman and Yossi Adi and Antoine Deleforge and Romain Serizel and Gabriel Synnaeve and Alexandre D\'efossez(参考訳) 深層生成モデルは、様々な種類の表現(メルスペクトル、メル周波数ケプストラル係数(MFCC)など)で条件付けられた高忠実なオーディオを生成することができる。 近年、そのようなモデルは、高度に圧縮された表現に基づく音声波形の合成に使われている。 このような手法は印象的な結果をもたらすが、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。 別のモデリング手法は拡散モデルを使用することである。 しかし、これらは主に音声ボコーダ(メルスペクトログラムの条件付け)として使われ、比較的低いサンプリングレートの信号を生成する。 本研究では,低ビットの離散表現から任意の種類のオーディオモダリティ(音声,音楽,環境音など)を生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。 等価ビットレートでは、提案手法は知覚品質の観点から最先端の生成技術より優れる。 トレーニングと評価コード、オーディオサンプルはfacebookresearch/audiocraft Githubのページで公開されている。

Deep generative models can generate high-fidelity audio conditioned on various types of representations (e.g., mel-spectrograms, Mel-frequency Cepstral Coefficients (MFCC)). Recently, such models have been used to synthesize audio waveforms conditioned on highly compressed representations. Although such methods produce impressive results, they are prone to generate audible artifacts when the conditioning is flawed or imperfect. An alternative modeling approach is to use diffusion models. However, these have mainly been used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating relatively low sampling rate signals. In this work, we propose a high-fidelity multi-band diffusion-based framework that generates any type of audio modality (e.g., speech, music, environmental sounds) from low-bitrate discrete representations. At equal bit rate, the proposed approach outperforms state-of-the-art generative techniques in terms of perceptual quality. Training and, evaluation code, along with audio samples, are available on the facebookresearch/audiocraft Github page.
翻訳日:2023-08-14 00:48:04 公開日:2023-08-02
# DLSIA:科学画像解析のためのディープラーニング

DLSIA: Deep Learning for Scientific Image Analysis ( http://arxiv.org/abs/2308.02559v1 )

ライセンス: Link先を確認
Eric J Roberts, Tanny Chavez, Alexander Hexemer, Petrus H. Zwart(参考訳) dlsia(deep learning for scientific image analysis)というpythonベースの機械学習ライブラリを導入することで、さまざまな科学領域の科学者や研究者が、さまざまなカスタマイズ可能な畳み込みニューラルネットワーク(cnn)アーキテクチャを使用して、ダウンストリームデータ処理や実験・イン・ザ・ループコンピューティングのシナリオで使用される画像解析のさまざまなタスクを可能にする。 DLSIAは、オートエンコーダ、チューニング可能なU-Net、パラメータリーン混合スケールネットワーク(MSDNets)などの使いやすいアーキテクチャを備えている。 さらに,ランダムグラフとスパース接続を用いて生成するsparse mixed-scale network (smsnets)を導入する。 実験データの規模と複雑さが拡大するにつれて、dlsiaはcnnの構築とcnnの複雑さを抽象化し、科学者が機械学習のアプローチを調整し、発見を加速し、学際的なコラボレーションを育み、科学的画像分析の研究を進めることができる。

We introduce DLSIA (Deep Learning for Scientific Image Analysis), a Python-based machine learning library that empowers scientists and researchers across diverse scientific domains with a range of customizable convolutional neural network (CNN) architectures for a wide variety of tasks in image analysis to be used in downstream data processing, or for experiment-in-the-loop computing scenarios. DLSIA features easy-to-use architectures such as autoencoders, tunable U-Nets, and parameter-lean mixed-scale dense networks (MSDNets). Additionally, we introduce sparse mixed-scale networks (SMSNets), generated using random graphs and sparse connections. As experimental data continues to grow in scale and complexity, DLSIA provides accessible CNN construction and abstracts CNN complexities, allowing scientists to tailor their machine learning approaches, accelerate discoveries, foster interdisciplinary collaboration, and advance research in scientific image analysis.
翻訳日:2023-08-14 00:47:47 公開日:2023-08-02
# 人工知能のパラダイムシフト

The Paradigm Shifts in Artificial Intelligence ( http://arxiv.org/abs/2308.02558v1 )

ライセンス: Link先を確認
Vasant Dhar(参考訳) kuhn's framework of scientific progress (kuhn, 1962)は、過去60年間に人工知能で起こったパラダイムシフトの有用なフレーミングを提供する。 また、このフレームワークは、ChatGPTのような会話エージェントをベースとした、GPT-3のような大規模事前学習システムの出現を示唆する、AIの新たなパラダイムシフトの理解にも有用である。 このようなシステムは、インテリジェンスをアプリケーションに設定可能なコモディティ化された汎用技術にする。 本稿では,各パラダイムの台頭と崩壊に繋がった力を要約し,現在のaiパラダイムシフトに伴う課題とリスクについて論じる。

Kuhn's framework of scientific progress (Kuhn, 1962) provides a useful framing of the paradigm shifts that have occurred in Artificial Intelligence over the last 60 years. The framework is also useful in understanding what is arguably a new paradigm shift in AI, signaled by the emergence of large pre-trained systems such as GPT-3, on which conversational agents such as ChatGPT are based. Such systems make intelligence a commoditized general purpose technology that is configurable to applications. In this paper, I summarize the forces that led to the rise and fall of each paradigm, and discuss the pressing issues and risks associated with the current paradigm shift in AI.
翻訳日:2023-08-14 00:47:28 公開日:2023-08-02
# 内部クラスタ検証指標評価のための新しい手法

A new approach for evaluating internal cluster validation indices ( http://arxiv.org/abs/2308.03894v1 )

ライセンス: Link先を確認
Zolt\'an Botta-Duk\'at(参考訳) 教師なし分類には多数の異なる方法がある。 アルゴリズムやパラメータ設定はあらゆる種類のデータで最善を尽くさないため、実際に最適なアルゴリズムを選択するにはクラスタ検証が必要である。 この目的のために、追加の(外部の)情報を用いずにいくつかの指標が提案された。 これらの内部検証指標は、既知のクラスタ構造を持つデータセットの分類に適用することで評価することができる。 評価アプローチは、地上分類の情報の使い方によって異なる。 本稿では,これらのアプローチのメリットとデメリットを考慮し,新たなアプローチを提案する。

A vast number of different methods are available for unsupervised classification. Since no algorithm and parameter setting performs best in all types of data, there is a need for cluster validation to select the actually best-performing algorithm. Several indices were proposed for this purpose without using any additional (external) information. These internal validation indices can be evaluated by applying them to classifications of datasets with a known cluster structure. Evaluation approaches differ in how they use the information on the ground-truth classification. This paper reviews these approaches, considering their advantages and disadvantages, and then suggests a new approach.
翻訳日:2023-08-14 00:27:51 公開日:2023-08-02
# 医薬品レビュー満足度予測のためのBio+Clinical BERT, BERT Base, CNNパフォーマンス比較

Bio+Clinical BERT, BERT Base, and CNN Performance Comparison for Predicting Drug-Review Satisfaction ( http://arxiv.org/abs/2308.03782v1 )

ライセンス: Link先を確認
Yue Ling(参考訳) 本研究の目的は,患者の薬物レビューを分析し,満足度を肯定的,中立的,否定的に正確に分類できる自然言語処理(NLP)モデルを開発することである。 このようなモデルは、医療従事者の労働負荷を減少させ、患者の生活の質についてより深い洞察を与え、治療効果の重要な指標となる。 そこで我々は,BERTベースモデル,Bio+Clinical BERT,シンプルなCNNなど,いくつかの分類モデルを実装し,評価した。 以上の結果から, 医療領域固有のBio+Clinical BERTモデルでは, 一般的なドメインベースBERTモデルよりも有意に優れ, マクロf1, リコールスコアが11%向上した。 将来の研究は、それぞれのモデルの特定の強みをどのように活用するかを探求するかもしれない。 Bio+Clinical BERTは総合的なパフォーマンス、特に医療用語で優れており、単純なCNNは重要な単語を識別し、矛盾する感情のあるテキストで感情を正確に分類する能力を示している。

The objective of this study is to develop natural language processing (NLP) models that can analyze patients' drug reviews and accurately classify their satisfaction levels as positive, neutral, or negative. Such models would reduce the workload of healthcare professionals and provide greater insight into patients' quality of life, which is a critical indicator of treatment effectiveness. To achieve this, we implemented and evaluated several classification models, including a BERT base model, Bio+Clinical BERT, and a simpler CNN. Results indicate that the medical domain-specific Bio+Clinical BERT model significantly outperformed the general domain base BERT model, achieving macro f1 and recall score improvement of 11%, as shown in Table 2. Future research could explore how to capitalize on the specific strengths of each model. Bio+Clinical BERT excels in overall performance, particularly with medical jargon, while the simpler CNN demonstrates the ability to identify crucial words and accurately classify sentiment in texts with conflicting sentiments.
翻訳日:2023-08-14 00:27:40 公開日:2023-08-02
# リアルタイムCO2モニタリングと分析のためのIoTの探索

Exploring IoT for real-time CO2 monitoring and analysis ( http://arxiv.org/abs/2308.03780v1 )

ライセンス: Link先を確認
Abhiroop Sarkar, Debayan Ghosh, Kinshuk Ganguly, Snehal Ghosh and Subhajit Saha(参考訳) このプロジェクトの一環として,node mcu-esp8266モジュール,mq135ガスセンサ,dht-11センサを用いて,ppm(part per million),温度,湿度のco$_2$レベルを測定するiotベースの機器を開発した。 世界のCO$2$レベルを上昇させるには、人間の健康、安全、エネルギー効率、環境保全に影響を及ぼす影響を理解するために、常にモニタリングと分析が必要である。 したがって、効率的で費用対効果の高いソリューションは、統計分析および記憶のためのデータを計測および送信することが不可欠である。 この機器は、室内環境の総合的な理解を可能にするリアルタイムモニタリングを提供する。 貴重な洞察を提供することで、健康と安全を確保し、エネルギー効率を最適化し、効果的な環境モニタリングを促進するための対策の実施を促進する。 この科学的な取り組みは、co$_2$レベル、温度、湿度を取り巻く知識体系の成長に貢献し、持続可能な実践とインフォームド・意思決定を育むことを目的としている。

As a part of this project, we have developed an IoT-based instrument utilizing the NODE MCU-ESP8266 module, MQ135 gas sensor, and DHT-11 sensor for measuring CO$_2$ levels in parts per million (ppm), temperature, and humidity. The escalating CO$_2$ levels worldwide necessitate constant monitoring and analysis to comprehend the implications for human health, safety, energy efficiency, and environmental well-being. Thus, an efficient and cost-effective solution is imperative to measure and transmit data for statistical analysis and storage. The instrument offers real-time monitoring, enabling a comprehensive understanding of indoor environmental conditions. By providing valuable insights, it facilitates the implementation of measures to ensure health and safety, optimize energy efficiency, and promote effective environmental monitoring. This scientific endeavor aims to contribute to the growing body of knowledge surrounding CO$_2$ levels, temperature, and humidity, fostering sustainable practices and informed decision-making
翻訳日:2023-08-14 00:27:16 公開日:2023-08-02
# dual governance: 生成型aiのための集中型規制とクラウドソースによる安全メカニズムの交点

Dual Governance: The intersection of centralized regulation and crowdsourced safety mechanisms for Generative AI ( http://arxiv.org/abs/2308.04448v1 )

ライセンス: Link先を確認
Avijit Ghosh, Dhanya Lakshmi(参考訳) Generative Artificial Intelligence(AI)は、特に消費者向け、オープンエンド、テキスト、画像生成モデルという形で、最近主流に採用されている。 しかし、このようなシステムの使用は、プライバシー侵害、誤った情報、知的財産盗難など、倫理的および安全上の重大な懸念を提起する。 創造的なAIが人間の創造性と生活を駆逐する可能性もまた、厳しい監視下にある。 これらのリスクを軽減するために、生成AI分野において責任ある政策と規制、倫理的発展が緊急に必要である。 政府によるAIの抑制のための既存の規制と提案は、十分な明確さや統一性を持たないこと、司法管轄区域間の相互運用性の欠如、イノベーションの制限、自由市場競争を妨げることなどの批判に直面している。 クラウドソースによる安全ツールとメカニズムによる分散保護は、潜在的な代替手段である。 しかし、監督の適切さの欠如や倫理的および安全基準の施行の困難さという点では明確な欠陥があり、それゆえそれ自体が規制機構として不十分である。 デュアルガバナンスと呼ばれるフレームワークを通じて,これら2つの戦略の結合を提案する。 この枠組みは、米国の特定の文脈における中央集権的な政府の規制と、利害関係者を生成的AIの害から守るためにコミュニティによって開発された安全メカニズムの協調的な相乗効果を提案する。 デュアルガバナンスフレームワークを実装することで、生成AIの安全かつ倫理的な展開を確保しつつ、イノベーションと創造性を促進できると仮定する。

Generative Artificial Intelligence (AI) has seen mainstream adoption lately, especially in the form of consumer-facing, open-ended, text and image generating models. However, the use of such systems raises significant ethical and safety concerns, including privacy violations, misinformation and intellectual property theft. The potential for generative AI to displace human creativity and livelihoods has also been under intense scrutiny. To mitigate these risks, there is an urgent need of policies and regulations responsible and ethical development in the field of generative AI. Existing and proposed centralized regulations by governments to rein in AI face criticisms such as not having sufficient clarity or uniformity, lack of interoperability across lines of jurisdictions, restricting innovation, and hindering free market competition. Decentralized protections via crowdsourced safety tools and mechanisms are a potential alternative. However, they have clear deficiencies in terms of lack of adequacy of oversight and difficulty of enforcement of ethical and safety standards, and are thus not enough by themselves as a regulation mechanism. We propose a marriage of these two strategies via a framework we call Dual Governance. This framework proposes a cooperative synergy between centralized government regulations in a U.S. specific context and safety mechanisms developed by the community to protect stakeholders from the harms of generative AI. By implementing the Dual Governance framework, we posit that innovation and creativity can be promoted while ensuring safe and ethical deployment of generative AI.
翻訳日:2023-08-14 00:18:38 公開日:2023-08-02
# PAC-Optimal Hyper-PosteriorによるスケーラブルなPAC-Bayesianメタラーニング:理論から実践へ

Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior: From Theory to Practice ( http://arxiv.org/abs/2211.07206v2 )

ライセンス: Link先を確認
Jonas Rothfuss, Martin Josifoski, Vincent Fortuin, Andreas Krause(参考訳) Meta-Learningは、関連する学習タスクのデータセットから有用な帰納バイアスを取得することで、新しいタスクの学習プロセスを高速化することを目的としている。 実際には、利用可能な関連するタスクの数は少ないことが多いが、既存のアプローチのほとんどは、多くのタスクを前提としており、非現実的で過度に適合する傾向がある。 メタラーニング文学における中心的な疑問は、未発見のタスクへの一般化を確実にするための規則化の方法である。 本研究では,pac-ベイズ理論を用いた理論的解析を行い,rothfuss et al. (2021) によって初めて導かれたメタラーニングの一般化を提案する。 重要なことに、この境界はPACOHと呼ばれる最適超後光の閉形式を導出することができ、最高の性能保証をもたらす。 PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。 閉形式PACOHは、二段階最適化に依存しない実践的なメタラーニングアプローチを刺激し、うまくスケールする標準的な変分法に対処可能な確率的最適化問題を引き起こす。 実験の結果,PACOHをガウス過程とベイジアンニューラルネットワークモデルでインスタンス化する場合,提案手法はよりスケーラブルで,予測精度と不確実性評価の両面において最先端性能が得られることがわかった。

Meta-Learning aims to speed up the learning process on new tasks by acquiring useful inductive biases from datasets of related learning tasks. While, in practice, the number of related tasks available is often small, most of the existing approaches assume an abundance of tasks; making them unrealistic and prone to overfitting. A central question in the meta-learning literature is how to regularize to ensure generalization to unseen tasks. In this work, we provide a theoretical analysis using the PAC-Bayesian theory and present a generalization bound for meta-learning, which was first derived by Rothfuss et al. (2021). Crucially, the bound allows us to derive the closed form of the optimal hyper-posterior, referred to as PACOH, which leads to the best performance guarantees. We provide a theoretical analysis and empirical case study under which conditions and to what extent these guarantees for meta-learning improve upon PAC-Bayesian per-task learning bounds. The closed-form PACOH inspires a practical meta-learning approach that avoids the reliance on bi-level optimization, giving rise to a stochastic optimization problem that is amenable to standard variational methods that scale well. Our experiments show that, when instantiating the PACOH with Gaussian processes and Bayesian Neural Networks models, the resulting methods are more scalable, and yield state-of-the-art performance, both in terms of predictive accuracy and the quality of uncertainty estimates.
翻訳日:2023-08-07 16:31:25 公開日:2023-08-02
# 受動安定量子SWITCHの高次プロセスマトリックストモグラフィ

Higher-order Process Matrix Tomography of a passively-stable Quantum SWITCH ( http://arxiv.org/abs/2305.19386v2 )

ライセンス: Link先を確認
Michael Antesberger, Marco T\'ulio Quintino, Philip Walther, Lee A. Rozema(参考訳) 不確定因果順序(ICO)の分野は近年注目されている。 この研究の多くは、量子回路モデルを超越した方法で、複数のパーティが異なる順序の重ね合わせで作用する量子SWITCHに焦点を当てている。 これにより量子プロトコルの新しいリソースが生まれ、基礎物理学の問題との関連性に興奮する。 量子スイッチは、量子状態を変換するだけでなく、他の量子演算も変換する、高階量子演算の例でもある。 これまで、高次量子演算は完全に実験的に特徴づけられていない。 実際、量子SWITCHに関する過去の研究は、因果的証人を測定するか、資源の利点を示すことによってICOを確認したが、完全なプロセス行列は理論上のみ記述されている。 ここでは,高次量子プロセストモグラフィーを行う。 しかし、それを行うには、標準的なプロセストモグラフィーよりも低いスケーリングで指数関数的に多くの測定が必要となる。 我々は、能動光学素子を用いた新しい受動安定ファイバーベースの量子SWITCHを作成し、時間ビン符号化量子ビットを決定論的に生成・操作することで、この課題を克服する。 さらに、量子SWITCHのための新しいアーキテクチャは、容易に複数のパーティに拡張できる。 プロセスマトリックスを再構築することにより、その忠実度を推定し、実験のために直接異なる因果証を調整する。 これを実現するために、入力操作空間にまたがるトモグラフィ的に完全な設定のセットを測定する。 我々のトモグラフィープロトコルは、ICOを用いた高階量子演算のキャラクタリゼーションとデバッギングを可能にし、実験時間ビン技術はICOによる高階量子演算の新しい領域の作成を可能にする。

The field of indefinite causal order (ICO) has seen a recent surge in interest. Much of this research has focused on the quantum SWITCH, wherein multiple parties act in a superposition of different orders in a manner transcending the quantum circuit model. This results in a new resource for quantum protocols, and is exciting for its relation to issues in foundational physics. The quantum SWITCH is also an example of a higher-order quantum operation, in that it not only transforms quantum states, but also other quantum operations. To date, no higher-order quantum operation has been completely experimentally characterized. Indeed, past work on the quantum SWITCH has confirmed its ICO by measuring causal witnesses or demonstrating resource advantages, but the complete process matrix has only been described theoretically. Here, we perform higher-order quantum process tomography. However, doing so requires exponentially many measurements with a scaling worse than standard process tomography. We overcome this challenge by creating a new passively-stable fiber-based quantum SWITCH using active optical elements to deterministically generate and manipulate time-bin encoded qubits. Moreover, our new architecture for the quantum SWITCH can be readily scaled to multiple parties. By reconstructing the process matrix, we estimate its fidelity and tailor different causal witnesses directly for our experiment. To achieve this, we measure a set of tomographically complete settings, that also spans the input operation space. Our tomography protocol allows for the characterization and debugging of higher-order quantum operations with and without an ICO, while our experimental time-bin techniques could enable the creation of a new realm of higher-order quantum operations with an ICO.
翻訳日:2023-08-07 15:42:35 公開日:2023-08-02
# 構成拡散モデルによるデータ保護の訓練

Training Data Protection with Compositional Diffusion Models ( http://arxiv.org/abs/2308.01937v1 )

ライセンス: Link先を確認
Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto(参考訳) 本研究では,異なるデータソース上で異なる拡散モデル(あるいはプロンプト)を訓練し,任意に合成する手法であるpartmentalized diffusion models (cdm)を提案する。 個々のモデルは、独立して、異なる時間に、異なる分布とドメインでトレーニングでき、後にすべてのデータでトレーニングされたパラゴンモデルに匹敵するパフォーマンスを達成するために構成することができる。 さらに、各モデルにはトレーニング中に公開したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。 特に、CDMは、大規模拡散モデルに対する選択的忘れと継続学習の両方を可能にするとともに、ユーザのアクセス権に基づいてカスタマイズされたモデルを提供するための最初の方法である。 CDMはまた、特定のサンプルを生成する際のデータのサブセットの重要性を決定することができる。

We introduce Compartmentalized Diffusion Models (CDM), a method to train different diffusion models (or prompts) on distinct data sources and arbitrarily compose them at inference time. The individual models can be trained in isolation, at different times, and on different distributions and domains and can be later composed to achieve performance comparable to a paragon model trained on all data simultaneously. Furthermore, each model only contains information about the subset of the data it was exposed to during training, enabling several forms of training data protection. In particular, CDMs are the first method to enable both selective forgetting and continual learning for large-scale diffusion models, as well as allowing serving customized models based on the user's access rights. CDMs also allow determining the importance of a subset of the data in generating particular samples.
翻訳日:2023-08-07 15:12:39 公開日:2023-08-02
# 実用的なアナロジーをモデル化するにはなぜニューロシンボリックAIが必要なのか?

Why Do We Need Neuro-symbolic AI to Model Pragmatic Analogies? ( http://arxiv.org/abs/2308.01936v1 )

ライセンス: Link先を確認
Thilini Wijesiriwardene and Amit Sheth and Valerie L. Shalin and Amitava Das(参考訳) 知性の要点は、親しみやすいドメインを使って、親しみないドメイン(アナロジー推論として知られる)を推論する能力である。 本稿では,非構造化テキストで表される漸進的に複雑な類似語を扱うために,Large Language Models(LLMs)の性能について検討する。 語彙の類似点,構文的類似点,意味的類似点,実用的類似点の4つの異なるレベルでの類似点について考察する。 類似語がより複雑になるにつれて、テキストの内容を超えてより広範囲で多様な知識が必要となり、llmを駆動する語彙共起統計には見当たらない。 そこで本稿では,統計とシンボルAIを組み合わせたニューロシンボリックAI技術の導入の必要性を論じ,非構造化テキストの表現によって関連コンテンツを強調・拡張し,抽象化とマッピングプロセスのガイドを行う。 我々の知識インフォームドアプローチはLLMの効率を維持しつつ、教育的応用のアナロジーを説明する能力を維持している。

A hallmark of intelligence is the ability to use a familiar domain to make inferences about a less familiar domain, known as analogical reasoning. In this article, we delve into the performance of Large Language Models (LLMs) in dealing with progressively complex analogies expressed in unstructured text. We discuss analogies at four distinct levels of complexity: lexical analogies, syntactic analogies, semantic analogies, and pragmatic analogies. As the analogies become more complex, they require increasingly extensive, diverse knowledge beyond the textual content, unlikely to be found in the lexical co-occurrence statistics that power LLMs. To address this, we discuss the necessity of employing Neuro-symbolic AI techniques that combine statistical and symbolic AI, informing the representation of unstructured text to highlight and augment relevant content, provide abstraction and guide the mapping process. Our knowledge-informed approach maintains the efficiency of LLMs while preserving the ability to explain analogies for pedagogical applications.
翻訳日:2023-08-07 15:12:25 公開日:2023-08-02
# 超電導体の臨界温度推定のための機械学習手法の検討

Investigation on Machine Learning Based Approaches for Estimating the Critical Temperature of Superconductors ( http://arxiv.org/abs/2308.01932v1 )

ライセンス: Link先を確認
Fatin Abrar Shams, Rashed Hasan Ratul, Ahnaf Islam Naf, Syed Shaek Hossain Samir, Mirza Muntasir Nishat, Fahim Faisal and Md. Ashraful Hoque(参考訳) 超伝導の基本的な概念や臨界温度と超伝導材料の相関は、その発見以来、広範囲にわたる研究の焦点となっている。 しかし、通常の温度での超伝導体は特定されていない。 さらに、このユニークな現象、特に超伝導と臨界温度を推定するための基本的な基準の関連について、多くの未知の要因と理解のギャップがある。 このギャップを埋めるため、決定が極めて困難であるため、臨界温度を推定するために多くの機械学習技術が確立されている。 さらに、標準経験式の範囲を超えた温度範囲を決定するための洗練され実現可能な方法の必要性は、さまざまな機械学習アプローチによって強く強調されている。 本稿では,超電導材料の複雑な特性を学習し,臨界温度を正確に予測するために,積み重ね機械学習手法を用いる。 他のアクセス可能な研究と比較すると、このモデルはRMSE 9.68とR2スコア0.922で有望な性能を示した。 この結果は,ハイパーパラメータ最適化(HPO)を用いた積み重ねアンサンブル法の効率的な実装について,新たな知見を得るための有効な手法となる可能性がある。

Superconductors have been among the most fascinating substances, as the fundamental concept of superconductivity as well as the correlation of critical temperature and superconductive materials have been the focus of extensive investigation since their discovery. However, superconductors at normal temperatures have yet to be identified. Additionally, there are still many unknown factors and gaps of understanding regarding this unique phenomenon, particularly the connection between superconductivity and the fundamental criteria to estimate the critical temperature. To bridge the gap, numerous machine learning techniques have been established to estimate critical temperatures as it is extremely challenging to determine. Furthermore, the need for a sophisticated and feasible method for determining the temperature range that goes beyond the scope of the standard empirical formula appears to be strongly emphasized by various machine-learning approaches. This paper uses a stacking machine learning approach to train itself on the complex characteristics of superconductive materials in order to accurately predict critical temperatures. In comparison to other previous accessible research investigations, this model demonstrated a promising performance with an RMSE of 9.68 and an R2 score of 0.922. The findings presented here could be a viable technique to shed new insight on the efficient implementation of the stacking ensemble method with hyperparameter optimization (HPO).
翻訳日:2023-08-07 15:12:07 公開日:2023-08-02
# フォトプレソグラフィー信号特徴を用いた機械学習による糖尿病検出

Machine Learning-Based Diabetes Detection Using Photoplethysmography Signal Features ( http://arxiv.org/abs/2308.01930v1 )

ライセンス: Link先を確認
Filipe A. C. Oliveira, Felipe M. Dias, Marcelo A. F. Toledo, Diego A. C. Cardenas, Douglas A. Almeida, Estela Ribeiro, Jose E. Krieger, Marco A. Gutierrez(参考訳) 糖尿病は世界中で何百万人もの人々の健康を損なう慢性疾患である。 糖尿病の予防とコントロールには最小限の侵襲的方法が必要であるが、グルコース濃度を測定するほとんどの装置は侵襲的であり、継続的なモニタリングには適さない。 そこで本研究では,非侵襲性光胸腺撮影(PPG)による糖尿病検出の方法を提案する。 PPG信号とメタデータを用いて非糖尿病患者と糖尿病患者を分類し,ロジスティック回帰(LR)とeXtreme Gradient Boosting(XGBoost)アルゴリズムを訓練した。 公開データセットからPPG信号を使用した。 オーバーフィッティングを防止するため,クロスバリデーションのためにデータを5つに分割した。 トレーニングセット内の患者がテストセットにいないことを保証することにより、モデルのパフォーマンスを被検者のデータで評価し、一般化をより正確に評価することができる。 我々のモデルはf1-score と auc をそれぞれ$8.8\pm20.0\%、lr を$79.2\pm15.0\%、xgboost を$51.7\pm16.5\%、$3.6\pm17.0\$をそれぞれ達成した。 PPGの形態的特徴は糖尿病関連情報とメタデータを含むことが示唆された。 以上の結果から,糖尿病検出・予防のための遠隔・非侵襲・連続測定装置の開発に機械学習が有望であることが示唆された。

Diabetes is a prevalent chronic condition that compromises the health of millions of people worldwide. Minimally invasive methods are needed to prevent and control diabetes but most devices for measuring glucose levels are invasive and not amenable for continuous monitoring. Here, we present an alternative method to overcome these shortcomings based on non-invasive optical photoplethysmography (PPG) for detecting diabetes. We classify non-Diabetic and Diabetic patients using the PPG signal and metadata for training Logistic Regression (LR) and eXtreme Gradient Boosting (XGBoost) algorithms. We used PPG signals from a publicly available dataset. To prevent overfitting, we divided the data into five folds for cross-validation. By ensuring that patients in the training set are not in the testing set, the model's performance can be evaluated on unseen subjects' data, providing a more accurate assessment of its generalization. Our model achieved an F1-Score and AUC of $58.8\pm20.0\%$ and $79.2\pm15.0\%$ for LR and $51.7\pm16.5\%$ and $73.6\pm17.0\%$ for XGBoost, respectively. Feature analysis suggested that PPG morphological features contains diabetes-related information alongside metadata. Our findings are within the same range reported in the literature, indicating that machine learning methods are promising for developing remote, non-invasive, and continuous measurement devices for detecting and preventing diabetes.
翻訳日:2023-08-07 15:11:50 公開日:2023-08-02
# プロポフォールとレミフェンタニルのターゲット制御注入時の麻酔深度予測法

A Transformer-based Prediction Method for Depth of Anesthesia During Target-controlled Infusion of Propofol and Remifentanil ( http://arxiv.org/abs/2308.01929v1 )

ライセンス: Link先を確認
Yongkang He, Siyuan Peng, Mingjin Chen, Zhijing Yang, Yuanhui Chen(参考訳) ターゲット制御型輸液システムでは麻酔効果を正確に予測することが不可欠である。 Bispectral Index(BIS)予測のための従来の(PK-PD)モデルでは、手動でモデルパラメータを選択する必要がある。 近年提案されたディープラーニング手法は,一般トレンドを捉えるだけで,BISの急激な変化を予測できない。 これらの課題に対処するために,プロポフォールとレミフェンタニルの薬物注入による麻酔深度(DOA)の予測法を提案する。 本手法では,長期記憶(LSTM)とゲート残差ネットワーク(GRN)を用いて特徴核融合の効率を向上し,薬剤間の相互作用を発見するための注意機構を適用した。 データ不均衡に対処するためにラベルのスムース化や損失の再重み付けも使用しています。 実験の結果,本手法は従来のPK-PDモデルと従来の深層学習法より優れており,麻酔深度を突然および深部麻酔条件下で効果的に予測できることがわかった。

Accurately predicting anesthetic effects is essential for target-controlled infusion systems. The traditional (PK-PD) models for Bispectral index (BIS) prediction require manual selection of model parameters, which can be challenging in clinical settings. Recently proposed deep learning methods can only capture general trends and may not predict abrupt changes in BIS. To address these issues, we propose a transformer-based method for predicting the depth of anesthesia (DOA) using drug infusions of propofol and remifentanil. Our method employs long short-term memory (LSTM) and gate residual network (GRN) networks to improve the efficiency of feature fusion and applies an attention mechanism to discover the interactions between the drugs. We also use label distribution smoothing and reweighting losses to address data imbalance. Experimental results show that our proposed method outperforms traditional PK-PD models and previous deep learning methods, effectively predicting anesthetic depth under sudden and deep anesthesia conditions.
翻訳日:2023-08-07 15:11:20 公開日:2023-08-02
# MultiEM: 効率的で効果的な教師なしマルチテーブルエンティティマッチング

MultiEM: Efficient and Effective Unsupervised Multi-Table Entity Matching ( http://arxiv.org/abs/2308.01927v1 )

ライセンス: Link先を確認
Xiaocan Zeng, Pengfei Wang, Yuren Mao, Lu Chen, Xiaoze Liu, Yunjun Gao(参考訳) エンティティマッチング(EM)は、リレーショナルテーブルから同じ実世界のエンティティを参照するすべてのエンティティペアを識別することを目的としており、実世界のデータ管理システムにおいて最も重要なタスクの1つである。 EMのラベル付けプロセスは非常に労働集約的であるため、非教師なしEMは実際のシナリオでは教師なしEMよりも適用可能である。 従来の教師なしEMは、全てのエンティティは2つのテーブルから来ると仮定するが、実用アプリケーションにおける複数のテーブルのエンティティ、すなわちマルチテーブルのエンティティマッチング(multi-table EM)はより一般的である。 残念ながら、効率的で効率的なマルチテーブルemは未検討のままである。 このギャップを埋めるために、教師なしマルチテーブルエンティティマッチングの問題を正式に研究し、MultiEMと呼ばれる効率的かつ効率的なソリューションを提案する。 MultiEMは、拡張エンティティ表現、テーブルワイド階層マージ、密度ベースプルーニングの並列パイプラインである。 6つの実世界のベンチマークデータセットの大規模な実験結果から、MultiEMの有効性と効率性が示された。

Entity Matching (EM), which aims to identify all entity pairs referring to the same real-world entity from relational tables, is one of the most important tasks in real-world data management systems. Due to the labeling process of EM being extremely labor-intensive, unsupervised EM is more applicable than supervised EM in practical scenarios. Traditional unsupervised EM assumes that all entities come from two tables; however, it is more common to match entities from multiple tables in practical applications, that is, multi-table entity matching (multi-table EM). Unfortunately, effective and efficient unsupervised multi-table EM remains under-explored. To fill this gap, this paper formally studies the problem of unsupervised multi-table entity matching and proposes an effective and efficient solution, termed as MultiEM. MultiEM is a parallelable pipeline of enhanced entity representation, table-wise hierarchical merging, and density-based pruning. Extensive experimental results on six real-world benchmark datasets demonstrate the superiority of MultiEM in terms of effectiveness and efficiency.
翻訳日:2023-08-07 15:11:01 公開日:2023-08-02
# 簡単なデータ(K-Means用)

Are Easy Data Easy (for K-Means) ( http://arxiv.org/abs/2308.01926v1 )

ライセンス: Link先を確認
Mieczys{\l}aw A. K{\l}opotek(参考訳) 本稿では,$k$-meansアルゴリズムの各種ブランドによるクラスタ分離の精度向上について検討する。 ここで用いられる分別性の概念はクラスタの共通定義から直接派生しており、クラスタ内ホモジェネリティの要求とクラスタ間の多様性の間の相互作用を課している。 条件は、大域的最小の$k$-meansコスト関数が良分別性と一致するような、特別に分離されたクラスタの場合に導かれる。 実験により、$k$-meansの様々なブランドが、適切に分離されたクラスタを実際に発見できるかどうかを調べる。 彼らはそうではないことがわかった。 シードを選択する際の繰り返し {sub} サンプリングによる$k$-means++のバリエーションである新しいアルゴリズムを提案する。 この新しいアルゴリズムは、k$-meansファミリーの他の4つのアルゴリズムよりも優れている。

This paper investigates the capability of correctly recovering well-separated clusters by various brands of the $k$-means algorithm. The concept of well-separatedness used here is derived directly from the common definition of clusters, which imposes an interplay between the requirements of within-cluster-homogenicity and between-clusters-diversity. Conditions are derived for a special case of well-separated clusters such that the global minimum of $k$-means cost function coincides with the well-separatedness. An experimental investigation is performed to find out whether or no various brands of $k$-means are actually capable of discovering well separated clusters. It turns out that they are not. A new algorithm is proposed that is a variation of $k$-means++ via repeated {sub}sampling when choosing a seed. The new algorithm outperforms four other algorithms from $k$-means family on the task.
翻訳日:2023-08-07 15:10:44 公開日:2023-08-02
# 正確な空間コスト勾配を用いた高分解能水文モデルの学習地域化

Learning Regionalization within a Differentiable High-Resolution Hydrological Model using Accurate Spatial Cost Gradients ( http://arxiv.org/abs/2308.02040v1 )

ライセンス: Link先を確認
Ngo Nghi Truyen Huynh (INRAE), Pierre-Andr\'e Garambois (INRAE), Fran\c{c}ois Colleoni (INRAE), Benjamin Renard (INRAE), H\'el\`ene Roux (IMFT), Julie Demargne (HYDRIS), Pierre Javelle (INRAE)(参考訳) 未タグ漁獲物における空間分布水文パラメータの推定は, 地域化の問題であり, 放電データの空間的制約を課す必要がある。 可能なアプローチは、物理ディスクリプタと概念モデルパラメータを定量的に関連付ける転送関数を探すことである。 本稿では,多変量回帰あるいはニューラルネットワークに基づく学習可能な地域化マッピングを,異なる水文モデルに組み込んだハイブリッドデータ同化パラメータ地域化(HDA-PR)手法を提案する。 これは、正確な随伴に基づく勾配を用いて、高次元の地域化コンテキスト内の広範囲な時空間計算領域にわたる異種データセットの活用を可能にする。 逆問題は、複数の観測サイトからの情報を勘定するマルチゲージキャリブレーションコスト関数によって解決される。 HDA-PRは、フランス南部にある2つのフラッシュフロード・プロン地域の高分解能、時間、およびキロメートルの地域モデルで試験された。 どちらの研究領域においても, キャリブレーションおよび検証期間におけるナッシュ・サトクリフ効率(NSE)の中央値は, 擬似未処理部位において0.52から0.78であった。 これらの結果から,hda-prの局所化性能は良好であり,集中パラメータをキャリブレーションしたベースラインモデルと比較して最大0.57まで向上し,局所一様校正(中間nseは0.59から0.79)で得られた基準解に匹敵する性能を得ることができた。 洪水指向水文シグネチャに基づく複数の評価指標を用いて,アプローチの正確性とロバスト性を評価する。 地域化法は、運用データ同化に必要な様々な時間スケールにわたる多元データからの状態パラメータ補正に適しており、他の微分可能な物理モデルに適応可能である。

Estimating spatially distributed hydrological parameters in ungauged catchments poses a challenging regionalization problem and requires imposing spatial constraints given the sparsity of discharge data. A possible approach is to search for a transfer function that quantitatively relates physical descriptors to conceptual model parameters. This paper introduces a Hybrid Data Assimilation and Parameter Regionalization (HDA-PR) approach incorporating learnable regionalization mappings, based on either multivariate regressions or neural networks, into a differentiable hydrological model. It enables the exploitation of heterogeneous datasets across extensive spatio-temporal computational domains within a high-dimensional regionalization context, using accurate adjoint-based gradients. The inverse problem is tackled with a multi-gauge calibration cost function accounting for information from multiple observation sites. HDA-PR was tested on high-resolution, hourly and kilometric regional modeling of two flash-flood-prone areas located in the South of France. In both study areas, the median Nash-Sutcliffe efficiency (NSE) scores ranged from 0.52 to 0.78 at pseudo-ungauged sites over calibration and validation periods. These results highlight a strong regionalization performance of HDA-PR, improving NSE by up to 0.57 compared to the baseline model calibrated with lumped parameters, and achieving a performance comparable to the reference solution obtained with local uniform calibration (median NSE from 0.59 to 0.79). Multiple evaluation metrics based on flood-oriented hydrological signatures are also employed to assess the accuracy and robustness of the approach. The regionalization method is amenable to state-parameter correction from multi-source data over a range of time scales needed for operational data assimilation, and it is adaptable to other differentiable geophysical models.
翻訳日:2023-08-07 14:30:50 公開日:2023-08-02
# 類似性マッチングの可能性 - スケーラビリティ、スーパービジョン、事前トレーニング

Unlocking the Potential of Similarity Matching: Scalability, Supervision and Pre-training ( http://arxiv.org/abs/2308.02427v1 )

ライセンス: Link先を確認
Yanis Bahroun, Shagesh Sridharan, Atithi Acharya, Dmitri B. Chklovskii, Anirvan M. Sengupta(参考訳) バックプロパゲーション(BP)アルゴリズムは有効な一方で、生物学的な妥当性、計算コスト、オンライン学習に適する可能性の限界を示す。 その結果,局所的な学習ルールに依存する,生物学的に妥当な学習手法の開発への関心が高まっている。 本研究は、主に教師なしの類似性マッチング(sm)フレームワークに注目し、生物システムの観察されたメカニズムと整合し、オンライン、局所化、生物学的に妥当なアルゴリズムを提供する。 i)大規模なデータセットにSMをスケールするために,PyTorchを用いた畳み込み非負のSMの実装を提案する。 二 正規相関解析を連想させる局所教師付きSM目標を導入し、SM階層の積み重ねを容易にする。 iii) PyTorch の実装を LeNet などの事前学習アーキテクチャに適用し,BP 学習モデルとの比較を行った。 この研究は生物学的にもっともらしいアルゴリズムと計算効率を組み合わせ、さらなる探索のために複数の道を開く。

While effective, the backpropagation (BP) algorithm exhibits limitations in terms of biological plausibility, computational cost, and suitability for online learning. As a result, there has been a growing interest in developing alternative biologically plausible learning approaches that rely on local learning rules. This study focuses on the primarily unsupervised similarity matching (SM) framework, which aligns with observed mechanisms in biological systems and offers online, localized, and biologically plausible algorithms. i) To scale SM to large datasets, we propose an implementation of Convolutional Nonnegative SM using PyTorch. ii) We introduce a localized supervised SM objective reminiscent of canonical correlation analysis, facilitating stacking SM layers. iii) We leverage the PyTorch implementation for pre-training architectures such as LeNet and compare the evaluation of features against BP-trained models. This work combines biologically plausible algorithms with computational efficiency opening multiple avenues for further explorations.
翻訳日:2023-08-07 12:12:02 公開日:2023-08-02
# 時間と気候モデルアンサンブルを用いた機械学習による海面投影

Sea level Projections with Machine Learning using Altimetry and Climate Model ensembles ( http://arxiv.org/abs/2308.02460v1 )

ライセンス: Link先を確認
Saumya Sinha, John Fasullo, R. Steven Nerem, Claire Monteleoni(参考訳) 1993年以降に観測された衛星高度計の観測によれば、世界平均海面は前例のないほど上昇している(年平均3.4mm)。 約30年間の観測によって、温室効果ガス、エアロゾル、バイオマスの燃焼といった人類性気候変化のシグナルが、この上昇する海面における寄与を調査できる。 機械学習(ml)を用いて海面変化の将来のパターンを調査した。 気候変化信号からの貢献の程度を把握し,将来的な海面変動予測を支援するため,気候モデルシミュレーションに目を向ける。 この研究は、衛星観測と気候モデルシミュレーションの両方を利用して、30年後の2度解像度の空間格子で海面上昇予測を生成する機械学習フレームワークを提示する。 気候モデルヒンドキャスト(1993-2019年)の非線形融合により、完全連結ニューラルネットワーク(fcnn)を訓練し、高度計値を予測する。 学習したFCNNは将来の気候モデル予測に適用され、将来の海面パターンを予測する。 我々は,空間データセットを意味のあるクラスタに分割し,クラスタ化がMLモデルの予測の改善に役立つことを示す。

Satellite altimeter observations retrieved since 1993 show that the global mean sea level is rising at an unprecedented rate (3.4mm/year). With almost three decades of observations, we can now investigate the contributions of anthropogenic climate-change signals such as greenhouse gases, aerosols, and biomass burning in this rising sea level. We use machine learning (ML) to investigate future patterns of sea level change. To understand the extent of contributions from the climate-change signals, and to help in forecasting sea level change in the future, we turn to climate model simulations. This work presents a machine learning framework that exploits both satellite observations and climate model simulations to generate sea level rise projections at a 2-degree resolution spatial grid, 30 years into the future. We train fully connected neural networks (FCNNs) to predict altimeter values through a non-linear fusion of the climate model hindcasts (for 1993-2019). The learned FCNNs are then applied to future climate model projections to predict future sea level patterns. We propose segmenting our spatial dataset into meaningful clusters and show that clustering helps to improve predictions of our ML model.
翻訳日:2023-08-07 12:02:21 公開日:2023-08-02
# 物理学を意識した時空間ダイナミクスとテストタイムリファインメントによる乱流の再構成

Reconstructing Turbulent Flows Using Physics-Aware Spatio-Temporal Dynamics and Test-Time Refinement ( http://arxiv.org/abs/2304.12130v2 )

ライセンス: Link先を確認
Shengyu Chen, Tianshu Bao, Peyman Givi, Can Zheng, Xiaowei Jia(参考訳) 乱流のシミュレーションは、航空宇宙工学、環境科学、エネルギー産業、バイオメディシンにおける多くの社会的重要な応用にとって重要である。 大規模な渦シミュレーション(les)は、計算コストの低減により、乱流をシミュレートするための直接数値シミュレーション(dns)の代替として広く用いられている。 しかし、LESは乱流輸送の全てのスケールを正確に捉えることができない。 低分解能LESからDNSを再構成することは、多くの科学・工学分野において重要であるが、乱流の時空間的複雑さのために既存の超解像法に多くの課題をもたらす。 本研究では,低分解能LESデータからシーケンシャルDNSを再構成する物理誘導型ニューラルネットワークを提案する。 提案手法は,時空間モデル設計における流れの力学を基礎とする偏微分方程式を利用する。 また, 物理的制約を強制し, 長期にわたって蓄積した復元誤差を更に低減するために, 劣化に基づく改良法も開発されている。 2種類の乱流データから,高分解能DNSデータの再構成および流動輸送の物理的特性の保存において,提案手法の優位性を確認した。

Simulating turbulence is critical for many societally important applications in aerospace engineering, environmental science, the energy industry, and biomedicine. Large eddy simulation (LES) has been widely used as an alternative to direct numerical simulation (DNS) for simulating turbulent flows due to its reduced computational cost. However, LES is unable to capture all of the scales of turbulent transport accurately. Reconstructing DNS from low-resolution LES is critical for many scientific and engineering disciplines, but it poses many challenges to existing super-resolution methods due to the spatio-temporal complexity of turbulent flows. In this work, we propose a new physics-guided neural network for reconstructing the sequential DNS from low-resolution LES data. The proposed method leverages the partial differential equation that underlies the flow dynamics in the design of spatio-temporal model architecture. A degradation-based refinement method is also developed to enforce physical constraints and further reduce the accumulated reconstruction errors over long periods. The results on two different types of turbulent flow data confirm the superiority of the proposed method in reconstructing the high-resolution DNS data and preserving the physical characteristics of flow transport.
翻訳日:2023-08-04 19:47:50 公開日:2023-08-02
# フロッケ符号における量子セルオートマトンと異常の測定

Measurement Quantum Cellular Automata and Anomalies in Floquet Codes ( http://arxiv.org/abs/2304.01277v2 )

ライセンス: Link先を確認
David Aasen, Jeongwan Haah, Zhi Li, Roger S. K. Mong(参考訳) パウリ測定回路における量子情報の進化について検討する。 本稿では,最近導入されたFloquetトポロジカルコードに関連する1次元および2次元システムについて述べる。 測定回路の文脈で局所可逆性を定義し, 同様の足場上の有限深度計測回路を有限深度ユニタリ回路に扱えるようにした。 ユニタリの場合とは対照的に、有限深さ局所可逆測定回路は1次元の変換を実装できる。 2次元の局所可逆測定回路は、境界に沿って論理情報の流れを誘導することもある。 本稿では,これらの概念を統一し,論理演算子のフローを特徴づける指標を1次元で定義する「測定量子セルオートマトン」を提案する。 2次元フロッケ位相符号に対する$\mathbb{z}_2$ bulk不変量は、自明な境界を持つことの障害を示す。 我々は、Hastings-Haah ハニカム符号がそのような障害のあるクラスに属することを証明し、任意の境界は非局所力学、周期倍、あるいは量子情報の異常な境界フローを持つ必要があることを意味する。

We investigate the evolution of quantum information under Pauli measurement circuits. We focus on the case of one- and two-dimensional systems, which are relevant to the recently introduced Floquet topological codes. We define local reversibility in context of measurement circuits, which allows us to treat finite depth measurement circuits on a similar footing to finite depth unitary circuits. In contrast to the unitary case, a finite depth locally reversible measurement circuit can implement a translation in one dimension. A locally reversible measurement circuit in two dimensions may also induce a flow of logical information along the boundary. We introduce "measurement quantum cellular automata" which unifies these ideas and define an index in one dimension to characterize the flow of logical operators. We find a $\mathbb{Z}_2$ bulk invariant for two-dimensional Floquet topological codes which indicates an obstruction to having a trivial boundary. We prove that the Hastings-Haah honeycomb code belongs to a class with such obstruction, which means that any boundary must have either nonlocal dynamics, period doubled, or admits anomalous boundary flow of quantum information.
翻訳日:2023-08-04 19:47:00 公開日:2023-08-02
# Taylor Remainderシリーズの自動バウンド:タイターバウンドと新しい応用

Automatically Bounding the Taylor Remainder Series: Tighter Bounds and New Applications ( http://arxiv.org/abs/2212.11429v3 )

ライセンス: Link先を確認
Matthew Streeter and Joshua V. Dillon(参考訳) テイラー剰余級数を自動的に有界化する新しいアルゴリズムを提案する。 スカラー関数 $f: \mathbb{R} \to \mathbb{R}$ の特別な場合、我々のアルゴリズムは基準点 $x_0$, Trust region $[a, b]$, and integer $k \ge 1$ を入力とし、$f(x)\sum_{i=0}^{k-1} \frac {1} {i! f^{(i)}(x_0) (x - x_0)^i \in i (x - x_0)^k$ すべての$x \in [a, b]$。 自動微分と同様に、関数 $f$ はシンボリックな形でアルゴリズムに提供され、既知の原子関数で構成されなければならない。 高いレベルでは、我々のアルゴリズムには2つのステップがある。 まず、様々なよく使われる基本関数(例えば$\exp$, $\log$)に対して、最近開発された理論を用いてテイラー剰余級数上の鋭い多項式上と下界を導出する。 次に、テイラーモード自動微分のインターバル算術変種を用いて基本関数の有界を再帰的に結合する。 我々のアルゴリズムは機械学習ハードウェアアクセラレータを効率的に利用することができ、JAXでオープンソース実装を提供する。 そして、アプリケーションに注意を向けます。 最も注目すべきは、我々の新しい機械を用いて、最初の普遍的偏極最小化最適化アルゴリズム(手ではなく自動で導出する乗算器を用いて任意の損失を反復的に最小化するアルゴリズム)を作成することである。 また,全球最適化と数値積分を検証し,jensenの不等式をより鋭いバージョンで証明できることを示す。

We present a new algorithm for automatically bounding the Taylor remainder series. In the special case of a scalar function $f: \mathbb{R} \to \mathbb{R}$, our algorithm takes as input a reference point $x_0$, trust region $[a, b]$, and integer $k \ge 1$, and returns an interval $I$ such that $f(x) - \sum_{i=0}^{k-1} \frac {1} {i!} f^{(i)}(x_0) (x - x_0)^i \in I (x - x_0)^k$ for all $x \in [a, b]$. As in automatic differentiation, the function $f$ is provided to the algorithm in symbolic form, and must be composed of known atomic functions. At a high level, our algorithm has two steps. First, for a variety of commonly-used elementary functions (e.g., $\exp$, $\log$), we use recently-developed theory to derive sharp polynomial upper and lower bounds on the Taylor remainder series. We then recursively combine the bounds for the elementary functions using an interval arithmetic variant of Taylor-mode automatic differentiation. Our algorithm can make efficient use of machine learning hardware accelerators, and we provide an open source implementation in JAX. We then turn our attention to applications. Most notably, in a companion paper we use our new machinery to create the first universal majorization-minimization optimization algorithms: algorithms that iteratively minimize an arbitrary loss using a majorizer that is derived automatically, rather than by hand. We also show that our automatically-derived bounds can be used for verified global optimization and numerical integration, and to prove sharper versions of Jensen's inequality.
翻訳日:2023-08-04 19:45:50 公開日:2023-08-02
# 後継機能型ニューラルエピソード制御

Successor Feature Neural Episodic Control ( http://arxiv.org/abs/2111.03110v2 )

ライセンス: Link先を確認
David Emukpere, Xavier Alameda-Pineda and Chris Reinke(参考訳) 強化学習の長年の目標は、高速学習と人間や動物に似た柔軟なスキルの移譲を示すインテリジェントエージェントを構築することである。 本稿では,これらの目標に取り組むための2つのフレームワークの統合について検討する。 エピソディック制御は、エージェントの体験のインスタンスベースメモリモデルであるエピソディックメモリに依存する認知的にインスパイアされたアプローチである。 一方、後継機能と一般化されたポリシー改善(SF&GPI)は、異なる報酬関数を持つ後続のタスクに対して効率的に再利用可能なタスクのポリシーを学習するためのメタおよび転送学習フレームワークである。 これら2つのテクニックは、サンプル効率を大幅に改善し、以前に学習されたポリシーのエレガントな再利用を実現した。 そこで本研究では,両手法の組み合わせを単一の強化学習フレームワークで概説し,その利点を実証的に示す。

A longstanding goal in reinforcement learning is to build intelligent agents that show fast learning and a flexible transfer of skills akin to humans and animals. This paper investigates the integration of two frameworks for tackling those goals: episodic control and successor features. Episodic control is a cognitively inspired approach relying on episodic memory, an instance-based memory model of an agent's experiences. Meanwhile, successor features and generalized policy improvement (SF&GPI) is a meta and transfer learning framework allowing to learn policies for tasks that can be efficiently reused for later tasks which have a different reward function. Individually, these two techniques have shown impressive results in vastly improving sample efficiency and the elegant reuse of previously learned policies. Thus, we outline a combination of both approaches in a single reinforcement learning framework and empirically illustrate its benefits.
翻訳日:2023-08-04 17:44:44 公開日:2023-08-02
# フィードバックのないhebbian deep learning

Hebbian Deep Learning Without Feedback ( http://arxiv.org/abs/2209.11883v2 )

ライセンス: Link先を確認
Adrien Journ\'e, Hector Garcia Rodriguez, Qinghai Guo, Timoleon Moraitis(参考訳) 近年のバックプロパゲーション(BP)に対する近似は、BPの計算的非効率性や生物学との非互換性の多くを緩和しているが、重要な制限は依然として残っている。 さらに、この近似はベンチマークの精度を著しく低下させ、全く異なるアプローチがより実りある可能性を示唆している。 ここでは,ソフト・ウィナー・テイク・オール・ネットワークにおける最近のヘビー学習理論を基礎として,多層型ソフトヘビー,すなわち,フィードバックや目標,エラー信号なしにディープニューラルネットワークを訓練するアルゴリズムを提案する。 結果として、重量輸送、非局所的な塑性、レイヤ更新の時間ロック、反復平衡、(自己)監督など他のアプローチで必要とされたフィードバック信号などを回避することで効率を向上する。 効率の向上と生体適合性は、最先端のバイオ・プルーシブル・ラーニングよりも正確さをトレードオフするものではなく、改善する。 最大5つの隠蔽層と線形分類器、MNIST、CIFAR-10、STL-10、ImageNetのアキュラシーはそれぞれ99.4%、80.3%、76.2%、27.3%に達する。 結論として、SoftHebbはBPとは大きく異なるアプローチで、Deep Learningは少数の層で脳内でもっとも有用であり、生物解析可能な機械学習の精度を高める可能性があることを示している。 コードはhttps://github.com/NeuromorphicComputing/SoftHebbで入手できる。

Recent approximations to backpropagation (BP) have mitigated many of BP's computational inefficiencies and incompatibilities with biology, but important limitations still remain. Moreover, the approximations significantly decrease accuracy in benchmarks, suggesting that an entirely different approach may be more fruitful. Here, grounded on recent theory for Hebbian learning in soft winner-take-all networks, we present multilayer SoftHebb, i.e. an algorithm that trains deep neural networks, without any feedback, target, or error signals. As a result, it achieves efficiency by avoiding weight transport, non-local plasticity, time-locking of layer updates, iterative equilibria, and (self-) supervisory or other feedback signals -- which were necessary in other approaches. Its increased efficiency and biological compatibility do not trade off accuracy compared to state-of-the-art bio-plausible learning, but rather improve it. With up to five hidden layers and an added linear classifier, accuracies on MNIST, CIFAR-10, STL-10, and ImageNet, respectively reach 99.4%, 80.3%, 76.2%, and 27.3%. In conclusion, SoftHebb shows with a radically different approach from BP that Deep Learning over few layers may be plausible in the brain and increases the accuracy of bio-plausible machine learning. Code is available at https://github.com/NeuromorphicComputing/SoftHebb.
翻訳日:2023-08-04 17:36:03 公開日:2023-08-02
# 可変時間量子探索のための改良アルゴリズムと低境界

Improved Algorithm and Lower Bound for Variable Time Quantum Search ( http://arxiv.org/abs/2302.06749v3 )

ライセンス: Link先を確認
Andris Ambainis, Martins Kokainis, Jevg\=enijs Vihrovs(参考訳) 変数時間探索は、異なる項目に対するクエリに異なる時間を要する量子探索の形式である。 我々の最初の結果は、複雑さを持つ変数時間探索を行う新しい量子アルゴリズムである$O(\sqrt{T}\log n)$ where $T=\sum_{i=1}^n t_i^2$ with $t_i$。 2つ目の結果は、$\Omega(\sqrt{T\log T})$の量子下界である。 アルゴリズムと下限は、従来知られていた結果に対して$\sqrt{\log t}$という係数で改善されるが、アルゴリズムは従来知られていた量子アルゴリズムよりも大幅に単純である。

We study variable time search, a form of quantum search where queries to different items take different time. Our first result is a new quantum algorithm that performs variable time search with complexity $O(\sqrt{T}\log n)$ where $T=\sum_{i=1}^n t_i^2$ with $t_i$ denoting the time to check the $i$-th item. Our second result is a quantum lower bound of $\Omega(\sqrt{T\log T})$. Both the algorithm and the lower bound improve over previously known results by a factor of $\sqrt{\log T}$ but the algorithm is also substantially simpler than the previously known quantum algorithms.
翻訳日:2023-08-04 17:14:57 公開日:2023-08-02
# カーネルリッジ回帰のためのロバスト・ランダム化プレコンディショニング

Robust, randomized preconditioning for kernel ridge regression ( http://arxiv.org/abs/2304.12465v3 )

ライセンス: Link先を確認
Mateo D\'iaz, Ethan N. Epperly, Zachary Frangella, Joel A. Tropp, and Robert J. Webber(参考訳) 本稿では,カーネルリッジ回帰(KRR)問題を中~多量のデータポイント(10^4 \leq N \leq 10^7$)で頑健に解くための2つのランダム化プレコンディショニング手法を提案する。 最初の方法であるRPCholeskyプレコンディショニングは、カーネル行列固有値の十分速い多項式減衰を仮定して、$O(N^2)$算術演算で全データKRR問題を正確に解くことができる。 2つ目の方法、KRILLプリコンディショニングは、$k \ll N$選択されたデータセンターを$O((N + k^2) k \log k)の演算で制限されたバージョンのKRR問題に対する正確な解決策を提供する。 提案手法は,様々なKRR問題を解くとともに,従来のKRRプリコンディショナーの故障モードを克服し,実用化に最適である。

This paper introduces two randomized preconditioning techniques for robustly solving kernel ridge regression (KRR) problems with a medium to large number of data points ($10^4 \leq N \leq 10^7$). The first method, RPCholesky preconditioning, is capable of accurately solving the full-data KRR problem in $O(N^2)$ arithmetic operations, assuming sufficiently rapid polynomial decay of the kernel matrix eigenvalues. The second method, KRILL preconditioning, offers an accurate solution to a restricted version of the KRR problem involving $k \ll N$ selected data centers at a cost of $O((N + k^2) k \log k)$ operations. The proposed methods solve a broad range of KRR problems and overcome the failure modes of previous KRR preconditioners, making them ideal for practical applications.
翻訳日:2023-08-04 16:56:03 公開日:2023-08-02
# パンデミックのパルスを感知する:ソーシャルメディアによる公衆の感情に対する認知的格差のジオビジュアル化

Sensing the Pulse of the Pandemic: Geovisualizing the Demographic Disparities of Public Sentiment toward COVID-19 through Social Media ( http://arxiv.org/abs/2304.06120v2 )

ライセンス: Link先を確認
Binbin Lina, Lei Zoua, Bo Zhao, Xiao Huang, Heng Cai, Mingzheng Yang, and Bing Zhou(参考訳) ソーシャルメディアは、重要な出来事に対するユーザの反応の大規模な時空間パターンを観察するためのユニークなレンズを提供する。 しかし、ソーシャルメディアの利用は人口層によって異なり、若年ユーザーの方が高齢ユーザーより多い。 この違いはデータの代表性にバイアスをもたらし、適切な調整のないソーシャルメディアに基づく分析は、デジタル的に限界化されたコミュニティの声と不正確な見積もりを過小評価することになる。 本研究は、Twitterデータを用いて、COVID-19に関する一般の感情を推定するケーススタディを通じて、ソーシャルメディア分析における人口統計バイアスをピンポイント化し緩和するソリューションを探る。 我々は、2020-2021年の米国におけるパンデミックに関連するTwitterのデータを分析し、(1)人口集団間の不均一なソーシャルメディア利用と、彼らの新型コロナウイルスに対する感情の格差を解明し、(2)ソーシャルメディアに基づく調整された世論評価尺度、SAD指数を構築し、時空間的なCOVID-19に対する世論の時空間的変化を評価する。 その結果、女性や青少年のTwitterユーザーは、新型コロナウイルスに対する否定的な感情を表明している。 同指数は、新型コロナウイルス(covid-19)に対する世論が2020年1月と2月に最もネガティブで、2020年4月に最もポジティブだったことを明らかにした。 バーモント州とワイオミング州は、新型コロナウイルスに対する最も肯定的で否定的な州だった。

Social media offers a unique lens to observe large-scale, spatial-temporal patterns of users reactions toward critical events. However, social media use varies across demographics, with younger users being more prevalent compared to older populations. This difference introduces biases in data representativeness, and analysis based on social media without proper adjustment will lead to overlooking the voices of digitally marginalized communities and inaccurate estimations. This study explores solutions to pinpoint and alleviate the demographic biases in social media analysis through a case study estimating the public sentiment about COVID-19 using Twitter data. We analyzed the pandemic-related Twitter data in the U.S. during 2020-2021 to (1) elucidate the uneven social media usage among demographic groups and the disparities of their sentiments toward COVID-19, (2) construct an adjusted public sentiment measurement based on social media, the Sentiment Adjusted by Demographics (SAD) index, to evaluate the spatiotemporal varying public sentiment toward COVID-19. The results show higher proportions of female and adolescent Twitter users expressing negative emotions to COVID-19. The SAD index unveils that the public sentiment toward COVID-19 was most negative in January and February 2020 and most positive in April 2020. Vermont and Wyoming were the most positive and negative states toward COVID-19.
翻訳日:2023-08-04 16:54:52 公開日:2023-08-02
# Model Sparsityは機械学習を単純化する

Model Sparsity Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v7 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制要件に応えて、マシンアンラーニング(MU)は、特定のモデルから特定のサンプルの影響を取り除く重要なプロセスとして登場した。 正確なアンラーニングは、残りのデータセットを使った完全なモデルのリトレーニングによって達成できるが、関連する計算コストは、効率的で近似的なアンラーニング技術の開発につながった。 我々の研究は、データ中心のMUアプローチを超えて、新しいモデルベース視点、すなわちウェイトプルーニングによるモデルスペーシフィケーションを導入し、正確なアンラーニングと近似アンラーニングのギャップを減らすことができる。 モデルスパーシリティは、近似的アンラーナーのマルチ基準アンラーニング性能を高め、近似ギャップを閉じながら効率を保ち続けることを理論と実践の両方で示している。 これは新しいMUパラダイムにつながり、まずはPrune、次にはUnlearnと呼ばれ、未学習のプロセスにスパースモデルを注入する。 この知見に基づいて,スパルシティ正規化を利用したスパルシリティ対応学習手法を開発し,近似学習の学習プロセスを強化する。 広範な実験により、我々の提案は様々な未学習シナリオにおいて一貫してmに利益をもたらすことが示された。 77%の未学習の有効性向上(最も単純な未学習手法の1つ)が、スパーシティーを意識した未学習の使用において注目されている。 さらに,バックドア攻撃に対する防御や移動学習の強化など,機械学習の他の課題に対処する上で,提案手法の実践的影響を示す。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

In response to recent data regulation requirements, machine unlearning (MU) has emerged as a critical process to remove the influence of specific examples from a given model. Although exact unlearning can be achieved through complete model retraining using the remaining dataset, the associated computational costs have driven the development of efficient, approximate unlearning techniques. Moving beyond data-centric MU approaches, our study introduces a novel model-based perspective: model sparsification via weight pruning, which is capable of reducing the gap between exact unlearning and approximate unlearning. We show in both theory and practice that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. This leads to a new MU paradigm, termed prune first, then unlearn, which infuses a sparse model prior into the unlearning process. Building on this insight, we also develop a sparsity-aware unlearning method that utilizes sparsity regularization to enhance the training process of approximate unlearning. Extensive experiments show that our proposals consistently benefit MU in various unlearning scenarios. A notable highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest unlearning methods) when using sparsity-aware unlearning. Furthermore, we demonstrate the practical impact of our proposed MU methods in addressing other machine learning challenges, such as defending against backdoor attacks and enhancing transfer learning. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-08-04 16:54:27 公開日:2023-08-02
# OpenAGI: LLMがドメインエキスパートと出会ったとき

OpenAGI: When LLM Meets Domain Experts ( http://arxiv.org/abs/2304.04370v5 )

ライセンス: Link先を確認
Yingqiang Ge, Wenyue Hua, Kai Mei, Jianchao Ji, Juntao Tan, Shuyuan Xu, Zelong Li, Yongfeng Zhang(参考訳) ヒューマンインテリジェンスは、複雑なタスクを解決するための基本的なスキルの組み合わせに長けている。 この能力は人工知能(AI)にとって不可欠であり、包括的なインテリジェントモデルに組み込まれるべきであり、AI(Artificial General Intelligence)に向けた複雑なタスク解決のためのエキスパートモデルを活用することができる。 大規模言語モデル(llm)は有望な学習能力と推論能力を示し、外部モデルやツール、apiを効果的に活用して複雑な問題に取り組むことができる。 本研究では,マルチステップ実世界のタスク用に設計されたオープンソースのAGI研究プラットフォームであるOpenAGIを紹介する。 特にopenagiでは,ベンチマークと評価のための標準ベンチマークタスクと,より拡張可能なモデルやツール,あるいは創造的な問題解決のためのapiを含むオープンエンドタスクの統合という,2つの戦略を採用している。 タスクはLLMに自然言語クエリとして表示され、適切なモデルを選択し実行します。 また,タスクフィードバック(rltf)機構からの強化学習を提案し,タスク結果を用いてllmの能力を改善し,自己改善型aiフィードバックループを作成する。 我々は、AGIが一意に定義された解決経路を持たない、広く多面的な研究課題であることを認めているが、LLMとドメイン固有の専門家モデルの統合は、人間における一般知能と専門知能の混在を反映したものであり、AGIに対する有望なアプローチである。 私たちは、openagiプロジェクトのコード、データセット、ベンチマーク、評価メソッド、デモをオープンソース化し、agiの進歩へのコミュニティの関与を促進しています。

Human intelligence excels at combining basic skills to solve complex tasks. This capability is vital for Artificial Intelligence (AI) and should be embedded in comprehensive intelligent models, enabling them to harness expert models for complex task-solving towards Artificial General Intelligence (AGI). Large Language Models (LLMs) show promising learning and reasoning abilities, and can effectively use external models, tools or APIs to tackle complex problems. In this work, we introduce OpenAGI, an open-source AGI research platform designed for multi-step, real-world tasks. Specifically, OpenAGI uses a dual strategy, integrating standard benchmark tasks for benchmarking and evaluation, and open-ended tasks including more expandable models, tools or APIs for creative problem-solving. Tasks are presented as natural language queries to the LLM, which then selects and executes appropriate models. We also propose a Reinforcement Learning from Task Feedback (RLTF) mechanism that uses task results to improve the LLM's ability, which creates a self-improving AI feedback loop. While we acknowledge that AGI is a broad and multifaceted research challenge with no singularly defined solution path, the integration of LLMs with domain-specific expert models, inspired by mirroring the blend of general and specialized intelligence in humans, offers a promising approach towards AGI. We are open-sourcing the OpenAGI project's code, dataset, benchmarks, evaluation methods, and demo to foster community involvement in AGI advancement: https://github.com/agiresearch/OpenAGI.
翻訳日:2023-08-04 16:54:00 公開日:2023-08-02
# NFT市場における異常取引検出

Abnormal Trading Detection in the NFT Market ( http://arxiv.org/abs/2306.04643v2 )

ライセンス: Link先を確認
Mingxiao Song and Yunsong Liu and Agam Shah and Sudheer Chava(参考訳) 非Fungible-Token(NFT)市場は近年爆発的な成長を遂げている。 DappRadarによると、世界最大のNTTマーケットプレースであるOpenSeaの取引額は2023年2月に3470億ドルに達した。 しかし、NFT市場はほとんどが規制されておらず、マネーロンダリング、詐欺、洗浄取引に関して大きな懸念がある。 業界全体の規制の欠如、アマチュアトレーダーや小売投資家がNTT市場のかなりの部分を占めているという事実により、この市場は特に不正行為に弱い。 したがって、NFT取引に関わるリスクを調査し、強調することが不可欠である。 本稿では,他の取引業者を誤解させるおそれのある洗剤取引など,一般的な不正行為を明らかにすることを試みた。 市場データを用いて,k-meansクラスタリング非教師付き学習アルゴリズムに供給されたネットワーク,金融,時間的視点から,トレーダーをグループに分類する定量的特徴を設計した。 最後に、クラスタリング結果の意義と規制が望ましくない振る舞いを減らす方法について論じる。 我々の取り組みは、規制当局が市場の悪役の検索スペースを狭めるだけでなく、アマチュアトレーダーが予期せぬ詐欺から身を守るための洞察を提供するのに役立つかもしれない。

The Non-Fungible-Token (NFT) market has experienced explosive growth in recent years. According to DappRadar, the total transaction volume on OpenSea, the largest NFT marketplace, reached 34.7 billion dollars in February 2023. However, the NFT market is mostly unregulated and there are significant concerns about money laundering, fraud and wash trading. The lack of industry-wide regulations, and the fact that amateur traders and retail investors comprise a significant fraction of the NFT market, make this market particularly vulnerable to fraudulent activities. Therefore it is essential to investigate and highlight the relevant risks involved in NFT trading. In this paper, we attempted to uncover common fraudulent behaviors such as wash trading that could mislead other traders. Using market data, we designed quantitative features from the network, monetary, and temporal perspectives that were fed into K-means clustering unsupervised learning algorithm to sort traders into groups. Lastly, we discussed the clustering results' significance and how regulations can reduce undesired behaviors. Our work can potentially help regulators narrow down their search space for bad actors in the market as well as provide insights for amateur traders to protect themselves from unforeseen frauds.
翻訳日:2023-08-04 16:48:07 公開日:2023-08-02
# オーディオ・ビジュアル深層学習を用いた実時間アイドリング車検出

Real-Time Idling Vehicles Detection using Combined Audio-Visual Deep Learning ( http://arxiv.org/abs/2305.14579v2 )

ライセンス: Link先を確認
Xiwen Li, Tristalee Mangin, Surojit Saha, Evan Blanchard, Dillon Tang, Henry Poppe, Nathan Searle, Ouk Choi, Kerry Kelly, and Ross Whitaker(参考訳) 燃焼車両の排出は空気の質が悪く、大気中に温室効果ガスを放出する要因となり、自動車の汚染は多くの有害な健康影響と関係している。 学校や病院の降車ゾーンなど、広範な待合室や乗客の降車を伴う道路は、アイドリング車両の発生率と密度を上昇させる可能性がある。 これにより自動車の大気汚染が増大する。 したがって、アイドリング車両の検出は不要なアイドリングの監視と対応に役立ち、結果として生じる汚染に対処するためにリアルタイムまたはオフラインのシステムに統合することができる。 本稿では,実時間,動的車両アイドリング検出アルゴリズムを提案する。 提案するアイドル検出アルゴリズムと通知は、これらのアイドル車両を検出するアルゴリズムに依存している。 提案手法は、マルチセンサー、オーディオビジュアル、機械学習ワークフローを使用して、移動、エンジンオンによる静的、エンジンオフによる静的の3つの条件下で、アイドル車両を視覚的に検出する。 視覚車両運動検出装置は第1段に構築され、次にコントラスト学習に基づく潜在空間を訓練して静的車両エンジン音の分類を行う。 我々はソルトレイクシティの病院の退院地点でリアルタイムでシステムをテストする。 このデータセットは収集され、注釈付けされ、さまざまなモデルとタイプを含む。 実験により, エンジンのオン/オフを瞬時に検出し, アイドル検出の平均精度を71.02, エンジンオフ検出を91.06とした。

Combustion vehicle emissions contribute to poor air quality and release greenhouse gases into the atmosphere, and vehicle pollution has been associated with numerous adverse health effects. Roadways with extensive waiting and/or passenger drop off, such as schools and hospital drop-off zones, can result in high incidence and density of idling vehicles. This can produce micro-climates of increased vehicle pollution. Thus, the detection of idling vehicles can be helpful in monitoring and responding to unnecessary idling and be integrated into real-time or off-line systems to address the resulting pollution. In this paper we present a real-time, dynamic vehicle idling detection algorithm. The proposed idle detection algorithm and notification rely on an algorithm to detect these idling vehicles. The proposed method relies on a multi-sensor, audio-visual, machine-learning workflow to detect idling vehicles visually under three conditions: moving, static with the engine on, and static with the engine off. The visual vehicle motion detector is built in the first stage, and then a contrastive-learning-based latent space is trained for classifying static vehicle engine sound. We test our system in real-time at a hospital drop-off point in Salt Lake City. This in-situ dataset was collected and annotated, and it includes vehicles of varying models and types. The experiments show that the method can detect engine switching on or off instantly and achieves 71.02 average precision (AP) for idle detections and 91.06 for engine off detections.
翻訳日:2023-08-04 16:47:04 公開日:2023-08-02
# AnyTeleop: 汎用ビジョンベースのデクスタースロボットアームハンド遠隔操作システム

AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System ( http://arxiv.org/abs/2307.04577v2 )

ライセンス: Link先を確認
Yuzhe Qin, Wei Yang, Binghao Huang, Karl Van Wyk, Hao Su, Xiaolong Wang, Yu-Wei Chao, Dieter Fox(参考訳) 視覚ベースの遠隔操作は、ロボットに人間レベルの知性を与え、環境と物理的に相互作用させることができる。 しかし、現在のビジョンベースの遠隔操作システムは、特定のロボットモデルと展開環境に向けて設計・設計されており、ロボットモデルのプールが拡大し、運用環境の多様性が増すにつれて、スケールが低くなる。 本稿では,複数の腕,手,実物,カメラ構成を単一のシステムでサポートする,統一的で汎用的な遠隔操作システムanyteleopを提案する。 シミュレータと実際のハードウェアの選択に優れた柔軟性を提供するように設計されているが、我々のシステムは依然として優れた性能を達成できる。 実際の実験では、AnyTeleopは、同じロボットを使って、より高い成功率で特定のロボットハードウェア用に設計された以前のシステムより優れている。 シミュレーションにおける遠隔操作では、AnyTeleopはそのシミュレータ用に特別に設計された以前のシステムと比較して、模倣学習のパフォーマンスが向上する。 プロジェクトページ: http://anyteleop.com/

Vision-based teleoperation offers the possibility to endow robots with human-level intelligence to physically interact with the environment, while only requiring low-cost camera sensors. However, current vision-based teleoperation systems are designed and engineered towards a particular robot model and deploy environment, which scales poorly as the pool of the robot models expands and the variety of the operating environment increases. In this paper, we propose AnyTeleop, a unified and general teleoperation system to support multiple different arms, hands, realities, and camera configurations within a single system. Although being designed to provide great flexibility to the choice of simulators and real hardware, our system can still achieve great performance. For real-world experiments, AnyTeleop can outperform a previous system that was designed for a specific robot hardware with a higher success rate, using the same robot. For teleoperation in simulation, AnyTeleop leads to better imitation learning performance, compared with a previous system that is particularly designed for that simulator. Project page: http://anyteleop.com/.
翻訳日:2023-08-04 16:37:42 公開日:2023-08-02
# バンディットフィードバックの最も近い隣人

Nearest Neighbour with Bandit Feedback ( http://arxiv.org/abs/2306.13773v2 )

ライセンス: Link先を確認
Stephen Pasteris, Chris Hicks, Vasilios Mavroudis(参考訳) 本稿では,最寄りの隣接規則を文脈的バンディット問題に適用する。 当社のアルゴリズムは,データ生成プロセスに関する仮定がまったくない,完全に敵対的な設定を処理します。 ナビゲーティングネットのような(おそらく近似的な)適応的近距離探索のための十分高速なデータ構造と組み合わせると、アルゴリズムは非常に効率的で、試行数とアクションの両方において試行時間当たりの多対数を持ち、準線形空間のみを取る。

In this paper we adapt the nearest neighbour rule to the contextual bandit problem. Our algorithm handles the fully adversarial setting in which no assumptions at all are made about the data-generation process. When combined with a sufficiently fast data-structure for (perhaps approximate) adaptive nearest neighbour search, such as a navigating net, our algorithm is extremely efficient - having a per trial running time polylogarithmic in both the number of trials and actions, and taking only quasi-linear space.
翻訳日:2023-08-04 16:36:21 公開日:2023-08-02
# 0-1損失線形分類問題に対する効率的、確証的、実用的なアルゴリズム

An efficient, provably exact, practical algorithm for the 0-1 loss linear classification problem ( http://arxiv.org/abs/2306.12344v2 )

ライセンス: Link先を確認
Xi He, Waheed Ul Rahman, Max A. Little(参考訳) 線形分類問題を解くアルゴリズムには長い歴史があり、少なくとも1936年に線形判別解析で遡る。 線形分離可能なデータの場合、多くのアルゴリズムは対応する0-1損失分類問題の正確な解を効率的に得ることができるが、線形分離できないデータに対しては、この問題が完全一般性においてnpハードであることが示されている。 別のアプローチでは、0-1 の損失(ヒンジやロジスティックの損失など)に対するサロゲートの使用や近似組合せ探索など、何らかの近似を含む。 固定次元の 0-1 損失線形分類問題に対して、正確な解を得るための効率的なアルゴリズムを見つけることは、未解決の問題である。 本報告では, 多項式時間で 0-1 の損失分類問題を正確に解くための新しいアルゴリズムであるインクリメンタルセル列挙法(ice)の厳密な構成について詳述する。 我々は超平面配置理論と配向マトロイドの概念を用いて正当性を証明する。 本アルゴリズムを合成および実世界のデータセット上での有効性を実証し,実時間において,サンプル内およびアウト・オブ・サンプルの両方において最適な精度を示す。 また, 近似上界の使用が, 精度を維持しつつ, 多項式時間での実行時間の改善につながることを実証的に示す。 我々の知る限り、これはこの長年の問題に対して、厳密に証明された多項式時間、実用的なアルゴリズムである。

Algorithms for solving the linear classification problem have a long history, dating back at least to 1936 with linear discriminant analysis. For linearly separable data, many algorithms can obtain the exact solution to the corresponding 0-1 loss classification problem efficiently, but for data which is not linearly separable, it has been shown that this problem, in full generality, is NP-hard. Alternative approaches all involve approximations of some kind, including the use of surrogates for the 0-1 loss (for example, the hinge or logistic loss) or approximate combinatorial search, none of which can be guaranteed to solve the problem exactly. Finding efficient algorithms to obtain an exact i.e. globally optimal solution for the 0-1 loss linear classification problem with fixed dimension, remains an open problem. In research we report here, we detail the rigorous construction of a new algorithm, incremental cell enumeration (ICE), that can solve the 0-1 loss classification problem exactly in polynomial time. We prove correctness using concepts from the theory of hyperplane arrangements and oriented matroids. We demonstrate the effectiveness of this algorithm on synthetic and real-world datasets, showing optimal accuracy both in and out-of-sample, in practical computational time. We also empirically demonstrate how the use of approximate upper bound leads to polynomial time run-time improvements to the algorithm whilst retaining exactness. To our knowledge, this is the first, rigorously-proven polynomial time, practical algorithm for this long-standing problem.
翻訳日:2023-08-04 16:36:04 公開日:2023-08-02
# 病気遺伝子発見のためのネットワーク誘導ランダム森林の評価

Evaluation of network-guided random forest for disease gene discovery ( http://arxiv.org/abs/2308.01323v1 )

ライセンス: Link先を確認
Jianchang Hu, Silke Szymczak(参考訳) 遺伝子ネットワーク情報は病気モジュールや経路同定に有用であると考えられているが、遺伝子発現データ解析の標準ランダムフォレスト(RF)アルゴリズムでは明確に利用されていない。 本研究では、ネットワーク情報を要約したネットワーク誘導型RFの性能を予測変数のサンプリング確率として検討し、RFの構築にさらに活用する。 以上の結果から,ネットワーク誘導RFは標準RFよりも疾患予測に優れていないことが示唆された。 疾患遺伝子発見の観点では、病気遺伝子がモジュールを形成する場合、ネットワーク誘導RFはそれらをより正確に識別する。 また、病状が所定のネットワーク内の遺伝子から独立している場合、ネットワーク情報、特にハブ遺伝子を用いて、急激な遺伝子選択結果が生じる可能性がある。 The Cancer Genome Atlas (TCGA) の2つのバランスしたマイクロアレイとRNA-Seq乳がんデータセットを用いた実証分析により、プロゲステロン受容体 (PR) の分類が可能であり、ネットワーク誘導RFがPGR関連経路から遺伝子を同定できることが示され、同定された遺伝子のより優れた連結モジュールが得られた。

Gene network information is believed to be beneficial for disease module and pathway identification, but has not been explicitly utilized in the standard random forest (RF) algorithm for gene expression data analysis. We investigate the performance of a network-guided RF where the network information is summarized into a sampling probability of predictor variables which is further used in the construction of the RF. Our results suggest that network-guided RF does not provide better disease prediction than the standard RF. In terms of disease gene discovery, if disease genes form module(s), network-guided RF identifies them more accurately. In addition, when disease status is independent from genes in the given network, spurious gene selection results can occur when using network information, especially on hub genes. Our empirical analysis on two balanced microarray and RNA-Seq breast cancer datasets from The Cancer Genome Atlas (TCGA) for classification of progesterone receptor (PR) status also demonstrates that network-guided RF can identify genes from PGR-related pathways, which leads to a better connected module of identified genes.
翻訳日:2023-08-04 16:28:58 公開日:2023-08-02
# DeepSpeed-Chat: 任意のスケールでのChatGPTライクなモデルの簡易かつ高速かつ高精度なRLHFトレーニング

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales ( http://arxiv.org/abs/2308.01320v1 )

ライセンス: Link先を確認
Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He(参考訳) ChatGPTのようなモデルは、要約やコーディングから翻訳、マッチング、あるいは人間のパフォーマンスを超えたものまで、人工知能の様々な応用に革命をもたらした。 しかしながら、現在の状況は、これらの強力なモデル、特に数十億のパラメータのスケールでのトレーニングにおいて、アクセス可能で効率的で費用効率のよいRLHF(Reinforcement Learning with Human Feedback)トレーニングパイプラインを欠いている。 本稿では、RLHFトレーニングを民主化し、AIコミュニティが利用できる新しいシステムであるDeepSpeed-Chatを紹介する。 DeepSpeed-Chatは、ChatGPTのようなモデルの使い勝手の良いトレーニングと推論エクスペリエンス、InstructGPTからトレーニングパイプラインを複製するDeepSpeed-RLHFパイプライン、トレーニングと推論のさまざまな最適化を統一的に組み合わせた堅牢なDeepSpeed-RLHFシステム、の3つの重要な機能を提供する。 このシステムは非並列の効率性とスケーラビリティを提供し、記録的な時間とわずかなコストで数十億のパラメータを持つモデルのトレーニングを可能にする。 この開発により、deepspeed-chatは、リソースが限られているデータサイエンティストでさえ、高度なrlhfトレーニングへの幅広いアクセスへの道を開き、aiの分野におけるイノベーションとさらなる発展を促進している。

ChatGPT-like models have revolutionized various applications in artificial intelligence, from summarization and coding to translation, matching or even surpassing human performance. However, the current landscape lacks an accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement Learning with Human Feedback) training pipeline for these powerful models, particularly when training at the scale of billions of parameters. This paper introduces DeepSpeed-Chat, a novel system that democratizes RLHF training, making it accessible to the AI community. DeepSpeed-Chat offers three key capabilities: an easy-to-use training and inference experience for ChatGPT-like models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from InstructGPT, and a robust DeepSpeed-RLHF system that combines various optimizations for training and inference in a unified way. The system delivers unparalleled efficiency and scalability, enabling training of models with hundreds of billions of parameters in record time and at a fraction of the cost. With this development, DeepSpeed-Chat paves the way for broader access to advanced RLHF training, even for data scientists with limited resources, thereby fostering innovation and further development in the field of AI.
翻訳日:2023-08-04 16:28:33 公開日:2023-08-02
# MIM-OOD:医療画像における分布外検出のためのマスク画像生成モデル

MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images ( http://arxiv.org/abs/2307.14701v2 )

ライセンス: Link先を確認
Sergio Naval Marimont, Vasilis Siomos, Giacomo Tarroni(参考訳) Unsupervised Out-of-Distribution (OOD) 検出は、正常な解剖学の画像に基づいて訓練されたモデルのみを活用する画像中の異常領域を特定することである。 確立されたアプローチは、イメージをトークン化し、Auto-Regressive (AR)モデルでトークンの分散をモデル化することである。 ARモデルは使われています 1)異常トークンを特定して 2) in-distributionトークンを持つ in-paint 異常表現。 しかし、ARモデルは推定時間が遅いため、OOD検出性能に悪影響を及ぼすエラー蓄積問題が発生しやすい。 我々の新しい手法MIM-OODは、ARモデルを2つのタスク固有ネットワークに置き換えることで、速度と誤差の蓄積問題を克服する。 1)異常トークンの識別に最適化された変圧器 2) マスク画像モデリング(mim)を用いたインペイント異常トークンに最適化したトランス 脳MRIの異常による実験では、MIM-OODはARモデル(DICE 0.458 vs 0.301)を大幅に上回り、約25倍のスピードアップ(9.5s vs 244s)を達成した。

Unsupervised Out-of-Distribution (OOD) detection consists in identifying anomalous regions in images leveraging only models trained on images of healthy anatomy. An established approach is to tokenize images and model the distribution of tokens with Auto-Regressive (AR) models. AR models are used to 1) identify anomalous tokens and 2) in-paint anomalous representations with in-distribution tokens. However, AR models are slow at inference time and prone to error accumulation issues which negatively affect OOD detection performance. Our novel method, MIM-OOD, overcomes both speed and error accumulation issues by replacing the AR model with two task-specific networks: 1) a transformer optimized to identify anomalous tokens and 2) a transformer optimized to in-paint anomalous tokens using masked image modelling (MIM). Our experiments with brain MRI anomalies show that MIM-OOD substantially outperforms AR models (DICE 0.458 vs 0.301) while achieving a nearly 25x speedup (9.5s vs 244s).
翻訳日:2023-08-04 16:27:20 公開日:2023-08-02
# YouTubeのレコメンデーションをトレーニングして、望ましくないビデオを避ける方法

How to Train Your YouTube Recommender to Avoid Unwanted Videos ( http://arxiv.org/abs/2307.14551v2 )

ライセンス: Link先を確認
Alexander Liu, Siqi Wu, Paul Resnick(参考訳) YouTubeはユーザーが望ましくないレコメンデーションを提示する機能「Not interested」や「Don't recommend channel」ボタンなどの機能を提供している。 これらのボタンは、ユーザーがレコメンデーションシステムで作成した「間違い」を修正できるように付与される。 しかし、これらのボタンの実証効果についてはあまり知られていない。 ユーザの認識や信頼については、あまり知られていない。 これらのギャップに対処するため、YouTubeユーザーをソックパペットエージェントでシミュレートした。 各エージェントは最初に"stain phase"を実行し、1つの割り当てられたトピックの多くのビデオを見た後、"scrub phase"を実行し、割り当てられたトピックの推奨を削除しようとした。 各エージェントは、ステイトフェーズで訪問したビデオのうちの1つで不興味を示すか、時計の履歴から削除するか、ホームページで推奨されるビデオで不利を示すか(「興味がない」または「推奨しないチャンネル」ボタンをクリックするか、動画を開いて嫌がらせのボタンをクリックするか)、という、単一のスクラブ戦略を繰り返し適用した。 その結果,ユーザのホームページに割り当てられたトピックに関する推奨ビデオの割合は,ステンドフェーズが有意に増加した。 スクラブフェーズでは、"not interest"ボタンの使用が最もうまく動作し、テスト対象のすべてのトピックにおいて、推奨項目を著しく削減し、平均88%を削除した。 しかし、ステンドフェーズやスクラブフェーズはビデオページの推薦に大きな影響を及ぼさなかった。 また、米国内の成人youtubeユーザーに、これらのボタンを認識・使用していたかどうか、そしてボタンがどれほど効果的であるかを質問する調査(n = 300)も行いました。 44%の参加者が「興味がない」ボタンの存在を知らなかったことがわかりました。 しかし、このボタンに気付いていた人は、望ましくない推奨(82.8%)を取り除き、控えめに効果があることを発見した(3.42対5)。

YouTube provides features for users to indicate disinterest when presented with unwanted recommendations, such as the "Not interested" and "Don't recommend channel" buttons. These buttons are purported to allow the user to correct "mistakes" made by the recommendation system. Yet, relatively little is known about the empirical efficacy of these buttons. Neither is much known about users' awareness of and confidence in them. To address these gaps, we simulated YouTube users with sock puppet agents. Each agent first executed a "stain phase", where it watched many videos of one assigned topic; it then executed a "scrub phase", where it tried to remove recommendations of the assigned topic. Each agent repeatedly applied a single scrubbing strategy, either indicating disinterest in one of the videos visited in the stain phase (disliking it or deleting it from the watch history), or indicating disinterest in a video recommended on the homepage (clicking the "not interested" or "don't recommend channel" button or opening the video and clicking the dislike button). We found that the stain phase significantly increased the fraction of the recommended videos dedicated to the assigned topic on the user's homepage. For the scrub phase, using the "Not interested" button worked best, significantly reducing such recommendations in all topics tested, on average removing 88% of them. Neither the stain phase nor the scrub phase, however, had much effect on videopage recommendations. We also ran a survey (N = 300) asking adult YouTube users in the US whether they were aware of and used these buttons before, as well as how effective they found these buttons to be. We found that 44% of participants were not aware that the "Not interested" button existed. However, those who were aware of this button often used it to remove unwanted recommendations (82.8%) and found it to be modestly effective (3.42 out of 5).
翻訳日:2023-08-04 16:27:00 公開日:2023-08-02
# 経験的翻訳プロセス研究の過去と将来展望

Empirical Translation Process Research: Past and Possible Future Perspectives ( http://arxiv.org/abs/2308.01368v1 )

ライセンス: Link先を確認
Michael Carl(参考訳) 過去40年以上にわたり、経験的翻訳プロセス研究(TPR)のモデルの開発と評価が試みられてきたが、包括的なフレームワークはいまだ解明されていない。 本稿では, CRITT TPR-DB における実証的 TPR の進化を辿り, 深く埋め込まれた翻訳過程をモデル化するためのフレームワークとして, 自由エネルギー原理 (FEP) とアクティブ推論 (AIF) を提案する。 関連理論の基本概念(関連性、sモード、iモード)を定量化するための新しいアプローチを導入し、自由エネルギーを最小化する特別なケースとしてフレーミング関連性最大化をモニターモデルとの関係を確立する。 FEP/AIFは数学的に厳密な基盤を提供し、組込み翻訳プロセスが異なるタイムライン上に展開される深層時間アーキテクチャのモデリングを可能にする。 この枠組みは、予測的TPRにおける将来の研究のエキサイティングな展望を開き、人間の翻訳プロセスの理解を深め、翻訳研究の広い領域と認知アーキテクチャの設計に貴重な貢献をする可能性が高い。

Over the past four decades, efforts have been made to develop and evaluate models for Empirical Translation Process Research (TPR), yet a comprehensive framework remains elusive. This article traces the evolution of empirical TPR within the CRITT TPR-DB tradition and proposes the Free Energy Principle (FEP) and Active Inference (AIF) as a framework for modeling deeply embedded translation processes. It introduces novel approaches for quantifying fundamental concepts of Relevance Theory (relevance, s-mode, i-mode), and establishes their relation to the Monitor Model, framing relevance maximization as a special case of minimizing free energy. FEP/AIF provides a mathematically rigorous foundation that enables modeling of deep temporal architectures in which embedded translation processes unfold on different timelines. This framework opens up exciting prospects for future research in predictive TPR, likely to enrich our comprehension of human translation processes, and making valuable contributions to the wider realm of translation studies and the design of cognitive architectures.
翻訳日:2023-08-04 16:17:41 公開日:2023-08-02
# ニューラルネットワークを用いた腫瘍ダイナミックモデリングと総合生存予測のための説明可能なディープラーニング

Explainable Deep Learning for Tumor Dynamic Modeling and Overall Survival Prediction using Neural-ODE ( http://arxiv.org/abs/2308.01362v1 )

ライセンス: Link先を確認
Mark Laurie and James Lu(参考訳) 腫瘍ダイナミックモデリングは腫瘍学薬の開発に広く応用されているが、予測性を高め、パーソナライズされた治療を可能にし、意思決定を改善する必要がある。 本稿では,TDNODEを薬理学的インフォームドニューラルネットワークとして利用し,縦断的腫瘍サイズデータからモデル発見を可能にすることを提案する。 我々は,TDNODEが既存のモデルの重要な限界を克服し,乱れたデータから偏りのない予測を行うことを示す。 エンコーダ・デコーダアーキテクチャは、時間に関して一般化された均一性の基本的な性質を持つ基礎となる動的法則を表現するように設計されている。 したがって、モデリング形式はエンコーダ出力を運動速度指標として解釈し、逆時間を物理単位として解釈することができる。 得られた指標を用いて,患者の全身生存率(OS)を高精度に予測できることを示す。 提案したモデリング形式は,腫瘍疾患モデルにマルチモーダルな動的データセットを統合するための原則的手法を提供する。

While tumor dynamic modeling has been widely applied to support the development of oncology drugs, there remains a need to increase predictivity, enable personalized therapy, and improve decision-making. We propose the use of Tumor Dynamic Neural-ODE (TDNODE) as a pharmacology-informed neural network to enable model discovery from longitudinal tumor size data. We show that TDNODE overcomes a key limitation of existing models in its ability to make unbiased predictions from truncated data. The encoder-decoder architecture is designed to express an underlying dynamical law which possesses the fundamental property of generalized homogeneity with respect to time. Thus, the modeling formalism enables the encoder output to be interpreted as kinetic rate metrics, with inverse time as the physical unit. We show that the generated metrics can be used to predict patients' overall survival (OS) with high accuracy. The proposed modeling formalism provides a principled way to integrate multimodal dynamical datasets in oncology disease modeling.
翻訳日:2023-08-04 16:17:20 公開日:2023-08-02
# 圧縮分散最小二乗回帰--フェデレート学習への応用との収束率

Compressed and distributed least-squares regression: convergence rates with applications to Federated Learning ( http://arxiv.org/abs/2308.01358v1 )

ライセンス: Link先を確認
Constantin Philippenko and Aymeric Dieuleveut(参考訳) 本稿では,分散学習やフェデレーション学習において広く用いられている機械学習の確率勾配アルゴリズムに対する圧縮の影響について検討する。 いくつかの非バイアス圧縮演算子間の収束率の差は、その分散に関して同じ条件を満たすため、古典的な最悪のケース解析を超越する。 そのため、最小二乗回帰(LSR)の場合に着目し、ランダム場に依存する二次関数を最小化するための一般確率近似アルゴリズムを解析する。 本研究では, 圧縮を含む様々なランダム化機構の解析を可能にするために, ランダム場に対する弱い仮定(具体的には, 予測されたH\"古い正則性)とノイズ共分散について考察する。 そして、その結果を連合学習のケースにまで拡張します。 より正式には、アルゴリズムによって誘導される付加雑音の共分散$\mathfrak{C}_{\mathrm{ania}}$の収束への影響を強調する。 確率場の非正則性にもかかわらず、極限分散項は$\mathrm{Tr}(\mathfrak{C}_{\mathrm{ania}} H^{-1})/K$(ここでは$H$は最適化問題のヘシアンであり、反復数として$K$はバニラ LSR の場合の速度を$\sigma^2 \mathrm{Tr}(H H^{-1}) / K = \sigma^2 d / K$(バッハとムーライン)で表す。 次に, 圧縮戦略に対する$\mathfrak{c}_{\mathrm{ania}}$の依存性を解析し, 最終的に収束に与える影響について考察した。

In this paper, we investigate the impact of compression on stochastic gradient algorithms for machine learning, a technique widely used in distributed and federated learning. We underline differences in terms of convergence rates between several unbiased compression operators, that all satisfy the same condition on their variance, thus going beyond the classical worst-case analysis. To do so, we focus on the case of least-squares regression (LSR) and analyze a general stochastic approximation algorithm for minimizing quadratic functions relying on a random field. We consider weak assumptions on the random field, tailored to the analysis (specifically, expected H\"older regularity), and on the noise covariance, enabling the analysis of various randomizing mechanisms, including compression. We then extend our results to the case of federated learning. More formally, we highlight the impact on the convergence of the covariance $\mathfrak{C}_{\mathrm{ania}}$ of the additive noise induced by the algorithm. We demonstrate despite the non-regularity of the stochastic field, that the limit variance term scales with $\mathrm{Tr}(\mathfrak{C}_{\mathrm{ania}} H^{-1})/K$ (where $H$ is the Hessian of the optimization problem and $K$ the number of iterations) generalizing the rate for the vanilla LSR case where it is $\sigma^2 \mathrm{Tr}(H H^{-1}) / K = \sigma^2 d / K$ (Bach and Moulines, 2013). Then, we analyze the dependency of $\mathfrak{C}_{\mathrm{ania}}$ on the compression strategy and ultimately its impact on convergence, first in the centralized case, then in two heterogeneous FL frameworks.
翻訳日:2023-08-04 16:17:03 公開日:2023-08-02
# 多くの体局在系におけるエルゴード包含

Ergodic inclusions in many body localized systems ( http://arxiv.org/abs/2308.01350v1 )

ライセンス: Link先を確認
Luis Colmenarez, David J. Luitz and Wojciech De Roeck(参考訳) 本研究では,多体局所化システムにおけるエルゴード包有物の効果について検討する。 この目的のために、強障害において多体局所化されるランダム場ハイゼンベルク連鎖を考察し、ランダム行列ハミルトンによりモデル化されたエルゴードバブルに結合する。 最近の理論的研究は、エルゴード気泡が中間障害強度と有限サイズで明らかな局所化位相を不安定化することを示唆している。 我々は, 気泡の挿入に対する局所的な熱の応答を数値的に解析することにより, これを暫定的に確認する。 様々な中間障害強度に対して、この反応は泡までの距離が増加するにつれて非常にゆっくり、あるいは全く崩壊する。 これは、これらの障害強度において、システムは熱力学の限界で非局在化されていることを示唆している。 しかし、残念ながら数値は曖昧ではなく、アーティファクトを除外することはできない。

We investigate the effect of ergodic inclusions in putative many-body localized systems. To this end, we consider the random field Heisenberg chain, which is many-body localized at strong disorder and we couple it to an ergodic bubble, modeled by a random matrix Hamiltonian. Recent theoretical work suggests that the ergodic bubble destabilizes the apparent localized phase at intermediate disorder strength and finite sizes. We tentatively confirm this by numerically analyzing the response of the local thermality, quantified by one-site purities, to the insertion of the bubble. For a range of intermediate disorder strengths, this response decays very slowly, or not at all, with increasing distance to the bubble. This suggests that at those disorder strengths, the system is delocalized in the thermodynamic limit. However, the numerics is unfortunately not unambiguous and we cannot definitely rule out artefacts.
翻訳日:2023-08-04 16:16:22 公開日:2023-08-02
# キャビティマグノニクスの位相的マグノン-光子相互作用

Topological magnon-photon interaction for cavity magnonics ( http://arxiv.org/abs/2308.01349v1 )

ライセンス: Link先を確認
Jongjun M. Lee, Myung-Joong Hwang, Hyun-Woo Lee(参考訳) キャビティ・マグノニクスとトポロジカル・インシュレータの研究は過去10年で大きな進歩を遂げてきたが、この2つの分野を組み合わせる可能性はまだ未定である。 本稿では,強磁性体とトポロジカル絶縁体の両方を含むハイブリッドキャビティシステムについて検討する。 強磁性体のスピンとキャビティの電場との間の有効電気双極子結合を、磁気双極子結合に基づく従来のキャビティマグノニクス理論とは対照的に、トポロジカル表面状態の電子が効率的に媒介することを発見した。 この結合をトポロジカルなマグノン-光子相互作用と呼び、従来のマグノン-光子結合よりも1桁強く推定し、その符号を操作可能であることを示す。 本稿では,電子回路を用いたキャビティシステムのスケールダウンと制御を可能にするデバイスの可能性について論じる。 本研究は,キャビティ・マグノニクスとトポロジカル・インスレータの融合により実現される機能探索のための固形地盤を提供する。

The study of cavity magnonics and topological insulators has made significant advances over the past decade, however the possibility of combining the two fields is still unexplored. Here, we explore such connection by investigating hybrid cavity systems that incorporate both a ferromagnet and a topological insulator. We find that electrons in the topological surface state efficiently mediate the effective electric dipole coupling between the spin of the ferromagnet and the electric field of the cavity, in contrast with the conventional cavity magnonics theory based on magnetic dipole coupling. We refer to this coupling as topological magnon-photon interaction, estimating it one order of magnitude stronger than the conventional magnon-photon coupling, and showing that its sign can be manipulated. We discuss the potential of our proposed device to allow for scaling down and controlling the cavity system using electronics. Our results provide solid ground for exploring the functionalities enabled by merging cavity magnonics with topological insulators.
翻訳日:2023-08-04 16:16:07 公開日:2023-08-02
# IBMユーティリティ実験の散逸平均場理論

Dissipative mean-field theory of IBM utility experiment ( http://arxiv.org/abs/2308.01339v1 )

ライセンス: Link先を確認
Emanuele G. Dalla Torre and Mor M. Roses(参考訳) 最近の顕著な進歩にもかかわらず、量子コンピュータはまだ有用な応用が見つからなかった。 このようなユーティリティの有望な方向は、古典的に効率的に計算できない多体量子系の力学のシミュレーションによって提供される。 最近、IBMは、多数の量子ビットと時間ステップのためのキック量子イジングモデルをシミュレートするために超伝導量子コンピュータを使用した。 強力なエラー緩和技術を用いることで、モデルの正確な解法と優れた一致を得ることができた。 この結果は、回路が蓄積した総誤差が禁止的に大きいことを考えると非常に驚きである。 本稿では,クラウス作用素に基づく散逸平均場近似を導入することで,このパラドックスに対処する。 有効理論は多体ユニタリダイナミクスを再現し、定量的に局所的かつ非局所的観測量と一致する。 これらの結果は、観測されたダイナミクスが単一の量子ビットの回転とデファスメントと等価であることを示している。 我々の創発的な説明はこの特定の問題を解決する量子コンピュータの成功を説明することができる。

In spite of remarkable recent advances, quantum computers have not yet found any useful applications. A promising direction for such utility is offered by the simulation of the dynamics of many-body quantum systems, which cannot be efficiently computed classically. Recently, IBM used a superconducting quantum computer to simulate a kicked quantum Ising model for large numbers of qubits and time steps. By employing powerful error mitigation techniques, they were able to obtain an excellent agreement with the exact solution of the model. This result is very surprising, considering that the total error accumulated by the circuit is prohibitively large. In this letter, we address this paradox by introducing a dissipative mean-field approximation based on Kraus operators. Our effective theory reproduces the many-body unitary dynamics and matches quantitatively local and non-local observables. These findings demonstrate that the observed dynamics is equivalent to a single qubit undergoing rotations and dephasing. Our emergent description can explain the success of the quantum computer in solving this specific problem.
翻訳日:2023-08-04 16:15:45 公開日:2023-08-02
# 7.7km中空コアファイバーによる通信時間軸絡み込み光子の分布

Distribution of telecom Time-Bin Entangled Photons through a 7.7 km Hollow-Core Fiber ( http://arxiv.org/abs/2308.01337v1 )

ライセンス: Link先を確認
Michael Antesberger, Carla M. D. Richter, Francesco Poletti, Radan Slav\'ik, Periklis Petropoulos, Hannes H\"ubel, Alessandro Trenti, Philip Walther, and Lee A. Rozema(参考訳) 最先端の古典的および量子的通信は、遠くに光を伝えるために固体コアを持つ標準の光ファイバに依存している。 しかし、近年の進歩により、中空コア光ファイバー(HCF)が出現し、新しいファイバー幾何学により、固体コア光ファイバーとして材料特性に制限されない、顕著な光誘導特性を示すようになった。 本稿では,新しい7.7km HCFによる絡み合い光子の透過を探索し,長距離HCFによる絡み合い分布の実証に成功した最初の例を示す。 本研究は,HCFに固有の低レイテンシと低色分散に着目し,時間ビンベースの量子鍵分布プロトコルのセキュアな鍵レートを向上できることを示す。

State of the art classical and quantum communication rely on standard optical fibers with solid cores to transmit light over long distances. However, recent advances have led to the emergence of hollow-core optical fibers (HCFs), which due to the novel fiber geometry, show remarkable optical guiding properties, which are not as limited by the material properties as solid-core fibers. In this paper, we explore the transmission of entangled photons through a novel 7.7 km HCF, presenting the first successful demonstration of entanglement distribution via long-distance HCF. Our study highlights the low latency and low chromatic dispersion intrinsic to HCF, which can increase the secure key rate in time-bin based quantum key distribution protocols.
翻訳日:2023-08-04 16:15:30 公開日:2023-08-02
# EmbeddingTree: 埋め込みにおけるエンティティ機能の階層的な探索

EmbeddingTree: Hierarchical Exploration of Entity Features in Embedding ( http://arxiv.org/abs/2308.01329v1 )

ライセンス: Link先を確認
Yan Zheng, Junpeng Wang, Chin-Chia Michael Yeh, Yujie Fan, Huiyuan Chen, Liang Wang, Wei Zhang(参考訳) 埋め込み学習は、離散データエンティティを連続的な数値表現に変換し、エンティティの特徴や特性を符号化する。 異なる組込み学習アルゴリズムから報告された優れた性能にもかかわらず、学習された組込み空間で機能がどのようにエンコードされるかの構造的な解釈に費やされる努力はほとんどなかった。 本研究は、エンティティ特徴のセマンティクスと、解釈不能な埋め込みベクトルを関連付ける階層的埋め込み探索アルゴリズムであるembeddtreeを提案する。 EmbeddingTreeをベースとしたインタラクティブな可視化ツールも開発されている。 このツールは、データエンティティのニュアンス特徴を発見し、埋め込みトレーニングで特徴の推論/インジェクションを実行し、見えないエンティティへの埋め込みを生成するのに役立つ。 業界規模の商業データと30Musicリスニング/プレイリストデータセットに対して生成された埋め込みによって, EmbeddingTreeと可視化ツールの有効性を実証した。

Embedding learning transforms discrete data entities into continuous numerical representations, encoding features/properties of the entities. Despite the outstanding performance reported from different embedding learning algorithms, few efforts were devoted to structurally interpreting how features are encoded in the learned embedding space. This work proposes EmbeddingTree, a hierarchical embedding exploration algorithm that relates the semantics of entity features with the less-interpretable embedding vectors. An interactive visualization tool is also developed based on EmbeddingTree to explore high-dimensional embeddings. The tool helps users discover nuance features of data entities, perform feature denoising/injecting in embedding training, and generate embeddings for unseen entities. We demonstrate the efficacy of EmbeddingTree and our visualization tool through embeddings generated for industry-scale merchant data and the public 30Music listening/playlists dataset.
翻訳日:2023-08-04 16:15:15 公開日:2023-08-02
# 視覚変換器を用いたマルチモーダルからモノモーダルリンパ腫サブタイプモデルへの知識伝達フレームワーク

A vision transformer-based framework for knowledge transfer from multi-modal to mono-modal lymphoma subtyping models ( http://arxiv.org/abs/2308.01328v1 )

ライセンス: Link先を確認
Bilel Guetarni, Feryal Windal, Halim Benhabiles, Marianne Petit, Romain Dubois, Emmanuelle Leteurtre, Dominique Collard(参考訳) リンパ腫の亜型を決定することは、生存可能性を高めるためにより良い治療を目標とする患者にとって重要なステップである。 この文脈では、遺伝子発現技術に基づく既存のゴールド標準診断法は、高いコストと時間を要するため、アクセシビリティが困難である。 ihc(免疫組織化学)技術に基づく代替診断法(whoが推奨する)は存在するが、同様の制限があり、正確性は低い。 深層学習モデルによるWSI(Whole Slide Image)分析では、既存の代替手法よりも安価で高速ながん診断の新しい方向性が示された。 本研究では,高分解能wsisとdlbcl(diffuse large b-cell lymphoma)癌サブタイプを区別するためのビジョントランスフォーマティブに基づく枠組みを提案する。 この目的のために,様々なWSIモダリティから分類器モデルを訓練するためのマルチモーダルアーキテクチャを提案する。 そして,このモデルを知識蒸留機構を用いて,モノモーダル分類器の学習を効率的に進める。 157人の患者を対象に行った実験では, がん分類に関する最新の6つの手法を上回って, モノモーダル分類モデルの有望な性能を示した。 さらに, 実験データから推定したパワーロー曲線から, IHC技術と同一の診断精度に達するためには, トレーニングに適度な患者数が必要であることが示唆された。

Determining lymphoma subtypes is a crucial step for better patients treatment targeting to potentially increase their survival chances. In this context, the existing gold standard diagnosis method, which is based on gene expression technology, is highly expensive and time-consuming making difficult its accessibility. Although alternative diagnosis methods based on IHC (immunohistochemistry) technologies exist (recommended by the WHO), they still suffer from similar limitations and are less accurate. WSI (Whole Slide Image) analysis by deep learning models showed promising new directions for cancer diagnosis that would be cheaper and faster than existing alternative methods. In this work, we propose a vision transformer-based framework for distinguishing DLBCL (Diffuse Large B-Cell Lymphoma) cancer subtypes from high-resolution WSIs. To this end, we propose a multi-modal architecture to train a classifier model from various WSI modalities. We then exploit this model through a knowledge distillation mechanism for efficiently driving the learning of a mono-modal classifier. Our experimental study conducted on a dataset of 157 patients shows the promising performance of our mono-modal classification model, outperforming six recent methods from the state-of-the-art dedicated for cancer classification. Moreover, the power-law curve, estimated on our experimental data, shows that our classification model requires a reasonable number of additional patients for its training to potentially reach identical diagnosis accuracy as IHC technologies.
翻訳日:2023-08-04 16:15:00 公開日:2023-08-02
# Careful Whisper -- 頑健かつ解釈可能な失語サブタイプ分類のための自動音声認識の進歩を活用する

Careful Whisper -- leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification ( http://arxiv.org/abs/2308.01327v1 )

ライセンス: Link先を確認
Laurin Wagner, Mario Zusag, Theresa Bloder(参考訳) 本稿では,音声録音から発声異常を完全自動検出し,音声障害の評価を支援する手法を提案する。 Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。 次に,これらのテキストから特徴を抽出する自然言語処理手法を適用し,健全な音声のプロトタイプを作成する。 これらのプロトタイプからの基本的な距離測定は、標準的な機械学習分類器の入力機能として機能し、失語症患者と健康管理グループとの区別のための人間レベルの精度を提供する。 さらに、最も頻度の高い失語型は90%の精度で区別できる。 このパイプラインは他の疾患や言語に直接適用でき、診断用バイオマーカーのロバストな抽出が期待できる。

This paper presents a fully automated approach for identifying speech anomalies from voice recordings to aid in the assessment of speech impairments. By combining Connectionist Temporal Classification (CTC) and encoder-decoder-based automatic speech recognition models, we generate rich acoustic and clean transcripts. We then apply several natural language processing methods to extract features from these transcripts to produce prototypes of healthy speech. Basic distance measures from these prototypes serve as input features for standard machine learning classifiers, yielding human-level accuracy for the distinction between recordings of people with aphasia and a healthy control group. Furthermore, the most frequently occurring aphasia types can be distinguished with 90% accuracy. The pipeline is directly applicable to other diseases and languages, showing promise for robustly extracting diagnostic speech biomarkers.
翻訳日:2023-08-04 16:14:34 公開日:2023-08-02
# 大きな負の有効範囲を持つ3つの同一ボソンの普遍性

Universality of Three Identical Bosons with Large, Negative Effective Range ( http://arxiv.org/abs/2308.01394v1 )

ライセンス: Link先を確認
Harald W. Griesshammer (George Washington U.) and Ubirajara van Kolck (CNRS/IN2P3 and U. of Arizona)(参考訳) 「再帰効果場理論」は、大きな散乱長$a$と有効範囲$r_0$大の負の接触相互作用に関する一貫した非相対論的有効場理論である。 主秩序は非摂動的である。 可観測性は普遍的であり、----それらは次元のない比 $\xi:=2r_0/a$ のみに依存し、全体の距離スケールは $|r_0|$ である。 2体セクターでは、複素平面内の2つの浅い$S$波の極の位置は$\xi$によって決定される。 1つのバウンドと1つの仮想状態 (\xi\le0$) または2つの仮想状態 (0\le\xi<1$) を持つ2体システムの先頭順序で3つの同一ボソンを調査する。 このような条件は、例えば重い中間子の系で見られる。 LOで再正常化(および安定化)するための3体相互作用は不要である。 よく定義された基底状態は$0.366\ldots\le\xi\le-8.72\ldots$である。 三体励起は ``quasi-unitarity point''' $\xi=0$$|r_0|\ll|a|\to\infty$' の周りのより小さな範囲に現れ、離散スケーリング関係に従う。 3体および2体結合エネルギーがゼロの3体結合と同一である最も浅い2b状態のうち、基底状態と最低3つの励起を詳細に検討し、それらの軌道を{\xi$ および結合運動量 $\kappa_2^-$ の関数としてパラメータ化する。 a|$|r_0|\ll|a|$が摂動的になると、このバージョンは安定な3体相互作用を必要とし、エフィモフの離散スケール不変性を示す '`Short-Range EFT'' となる。 Efimov のスケールブレーキングパラメータ $\Lambda_*$ を ``hard'' カットオフによる再正規化スキームで決定するために、EFT を低エネルギー版 Resummed-Range EFT と解釈することでスペクトルをマッチングする。 最後に、2ボソン境界状態におけるボソン散乱の位相シフトと等価なエフィモフ系の位相シフトを比較する。

"Resummed-Range Effective Field Theory'' is a consistent nonrelativistic effective field theory of contact interactions with large scattering length $a$ and an effective range $r_0$ large in magnitude but negative. Its leading order is non-perturbative. Its observables are universal, i.e.~they depend only on the dimensionless ratio $\xi:=2r_0/a$, with the overall distance scale set by $|r_0|$. In the two-body sector, the position of the two shallow $S$-wave poles in the complex plane is determined by $\xi$. We investigate three identical bosons at leading order for a two-body system with one bound and one virtual state ($\xi\le0$), or with two virtual states ($0\le\xi<1$). Such conditions might, for example, be found in systems of heavy mesons. We find that no three-body interaction is needed to renormalise (and stabilise) Resummed-Range EFT at LO. A well-defined ground state exists for $0.366\ldots\le\xi\le-8.72\ldots$. Three-body excitations appear for even smaller ranges of $\xi$ around the ``quasi-unitarity point'' $\xi=0$ ($|r_0|\ll|a|\to\infty$) and obey discrete scaling relations. We explore in detail the ground state and the lowest three excitations and parametrise their trajectories as function of $\xi$ and of the binding momentum $\kappa_2^-$ of the shallowest \twoB state from where three-body and two-body binding energies are identical to zero three-body binding. As $|r_0|\ll|a|$ becomes perturbative, this version turns into the ``Short-Range EFT'' which needs a stabilising three-body interaction and exhibits Efimov's Discrete Scale Invariance. By interpreting that EFT as a low-energy version of Resummed-Range EFT, we match spectra to determine Efimov's scale-breaking parameter $\Lambda_*$ in a renormalisation scheme with a ``hard'' cutoff. Finally, we compare phase shifts for scattering a boson on the two-boson bound state with that of the equivalent Efimov system.
翻訳日:2023-08-04 16:08:29 公開日:2023-08-02
# 動的平均場理論によるハバードモデルの相転移の研究のための量子古典的アルゴリズム

Quantum Classical Algorithm for the Study of Phase Transitions in the Hubbard Model via Dynamical Mean-Field Theory ( http://arxiv.org/abs/2308.01392v1 )

ライセンス: Link先を確認
Anshumitra Baul, Herbert F Fotso, Hanna Terletska, Juana Moreno, Ka-Ming Tam(参考訳) 量子多体システムのシミュレーションは、短期雑音量子コンピュータの最も有望な応用の1つであると考えられている。 しかし、短期的には、システムのサイズ制限は、材料科学や強相関システムへの応用において厳しい障壁であり続けるだろう。 有望な研究の道は、異なる位相の分類のための多体物理学と機械学習を組み合わせることである。 本稿では,量子コンピューティング,多体理論,量子機械学習(qml)を融合して,強相関系を研究するワークフローを提案する。 特に、ステレオタイプ的な強い相関を持つ系の量子相転移であるハバードモデルを捉えることができる。 最近提案された2部位の動的平均場理論(DMFT)に対する古典量子ハイブリッドアルゴリズムに続いて,単一浴場DMFTの自己整合解を許容する修正を提案する。 修正アルゴリズムは複数の浴場に対して容易に一般化することができる。 この手法は、DMFT近似におけるハバードモデルのゼロ温度波動関数のデータベースを生成するために用いられる。 次に、QMLアルゴリズムを用いて金属相とモット絶縁体相を区別し、金属-モット絶縁体相転移を捉える。 量子畳み込みニューラルネットワーク(QCNN)をトレーニングし、QCNNを量子分類器として利用して位相遷移領域を捕捉する。 この研究は、強相関系における他の相転移への応用のレシピを提供し、短期技術で実現可能な小型量子デバイスのエキサイティングな応用を示す。

Simulating quantum many-body systems is believed to be one of the most promising applications of near-term noisy quantum computers. However, in the near term, system size limitation will remain a severe barrier for applications in materials science or strongly correlated systems. A promising avenue of research is to combine many-body physics with machine learning for the classification of distinct phases. In this paper, we propose a workflow that synergizes quantum computing, many-body theory, and quantum machine learning(QML) for studying strongly correlated systems. In particular, it can capture a putative quantum phase transition of the stereotypical strongly correlated system, the Hubbard model. Following the recent proposal of the hybrid classical-quantum algorithm for the two-site dynamical mean-field theory(DMFT), we present a modification that allows the self-consistent solution of the single bath site DMFT. The modified algorithm can easily be generalized for multiple bath sites. This approach is used to generate a database of zero-temperature wavefunctions of the Hubbard model within the DMFT approximation. We then use a QML algorithm to distinguish between the metallic phase and the Mott insulator phase to capture the metal-to-Mott insulator phase transition. We train a quantum convolutional neural network(QCNN) and then utilize the QCNN as a quantum classifier to capture the phase transition region. This work provides a recipe for application to other phase transitions in strongly correlated systems and represents an exciting application of small-scale quantum devices realizable with near-term technology.
翻訳日:2023-08-04 16:07:41 公開日:2023-08-02
# プロンプトエンジニアリングによる機械翻訳の最適化:ChatGPTのカスタマイズ性の検討

Optimizing Machine Translation through Prompt Engineering: An Investigation into ChatGPT's Customizability ( http://arxiv.org/abs/2308.01391v1 )

ライセンス: Link先を確認
Masaru Yamada(参考訳) 本稿では,翻訳の目的と対象オーディエンスを統合し,チャットgptが生成する翻訳の質にプロンプトを加える効果について検討する。 以前の翻訳研究、産業慣行、iso標準に基づき、この研究は翻訳プロセスにおける生産前の段階の重要性を強調するものである。 研究により、chatgptのような大規模言語モデルに適切なプロンプトが組み込まれれば、柔軟性のある翻訳が可能になることが明らかになった。 この研究は、特定の条件を満たす翻訳を生成するためにプロンプトを使用する場合の翻訳品質の変化を精査する。 この評価は,コサイン類似性計算にOpenAIのワード埋め込みAPIを用いることによって,主観的,質的に,実践的な翻訳者の視点から行う。 その結果、目的と対象のオーディエンスをプロンプトに統合することで、生成した翻訳を変更できることが示唆され、一般的に業界標準による翻訳品質の向上が図られる。 この研究は、特にマーケティング文書や文化的に依存したイディオムの文脈において、「良い翻訳」概念の実践的応用を実証している。

This paper explores the influence of integrating the purpose of the translation and the target audience into prompts on the quality of translations produced by ChatGPT. Drawing on previous translation studies, industry practices, and ISO standards, the research underscores the significance of the pre-production phase in the translation process. The study reveals that the inclusion of suitable prompts in large-scale language models like ChatGPT can yield flexible translations, a feat yet to be realized by conventional Machine Translation (MT). The research scrutinizes the changes in translation quality when prompts are used to generate translations that meet specific conditions. The evaluation is conducted from a practicing translator's viewpoint, both subjectively and qualitatively, supplemented by the use of OpenAI's word embedding API for cosine similarity calculations. The findings suggest that the integration of the purpose and target audience into prompts can indeed modify the generated translations, generally enhancing the translation quality by industry standards. The study also demonstrates the practical application of the "good translation" concept, particularly in the context of marketing documents and culturally dependent idioms.
翻訳日:2023-08-04 16:07:15 公開日:2023-08-02
# OpenFlamingo: 大規模な自己回帰型ビジョンランゲージモデルをトレーニングするためのオープンソースフレームワーク

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models ( http://arxiv.org/abs/2308.01390v1 )

ライセンス: Link先を確認
Anas Awadalla and Irena Gao and Josh Gardner and Jack Hessel and Yusuf Hanafy and Wanrong Zhu and Kalyani Marathe and Yonatan Bitton and Samir Gadre and Shiori Sagawa and Jenia Jitsev and Simon Kornblith and Pang Wei Koh and Gabriel Ilharco and Mitchell Wortsman and Ludwig Schmidt(参考訳) OpenFlamingoは,3Bパラメータから9Bパラメータまでの自動回帰視覚言語モデルである。 OpenFlamingoは、DeepMindのFlamingoモデルをオープンソースで複製する試みである。 7つのビジョン言語データセットでは、OpenFlamingoモデルは、対応するFlamingoのパフォーマンスの80~89%の平均である。 本報告では,モデル,トレーニングデータ,ハイパーパラメータ,評価スイートについて述べる。 私たちは、モデルとコードをhttps://github.com/mlfoundations/open_flamingoで共有しています。

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.
翻訳日:2023-08-04 16:06:53 公開日:2023-08-02
# 単発マルチボックス検出と強化学習を最適化した兵士追跡

Follow the Soldiers with Optimized Single-Shot Multibox Detection and Reinforcement Learning ( http://arxiv.org/abs/2308.01389v1 )

ライセンス: Link先を確認
Jumman Hossain, Maliha Momtaz(参考訳) 現在、自動運転車は戦場での多くの潜在的な応用や、様々な現実世界の課題を解決するために勢いを増している。 このプロジェクトの主な目標は、DeepRacerを使って自律的なシステムを構築することです。 このプロジェクトを実現するための2つの主要なコンポーネントは、最適化されたssdオブジェクト検出モデルと強化学習(rl)モデルである。 我々はSSDの代わりにSSD Liteを用いてタスクを完了し、SSD、SSD with Neural Computing Stick (NCS)、SSD Liteを比較した。 実験の結果、ssd liteはこれら3つの技術の中で優れた性能を示し、精度を損なうことなく推論速度(2~3倍)を大幅に向上させることがわかった。

Nowadays, autonomous cars are gaining traction due to their numerous potential applications on battlefields and in resolving a variety of other real-world challenges. The main goal of our project is to build an autonomous system using DeepRacer which will follow a specific person (for our project, a soldier) when they will be moving in any direction. Two main components to accomplish this project is an optimized Single-Shot Multibox Detection (SSD) object detection model and a Reinforcement Learning (RL) model. We accomplished the task using SSD Lite instead of SSD and at the end, compared the results among SSD, SSD with Neural Computing Stick (NCS), and SSD Lite. Experimental results show that SSD Lite gives better performance among these three techniques and exhibits a considerable boost in inference speed (~2-3 times) without compromising accuracy.
翻訳日:2023-08-04 16:06:46 公開日:2023-08-02
# 計算的長期露光移動写真

Computational Long Exposure Mobile Photography ( http://arxiv.org/abs/2308.01379v1 )

ライセンス: Link先を確認
Eric Tabellion, Nikhil Karnad, Noa Glaser, Ben Weiss, David E. Jacobs, Yael Pritch(参考訳) 長時間露光写真は、モーションブルーのシーンで動く要素を表現する素晴らしい画像を生成する。 一般的には2つのモダリティで用いられ、前景または背景ぼけ効果を生じる。 前景のぼやけた画像は伝統的に三脚カメラで撮影され、完全に鮮明な背景に絹の水や光の道のようなぼやけた前景の要素が描かれている。 背景のぼやけた画像(パニング写真とも呼ばれる)は、カメラが被写体を追跡している間に撮影され、相対的な動きによってぼやけた背景のシャープな被写体の画像を生成する。 どちらの技術も難易度が高く、追加の装備と高度な技術を必要とする。 本稿では,スマートフォンのカメラアプリで動作し,シャッターボタンのタップ時に自動的にその効果をフルに発揮する計算バースト撮影システムについて述べる。 提案手法はまず,健常者の検出とセグメンテーションを行う。 複数のフレームにまたがってシーンの動きを追跡し、所望のシャープさを保ち、審美的に心地よい動きを創り出す。 我々は、露出不足のバーストを捕捉し、シーンやカメラの動き速度に関わらず、制御された長さのぼやけた軌跡を生成する入力フレームのサブセットを選択する。 フレーム間の動きを予測し、入力フレーム間の時間的ギャップを埋めるためにモーションブラルを合成する。 最後に、ぼやけた画像とシャープな定期露光を合成し、ほとんど動かないシーンの顔や領域のシャープさを保護し、最終的な高解像度かつ高ダイナミックレンジ(HDR)写真を生成する。 我々のシステムは、以前プロに予約されていた能力を民主化し、この創造的なスタイルをほとんどのカジュアルな写真家が利用できるようにする。 詳しい情報と追加資料は、プロジェクトのwebページ(https://motion-mode.github.io/)で確認できます。

Long exposure photography produces stunning imagery, representing moving elements in a scene with motion-blur. It is generally employed in two modalities, producing either a foreground or a background blur effect. Foreground blur images are traditionally captured on a tripod-mounted camera and portray blurred moving foreground elements, such as silky water or light trails, over a perfectly sharp background landscape. Background blur images, also called panning photography, are captured while the camera is tracking a moving subject, to produce an image of a sharp subject over a background blurred by relative motion. Both techniques are notoriously challenging and require additional equipment and advanced skills. In this paper, we describe a computational burst photography system that operates in a hand-held smartphone camera app, and achieves these effects fully automatically, at the tap of the shutter button. Our approach first detects and segments the salient subject. We track the scene motion over multiple frames and align the images in order to preserve desired sharpness and to produce aesthetically pleasing motion streaks. We capture an under-exposed burst and select the subset of input frames that will produce blur trails of controlled length, regardless of scene or camera motion velocity. We predict inter-frame motion and synthesize motion-blur to fill the temporal gaps between the input frames. Finally, we composite the blurred image with the sharp regular exposure to protect the sharpness of faces or areas of the scene that are barely moving, and produce a final high resolution and high dynamic range (HDR) photograph. Our system democratizes a capability previously reserved to professionals, and makes this creative style accessible to most casual photographers. More information and supplementary material can be found on our project webpage: https://motion-mode.github.io/
翻訳日:2023-08-04 16:06:29 公開日:2023-08-02
# 有限要素問題における線形系の量子緩和法

Quantum Relaxation Method for Linear Systems in Finite Element Problems ( http://arxiv.org/abs/2308.01377v1 )

ライセンス: Link先を確認
Osama Muhammad Raisuddin, Suvranu De(参考訳) ゲートベースの量子コンピューティングのための量子線形系アルゴリズム(QLSA)は、方程式の線形系に対する指数的なスピードアップを提供することができる。 有限要素の離散化から生じる方程式系における問題サイズの条件数の増加は、高速化のためのqlsasの直接適用を阻害する。 さらにQLSAは、近似ソリューションや初期推測を使って改善されたソリューションを出力することはできない。 本稿では,線形定常反復をより大きなブロック線形系に埋め込み,ゲート型量子コンピュータの反復的アプローチとして,線形系の量子緩和(qrls)を提案する。 ブロック線形系は正定値であり、その条件数は元の系のサイズや条件数に依存しない反復数と線形にスケールし、有限要素問題の条件番号を効果的に管理する。 このシステムは、QLSAの最先端量子信号処理(QSP)変種を用いて、有限要素問題の実用的な反復解を可能にする。 正定値QLSAs l の繰り返しは O(\sqrt{l}) 時間で実行でき、これは古典的なコンピュータでは達成できない。 反復の複雑さは、o(\log(n)) qubitsとシステムサイズによらず、解時間スケーリングが量子ハードウェア上の反復有限要素解の新しいパラダイムを開く指数関数的改善であるために、古典的なアーキテクチャと比べて好適にスケールする。

Quantum linear system algorithms (QLSAs) for gate-based quantum computing can provide exponential speedups for linear systems of equations. The growth of the condition number with problem size for a system of equations arising from a finite element discretization inhibits the direct application of QLSAs for a speedup. Furthermore, QLSAs cannot use an approximate solution or initial guess to output an improved solution. Here, we present Quantum Relaxation for Linear System (qRLS), as an iterative approach for gate-based quantum computers by embedding linear stationary iterations into a larger block linear system. The block linear system is positive-definite and its condition number scales linearly with the number of iterations independent of the size and condition number of the original system, effectively managing the condition number of the finite element problem. The well-conditioned system enables a practical iterative solution of finite element problems using the state-of-the-art Quantum Signal Processing (QSP) variant of QLSAs. Using positive-definite QLSAs l iterations can be performed in O(\sqrt{l}) time, which is unattainable on classical computers. The complexity of the iterations scales favorably compared to classical architectures due to solution time scaling independent of system size with O(\log(N)) qubits, an exponential improvement opening a new paradigm for iterative finite element solutions on quantum hardware.
翻訳日:2023-08-04 16:05:57 公開日:2023-08-02
# causalops -- 因果確率グラフィカルモデルのための産業ライフサイクルに向けて

CausalOps -- Towards an Industrial Lifecycle for Causal Probabilistic Graphical Models ( http://arxiv.org/abs/2308.01375v1 )

ライセンス: Link先を確認
Robert Maier, Andreas Schlattl, Thomas Guess, J\"urgen Mottok(参考訳) 因果確率グラフベースのモデルが広く普及し、多様なドメイン間の因果関係のモデリングが可能になった。 自動車システムの安全性やマシンラーニングといった新しい分野への採用の増加に伴い、DevOpsやMLOpsに似た統合ライフサイクルフレームワークの必要性が高まっている。 現在、因果的エンジニアリングを採用する組織のためのプロセス参照が欠落している。 このギャップに対処し、幅広い産業採用を促進するために、因果モデルの開発と応用のための新しいライフサイクルフレームワークであるCausalOpsを提案する。 因果エンジニアリング中に生成された重要なエンティティ、依存関係、中間アーティファクトを定義することで、一貫した語彙とワークフローモデルを確立します。 この作業は、異なるステージとステークホルダー間で因果モデルの使用をコンテキスト化し、それらの作成と維持に関する全体的見解を概説する。 CausalOpsの目的は、関心のある組織や因果関係のコミュニティにおける実践的な応用における因果関係の手法の採用を促進することだ。

Causal probabilistic graph-based models have gained widespread utility, enabling the modeling of cause-and-effect relationships across diverse domains. With their rising adoption in new areas, such as automotive system safety and machine learning, the need for an integrated lifecycle framework akin to DevOps and MLOps has emerged. Currently, a process reference for organizations interested in employing causal engineering is missing. To address this gap and foster widespread industrial adoption, we propose CausalOps, a novel lifecycle framework for causal model development and application. By defining key entities, dependencies, and intermediate artifacts generated during causal engineering, we establish a consistent vocabulary and workflow model. This work contextualizes causal model usage across different stages and stakeholders, outlining a holistic view of creating and maintaining them. CausalOps' aim is to drive the adoption of causal methods in practical applications within interested organizations and the causality community.
翻訳日:2023-08-04 16:05:34 公開日:2023-08-02
# 自動運転システムにおける運転不均一性と長期軌道予測の統合による運動計画の強化

An enhanced motion planning approach by integrating driving heterogeneity and long-term trajectory prediction for automated driving systems ( http://arxiv.org/abs/2308.01369v1 )

ライセンス: Link先を確認
Ni Dong, Shuming Chen, Yina Wu, Yiheng Feng, Xiaobo Liu(参考訳) 複雑な運転環境を通した自動運転システム(ADS)の走行は困難である。 周囲の人間駆動車(HDV)の運転行動を予測することは、ADSの重要な構成要素である。 本稿では,高速道路統合シナリオにおけるADSのモーションプランニング手法を提案する。 提案手法は, ADSの動作計画に使用される階層モデルを用いて, 運転安全性を向上させるために, 周囲のHDVの運転挙動と長期軌跡の2つの側面を用いた。

Navigating automated driving systems (ADSs) through complex driving environments is difficult. Predicting the driving behavior of surrounding human-driven vehicles (HDVs) is a critical component of an ADS. This paper proposes an enhanced motion-planning approach for an ADS in a highway-merging scenario. The proposed enhanced approach utilizes the results of two aspects: the driving behavior and long-term trajectory of surrounding HDVs, which are coupled using a hierarchical model that is used for the motion planning of an ADS to improve driving safety.
翻訳日:2023-08-04 16:05:17 公開日:2023-08-02
# エキスパートラベルのないロバスト車両ナビゲーションのためのLiDARビュー合成

LiDAR View Synthesis for Robust Vehicle Navigation Without Expert Labels ( http://arxiv.org/abs/2308.01424v1 )

ライセンス: Link先を確認
Jonathan Schmidt, Qadeer Khan, Daniel Cremers(参考訳) 自動運転車のディープラーニングモデルは、公道で重要な運転シナリオを安全に管理するために、多様なトレーニングデータセットを必要とする。 これには、対向車線や歩道などの分岐軌道のデータが含まれる。 このようなデータは現実世界で収集するには危険すぎる。 RGB画像を用いたデータ拡張手法が提案されている。 しかし、LiDARセンサーに基づくソリューションは少ない。 そこで本研究では,危険な位置を物理的に駆動することなく,新たな視点からライダーポイント雲を合成する手法を提案する。 LiDARビュー合成はメッシュ再構成とレイキャスティングを用いて行われる。 我々は、LiDARスキャンを入力とし、将来の軌跡を出力として予測するディープラーニングモデルを訓練する。 次に、この予測軌道にウェイポイントコントローラを適用し、エゴ車両のスロットルおよびステアリングラベルを決定する。 本手法では,原本および合成lidar配列のエキスパート駆動ラベルを必要としない。 代わりに、LiDARオドメトリーからラベルを推測する。 提案手法の有効性を網羅的なオンライン評価と同時作業との比較で示す。 以上の結果から,特にモデルロバスト性の観点からLiDAR点雲の合成の重要性が示唆された。 コードと追加のビジュアライゼーションはhttps://jonathsch.github.io/lidar- synthesis/。

Deep learning models for self-driving cars require a diverse training dataset to safely manage critical driving scenarios on public roads. This includes having data from divergent trajectories such as the oncoming traffic lane or sidewalks. Such data would be too dangerous to collect in the real world. Data augmentation approaches have been proposed to tackle this issue using RGB images. However, solutions based on LiDAR sensors are scarce. We therefore propose an approach to synthesize additional LiDAR point clouds from novel viewpoints without having the need to physically drive at dangerous positions. The LiDAR view synthesis is done using mesh reconstruction and ray casting. We train a deep learning model, which takes a LiDAR scan as input and predicts the future trajectory as output. A waypoint controller is then applied on this predicted trajectory to determine the throttle and steering labels of the ego-vehicle. Our method neither requires expert driving labels for the original nor for the synthesized LiDAR sequence. Instead, we infer labels from LiDAR odometry. We demonstrate the effectiveness of our approach in a comprehensive online evaluation and with a comparison to concurrent work. Our results show the importance of synthesizing additional LiDAR point clouds, particularly in terms of model robustness. Code and supplementary visualizations are available at https://jonathsch.github.io/lidar-synthesis/ .
翻訳日:2023-08-04 15:57:05 公開日:2023-08-02
# 絡み合いに基づく量子情報技術

Entanglement-Based Quantum Information Technology ( http://arxiv.org/abs/2308.01416v1 )

ライセンス: Link先を確認
Zheshen Zhang, Chenglong You, Omar S. Maga\~na-Loaiza, Robert Fickler, Roberto de J. Le\'on-Montiel, Juan P. Torres, Travis Humble, Shuai Liu, Yi Xia, Quntao Zhuang(参考訳) エンタングルメント(英: entanglement)は、古典同値な量子力学現象である。 アインシュタイン、ポドルスキー、ローゼンによって初めて議論され、1935年にschr\"odingerによって正式に紹介された「絡み合い」は、科学的な議論から、技術的革命を引き起こす急進的な新しい資源へと成長した。 本稿では,特にフォトニックシステムにおける絡み合い型量子情報技術(QIT)の基礎と最近の進歩に焦点をあてる。 光子は、室温での動作能力、既存の通信やセンシングインフラストラクチャとの互換性、容易にアクセス可能な光学コンポーネントの可用性など、いくつかの利点を持つユニークな量子情報キャリアである。 光子は他の固体量子プラットフォームとよく相互作用する。 まず, エンタングルメントについて概観し, 歴史的視点から, エンタングルメント生成理論と関連する代表的な実験について概説する。 次に、センシング、イメージング、スペクトロスコピー、データ処理、通信のためのエンタングルメントベースのqitの応用について検討する。 閉店前には、次世代の絡み合いベースのQITとその将来的な応用の展望を示す。

Entanglement is a quintessential quantum mechanical phenomenon with no classical equivalent. First discussed by Einstein, Podolsky, and Rosen and formally introduced by Schr\"odinger in 1935, entanglement has grown from a scientific debate to a radically new resource that sparks a technological revolution. This review focuses on the fundamentals and recent advances in entanglement-based quantum information technology (QIT), specifically in photonic systems. Photons are unique quantum information carriers with several advantages, such as their ability to operate at room temperature, their compatibility with existing communication and sensing infrastructures, and the availability of readily accessible optical components. Photons also interface well with other solid-state quantum platforms. We will first provide an overview on entanglement, starting with an introduction to its development from a historical perspective followed by the theory for entanglement generation and the associated representative experiments. We will then dive into the applications of entanglement-based QIT for sensing, imaging, spectroscopy, data processing, and communication. Before closing, we will present an outlook for the architecture of the next-generation entanglement-based QIT and its prospective applications.
翻訳日:2023-08-04 15:55:57 公開日:2023-08-02
# 医用画像におけるOoD検出のためのより硬い合成異常

Harder synthetic anomalies to improve OoD detection in Medical Images ( http://arxiv.org/abs/2308.01412v1 )

ライセンス: Link先を確認
Sergio Naval Marimont and Giacomo Tarroni(参考訳) 提案手法は,外来パッチをコピー・補間する合成局所異常が,未知の種類の異常に一般化可能なセグメンテーションネットワークの訓練に有用であることを示す。 合成異常発生過程の観点から、我々の貢献により、合成異常はより均一で困難になる。 1)正方形の代わりにランダム形状を用いる 2)異常の補間エッジをスムースにすることで、異常を識別するために画像間の高い勾配に依存することができない。 筆者らは,2020 MOOD受賞者の検証セットを用いて,両コントリビューションがメソッド性能を大幅に改善したことを示す。 標準的な3d u-netアーキテクチャをセグメンテーションネットワークとして使用し,脳と腹部のデータセットでパッチワイズをトレーニングした。 最後の課題は、5つのデータ折りたたみでトレーニングされた10のu-netで構成されました。 2022年、miccaiで開かれたmedical out-of-distributionにおいて、サンプルとピクセルの両方のタスクで最初のポジションを得た。

Our method builds upon previous Medical Out-of-Distribution (MOOD) challenge winners that empirically show that synthetic local anomalies generated copying / interpolating foreign patches are useful to train segmentation networks able to generalize to unseen types of anomalies. In terms of the synthetic anomaly generation process, our contributions makes synthetic anomalies more heterogeneous and challenging by 1) using random shapes instead of squares and 2) smoothing the interpolation edge of anomalies so networks cannot rely on the high gradient between image - foreign patch to identify anomalies. Our experiments using the validation set of 2020 MOOD winners show that both contributions improved substantially the method performance. We used a standard 3D U-Net architecture as segmentation network, trained patch-wise in both brain and abdominal datasets. Our final challenge submission consisted of 10 U-Nets trained across 5 data folds with different configurations of the anomaly generation process. Our method achieved first position in both sample-wise and pixel-wise tasks in the 2022 edition of the Medical Out-of-Distribution held at MICCAI.
翻訳日:2023-08-04 15:54:37 公開日:2023-08-02
# UPB at IberLEF-2023 AuTexTification: Transformer Ensembles を用いた機械生成テキストの検出

UPB at IberLEF-2023 AuTexTification: Detection of Machine-Generated Text using Transformer Ensembles ( http://arxiv.org/abs/2308.01408v1 )

ライセンス: Link先を確認
Andrei-Alexandru Preda, Dumitru-Clementin Cercel, Traian Rebedea, Costin-Gabriel Chiru(参考訳) 本稿では, UPB チームによる AuTexTification 共有タスクへのソリューションとして, IberleF-2023 の一部として紹介する。 私たちのチームは最初のサブタスクに参加し、人間の代わりに大きな言語モデルによって作成された文書を特定しました。 主催者は、法律文書、ソーシャルメディア投稿、ハウツー記事など、複数のドメインをカバーする英語とスペイン語のテキストからなる、このサブタスクのためのバイリンガルデータセットを提供した。 トランスフォーマーに基づくディープラーニングモデルや,マルチタスク学習や仮想敵訓練といったトレーニング技術を用いて,よりよい結果を得るための実験を行った。 私たちは3つのランを提出しました。そのうち2つはアンサンブルモデルです。 我々の最高のパフォーマンスモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。

This paper describes the solutions submitted by the UPB team to the AuTexTification shared task, featured as part of IberLEF-2023. Our team participated in the first subtask, identifying text documents produced by large language models instead of humans. The organizers provided a bilingual dataset for this subtask, comprising English and Spanish texts covering multiple domains, such as legal texts, social media posts, and how-to articles. We experimented mostly with deep learning models based on Transformers, as well as training techniques such as multi-task learning and virtual adversarial training to obtain better results. We submitted three runs, two of which consisted of ensemble models. Our best-performing model achieved macro F1-scores of 66.63% on the English dataset and 67.10% on the Spanish dataset.
翻訳日:2023-08-04 15:54:17 公開日:2023-08-02
# パンデミック時の第4国家の形状:8か国における新型コロナウイルスのニュース消費の実態調査

The Shapes of the Fourth Estate During the Pandemic: Profiling COVID-19 News Consumption in Eight Countries ( http://arxiv.org/abs/2308.01453v1 )

ライセンス: Link先を確認
Cai Yang, Lexing Xie, Siqi Wu(参考訳) ニュースメディアはしばしば第4国家と呼ばれ、その政治的権力を認知している。 世論調査が必ずしも選挙結果を反映せず、ユーザーがアルゴリズムによるコンテンツパーソナライゼーションの下でリアルタイムで影響を及ぼす時代において、メディアが政治的信念をどう形成し、集団行動に影響を与えるかという新たな理解が緊急に必要である。 本研究は,各国の異なるメディアを対象とした,平均だけでなく,聴衆の政治的傾きの分布も測定する。 これらの新措置の方法論的な構成要素には、高忠実度covid-19ツイートデータセット、高精度なユーザの位置情報抽出、地元の政治家を含む国内リツイートネットワークから推定されるユーザーの政治的傾倒が含まれる。 我々は,8カ国の地理的ユーザに注目し,各国のユーザ傾斜分布をプロファイルし,複数の国にまたがる橋渡しユーザを分析した。 フランスとトルコを除いて、他の6カ国で一貫したバイモーダルユーザーの傾き分布を観察し、クロスカントリーリツイートの行動がパルチザンの分断を越えて振動しないことを発見した。 さらに重要なことは、メディアドメインからURLを共有するユーザの傾きスコアを平均化することで、メディアバイアスの新たなセットに寄与する。 2つの検証を通じて,新しい平均的オーディエンス傾きスコアは,既存のメディアバイアススコアと強く相関することがわかった。 最後に、各国のトップメディア、および各国の選ばれたメディアを対象に、読者の傾向を調査し、新型コロナウイルスのニュース消費を概説する。 センタメディア ロイターは、米国のパルチザンメディアCNNよりも、よりバランスのとれたオーディエンスベースを持っていますか? 極右メディアのBreitbartは、どの国でも左派読者を惹きつけるだろうか? CNNは、英国よりも米国において、よりバランスのとれたオーディエンスベースに達していますか?

News media is often referred to as the Fourth Estate, a recognition of its political power. New understandings of how media shape political beliefs and influence collective behaviors are urgently needed in an era when public opinion polls do not necessarily reflect election results and users influence each other in real-time under algorithm-mediated content personalization. In this work, we measure not only the average but also the distribution of audience political leanings for different media across different countries. The methodological components of these new measures include a high-fidelity COVID-19 tweet dataset; high-precision user geolocation extraction; and user political leaning estimated from the within-country retweet networks involving local politicians. We focus on geolocated users from eight countries, profile user leaning distribution for each country, and analyze bridging users who have interactions across multiple countries. Except for France and Turkey, we observe consistent bi-modal user leaning distributions in the other six countries, and find that cross-country retweeting behaviors do not oscillate across the partisan divide. More importantly, this study contributes a new set of media bias estimates by averaging the leaning scores of users who share the URLs from media domains. Through two validations, we find that the new average audience leaning scores strongly correlate with existing media bias scores. Lastly, we profile the COVID-19 news consumption by examining the audience leaning distribution for top media in each country, and for selected media across all countries. Those analyses help answer questions such as: Does center media Reuters have a more balanced audience base than partisan media CNN in the US? Does far-right media Breitbart attract any left-leaning readers in any countries? Does CNN reach a more balanced audience base in the US than in the UK?
翻訳日:2023-08-04 15:49:32 公開日:2023-08-02
# サンプリングオーバーヘッドを超えたオープンダイナミクスのための量子誤差緩和の限界

Limitations of quantum error mitigation for open dynamics beyond sampling overhead ( http://arxiv.org/abs/2308.01446v1 )

ライセンス: Link先を確認
Yue Ma and M. S. Kim(参考訳) 力学の量子シミュレーションはnisq時代の重要な目標であり、量子誤差緩和はノイズの影響の修正や排除に有効な経路である可能性がある。 量子誤差緩和に関するほとんどの研究は、回路深度の指数関数的スケーリングによる資源コストに焦点が当てられている。 しかし、確率的誤差キャンセルのような手法は、有限時間ステップへの進化を離散化し、各時間ステップの後に緩和層を適用し、ハミルトン依存性のないノイズ部分だけを修正することに依存するため、誤差緩和が理想的に実装されたとしても、シミュレーション結果にトロッターのような誤差が存在する可能性がある。 ここでは、主に無視されてきた上記の誤りを分析し、シミュレーション対象のユニタリ部分のスーパーオペレーター、デバイスノイズ部分、オープンダイナミクスのノイズ部分との交換関係によって決定されることを示す。 ディジタル量子シミュレーションとアナログ量子シミュレーションの両方のセットアップを含み、ノイズチャネルを正確に反転させ、時間ステップで第1次に近似することで理想的な誤差軽減マップを定義することを検討する。 単一キュービットの玩具モデルを用いて、その結果を数値的に示す。 その結果, 量子誤差緩和法を段階的に連続ダイナミクスに適用する基本的な限界が示され, 真の時間連続誤差キャンセラ法の研究が動機づけられた。

Quantum simulation of dynamics is an important goal in the NISQ era, within which quantum error mitigation may be a viable path towards modifying or eliminating the effects of noise. Most studies on quantum error mitigation have been focused on the resource cost due to its exponential scaling in the circuit depth. However, as methods such as probabilistic error cancellation rely on discretizing the evolution into finite time steps and applying the mitigation layer after each time step, modifying only the noise part without any Hamiltonian-dependence, there may be Trotter-like errors in the simulation results even if the error mitigation is implemented ideally, meaning that the number of samples is taken as infinite. Here we analyze the aforementioned errors which have been largely neglected and show that, they are determined by the commutating relations between the superoperators of the unitary part, the device noise part and the noise part of the open dynamics to be simulated. We include both digital quantum simulation and analog quantum simulation setups, and consider defining the ideal error mitigation map both by exactly inverting the noise channel and by approximating it to the first order in the time step. We take single-qubit toy models to numerically demonstrate our findings. Our results illustrate fundamental limitations of applying quantum error mitigation methods in a stepwise manner to continuous dynamics, thus motivating the investigations of truly time-continuous error cancellation methods.
翻訳日:2023-08-04 15:49:01 公開日:2023-08-02
# 土木構造物のためのデジタルツインフレームワーク

A digital twin framework for civil engineering structures ( http://arxiv.org/abs/2308.01445v1 )

ライセンス: Link先を確認
Matteo Torzoni and Marco Tezzele and Stefano Mariani and Andrea Manzoni and Karen E. Willcox(参考訳) デジタルツインの概念は、シビルエンジニアリングシステムの条件ベースおよび予測保守パラダイムを前進させ、ライフサイクルコストの削減、システム安全性の向上、システム可用性の向上を可能にする魅力的な機会である。 本研究は,土木構造物の健康管理,維持管理,管理計画に関する予測的デジタルツインアプローチを提案する。 アセット・トウィン結合力学系は確率的グラフィカルモデルを用いて符号化され、関連する全ての不確実性源を考慮に入れることができる。 特に,動的ベイズネットワークを用いて時間繰り返し観測-決定フローをモデル化する。 リアルタイムな構造的健康診断は、センシングされたデータをディープラーニングモデルに同化することで実現される。 デジタルツイン状態はシーケンシャルベイズ推論方式で継続的に更新される。 これは、動的意思決定フレームワークにおける保守および管理アクションの最適な計画に使用される。 予備オフラインフェーズは、減数次数値モデルによるトレーニングデータセットの人口と、健康依存制御ポリシーの計算を含む。 この戦略は、カンチレバービームと鉄道橋を含む2つの合成ケーススタディで評価され、健康対応デジタル双生児の動的な意思決定能力を示している。

The digital twin concept represents an appealing opportunity to advance condition-based and predictive maintenance paradigms for civil engineering systems, thus allowing reduced lifecycle costs, increased system safety, and increased system availability. This work proposes a predictive digital twin approach to the health monitoring, maintenance, and management planning of civil engineering structures. The asset-twin coupled dynamical system is encoded employing a probabilistic graphical model, which allows all relevant sources of uncertainty to be taken into account. In particular, the time-repeating observations-to-decisions flow is modeled using a dynamic Bayesian network. Real-time structural health diagnostics are provided by assimilating sensed data with deep learning models. The digital twin state is continually updated in a sequential Bayesian inference fashion. This is then exploited to inform the optimal planning of maintenance and management actions within a dynamic decision-making framework. A preliminary offline phase involves the population of training datasets through a reduced-order numerical model and the computation of a health-dependent control policy. The strategy is assessed on two synthetic case studies, involving a cantilever beam and a railway bridge, demonstrating the dynamic decision-making capabilities of health-aware digital twins.
翻訳日:2023-08-04 15:48:37 公開日:2023-08-02
# 室内空気品質近似のための新しい物理モデル

Novel Physics-Based Machine-Learning Models for Indoor Air Quality Approximations ( http://arxiv.org/abs/2308.01438v1 )

ライセンス: Link先を確認
Ahmad Mohammadshirazi, Aida Nadafian, Amin Karimi Monsefi, Mohammad H. Rafiei, Rajiv Ramnath(参考訳) コスト効率のよいセンサーは、異なる汚染物質濃度から室内外湿度、温度まで、様々な空気品質関連モダリティをリアルタイムに捉えることができる。 機械学習(ML)モデルは、空気品質の"ahead-of-time"近似を実行することができる。 正確な室内空気質の近似は、健康な屋内環境を提供し、関連するエネルギー消費を最適化し、人間の快適性を提供する。 しかし、ドメイン知識、いわゆる問題物理学を捉えるためにMLアーキテクチャを設計することが不可欠である。 本研究では,室内汚染物質濃度近似のための6種類の物理モデルを提案する。 提案したモデルには、物理における状態空間の概念、Gated Recurrent Units、Decomposition(分解)技術の組み合わせが含まれる。 提案されたモデルは、カリフォルニア州の商業ビルの5つのオフィスから収集されたデータを使って図示された。 提案手法は, 従来の変圧器モデルよりも複雑で, 計算効率が高く, 精度も高かった。 提案モデルの優位性は、比較的軽量なアーキテクチャ(計算効率)と、より重要なのは、しばしば汚染されたセンサによる室内空気質の時間的データに埋め込まれた、基礎となる非線形パターンを捉える能力である。

Cost-effective sensors are capable of real-time capturing a variety of air quality-related modalities from different pollutant concentrations to indoor/outdoor humidity and temperature. Machine learning (ML) models are capable of performing air-quality "ahead-of-time" approximations. Undoubtedly, accurate indoor air quality approximation significantly helps provide a healthy indoor environment, optimize associated energy consumption, and offer human comfort. However, it is crucial to design an ML architecture to capture the domain knowledge, so-called problem physics. In this study, we propose six novel physics-based ML models for accurate indoor pollutant concentration approximations. The proposed models include an adroit combination of state-space concepts in physics, Gated Recurrent Units, and Decomposition techniques. The proposed models were illustrated using data collected from five offices in a commercial building in California. The proposed models are shown to be less complex, computationally more efficient, and more accurate than similar state-of-the-art transformer-based models. The superiority of the proposed models is due to their relatively light architecture (computational efficiency) and, more importantly, their ability to capture the underlying highly nonlinear patterns embedded in the often contaminated sensor-collected indoor air quality temporal data.
翻訳日:2023-08-04 15:48:18 公開日:2023-08-02
# シュロディンジェリスト波動関数はブラウン運動を説明できるか? II。 拡散係数

Can Schrodingerist Wavefunction Physics Explain Brownian Motion? II. The Diffusion Coefficient ( http://arxiv.org/abs/2308.01437v1 )

ライセンス: Link先を確認
W. David Wick(参考訳) 本シリーズの最初の論文では,重粒子の波動関数モデルと光粒子の集合が重粒子の「ブラウン運動様」軌道を生成できるかどうかを検討した。 私はそれが可能であると結論付けたが、アインシュタインの古典的プログラムにおける第二の主張は、時間の平方根に比例する拡散運動であり、時間に比例する弾道運動とは対照的である。 本稿では拡散係数の式と同様に拡散運動の基準を導出する。 残念ながら、paper iのように、モデルに正確な解決策がないため、基準のチェックが困難になる。 しかし、この方法の利点は、モデル固有値と固有関数に関する十分な情報が与えられた場合、拡散を確定的に決定できることである。

In the first paper of this series, I investigated whether a wavefunction model of a heavy particle and a collection of light particles might generate "Brownian-Motion-Like" trajectories of the heavy particle. I concluded that it was possible, but left unsettled the second claim in Einstein's classical program: diffusive motion, proportional to the square-root of time, as opposed to ballistic motion, proportional to the time. In this paper, I derive a criterion for diffusive motion, as well as an expression for the diffusion coefficient. Unfortunately, as in paper I, no exact solutions are available for the models, making checking the criterion difficult. But a virtue of the method employed here is that, given adequate information about model eigenvalues and eigenfunctions, diffusion can be definitively ruled in or out.
翻訳日:2023-08-04 15:47:58 公開日:2023-08-02
# 電気市場における価格対応型ディープラーニング

Price-Aware Deep Learning for Electricity Markets ( http://arxiv.org/abs/2308.01436v1 )

ライセンス: Link先を確認
Vladimir Dvorkin and Ferdinando Fioretto(参考訳) ディープラーニングは徐々に運用計画に浸透するが、その固有の予測エラーは電力価格に大きな影響を及ぼす可能性がある。 本稿では, 電力価格の予測誤差が電気価格にどのように伝播するかを考察し, 集電系統における価格誤差と空間格差を明らかにする。 公平性を向上させるため,深層学習層としての電力市場浄化最適化を提案する。 このレイヤを差別化することで、予測エラーと価格エラーのバランスをとることができる。 この層は暗黙的にフェアネスを最適化し、システム全体の価格誤差の空間分布を制御する。 我々は、風力予測と短期電力市場クリアリングの段階において、価格を意識したディープラーニングを披露する。

While deep learning gradually penetrates operational planning, its inherent prediction errors may significantly affect electricity prices. This letter examines how prediction errors propagate into electricity prices, revealing notable pricing errors and their spatial disparity in congested power systems. To improve fairness, we propose to embed electricity market-clearing optimization as a deep learning layer. Differentiating through this layer allows for balancing between prediction and pricing errors, as oppose to minimizing prediction errors alone. This layer implicitly optimizes fairness and controls the spatial distribution of price errors across the system. We showcase the price-aware deep learning in the nexus of wind power forecasting and short-term electricity market clearing.
翻訳日:2023-08-04 15:47:39 公開日:2023-08-02
# COVID-VR:Volume-Rendered Computer Tomographyを用いた深層学習型COVID-19分類モデル

COVID-VR: A Deep Learning COVID-19 Classification Model Using Volume-Rendered Computer Tomography ( http://arxiv.org/abs/2308.01433v1 )

ライセンス: Link先を確認
Noemi Maritza L. Romero and Ricco Vasconcellos and Mariana R. Mendoza and Jo\~ao L. D. Comba(参考訳) 新型コロナウイルスのパンデミックは世界中の医療システムに多くの課題をもたらした。 肺感染症がcovid-19患者に広まっていることから、胸部ctスキャンはcovid-19の病態や様々な種類の肺疾患を同定するための代替手段として頻繁に利用されている。 深層学習アーキテクチャは,CTスキャンスライスを分類モデルの入力として活用することにより,肺疾患の診断を自動化する。 本稿では,複数の角度から捉えた肺の容積レンダリング画像に基づいて,肺疾患を分類する新しいアプローチであるCOVID-VRを紹介した。 提案手法の有効性を評価するため,パートナー病院から得られた個人データと公開データセットの両方を利用した競合戦略と比較した。 本手法は肺病変を効果的に同定し,スライス法と比較して競合的に機能することを示した。

The COVID-19 pandemic presented numerous challenges to healthcare systems worldwide. Given that lung infections are prevalent among COVID-19 patients, chest Computer Tomography (CT) scans have frequently been utilized as an alternative method for identifying COVID-19 conditions and various other types of pulmonary diseases. Deep learning architectures have emerged to automate the identification of pulmonary disease types by leveraging CT scan slices as inputs for classification models. This paper introduces COVID-VR, a novel approach for classifying pulmonary diseases based on volume rendering images of the lungs captured from multiple angles, thereby providing a comprehensive view of the entire lung in each image. To assess the effectiveness of our proposal, we compared it against competing strategies utilizing both private data obtained from partner hospitals and a publicly available dataset. The results demonstrate that our approach effectively identifies pulmonary lesions and performs competitively when compared to slice-based methods.
翻訳日:2023-08-04 15:47:27 公開日:2023-08-02
# 変分量子コンピューティングのためのリー代数古典シミュレーション

Lie-algebraic classical simulations for variational quantum computing ( http://arxiv.org/abs/2308.01432v1 )

ライセンス: Link先を確認
Matthew L. Goh, Martin Larocca, Lukasz Cincio, M. Cerezo, Fr\'ed\'eric Sauvage(参考訳) 量子力学の古典的なシミュレーションは、量子複雑性の理解や量子技術の発展に重要な役割を果たしている。 他の効率的な古典シミュレーション技術と比較して、量子力学のリー代数構造に依存する手法はあまり注目されていない。 それらの中心において、これらのシミュレーションは力学過程の基盤となるリー代数、および関連するリー群を利用する。 したがって、大きな行列の個々のエントリを追跡する代わりに、その代数的分解が進化の間にどのように変化するかを追跡する。 代数の次元が小さいとき(例えば、系の大きさで最も多項式的に成長する)、効率的なシミュレーション技術を利用することができる。 本稿では,これらの手法の基礎を概観し,我々が「$\mathfrak{g}$-sim」と呼ぶフレームワークを示し,その効率的な実装をいくつかのパラダイム的変動量子コンピューティングタスクで示す。 具体的には、並列化量子回路のトレーニングと最適化、拡張パラメータ初期化戦略の設計、量子回路合成の課題の解決、量子位相分類器の訓練を行う。

Classical simulation of quantum dynamics plays an important role in our understanding of quantum complexity, and in the development of quantum technologies. Compared to other techniques for efficient classical simulations, methods relying on the Lie-algebraic structure of quantum dynamics have received relatively little attention. At their core, these simulations leverage the underlying Lie algebra - and the associated Lie group - of a dynamical process. As such, rather than keeping track of the individual entries of large matrices, one instead keeps track of how its algebraic decomposition changes during the evolution. When the dimension of the algebra is small (e.g., growing at most polynomially in the system size), one can leverage efficient simulation techniques. In this work, we review the basis for such methods, presenting a framework that we call "$\mathfrak{g}$-sim", and showcase their efficient implementation in several paradigmatic variational quantum computing tasks. Specifically, we perform Lie-algebraic simulations to train and optimize parametrized quantum circuits, design enhanced parameter initialization strategies, solve tasks of quantum circuit synthesis, and train a quantum-phase classifier.
翻訳日:2023-08-04 15:47:10 公開日:2023-08-02
# 暗号通貨仲裁のための微分進化VQE 多くの局所ミニマを用いた量子最適化

Differential Evolution VQE for Crypto-currency Arbitrage. Quantum Optimization with many local minima ( http://arxiv.org/abs/2308.01427v1 )

ライセンス: Link先を確認
Gines Carrascal, Beatriz Roman, Guillermo Botella and Alberto del Barrio(参考訳) 暗号通貨市場は非効率であることが知られており、利益の出る循環取引や仲裁の機会を提供し、ある通貨がリスクを伴わずに純利益をもたらす方法で他の通貨と取引される。 量子コンピューティングは金融アプリケーション、特に仲裁のような最適化問題の解決において有望である。 本稿では,Qiskitフレームワークを用いた変分量子固有解法(VQE)の微分進化(DE)最適化アルゴリズムを提案する。 異なるVQEオプティマイザを用いた暗号通貨仲裁の適用を解明する。 提案手法は,COBYLAなどの他の最適化手法がグローバルな最小値を見つけるのに苦労するシナリオにおいて,最適解に効果的に収束することが示唆された。 我々はさらに、ibmの実際の量子マシンで127キュービットまでこの手順の実行可能性をテストする。 3値のシナリオでは、アルゴリズムは"ibm_geneva"マシン上で12時間にわたって417ステップで収束した。 これらの結果は、ますます複雑な問題を解く上で量子優位を達成する可能性を示唆している。

Crypto-currency markets are known to exhibit inefficiencies, which presents opportunities for profitable cyclic transactions or arbitrage, where one currency is traded for another in a way that results in a net gain without incurring any risk. Quantum computing has shown promise in financial applications, particularly in resolving optimization problems like arbitrage. In this paper, we introduce a differential evolution (DE) optimization algorithm for Variational Quantum Eigensolver (VQE) using Qiskit framework. We elucidate the application of crypto-currency arbitrage using different VQE optimizers. Our findings indicate that the proposed DE-based method effectively converges to the optimal solution in scenarios where other commonly used optimizers, such as COBYLA, struggle to find the global minimum. We further test this procedure's feasibility on IBM's real quantum machines up to 127 qubits. With a three-currency scenario, the algorithm converged in 417 steps over a 12-hour period on the "ibm_geneva" machine. These results suggest the potential for achieving a quantum advantage in solving increasingly complex problems.
翻訳日:2023-08-04 15:45:46 公開日:2023-08-02
# HANDAL: Pose Annotation, Affordances, Restructionsを備えた実世界の操作可能なオブジェクトカテゴリのデータセット

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions ( http://arxiv.org/abs/2308.01477v1 )

ライセンス: Link先を確認
Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield(参考訳) 本稿では,カテゴリレベルのオブジェクトポーズ推定とアベイランス予測のためのHANDALデータセットを提案する。 これまでのデータセットとは異なり、wesはロボットのマニピュレータ(ペンチ、道具、スクリュードライバーなど)による機能把握に適した大きさと形状のロボット対応マニピュレータに焦点を当てている。 当社のアノテーションプロセスは合理化されており、市販のカメラとセミオートマチックな処理だけで、クラウドソーシングなしで高品質な3dアノテーションを作成できます。 データセットは、17のカテゴリの212の現実世界のオブジェクトの2.2kビデオから308kの注釈付き画像フレームで構成されている。 我々は,ロボットマニピュレータが単純な押圧や識別不能な把握以上の環境と対話する必要がある現実的なシナリオにおいて,ハードウェアおよびキッチンツールオブジェクトに焦点をあてる。 6-DoFカテゴリレベルのポーズ+スケール推定と関連するタスクに対するデータセットの有用性について概説する。 また、すべてのオブジェクトの3d再構築メッシュを提供し、このようなデータセットのコレクションを民主化するために対処すべきボトルネックを概説します。

We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
翻訳日:2023-08-04 15:36:28 公開日:2023-08-02
# 発見のための解釈可能な機械学習: 統計的課題と機会

Interpretable Machine Learning for Discovery: Statistical Challenges \& Opportunities ( http://arxiv.org/abs/2308.01475v1 )

ライセンス: Link先を確認
Genevera I. Allen, Luqin Gan, Lili Zheng(参考訳) 新しい技術は、多くの科学分野や産業にまたがる大規模で複雑なデータセットを生み出した。 人々は機械学習のテクニックを、このビッグデータの処理、可視化、予測だけでなく、データ駆動的な発見にも常用します。 これらの発見はしばしば、解釈可能な機械学習、または人間の理解可能な洞察をもたらす機械学習モデルと技術を用いて行われる。 本稿では,解釈可能な機械学習の分野について論じ,特に新たな知識の生成や大規模データセットからの発見によく使用される技術に注目した。 教師なしと教師なしの両方の設定で、Interpretable Machine Learningを使ってできる発見のタイプを概説する。 さらに、これらの発見をデータ駆動方式で検証する方法に関する大きな課題に注目し、機械学習システムへの信頼と科学における再現性を促進する。 本研究では,データ分割と安定性に基づくアプローチをレビューし,理論的な観点からモデル選択一貫性と不確かさの定量化に関する統計的結果のレビューを行った。 最後に,データ駆動型発見の検証のための理論と実践のギャップを含む,解釈可能な機械学習技術を用いた発見の難しさを強調する。

New technologies have led to vast troves of large and complex datasets across many scientific domains and industries. People routinely use machine learning techniques to not only process, visualize, and make predictions from this big data, but also to make data-driven discoveries. These discoveries are often made using Interpretable Machine Learning, or machine learning models and techniques that yield human understandable insights. In this paper, we discuss and review the field of interpretable machine learning, focusing especially on the techniques as they are often employed to generate new knowledge or make discoveries from large data sets. We outline the types of discoveries that can be made using Interpretable Machine Learning in both supervised and unsupervised settings. Additionally, we focus on the grand challenge of how to validate these discoveries in a data-driven manner, which promotes trust in machine learning systems and reproducibility in science. We discuss validation from both a practical perspective, reviewing approaches based on data-splitting and stability, as well as from a theoretical perspective, reviewing statistical results on model selection consistency and uncertainty quantification via statistical inference. Finally, we conclude by highlighting open challenges in using interpretable machine learning techniques to make discoveries, including gaps between theory and practice for validating data-driven-discoveries.
翻訳日:2023-08-04 15:36:10 公開日:2023-08-02
# 逆安定拡散: この画像を生成するためにどのプロンプトが使われたか?

Reverse Stable Diffusion: What prompt was used to generate this image? ( http://arxiv.org/abs/2308.01472v1 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Mubarak Shah(参考訳) 安定拡散のようなテキストから画像への拡散モデルは、近年多くの研究者の関心を惹きつけており、拡散過程の反転は、生成過程と、所望の画像を得るためにどのようにプロンプトを設計すべきかを理解する上で重要な役割を果たす。 そこで本研究では,生成拡散モデルによって生成された画像からテキストプロンプトを予測する新しいタスクを提案する。 提案するタスクに対処するために,ホワイトボックスモデルとブラックボックスモデル(拡散ネットワークの重み付きおよびアクセスの無いモデル)を組み合わせる。 本稿では,改良されたプロンプトを生成する共同プロンプト回帰と多ラベル語彙分類の目的からなる新しい学習フレームワークを提案する。 提案手法をさらに改良するために,低ラベリング雑音によるイメージプロンプトペアの学習を促進するカリキュラム学習手法と,ソース内のサンプルとターゲットドメインとの類似性を付加的な特徴として利用する教師なしドメイン適応型カーネル学習手法を用いる。 我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。 この新しい学習フレームワークは,上記のタスクに対して優れた結果をもたらし,ホワイトボックスモデルに適用した場合の最高値を得る。 さらに,本モデルがテキスト・画像生成に直接再利用される場合,プロンプト生成タスク上で拡散モデルをトレーニングすることで,入力プロンプトに整合した画像を生成することができる,という興味深い発見を行う。

Text-to-image diffusion models such as Stable Diffusion have recently attracted the interest of many researchers, and inverting the diffusion process can play an important role in better understanding the generative process and how to engineer prompts in order to obtain the desired images. To this end, we introduce the new task of predicting the text prompt given an image generated by a generative diffusion model. We combine a series of white-box and black-box models (with and without access to the weights of the diffusion network) to deal with the proposed task. We propose a novel learning framework comprising of a joint prompt regression and multi-label vocabulary classification objective that generates improved prompts. To further improve our method, we employ a curriculum learning procedure that promotes the learning of image-prompt pairs with lower labeling noise (i.e. that are better aligned), and an unsupervised domain-adaptive kernel learning method that uses the similarities between samples in the source and target domains as extra features. We conduct experiments on the DiffusionDB data set, predicting text prompts from images generated by Stable Diffusion. Our novel learning framework produces excellent results on the aforementioned task, yielding the highest gains when applied on the white-box model. In addition, we make an interesting discovery: training a diffusion model on the prompt generation task can make the model generate images that are much better aligned with the input prompts, when the model is directly reused for text-to-image generation.
翻訳日:2023-08-04 15:35:50 公開日:2023-08-02
# 自律運転における知覚と予測のための暗黙的占有フロー場

Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving ( http://arxiv.org/abs/2308.01471v1 )

ライセンス: Link先を確認
Ben Agro, Quinlan Sykora, Sergio Casas, Raquel Urtasun(参考訳) 自動運転車(SDV)は周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。 既存の作業では、検出されたオブジェクトの軌道予測に続いてオブジェクト検出を行うか、シーン全体の密度の高い占有とフローグリッドを予測する。 前者は、効率上の理由から検出回数を低く抑える必要があり、オブジェクトのリコールを犠牲にするので、安全性上の懸念がある。 後者は出力グリッドの高次元性のため計算コストが高く、完全に畳み込みネットワークに固有の限られた受容場に悩まされる。 さらに、どちらの手法も、運動プランナーによってクエリされないかもしれない領域やオブジェクトを予測する多くの計算資源を用いる。 これは、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現する、知覚と将来の予測に対する我々の統一的なアプローチを動機付ける。 本手法は, 連続時空間における運動プランナーの直接的な問い合わせが可能であるため, 不要な計算を回避する。 さらに,従来の明示的占有予測手法の限定的受容領域を克服するアーキテクチャを,効率的かつ効果的なグローバルアテンション機構を追加して設計する。 都市と高速道路の両方で広範な実験を行い、我々の暗黙のモデルが現在の最先端を上回っていることを実証する。 詳しくはプロジェクトのWebサイトを参照してください。

A self-driving vehicle (SDV) must be able to perceive its surroundings and predict the future behavior of other traffic participants. Existing works either perform object detection followed by trajectory forecasting of the detected objects, or predict dense occupancy and flow grids for the whole scene. The former poses a safety concern as the number of detections needs to be kept low for efficiency reasons, sacrificing object recall. The latter is computationally expensive due to the high-dimensionality of the output grid, and suffers from the limited receptive field inherent to fully convolutional networks. Furthermore, both approaches employ many computational resources predicting areas or objects that might never be queried by the motion planner. This motivates our unified approach to perception and future prediction that implicitly represents occupancy and flow over time with a single neural network. Our method avoids unnecessary computation, as it can be directly queried by the motion planner at continuous spatio-temporal locations. Moreover, we design an architecture that overcomes the limited receptive field of previous explicit occupancy prediction methods by adding an efficient yet effective global attention mechanism. Through extensive experiments in both urban and highway settings, we demonstrate that our implicit model outperforms the current state-of-the-art. For more information, visit the project website: https://waabi.ai/research/implicito.
翻訳日:2023-08-04 15:35:21 公開日:2023-08-02
# vertexserum: リンク推論のための有毒グラフニューラルネットワーク

VertexSerum: Poisoning Graph Neural Networks for Link Inference ( http://arxiv.org/abs/2308.01469v1 )

ライセンス: Link先を確認
Ruyi Ding, Shijin Duan, Xiaolin Xu, Yunsi Fei(参考訳) グラフニューラルネットワーク(gnns)は,ソーシャル分析や不正検出など,グラフ構造データを活用したさまざまなアプリケーションにおいて,優れたパフォーマンスを実現している。 グラフリンク、例えば社会関係や取引履歴は機密性の高い貴重な情報であり、gnnを使用する際のプライバシーの懸念を引き起こす。 これらの脆弱性を悪用するため,我々は,リンク接続リークの増幅によりグラフリンク盗みの有効性を高める新しいグラフ中毒攻撃であるvertexserumを提案する。 ノード隣接度をより正確に推定するために,リンク検出ネットワークに埋め込み可能な注意機構を提案する。 私たちの実験では、 vertexserum は sota link inference attack を大きく上回り、4つの実世界のデータセットと3つの異なる gnn 構造で平均 9.8\%$ で auc スコアを改善している。 さらに,本実験では,ブラックボックスとオンラインの学習環境における頂点セラムの有効性を明らかにし,実世界シナリオへの適用性をさらに検証した。

Graph neural networks (GNNs) have brought superb performance to various applications utilizing graph structural data, such as social analysis and fraud detection. The graph links, e.g., social relationships and transaction history, are sensitive and valuable information, which raises privacy concerns when using GNNs. To exploit these vulnerabilities, we propose VertexSerum, a novel graph poisoning attack that increases the effectiveness of graph link stealing by amplifying the link connectivity leakage. To infer node adjacency more accurately, we propose an attention mechanism that can be embedded into the link detection network. Our experiments demonstrate that VertexSerum significantly outperforms the SOTA link inference attack, improving the AUC scores by an average of $9.8\%$ across four real-world datasets and three different GNN structures. Furthermore, our experiments reveal the effectiveness of VertexSerum in both black-box and online learning settings, further validating its applicability in real-world scenarios.
翻訳日:2023-08-04 15:34:59 公開日:2023-08-02
# 気候モデルダウンスケーリングのための多変数ハード物理制約

Multi-variable Hard Physical Constraints for Climate Model Downscaling ( http://arxiv.org/abs/2308.01868v1 )

ライセンス: Link先を確認
Jose Gonz\'alez-Abad, \'Alex Hern\'andez-Garc\'ia, Paula Harder, David Rolnick, Jos\'e Manuel Guti\'errez(参考訳) 地球温暖化モデル(GCM)は、気候変動の進化をシミュレートし、気候変動の影響を評価する主要なツールである。 しかし、しばしば局所的な現象を再現する精度を制限した粗い空間分解能で動作する。 ディープラーニングを活用した統計的ダウンスケーリング手法は、局所的な気候を粗い変数から近似することで、この問題に対する解決策を提供する。 一般的に、異なる変数の気候場は独立してスケールダウンされ、相互接続された変数間の基本的な物理的性質に違反する。 本研究は, この問題の範囲について検討し, 温度適用を通じて, 大規模気候変数群間の物理的関係を保証する多変量制約を導入する枠組みの基礎を定めている。

Global Climate Models (GCMs) are the primary tool to simulate climate evolution and assess the impacts of climate change. However, they often operate at a coarse spatial resolution that limits their accuracy in reproducing local-scale phenomena. Statistical downscaling methods leveraging deep learning offer a solution to this problem by approximating local-scale climate fields from coarse variables, thus enabling regional GCM projections. Typically, climate fields of different variables of interest are downscaled independently, resulting in violations of fundamental physical properties across interconnected variables. This study investigates the scope of this problem and, through an application on temperature, lays the foundation for a framework introducing multi-variable hard constraints that guarantees physical relationships between groups of downscaled climate variables.
翻訳日:2023-08-04 13:19:02 公開日:2023-08-02
# 周期境界条件をもつ高次元拡散方程式に対する圧縮フーリエコロケーション法

Compressive Fourier collocation methods for high-dimensional diffusion equations with periodic boundary conditions ( http://arxiv.org/abs/2206.01255v3 )

ライセンス: Link先を確認
Weiqi Wang and Simone Brugiapaglia(参考訳) 高次元偏微分方程式(英: High-dimensional partial Differential Equations, PDE)は、ファイナンスから計算化学まで多岐にわたる数学モデリングツールである。 しかしながら、これらのPDEを解くための標準的な数値手法は、一般に次元の呪いの影響を受けている。 本研究では,周期境界条件を持つ高次元領域上で定義される定常拡散方程式に着目しながら,この問題に取り組む。 高次元におけるスパース関数近似の最近の進歩に触発されて, 圧縮フーリエコロケーションと呼ばれる新しい手法を提案する。 圧縮センシングとスペクトルコロケーションのアイデアを組み合わせることで,構造化コロケーショングリッドをモンテカルロサンプリングに置き換え,直交マッチング追従法や$\ell^1$最小化法などのスパースリカバリ技術を用いてpde溶液のフーリエ係数を近似する。 提案手法の近似誤差が解に対する(フーリエ基底に関して)最良の$s$項近似に匹敵することを示す厳密な理論解析を行う。 最近導入された有界リース系におけるランダムサンプリングの枠組みを用いて, 圧縮フーリエコロケーション法は, 拡散係数の正則性に関する十分な条件下でのコロケーション点数に対して, 次元の呪いを緩和することを示した。 また, 分散解と圧縮解の近似法について, 精度と安定性を示す数値実験を行った。

High-dimensional Partial Differential Equations (PDEs) are a popular mathematical modelling tool, with applications ranging from finance to computational chemistry. However, standard numerical techniques for solving these PDEs are typically affected by the curse of dimensionality. In this work, we tackle this challenge while focusing on stationary diffusion equations defined over a high-dimensional domain with periodic boundary conditions. Inspired by recent progress in sparse function approximation in high dimensions, we propose a new method called compressive Fourier collocation. Combining ideas from compressive sensing and spectral collocation, our method replaces the use of structured collocation grids with Monte Carlo sampling and employs sparse recovery techniques, such as orthogonal matching pursuit and $\ell^1$ minimization, to approximate the Fourier coefficients of the PDE solution. We conduct a rigorous theoretical analysis showing that the approximation error of the proposed method is comparable with the best $s$-term approximation (with respect to the Fourier basis) to the solution. Using the recently introduced framework of random sampling in bounded Riesz systems, our analysis shows that the compressive Fourier collocation method mitigates the curse of dimensionality with respect to the number of collocation points under sufficient conditions on the regularity of the diffusion coefficient. We also present numerical experiments that illustrate the accuracy and stability of the method for the approximation of sparse and compressible solutions.
翻訳日:2023-08-03 18:35:09 公開日:2023-08-02
# 時空間時系列からのスパースグラフ学習

Sparse Graph Learning from Spatiotemporal Time Series ( http://arxiv.org/abs/2205.13492v3 )

ライセンス: Link先を確認
Andrea Cini, Daniele Zambon, Cesare Alippi(参考訳) 時空間時系列解析におけるグラフニューラルネットワークの成果は、関係性制約が神経予測アーキテクチャに効果的な帰納バイアスをもたらすことを示している。 しかし、基礎となるデータ生成過程を特徴付ける関係情報は利用できないことが多く、実践者はその後の処理段階で、関係グラフが使用するデータから推測する問題に悩まされる。 本稿では,グラフ上の分布として関係依存性を学習し,タスクのエンドツーエンド性能を最大化する新しい確率的スコアベース手法を提案する。 提案するグラフ学習フレームワークは,モンテカルロスコアに基づく勾配推定のための統合分散低減手法を基礎とし,理論的に接地し,実際に効果的であることを示す。 本稿では,時系列予測問題に着目し,勾配推定器をグラフ学習問題に適合させることで,学習グラフの空間性や計算スケーラビリティを制御しながら,最先端のパフォーマンスを実現することができることを示す。 提案手法を総合的および実世界のベンチマークでの有効性を実証的に評価し,提案手法が,エンドツーエンド予測アーキテクチャのグラフ学習コンポーネントと同様にスタンドアロンのグラフ識別手順として使用できることを示した。

Outstanding achievements of graph neural networks for spatiotemporal time series analysis show that relational constraints introduce an effective inductive bias into neural forecasting architectures. Often, however, the relational information characterizing the underlying data-generating process is unavailable and the practitioner is left with the problem of inferring from data which relational graph to use in the subsequent processing stages. We propose novel, principled - yet practical - probabilistic score-based methods that learn the relational dependencies as distributions over graphs while maximizing end-to-end the performance at task. The proposed graph learning framework is based on consolidated variance reduction techniques for Monte Carlo score-based gradient estimation, is theoretically grounded, and, as we show, effective in practice. In this paper, we focus on the time series forecasting problem and show that, by tailoring the gradient estimators to the graph learning problem, we are able to achieve state-of-the-art performance while controlling the sparsity of the learned graph and the computational scalability. We empirically assess the effectiveness of the proposed method on synthetic and real-world benchmarks, showing that the proposed solution can be used as a stand-alone graph identification procedure as well as a graph learning component of an end-to-end forecasting architecture.
翻訳日:2023-08-03 18:34:42 公開日:2023-08-02
# DePA: 依存性認識デコーダによる非自己回帰機械翻訳の改善

DePA: Improving Non-autoregressive Machine Translation with Dependency-Aware Decoder ( http://arxiv.org/abs/2203.16266v2 )

ライセンス: Link先を確認
Jiaao Zhan, Qian Chen, Boxing Chen, Wen Wang, Yu Bai, Yang Gao(参考訳) 非自己回帰機械翻訳(nat)モデルは、natデコーダがデコーダ入力の以前のターゲットトークンに依存しないため、自己回帰機械翻訳(at)モデルよりも翻訳品質が低い。 完全NATモデルのデコーダにおいて,デコーダの自己アテンションとデコーダ入力という2つの視点から,ターゲット依存性モデリングを強化するための,新規で汎用的な依存性対応デコーダ(DePA)を提案する。 まず,NATトレーニング前の自己回帰前向き事前学習フェーズを提案し,NATデコーダが最終NATトレーニングの双方向目標依存性を徐々に学習できるようにする。 第二に、デコーダの入力をソース言語表現空間からターゲット言語表現空間に変換し、新しい注意変換プロセスにより、デコーダが対象の依存関係をよりよくキャプチャできるようにする。 DePAは完全にNATモデルに適用できる。 大規模な実験により、DePAはWMTとIWSLTのベンチマークで高い競争力と最先端のNATモデルを最大1.88BLEUゲインで改善し、他の完全なNATモデルに匹敵する推論レイテンシを維持した。

Non-autoregressive machine translation (NAT) models have lower translation quality than autoregressive translation (AT) models because NAT decoders do not depend on previous target tokens in the decoder input. We propose a novel and general Dependency-Aware Decoder (DePA) to enhance target dependency modeling in the decoder of fully NAT models from two perspectives: decoder self-attention and decoder input. First, we propose an autoregressive forward-backward pre-training phase before NAT training, which enables the NAT decoder to gradually learn bidirectional target dependencies for the final NAT training. Second, we transform the decoder input from the source language representation space to the target language representation space through a novel attentive transformation process, which enables the decoder to better capture target dependencies. DePA can be applied to any fully NAT models. Extensive experiments show that DePA consistently improves highly competitive and state-of-the-art fully NAT models on widely used WMT and IWSLT benchmarks by up to 1.88 BLEU gain, while maintaining the inference latency comparable to other fully NAT models.
翻訳日:2023-08-03 18:34:21 公開日:2023-08-02
# 非同期、オプションベースのマルチエージェントポリシー勾配:条件付き推論アプローチ

Asynchronous, Option-Based Multi-Agent Policy Gradient: A Conditional Reasoning Approach ( http://arxiv.org/abs/2203.15925v3 )

ライセンス: Link先を確認
Xubo Lyu, Amin Banitalebi-Dehkordi, Mo Chen, Yong Zhang(参考訳) 協調的マルチエージェント問題はエージェント間の調整を必要とすることが多く、グローバルな状態を考慮した集中的な政策によって達成される。 マルチエージェントポリシー勾配法(MAPG)は、一般的にそのようなポリシーを学ぶために用いられるが、低レベルアクション空間の問題に限られることが多い。 大きな状態空間とアクション空間を持つ複雑な問題では、ポリシー検索効率を改善するために、オプションとして知られる高レベルアクションを使用するようにmapgメソッドを拡張するのが有利である。 しかし、マルチロボットオプションの実行はしばしば非同期であり、エージェントは異なる時間ステップでオプションを選択して完了することができる。 これにより、MAPGメソッドが常に新しいオプションを選択するため、集中型ポリシーを導出し、その勾配を評価することが困難になる。 本稿では,この問題を解決するための新しい条件付き推論手法を提案し,経験的検証を通じて,代表的オプション型マルチエージェント協調タスクの有効性を示す。 https://sites.google.com/view/mahrlsupp/}{https://sites.google.com/view/mahrlsupp/} を参照。

Cooperative multi-agent problems often require coordination between agents, which can be achieved through a centralized policy that considers the global state. Multi-agent policy gradient (MAPG) methods are commonly used to learn such policies, but they are often limited to problems with low-level action spaces. In complex problems with large state and action spaces, it is advantageous to extend MAPG methods to use higher-level actions, also known as options, to improve the policy search efficiency. However, multi-robot option executions are often asynchronous, that is, agents may select and complete their options at different time steps. This makes it difficult for MAPG methods to derive a centralized policy and evaluate its gradient, as centralized policy always select new options at the same time. In this work, we propose a novel, conditional reasoning approach to address this problem and demonstrate its effectiveness on representative option-based multi-agent cooperative tasks through empirical validation. Find code and videos at: \href{https://sites.google.com/view/mahrlsupp/}{https://sites.google.com/view/mahrlsupp/}
翻訳日:2023-08-03 18:33:57 公開日:2023-08-02
# fabricated flips: データ無しでフェデレーション学習を毒殺

Fabricated Flips: Poisoning Federated Learning without Data ( http://arxiv.org/abs/2202.05877v2 )

ライセンス: Link先を確認
Jiyue Huang, Zilong Zhao, Lydia Y. Chen, Stefanie Roos(参考訳) フェデレーション学習(fl)に対する攻撃は、生成されたモデルの品質を著しく低下させ、オンプレミスの分散学習を可能にするこの新興学習パラダイムの有用性を制限できる。 しかし、既存の非標的攻撃は多くのシナリオにおいて実用的ではない。 一 攻撃者は、良心のクライアントの更新の度に知るか、又は 二 攻撃者は、良性当事者を模倣した更新をローカルに訓練するための大規模なデータセットを有する。 本稿では,悪質なデータを合成して,悪意あるクライアントの送信を全く盗むことなく,あるいは大量のタスク固有のトレーニングデータを必要とすることなく,敵モデルを構築するDFAを提案する。 DFA(DFA-R)とDFA-G(DFA-G)の2つのバリエーションを設計する。 具体的には、dfa-rは悪質なデータ層を反復的に最適化し、グローバルモデルのすべての出力の予測信頼性を最小化する一方、dfa-gは、グローバルモデルの出力を特定のクラスに向けて操ることで悪意のあるデータ生成ネットワークをインタラクティブに訓練する。 Fashion-MNIST、Cifar-10、SVHNの実験結果から、DFAは既存の攻撃よりも仮定が少ないにもかかわらず、様々な最先端の防御機構に対する標的外攻撃よりも、類似またはそれ以上の攻撃成功率を達成することが示された。 具体的には、cifar-10のケースの少なくとも50%で、すべての防御機構を回避でき、精度を2倍に減らすこともしばしばある。 その結果、データフリー攻撃から保護するために特別に作られた防御であるREFDを設計した。 REFDは参照データセットを活用して、バイアスや信頼性の低い更新を検出する。 悪意のある更新をフィルタリングすることで既存の防御を大幅に改善し、高いグローバルモデル精度を実現する。

Attacks on Federated Learning (FL) can severely reduce the quality of the generated models and limit the usefulness of this emerging learning paradigm that enables on-premise decentralized learning. However, existing untargeted attacks are not practical for many scenarios as they assume that i) the attacker knows every update of benign clients, or ii) the attacker has a large dataset to locally train updates imitating benign parties. In this paper, we propose a data-free untargeted attack (DFA) that synthesizes malicious data to craft adversarial models without eavesdropping on the transmission of benign clients at all or requiring a large quantity of task-specific training data. We design two variants of DFA, namely DFA-R and DFA-G, which differ in how they trade off stealthiness and effectiveness. Specifically, DFA-R iteratively optimizes a malicious data layer to minimize the prediction confidence of all outputs of the global model, whereas DFA-G interactively trains a malicious data generator network by steering the output of the global model toward a particular class. Experimental results on Fashion-MNIST, Cifar-10, and SVHN show that DFA, despite requiring fewer assumptions than existing attacks, achieves similar or even higher attack success rate than state-of-the-art untargeted attacks against various state-of-the-art defense mechanisms. Concretely, they can evade all considered defense mechanisms in at least 50% of the cases for CIFAR-10 and often reduce the accuracy by more than a factor of 2. Consequently, we design REFD, a defense specifically crafted to protect against data-free attacks. REFD leverages a reference dataset to detect updates that are biased or have a low confidence. It greatly improves upon existing defenses by filtering out the malicious updates and achieves high global model accuracy
翻訳日:2023-08-03 18:33:37 公開日:2023-08-02
# 制約測定による量子状態トモグラフィーのニューラルネットワークによる拡張に関する研究

On how neural networks enhance quantum state tomography with constrained measurements ( http://arxiv.org/abs/2111.09504v2 )

ライセンス: Link先を確認
Hailan Ma, Daoyi Dong, Ian R. Petersen, Chang-Jiang Huang, Guo-Yong Xiang(参考訳) 量子状態の密度行列の再構成を目的とした量子状態トモグラフィーは、様々な新興量子技術において重要な役割を果たす。 機械学習はロバスト性と一般化に適しているという直観に触発されて,深層ニューラルネットワークを用いた量子状態トモグラフィ(dnn-qst)手法を提案する。 数値計算により,DNN-QSTは測定資源が限られている量子状態トモグラフィーにおいて高い忠実性を実現する大きな可能性を示し,トモグラフィ計測がノイズに悩まされる際の推定精度の向上を図っている。 さらに、量子光学デバイスからの2量子状態の結果は、DNN-QSTの一般化と、実験装置における潜在的なエラーに対する堅牢性を示す。

Quantum state tomography aiming at reconstructing the density matrix of a quantum state plays an important role in various emerging quantum technologies. Inspired by the intuition that machine learning has favorable robustness and generalization, we propose a deep neural networks based quantum state tomography (DNN-QST) approach, which are applied to three measurement-constrained cases, including few measurement copies and incomplete measurements as well as noisy measurements. Numerical results demonstrate that DNN-QST exhibits a great potential to achieve high fidelity for quantum state tomography with limited measurement resources and can achieve improved estimation when tomographic measurements suffer from noise. In addition, the results for 2-qubit states from quantum optical devices demonstrate the generalization of DNN-QST and its robustness against possible error in the experimental devices.
翻訳日:2023-08-03 18:33:03 公開日:2023-08-02
# 継承的特徴表現

Successor Feature Representations ( http://arxiv.org/abs/2110.15701v4 )

ライセンス: Link先を確認
Chris Reinke, Xavier Alameda-Pineda(参考訳) 強化学習の伝達は、経験豊富なソースタスクからの知識を使用して、ターゲットタスクの学習性能を向上させることを目的としている。 successor representations (sr) と extension successor features (sf) は、報酬関数がタスク間で変化するドメインにおける顕著な転送メカニズムである。 彼らは、知識を伝達するための新しい目標タスクにおいて、学習済みのポリシーの期待した回帰を再評価する。 SFフレームワークは、報酬を後継特徴に線形に分解することでSRを拡張し、高次元タスクに応用できる報酬重みベクトルを開発した。 しかし、これは報酬関数と後継機能の間に線形関係を持つコストが伴い、そのような線形関係が存在するタスクにその適用を制限した。 本稿では,後継特徴表現(SFR)の累積割引確率を学習したSRの新たな定式化を提案する。 重要なことは、SFRは一般的な報酬関数に対するポリシーの再評価を可能にする。 我々は、異なるSFR変動を導入し、その収束性を証明し、転送性能を保証する。 関数近似を用いたSFRによる実験的評価は、一般報酬関数だけでなく、線形分解可能な報酬関数においても、SFよりも有利であることを示す。

Transfer in Reinforcement Learning aims to improve learning performance on target tasks using knowledge from experienced source tasks. Successor Representations (SR) and their extension Successor Features (SF) are prominent transfer mechanisms in domains where reward functions change between tasks. They reevaluate the expected return of previously learned policies in a new target task to transfer their knowledge. The SF framework extended SR by linearly decomposing rewards into successor features and a reward weight vector allowing their application in high-dimensional tasks. But this came with the cost of having a linear relationship between reward functions and successor features, limiting its application to tasks where such a linear relationship exists. We propose a novel formulation of SR based on learning the cumulative discounted probability of successor features, called Successor Feature Representations (SFR). Crucially, SFR allows to reevaluate the expected return of policies for general reward functions. We introduce different SFR variations, prove its convergence, and provide a guarantee on its transfer performance. Experimental evaluations based on SFR with function approximation demonstrate its advantage over SF not only for general reward functions, but also in the case of linearly decomposable reward functions.
翻訳日:2023-08-03 18:32:47 公開日:2023-08-02
# バンディットを基盤としたピアツーピア融資の双方向市場における集中マッチング

Bandit based centralized matching in two-sided markets for peer to peer lending ( http://arxiv.org/abs/2105.02589v2 )

ライセンス: Link先を確認
Soumajyoti Sarkar(参考訳) 両サイドのオンラインプラットフォームでの連続的な資金調達により、ピアツーピアの貸し出しが可能になり、それぞれの決定が市場の他のコントリビュータに影響を与える可能性がある。 しかし、ピア貸付のためのオンラインプラットフォームにおけるシーケンシャルコントリビューションのダイナミクスを理解することは、オープンエンドの研究課題である。 これらのプラットフォームにおける集中型投資メカニズムは、借り手がどの時点でも単一の貸し手から直面する暗黙の競争を理解するのを困難にしている。 マッチング市場(英: Matching market)とは、取引における双方のエージェントの選好によって市場を分散化することができる、ペアリングエージェントのモデルである。 我々は、投資家や貸し手も借り手の好みに基づいて投資の制限に直面している場合に、一致する市場を利用して、両面のプラットフォームにおける投資デザインを調査する。 この状況は、既存の借り手競争に加えて、特に市場における自己の立ち位置が不透明であり、投資が受け入れられる可能性や準備価格に達するプロジェクトに対する借り手融資の要求がある場合に、貸し手間で暗黙の競争を生じさせる。 我々は、時間とともに競争の不確実性のダイナミクスに基づいて、金融機関が選択を調整できるシーケンシャルな意思決定に基づく手法を考案する。 我々は,二面的市場マッチングを逐次決定の枠組みでシミュレートし,最適な借主・貸主マッチングと比較して,貸主の後悔のダイナミクスを示すとともに,貸主の後悔が意思決定ステップにおける学習に影響を与える可能性のある貸主の初期選好に依存することを明らかにする。

Sequential fundraising in two sided online platforms enable peer to peer lending by sequentially bringing potential contributors, each of whose decisions impact other contributors in the market. However, understanding the dynamics of sequential contributions in online platforms for peer lending has been an open ended research question. The centralized investment mechanism in these platforms makes it difficult to understand the implicit competition that borrowers face from a single lender at any point in time. Matching markets are a model of pairing agents where the preferences of agents from both sides in terms of their preferred pairing for transactions can allow to decentralize the market. We study investment designs in two sided platforms using matching markets when the investors or lenders also face restrictions on the investments based on borrower preferences. This situation creates an implicit competition among the lenders in addition to the existing borrower competition, especially when the lenders are uncertain about their standing in the market and thereby the probability of their investments being accepted or the borrower loan requests for projects reaching the reserve price. We devise a technique based on sequential decision making that allows the lenders to adjust their choices based on the dynamics of uncertainty from competition over time. We simulate two sided market matchings in a sequential decision framework and show the dynamics of the lender regret amassed compared to the optimal borrower-lender matching and find that the lender regret depends on the initial preferences set by the lenders which could affect their learning over decision making steps.
翻訳日:2023-08-03 18:32:09 公開日:2023-08-02
# 注意が必要なのは

Attention Is All You Need ( http://arxiv.org/abs/1706.03762v7 )

ライセンス: Link先を確認
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin(参考訳) 支配的なシーケンストランスダクションモデルは、エンコーダ-デコーダ構成の複雑なリカレントまたは畳み込みニューラルネットワークに基づいている。 最高のパフォーマンスモデルは、注意機構を通じてエンコーダとデコーダを接続する。 本稿では,注意機構のみに基づいて,再帰と畳み込みを完全に不要にする,新しいネットワークアーキテクチャであるtransformerを提案する。 2つの機械翻訳タスクにおける実験により、これらのモデルはより並列性が高く、トレーニングに要する時間が大幅に減る一方で、品質が優れていることが示されている。 我々のモデルは、WMT 2014の英独翻訳タスクにおいて28.4 BLEUを達成し、2 BLEU 以上のアンサンブルを含む既存の最良の結果を改善した。 wmt 2014の英語とフランス語の翻訳タスクにおいて、本モデルは8gpu上で3.5日間トレーニングした後、新しいシングルモデルブレウスコアを41.8で確立する。 提案手法は,大規模かつ限定的な学習データを用いて,英文構文解析に適用することで,他のタスクにもうまく一般化できることを示す。

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.
翻訳日:2023-08-03 18:31:40 公開日:2023-08-02
# ロバストな摩擦多目的把持を効率的に計画する学習

Learning to Efficiently Plan Robust Frictional Multi-Object Grasps ( http://arxiv.org/abs/2210.07420v3 )

ライセンス: Link先を確認
Wisdom C. Agboh, Satvik Sharma, Kishore Srinivas, Mallika Parulekar, Gaurav Datta, Tianshuang Qiu, Jeffrey Ichnowski, Eugen Solowjow, Mehmet Dogar, Ken Goldberg(参考訳) 複数の剛凸多角形物体が平面面上にランダムに配置された位置と向きに留まり、単一物体と多物体のグリップを用いて効率的に梱包箱に搬送されるというデクサリング問題を考える。 先行研究では摩擦のない多目的把持が検討された。 本稿では,物体群に対する潜在的なつかみ数を増やすために摩擦を導入し,時間当たりのピック数を増加させる。 実例を用いてニューラルネットワークをトレーニングし,堅牢なマルチオブジェクト把握を計画する。 物理実験では、成功率13.7%、ピック1時間あたり1.6倍、把握計画時間の6.3倍、マルチオブジェクト把握における先行作業と比較して、把握計画時間が6.3倍減少した。 単体握りと比較して、1時間あたりのピックは3.1倍増加する。

We consider a decluttering problem where multiple rigid convex polygonal objects rest in randomly placed positions and orientations on a planar surface and must be efficiently transported to a packing box using both single and multi-object grasps. Prior work considered frictionless multi-object grasping. In this paper, we introduce friction to increase the number of potential grasps for a given group of objects, and thus increase picks per hour. We train a neural network using real examples to plan robust multi-object grasps. In physical experiments, we find a 13.7% increase in success rate, a 1.6x increase in picks per hour, and a 6.3x decrease in grasp planning time compared to prior work on multi-object grasping. Compared to single-object grasping, we find a 3.1x increase in picks per hour.
翻訳日:2023-08-03 18:25:19 公開日:2023-08-02
# FaDIn:一般パラメトリックカーネルを用いたホークスプロセスの高速離散推論

FaDIn: Fast Discretized Inference for Hawkes Processes with General Parametric Kernels ( http://arxiv.org/abs/2210.04635v3 )

ライセンス: Link先を確認
Guillaume Staerman, C\'edric Allain, Alexandre Gramfort and Thomas Moreau(参考訳) 時間的ポイントプロセス(TPP)は、イベントベースのデータをモデリングするための自然なツールである。 すべてのtppモデルの中で、ホークス過程は、特に指数的あるいは非パラメトリックなカーネルを考える際に、様々な応用のための適切なモデリングのために、最も広く使われていることが証明されている。 非パラメトリックカーネルはオプションだが、そのようなモデルは大きなデータセットを必要とする。 指数型カーネルは、イベントが即座により多くのイベントをトリガーする特定のアプリケーションに対してよりデータ効率が高く関連性が高いが、神経科学のような遅延を推定する必要があるアプリケーションには不適である。 本研究の目的は,有限サポートを持つ一般パラメトリックカーネルを用いたtpp推論の効率的な解法を提供することである。 開発されたソリューションは、離散化されたバージョンのイベントを活用する高速$\ell_2$gradientベースのソルバで構成されている。 離散化の利用を理論的に支持した後, 様々な数値実験により, 新手法の統計的, 計算効率を実証した。 最後に、脳磁図(MEG)で記録された脳信号から刺激誘発パターンの発生をモデル化し、その効果を評価する。 一般パラメトリックカーネルの利用を考えると,提案手法は最先端技術よりもパターン遅延の予測精度の向上につながることが示された。

Temporal point processes (TPP) are a natural tool for modeling event-based data. Among all TPP models, Hawkes processes have proven to be the most widely used, mainly due to their adequate modeling for various applications, particularly when considering exponential or non-parametric kernels. Although non-parametric kernels are an option, such models require large datasets. While exponential kernels are more data efficient and relevant for specific applications where events immediately trigger more events, they are ill-suited for applications where latencies need to be estimated, such as in neuroscience. This work aims to offer an efficient solution to TPP inference using general parametric kernels with finite support. The developed solution consists of a fast $\ell_2$ gradient-based solver leveraging a discretized version of the events. After theoretically supporting the use of discretization, the statistical and computational efficiency of the novel approach is demonstrated through various numerical experiments. Finally, the method's effectiveness is evaluated by modeling the occurrence of stimuli-induced patterns from brain signals recorded with magnetoencephalography (MEG). Given the use of general parametric kernels, results show that the proposed approach leads to an improved estimation of pattern latency than the state-of-the-art.
翻訳日:2023-08-03 18:24:53 公開日:2023-08-02
# FedDef:フェデレート学習によるネットワーク侵入検知システムにおける漏洩防止

FedDef: Defense Against Gradient Leakage in Federated Learning-based Network Intrusion Detection Systems ( http://arxiv.org/abs/2210.04052v3 )

ライセンス: Link先を確認
Jiahui Chen, Yi Zhao, Qi Li, Xuewei Feng, Ke Xu(参考訳) anomaly-based network intrusion detection system (nids) では,悪意のあるトラフィックを検出するために,ディープラーニング (dl) 手法が広く適用されている。 dlベースの手法の利用シナリオを拡張するために、フェデレーション学習(fl)では、複数のユーザが個々のデータプライバシを尊重してグローバルモデルをトレーニングすることができる。 しかし、flベースのnidsが既存の防御の下で既存のプライバシー攻撃に対していかに強固であるかは、まだ体系的に評価されていない。 この問題に対処するため, FLベースのNIDSを対象とした2つのプライバシ評価指標を提案し, 1) 復元攻撃による元の交通特徴と回復した交通特徴の類似性を評価するプライバシースコア, (2) 回復した交通と敵対攻撃によるNIDSの回避率について検討した。 我々は,既存の防御がほとんど保護しておらず,対応する敵トラフィックがSOTA NIDSKitsuneを回避できることを示す実験を行った。 このような攻撃を防ぎ、より堅牢なFLベースのNIDSを構築するために、我々はさらに、理論的保証のある新しい最適化ベースの入力摂動防御戦略であるFedDefを提案する。 入力距離を最大化することにより、勾配距離を最小化し、強力なプライバシー保護を実現する。 4つのデータセットに対する4つの既存の防御を実験的に評価し、我々の防衛は、最適パラメータの組み合わせでモデル精度の損失を3%以下に抑えながら、最大7倍のプライバシースコアでプライバシー保護の観点から全てのベースラインを上回ります。

Deep learning (DL) methods have been widely applied to anomaly-based network intrusion detection system (NIDS) to detect malicious traffic. To expand the usage scenarios of DL-based methods, federated learning (FL) allows multiple users to train a global model on the basis of respecting individual data privacy. However, it has not yet been systematically evaluated how robust FL-based NIDSs are against existing privacy attacks under existing defenses. To address this issue, we propose two privacy evaluation metrics designed for FL-based NIDSs, including (1) privacy score that evaluates the similarity between the original and recovered traffic features using reconstruction attacks, and (2) evasion rate against NIDSs using adversarial attack with the recovered traffic. We conduct experiments to illustrate that existing defenses provide little protection and the corresponding adversarial traffic can even evade the SOTA NIDS Kitsune. To defend against such attacks and build a more robust FL-based NIDS, we further propose FedDef, a novel optimization-based input perturbation defense strategy with theoretical guarantee. It achieves both high utility by minimizing the gradient distance and strong privacy protection by maximizing the input distance. We experimentally evaluate four existing defenses on four datasets and show that our defense outperforms all the baselines in terms of privacy protection with up to 7 times higher privacy score, while maintaining model accuracy loss within 3% under optimal parameter combination.
翻訳日:2023-08-03 18:24:35 公開日:2023-08-02
# 周辺ランキングによるグラフソフトコントラスト学習

Graph Soft-Contrastive Learning via Neighborhood Ranking ( http://arxiv.org/abs/2209.13964v3 )

ライセンス: Link先を確認
Zhiyuan Ning, Pengfei Wang, Pengyang Wang, Ziyue Qiao, Wei Fan, Denghui Zhang, Yi Du, Yuanchun Zhou(参考訳) グラフコントラスト学習(gcl)は、グラフ自己教師付き学習の分野で有望なアプローチとして登場した。 一般的なgcl法は、主にコンピュータビジョンの分野におけるコントラスト学習の原理に由来する: 絶対類似のペアを特定することによって不変性をモデル化する。 しかし, グラフデータに適用した場合, 生成したビューの有効性は保証できない: グラフ摂動は, グラフデータのセマンティクスや内在的トポロジに対して, 無効なビューを生成する; グラフビューに全く類似したペアを特定することは信頼できない: 抽象的および非ユークリッドグラフデータに対しては, 人間が絶対的類似性や相似性を直感的に決定することは困難である。 現在のGCLメソッドの顕著なパフォーマンスにもかかわらず、これらの課題は再評価を必要としている。 GCLは単にコンピュータビジョンから原則を採用するのではなく、グラフの本質的な性質により効果的に適合するのか? この質問に対して,我々は新しいパラダイムであるグラフソフトコントラスト学習(GSCL)を提案する。 このアプローチは地域ランキングによるGCLを促進し、全く同様のペアを特定する必要がなくなる。 gsclはラベルの一貫性を低下させるグラフの特徴を利用しており、グラフに近いノードは全体的に極端なノードよりも似ていると主張している。 gsclフレームワーク内では、ペアワイズとリストワイズによるランキング情報損失関数を導入し、近傍における相対的類似度ランキングを効果的に保持する。 さらに,より多くのホップを考慮した地域規模が指数関数的に拡大するにつれて,学習効率向上のための地域サンプリング戦略を提案する。 8つのホモフィリーグラフと3つのヘテロフィリーグラフを含む11のグラフデータセットにおいて,gsclは20のsota gcl法よりも優れた性能を示した。

Graph Contrastive Learning (GCL) has emerged as a promising approach in the realm of graph self-supervised learning. Prevailing GCL methods mainly derive from the principles of contrastive learning in the field of computer vision: modeling invariance by specifying absolutely similar pairs. However, when applied to graph data, this paradigm encounters two significant limitations: (1) the validity of the generated views cannot be guaranteed: graph perturbation may produce invalid views against semantics and intrinsic topology of graph data; (2) specifying absolutely similar pairs in the graph views is unreliable: for abstract and non-Euclidean graph data, it is difficult for humans to decide the absolute similarity and dissimilarity intuitively. Despite the notable performance of current GCL methods, these challenges necessitate a reevaluation: Could GCL be more effectively tailored to the intrinsic properties of graphs, rather than merely adopting principles from computer vision? In response to this query, we propose a novel paradigm, Graph Soft-Contrastive Learning (GSCL). This approach facilitates GCL via neighborhood ranking, avoiding the need to specify absolutely similar pairs. GSCL leverages the underlying graph characteristic of diminishing label consistency, asserting that nodes that are closer in the graph are overall more similar than far-distant nodes. Within the GSCL framework, we introduce pairwise and listwise gated ranking InfoNCE loss functions to effectively preserve the relative similarity ranking within neighborhoods. Moreover, as the neighborhood size exponentially expands with more hops considered, we propose neighborhood sampling strategies to improve learning efficiency. Our extensive empirical results across 11 commonly used graph datasets-including 8 homophily graphs and 3 heterophily graphs-demonstrate GSCL's superior performance compared to 20 SOTA GCL methods.
翻訳日:2023-08-03 18:23:45 公開日:2023-08-02
# B-CANF:条件付き正規化流を用いた適応的Bフレーム符号化

B-CANF: Adaptive B-frame Coding with Conditional Augmented Normalizing Flows ( http://arxiv.org/abs/2209.01769v2 )

ライセンス: Link先を確認
Mu-Jung Chen, Yi-Hsin Chen, Wen-Hsiao Peng(参考訳) ここ数年、学習に基づくビデオ圧縮が活発な研究領域となっている。 しかし、ほとんどの作業はpフレームコーディングに焦点を当てている。 学習されたbフレームコーディングは未熟で、より困難である。 本稿では,条件付き拡張正規化フローを利用したb-canfと呼ばれる新しいb-frame符号化フレームワークを提案する。 B-CANFはフレーム型適応符号化とB*フレームという2つの新しい要素も備えている。 我々のフレーム型適応符号化は、Bフレーム型に応じて特徴分布を動的に適応させることにより、階層的Bフレーム符号化のためのより良いビット割り当てを学習する。 我々のB*フレームは、別個のPフレームコーデックを必要とせず、Bフレームコーデックを再利用してPフレームコーディングを模倣することにより、GOP構造を指定する際の柔軟性を向上する。 一般的に使用されるデータセットでは、B-CANFは他の学習したBフレームコーデックと比較して最先端の圧縮性能を達成し、PSNRの観点からはランダムアクセス構成でHM-16.23と同等のBDレート結果を示す。 異なるgop構造で評価すると、b*-frameは別のp-frameコーデックの追加使用と同等の性能を実現します。

Over the past few years, learning-based video compression has become an active research area. However, most works focus on P-frame coding. Learned B-frame coding is under-explored and more challenging. This work introduces a novel B-frame coding framework, termed B-CANF, that exploits conditional augmented normalizing flows for B-frame coding. B-CANF additionally features two novel elements: frame-type adaptive coding and B*-frames. Our frame-type adaptive coding learns better bit allocation for hierarchical B-frame coding by dynamically adapting the feature distributions according to the B-frame type. Our B*-frames allow greater flexibility in specifying the group-of-pictures (GOP) structure by reusing the B-frame codec to mimic P-frame coding, without the need for an additional, separate P-frame codec. On commonly used datasets, B-CANF achieves the state-of-the-art compression performance as compared to the other learned B-frame codecs and shows comparable BD-rate results to HM-16.23 under the random access configuration in terms of PSNR. When evaluated on different GOP structures, our B*-frames achieve similar performance to the additional use of a separate P-frame codec.
翻訳日:2023-08-03 18:23:10 公開日:2023-08-02
# promix: クリーンサンプルユーティリティの最大化によるラベルノイズ対策

ProMix: Combating Label Noise via Maximizing Clean Sample Utility ( http://arxiv.org/abs/2207.10276v3 )

ライセンス: Link先を確認
Ruixuan Xiao, Yiwen Dong, Haobo Wang, Lei Feng, Runze Wu, Gang Chen, Junbo Zhao(参考訳) 不完全な注釈付きデータが比較的安価に得られるため、ノイズラベル(LNL)による学習は魅力的なトピックとなっている。 最近の最先端のアプローチでは、クリーンでノイズの多いサンプルを分離するために特定の選択機構を採用し、パフォーマンス向上のためにセミスーパーバイザードラーニング(SSL)技術を適用している。 しかし、選択ステップは、主に中規模でまともなクリーンなサブセットを提供し、豊富なクリーンなサンプルセットを見渡せる。 そこで本研究では,クリーンサンプルの有用性を最大限に活用し,性能を向上させるための新しいlnlフレームワーク promixを提案する。 提案手法では,信頼度の高いサンプルを選択し,与えられたラベルと一致した予測を行い,ベースクリーンなサンプルセットを動的に拡張する。 過大なクリーンセット選択手順の潜在的な副作用を克服するために,分離されたクリーンでノイズの多いサンプルに対して,バランスとバイアスのない分類器をトレーニングできる新しいsslフレームワークを考案する。 広範な実験により、promixは、異なるタイプとノイズレベルを持つ複数のベンチマークで、現在の最先端の結果を著しく改善することが示されている。 CIFAR-Nデータセットでは平均2.48\%の改善が達成されている。 コードはhttps://github.com/Justherozen/ProMixで入手できる。

Learning with Noisy Labels (LNL) has become an appealing topic, as imperfectly annotated data are relatively cheaper to obtain. Recent state-of-the-art approaches employ specific selection mechanisms to separate clean and noisy samples and then apply Semi-Supervised Learning (SSL) techniques for improved performance. However, the selection step mostly provides a medium-sized and decent-enough clean subset, which overlooks a rich set of clean samples. To fulfill this, we propose a novel LNL framework ProMix that attempts to maximize the utility of clean samples for boosted performance. Key to our method, we propose a matched high confidence selection technique that selects those examples with high confidence scores and matched predictions with given labels to dynamically expand a base clean sample set. To overcome the potential side effect of excessive clean set selection procedure, we further devise a novel SSL framework that is able to train balanced and unbiased classifiers on the separated clean and noisy samples. Extensive experiments demonstrate that ProMix significantly advances the current state-of-the-art results on multiple benchmarks with different types and levels of noise. It achieves an average improvement of 2.48\% on the CIFAR-N dataset. The code is available at https://github.com/Justherozen/ProMix
翻訳日:2023-08-03 18:22:33 公開日:2023-08-02
# 連続量子場理論のための変分ニューラルネットワークアンサッツ

Variational Neural-Network Ansatz for Continuum Quantum Field Theory ( http://arxiv.org/abs/2212.00782v2 )

ライセンス: Link先を確認
John M. Martyn, Khadijeh Najafi, Di Luo(参考訳) ファインマンにさかのぼる物理学者は、量子場理論に変分原理を適用することの難しさを嘆いている。 非相対論的場の量子論では、状態のフォック空間表現を構成する無限に多くの$n$粒子波動関数をパラメータ化し、最適化することが課題である。 ここでは,連続体における非相対論的量子場理論への変分原理の適用を可能にする深層学習アンサッツであるニューラルネットワーク量子場状態を導入することにより,この問題にアプローチする。 我々のansatzは、ディープセットニューラルネットワークアーキテクチャを使用して、量子場状態を含むn$-particle波関数のすべてを同時にパラメータ化します。 我々は、ansatzを用いて、不均一系や長距離相互作用を持つ系を含む様々な場理論の基底状態の近似を行い、量子場理論を探索する強力な新しいツールを示す。

Physicists dating back to Feynman have lamented the difficulties of applying the variational principle to quantum field theories. In non-relativistic quantum field theories, the challenge is to parameterize and optimize over the infinitely many $n$-particle wave functions comprising the state's Fock space representation. Here we approach this problem by introducing neural-network quantum field states, a deep learning ansatz that enables application of the variational principle to non-relativistic quantum field theories in the continuum. Our ansatz uses the Deep Sets neural network architecture to simultaneously parameterize all of the $n$-particle wave functions comprising a quantum field state. We employ our ansatz to approximate ground states of various field theories, including an inhomogeneous system and a system with long-range interactions, thus demonstrating a powerful new tool for probing quantum field theories.
翻訳日:2023-08-03 18:15:23 公開日:2023-08-02
# belfusion: 行動駆動型人間の運動予測のための潜在拡散

BeLFusion: Latent Diffusion for Behavior-Driven Human Motion Prediction ( http://arxiv.org/abs/2211.14304v3 )

ライセンス: Link先を確認
German Barquero, Sergio Escalera, and Cristina Palmero(参考訳) 確率的人間の運動予測(hmp)は一般的に、生成的逆ネットワークと変分オートエンコーダによって取り組まれている。 ほとんどの先行研究は、骨格関節の分散の観点から非常に多様な動きを予測することを目的としていた。 このことは、しばしば非現実的で過去の動きと不整合である、高速かつ運動分岐運動を予測する方法につながった。 このような方法は、微妙な関節変位を伴う多様な低範囲行動や行動を予測する必要がある文脈を無視する。 そこで本研究では,hmpにおける潜伏拡散モデルを用いて,行動がポーズや動作と無関係な潜伏空間からサンプルを採取するモデルであるbelfusionを提案する。 その結果、多様性は行動の観点から奨励される。 サンプルの動作を進行中の動作に転送する能力のおかげで、Belfusion氏の予測は、芸術の状況よりもはるかに現実的なさまざまな行動を示す。 これを支援するために, 累積運動分布面積(Area of the Cumulative Motion Distribution)と平均ペアワイズ距離誤差(Average Pairwise Distance Error)という2つの指標を導入する。 最後に,確率hmpの新しいクロスデータセットシナリオにおいて,belfusionの一般化能力を証明する。

Stochastic human motion prediction (HMP) has generally been tackled with generative adversarial networks and variational autoencoders. Most prior works aim at predicting highly diverse movements in terms of the skeleton joints' dispersion. This has led to methods predicting fast and motion-divergent movements, which are often unrealistic and incoherent with past motion. Such methods also neglect contexts that need to anticipate diverse low-range behaviors, or actions, with subtle joint displacements. To address these issues, we present BeLFusion, a model that, for the first time, leverages latent diffusion models in HMP to sample from a latent space where behavior is disentangled from pose and motion. As a result, diversity is encouraged from a behavioral perspective. Thanks to our behavior coupler's ability to transfer sampled behavior to ongoing motion, BeLFusion's predictions display a variety of behaviors that are significantly more realistic than the state of the art. To support it, we introduce two metrics, the Area of the Cumulative Motion Distribution, and the Average Pairwise Distance Error, which are correlated to our definition of realism according to a qualitative study with 126 participants. Finally, we prove BeLFusion's generalization power in a new cross-dataset scenario for stochastic HMP.
翻訳日:2023-08-03 18:15:08 公開日:2023-08-02
# グローバルモーメント初期化による敵攻撃の伝達性向上

Boosting the Transferability of Adversarial Attacks with Global Momentum Initialization ( http://arxiv.org/abs/2211.11236v2 )

ライセンス: Link先を確認
Jiafeng Wang, Zhaoyu Chen, Kaixun Jiang, Dingkang Yang, Lingyi Hong, Pinxue Guo, Haijing Guo, Wenqiang Zhang(参考訳) 深層ニューラルネットワークは、人間の目に見えない摂動を良心的な入力に結びつける敵の例に弱い。 同時に、敵対的な例は異なるモデルの下で転送可能性を示し、実用的なブラックボックス攻撃を可能にする。 しかし、既存の手法では所望の転送攻撃性能を達成できない。 本研究では,勾配最適化と一貫性の観点から,局所運動量最適ジレンマと同様に勾配除去現象を解析・発見する。 これらの問題に対処するため,我々は,勾配除去を抑制し,グローバル最適探索を支援するグローバルモーメント初期化 (gi) を提案する。 具体的には,攻撃前にグラデーションプリコンバージェンスを行い,プレコンバージェンス段階でグローバルサーチを行う。 本手法は, 既存手法のほぼすべてと容易に組み合わせることができ, 最新手法と比較して, 様々な防御機構下での移動攻撃の成功率を平均6.4%向上させる。 最終的に、攻撃成功率は95.4%に達し、既存の防御機構の安全性を十分に示している。 コードは$\href{https://github.com/Omenzychen/Global-Momentum-Initialization}{this\ URL}$で入手できる。

Deep neural networks are vulnerable to adversarial examples, which attach human invisible perturbations to benign inputs. Simultaneously, adversarial examples exhibit transferability under different models, which makes practical black-box attacks feasible. However, existing methods are still incapable of achieving desired transfer attack performance. In this work, from the perspective of gradient optimization and consistency, we analyze and discover the gradient elimination phenomenon as well as the local momentum optimum dilemma. To tackle these issues, we propose Global Momentum Initialization (GI) to suppress gradient elimination and help search for the global optimum. Specifically, we perform gradient pre-convergence before the attack and carry out a global search during the pre-convergence stage. Our method can be easily combined with almost all existing transfer methods, and we improve the success rate of transfer attacks significantly by an average of 6.4% under various advanced defense mechanisms compared to state-of-the-art methods. Eventually, we achieve an attack success rate of 95.4%, fully illustrating the insecurity of existing defense mechanisms. Code is available at $\href{https://github.com/Omenzychen/Global-Momentum-Initialization}{this\ URL}$.
翻訳日:2023-08-03 18:14:27 公開日:2023-08-02
# ヘテロシedastic gaussian sequence modelにおけるスパース信号検出:シャープミニマックスレート

Sparse Signal Detection in Heteroscedastic Gaussian Sequence Models: Sharp Minimax Rates ( http://arxiv.org/abs/2211.08580v4 )

ライセンス: Link先を確認
Julien Chhor, Rajarshi Mukherjee, Subhabrata Sen(参考訳) 未知の平均$\theta \in \mathbb r^d$ と既知の共分散行列 $\sigma = \operatorname{diag}(\sigma_1^2,\dots, \sigma_d^2)$ を持つ不均質なガウス列モデルが与えられたとき、既知のスパース性 $s$ に対して信号検出問題を調べる。 すなわち、高い確率で null 仮説を区別するために、$\epsilon^*>0$ がどれだけ大きいかを特徴づける: $\theta=0$ と $\mathbb R^d$ の $s$-スパースベクトルからなる代替品は、$0$ in $L^t$ norm ($t \in [1,\infty]$) から少なくとも $\epsilon^*$ で分離される。 minimax分離半径 $\epsilon^*$ の上の上限と下限を見つけ、それらが常に一致することを証明します。 また、これらの境界を達成するためのミニマックステストも導出する。 以上の結果から,スパルシティのレベル,l^t$のメートル法,\sigma$のヘテロシステキシティプロファイルに対する$\epsilon^*$の挙動に関する新たな相転移が明らかになった。 ユークリッド分離(すなわち$L^2$)の場合、文献の残りのギャップを埋める。

Given a heterogeneous Gaussian sequence model with unknown mean $\theta \in \mathbb R^d$ and known covariance matrix $\Sigma = \operatorname{diag}(\sigma_1^2,\dots, \sigma_d^2)$, we study the signal detection problem against sparse alternatives, for known sparsity $s$. Namely, we characterize how large $\epsilon^*>0$ should be, in order to distinguish with high probability the null hypothesis $\theta=0$ from the alternative composed of $s$-sparse vectors in $\mathbb R^d$, separated from $0$ in $L^t$ norm ($t \in [1,\infty]$) by at least $\epsilon^*$. We find minimax upper and lower bounds over the minimax separation radius $\epsilon^*$ and prove that they are always matching. We also derive the corresponding minimax tests achieving these bounds. Our results reveal new phase transitions regarding the behavior of $\epsilon^*$ with respect to the level of sparsity, to the $L^t$ metric, and to the heteroscedasticity profile of $\Sigma$. In the case of the Euclidean (i.e. $L^2$) separation, we bridge the remaining gaps in the literature.
翻訳日:2023-08-03 18:14:09 公開日:2023-08-02
# Bregman近位法の収束率:局所幾何対正規性対シャープネス

The rate of convergence of Bregman proximal methods: Local geometry vs. regularity vs. sharpness ( http://arxiv.org/abs/2211.08043v2 )

ライセンス: Link先を確認
Wa\"iss Azizian and Franck Iutzeler and J\'er\^ome Malick and Panayotis Mertikopoulos(参考訳) ミラー降下からミラープロックスおよび楽観的変種へのブレグマン近位法のラストイテレート収束速度を,この手法を定義するプロキシマップによって誘導される局所幾何の関数として検討する。 一般論として、制約付き非単調な変分不等式の局所解に焦点をあて、与えられた方法の収束率は、その関連するルジャンドル指数(英語版)に大きく依存していることを示し、その解の近傍にあるブルグマン関数(ユークリッド、エントロピーなど)の成長速度を測る概念である。 特に、境界解は 0 と 0 でないルジャンドル指数を持つ方法の間のレギュレーションを極端に分離していることが示される: 前者は線型速度で収束するが、後者は一般に直交的に収束する。 この二分法は、ユークリッド正則化の下で有限ステップの収束よりも、エントロピー正則化の手法が鋭い方向に沿った線形収束率を達成する線形制約付き問題においてさらに顕著になる。

We examine the last-iterate convergence rate of Bregman proximal methods - from mirror descent to mirror-prox and its optimistic variants - as a function of the local geometry induced by the prox-mapping defining the method. For generality, we focus on local solutions of constrained, non-monotone variational inequalities, and we show that the convergence rate of a given method depends sharply on its associated Legendre exponent, a notion that measures the growth rate of the underlying Bregman function (Euclidean, entropic, or other) near a solution. In particular, we show that boundary solutions exhibit a stark separation of regimes between methods with a zero and non-zero Legendre exponent: the former converge at a linear rate, while the latter converge, in general, sublinearly. This dichotomy becomes even more pronounced in linearly constrained problems where methods with entropic regularization achieve a linear convergence rate along sharp directions, compared to convergence in a finite number of steps under Euclidean regularization.
翻訳日:2023-08-03 18:13:17 公開日:2023-08-02
# グリーンベルガー・ホルン・ザイリンガー状態測定の完全高次元化の提案

Proposal for the complete high-dimensional Greenberger-Horne-Zeilinger state measurement ( http://arxiv.org/abs/2211.03098v2 )

ライセンス: Link先を確認
Zhi Zeng(参考訳) 高次元グリーンベルガー・ホルン・ザイリンガー状態(GHZ)の完全解析に関する理論的提案をこのレターに提示する。 まず3次元の完全3光子GHZ状態測定のアプローチを示し、次にD次元のN-光子系の状況に一般化する。 本手法では,フォトニックハイパーエンタングルメントと量子フーリエ変換を利用する。 提案手法は高次元多光子量子計算と量子通信に有用である。

A theoretical proposal for the complete analysis of high-dimensional Greenberger-Horne-Zeilinger (GHZ) state is presented in this Letter. We first demonstrate the approach for the complete three-photon GHZ state measurement in three dimensions, and then generalize it to the situation of N-photon system in d dimensions. In our approach, the photonic hyperentanglement and quantum Fourier transform are both utilized. The presented proposal will be useful for the high-dimensional multi-photon quantum computation and quantum communication.
翻訳日:2023-08-03 18:12:56 公開日:2023-08-02
# 最適輸送によるインスタンス依存一般化境界

Instance-Dependent Generalization Bounds via Optimal Transport ( http://arxiv.org/abs/2211.01258v3 )

ライセンス: Link先を確認
Songyan Hou, Parnian Kassraie, Anastasis Kratsios, Jonas Rothfuss, Andreas Krause(参考訳) 既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要素を説明できない。 このような境界はしばしば全てのパラメータに対して均一に保持されるため、過度なパラメータ化に悩まされ、初期化と確率勾配の強い帰納バイアスを考慮できない。 代替案として,一般化問題の最適輸送解釈を提案する。 これにより、データ空間における得られた予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出することができる。 したがって、我々の境界はモデルのパラメータ化に依存せず、トレーニングサンプルの数がパラメータの数よりもはるかに小さい場合にうまく機能します。 小さな修正によって、低次元多様体上のデータの加速速度が得られ、分布シフト下では保証される。 ニューラルネットワークの一般化境界を実験的に解析し,境界値が有意義であることを示し,訓練中の一般的な正規化手法の効果を捉えた。

Existing generalization bounds fail to explain crucial factors that drive generalization of modern neural networks. Since such bounds often hold uniformly over all parameters, they suffer from over-parametrization, and fail to account for the strong inductive bias of initialization and stochastic gradient descent. As an alternative, we propose a novel optimal transport interpretation of the generalization problem. This allows us to derive instance-dependent generalization bounds that depend on the local Lipschitz regularity of the earned prediction function in the data space. Therefore, our bounds are agnostic to the parametrization of the model and work well when the number of training samples is much smaller than the number of parameters. With small modifications, our approach yields accelerated rates for data on low-dimensional manifolds, and guarantees under distribution shifts. We empirically analyze our generalization bounds for neural networks, showing that the bound values are meaningful and capture the effect of popular regularization methods during training.
翻訳日:2023-08-03 18:12:48 公開日:2023-08-02
# ファウショットテーブル-テキスト生成のためのプロンプトの適応

Adapting Prompt for Few-shot Table-to-Text Generation ( http://arxiv.org/abs/2302.12468v2 )

ライセンス: Link先を確認
Zhixin Guo, Minyxuan Yan, Jiexing Qi, Jianping Zhou, Ziwei He, Zhouhan Lin, Guanjie Zheng, and Xinbing Wang(参考訳) 事前学習された言語モデル(plm)は、テーブルからテキストへの生成タスクにおいて著しく進歩した。 しかし、ドメイン固有の知識が欠如しているため、表データとテキストの間のトポロジー的なギャップ、特にリソースが限られた実世界のアプリケーションとの橋渡しは困難である。 ラベル付きデータの制限を軽減するため,Adapt-Prompt-to-Generate (AdaPTGen) という新しいフレームワークを提案する。 The core insight of AdaPTGen is to adapt prompt templates of domain-specific knowledge into the model, which brings at least three benefits: (1) it injects representation of normal table-related descriptions to bridge the topological gap between tabular data and texts; (2) it enables us to use large amounts of unlabeled domain-specific knowledge fully, which can alleviate the PLMs' inherent shortcomings of lacking domain knowledge; (3) it allows us to design various tasks to explore the domain-specific knowledge. nlg(open-domain few-shot natural language generation)データセット(human, songs, and books)では、広範な実験と分析が行われている。 従来の最先端手法と比較して,本モデルは流動性と精度の両面で優れた性能を実現する。

Pretrained language models (PLMs) have made remarkable progress in table-to-text generation tasks. However, the lack of domain-specific knowledge makes it challenging to bridge the topological gap between tabular data and text, especially in real-world applications with limited resources. To mitigate the limitation of insufficient labeled data, we propose a novel framework: Adapt-Prompt-to-Generate (AdaPTGen). The core insight of AdaPTGen is to adapt prompt templates of domain-specific knowledge into the model, which brings at least three benefits: (1) it injects representation of normal table-related descriptions to bridge the topological gap between tabular data and texts; (2) it enables us to use large amounts of unlabeled domain-specific knowledge fully, which can alleviate the PLMs' inherent shortcomings of lacking domain knowledge; (3) it allows us to design various tasks to explore the domain-specific knowledge. Extensive experiments and analyses are conducted on three open-domain few-shot natural language generation (NLG) data sets: Humans, Songs, and Books. Compared to previous state-of-the-art approaches, our model achieves superior performance in terms of both fluency and accuracy.
翻訳日:2023-08-03 18:03:40 公開日:2023-08-02
# テレポーテーションと条件付き状態伝達の予測・回帰計測

Prediction-retrodiction measurements for teleportation and conditional state transfer ( http://arxiv.org/abs/2302.11450v2 )

ライセンス: Link先を確認
Sergey A. Fedorov and Emil Zeuthen(参考訳) 規則的な測定により、未来を予測し、量子システムの過去を予測できる。 時間非局所測定は未来と過去の不確実性を残し、それらの関係を確立することができる。 連続時間非局所計測は、テレポーテーションや直接伝送による量子状態の転送に使用できることを示す。 走行場から探る2つの発振器を考慮し、純粋なビームスプリッタと2モードスキューズ以上の幅広い線形発振器-場相互作用を完璧に行うための戦略を解析的に同定する。

Regular measurements allow predicting the future and retrodicting the past of quantum systems. Time-non-local measurements can leave the future and the past uncertain, yet establish a relation between them. We show that continuous time-non-local measurements can be used to transfer a quantum state via teleportation or direct transmission. Considering two oscillators probed by traveling fields, we analytically identify strategies for performing the state transfer perfectly across a wide range of linear oscillator-field interactions beyond the pure beamsplitter and two-mode-squeezing types.
翻訳日:2023-08-03 18:03:23 公開日:2023-08-02
# 新聞記事における有害事象の検出に向けて

Towards Detecting Harmful Agendas in News Articles ( http://arxiv.org/abs/2302.00102v3 )

ライセンス: Link先を確認
Melanie Subbiah, Amrita Bhattacharjee, Yilun Hua, Tharindu Kumarage, Huan Liu, Kathleen McKeown(参考訳) オンラインで操作されるニュースは、その拡散を抑えるために自動化システムを使う必要がある、という問題が増えつつある。 我々は、誤情報や偽情報検出が研究されているが、ニュース記事の有害な議題を検出するという重要なオープンチャレンジへの投資が欠如しており、有害な議題を特定することは、現実世界の害の最大の可能性を秘めているニュースキャンペーンにフラグを付けることが重要であると論じている。 さらに、検閲に関する真の懸念から、有害なアジェンダ検出器は有効であると解釈する必要がある。 本稿では,新たな課題を提案し,アジェンダ識別のための注釈付きニュース記事のデータセットであるNewsAgendasをリリースする。 この課題に対して,解釈可能なシステムがいかに有効かを示し,ブラックボックスモデルと相容れない性能を示す。

Manipulated news online is a growing problem which necessitates the use of automated systems to curtail its spread. We argue that while misinformation and disinformation detection have been studied, there has been a lack of investment in the important open challenge of detecting harmful agendas in news articles; identifying harmful agendas is critical to flag news campaigns with the greatest potential for real world harm. Moreover, due to real concerns around censorship, harmful agenda detectors must be interpretable to be effective. In this work, we propose this new task and release a dataset, NewsAgendas, of annotated news articles for agenda identification. We show how interpretable systems can be effective on this task and demonstrate that they can perform comparably to black-box models.
翻訳日:2023-08-03 18:02:44 公開日:2023-08-02
# OAuth(USPFO)エコシステムのための統一Singular Protocol Flow

Unified Singular Protocol Flow for OAuth (USPFO) Ecosystem ( http://arxiv.org/abs/2301.12496v3 )

ライセンス: Link先を確認
Jaimandeep Singh and Naveen Kumar Chaudhary(参考訳) OAuth 2.0は、Webサイトやモバイルアプリなどのサードパーティクライアントが、他のアプリケーション上でユーザのアカウントに制限されたアクセスを要求できる、一般的な認証フレームワークである。 仕様は、クライアントの認証情報を機密保持する能力に基づいて、クライアントを異なるタイプに分類する。 また、保護されたリソースへのアクセスを取得するための様々な付与タイプも記述しており、認可コードと暗黙の付与が最も一般的に使用される。 各クライアントタイプと関連する付与タイプは、それぞれ独自のセキュリティとユーザビリティを考慮しています。 本稿では,異なるクライアントと許可型を組み合わせたoauthエコシステムの新たなアプローチとして,機密クライアントと公開クライアントの両方で使用可能なuspfo(unified singular protocol flow for oauth)を提案する。 このアプローチは、異なるクライアントタイプの実装と設定に関連する脆弱性を減らすことを目的としている。 さらに、クライアントの偽造、トークン(またはコード)盗難、整合性、認証、オーディエンスバインディングによる攻撃などの既知のOAuth 2.0脆弱性に対するビルトイン保護を提供する。 提案されたUSPFOは、既存のInternet Engineering Task Force (IETF) Proposed Standard Request for Comments (RFC)、OAuth 2.0拡張、アクティブなインターネットドラフトと互換性がある。

OAuth 2.0 is a popular authorization framework that allows third-party clients such as websites and mobile apps to request limited access to a user's account on another application. The specification classifies clients into different types based on their ability to keep client credentials confidential. It also describes different grant types for obtaining access to the protected resources, with the authorization code and implicit grants being the most commonly used. Each client type and associated grant type have their unique security and usability considerations. In this paper, we propose a new approach for OAuth ecosystem that combines different client and grant types into a unified singular protocol flow for OAuth (USPFO), which can be used by both confidential and public clients. This approach aims to reduce the vulnerabilities associated with implementing and configuring different client types and grant types. Additionally, it provides built-in protections against known OAuth 2.0 vulnerabilities such as client impersonation, token (or code) thefts and replay attacks through integrity, authenticity, and audience binding. The proposed USPFO is largely compatible with existing Internet Engineering Task Force (IETF) Proposed Standard Request for Comments (RFCs), OAuth 2.0 extensions and active internet drafts.
翻訳日:2023-08-03 18:02:29 公開日:2023-08-02
# 空洞内原子における多光子遷移の存在による断熱除去

Adiabatic elimination in the presence of multiphoton transitions in atoms inside a cavity ( http://arxiv.org/abs/2301.12275v2 )

ライセンス: Link先を確認
Prosenjit Maity(参考訳) 文献では原子系の非共鳴レベルを排除し、有効ハミルトニアンを導出するために様々なアプローチが用いられている。 これらのうち重要なものは、確率振幅のレベルにおける除去技術、共鳴レベルの部分空間にダイナミクスを投影する作用素技術、グリーンの関数技術、ジェームズの効果的なハミルトン的アプローチなどである。 以前のアプローチは、キャビティ内状況において効果的なハミルトニアンの導出には適していない。 しかし、ジェームズのアプローチは空洞内の2光子遷移のみの場合に有効である。 ジェームズのアプローチの一般化は、キャビティ内の3光子遷移の場合に作用するが、ラマン共鳴条件下でのみ作用する。 断熱的除去のもう一つの重要なアプローチは、システムバス相互作用の理論でよく知られるマルコフ近似の適応に基づいている。 しかし、このアプローチは空洞内状況では有効ではない。 本稿では,多光子遷移の存在下で空洞内の原子を断熱的に除去する方法を提案する。 我々はハイゼンベルク図で研究しており、ラマン共鳴条件が成立していない場合でも効果的なハミルトニアンを導出できるという利点がある。

Various approaches have been used in the literature for eliminating nonresonant levels in atomic systems and deriving effective Hamiltonians. Important among these are elimination techniques at the level of probability amplitudes, operator techniques to project the dynamics on to the subspace of resonant levels, Green's function techniques, the James' effective Hamiltonian approach, etc. None of the previous approaches is suitable for deriving effective Hamiltonians in intracavity situations. However, the James' approach does work in the case of only two-photon transitions in a cavity. A generalization of the James' approach works in the case of three-photon transitions in a cavity, but only under Raman-like resonant conditions. Another important approach for adiabatic elimination is based on an adaptation of the Markov approximation well-known in the theory of system-bath interactions. However, this approach has not been shown to work in intracavity situations. In this paper, we present a method of adiabatic elimination for atoms inside cavities in the presence of multiphoton transitions. We work in the Heisenberg picture, and our approach has the advantage that it allows one to derive effective Hamiltonians even when Raman-like resonance conditions do not hold.
翻訳日:2023-08-03 18:02:09 公開日:2023-08-02
# ドメイン適応学習と模倣: DRL for Power Arbitrage

Domain-adapted Learning and Imitation: DRL for Power Arbitrage ( http://arxiv.org/abs/2301.08360v2 )

ライセンス: Link先を確認
Yuanrong Wang, Vignesh Raja Swaminathan, Nikita P. Granger, Carlos Ros Perez, Christian Michler(参考訳) 本稿では,日頭市場と,オークションのように運営される日内バランス市場からなるオランダの電力市場について論じる。 電力供給と需要の変動のため、2つの市場で異なる価格に繋がる不均衡がしばしばあり、仲裁の機会を提供している。 この問題に対処するため,我々はこの問題を再構成し,欧州電力仲裁取引の2段階シミュレーションと最適化のための協調的二重エージェント強化学習手法を提案する。 また、電力トレーダーの取引行動を模倣してドメイン固有の知識を取り入れた2つの新しい実装も導入する。 ドメインの専門知識を模倣するために報酬工学を活用することにより、トレーニング中の収束を改善し、全体的なパフォーマンスを向上させるRLエージェントの報酬体系を再構築することができる。 さらに、注文の受け渡しは、入札成功率を高め、利益と損失(P&L)を大幅に増加させる。 本研究は,一般学習問題におけるドメイン専門知識の活用により,性能が大幅に向上し,最終的な統合アプローチは,従来のエージェントと比較して累積p&lが3倍向上することを示す。 さらに,提案手法は,効率的な計算性能を維持しつつ,最高のベンチマークポリシを約50%上回っている。

In this paper, we discuss the Dutch power market, which is comprised of a day-ahead market and an intraday balancing market that operates like an auction. Due to fluctuations in power supply and demand, there is often an imbalance that leads to different prices in the two markets, providing an opportunity for arbitrage. To address this issue, we restructure the problem and propose a collaborative dual-agent reinforcement learning approach for this bi-level simulation and optimization of European power arbitrage trading. We also introduce two new implementations designed to incorporate domain-specific knowledge by imitating the trading behaviours of power traders. By utilizing reward engineering to imitate domain expertise, we are able to reform the reward system for the RL agent, which improves convergence during training and enhances overall performance. Additionally, the tranching of orders increases bidding success rates and significantly boosts profit and loss (P&L). Our study demonstrates that by leveraging domain expertise in a general learning problem, the performance can be improved substantially, and the final integrated approach leads to a three-fold improvement in cumulative P&L compared to the original agent. Furthermore, our methodology outperforms the highest benchmark policy by around 50% while maintaining efficient computational performance.
翻訳日:2023-08-03 18:01:50 公開日:2023-08-02
# タンパク-リガンド複合発電機とタイヤテンソル変換による薬物スクリーニング

Protein-Ligand Complex Generator & Drug Screening via Tiered Tensor Transform ( http://arxiv.org/abs/2301.00984v2 )

ライセンス: Link先を確認
Jonathan P. Mailoa, Zhaofeng Ye, Jiezhong Qiu, Chang-Yu Hsieh, Shengyu Zhang(参考訳) 標的タンパク質ポケットに結合する小分子候補(ligand)の形成は、コンピュータによる創薬において重要である。 典型的な剛体ドッキング法はタンパク質のポケットの柔軟性を無視するが、分子動力学を用いたより正確なポーズ生成は低速タンパク質動力学によって妨げられる。 本研究では, 薬物スクリーニングにおける多種多様なタンパク質-リガンド複合体コンホメーションを高速に生成するタイトテンソル変換(3T)アルゴリズムを開発し, 複雑なポケットの粗い粒状配位タンパク質ダイナミクスと原子レベルの詳細を維持しながら, 機械学習トレーニングも長大な動的計算も必要としない。 得られた3Tコンホメーション構造は, 何百ものタンパク質コンホメーションを用いた従来のアンサンブルドッキングよりも, 活性リガンド分類の精度が高い。 さらに,タンパク質ポケット内のタンパク質リガンド結合部位を3tで探索できることを示した。 3T構造変換はシステム物理学から切り離され、他の計算科学領域で将来利用できるようになる。

The generation of small molecule candidate (ligand) binding poses in its target protein pocket is important for computer-aided drug discovery. Typical rigid-body docking methods ignore the pocket flexibility of protein, while the more accurate pose generation using molecular dynamics is hindered by slow protein dynamics. We develop a tiered tensor transform (3T) algorithm to rapidly generate diverse protein-ligand complex conformations for both pose and affinity estimation in drug screening, requiring neither machine learning training nor lengthy dynamics computation, while maintaining both coarse-grain-like coordinated protein dynamics and atomistic-level details of the complex pocket. The 3T conformation structures we generate achieve significantly higher accuracy in active ligand classification than traditional ensemble docking using hundreds of experimental protein conformations. Furthermore, we demonstrate that 3T can be used to explore distant protein-ligand binding poses within the protein pocket. 3T structure transformation is decoupled from the system physics, making future usage in other computational scientific domains possible.
翻訳日:2023-08-03 18:01:27 公開日:2023-08-02
# タスク制約付きマルチエージェント確率計画のためのオークションベースの協調戦略

An Auction-based Coordination Strategy for Task-Constrained Multi-Agent Stochastic Planning with Submodular Rewards ( http://arxiv.org/abs/2212.14624v2 )

ライセンス: Link先を確認
Ruifan Liu, Hyo-Sang Shin, Binbin Yan, and Antonios Tsourdos(参考訳) 輸送、物流、捜索、救助、協調監視といった多くの分野において、実行の不確実性を考慮してタスクを割り当てる準備が整っている。 既存のタスク調整アルゴリズムは確率過程を無視したり、計算強度に悩まされる。 本稿では,問題の弱結合性と事前調整の機会を生かして,タスク制約付きマルコフ決定プロセス(MDPs)に問題を形成した新たな定式化スコア関数を用いた分散オークション型コーディネーション戦略を提案する。 提案手法は,サブモジュラー報酬関数を前提とした収束と少なくとも50%の最適性を保証する。 さらに,大規模アプリケーションの実装においては,提案手法の近似的変種であるディープオークション(deep auction)も提案されており,mdp構築の難しさを回避できるニューラルネットワークの利用が提案されている。 有名なアクター・クリティック・アーキテクチャにインスパイアされた2つのトランスフォーマーは、それぞれ観測結果を行動確率と累積報酬にマッピングするために使用される。 最後に、ドローンの配送における2つの提案されたアプローチの性能を実演する。そこでは、ドローンリーグの確率的計画が、時間窓を備えた確率論的価格決定型車両ルーティング問題(VRP)に投じられる。 シミュレーション結果は、ソリューションの品質、計画効率、スケーラビリティの観点から最先端の手法と比較される。

In many domains such as transportation and logistics, search and rescue, or cooperative surveillance, tasks are pending to be allocated with the consideration of possible execution uncertainties. Existing task coordination algorithms either ignore the stochastic process or suffer from the computational intensity. Taking advantage of the weakly coupled feature of the problem and the opportunity for coordination in advance, we propose a decentralized auction-based coordination strategy using a newly formulated score function which is generated by forming the problem into task-constrained Markov decision processes (MDPs). The proposed method guarantees convergence and at least 50% optimality in the premise of a submodular reward function. Furthermore, for the implementation on large-scale applications, an approximate variant of the proposed method, namely Deep Auction, is also suggested with the use of neural networks, which is evasive of the troublesome for constructing MDPs. Inspired by the well-known actor-critic architecture, two Transformers are used to map observations to action probabilities and cumulative rewards respectively. Finally, we demonstrate the performance of the two proposed approaches in the context of drone deliveries, where the stochastic planning for the drone league is cast into a stochastic price-collecting Vehicle Routing Problem (VRP) with time windows. Simulation results are compared with state-of-the-art methods in terms of solution quality, planning efficiency and scalability.
翻訳日:2023-08-03 18:01:06 公開日:2023-08-02
# 共鳴励起量子ドットからの絡み合った光子対に対する光スターク効果の署名

Signatures of the Optical Stark Effect on Entangled Photon Pairs from Resonantly-Pumped Quantum Dots ( http://arxiv.org/abs/2212.07087v3 )

ライセンス: Link先を確認
Francesco Basso Basset, Michele B. Rota, Mattia Beccaceci, Tobias M. Krieger, Quirin Buchinger, Julia Neuwirth, H\^elio Huet, Sandra Stroj, Saimon F. Covre da Silva, Giuseppe Ronco, Christian Schimpf, Sven H\"ofling, Tobias Huber-Loyola, Armando Rastelli, Rinaldo Trotta(参考訳) 量子ドットにおけるバイエクシトン-エクシトンカスケードの2光子共鳴励起は、ほぼ決定論的方法で高偏光-絡み合った光子対を生成する。 しかし、達成可能な絡み合いの最終的なレベルはまだ議論されている。 ここでは、レーザー誘起AC-Stark効果が量子ドット放出スペクトルおよび絡み合いに与える影響を観察する。 パルス拡散/寿命比とポンプパワーを増加させるために、コンカレンス値の低下を記録する。 それでも、観測された以下の一致を十分に考慮するために追加の貢献が必要である。

Two-photon resonant excitation of the biexciton-exciton cascade in a quantum dot generates highly polarization-entangled photon pairs in a near-deterministic way. However, the ultimate level of achievable entanglement is still debated. Here, we observe the impact of the laser-induced AC-Stark effect on the quantum dot emission spectra and on entanglement. For increasing pulse-duration/lifetime ratios and pump powers, decreasing values of concurrence are recorded. Nonetheless, additional contributions are still required to fully account for the observed below-unity concurrence.
翻訳日:2023-08-03 18:00:43 公開日:2023-08-02
# ユニバーサル制御可能な画像キャプションのための組合せプロンプトの学習

Learning Combinatorial Prompts for Universal Controllable Image Captioning ( http://arxiv.org/abs/2303.06338v3 )

ライセンス: Link先を確認
Zhen Wang, Jun Xiao, Yueting Zhuang, Fei Gao, Jian Shao, Long Chen(参考訳) 制御可能な画像キャプション(CIC) -- 与えられた制御信号の指示の下で画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。 現在、コンテンツ関連制御から構造関連制御まで、様々な種類のCIC制御信号が提案されている。 しかし、異なる制御信号の形式とターゲットギャップのため、既存のCICの作業(またはアーキテクチャ)は1つの制御信号にのみ焦点を合わせ、人間のような組合せ能力を見落としている。 私たちの人間は説明を生成する際に、複数のニーズ(あるいは制約)を同時に満たすことができます。 そこで我々は,ComPro と呼ばれる Combinatorial Prompts の学習により,CIC のための新しいプロンプトベースのフレームワークを提案する。 具体的には、事前訓練された言語モデルGPT-2を直接言語モデルとして利用し、異なる信号固有のCICアーキテクチャ間のギャップを埋めるのに役立つ。 そこで我々は,CICをプロンプトガイド文生成問題として再構成し,異なる種類の制御信号に対する組合せプロンプトを生成するための,新しい軽量プロンプト生成ネットワークを提案する。 異なる制御信号に対して,プロンプトベースのCICを実現するための新しいマスクアテンション機構を設計する。 シンプルさのため、ComProはこれらのプロンプトを結合することで、より多くの種類の複合制御信号にさらに拡張することができます。 2つのCICベンチマークの大規模な実験により、ComProの単一および複合制御信号に対する有効性と効率が検証された。

Controllable Image Captioning (CIC) -- generating natural language descriptions about images under the guidance of given control signals -- is one of the most promising directions towards next-generation captioning systems. Till now, various kinds of control signals for CIC have been proposed, ranging from content-related control to structure-related control. However, due to the format and target gaps of different control signals, all existing CIC works (or architectures) only focus on one certain control signal, and overlook the human-like combinatorial ability. By ``combinatorial", we mean that our humans can easily meet multiple needs (or constraints) simultaneously when generating descriptions. To this end, we propose a novel prompt-based framework for CIC by learning Combinatorial Prompts, dubbed as ComPro. Specifically, we directly utilize a pretrained language model GPT-2 as our language model, which can help to bridge the gap between different signal-specific CIC architectures. Then, we reformulate the CIC as a prompt-guide sentence generation problem, and propose a new lightweight prompt generation network to generate the combinatorial prompts for different kinds of control signals. For different control signals, we further design a new mask attention mechanism to realize the prompt-based CIC. Due to its simplicity, our ComPro can be further extended to more kinds of combined control signals by concatenating these prompts. Extensive experiments on two prevalent CIC benchmarks have verified the effectiveness and efficiency of our ComPro on both single and combined control signals.
翻訳日:2023-08-03 17:55:36 公開日:2023-08-02
# ガウス帰属関数を用いた3次元物体定位

3D-Aware Object Localization using Gaussian Implicit Occupancy Function ( http://arxiv.org/abs/2303.02058v2 )

ライセンス: Link先を確認
Vincent Gaudilli\`ere, Leo Pauly, Arunkumar Rathinam, Albert Garcia Sanchez, Mohamed Adel Musallam, Djamila Aouada(参考訳) 多くのコンピュータビジョンアプリケーションにとって重要な画像中の対象オブジェクトを自動的にローカライズする。 2Dオブジェクトを表現するため、楕円ラベルは軸方向の有界箱に代わる有望な代替物として最近特定されている。 さらに,物体の3次元楕円体近似の射影である楕円体を2次元ターゲットローカライゼーションのために3次元認識楕円体ラベルである \textit{i.e.} を考える。 実際、投影された楕円形は、従来の3Dに依存しない境界ボックスラベルよりも、物体の幾何学的情報やポーズ(3D認識)をより多く持っている。 さらに、そのような一般的な3次元楕円モデルは、既知の粗いターゲットに近似することができる。 次に,不連続な幾何学的楕円パラメータを画像中の物体の占有率を符号化する暗黙のガウス分布のパラメータに置き換える,楕円回帰を新たに見ることを提案する。 モデルは、統計的損失関数を用いて、画像画素上でのこの二変量ガウス分布の値の回帰を訓練する。 分散パラメータを抽出するために、新しい非学習可能な微分可能層、E-DSNTを導入する。 また、ターゲットの粗い寸法と相対的なポーズラベルのみを用いて、一貫した3D対応ガウス占有パラメータを容易に生成する方法を述べる。 我々は,3次元認識ガウス空間ラベルを用いた既存の3つの衛星ポーズ推定データセットを拡張し,仮説を検証した。 ラベルとソースコードはここで公開されている。

To automatically localize a target object in an image is crucial for many computer vision applications. To represent the 2D object, ellipse labels have recently been identified as a promising alternative to axis-aligned bounding boxes. This paper further considers 3D-aware ellipse labels, \textit{i.e.}, ellipses which are projections of a 3D ellipsoidal approximation of the object, for 2D target localization. Indeed, projected ellipses carry more geometric information about the object geometry and pose (3D awareness) than traditional 3D-agnostic bounding box labels. Moreover, such a generic 3D ellipsoidal model allows for approximating known to coarsely known targets. We then propose to have a new look at ellipse regression and replace the discontinuous geometric ellipse parameters with the parameters of an implicit Gaussian distribution encoding object occupancy in the image. The models are trained to regress the values of this bivariate Gaussian distribution over the image pixels using a statistical loss function. We introduce a novel non-trainable differentiable layer, E-DSNT, to extract the distribution parameters. Also, we describe how to readily generate consistent 3D-aware Gaussian occupancy parameters using only coarse dimensions of the target and relative pose labels. We extend three existing spacecraft pose estimation datasets with 3D-aware Gaussian occupancy labels to validate our hypothesis. Labels and source code are publicly accessible here: https://cvi2.uni.lu/3d-aware-obj-loc/.
翻訳日:2023-08-03 17:53:20 公開日:2023-08-02
# テクニカルレポート:グラフニューラルネットワークは文法的になる

Technical report: Graph Neural Networks go Grammatical ( http://arxiv.org/abs/2303.01590v3 )

ライセンス: Link先を確認
Jason Piquenot, Aldo Moscatelli, Maxime B\'erar, Pierre H\'eroux, Romain raveaux, Jean-Yves Ramel, S\'ebastien Adam(参考訳) 本稿では,代数言語の断片をグラフニューラルネットワーク(GNN)に正式にリンクするフレームワークを提案する。 文脈自由文法(CFG)を用いて代数演算を生成規則に整理し、GNN層モデルに変換する。 言語から直接派生したCFGの規則と変数は冗長性を含んでいるため、文法還元スキームがGNN層への変換を可能にする。 この戦略を適用すると、3階Weisfeiler-Lehman(3-WL)テストに準拠する文法がMATLANGから定義される。 この3WL CFGから、G$^2$N$^2$と呼ばれる証明可能な3WL GNNモデルを導出する。 さらに、この文法的アプローチにより、長さのサイクルを最大6回、弦のサイクルをエッジレベルで数えるための代数式が提供され、3-wlのカウントパワーを啓蒙することができる。 いくつかの実験は、G$^2$N$^2$が、多くの下流タスクで他の3WL GNNよりも効率良く優れていることを示している。

This paper proposes a framework to formally link a fragment of an algebraic language to a Graph Neural Network (GNN). It relies on Context Free Grammars (CFG) to organise algebraic operations into generative rules that can be translated into a GNN layer model. Since the rules and variables of a CFG directly derived from a language contain redundancies, a grammar reduction scheme is presented making tractable the translation into a GNN layer. Applying this strategy, a grammar compliant with the third-order Weisfeiler-Lehman (3-WL) test is defined from MATLANG. From this 3-WL CFG, we derive a provably 3-WL GNN model called G$^2$N$^2$. Moreover, this grammatical approach allows us to provide algebraic formulas to count the cycles of length up to six and chordal cycles at the edge level, which enlightens the counting power of 3-WL. Several experiments illustrate that G$^2$N$^2$ efficiently outperforms other 3-WL GNNs on many downstream tasks.
翻訳日:2023-08-03 17:52:54 公開日:2023-08-02
# ニューラルネットワークにおける可塑性の理解

Understanding plasticity in neural networks ( http://arxiv.org/abs/2303.01486v3 )

ライセンス: Link先を確認
Clare Lyle, Zeyu Zheng, Evgenii Nikishin, Bernardo Avila Pires, Razvan Pascanu, Will Dabney(参考訳) 深層強化学習システムの適応性と頑健性には,ニューラルネットワークが新たな情報に応答して予測を迅速に変化させる能力である可塑性が不可欠である。 深層ニューラルネットワークは、比較的単純な学習問題であっても、トレーニングの過程で可塑性を失うことが知られているが、この現象を駆動するメカニズムはまだよく分かっていない。 本稿では, 可塑性損失の系統的解析を行い, この現象を機械的に理解し, 対象とするソリューションの今後の発展を導くことを目的とする。 可塑性の喪失は, 損失地形の曲率の変化と深く関係していることがわかったが, 飽和単位が欠如している場合が多い。 この知見に基づいて、ネットワークがトレーニングの過程で可塑性をよりよく維持できるようなパラメータ化と最適化設計の選択肢を多数特定する。 アーケード学習環境における大規模RLベンチマークにおいて,これらの結果の有効性を検証する。

Plasticity, the ability of a neural network to quickly change its predictions in response to new information, is essential for the adaptability and robustness of deep reinforcement learning systems. Deep neural networks are known to lose plasticity over the course of training even in relatively simple learning problems, but the mechanisms driving this phenomenon are still poorly understood. This paper conducts a systematic empirical analysis into plasticity loss, with the goal of understanding the phenomenon mechanistically in order to guide the future development of targeted solutions. We find that loss of plasticity is deeply connected to changes in the curvature of the loss landscape, but that it often occurs in the absence of saturated units. Based on this insight, we identify a number of parameterization and optimization design choices which enable networks to better preserve plasticity over the course of training. We validate the utility of these findings on larger-scale RL benchmarks in the Arcade Learning Environment.
翻訳日:2023-08-03 17:52:35 公開日:2023-08-02
# Floquet Engineeringはノイズ量子メトロロジーのノーゴー理論を克服する

Floquet Engineering to Overcome No-Go Theorem of Noisy Quantum Metrology ( http://arxiv.org/abs/2303.00392v2 )

ライセンス: Link先を確認
Si-Yuan Bai, Jun-Hong An(参考訳) 量子力学は、古典的限界よりも正確な物理量の測定を量子資源を用いて可能とし、多くの革新的な技術を開発することを約束している。 しかし、ノイズによって引き起こされるデコヒーレンス(英語版)は、ノイズ量子力学のノーゴー定理と呼ばれ、その応用を制約する。 Floquet Engineering によるno-go定理を克服する手法を提案する。 ラムゼー分光器の原子に周期的な駆動を施すことにより、量子フィッシャー情報によって特徴づけられる周波数を測定する究極の感度は、各駆動原子とその局所雑音からなる系によってフロッケ境界状態が形成されるときの符号化時間とともに理想の$t^2$スケールに戻る。 最適な制御と組み合わせることで、このメカニズムは理想のハイゼンベルク・リミットスケーリングを原子番号$n$で取得することもできます。 この結果は,ノイズ量子力学のノーゴー定理を回避し,高精度な測定を実現するための効率的な方法を与える。

Permitting a more precise measurement to physical quantities than the classical limit by using quantum resources, quantum metrology holds a promise in developing many revolutionary technologies. However, the noise-induced decoherence forces its superiority to disappear, which is called no-go theorem of noisy quantum metrology and constrains its application. We propose a scheme to overcome the no-go theorem by Floquet engineering. It is found that, by applying a periodic driving on the atoms of the Ramsey spectroscopy, the ultimate sensitivity to measure their frequency characterized by quantum Fisher information returns to the ideal $t^2$ scaling with the encoding time whenever a Floquet bound state is formed by the system consisting of each driven atom and its local noise. Combining with the optimal control, this mechanism also allows us to retrieve the ideal Heisenberg-limit scaling with the atom number $N$. Our result gives an efficient way to avoid the no-go theorem of noisy quantum metrology and to realize high-precision measurements.
翻訳日:2023-08-03 17:52:21 公開日:2023-08-02
# 貯留層に基づく単原子ツイーザアレイの定性負荷

Reservoir-based deterministic loading of single-atom tweezer arrays ( http://arxiv.org/abs/2302.12730v4 )

ライセンス: Link先を確認
Lars Pause, Tilman Preuschoff, Dominik Sch\"affner, Malte Schlosser, Gerhard Birkl(参考訳) 最先端の個別原子トウェザープラットフォームは、トウェザーアレイを事前に作成された冷原子の雲で空間的に重ね合わせることに基づくローディングスキームに依存している。 印加シーケンスは、磁気光学トラップとレーザー冷却の時間のかかる位相と交換される必要があるため、即時原子損失とともに、データレートを劇的に制限する。 本稿では,追加の冷原子貯留層と,量子登録操作から冷原子蓄積と単一原子供給を効果的に分離するバッファトラップを用いたモジュール方式を提案する。 この目的のために,マイクロレンズを用いたtweezerアレイと,補助大焦点双極子トラップに保持されるレーザー冷却原子の雲を,専用単一原子供給のための原子輸送とバッファトラップを用いて接続する。 本研究では,貯水池トラップのみ由来の原子を含むヘキサゴナルターゲット構造の決定論的負荷を示す。 その結果、量子科学における個別原子トウェザーアレイの連続動作への経路を開拓し、並列に動作し空間的に分離された離散的機能モジュールを用いた。

State-of-the-art individual-atom tweezer platforms have relied on loading schemes based on spatially superimposing the tweezer array with a cloud of cold atoms created beforehand. Together with immanent atom loss, this dramatically limits the data rate, as the application sequence must be alternated with the time-consuming phases of magneto-optical trapping and laser cooling. We introduce a modular scheme built on an additional cold-atom reservoir and an array of buffer traps effectively decoupling cold-atom accumulation and single-atom supply from the quantum-register operation. For this purpose, we connect a microlens-based tweezer array to a cloud of laser-cooled atoms held in an auxiliary large-focus dipole trap by utilizing atom transport and buffer traps for dedicated single-atom supply. We demonstrate deterministic loading of a hexagonal target structure with atoms solely originating from the reservoir trap. The results facilitate increased data rates and unlock a path to continuous operation of individual-atom tweezer arrays in quantum science, making use of discrete functional modules, operated in parallel and spatially separated.
翻訳日:2023-08-03 17:52:00 公開日:2023-08-02
# GPT-4はニューラルネットワーク検索を実現できるか?

Can GPT-4 Perform Neural Architecture Search? ( http://arxiv.org/abs/2304.10970v4 )

ライセンス: Link先を確認
Mingkai Zheng, Xiu Su, Shan You, Fei Wang, Chen Qian, Chang Xu, Samuel Albanie(参考訳) gpt-4~\cite{gpt4}のニューラルネットワーク探索(nas)を行う可能性について検討した。 提案手法である \textbf{g}pt-4 \textbf{e}nhanced \textbf{n}eural arch\textbf{i}tect\textbf{u}re \textbf{s}earch (genius) では,gpt-4 の生成能力をブラックボックスオプティマイザとして活用し,アーキテクチャ探索空間をすばやくナビゲートし,有望な候補をピンポイントし,これらの候補を反復的に洗練してパフォーマンスを向上させる。 我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。 最先端のパフォーマンスを目標とするのではなく、比較的限定的なドメイン専門知識を必要とする単純なプロンプトスキームを通じて、gpt-4の技術的問題の研究を支援する可能性を強調します。 }. より広範に、我々の予備的な結果は、多種多様な最適化タスクに汎用言語モデルを活用する将来の研究を指すと信じている。 また、研究における重要な制限を強調し、AIの安全性に影響を及ぼす点にも注目します。

We investigate the potential of GPT-4~\cite{gpt4} to perform Neural Architecture Search (NAS) -- the task of designing effective neural architectures. Our proposed approach, \textbf{G}PT-4 \textbf{E}nhanced \textbf{N}eural arch\textbf{I}tect\textbf{U}re \textbf{S}earch (GENIUS), leverages the generative capabilities of GPT-4 as a black-box optimiser to quickly navigate the architecture search space, pinpoint promising candidates, and iteratively refine these candidates to improve performance. We assess GENIUS across several benchmarks, comparing it with existing state-of-the-art NAS techniques to illustrate its effectiveness. Rather than targeting state-of-the-art performance, our objective is to highlight GPT-4's potential to assist research on a challenging technical problem through a simple prompting scheme that requires relatively limited domain expertise\footnote{Code available at \href{https://github.com/mingkai-zheng/GENIUS}{https://github.com/mingkai-zheng/GENIUS}.}. More broadly, we believe our preliminary results point to future research that harnesses general purpose language models for diverse optimisation tasks. We also highlight important limitations to our study, and note implications for AI safety.
翻訳日:2023-08-03 17:44:16 公開日:2023-08-02
# 決定論的目的を持つブラックボックス変分推論:より速く、より正確で、さらにブラックボックス

Black Box Variational Inference with a Deterministic Objective: Faster, More Accurate, and Even More Black Box ( http://arxiv.org/abs/2304.05527v2 )

ライセンス: Link先を確認
Ryan Giordano, Martin Ingram, Tamara Broderick(参考訳) 自動微分変分推論(ADVI)は、複数の現代の確率的プログラミング言語において、高速で使いやすい後部近似を提供する。 しかし、確率最適化器には明確な収束基準がなく、チューニングパラメータが必要である。 さらにadviは平均場変動ベイズ(mfvb)の後方不確かさの少ない推定を継承している。 これらの問題に対処するために, 「決定論的ADVI」 (DADVI) を導入する。 DADVIは難解なMFVBの目的を固定されたモンテカルロ近似(英語版)に置き換え、これは確率最適化の文献で ''sample average approximation' (SAA) として知られている技法である。 近似的だが決定論的な目的を最適化することにより、DADVIはオフザシェルフの2階最適化を使用でき、標準平均場ADVIとは異なり、線形応答(LR)を介してより正確な後続共分散を実現できる。 既存の最悪のケース理論とは対照的に、DADVIとSAAは、非常に高次元であっても比較的少数のサンプルでうまく機能するが、そのような好ましい結果は平均場ADVIに比例しすぎる変動近似にまで拡張できないことも示している。 DADVIがデフォルト設定(ADVIとは違って)で適切な解を確実に見つけ出すような現実世界の様々な問題を示し、LR共分散とともに、通常標準のADVIよりも高速で正確である。

Automatic differentiation variational inference (ADVI) offers fast and easy-to-use posterior approximation in multiple modern probabilistic programming languages. However, its stochastic optimizer lacks clear convergence criteria and requires tuning parameters. Moreover, ADVI inherits the poor posterior uncertainty estimates of mean-field variational Bayes (MFVB). We introduce ``deterministic ADVI'' (DADVI) to address these issues. DADVI replaces the intractable MFVB objective with a fixed Monte Carlo approximation, a technique known in the stochastic optimization literature as the ``sample average approximation'' (SAA). By optimizing an approximate but deterministic objective, DADVI can use off-the-shelf second-order optimization, and, unlike standard mean-field ADVI, is amenable to more accurate posterior covariances via linear response (LR). In contrast to existing worst-case theory, we show that, on certain classes of common statistical problems, DADVI and the SAA can perform well with relatively few samples even in very high dimensions, though we also show that such favorable results cannot extend to variational approximations that are too expressive relative to mean-field ADVI. We show on a variety of real-world problems that DADVI reliably finds good solutions with default settings (unlike ADVI) and, together with LR covariances, is typically faster and more accurate than standard ADVI.
翻訳日:2023-08-03 17:43:43 公開日:2023-08-02
# 脳機能ネットワーク分類のためのトランスフォーマーと雪玉グラフ畳み込み学習

Transformer and Snowball Graph Convolution Learning for Brain functional network Classification ( http://arxiv.org/abs/2303.16132v3 )

ライセンス: Link先を確認
Jinlong Hu, Yangmin Huang, Shoubin Dong(参考訳) 高度なディープラーニング手法、特にグラフニューラルネットワーク(GNN)は、脳の機能的ネットワークデータから学習し、脳障害を予測することがますます期待されている。 本稿では,脳機能ネットワーク分類のための新しいトランスフォーマーと雪玉符号化ネットワーク(TSEN)を提案し,グラフ雪玉接続を用いたトランスフォーマーアーキテクチャをGNNに導入し,グラフ全体の表現を学習する。 TSENは、雪玉エンコーディング層によるグラフ雪玉接続とグラフトランスフォーマーを組み合わせることで、マルチスケール情報と脳機能ネットワークのグローバルパターンをキャプチャする能力を高めた。 TSENはまた、局所パターンを自然にキャプチャするための単純かつ効果的な方法であるTransformer構造に位置埋め込みとして、雪玉グラフ畳み込みを導入した。 自閉症スペクトラム障害と大うつ病の2つの大脳機能ネットワークデータセットを用いて提案モデルを評価し、TSENが最先端のGNNモデルとグラフ変換器ベースのGNNモデルより優れていることを示した。

Advanced deep learning methods, especially graph neural networks (GNNs), are increasingly expected to learn from brain functional network data and predict brain disorders. In this paper, we proposed a novel Transformer and snowball encoding networks (TSEN) for brain functional network classification, which introduced Transformer architecture with graph snowball connection into GNNs for learning whole-graph representation. TSEN combined graph snowball connection with graph Transformer by snowball encoding layers, which enhanced the power to capture multi-scale information and global patterns of brain functional networks. TSEN also introduced snowball graph convolution as position embedding in Transformer structure, which was a simple yet effective method for capturing local patterns naturally. We evaluated the proposed model by two large-scale brain functional network datasets from autism spectrum disorder and major depressive disorder respectively, and the results demonstrated that TSEN outperformed the state-of-the-art GNN models and the graph-transformer based GNN models.
翻訳日:2023-08-03 17:42:57 公開日:2023-08-02
# 野生生物の自動画像分類:生態学応用のためのアクティブラーニングツール

Automated wildlife image classification: An active learning tool for ecological applications ( http://arxiv.org/abs/2303.15823v3 )

ライセンス: Link先を確認
Ludwig Bothmann, Lisa Wimmer, Omid Charrakh, Tobias Weber, Hendrik Edelhoff, Wibke Peters, Hien Nguyen, Caryl Benjamin, Annette Menzel(参考訳) 野生生物のカメラトラップ画像は、動物の存在、生息地の関連、行動を調べるために広く使われており、専門家がまず手動で分類しなければならないという事実によって複雑である。 人工知能システムは、このタスクを引き継ぐことができるが、通常は十分なパフォーマンスを達成するために、既にラベル付けされた多数のトレーニングイメージを必要とする。 この要件は、人間の専門家の労力を必要とし、カメラや短い期間のプロジェクトにとって特別な課題となる。 本研究では,中小規模の画像データベースを用いた研究者が現代の機械学習の可能性を活用できるようなラベル効率の高い学習戦略を提案する。 提案手法は,(1)物体検出と画像分類を両モデルのハイパーパラメータの調整により組み合わせる現在の戦略を改善する。 2)人間ラベルトレーニング画像を用いて,ディープラーニングモデルのトレーニングを極めて効率的に行うことができるアクティブラーニング(al)システムを提供する。 我々は,これらの手法を直接利用して,提案手法が生態学的実践において広く適用可能であることを保証するソフトウェアパッケージを提供する。 チューニング戦略が予測性能を向上させることを示す。 我々は、ALパイプラインが特定の予測性能を達成するのに必要なラベル付きデータの量を減らし、特にサンプル外予測性能を改善する上で価値があることを実証する。 チューニングとalの組み合わせは予測性能を大幅に向上させると結論づけた。 さらに、当社の作業は、提供済みのソフトウェアパッケージを通じて、コミュニティに幅広い影響を及ぼす可能性があると論じています。 最後に、欧州の野生動物データに合わせたモデルを公開することで、アフリカと北米のデータに基づいてトレーニングされた既存のモデルベースを豊かにします。

Wildlife camera trap images are being used extensively to investigate animal abundance, habitat associations, and behavior, which is complicated by the fact that experts must first classify the images manually. Artificial intelligence systems can take over this task but usually need a large number of already-labeled training images to achieve sufficient performance. This requirement necessitates human expert labor and poses a particular challenge for projects with few cameras or short durations. We propose a label-efficient learning strategy that enables researchers with small or medium-sized image databases to leverage the potential of modern machine learning, thus freeing crucial resources for subsequent analyses. Our methodological proposal is two-fold: (1) We improve current strategies of combining object detection and image classification by tuning the hyperparameters of both models. (2) We provide an active learning (AL) system that allows training deep learning models very efficiently in terms of required human-labeled training images. We supply a software package that enables researchers to use these methods directly and thereby ensure the broad applicability of the proposed framework in ecological practice. We show that our tuning strategy improves predictive performance. We demonstrate how the AL pipeline reduces the amount of pre-labeled data needed to achieve a specific predictive performance and that it is especially valuable for improving out-of-sample predictive performance. We conclude that the combination of tuning and AL increases predictive performance substantially. Furthermore, we argue that our work can broadly impact the community through the ready-to-use software package provided. Finally, the publication of our models tailored to European wildlife data enriches existing model bases mostly trained on data from Africa and North America.
翻訳日:2023-08-03 17:42:37 公開日:2023-08-02
# スケーラブルCMOSアーキテクチャのための電子スピン量子ビット可変性へのバウンド

Bounds to electron spin qubit variability for scalable CMOS architectures ( http://arxiv.org/abs/2303.14864v2 )

ライセンス: Link先を確認
Jes\'us D. Cifuentes, Tuomo Tanttu, Will Gilbert, Jonathan Y. Huang, Ensar Vahapoglu, Ross C. C. Leon, Santiago Serrano, Dennis Otter, Daniel Dunmore, Philip Y. Mai, Fr\'ed\'eric Schlattner, MengKe Feng, Kohei Itoh, Nikolay Abrosimov, Hans-Joachim Pohl, Michael Thewalt, Arne Laucht, Chih Hwan Yang, Christopher C. Escott, Wee Han Lim, Fay E. Hudson, Rajib Rahman, Andrew S. Dzurak, Andre Saraiva(参考訳) CMOS量子ドット中の電子のスピンは、精巧な量子特性とスケーラブルな製造を組み合わせる。 しかし、量子技術の時代には、Si/SiO2をマイクロエレクトロニクス標準として冠したメトリクスは、量子ビット性能への影響について再評価する必要がある。 我々は、Si/SiO$_2$インタフェースの不可避な原子スケール粗さによるスピン量子ビットの変動をグラフ化し、12デバイスで実験をコンパイルし、これらの結果を分析する理論的ツールを開発した。 モンテカルロ法は、エネルギースペクトルの代わりに波動関数と電子経路を直接解析することにより、数百万個の原子を持つ装置のゆらぎを記述するために適応される。 粗さの影響は,キュービット位置,変形,谷分割,谷相,スピン軌道結合および交換結合における変動性と相関する。 これらの変数は、堅牢な制御方法が組み込まれている限り、量子コンピューティングのスケーラブルなアーキテクチャの許容範囲内にあることが判明した。

Spins of electrons in CMOS quantum dots combine exquisite quantum properties and scalable fabrication. In the age of quantum technology, however, the metrics that crowned Si/SiO2 as the microelectronics standard need to be reassessed with respect to their impact upon qubit performance. We chart the spin qubit variability due to the unavoidable atomic-scale roughness of the Si/SiO$_2$ interface, compiling experiments in 12 devices, and developing theoretical tools to analyse these results. Atomistic tight binding and path integral Monte Carlo methods are adapted for describing fluctuations in devices with millions of atoms by directly analysing their wavefunctions and electron paths instead of their energy spectra. We correlate the effect of roughness with the variability in qubit position, deformation, valley splitting, valley phase, spin-orbit coupling and exchange coupling. These variabilities are found to be bounded and lie within the tolerances for scalable architectures for quantum computing as long as robust control methods are incorporated.
翻訳日:2023-08-03 17:42:14 公開日:2023-08-02
# 自己監督型ハイブリッド深層学習によるロバストミリ波ビームフォーミング

Robust mmWave Beamforming by Self-Supervised Hybrid Deep Learning ( http://arxiv.org/abs/2303.12653v2 )

ライセンス: Link先を確認
Fenghao Zhu, Bohao Wang, Zhaohui Yang, Chongwen Huang, Zhaoyang Zhang, George C.Alexandropoulos, Chau Yuen and Merouane Debbah(参考訳) 大規模アンテナアレイによるビームフォーミングは近年広く用いられており、5gおよび入射6gの重要な部分として認識されている。 そのため、ディープラーニングや高度な最適化アルゴリズムなど、様々な技術が活用され、パフォーマンスが向上する。 ディープラーニングによるこれまでの多くの研究シナリオのパフォーマンスは非常に魅力的だが、通常、環境やデータセットを変更すると急速に低下する。 したがって、強固な堅牢性を有する効果的なビームフォーミングネットワークの設計は、知的無線通信にとってオープンな課題である。 本稿では,ロバストなビームフォーミングによる自己教師付きネットワークを提案し,様々なシナリオの異なる2種類のデータセットで検証する。 シミュレーションの結果,ハイブリッド学習を用いた自己教師付きネットワークは,従来のdeepmimoと新しいwair-dデータセットの両方において,様々な環境下で強固なロバスト性を有する。 また,このようなハイブリッド学習の合理性を説明するための原理を提示する。

Beamforming with large-scale antenna arrays has been widely used in recent years, which is acknowledged as an important part in 5G and incoming 6G. Thus, various techniques are leveraged to improve its performance, e.g., deep learning, advanced optimization algorithms, etc. Although its performance in many previous research scenarios with deep learning is quite attractive, usually it drops rapidly when the environment or dataset is changed. Therefore, designing effective beamforming network with strong robustness is an open issue for the intelligent wireless communications. In this paper, we propose a robust beamforming self-supervised network, and verify it in two kinds of different datasets with various scenarios. Simulation results show that the proposed self-supervised network with hybrid learning performs well in both classic DeepMIMO and new WAIR-D dataset with the strong robustness under the various environments. Also, we present the principle to explain the rationality of this kind of hybrid learning, which is instructive to apply with more kinds of datasets.
翻訳日:2023-08-03 17:41:29 公開日:2023-08-02
# 共同医用画像分類と分割のための不確かさによる相互学習

Uncertainty-informed Mutual Learning for Joint Medical Image Classification and Segmentation ( http://arxiv.org/abs/2303.10049v4 )

ライセンス: Link先を確認
Kai Ren and Ke Zou and Xianjie Liu and Yidi Chen and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 分類とセグメンテーションは、正確な診断と疾患のモニタリングを可能にするため、医療画像解析において重要である。 しかし、現在の方法は、機能や性能の信頼性を無視しながら、相互学習機能と共有モデルパラメータを優先することが多い。 本稿では,医療画像解析の信頼性と解釈が可能な新しいUML(Uncertainty-informed Mutual Learning)フレームワークを提案する。 このumlは,相互学習と不確実性を活用して,協調分類とセグメント化タスクに信頼性を導入している。 そこで我々はまず,画像レベルの信頼度と画素単位の信頼度を提供するために明らかな深層学習を利用する。 次に,不確かさナビゲータデコーダを構築し,相互特徴をよく利用し,セグメンテーション結果を生成する。 さらに、信頼性の高いマスクを分類するために、不確実性インストラクタを提案する。 全体として、UMLは各リンク(分類とセグメンテーション)の特徴と性能の信頼度を推定できる。 公開データセットの実験では、UMLは精度と堅牢性の両方の観点から既存のメソッドよりも優れています。 我々のUMLは、より信頼性が高く説明可能な医用画像解析モデルの開発を探求する可能性がある。 受け入れ後、再生のためのコードをリリースします。

Classification and segmentation are crucial in medical image analysis as they enable accurate diagnosis and disease monitoring. However, current methods often prioritize the mutual learning features and shared model parameters, while neglecting the reliability of features and performances. In this paper, we propose a novel Uncertainty-informed Mutual Learning (UML) framework for reliable and interpretable medical image analysis. Our UML introduces reliability to joint classification and segmentation tasks, leveraging mutual learning with uncertainty to improve performance. To achieve this, we first use evidential deep learning to provide image-level and pixel-wise confidences. Then, an Uncertainty Navigator Decoder is constructed for better using mutual features and generating segmentation results. Besides, an Uncertainty Instructor is proposed to screen reliable masks for classification. Overall, UML could produce confidence estimation in features and performance for each link (classification and segmentation). The experiments on the public datasets demonstrate that our UML outperforms existing methods in terms of both accuracy and robustness. Our UML has the potential to explore the development of more reliable and explainable medical image analysis models. We will release the codes for reproduction after acceptance.
翻訳日:2023-08-03 17:41:14 公開日:2023-08-02
# 神経量子状態を持つ二次元系の高分解能スペクトル関数

Highly resolved spectral functions of two-dimensional systems with neural quantum states ( http://arxiv.org/abs/2303.08184v2 )

ライセンス: Link先を確認
Tiago Mendes-Santos, Markus Schmitt and Markus Heyl(参考訳) スペクトル関数は、凝縮物質物理学における実験プローブを理論モデルに結びつける中心である。 しかし、相互作用する量子物質に対する正確な数値計算は、特に1つの空間次元を超える重要な課題である。 本研究では,まず,実空間や運動量空間に局在した励起の動力学シミュレーションに基づいて,ニューラル量子状態を用いてスペクトル特性を求める。 この手法を用いて、異なる2次元量子イジングモデルの量子臨界点(qcps)近傍の力学構造係数を計算し、ライドバーグ原子配列の複素密度波次数を記述する。 深層ネットワークアーキテクチャと組み合わせることで,最大2,4\times24$のスピンを持つ配列の動的構造因子を確実に記述できることがわかった。 このアプローチは2次元の相互作用量子格子モデルに広く適用可能であり、それゆえ相関量子物質のスペクトル特性をまだ到達不能な領域で計算する道を開く。

Spectral functions are central to link experimental probes to theoretical models in condensed matter physics. However, performing exact numerical calculations for interacting quantum matter has remained a key challenge especially beyond one spatial dimension. In this work, we develop a versatile approach using neural quantum states to obtain spectral properties based on simulations of the dynamics of excitations initially localized in real or momentum space. We apply this approach to compute the dynamical structure factor in the vicinity of quantum critical points (QCPs) of different two-dimensional quantum Ising models, including one that describes the complex density wave orders of Rydberg atom arrays. When combined with deep network architectures we find that our method reliably describes dynamical structure factors of arrays with up to $24\times24$ spins, including the diverging time scales at critical points. Our approach is broadly applicable to interacting quantum lattice models in two dimensions and consequently opens up a route to compute spectral properties of correlated quantum matter in yet inaccessible regimes.
翻訳日:2023-08-03 17:40:56 公開日:2023-08-02
# チャットGPTと労働市場:AI討論が学生の期待に与える影響を解明する

ChatGPT and the Labor Market: Unraveling the Effect of AI Discussions on Students' Earnings Expectations ( http://arxiv.org/abs/2305.11900v2 )

ライセンス: Link先を確認
Samir Huseynov(参考訳) 本稿では、米国の学生が期待する労働市場の結果に対する、否定的かつ肯定的なChatGPT Artificial Intelligence(AI)の議論の因果的影響について検討する。 以上の結果から,AIの議論に曝露した学生の今後の収益見通しに対する信頼感は低下し,この効果は,否定的なトーンで議論の抜粋を読んだ後により顕著になることがわかった。 STEM専攻と異なり、非STEM専攻の学生は非対称で悲観的な信念の変化を示し、新興AI技術に弱いと感じている。 将来の収益に関する悲観的な信念の更新は、非男性学生の間でも一般的であり、脆弱な学生サブグループの間でAIの懸念が広がっていることを示している。 教育者、管理者、政策立案者は学生と定期的に関わり、彼らの懸念に対処し、AIが必然的に形作る未来に備えるために教育カリキュラムを強化することができる。

This paper investigates the causal impact of negatively and positively toned ChatGPT Artificial Intelligence (AI) discussions on US students' anticipated labor market outcomes. Our findings reveal students reduce their confidence regarding their future earnings prospects after exposure to AI debates, and this effect is more pronounced after reading discussion excerpts with a negative tone. Unlike STEM majors, students in Non-STEM fields show asymmetric and pessimistic belief changes, suggesting that they might feel more vulnerable to emerging AI technologies. Pessimistic belief updates regarding future earnings are also prevalent among non-male students, indicating widespread AI concerns among vulnerable student subgroups. Educators, administrators, and policymakers may regularly engage with students to address their concerns and enhance educational curricula to better prepare them for a future that AI will inevitably shape.
翻訳日:2023-08-03 17:34:45 公開日:2023-08-02
# 人間か機械か: チューリングにインスパイアされた毎日のリフレクション

The Human-or-Machine Matter: Turing-Inspired Reflections on an Everyday Issue ( http://arxiv.org/abs/2305.04312v4 )

ライセンス: Link先を確認
David Harel and Assaf Marron(参考訳) アラン・チューリングは論文『計算機械と知性』の中で、機械知性の概念の探求の一環として「シミュレーションゲーム」を紹介した。 チューリングテストはその後、多くの分析、議論、改良、拡張の対象となった。 ここでは、特定のマシンにインテリジェントなラベルを付けることができるのか、あるいは特定のコンテキストにおける人間の能力と一致すると言えるのかという疑問を回避します。 その代わり、私たちはまず、日々のやりとりで自分に問いかけることができるような、一見単純な質問に注意を向けます。 次に、我々は、答えを導き出す方法を求めることから焦点を移し、むしろ、このヒューマン・オア・マシーンの質問の重要性と重要性を反映し、それを使用することで信頼できる回答が得られるかもしれない。 チューリングの原実験は思考実験として広く考えられているが、ここで論じられているように、人間や機械の問題は明らかに実践的な関連性を持っている。 マシンが日常の状況において高い忠実さで人間の行動を模倣できるかどうかはまだ分かっていないが、ここで提起された問題の短期的な探索は、コンピュータ化されたシステムを開発する方法の洗練に寄与し、人間の行動の基本的な特徴に対する新たな洞察をもたらす可能性がある。

In his seminal paper ``Computing Machinery and Intelligence'', Alan Turing introduced the ``imitation game'' as part of exploring the concept of machine intelligence. The Turing Test has since been the subject of much analysis, debate, refinement and extension. Here we sidestep the question of whether a particular machine can be labeled intelligent, or can be said to match human capabilities in a given context. Instead, we first draw attention to the seemingly simpler question a person may ask themselves in an everyday interaction: ``Am I interacting with a human or with a machine?''. We then shift the focus from seeking a method for eliciting the answer, and, rather, reflect upon the importance and significance of this Human-or-Machine question and the use one may make of a reliable answer thereto. Whereas Turing's original test is widely considered to be more of a thought experiment, the Human-or-Machine matter as discussed here has obvious practical relevance. While it is still unclear if and when machines will be able to mimic human behavior with high fidelity in everyday contexts, we argue that near-term exploration of the issues raised here can contribute to refinement of methods for developing computerized systems, and may also lead to new insights into fundamental characteristics of human behavior.
翻訳日:2023-08-03 17:33:59 公開日:2023-08-02
# LMEye:大規模言語モデルのための対話型知覚ネットワーク

LMEye: An Interactive Perception Network for Large Language Models ( http://arxiv.org/abs/2305.03701v5 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang(参考訳) GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。 本稿では,画像理解機能をllmに組み込むことでlvlmを実現することを目的とした,大規模言語モデル(llm)のためのプレイアンドプラグモジュール,すなわち対話型知覚ネットワーク(ipn)を提案する。 従来の手法では視覚情報をシンプルな視覚マッピングネットワークでLLMに組み込んでおり、画像特徴を線形層を介してLLMの埋め込み空間に投影する。 このようなマッピングネットワークでは、画像機能はまだ画像と人間の入力クエリの相互作用を考慮していない。 したがって、人間の意図とは無関係に得られる視覚情報は、LLMが意図追従応答を行うのに不十分である可能性がある。 IPNは、LLMが所望の視覚情報を様々な人間の指示に従って要求することを許可することでこの問題に対処する。 具体的には、IPNは単純な視覚マッピングネットワークからなり、LCMのイメージの基本的な認識を提供する。 また、LCMからの要求を取得し、リクエストベースの視覚情報インタラクションを実行し、その結果の視覚情報をそれぞれLLMに送信するモジュールも追加されている。 このようにして、LLMは人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。 我々は,マルチモーダル質問応答や推論などの広範な実験を通じてIPNを評価し,従来の手法と比較して,様々なマルチモーダルタスクにおけるLVLMのゼロショット性能を著しく向上させることを示した。

Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper presents a play-and-plug module for Large Language Models (LLMs), namely Interactive Perception Network (IPN), aiming to achieve a LVLM by incorporating the image understanding capability into LLMs. Previous methods incorporate visual information into LLMs with a simple visual mapping network, where the image feature is projected into the embedding space of LLMs via a linear layer. Such mapping network projects the image feature once yet does not consider the interaction between the image and the human input query. Hence, the obtained visual information with no connections with human intention may be inadequate for LLMs to make intention-following responses, which we term as static visual information. IPN addresses this issue by allowing the LLM to request the desired visual information aligned with various human instructions, which we term as the dynamic interaction between the LLM and visual information. Specifically, IPN consists of a simple visual mapping network to provide the basic perception of an image for LLMs. It also contains additional modules responsible for acquiring requests from LLMs, performing request-based visual information interaction, and transmitting the resulting interacted visual information to LLMs, respectively. In this way, LLMs act to understand the human query, deliver the corresponding request to the request-based visual information interaction module, and generate the response based on the interleaved multimodal information. We evaluate IPN through extensive experiments on multimodal question answering, reasoning, and so on, demonstrating that it significantly improves the zero-shot performance of LVLMs on various multimodal tasks compared to previous methods.
翻訳日:2023-08-03 17:33:36 公開日:2023-08-02
# 量子粒子としての腫瘍の処理応答解析

Treatment-Response Analysis of Tumor as A Quantum Particle ( http://arxiv.org/abs/2305.02206v2 )

ライセンス: Link先を確認
Nam Nguyen(参考訳) 本稿では,1次元格子上を探索する量子粒子の物理現象と近位トラップの存在を用いて,腫瘍進展無生存(pfs)確率の処理・応答モデリングを行うための,新規かつ計算効率の高い手法を提案する。

In this article, I present a novel and computational-efficient approach for treatment-response modeling of tumor progression-free survival (PFS) probability using the physical phenomenon of a quantum particle walking on a one-dimensional lattice with the presence of a proximate trap.
翻訳日:2023-08-03 17:33:10 公開日:2023-08-02
# BrainNPT:脳ネットワーク分類のためのトランスフォーマーネットワークの事前学習

BrainNPT: Pre-training of Transformer networks for brain network classification ( http://arxiv.org/abs/2305.01666v4 )

ライセンス: Link先を確認
Jinlong Hu, Yangmin Huang, Nan Wang, Shoubin Dong(参考訳) 深層学習法はここ数年、脳画像解析において急速に進歩してきたが、通常は限られたラベル付きデータによって制限されている。 ラベルなしデータの事前学習モデルでは、自然言語処理やコンピュータビジョンなど、多くの領域で機能学習の改善が期待できる。 しかし、この手法は脳ネットワーク解析において未検討である。 本稿では,トランスフォーマーネットワークを用いた事前学習手法に着目し,既存のラベルなしデータを脳機能ネットワーク分類に活用する。 まず,脳機能的ネットワーク分類のために,brainnptと呼ばれるトランスフォーマーベースのニューラルネットワークを提案した。 提案手法はトランスフォーマーモデルの分類埋め込みベクトルとして<cls>トークンを利用して,脳ネットワークの表現を効果的に捉える。 第2に,未ラベルの脳ネットワークデータを利用して脳ネットワークの構造情報を学習するBrainNPTモデルの事前学習フレームワークを提案する。 分類実験の結果,前訓練のないbrainnptモデルが最先端モデルで最高の性能を達成し,前訓練のbrainnptモデルが最先端モデルを大きく上回った。 トレーニング前のBrainNPTモデルは、トレーニング前のモデルと比較して精度が8.75%向上した。 さらに,事前学習戦略を比較検討し,モデルのパラメータの影響を分析し,学習モデルの解釈を行った。

Deep learning methods have advanced quickly in brain imaging analysis over the past few years, but they are usually restricted by the limited labeled data. Pre-trained model on unlabeled data has presented promising improvement in feature learning in many domains, including natural language processing and computer vision. However, this technique is under-explored in brain network analysis. In this paper, we focused on pre-training methods with Transformer networks to leverage existing unlabeled data for brain functional network classification. First, we proposed a Transformer-based neural network, named as BrainNPT, for brain functional network classification. The proposed method leveraged <cls> token as a classification embedding vector for the Transformer model to effectively capture the representation of brain network. Second, we proposed a pre-training framework for BrainNPT model to leverage unlabeled brain network data to learn the structure information of brain networks. The results of classification experiments demonstrated the BrainNPT model without pre-training achieved the best performance with the state-of-the-art models, and the BrainNPT model with pre-training strongly outperformed the state-of-the-art models. The pre-training BrainNPT model improved 8.75% of accuracy compared with the model without pre-training. We further compared the pre-training strategies, analyzed the influence of the parameters of the model, and interpreted the trained model.
翻訳日:2023-08-03 17:33:05 公開日:2023-08-02
# スマートビルのエネルギー最適化における強化学習リスク最小化のための伝達学習手法

A Transfer Learning Approach to Minimize Reinforcement Learning Risks in Energy Optimization for Smart Buildings ( http://arxiv.org/abs/2305.00365v2 )

ライセンス: Link先を確認
Mikhail Genkin and J.J. McArthur(参考訳) 人工知能アルゴリズムを利用したエネルギー最適化が有効であることが証明されている。 しかし、建物が委託されると、これらのアルゴリズムを訓練するために使用できる歴史的データは存在しない。 オンライン強化学習(RL)アルゴリズムは大きな可能性を秘めているが、その展開には大きなリスクが伴う。 本稿では,学習エージェントのウォームアップ期間の悪影響を軽減するために,既存の最適化・計測された建物から新たに委託されたスマートビルに知識を転送するために,deep rlと連携してトランスファー学習を利用する新しい手法であるrelbotを提案する。 強化学習エージェントのウォームアップ期間において,最大6.2倍,予測分散の最大132倍の改善を示す。

Energy optimization leveraging artificially intelligent algorithms has been proven effective. However, when buildings are commissioned, there is no historical data that could be used to train these algorithms. On-line Reinforcement Learning (RL) algorithms have shown significant promise, but their deployment carries a significant risk, because as the RL agent initially explores its action space it could cause significant discomfort to the building residents. In this paper we present ReLBOT - a new technique that uses transfer learning in conjunction with deep RL to transfer knowledge from an existing, optimized and instrumented building, to the newly commissioning smart building, to reduce the adverse impact of the reinforcement learning agent's warm-up period. We demonstrate improvements of up to 6.2 times in the duration, and up to 132 times in prediction variance, for the reinforcement learning agent's warm-up period.
翻訳日:2023-08-03 17:32:40 公開日:2023-08-02
# 古典的ランダム性をもつ量子ウォークの局所化:手動法と教師あり機械学習の比較

Localization of quantum walk with classical randomness: Comparison between manual methods and supervised machine learning ( http://arxiv.org/abs/2304.14348v2 )

ライセンス: Link先を確認
Christopher Mastandrea and Chih-Chun Chien(参考訳) 古典的ランダム性によって誘導される量子ウォークの遷移は、ランダムパラメータが臨界値を超えると、ウォーカーの確率分布を2ピーク構造から1ピーク構造に変更する。 まず,ランダムな回転や翻訳の存在下での出現を示すことにより,局所化の一般性を確立する。 遷移点は、確率分布、慣性運動量、逆参加比を調べることで手動で位置決めすることができる。 比較として,3つの教師付き機械学習手法,サポートベクターマシン,多層パーセプトロンニューラルネットワーク,および畳み込みニューラルネットワークを同一データで実装し,その遷移を識別し,ランダム翻訳の場合を除き,局所化の同等の指数を生成できることを示し,この2つのニューラルネット手法は遷移状態の複雑な確率分布から指数を過小評価する傾向がある。 我々の研究は、量子と古典の混合確率を持つ物理システムの機械学習に直面する可能性と課題を示している。

A transition of quantum walk induced by classical randomness changes the probability distribution of the walker from a two-peak structure to a single-peak one when the random parameter exceeds a critical value. We first establish the generality of the localization by showing its emergence in the presence of random rotation or translation. The transition point can be located manually by examining the probability distribution, momentum of inertia, and inverse participation ratio. As a comparison, we implement three supervised machine learning methods, the support vector machine, multi-layer perceptron neural network, and convolutional neural network with the same data and show that they can identify the transition and produce comparable exponents of the localization except for the case with random translation, where the two neural-network methods tend to underestimate the exponent due to the complicated probability distributions in the transition regime. Our work illustrates potentials and challenges facing machine learning of physical systems with mixed quantum and classical probabilities.
翻訳日:2023-08-03 17:32:20 公開日:2023-08-02
# 大規模言語モデルは強いゼロショットレトリバー

Large Language Models are Strong Zero-Shot Retriever ( http://arxiv.org/abs/2304.14233v2 )

ライセンス: Link先を確認
Tao Shen, Guodong Long, Xiubo Geng, Chongyang Tao, Tianyi Zhou, Daxin Jiang(参考訳) 本研究では,大言語モデル(llm)をゼロショットシナリオの大規模検索に適用する簡易な手法を提案する。 本手法は,言語モデル・アズ・レトリーバー (ramer) をベースとし,リトリーバーのブルート・フォース・コンビネーションをllmで破り,ゼロショット検索の性能を高くすることで,ベンチマークデータセットにおいて非常に競争力がある。 基本的に、クエリとクエリのドメイン内候補の合成をLCMに促すことで、潜在的な答えでクエリを拡張することを提案する。 候補は、正否にかかわらず、ターゲットコレクション上のバニラ検索手順によって取得される。 プロンプトの一部として、llmがパターン模倣や候補要約によってより正確な回答を生成するのに役立つだろう。 全ての候補が間違っているとしても、プロンプトは少なくともllmにコレクション内のパターンやジャンルを認識させる。 さらに,自己教師型レトリバーの性能が低いため,レトリバーがパイプライン全体をボトルネックにするため,LLMベースのクエリ拡張は効率が低下する。 そこで本研究では,非パラメトリックレキシコンベース手法(例えばbm25)を検索モジュールとして活用し,リテラル形式でクエリ文書重なりをキャプチャする手法を提案する。 そのため、LameRはLLMに対して検索手順を透過的にし、性能ボトルネックを回避する。

In this work, we propose a simple method that applies a large language model (LLM) to large-scale retrieval in zero-shot scenarios. Our method, the Language language model as Retriever (LameR), is built upon no other neural models but an LLM, while breaking brute-force combinations of retrievers with LLMs and lifting the performance of zero-shot retrieval to be very competitive on benchmark datasets. Essentially, we propose to augment a query with its potential answers by prompting LLMs with a composition of the query and the query's in-domain candidates. The candidates, regardless of correct or wrong, are obtained by a vanilla retrieval procedure on the target collection. As a part of the prompts, they are likely to help LLM generate more precise answers by pattern imitation or candidate summarization. Even if all the candidates are wrong, the prompts at least make LLM aware of in-collection patterns and genres. Moreover, due to the low performance of a self-supervised retriever, the LLM-based query augmentation becomes less effective as the retriever bottlenecks the whole pipeline. Therefore, we propose to leverage a non-parametric lexicon-based method (e.g., BM25) as the retrieval module to capture query-document overlap in a literal fashion. As such, LameR makes the retrieval procedure transparent to the LLM, thus circumventing the performance bottleneck.
翻訳日:2023-08-03 17:32:02 公開日:2023-08-02
# CamemBERT-bio:美味しいフランス語モデル

CamemBERT-bio: a Tasty French Language Model Better for your Health ( http://arxiv.org/abs/2306.15550v2 )

ライセンス: Link先を確認
Rian Touchent, Laurent Romary, Eric de la Clergerie(参考訳) 病院における臨床データは、臨床データウェアハウスを通じて研究に利用できるようになっているが、これらの文書は構造化されていない。 したがって、臨床研究を行うためには、医療報告から情報を抽出する必要がある。 CamemBERTのようなBERTライクなモデルによるトランスファーラーニングは、特に名前付きエンティティ認識において大きな進歩をもたらした。 しかし、これらのモデルは平易な言語で訓練されており、バイオメディカルデータでは効率が良くない。 そこで我々は,カマンベールの事前訓練を継続したフランスの新しい生物医学データセットを提案する。 そこで本研究では,フランスのバイオメディカルドメインであるcamimbert-bioの最初のバージョンを紹介し,f1スコアの2.54ポイント向上を示した。 本研究は,フランス語モデルからの継続事前学習の成功と,同ドメインと言語に関する最近の提案との対比を示すものである。 私たちの重要なコントリビューションの1つは、フランスのバイオメディカルモデルの現状を明確化するための標準評価プロトコルを使用することの重要性を強調しています。

Clinical data in hospitals are increasingly accessible for research through clinical data warehouses, however these documents are unstructured. It is therefore necessary to extract information from medical reports to conduct clinical studies. Transfer learning with BERT-like models such as CamemBERT has allowed major advances, especially for named entity recognition. However, these models are trained for plain language and are less efficient on biomedical data. This is why we propose a new French public biomedical dataset on which we have continued the pre-training of CamemBERT. Thus, we introduce a first version of CamemBERT-bio, a specialized public model for the French biomedical domain that shows 2.54 points of F1 score improvement on average on different biomedical named entity recognition tasks. Our findings demonstrate the success of continual pre-training from a French model and contrast with recent proposals on the same domain and language. One of our key contributions highlights the importance of using a standard evaluation protocol that enables a clear view of the current state-of-the-art for French biomedical models.
翻訳日:2023-08-03 17:24:06 公開日:2023-08-02
# すべての単光子状態に対するエネルギー密度の非局所性

Non-locality of the energy density for all single-photon states ( http://arxiv.org/abs/2306.09793v2 )

ライセンス: Link先を確認
Maxime Federico and Hans-Rudolf Jauslin(参考訳) 単光子の状態の非局所性は、いくつかの異なる視点から分析されてきた。 本稿では、電磁エネルギー密度を観測可能とし、周波数演算子 $\omega=c(-\delta)^{1/2}$ の反局所性に基づくデモンストレーションを提案する。 この証明は電磁場の標準量子化に基づいており、これは運動量表現やランダウ・パイエルルスの位置表現やbia{\l}ynicki-birulaで等価に定式化することができる。 この証明は、すべての単光子状態に対して拡張され、bia{\l}ynicki-birulaの結果は、2つの特定の状態のクラスで定式化され、一様局在のいずれかを含む [i]。 Bia{\l}ynicki-Birula, Phys Rev. Lett. bf80} 5247 (1998)]、または[I]で定義されるように、電気的または磁気的局所化状態である。 Bia{\l}ynicki-Birula, Z. Bia{\l}ynicka-Birula, Phys.Rev a {\bf79} 032112 (2009)]。 本手法は,局所観測器の単光子状態期待値と真空状態との比較に基づいて,ナイトの厳密な局所化の定義を定式化した。

The non-locality of single-photon states has been analyzed from several different but interrelared perspectives. In this article, we propose a demonstration based on the electromagnetic energy density observable and on the anti-local property of the frequency operator $\Omega=c(-\Delta)^{1/2}$. The present proof is based on the standard quantization of the electromagnetic field, which can be formulated equivalently in the momentum representations or in the position representations of Landau-Peierls and of Bia{\l}ynicki-Birula. Our proof extends to all single-photon states the results of Bia{\l}ynicki-Birula, that were formulated for two particular classes of states, involving either a uniform localization [I. Bia{\l}ynicki-Birula, Phys. Rev. Lett. {\bf80} 5247 (1998)], or alternatively, states that are electrically or magnetically localized, as defined in [I. Bia{\l}ynicki-Birula, Z. Bia{\l}ynicka-Birula, Phys.Rev. A {\bf79} 032112 (2009)]. Our approach is formulated in terms of Knight's definition of strict localization, based on the comparison of single-photon states expectation values of local observables with that of the vacuum.
翻訳日:2023-08-03 17:23:10 公開日:2023-08-02
# 外部システムにおける測定基準の選択により活性化または破壊することができる休眠絡み

Dormant entanglement that can be activated or destroyed by the basis choice of measurements on an external system ( http://arxiv.org/abs/2306.05517v2 )

ライセンス: Link先を確認
Zixuan Hu and Sabre Kais(参考訳) 本稿では,外部システムにおける測定値の基底選択によって活性化または破壊できる,休眠絡みと呼ばれる新しい形態の絡み合いを提案する。 活性化のない休眠絡みは、量子通信資源として利用できず、ベル状態と比較して相関が小さくなる。 休息の絡み合いの特定の形態は弱く、アクティベーションなしでは、絡み合った量子ビットの間に任意の基底における相関が観察できない。 休眠の絡み合いは、局所システムと絡み合う全ての外部システムに関する情報が利用可能になるまで、局所システムの物理的記述が不完全であるユニークな量子挙動を示す。 そこで,本研究では,n個の当事者のうちの2つが,すべての当事者の完全なコンセンサスを持つ絡み合いペアを活性化できるn個の集団量子通信チャネルを提案する。

We propose a new form of entanglement called the dormant entanglement that can be activated or destroyed by the basis choice of measurements on an external system. The dormant entanglement without activation cannot be used as a quantum communication resource and has reduced correlation as compared to the Bell states. A particular form of the dormant entanglement is so weak that, without activation, no correlation in any basis can be observed between the entangled qubits. The dormant entanglement showcases a unique quantum behavior that the physical description of a local system remains incomplete until the information on all external systems entangled with the local system becomes available. For a potential application, we propose an n-party collective quantum communication channel that allows any 2 out of the n parties to activate an entanglement pair with the complete consensus of all other parties.
翻訳日:2023-08-03 17:22:43 公開日:2023-08-02
# 重み付きグレイボックス関数のベイズ最適化

Bayesian Optimization of Expensive Nested Grey-Box Functions ( http://arxiv.org/abs/2306.05150v2 )

ライセンス: Link先を確認
Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones(参考訳) ブラックボックス関数とホワイトボックス関数の両方からなるネスト関数であるグレーボックス目的関数を最適化する問題を考察する。 このようなグレイボックス問題の一般的な定式化は、既存のグレイボックス最適化定式化を特別な場合としてカバーする。 次に、最適化駆動型アルゴリズムを設計して解決する。 ある正規性仮定の下では、本アルゴリズムは、考慮された関数のリプシッツ定数に依存する定数乗算項まで、標準的なブラックボックスベイズ最適化アルゴリズムに対して同様の後悔の結束を達成する。 さらに,本手法を制約付きケースに拡張し,特別なケースについて議論する。 一般的に使われるカーネル関数に対して、後悔境界は最適な解への収束率を導出することができる。 実験の結果, グレーボックス最適化手法は, 通常のブラックボックス最適化アルゴリズムと比較して, グローバル最適解の探索速度を大幅に向上させることがわかった。

We consider the problem of optimizing a grey-box objective function, i.e., nested function composed of both black-box and white-box functions. A general formulation for such grey-box problems is given, which covers the existing grey-box optimization formulations as special cases. We then design an optimism-driven algorithm to solve it. Under certain regularity assumptions, our algorithm achieves similar regret bound as that for the standard black-box Bayesian optimization algorithm, up to a constant multiplicative term depending on the Lipschitz constants of the functions considered. We further extend our method to the constrained case and discuss special cases. For the commonly used kernel functions, the regret bounds allow us to derive a convergence rate to the optimal solution. Experimental results show that our grey-box optimization method empirically improves the speed of finding the global optimal solution significantly, as compared to the standard black-box optimization algorithm.
翻訳日:2023-08-03 17:22:27 公開日:2023-08-02
# ada-tta: 適応型高品質テキスト対話アバター合成に向けて

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis ( http://arxiv.org/abs/2306.03504v2 )

ライセンス: Link先を確認
Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao(参考訳) 私たちは新しいタスク、すなわち低リソースのテキスト対トークアバターに興味を持っています。 音声トラックをトレーニングデータとし、任意のテキストを駆動入力とする数分間の会話人ビデオと、入力テキストに対応する高品質な音声肖像画を合成することを目的としている。 この課題は,デジタルヒューマン産業において広く応用されるが,(1)従来のマルチスピーカーテキスト音声合成システムにおいて,ドメイン外オーディオの音色を模倣することは困難である。 2) 訓練データによる高忠実度・リップ同期音声アバターのレンダリングは困難である。 本稿では,(1)テキストの内容,音色,韻律をうまく切り離す汎用的なゼロショットマルチスピーカTSモデルを設計したAdaptive Text-to-Talking Avatar(Ada-TTA)について紹介する。 これらの設計により, 上記の2つの課題を克服し, 身元保存音声と実話映像を生成する。 実験により,本手法が現実的,アイデンティティ保存,音声-視覚同期音声アバター映像を合成できることが実証された。

We are interested in a novel task, namely low-resource text-to-talking avatar. Given only a few-minute-long talking person video with the audio track as the training data and arbitrary texts as the driving input, we aim to synthesize high-quality talking portrait videos corresponding to the input text. This task has broad application prospects in the digital human industry but has not been technically achieved yet due to two challenges: (1) It is challenging to mimic the timbre from out-of-domain audio for a traditional multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and lip-synchronized talking avatars with limited training data. In this paper, we introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a generic zero-shot multi-speaker TTS model that well disentangles the text content, timbre, and prosody; and (2) embraces recent advances in neural rendering to achieve realistic audio-driven talking face video generation. With these designs, our method overcomes the aforementioned two challenges and achieves to generate identity-preserving speech and realistic talking person video. Experiments demonstrate that our method could synthesize realistic, identity-preserving, and audio-visual synchronized talking avatar videos.
翻訳日:2023-08-03 17:22:10 公開日:2023-08-02
# 頭頸部癌におけるマルチセンター画像分割のためのトランスフォーマーモデルのプロンプトによるチューニング

Prompt-Based Tuning of Transformer Models for Multi-Center Medical Image Segmentation of Head and Neck Cancer ( http://arxiv.org/abs/2305.18948v2 )

ライセンス: Link先を確認
Numan Saeed, Muhammad Ridzuan, Roba Al Majzoub, Mohammad Yaqub(参考訳) 医療画像分割は、適切な診断と治療のために正確かつ効率的なモデルを必要とする重要な医療活動である。 ビジョントランス(ViT)ベースのセグメンテーションモデルは、このタスクを達成する上で優れた性能を示している。 しかし、強力なバックボーンを構築するには、ViTの自己注意ブロックは大規模な事前学習データを必要とする。 事前訓練されたモデルの修正には、バックボーンパラメータの全てまたは一部を更新する必要がある。 本稿では,新しい医療センターのデータに事前訓練されたトランスフォーマーベースセグメンテーションモデルを適用するための,新しい微調整戦略を提案する。 この方法では、学習可能な少数のパラメータ(プロンプトと呼ばれる)を入力空間に導入し(モデルのパラメータの1\%未満)、残りのパラメータは凍結する。 新しい医療センターのデータを用いた広範囲にわたる研究は、医療セグメントモデルの迅速な微調整が、旧センターに関する無視できない低下を伴う新センターデータに対して優れたパフォーマンスをもたらすことを示している。 さらに,新たなセンタデータへの再トレーニングを最小にすることで,事前学習モデルの計算コストと時間コストを大幅に削減した。

Medical image segmentation is a vital healthcare endeavor requiring precise and efficient models for appropriate diagnosis and treatment. Vision transformer (ViT)-based segmentation models have shown great performance in accomplishing this task. However, to build a powerful backbone, the self-attention block of ViT requires large-scale pre-training data. The present method of modifying pre-trained models entails updating all or some of the backbone parameters. This paper proposes a novel fine-tuning strategy for adapting a pretrained transformer-based segmentation model on data from a new medical center. This method introduces a small number of learnable parameters, termed prompts, into the input space (less than 1\% of model parameters) while keeping the rest of the model parameters frozen. Extensive studies employing data from new unseen medical centers show that the prompt-based fine-tuning of medical segmentation models provides excellent performance regarding the new-center data with a negligible drop regarding the old centers. Additionally, our strategy delivers great accuracy with minimum re-training on new-center data, significantly decreasing the computational and time costs of fine-tuning pre-trained models.
翻訳日:2023-08-03 17:21:47 公開日:2023-08-02
# vistaar: インド語asrのさまざまなベンチマークとトレーニングセット

Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR ( http://arxiv.org/abs/2305.15386v2 )

ライセンス: Link先を確認
Kaushal Santosh Bhogale, Sai Sundaresan, Abhigyan Raman, Tahir Javed, Mitesh M. Khapra, Pratyush Kumar(参考訳) 世界中の人々に新しいLSMベースのユースケースを利用できるようにするためには、ASRシステムの改善が必要である。 本稿では,インド語に焦点をあて,インド語に対するASRシステムの評価と改善には,多様なベンチマークが必要であることを論じる。 これに対処するために、vistaarをさまざまな言語とドメインの組み合わせにわたる59のベンチマークセットとしてコラボレートし、3つのasrシステムと2つの商用システムを評価した。 また、インド12の言語で利用可能なトレーニングデータセットにwhisperモデルを微調整することで、indicwhisperモデルのトレーニングも行います。 IndicWhisperはVistaarベンチマークで考慮されたASRシステムを大幅に改善することを示す。 実際、indicwhisper は 59 ベンチマーク中 39 で最低の wer を持ち、平均 4.1 wer である。 すべてのデータセット、コード、モデルをオープンソースにしています。

Improving ASR systems is necessary to make new LLM-based use-cases accessible to people across the globe. In this paper, we focus on Indian languages, and make the case that diverse benchmarks are required to evaluate and improve ASR systems for Indian languages. To address this, we collate Vistaar as a set of 59 benchmarks across various language and domain combinations, on which we evaluate 3 publicly available ASR systems and 2 commercial systems. We also train IndicWhisper models by fine-tuning the Whisper models on publicly available training datasets across 12 Indian languages totalling to 10.7K hours. We show that IndicWhisper significantly improves on considered ASR systems on the Vistaar benchmark. Indeed, IndicWhisper has the lowest WER in 39 out of the 59 benchmarks, with an average reduction of 4.1 WER. We open-source all datasets, code and models.
翻訳日:2023-08-03 17:21:30 公開日:2023-08-02
# 会話型頭部生成における人間の好みの学習と評価

Learning and Evaluating Human Preferences for Conversational Head Generation ( http://arxiv.org/abs/2307.10636v2 )

ライセンス: Link先を確認
Mohan Zhou, Yalong Bai, Wei Zhang, Ting Yao, Tiejun Zhao, Tao Mei(参考訳) 手動による選好評価と整合する信頼性と総合的な評価基準は,対話型頭部ビデオ合成法の開発に不可欠である。 既存の定量的評価は、限られた評価次元のみを考慮するため、人間の嗜好の完全な複雑さを捉えるのに失敗することが多い。 質的評価とユーザスタディはソリューションを提供するが、時間と労力がかかる。 この制限は対話型ヘッド生成アルゴリズムやシステムの進歩を妨げる。 本稿では,異なる次元にわたる定量的評価に基づいて,人間の嗜好を適合させるための学習ベース評価尺度であるPreference Score(PS)を提案する。 PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。 実験の結果,人間の知覚と整合する選好スコアの優位性が検証され,非知覚データに対するロバスト性と一般化性が示され,会話ヘッド生成に有用なツールとなった。 この指標が会話型ヘッドジェネレーションの新たな進歩を促進すると期待しています。 プロジェクトページ: https://github.com/dc3ea9f/PreferenceScore

A reliable and comprehensive evaluation metric that aligns with manual preference assessments is crucial for conversational head video synthesis methods development. Existing quantitative evaluations often fail to capture the full complexity of human preference, as they only consider limited evaluation dimensions. Qualitative evaluations and user studies offer a solution but are time-consuming and labor-intensive. This limitation hinders the advancement of conversational head generation algorithms and systems. In this paper, we propose a novel learning-based evaluation metric named Preference Score (PS) for fitting human preference according to the quantitative evaluations across different dimensions. PS can serve as a quantitative evaluation without the need for human annotation. Experimental results validate the superiority of Preference Score in aligning with human perception, and also demonstrate robustness and generalizability to unseen data, making it a valuable tool for advancing conversation head generation. We expect this metric could facilitate new advances in conversational head generation. Project Page: https://https://github.com/dc3ea9f/PreferenceScore.
翻訳日:2023-08-03 17:14:57 公開日:2023-08-02
# 連続ループ経路積分分子動力学による量子熱平均の精密計算

Exact Calculation of Quantum Thermal Average from Continuous Loop Path Integral Molecular Dynamics ( http://arxiv.org/abs/2307.06510v2 )

ライセンス: Link先を確認
Xuda Ye, Zhennan Zhou(参考訳) 量子熱平均は、量子系の熱力学特性を記述する上で中心的な役割を果たす。 計算の観点からは、量子熱平均は経路積分分子動力学(PIMD)によって計算できるが、そのような近似の定量的収束に関する知識は不足している。 本研究では, 連続ループ経路積分分子動力学 (cl-pimd) という別の計算フレームワークを提案する。 正規モードの数を有限整数 $n\in\mathbb n$ に切り換えることで、真の量子温度平均から切り離された cl-pimd の統計平均の差を定量化し、切り離された cl-pimd が一様で$n$ の幾何学的エルゴード性を持つことを証明する。 これらの結果は、CL-PIMDが量子温度平均の正確な近似を提供し、PIMD方法論の数学的正当化に役立つことを示している。

The quantum thermal average plays a central role in describing the thermodynamic properties of a quantum system. From the computational perspective, the quantum thermal average can be computed by the path integral molecular dynamics (PIMD), but the knowledge on the quantitative convergence of such approximations is lacking. We propose an alternative computational framework named the continuous loop path integral molecular dynamics (CL-PIMD), which replaces the ring polymer beads by a continuous loop in the spirit of the Feynman--Kac formula. By truncating the number of normal modes to a finite integer $N\in\mathbb N$, we quantify the discrepancy of the statistical average of the truncated CL-PIMD from the true quantum thermal average, and prove that the truncated CL-PIMD has uniform-in-$N$ geometric ergodicity. These results show that the CL-PIMD provides an accurate approximation to the quantum thermal average, and serves as a mathematical justification of the PIMD methodology.
翻訳日:2023-08-03 17:14:17 公開日:2023-08-02
# グラフ学習における大規模言語モデル(LLM)の可能性を探る

Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs ( http://arxiv.org/abs/2307.03393v3 )

ライセンス: Link先を確認
Zhikai Chen, Haitao Mao, Hang Li, Wei Jin, Hongzhi Wen, Xiaochi Wei, Shuaiqiang Wang, Dawei Yin, Wenqi Fan, Hui Liu, Jiliang Tang(参考訳) Graphsでの学習は、その広い現実世界のアプリケーションのために大きな注目を集めている。 テキストノード属性を持つグラフを学習するための最も一般的なパイプラインは、主にグラフニューラルネットワーク(GNN)に依存しており、一般的な知識と深い意味理解に制限がある初期ノード表現として浅いテキスト埋め込みを利用している。 近年、LLM(Large Language Models)は、テキストデータを扱う既存のワークフローに革命をもたらした、広範な共通知識と強力な意味理解能力を持つことが証明されている。 本稿では,グラフ機械学習,特にノード分類タスクにおけるLLMの可能性を探究し,LLMs-as-EnhancersとLLMs-as-Predictorsの2つの可能なパイプラインについて検討する。 前者はLLMを活用して、膨大な知識でノードのテキスト属性を拡張し、GNNを通じて予測を生成する。 後者はLSMをスタンドアロンの予測器として直接利用する。 この2つのパイプラインについて、さまざまな設定で包括的で体系的な研究を行う。 総合的な経験的結果から,新たな可能性を開く新たな洞察と,グラフ上での学習にLLMを活用するための有望な方向性を提案する。 私たちのコードとデータセットはhttps://github.com/currytang/graph-llmで利用可能です。

Learning on Graphs has attracted immense attention due to its wide real-world applications. The most popular pipeline for learning on graphs with textual node attributes primarily relies on Graph Neural Networks (GNNs), and utilizes shallow text embedding as initial node representations, which has limitations in general knowledge and profound semantic understanding. In recent years, Large Language Models (LLMs) have been proven to possess extensive common knowledge and powerful semantic comprehension abilities that have revolutionized existing workflows to handle text data. In this paper, we aim to explore the potential of LLMs in graph machine learning, especially the node classification task, and investigate two possible pipelines: LLMs-as-Enhancers and LLMs-as-Predictors. The former leverages LLMs to enhance nodes' text attributes with their massive knowledge and then generate predictions through GNNs. The latter attempts to directly employ LLMs as standalone predictors. We conduct comprehensive and systematical studies on these two pipelines under various settings. From comprehensive empirical results, we make original observations and find new insights that open new possibilities and suggest promising directions to leverage LLMs for learning on graphs. Our codes and datasets are available at https://github.com/CurryTang/Graph-LLM.
翻訳日:2023-08-03 17:13:57 公開日:2023-08-02
# 大規模言語モデルの評価に関する調査

A Survey on Evaluation of Large Language Models ( http://arxiv.org/abs/2307.03109v6 )

ライセンス: Link先を確認
Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにおける前例のない性能のため、学術と産業の両方で人気が高まっている。 LLMは研究と日常利用の両方において重要な役割を担い続けており、その評価はタスクレベルだけでなく社会レベルでもますます重要になり、潜在的なリスクの理解を深めている。 過去数年間、様々な観点からLSMを調べるための重要な努力が続けられてきた。 本稿では, これらのLCMの評価手法を総合的に検討し, 評価方法, 評価方法, 評価方法の3つの重要な側面に着目した。 まず,一般的な自然言語処理タスク,推論,医療利用,倫理,教育,自然科学,社会科学,エージェント応用など,評価タスクの観点から概観する。 第2に,LLMの性能評価において重要な要素である評価手法とベンチマークに飛び乗ることで,'where' と 'how' の質問に答える。 次に、異なるタスクにおけるLCMの成功事例と失敗事例を要約する。 最後に、llms評価の先にあるいくつかの将来の課題に光を当てた。 我々の目的は、LLMの評価の領域における研究者に貴重な洞察を提供することであり、それによってより熟練したLLMの開発を支援することである。 我々のキーポイントは、LCMの開発を支援するために、評価を必須の規律として扱うべきであるということです。 関連したオープンソース資料は、https://github.com/mlgroupjlu/llm-eval-surveyで一貫して保守しています。

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.
翻訳日:2023-08-03 17:13:35 公開日:2023-08-02
# nexus sine qua non: トラフィック予測のための接続ネットワーク

Nexus sine qua non: Essentially Connected Networks for Traffic Forecasting ( http://arxiv.org/abs/2307.01482v3 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Lijun Sun, Yunpeng Wang, Jian Sun(参考訳) 時空間グラフニューラルネットワーク(STGNN)は,交通流の時空間表現を学習するためのデファクトモデルとなっている。 しかし、現代のSTGNNは、複雑で拡張性の点で大きな課題を提起する複雑な技術とともに、しばしば過剰または不明瞭なコンポーネントを含んでいる。 このような懸念から、我々はニューラルアーキテクチャの設計を再考し、交通予測における重要な課題を時空間の文脈化として特定する。 本稿では,TN,RNN,Transformerといった複雑なシーケンシャルな手法を使わずに,学習可能なノード埋め込みによる効率的なメッセージパスバックボーンに基づく,本質的に接続されたモデルを提案する。 興味深いことに、経験的な結果は、シンプルでエレガントな文脈化能力を持つモデルが、交通予測においてより解釈可能で計算的に効率的でありながら、最先端の技術と精巧な構造とを適切に比較していることを示している。 我々の発見は、単純で効果的な神経予測アーキテクチャを構築する可能性を探るため、さらなる研究のための新たな地平を開くことを期待する。

Spatial-temporal graph neural networks (STGNNs) have become the de facto models for learning spatiotemporal representations of traffic flow. However, modern STGNNs often contain superfluous or obscure components, along with complex techniques, posing significant challenges in terms of complexity and scalability. Such concerns prompt us to rethink the design of neural architectures and to identify the key challenges in traffic forecasting as spatial-temporal contextualization. Here, we present an essentially connected model based on an efficient message-passing backbone, powered by learnable node embedding, without any complex sequential techniques such as TCNs, RNNs, and Transformers. Intriguingly, empirical results demonstrate how a simple and elegant model with contextualization capability compares favorably w.r.t. the state-of-the-art with elaborate structures, while being much more interpretable and computationally efficient for traffic forecasting. We anticipate that our findings will open new horizons for further research to explore the possibility of creating simple but effective neural forecasting architectures.
翻訳日:2023-08-03 17:13:10 公開日:2023-08-02
# 個人別分散推定と学習

Differentially Private Distributed Estimation and Learning ( http://arxiv.org/abs/2306.15865v3 )

ライセンス: Link先を確認
Marios Papachristou, M. Amin Rahimian(参考訳) エージェントが情報交換を行い、個人が観測したサンプルから未知の確率変数の統計的特性を推定するネットワーク環境における分散推定と学習の問題について検討する。 プライベートな観察に関する情報を交換することで、エージェントは未知の量をまとめて見積もることができるが、プライバシー上のリスクにも直面する。 我々のアグリゲーション・スキームの目標は、観測されたデータを時間とともに、ネットワーク全体にわたって効率的に組み合わせ、エージェントのプライバシー要求を調整し、その周辺地域を超えて調整することである。 我々のアルゴリズムにより、参加者はオフラインまたはオンラインで取得されたプライベート信号から十分な統計量を推定し、その信号とネットワーク近傍のプライバシーを維持することができる。 これは微分プライバシー(dp)制約の下で交換された推定値にノイズを付加する調整されたランダム化スキームを持つ線形集計スキームによって達成される。 いずれの場合も、全ての信号に中心的なアクセスを持つ仮説的、全知的な観測者の推定への収束を証明し、アルゴリズムの効率を実証する。 また,コンバージェンスレート解析と有限時間性能保証を提供し,コンバージェンス時間を最小化するノイズがラプラスノイズであり,各エージェントの信号およびネットワーク特性に対する感度に対応するパラメータであることを示す。 最後に,我々の理論的結果を補足し,検証するために,米国電力グリッドネットワークによる実世界のデータと,ドイツ家庭の電力消費データを用いて,すべてのプライバシー体制下での電力ステーションおよび家庭の平均消費電力を推定する実験を行った。

We study distributed estimation and learning problems in a networked environment in which agents exchange information to estimate unknown statistical properties of random variables from their privately observed samples. By exchanging information about their private observations, the agents can collectively estimate the unknown quantities, but they also face privacy risks. The goal of our aggregation schemes is to combine the observed data efficiently over time and across the network, while accommodating the privacy needs of the agents and without any coordination beyond their local neighborhoods. Our algorithms enable the participating agents to estimate a complete sufficient statistic from private signals that are acquired offline or online over time, and to preserve the privacy of their signals and network neighborhoods. This is achieved through linear aggregation schemes with adjusted randomization schemes that add noise to the exchanged estimates subject to differential privacy (DP) constraints. In every case, we demonstrate the efficiency of our algorithms by proving convergence to the estimators of a hypothetical, omniscient observer that has central access to all of the signals. We also provide convergence rate analysis and finite-time performance guarantees and show that the noise that minimizes the convergence time to the best estimates is the Laplace noise, with parameters corresponding to each agent's sensitivity to their signal and network characteristics. Finally, to supplement and validate our theoretical results, we run experiments on real-world data from the US Power Grid Network and electric consumption data from German Households to estimate the average power consumption of power stations and households under all privacy regimes.
翻訳日:2023-08-03 17:12:33 公開日:2023-08-02
# infusion:マルチコンセプトゼロショットテキストによるビデオ編集のためのインジェクション・アンド・アテンション・フュージョン

InFusion: Inject and Attention Fusion for Multi Concept Zero Shot Text based Video Editing ( http://arxiv.org/abs/2308.00135v2 )

ライセンス: Link先を確認
Anant Khandelwal(参考訳) 大規模なテキスト画像拡散モデルは、入力画像の編集に使用するテキストプロンプトと並行して、多様な高品質な画像を生成することに成功している。 しかし、これらのモデルをビデオに適用する場合、主な課題はフレーム間の時間的一貫性と一貫性を確保することだ。 本稿では,大規模な事前学習画像拡散モデルを利用したゼロショットテキストベースの動画編集フレームワークInFusionを提案する。 本フレームワークは,編集プロンプトで言及されている多種多様な概念に対する画素レベル制御による複数概念の編集を特にサポートしている。 具体的には, u-net 残差ブロックからソースと編集プロンプトで得られた特徴の差異をデコーダ層に注入し, インジェクション機能と組み合わせることで, ソース内容の照会や編集済み概念のスケール, 未編集部品の注入が容易になる。 また、編集部をソースから切り離し、編集プロンプト用のデノイジングパイプラインにペーストするマスク抽出およびアテンションフュージョン戦略により、さらに細粒度制御される。 私たちのフレームワークは、トレーニングを必要としないため、編集用のワンショットチューニングモデルに代わる低コストなものです。 LoRAを用いた画像モデル(Stable Diffusion v1.5)による複雑な概念編集を実演した。 適応は既存の画像拡散技術と互換性がある。 大規模な実験結果は、高品質で時間的に一貫した動画をレンダリングする既存の手法に対する効果を示す。

Large text-to-image diffusion models have achieved remarkable success in generating diverse high-quality images in alignment with text prompt used for editing the input image. But, when these models applied to video the main challenge is to ensure temporal consistency and coherence across frames. In this paper, we proposed InFusion, a framework for zero-shot text-based video editing leveraging large pre-trained image diffusion models. Our framework specifically supports editing of multiple concepts with the pixel level control over diverse concepts mentioned in the editing prompt. Specifically, we inject the difference of features obtained with source and edit prompt from U-Net residual blocks in decoder layers, this when combined with injected attention features make it feasible to query the source contents and scale edited concepts along with the injection of unedited parts. The editing is further controlled in fine-grained manner with mask extraction and attention fusion strategy which cuts the edited part from source and paste it into the denoising pipeline for editing prompt. Our framework is a low cost alternative of one-shot tuned models for editing since it does not require training. We demonstrated the complex concept editing with generalised image model (Stable Diffusion v1.5) using LoRA. Adaptation is compatible with all the existing image diffusion techniques. Extensive experimental results demonstrate the effectiveness over existing methods in rendering high-quality and temporally consistent videos.
翻訳日:2023-08-03 17:05:00 公開日:2023-08-02
# 人間の評価フィードバックから学ぶプリミティブスキルに基づくロボット

Primitive Skill-based Robot Learning from Human Evaluative Feedback ( http://arxiv.org/abs/2307.15801v2 )

ライセンス: Link先を確認
Ayano Hiranaka, Minjune Hwang, Sharon Lee, Chen Wang, Li Fei-Fei, Jiajun Wu, Ruohan Zhang(参考訳) 強化学習(rl)アルゴリズムは、サンプルの非効率性や安全性の問題から、実環境におけるロボット操作タスクを扱う上で、大きな課題に直面している。 これらの課題を克服するために、人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習という2つのアプローチを活用する新しいフレームワークSEEDを提案する。 どちらのアプローチも、スパース報酬問題や長いホリゾンタスクに関わる複雑さに対処するのに特に効果的である。 これらの組み合わせにより、SEEDはRLHFに必要な人的労力を削減し、実世界の環境でRLでロボット操作を訓練する際の安全性を高める。 さらに、パラメータ化されたスキルは、エージェントのハイレベルな意図を明確に把握し、人間が実行前にスキルの選択を評価することを可能にする。 この機能はトレーニングプロセスをより安全で効率的にする。 本研究は,SEEDの性能を評価するために,5つの操作タスクを多種多様な複雑さで実験した。 以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。 加えて、SEEDは他のRLHF法と比較して、人間の労力を大幅に削減している。 詳細とビデオ結果はhttps://seediros23.github.io/で確認できる。

Reinforcement learning (RL) algorithms face significant challenges when dealing with long-horizon robot manipulation tasks in real-world environments due to sample inefficiency and safety issues. To overcome these challenges, we propose a novel framework, SEED, which leverages two approaches: reinforcement learning from human feedback (RLHF) and primitive skill-based reinforcement learning. Both approaches are particularly effective in addressing sparse reward issues and the complexities involved in long-horizon tasks. By combining them, SEED reduces the human effort required in RLHF and increases safety in training robot manipulation with RL in real-world settings. Additionally, parameterized skills provide a clear view of the agent's high-level intentions, allowing humans to evaluate skill choices before they are executed. This feature makes the training process even safer and more efficient. To evaluate the performance of SEED, we conducted extensive experiments on five manipulation tasks with varying levels of complexity. Our results show that SEED significantly outperforms state-of-the-art RL algorithms in sample efficiency and safety. In addition, SEED also exhibits a substantial reduction of human effort compared to other RLHF methods. Further details and video results can be found at https://seediros23.github.io/.
翻訳日:2023-08-03 17:04:39 公開日:2023-08-02
# 周波数調整型反磁性浮上センサによる超軽量暗黒物質の探索

Search for ultralight dark matter with a frequency adjustable diamagnetic levitated sensor ( http://arxiv.org/abs/2307.15758v2 )

ライセンス: Link先を確認
Rui Li, Shaochun Lin, Liang Zhang, Changkui Duan, Pu Huang and Jiangfeng Du(参考訳) いくつかのダークマター候補の中で、ボソニック・ウルトラライト (sub meV) ダークマターは、標準モデル (SM) と結合し、新しい力を誘導できるため、モチベーションが高い。 以前のMICROSCOPEとEot Washのトーション実験は、サブ-1Hzの領域で高い精度を達成したが、高い周波数では、まだ関連する実験研究がない。 キロヘルツスケール以下で最も感度の高い加速度感度センサである磁気浮上型マイクロメカニカル発振器を応用した実験手法を提案する。 測定範囲を改善するために、共振周波数を0.1Hzから100Hzに調整できるセンサを用いた。 カップリング定数の限界は、以前の報告と比較して10倍以上改善され、将来的にはセンサアレイを使用することで、高い精度を達成できる可能性がある。

Among several dark matter candidates, bosonic ultralight (sub meV) dark matter is well motivated because it could couple to the Standard Model (SM) and induce new forces. Previous MICROSCOPE and Eot Wash torsion experiments have achieved high accuracy in the sub-1 Hz region, but at higher frequencies there is still a lack of relevant experimental research. We propose an experimental scheme based on the diamagnetic levitated micromechanical oscillator, one of the most sensitive sensors for acceleration sensitivity below the kilohertz scale. In order to improve the measurement range, we used the sensor whose resonance frequency could be adjusted from 0.1Hz to 100Hz. The limits of the coupling constant are improved by more than 10 times compared to previous reports, and it may be possible to achieve higher accuracy by using the array of sensors in the future.
翻訳日:2023-08-03 17:04:17 公開日:2023-08-02
# ロボットタッチの注意:ロバストなシム・トゥ・リアル触覚制御のための触覚閾値予測

Attention for Robot Touch: Tactile Saliency Prediction for Robust Sim-to-Real Tactile Control ( http://arxiv.org/abs/2307.14510v2 )

ライセンス: Link先を確認
Yijiong Lin, Mauro Comi, Alex Church, Dandan Zhang, Nathan F. Lepora(参考訳) 高解像度触覚センサーは、接触に富むロボットタスクにおける局所的な接触に関する情報を正確に提供することができる。 しかし、そのようなタスクの非構造化環境への展開は未調査のままである。 非構造環境における触覚ロボット制御のロバスト性を向上させるため,ニューロサイエンスのヒューマンタッチアテンション機構やコンピュータビジョンのビジュアルサリエンシー予測問題に触発されたロボットタッチのための新しい概念である \textit{tactile saliency} を提案し,検討した。 視覚的サリエンシと類似したこの概念は、触覚センサーが捉えた触覚画像のキー情報を識別する。 視覚サリエンシーデータセットは、一般に人間が注釈を付けるが、触覚画像を手動でラベル付けすることは、直観に反するパターンのため困難である。 この課題に対処するため、3つのネットワークからなる新しいアプローチを提案する。 1)接触深度ネットワーク(ConDepNet)は、目標と雑音の特徴を含む実際の触覚画像の変形を局所化する接触深度マップを生成する。 2) 入力接触深度マップの目標領域を記述するために、触覚的サルテンシーマップを予測する触覚的サルテンシーネットワーク(tacsalnet) 3) 触覚ノイズ生成装置(tacngen)は,tacsalnetを訓練するためにノイズ特性を生成する。 コンタクトポーズ推定とエッジ追従実験の結果から,実触覚画像からのターゲット特徴の正確な予測が得られた。 全体として、当社の触覚塩分予測アプローチは、未知の障害のある環境での堅牢なsim-to-real触覚制御を可能にする。 プロジェクトページ: https://sites.google.com/view/tactile-saliency/

High-resolution tactile sensing can provide accurate information about local contact in contact-rich robotic tasks. However, the deployment of such tasks in unstructured environments remains under-investigated. To improve the robustness of tactile robot control in unstructured environments, we propose and study a new concept: \textit{tactile saliency} for robot touch, inspired by the human touch attention mechanism from neuroscience and the visual saliency prediction problem from computer vision. In analogy to visual saliency, this concept involves identifying key information in tactile images captured by a tactile sensor. While visual saliency datasets are commonly annotated by humans, manually labelling tactile images is challenging due to their counterintuitive patterns. To address this challenge, we propose a novel approach comprised of three interrelated networks: 1) a Contact Depth Network (ConDepNet), which generates a contact depth map to localize deformation in a real tactile image that contains target and noise features; 2) a Tactile Saliency Network (TacSalNet), which predicts a tactile saliency map to describe the target areas for an input contact depth map; 3) and a Tactile Noise Generator (TacNGen), which generates noise features to train the TacSalNet. Experimental results in contact pose estimation and edge-following in the presence of distractors showcase the accurate prediction of target features from real tactile images. Overall, our tactile saliency prediction approach gives robust sim-to-real tactile control in environments with unknown distractors. Project page: https://sites.google.com/view/tactile-saliency/.
翻訳日:2023-08-03 17:04:01 公開日:2023-08-02
# COCO-O:自然分布シフト下における物体検出器のベンチマーク

COCO-O: A Benchmark for Object Detectors under Natural Distribution Shifts ( http://arxiv.org/abs/2307.12730v2 )

ライセンス: Link先を確認
Xiaofeng Mao, Yuefeng Chen, Yao Zhu, Da Chen, Hang Su, Rong Zhang, Hui Xue(参考訳) 実用的な物体検出アプリケーションは、自然な分布シフトを伴う画像入力においてその効果を失う可能性がある。 この問題は、OF-Distribution (OOD) の入力下での検出器の堅牢性に研究コミュニティがより注意を払っている。 既存の作業はデータセットを構築して、例えばAutonomous Drivingのような特定のアプリケーションシナリオに対して、検出器のOODロバスト性をベンチマークする。 しかし、これらのデータセットには普遍性がなく、cocoのような共通タスクに基づいた一般的な検出器のベンチマークは困難である。 より包括的なロバストネス評価を行うため,COCO-O(ut-of-distribution)という,6種類の自然分布シフトを持つCOCOに基づくテストデータセットを導入する。 COCO-Oはトレーニングデータと大きな分散ギャップを持ち、より高速なR-CNN検出器で55.7%の性能低下をもたらす。 我々はCOCO-Oを利用して、100以上の近代的な物体検出器で実験を行い、その改善が信頼性が高いか、COCOテストセットに過度に適合しているかを調べる。 残念なことに、初期の古典的な検出器のほとんどは強いOOD一般化を示さない。 さらに,検出器のアーキテクチャ設計,拡張および事前学習技術の最近のブレークスルーに対するロバスト性効果について検討する。 いくつかの経験的発見が明らかになる。 1) 頭部や頸部と比較して, 背骨は, 頑健性において最も重要な部分である。 2 端対端検出変圧器の設計は、強化を伴わず、堅牢性を低下させる恐れがある。 3) 大規模基礎モデルはロバストな物体検出において大きな飛躍を遂げた。 私たちは、COCO-Oがオブジェクト検出の堅牢性研究のためのリッチなテストベッドを提供することを期待しています。 データセットはhttps://github.com/alibaba/easyrobust/tree/main/benchmarks/coco_oで提供される。

Practical object detection application can lose its effectiveness on image inputs with natural distribution shifts. This problem leads the research community to pay more attention on the robustness of detectors under Out-Of-Distribution (OOD) inputs. Existing works construct datasets to benchmark the detector's OOD robustness for a specific application scenario, e.g., Autonomous Driving. However, these datasets lack universality and are hard to benchmark general detectors built on common tasks such as COCO. To give a more comprehensive robustness assessment, we introduce COCO-O(ut-of-distribution), a test dataset based on COCO with 6 types of natural distribution shifts. COCO-O has a large distribution gap with training data and results in a significant 55.7% relative performance drop on a Faster R-CNN detector. We leverage COCO-O to conduct experiments on more than 100 modern object detectors to investigate if their improvements are credible or just over-fitting to the COCO test set. Unfortunately, most classic detectors in early years do not exhibit strong OOD generalization. We further study the robustness effect on recent breakthroughs of detector's architecture design, augmentation and pre-training techniques. Some empirical findings are revealed: 1) Compared with detection head or neck, backbone is the most important part for robustness; 2) An end-to-end detection transformer design brings no enhancement, and may even reduce robustness; 3) Large-scale foundation models have made a great leap on robust object detection. We hope our COCO-O could provide a rich testbed for robustness study of object detection. The dataset will be available at https://github.com/alibaba/easyrobust/tree/main/benchmarks/coco_o.
翻訳日:2023-08-03 17:03:19 公開日:2023-08-02
# 満足度調査における感情分析への統合nplアプローチ

An Integrated NPL Approach to Sentiment Analysis in Satisfaction Surveys ( http://arxiv.org/abs/2307.11771v2 )

ライセンス: Link先を確認
Edson B. Pinto-Luque(参考訳) 本研究プロジェクトは,自然言語処理NLPへの統合的アプローチを満足度調査に適用することを目的としている。 調査回答から関連する情報の理解と抽出、感情の分析、繰り返し発生する単語パターンの特定に重点を置く。 nlp技術は感情的極性を決定し、反応をポジティブ、ネガティブ、中立のカテゴリに分類し、意見マイニングを使って参加者の意見をハイライトする。 このアプローチは参加者にとって最も関係のある側面を特定し、それらの特定の側面に関して意見を理解するのに役立つだろう。 研究プロジェクトの主要な構成要素は,NPLを用いた満足度調査応答における単語パターンの分析である。 この分析は、回答者の反応に現れる感情、意見、テーマ、トレンドをより深く理解する。 このアプローチから得られた結果は、改善すべき領域を特定し、回答者の好みを理解し、回答満足度を改善するために分析に基づいて戦略的決定を行うために使用できる。

The research project aims to apply an integrated approach to natural language processing NLP to satisfaction surveys. It will focus on understanding and extracting relevant information from survey responses, analyzing feelings, and identifying recurring word patterns. NLP techniques will be used to determine emotional polarity, classify responses into positive, negative, or neutral categories, and use opinion mining to highlight participants opinions. This approach will help identify the most relevant aspects for participants and understand their opinions in relation to those specific aspects. A key component of the research project will be the analysis of word patterns in satisfaction survey responses using NPL. This analysis will provide a deeper understanding of feelings, opinions, and themes and trends present in respondents responses. The results obtained from this approach can be used to identify areas for improvement, understand respondents preferences, and make strategic decisions based on analysis to improve respondent satisfaction.
翻訳日:2023-08-03 17:02:51 公開日:2023-08-02
# Lefschetz thimble計算による実時間経路積分における量子トンネルの新しい図形

A new picture of quantum tunneling in the real-time path integral from Lefschetz thimble calculations ( http://arxiv.org/abs/2307.11199v2 )

ライセンス: Link先を確認
Jun Nishimura, Katsuta Sakai, Atis Yosprakob(参考訳) 量子トンネルは想像時間経路積分形式論においてインスタントンによって記述できることはよく知られている。 しかし、実時間経路積分形式論におけるその記述は不可解である。 ここでは、量子トンネルは一般に、ピカール=レフシェッツ理論を用いて同定できる複雑なサドル点の寄与によって特徴づけられるという声明を確立する。 簡単な量子力学系のモンテカルロシミュレーションを実行し、一般化されたレフシェッツ・ティンブル法で符号問題を克服することでこれを明示的に実証する。 複素鞍点の寄与が、原理実験によって測定できる物理量である時刻$t$で評価されるエルミート座標作用素 $\hat{x}$ の複素 ``weak value'' に現れることを数値的に確認する。 また, 古典力学への変遷についても考察する。

It is well known that quantum tunneling can be described by instantons in the imaginary-time path integral formalism. However, its description in the real-time path integral formalism has been elusive. Here we establish a statement that quantum tunneling can be characterized in general by the contribution of complex saddle points, which can be identified by using the Picard-Lefschetz theory. We demonstrate this explicitly by performing Monte Carlo simulations of simple quantum mechanical systems, overcoming the sign problem by the generalized Lefschetz thimble method. We confirm numerically that the contribution of complex saddle points manifests itself in a complex ``weak value'' of the Hermitian coordinate operator $\hat{x}$ evaluated at time $t$, which is a physical quantity that can be measured by experiments in principle. We also discuss the transition to classical dynamics based on our picture.
翻訳日:2023-08-03 17:02:36 公開日:2023-08-02
# 双対性を持つ1次元スピン模型における弱普遍性、量子多体傷、異常無限温度自己相関

Weak universality, quantum many-body scars and anomalous infinite-temperature autocorrelations in a one-dimensional spin model with duality ( http://arxiv.org/abs/2307.11161v2 )

ライセンス: Link先を確認
Adithi Udupa, Samudra Sur, Arnab Sen and Diptiman Sen(参考訳) 3スピン相互作用を持つ1次元スピン1/2モデルと横磁場 $h$ について検討した。 このモデルは、z_2 \times z_2$ 対称性を持ち、h$と1/h$の双対性を持つことが知られている。 自己双対点の$h=1$は連続相転移を持つ量子臨界点である。 臨界指数 $z$, $\beta$, $\gamma$, $\nu$ を計算し、中心電荷 $c$ を正確な対角化を用いて数値的に計算する。 z$ と $c$ の両方が 1$ に等しいことは、臨界点が辺数作用素を持つ共形場理論によって支配されていることを暗示している。 3スピンモデルは4状態ポッツモデルと2つのデカップリング横場イジングモデルの間の中間であるアシュキン・テラー臨界性を示す。 エネルギー準位間隔解析は、モデルが可積分でないことを示す。 偶数のサイト数と周期境界条件を持つ系には、システムサイズとともに指数関数的に増加する正中スペクトルゼロエネルギー固有状態が存在する。 これらの固有状態の部分集合は、$h$の値とは独立な波動関数を持ち、特異な絡み合い構造を持つため、量子多体傷と考えられる。 このような量子スカーの数は、少なくともシステムサイズと線形にスケールする。 最後に,開放系の一端に近い場所での無限温度自己相関関数について検討する。 自己相関者の何人かは異常に時間的にリラックスし、h \gg 1$ または $h \ll 1$ であれば、発音される振動と非常に小さな減衰率を持つ。 h$ が臨界点に近い場合、オートコレレータは終点のオートコレレータを除いて急速に 0 に崩壊する。

We study a one-dimensional spin-1/2 model with three-spin interactions and a transverse magnetic field $h$. The model is known to have a $Z_2 \times Z_2$ symmetry, and a duality between $h$ and $1/h$. The self-dual point at $h=1$ is a quantum critical point with a continuous phase transition. We compute the critical exponents $z$, $\beta$, $\gamma$ and $\nu$, and the central charge $c$ numerically using exact diagonalization. We find that both $z$ and $c$ are equal to $1$, implying that the critical point is governed by a conformal field theory with a marginal operator. The three-spin model exhibits Ashkin-Teller criticality with an effective coupling that is intermediate between four-state Potts model and two decoupled transverse field Ising models. An energy level spacing analysis shows that the model is not integrable. For a system with an even number of sites and periodic boundary conditions, there are exact mid-spectrum zero-energy eigenstates whose number grows exponentially with the system size. A subset of these eigenstates have wave functions which are independent of the value of $h$ and have unusual entanglement structure; hence these can be considered to be quantum many-body scars. The number of such quantum scars scales at least linearly with system size. Finally, we study the infinite-temperature autocorrelation functions at sites close to one end of an open system. We find that some of the autocorrelators relax anomalously in time, with pronounced oscillations and very small decay rates if $h \gg 1$ or $h \ll 1$. If $h$ is close to the critical point, the autocorrelators decay quickly to zero except for an autocorrelator at the end site.
翻訳日:2023-08-03 17:02:19 公開日:2023-08-02
# SMURF: 4次元イメージングレーダを用いた3次元物体検出のための空間多重表現融合

SMURF: Spatial Multi-Representation Fusion for 3D Object Detection with 4D Imaging Radar ( http://arxiv.org/abs/2307.10784v2 )

ライセンス: Link先を確認
Jianan Liu, Qiuchi Zhao, Weiyi Xiong, Tao Huang, Qing-Long Han, Bing Zhu(参考訳) 4Dミリ波レーダー(mmWave)は、悪天候条件下でのコスト効率と操作性から、車両の検知に有望な技術である。 しかし、この技術の採用は、レーダポイントクラウドデータにおけるスパーシリティとノイズの問題によって妨げられている。 本稿では,単一4次元イメージングレーダを用いた新しい3次元物体検出手法である空間多重表現融合(SMURF)を提案する。 SMURFは、カーネル密度推定(KDE)を通して多次元ガウス混合分布の柱化や密度特性を含むレーダー検出点の複数の表現を利用する。 KDEは、狭角分解能とレーダ信号のマルチパス伝搬による測定精度の低下を効果的に緩和する。 さらに、KDEは密度特性をキャプチャすることで、ポイントクラウドの分散を緩和する。 View-of-Delft(VoD)とTJ4DRadSetデータセットの実験的評価は、SMURFの有効性と一般化能力を示し、最近提案された4Dイメージングレーダベースの単一表現モデルよりも優れている。 さらに、4Dイメージングレーダのみを使用しながら、SMURFは最先端の4Dイメージングレーダとカメラ融合方式に匹敵する性能を保ち、TJ4DRadSetデータセットの鳥眼視の平均精度は1.22%、VoDデータセットの全注釈領域の平均精度は1.32%向上した。 提案手法は印象的な推論時間を示し,2つのデータセットのほとんどのスキャンにおいて0.05秒以内で,リアルタイム検出の課題に対処する。 本研究は、4DmmWaveレーダの利点を強調し、4Dイメージングレーダを用いた3次元物体検出に関するその後の研究の強力なベンチマークである。

The 4D Millimeter wave (mmWave) radar is a promising technology for vehicle sensing due to its cost-effectiveness and operability in adverse weather conditions. However, the adoption of this technology has been hindered by sparsity and noise issues in radar point cloud data. This paper introduces spatial multi-representation fusion (SMURF), a novel approach to 3D object detection using a single 4D imaging radar. SMURF leverages multiple representations of radar detection points, including pillarization and density features of a multi-dimensional Gaussian mixture distribution through kernel density estimation (KDE). KDE effectively mitigates measurement inaccuracy caused by limited angular resolution and multi-path propagation of radar signals. Additionally, KDE helps alleviate point cloud sparsity by capturing density features. Experimental evaluations on View-of-Delft (VoD) and TJ4DRadSet datasets demonstrate the effectiveness and generalization ability of SMURF, outperforming recently proposed 4D imaging radar-based single-representation models. Moreover, while using 4D imaging radar only, SMURF still achieves comparable performance to the state-of-the-art 4D imaging radar and camera fusion-based method, with an increase of 1.22% in the mean average precision on bird's-eye view of TJ4DRadSet dataset and 1.32% in the 3D mean average precision on the entire annotated area of VoD dataset. Our proposed method demonstrates impressive inference time and addresses the challenges of real-time detection, with the inference time no more than 0.05 seconds for most scans on both datasets. This research highlights the benefits of 4D mmWave radar and is a strong benchmark for subsequent works regarding 3D object detection with 4D imaging radar.
翻訳日:2023-08-03 17:01:46 公開日:2023-08-02
# 停止するタイミングを知る:信頼性保証付き遅延適応スパイクニューラルネットワーク分類器

Knowing When to Stop: Delay-Adaptive Spiking Neural Network Classifiers with Reliability Guarantees ( http://arxiv.org/abs/2305.11322v2 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, Osvaldo Simeone(参考訳) spiking neural networks (snns)は、入力提示の過程でニューロン間で交換されるスパイクの数にエネルギーが依存する内部イベント駆動ニューラルダイナミクスを介して時系列データを処理する。 通常、入力シーケンス全体が処理された後に意思決定が行われ、入力間でかなり均一なレイテンシとエネルギー消費レベルが発生する。 しかし、最近の研究で明らかになったように、SNNモデルが十分に 'confident'' である場合、各例の難易度に遅延とエネルギー消費を適応させることで、SNNは早期決定を下すことができる。 既存のテクニックは、信頼性保証を提供していない信頼のヒューリスティックな尺度に基づいている。 本稿では,任意の事前学習済みsn分類器を包含して,入力依存停止時に発生する決定の信頼性を保証する新しい遅延適応型snベース推論手法を提案する。 SpikeCPと呼ばれるこのアプローチでは、コンフォーメーション予測(CP)からツールを活用することで、基盤となるSNNと比較して最小限の複雑さの増加を伴います。 SpikeCPはまた、遅延パフォーマンスを目標とするCP対応トレーニングフェーズを統合するように拡張されている。 ボンフェロニからシムズまで, 代替信頼度補正方式に基づくCPの変動について検討し, MNIST-DVSデータセットを用いて広範な実験を行った。

Spiking neural networks (SNNs) process time-series data via internal event-driven neural dynamics whose energy consumption depends on the number of spikes exchanged between neurons over the course of the input presentation. Typically, decisions are produced after the entire input sequence has been processed, resulting in latency and energy consumption levels that are fairly uniform across inputs. However, as explored in recent work, SNNs can produce an early decision when the SNN model is sufficiently ``confident'', adapting delay and energy consumption to the difficulty of each example. Existing techniques are based on heuristic measures of confidence that do not provide reliability guarantees, potentially exiting too early. In this paper, we introduce a novel delay-adaptive SNN-based inference methodology that, wrapping around any pre-trained SNN classifier, provides guaranteed reliability for the decisions produced at input-dependent stopping times. The approach, dubbed SpikeCP, leverages tools from conformal prediction (CP), and it entails minimal complexity increase as compared to the underlying SNN, requiring only additional thresholding and counting operations at run time. SpikeCP is also extended to integrate a CP-aware training phase that targets delay performance. Variants of CP based on alternative confidence correction schemes, from Bonferroni to Simes, are explored, and extensive experiments are described using the MNIST-DVS data set.
翻訳日:2023-08-03 15:18:43 公開日:2023-08-02
# 自己教師付き学習のための進化的強化政策最適化

Evolutionary Augmentation Policy Optimization for Self-supervised Learning ( http://arxiv.org/abs/2303.01584v2 )

ライセンス: Link先を確認
Noah Barrett, Zahra Sadeghi, Stan Matwin(参考訳) 自己教師付き学習(SSL)は、手動でラベル付けされたデータを必要としないディープニューラルネットワーク(DNN)の事前トレーニングのための機械学習アルゴリズムである。 この学習技術の中心的な考え方は、ラベル付きデータをデータ拡張を通じて自動生成し、DNNの事前訓練に活用する補助的な段階であるakaプレテキストタスクに基づいている。 しかし、各文章課題の効果については、文献ではあまり研究されていない。 本稿では,制約条件下での自己教師付き学習アルゴリズムの性能に対する拡張演算子の寄与について検討する。 本稿では,複数のSOTA SSLアルゴリズムにおいて,データ拡張パイプラインのプリテキストタスクにおける最適化と拡張演算子の影響を測定するための進化的探索手法を提案する。 染色体内の拡張演算子の異なる組み合わせをエンコードすることにより、進化的最適化機構を通じて最適な増強ポリシーを求める。 さらに、最適化されたSSLアルゴリズムの性能を分析し説明する手法についても紹介する。 提案手法は,拡張ポリシーの選択がSSLアルゴリズム全体の性能に与える影響を検証し,SSLアルゴリズムの分類精度を向上する。 また,進化的検索機構によって得られた最適SSLソリューションを比較し,プリテキストタスクにおけるバッチサイズが2つのビジュアルデータセットに与える影響を示す。

Self-supervised Learning (SSL) is a machine learning algorithm for pretraining Deep Neural Networks (DNNs) without requiring manually labeled data. The central idea of this learning technique is based on an auxiliary stage aka pretext task in which labeled data are created automatically through data augmentation and exploited for pretraining the DNN. However, the effect of each pretext task is not well studied or compared in the literature. In this paper, we study the contribution of augmentation operators on the performance of self supervised learning algorithms in a constrained settings. We propose an evolutionary search method for optimization of data augmentation pipeline in pretext tasks and measure the impact of augmentation operators in several SOTA SSL algorithms. By encoding different combination of augmentation operators in chromosomes we seek the optimal augmentation policies through an evolutionary optimization mechanism. We further introduce methods for analyzing and explaining the performance of optimized SSL algorithms. Our results indicate that our proposed method can find solutions that outperform the accuracy of classification of SSL algorithms which confirms the influence of augmentation policy choice on the overall performance of SSL algorithms. We also compare optimal SSL solutions found by our evolutionary search mechanism and show the effect of batch size in the pretext task on two visual datasets.
翻訳日:2023-08-03 15:18:18 公開日:2023-08-02
# 大規模言語モデルにおける高速かつスローな思考

Thinking Fast and Slow in Large Language Models ( http://arxiv.org/abs/2212.05206v2 )

ライセンス: Link先を確認
Thilo Hagendorff, Sarah Fabi, Michal Kosinski(参考訳) 大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。 したがって、その新興能力を評価することは極めて重要である。 本研究では, GPT-3 のような LLM は人間の直感と著しく類似した行動を示し,それに伴う認知的誤りを示す。 しかし,高い認知能力を有するLSM,特にChatGPTとGPT-4は,これらの誤りを克服し,過度な方法で実行することを学習した。 我々の実験では,人間の直感的な意思決定を調査するために設計された,認知反射テスト(CRT)と意味錯覚を用いてLLMを探索した。 本研究は, LLMを心理学的手法で研究することは, 未知の創発形質を明らかにする可能性があることを示す。

Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Therefore, it is of great importance to evaluate their emerging abilities. In this study, we show that LLMs like GPT-3 exhibit behavior that strikingly resembles human-like intuition - and the cognitive errors that come with it. However, LLMs with higher cognitive capabilities, in particular ChatGPT and GPT-4, learned to avoid succumbing to these errors and perform in a hyperrational manner. For our experiments, we probe LLMs with the Cognitive Reflection Test (CRT) as well as semantic illusions that were originally designed to investigate intuitive decision-making in humans. Our study demonstrates that investigating LLMs with methods from psychology has the potential to reveal otherwise unknown emergent traits.
翻訳日:2023-08-03 15:18:00 公開日:2023-08-02
# Bi-GRU(AED-ISS)搭載国際宇宙ステーションにおける緊急ダストフリー自動解法

Automatic Emergency Dust-Free solution on-board International Space Station with Bi-GRU (AED-ISS) ( http://arxiv.org/abs/2210.08549v2 )

ライセンス: Link先を確認
Po-Han Hou, Wei-Chih Lin, Hong-Chun Hou, Yu-Hao Huang, Jih-Hong Shue(参考訳) PM2.5やPM0.3の問題に注目が集まる中、粒子状物質は環境と人間の両方にとって潜在的脅威となるだけでなく、国際宇宙ステーション(ISS)の機器にも害を与えている。 我々のチームは、粒子状物質の様々な濃度を磁場、湿度、加速度、温度、圧力、CO2濃度に関連付けることを目指している。 我々の目標は、粒子状物質のレベルを予測し、宇宙飛行士がいくつかの実験で機器を保護するための十分な反応時間を提供する早期警報システム(ews)を確立することであり、さらに、火災に関連するアプリケーションのためのリモートセンシングスモークアラームのプロトタイプとして、構築されたモデルをさらに開発することである。 本稿では,90分以上データを収集し,次の1分間に2.5マイクロメートル/0.1リットル以上の粒子のレベルを予測するbi-gru(bidirectional gated recurrent unit)アルゴリズムを実装し,早期警告として分類する。

With a rising attention for the issue of PM2.5 or PM0.3, particulate matters have become not only a potential threat to both the environment and human, but also a harming existence to instruments onboard International Space Station (ISS). Our team is aiming to relate various concentration of particulate matters to magnetic fields, humidity, acceleration, temperature, pressure and CO2 concentration. Our goal is to establish an early warning system (EWS), which is able to forecast the levels of particulate matters and provides ample reaction time for astronauts to protect their instruments in some experiments or increase the accuracy of the measurements; In addition, the constructed model can be further developed into a prototype of a remote-sensing smoke alarm for applications related to fires. In this article, we will implement the Bi-GRU (Bidirectional Gated Recurrent Unit) algorithms that collect data for past 90 minutes and predict the levels of particulates which over 2.5 micrometer per 0.1 liter for the next 1 minute, which is classified as an early warning
翻訳日:2023-08-03 15:17:45 公開日:2023-08-02
# 勾配誘導による自己学習によるイベント抽出の改善

Improve Event Extraction via Self-Training with Gradient Guidance ( http://arxiv.org/abs/2205.12490v2 )

ライセンス: Link先を確認
Zhiyang Xu, Jay-Yoon Lee, Lifu Huang(参考訳) データ不足は、イベント抽出の進行を妨げる主要な要因である。 この問題を克服するために,大規模な未ラベルデータを利用した自己学習型フィードバック(STF)フレームワークを提案し,同じ文の抽象的意味表現(AMR)グラフと比較することにより,ラベルのないデータから新たなイベント予測に対するフィードバックを得る。 具体的には、(1)既存のイベントアノテーションに基づいてトレーニングされたベースイベント抽出モデルと、(2)新しいイベント参照を擬似トレーニングサンプルとして予測するための大規模未ラベルコーパスと、(2)新しい予測イベントトリガ、引数、その引数ロール、および、AMRグラフにおけるそれらのパスを用いて、擬似ラベルの正しさを示す互換性スコアを推定する新しいスコアモデルから構成される。 互換性スコアはさらにフィードバックとして働き、セルフトレーニング中に擬似ラベルでモデル学習を奨励または奨励する。 ace05-e, ace05-e+, ereの3つのベンチマークデータセットにおける実験結果は、stfフレームワークがイベント抽出、特にイベント引数抽出に有効であることを示し、ベースとなるイベント抽出モデルと強力なベースラインよりも高いパフォーマンス向上を示している。 大規模非ラベルデータを活用することで,高品質なamrグラフアノテーションが利用できない場合にも,イベント抽出モデルの大部分を改善できるため,stfは汎用的なフレームワークであることが示された。

Data scarcity has been the main factor that hinders the progress of event extraction. To overcome this issue, we propose a Self-Training with Feedback (STF) framework that leverages the large-scale unlabeled data and acquires feedback for each new event prediction from the unlabeled data by comparing it to the Abstract Meaning Representation (AMR) graph of the same sentence. Specifically, STF consists of (1) a base event extraction model trained on existing event annotations and then applied to large-scale unlabeled corpora to predict new event mentions as pseudo training samples, and (2) a novel scoring model that takes in each new predicted event trigger, an argument, its argument role, as well as their paths in the AMR graph to estimate a compatibility score indicating the correctness of the pseudo label. The compatibility scores further act as feedback to encourage or discourage the model learning on the pseudo labels during self-training. Experimental results on three benchmark datasets, including ACE05-E, ACE05-E+, and ERE, demonstrate the effectiveness of the STF framework on event extraction, especially event argument extraction, with significant performance gain over the base event extraction models and strong baselines. Our experimental analysis further shows that STF is a generic framework as it can be applied to improve most, if not all, event extraction models by leveraging large-scale unlabeled data, even when high-quality AMR graph annotations are not available.
翻訳日:2023-08-03 15:17:26 公開日:2023-08-02
# 車両再識別のためのマルチアテンションに基づくソフトパーティショニングネットワーク

Multi-Attention-Based Soft Partition Network for Vehicle Re-Identification ( http://arxiv.org/abs/2104.10401v2 )

ライセンス: Link先を確認
Sangrok Lee, Taekang Woo, Sang Hun Lee(参考訳) 車両の再識別は、同一車両と他の車両の画像の区別に役立つ。 異なる視点から同一の車両と類似の車両間の微妙なインテンス間差があるため、このプロセスは困難なプロセスである。 この問題を解決するために、研究者は空間的注意機構を通じてビューアウェアや部分特有の特徴を抽出し、これは通常ノイズの多い注意マップをもたらすか、あるいはキーポイントなどのメタデータに高価な付加アノテーションを必要とする。 一方,研究者の洞察に基づき,特定の視点や車両部品に対する様々な手作りのマルチアテンションアーキテクチャが提案されている。 しかし,本手法では,注目枝の数と性質が実世界の再識別作業に最適であることを保証していない。 そこで本研究では,様々な視点から多様な識別領域をより効率的に捉えるためのマルチソフトアテンション機構に基づく車両再識別ネットワークを提案する。 さらに,無意味な領域に対する注意マップを作成する新しい手法を考案し,最終結果の発生を除外することにより,空間注意マップのノイズを著しく低減することができる。 また,車両再識別のための重要な意味属性の効率的な選択のための,チャネルワイドアテンション機構と空間アテンション機構を組み合わせた。 実験の結果,提案手法はメタデータを使わずにアテンションベース手法の最先端性能を実現し,VabyIDおよびVERI-Wildデータセットのメタデータを用いた手法に匹敵する性能を示した。

Vehicle re-identification helps in distinguishing between images of the same and other vehicles. It is a challenging process because of significant intra-instance differences between identical vehicles from different views and subtle inter-instance differences between similar vehicles. To solve this issue, researchers have extracted view-aware or part-specific features via spatial attention mechanisms, which usually result in noisy attention maps or otherwise require expensive additional annotation for metadata, such as key points, to improve the quality. Meanwhile, based on the researchers' insights, various handcrafted multi-attention architectures for specific viewpoints or vehicle parts have been proposed. However, this approach does not guarantee that the number and nature of attention branches will be optimal for real-world re-identification tasks. To address these problems, we proposed a new vehicle re-identification network based on a multiple soft attention mechanism for capturing various discriminative regions from different viewpoints more efficiently. Furthermore, this model can significantly reduce the noise in spatial attention maps by devising a new method for creating an attention map for insignificant regions and then excluding it from generating the final result. We also combined a channel-wise attention mechanism with a spatial attention mechanism for the efficient selection of important semantic attributes for vehicle re-identification. Our experiments showed that our proposed model achieved a state-of-the-art performance among the attention-based methods without metadata and was comparable to the approaches using metadata for the VehicleID and VERI-Wild datasets.
翻訳日:2023-08-03 15:16:59 公開日:2023-08-02
# 固定化分類器を用いたクラス増分学習

Class-incremental Learning with Pre-allocated Fixed Classifiers ( http://arxiv.org/abs/2010.08657v2 )

ライセンス: Link先を確認
Federico Pernici, Matteo Bruni, Claudio Baecchi, Francesco Turchini, Alberto Del Bimbo(参考訳) 授業インクリメンタルラーニングでは、学習エージェントは、新しいクラスを学習しながら前のクラスを忘れないように、データのストリームに直面します。 ニューラルネットワークは、以前取得した知識を忘れるため、この設定で苦しむことが知られている。 この問題に対処するために、有効な手法はエピソディックメモリに格納された過去のデータを活用し、新しいクラスに対応するために最終分類器ノードを拡張する。 本研究では,拡張型分類器を,学習フェーズの開始時から多くの事前配置された出力ノードが分類損失権を受けるような,新しい固定型分類器に置き換える。 標準拡張分類器とは対照的に、以下のことができる。 (a)未発見の将来のクラスの出力ノードは、漸進的に到達する正のサンプルとともに学習の始めから、まず負のサンプルを見る。 (b)学習モデルに新しいクラスが組み込まれているため、幾何学的構成を変えない特徴を学ぶ。 公開データセットを用いた実験では、提案手法は拡張型分類器と同じくらい有効であり、それ以外は存在しない内部特徴表現の興味深い特徴を示す。 多数のクラスを事前に配置したアブレーション研究は,アプローチをさらに検証する。

In class-incremental learning, a learning agent faces a stream of data with the goal of learning new classes while not forgetting previous ones. Neural networks are known to suffer under this setting, as they forget previously acquired knowledge. To address this problem, effective methods exploit past data stored in an episodic memory while expanding the final classifier nodes to accommodate the new classes. In this work, we substitute the expanding classifier with a novel fixed classifier in which a number of pre-allocated output nodes are subject to the classification loss right from the beginning of the learning phase. Contrarily to the standard expanding classifier, this allows: (a) the output nodes of future unseen classes to firstly see negative samples since the beginning of learning together with the positive samples that incrementally arrive; (b) to learn features that do not change their geometric configuration as novel classes are incorporated in the learning model. Experiments with public datasets show that the proposed approach is as effective as the expanding classifier while exhibiting novel intriguing properties of the internal feature representation that are otherwise not-existent. Our ablation study on pre-allocating a large number of classes further validates the approach.
翻訳日:2023-08-03 15:16:35 公開日:2023-08-02
# Q(D)O-ES: AutoMLにおけるポストホックアンサンブル選択のための人口ベース品質(多様性)最適化

Q(D)O-ES: Population-based Quality (Diversity) Optimisation for Post Hoc Ensemble Selection in AutoML ( http://arxiv.org/abs/2307.08364v2 )

ライセンス: Link先を確認
Lennart Purucker, Lennart Schneider, Marie Anastacio, Joeran Beel, Bernd Bischl, Holger Hoos(参考訳) 自動機械学習(automl)システムは、予測性能を改善するためにhocを後付けするモデルが一般的である。 しかし、GESは単純な決定論的欲求探索を行うため、常に最適であるとは限らない。 本研究では,2つの新しい集団型アンサンブル選択手法であるQO-ESとQDO-ESを紹介し,それらをGESと比較する。 qo-es は予測性能のみを最適化するが、qdo-es は集団内のアンサンブルの多様性も考慮し、品質の多様性の最適化のアイデアに基づいた最適化の間、様々な優れたアンサンブルを維持している。 これらの手法はAutoMLベンチマークから71の分類データセットを用いて評価され、QO-ESとQDO-ESがGESを上回っていることが示されている。 以上の結果より,ポスト・ホック・センスムリングにおいては多様性は有益であるが,過剰フィッティングのリスクも増大することが示唆された。

Automated machine learning (AutoML) systems commonly ensemble models post hoc to improve predictive performance, typically via greedy ensemble selection (GES). However, we believe that GES may not always be optimal, as it performs a simple deterministic greedy search. In this work, we introduce two novel population-based ensemble selection methods, QO-ES and QDO-ES, and compare them to GES. While QO-ES optimises solely for predictive performance, QDO-ES also considers the diversity of ensembles within the population, maintaining a diverse set of well-performing ensembles during optimisation based on ideas of quality diversity optimisation. The methods are evaluated using 71 classification datasets from the AutoML benchmark, demonstrating that QO-ES and QDO-ES often outrank GES, albeit only statistically significant on validation data. Our results further suggest that diversity can be beneficial for post hoc ensembling but also increases the risk of overfitting.
翻訳日:2023-08-03 15:08:59 公開日:2023-08-02
# TeleViT:テレコネクト駆動トランスフォーマーは季節別ワイルドファイア予測を改善する

TeleViT: Teleconnection-driven Transformers Improve Subseasonal to Seasonal Wildfire Forecasting ( http://arxiv.org/abs/2306.10940v2 )

ライセンス: Link先を確認
Ioannis Prapas, Nikolaos Ioannis Bountos, Spyros Kondylatos, Dimitrios Michail, Gustau Camps-Valls, Ioannis Papoutsis(参考訳) 気候変動の結果、森林火災はますます悪化し、効果的な緩和のための先進的な対策が必要である。 森林燃料管理・資源調達・配分計画に先立って、数週間・数ヶ月の山火事を予報することが重要である。 このような正確な長期予測を地球規模で達成するには、地球系固有の時空間相互作用(メモリ効果やテレコネクションなど)を考慮したモデルを採用することが不可欠である。 本研究では,地球を一つの相互接続システムとして扱うことのできるテレコネクション駆動型視覚トランス(televit)を提案する。 総合的な実験を通じて,TeleViTは,予報窓における全焼面積パターンを正確に予測する上で,最大4ヶ月前に優位性を示す。 この増加は特に大きな予測窓で顕著であり、地球系の力学を捉えるために遠隔接続を利用するディープラーニングモデルの能力の向上を実証している。 コードはhttps://github.com/orion-ai-lab/televit。

Wildfires are increasingly exacerbated as a result of climate change, necessitating advanced proactive measures for effective mitigation. It is important to forecast wildfires weeks and months in advance to plan forest fuel management, resource procurement and allocation. To achieve such accurate long-term forecasts at a global scale, it is crucial to employ models that account for the Earth system's inherent spatio-temporal interactions, such as memory effects and teleconnections. We propose a teleconnection-driven vision transformer (TeleViT), capable of treating the Earth as one interconnected system, integrating fine-grained local-scale inputs with global-scale inputs, such as climate indices and coarse-grained global variables. Through comprehensive experimentation, we demonstrate the superiority of TeleViT in accurately predicting global burned area patterns for various forecasting windows, up to four months in advance. The gain is especially pronounced in larger forecasting windows, demonstrating the improved ability of deep learning models that exploit teleconnections to capture Earth system dynamics. Code available at https://github.com/Orion-Ai-Lab/TeleViT.
翻訳日:2023-08-03 15:08:35 公開日:2023-08-02
# スパイキングニューロモーフィックプロセッサを用いたバイナリスパース符号化QUBOモデルのサンプリング

Sampling binary sparse coding QUBO models using a spiking neuromorphic processor ( http://arxiv.org/abs/2306.01940v2 )

ライセンス: Link先を確認
Kyle Henke, Elijah Pelofske, Georg Hahn, Garrett T. Kenyon(参考訳) 画像の疎二元表現を計算することの問題点を考察する。 正確に言うと、画像と超完全で非正規な基底が与えられたとき、我々は与えられた入力を最もよく再構成する最小基底ベクトルの集合を示すスパースバイナリベクトルを見つけることを目指している。 我々はこの問題を再構成誤差の$L_2$損失と二進ベクトルの$L_0$(または同値の$L_1$)損失で定式化する。 これはいわゆる準非拘束バイナリ最適化(QUBO)問題をもたらし、その解は一般にNP-ハードである。 この作品の貢献は2つある。 まず、データに最も合うように、所望のスパーシティレベルに対する教師なし・非正規化辞書特徴学習方法を示す。 第二に、二項スパース符号問題は、非凸エネルギーの風景を横切るためにニューロンの確率的ネットワークを用いて、Loihi 1ニューロモルフィックチップ上で解決される。 解法は古典的ヒューリスティック・シミュレートされたアニーリングに対してベンチマークされる。 ニューロモルフィックコンピューティングはバイナリスパース符号化QUBOモデルの低エネルギー解をサンプリングするのに適しており、Loihi 1はQUBOモデルの非常にスパース解をサンプリングすることができるが、シミュレーションアニールと競合するためには実装の改善が必要である。

We consider the problem of computing a sparse binary representation of an image. To be precise, given an image and an overcomplete, non-orthonormal basis, we aim to find a sparse binary vector indicating the minimal set of basis vectors that when added together best reconstruct the given input. We formulate this problem with an $L_2$ loss on the reconstruction error, and an $L_0$ (or, equivalently, an $L_1$) loss on the binary vector enforcing sparsity. This yields a so-called Quadratic Unconstrained Binary Optimization (QUBO) problem, whose solution is generally NP-hard to find. The contribution of this work is twofold. First, the method of unsupervised and unnormalized dictionary feature learning for a desired sparsity level to best match the data is presented. Second, the binary sparse coding problem is then solved on the Loihi 1 neuromorphic chip by the use of stochastic networks of neurons to traverse the non-convex energy landscape. The solutions are benchmarked against the classical heuristic simulated annealing. We demonstrate neuromorphic computing is suitable for sampling low energy solutions of binary sparse coding QUBO models, and although Loihi 1 is capable of sampling very sparse solutions of the QUBO models, there needs to be improvement in the implementation in order to be competitive with simulated annealing.
翻訳日:2023-08-03 15:08:14 公開日:2023-08-02
# クロスドメインプラネタリー・ギアボックス障害診断のための健康データマップを用いたドメイン知識による合成故障サンプル生成

Domain knowledge-informed Synthetic fault sample generation with Health Data Map for cross-domain Planetary Gearbox Fault Diagnosis ( http://arxiv.org/abs/2305.19569v3 )

ライセンス: Link先を確認
Jong Moon Ha and Olga Fink(参考訳) 振動信号と深層学習(dl)を用いた惑星ギアボックスの故障診断に関する広範な研究が行われている。 しかし, dlベースの手法は, ギヤボックスの動作条件が異なるため, ドメインシフト問題に影響を受けやすい。 このようなドメインシフトを克服するために、ドメイン適応とデータ合成法が提案されているが、ターゲットドメインで健全なデータしか利用できない現実の状況では直接適用されないことが多い。 本稿では,対象領域にのみ健全なデータが存在する極端領域シフトシナリオの課題を解決するために,health data map (hdmap) を用いた2つの新しいドメイン知識に基づくデータ合成手法を提案する。 提案された2つのアプローチはスケールされた CutPaste と FaultPaste と呼ばれる。 hdmapはプラネタリー・ギアボックスの振動信号をイメージライクなマトリックスとして物理的に表現するために使用され、断層関連の特徴を可視化することができる。 CutPasteとFactPasteは、それぞれソースドメインから抽出されたドメイン知識と障害シグネチャを使用して、ターゲットドメインの健全なデータに基づいて障害サンプルを生成する。 提案手法は,実際の障害を生成することに加えて,様々な重大度レベルを有する障害の合成制御のための障害シグネチャのスケーリングを導入する。 提案手法を評価するために、惑星のギアボックス試験台上でケーススタディを行った。 その結果,提案手法は,過度な領域シフトの場合であっても,障害を正確に診断でき,対象領域ではこれまで観測されていなかった障害の重大度を推定できることがわかった。

Extensive research has been conducted on fault diagnosis of planetary gearboxes using vibration signals and deep learning (DL) approaches. However, DL-based methods are susceptible to the domain shift problem caused by varying operating conditions of the gearbox. Although domain adaptation and data synthesis methods have been proposed to overcome such domain shifts, they are often not directly applicable in real-world situations where only healthy data is available in the target domain. To tackle the challenge of extreme domain shift scenarios where only healthy data is available in the target domain, this paper proposes two novel domain knowledge-informed data synthesis methods utilizing the health data map (HDMap). The two proposed approaches are referred to as scaled CutPaste and FaultPaste. The HDMap is used to physically represent the vibration signal of the planetary gearbox as an image-like matrix, allowing for visualization of fault-related features. CutPaste and FaultPaste are then applied to generate faulty samples based on the healthy data in the target domain, using domain knowledge and fault signatures extracted from the source domain, respectively. In addition to generating realistic faults, the proposed methods introduce scaling of fault signatures for controlled synthesis of faults with various severity levels. A case study is conducted on a planetary gearbox testbed to evaluate the proposed approaches. The results show that the proposed methods are capable of accurately diagnosing faults, even in cases of extreme domain shift, and can estimate the severity of faults that have not been previously observed in the target domain.
翻訳日:2023-08-03 15:07:49 公開日:2023-08-02
# 反事実的ふりかえりと展望的説明によるユーザ制御型推薦

User-Controllable Recommendation via Counterfactual Retrospective and Prospective Explanations ( http://arxiv.org/abs/2308.00894v1 )

ライセンス: Link先を確認
Juntao Tan, Yingqiang Ge, Yan Zhu, Yinglong Xia, Jiebo Luo, Jianchao Ji, Yongfeng Zhang(参考訳) 現代のレコメンデーションシステムは、ユーザの過去の行動を利用してパーソナライズされたレコメンデーションを生成する。 しかし、これらのシステムはユーザー制御性に欠けることが多く、ユーザの満足度やシステムの信頼度が低下する。 ユーザの推薦メカニズムの理解を深める説明可能なレコメンデータシステムの最近の進歩を認め,これらの進歩を活用してユーザ制御性を向上させることを提案する。 本稿では,統一フレームワーク内で説明可能性と制御性をシームレスに統合した,ユーザ制御可能なレコメンダシステムを提案する。 反事実推論を通じてふりかえりと展望的な説明の両方を提供することで、ユーザーはこれらの説明と相互作用することで、システムに対する制御をカスタマイズできる。 さらに,レコメンデーションシステムにおける制御可能性の2つの特性,制御可能性の複雑さと制御可能性の正確性について紹介し,評価する。 movielens と yelp データセットの実験的評価は,提案フレームワークの有効性を実証している。 さらに,ユーザコントロールオプションの提供によって,将来は推奨精度が向上する可能性を実証した。 ソースコードとデータは \url{https://github.com/chrisjtan/ucr} で入手できる。

Modern recommender systems utilize users' historical behaviors to generate personalized recommendations. However, these systems often lack user controllability, leading to diminished user satisfaction and trust in the systems. Acknowledging the recent advancements in explainable recommender systems that enhance users' understanding of recommendation mechanisms, we propose leveraging these advancements to improve user controllability. In this paper, we present a user-controllable recommender system that seamlessly integrates explainability and controllability within a unified framework. By providing both retrospective and prospective explanations through counterfactual reasoning, users can customize their control over the system by interacting with these explanations. Furthermore, we introduce and assess two attributes of controllability in recommendation systems: the complexity of controllability and the accuracy of controllability. Experimental evaluations on MovieLens and Yelp datasets substantiate the effectiveness of our proposed framework. Additionally, our experiments demonstrate that offering users control options can potentially enhance recommendation accuracy in the future. Source code and data are available at \url{https://github.com/chrisjtan/ucr}.
翻訳日:2023-08-03 14:22:08 公開日:2023-08-02
# tango: gpuによるグラフニューラルネットワークトレーニングのための量子化再考

Tango: rethinking quantization for graph neural network training on GPUs ( http://arxiv.org/abs/2308.00890v1 )

ライセンス: Link先を確認
Shiyang Chen, Da Zheng, Caiwen Ding, Chengying Huan, Yuede Ji, Hang Liu(参考訳) グラフニューラルネットワーク(GNN)は、重要なグラフ関連タスクにおける優れたパフォーマンスのために、ますます人気が高まっている。 量子化はGNN計算の高速化に広く利用されているが、量子化トレーニングは前例のない課題に直面している。 現在の量子化GNNトレーニングシステムは、2つの理由から、フル精度のトレーニングよりも長いトレーニング時間を持つことが多い。 (i)精度の課題に対処すると過度のオーバーヘッドが生じ、 (ii)量子化によって露呈する最適化ポテンシャルを十分に活用していない。 本稿では,3つの貢献により,gpu上でのグラフニューラルネットワークトレーニングにおける量子化の課題と機会を再考するtangoを紹介する。 第2に、GNNのトレーニングを高速化できる量子化対応プリミティブと原位置最適化を設計、実装する。 最後に、Tangoを人気のDeep Graph Library(DGL)システムに統合し、さまざまなGNNモデルやデータセットの最先端アプローチよりも優れたパフォーマンスを示す。

Graph Neural Networks (GNNs) are becoming increasingly popular due to their superior performance in critical graph-related tasks. While quantization is widely used to accelerate GNN computation, quantized training faces unprecedented challenges. Current quantized GNN training systems often have longer training times than their full-precision counterparts for two reasons: (i) addressing the accuracy challenge leads to excessive overhead, and (ii) the optimization potential exposed by quantization is not adequately leveraged. This paper introduces Tango which re-thinks quantization challenges and opportunities for graph neural network training on GPUs with three contributions: Firstly, we introduce efficient rules to maintain accuracy during quantized GNN training. Secondly, we design and implement quantization-aware primitives and inter-primitive optimizations that can speed up GNN training. Finally, we integrate Tango with the popular Deep Graph Library (DGL) system and demonstrate its superior performance over state-of-the-art approaches on various GNN models and datasets.
翻訳日:2023-08-03 14:21:51 公開日:2023-08-02
# 因子グラフニューラルネットワーク

Factor Graph Neural Networks ( http://arxiv.org/abs/2308.00887v1 )

ライセンス: Link先を確認
Zhen Zhang, Mohammed Haroon Dupty, Fan Wu, Javen Qinfeng Shi and Wee Sun Lee(参考訳) 近年、グラフニューラルネットワーク(GNN)が急増しており、その多くはエンドツーエンドで強力な表現を学習し、多くの現実世界のアプリケーションで大きな成功を収めています。 確率グラフモデル (Probabilistic Graphical Models, PGM) に似ているが、PGMのいくつかの制限から解放されている。 限界や最も可能性の高い構成を計算する代わりに表現学習のための表現的手法を提供することにより、gnnは優れた性能を維持しつつ情報流ルールの選択において柔軟性を提供する。 成功とインスピレーションにもかかわらず、変数/ノード間の高次関係を表現および学習する効率的な方法が欠けている。 ノードのkタプルで動作するより表現力の高い高階GNNは、高階テンソルを処理するために計算資源の増大を必要とする。 推論と学習の高次関係を効果的に捉えるためにFGNN(Facter Graph Neural Networks)を提案する。 そこで我々はまず、離散的な高次PGMに対して効率よく近似したSum-Product loopy belief propagation inferenceアルゴリズムを導出する。 次に、メッセージ更新ルールのよりリッチな表現を可能にすることにより、新しいメッセージパッシングスキームをFGNN(Facter Graph Neural Network)モジュールにニューラル化する。 さらに、メッセージ集約演算子の適切な選択により、FGNNはMax-Product信仰の伝播を表現でき、MaxとSum-Productのループ的信念の伝播を表現できるアーキテクチャの単一ファミリを提供する。 実データと同様に合成に関する広範な実験評価を行い,提案モデルの可能性を示した。

In recent years, we have witnessed a surge of Graph Neural Networks (GNNs), most of which can learn powerful representations in an end-to-end fashion with great success in many real-world applications. They have resemblance to Probabilistic Graphical Models (PGMs), but break free from some limitations of PGMs. By aiming to provide expressive methods for representation learning instead of computing marginals or most likely configurations, GNNs provide flexibility in the choice of information flowing rules while maintaining good performance. Despite their success and inspirations, they lack efficient ways to represent and learn higher-order relations among variables/nodes. More expressive higher-order GNNs which operate on k-tuples of nodes need increased computational resources in order to process higher-order tensors. We propose Factor Graph Neural Networks (FGNNs) to effectively capture higher-order relations for inference and learning. To do so, we first derive an efficient approximate Sum-Product loopy belief propagation inference algorithm for discrete higher-order PGMs. We then neuralize the novel message passing scheme into a Factor Graph Neural Network (FGNN) module by allowing richer representations of the message update rules; this facilitates both efficient inference and powerful end-to-end learning. We further show that with a suitable choice of message aggregation operators, our FGNN is also able to represent Max-Product belief propagation, providing a single family of architecture that can represent both Max and Sum-Product loopy belief propagation. Our extensive experimental evaluation on synthetic as well as real datasets demonstrates the potential of the proposed model.
翻訳日:2023-08-03 14:21:37 公開日:2023-08-02
# 連続 In-Session Ground Truth スコアによる機械学習性能向上:目的骨格筋痛強度予測に関する実験的検討

Enhancing Machine Learning Performance with Continuous In-Session Ground Truth Scores: Pilot Study on Objective Skeletal Muscle Pain Intensity Prediction ( http://arxiv.org/abs/2308.00886v1 )

ライセンス: Link先を確認
Boluwatife E. Faremi, Jonathon Stavres, Nuno Oliveira, Zhaoxian Zhou and Andrew H. Sung(参考訳) 主観的な自己申告スコアに基づいてトレーニングされた機械学習(ML)モデルは、リアルタイムの痛み経験とその後の記録スコアの間に大きな差異があるため、痛みを客観的に分類するのに苦労する。 本研究では,ANS変調内皮活動(EDA)のリアルタイム連続的鎮痛スコア取得と収集のための2つの装置を開発した。 実験では,運動後循環閉塞(PECO)を受けたN=24名の被験者をストレッチで募集し,不快感を誘発した。 対象データはカスタムな痛みプラットフォームに格納され、時間領域EDA特徴とセッション内真実スコアの抽出を容易にする。 さらに,実験後視覚アナログ尺度(VAS)スコアを各被験者から収集した。 学習モデルの多層パーセプトロン (mlp) とランダムフォレスト (rf) は, 対応する目標 eda 特徴とインセッションスコア, ポストセッションスコアを組み合わせた訓練を行った。 10倍のクロスバリデーションで、マクロ平均幾何平均スコアは、目的のeda特徴で訓練されたmlpとrfモデルがそれぞれ70.3%と74.6%のポストセッションスコアで訓練されたモデルよりも優れたパフォーマンス(75.9%と78.3%)を得たことを明らかにした。 この先駆的な研究は、連続的な基底真理スコアを使用することで、痛覚強度の特徴付けにおけるML性能を著しく向上させ、真理疎結合の問題、データ不均衡、高分散を克服することを示した。 本研究は,将来の客観的ML痛覚システムトレーニングについて報告する。

Machine learning (ML) models trained on subjective self-report scores struggle to objectively classify pain accurately due to the significant variance between real-time pain experiences and recorded scores afterwards. This study developed two devices for acquisition of real-time, continuous in-session pain scores and gathering of ANS-modulated endodermal activity (EDA).The experiment recruited N = 24 subjects who underwent a post-exercise circulatory occlusion (PECO) with stretch, inducing discomfort. Subject data were stored in a custom pain platform, facilitating extraction of time-domain EDA features and in-session ground truth scores. Moreover, post-experiment visual analog scale (VAS) scores were collected from each subject. Machine learning models, namely Multi-layer Perceptron (MLP) and Random Forest (RF), were trained using corresponding objective EDA features combined with in-session scores and post-session scores, respectively. Over a 10-fold cross-validation, the macro-averaged geometric mean score revealed MLP and RF models trained with objective EDA features and in-session scores achieved superior performance (75.9% and 78.3%) compared to models trained with post-session scores (70.3% and 74.6%) respectively. This pioneering study demonstrates that using continuous in-session ground truth scores significantly enhances ML performance in pain intensity characterization, overcoming ground truth sparsity-related issues, data imbalance, and high variance. This study informs future objective-based ML pain system training.
翻訳日:2023-08-03 14:21:10 公開日:2023-08-02
# 適応しきい値とバック伝播ニューラルネットワークを用いた宇宙物体の検出とセグメント化

Detection and Segmentation of Cosmic Objects Based on Adaptive Thresholding and Back Propagation Neural Network ( http://arxiv.org/abs/2308.00926v1 )

ライセンス: Link先を確認
Samia Sultana, Shyla Afroge(参考訳) 天文学的な画像は宇宙の様々な天体に関する情報を提供する。 大量のデータ、数えきれない明るい点源の存在、フレーム内のノイズ、および物体と衛星カメラの間の空間的ギャップから、天体の分類と検出は難しい課題である。 本稿では,アダプティブ・しきい値法(atm)に基づくセグメンテーション・バック伝播ニューラルネットワーク(bpnn)に基づく宇宙物体検出法を提案する。

Astronomical images provide information about the great variety of cosmic objects in the Universe. Due to the large volumes of data, the presence of innumerable bright point sources as well as noise within the frame and the spatial gap between objects and satellite cameras, it is a challenging task to classify and detect the celestial objects. We propose an Adaptive Thresholding Method (ATM) based segmentation and Back Propagation Neural Network (BPNN) based cosmic object detection including a well-structured series of pre-processing steps designed to enhance segmentation and detection.
翻訳日:2023-08-03 14:12:21 公開日:2023-08-02
# 経時劣化気象下における空中画像の連続領域適応

Continual Domain Adaptation on Aerial Images under Gradually Degrading Weather ( http://arxiv.org/abs/2308.00924v1 )

ライセンス: Link先を確認
Chowdhury Sadman Jahan and Andreas Savakis(参考訳) ドメイン適応(DA)は、モデルをトレーニングするソースドメインと、モデルをデプロイするターゲットドメインとの間のドメインギャップを軽減するために努力します。 深層学習モデルが空中プラットフォームに展開されると、運用中の気象条件が徐々に悪化し、トレーニングデータと遭遇した評価データとの間の領域ギャップが拡大する可能性がある。 既存の2つの航空画像データセットから、実際の画像の気象条件を徐々に悪化させ、合計4つのベンチマークデータセットを生成する。 連続的、あるいはテスト時間適応設定の下で、ベースライン標準DAモデルと2つの連続DAモデルという3つのDAモデルをデータセット上で評価する。 このような設定では、モデルが一度に1つの小さな部分または1つのターゲットデータにしかアクセスできず、適応は継続的に行われ、データの1つのエポック以上である。 連続的な適応の制約と徐々に悪化する気象条件の組み合わせは、空中展開の実践的なDAシナリオを提供する。 評価モデルのうち,コンボリューションアーキテクチャとトランスフォーマーアーキテクチャの比較を行った。 既存のバッファフィード連続DA法に適応する際の安定性問題を発見し、トレーニング不安定性を抑えるための簡単な解として勾配正規化を提供する。

Domain adaptation (DA) strives to mitigate the domain gap between the source domain where a model is trained, and the target domain where the model is deployed. When a deep learning model is deployed on an aerial platform, it may face gradually degrading weather conditions during operation, leading to widening domain gaps between the training data and the encountered evaluation data. We synthesize two such gradually worsening weather conditions on real images from two existing aerial imagery datasets, generating a total of four benchmark datasets. Under the continual, or test-time adaptation setting, we evaluate three DA models on our datasets: a baseline standard DA model and two continual DA models. In such setting, the models can access only one small portion, or one batch of the target data at a time, and adaptation takes place continually, and over only one epoch of the data. The combination of the constraints of continual adaptation, and gradually deteriorating weather conditions provide the practical DA scenario for aerial deployment. Among the evaluated models, we consider both convolutional and transformer architectures for comparison. We discover stability issues during adaptation for existing buffer-fed continual DA methods, and offer gradient normalization as a simple solution to curb training instability.
翻訳日:2023-08-03 14:12:04 公開日:2023-08-02
# 未標識解剖組織の仮想組織染色

Virtual histological staining of unlabeled autopsy tissue ( http://arxiv.org/abs/2308.00920v1 )

ライセンス: Link先を確認
Yuzhu Li, Nir Pillar, Jingxi Li, Tairan Liu, Di Wu, Songyu Sun, Guangdong Ma, Kevin de Haan, Luzhe Huang, Sepehr Hamidi, Anatoly Urisman, Tal Keidar Haran, William Dean Wallace, Jonathan E. Zuckerman, Aydogan Ozcan(参考訳) 病理組織検査は検死において重要なステップであるが, 生後検体における従来の組織化学的染色は, 死体組織の固定が遅れることによる自己融解性低下や, 膨大な労力, 費用, 時間を要する大きな組織領域をカバーする化学染色法の資源集約的性質など, 様々な課題に直面している。 これらの課題は、病理組織学サービスの可用性が限られている世界的な健康危機の間、より顕著になり、組織固定のさらなる遅延とより重度の染色アーティファクトをもたらす。 本報告では, 自検組織の仮想染色の最初の実演を行い, トレーニングされたニューラルネットワークが, ラベルのない自検組織の自蛍光画像から, ヘマトキシリンとエオシン(H&E)の染色された同一試料とを一致させ, 自検組織の従来の組織化学的染色に固有の自己分解による重症染色物を除去できることを示す。 我々の仮想H&Eモデルは、画像データの0.7TBと仮想染色ネットワークと画像登録ネットワークを統合するデータ効率の協調方式を用いて訓練された。 訓練されたモデルは、これまで見たことのない新型コロナウイルスのサンプルのような重篤な自己透析を受けた新しい解剖組織サンプルにおいて、核、細胞質、細胞外の特徴を効果的にアクセントした。 この仮想解剖染色技術は、壊死組織にも拡張可能であり、重篤な自己分解や細胞死にもかかわらず、迅速かつ費用効率よく非アーティファクトなH&E染色を生成でき、また、標準組織化学的染色に関連する労力、コストおよびインフラ要件を低減できる。

Histological examination is a crucial step in an autopsy; however, the traditional histochemical staining of post-mortem samples faces multiple challenges, including the inferior staining quality due to autolysis caused by delayed fixation of cadaver tissue, as well as the resource-intensive nature of chemical staining procedures covering large tissue areas, which demand substantial labor, cost, and time. These challenges can become more pronounced during global health crises when the availability of histopathology services is limited, resulting in further delays in tissue fixation and more severe staining artifacts. Here, we report the first demonstration of virtual staining of autopsy tissue and show that a trained neural network can rapidly transform autofluorescence images of label-free autopsy tissue sections into brightfield equivalent images that match hematoxylin and eosin (H&E) stained versions of the same samples, eliminating autolysis-induced severe staining artifacts inherent in traditional histochemical staining of autopsied tissue. Our virtual H&E model was trained using >0.7 TB of image data and a data-efficient collaboration scheme that integrates the virtual staining network with an image registration network. The trained model effectively accentuated nuclear, cytoplasmic and extracellular features in new autopsy tissue samples that experienced severe autolysis, such as COVID-19 samples never seen before, where the traditional histochemical staining failed to provide consistent staining quality. This virtual autopsy staining technique can also be extended to necrotic tissue, and can rapidly and cost-effectively generate artifact-free H&E stains despite severe autolysis and cell death, also reducing labor, cost and infrastructure requirements associated with the standard histochemical staining.
翻訳日:2023-08-03 14:11:08 公開日:2023-08-02
# 単一領域一般化のための新しい交叉摂動

A Novel Cross-Perturbation for Single Domain Generalization ( http://arxiv.org/abs/2308.00918v1 )

ライセンス: Link先を確認
Dongjia Zhao, Lei Qi, Xiao Shi, Yinghuan Shi, Xin Geng(参考訳) 単一ドメインの一般化は、単一のソースドメインでトレーニングされた時に未知のドメインに一般化するモデルの能力を高めることを目的としている。 しかし、訓練データの限られた多様性は、ドメイン不変の特徴の学習を妨げ、一般化性能を損なう。 これを解決するために、データの摂動(増大)がデータの多様性を高める重要な方法として浮上した。 それにもかかわらず、既存の摂動法は画像レベルの摂動と特徴レベルの摂動に独立して焦点を合わせ、その相乗効果を無視することが多い。 これらの限界を克服するため,我々は単純かつ効果的な交叉摂動法であるcperbを提案する。 具体的には、cperbは水平と垂直の両方の操作を利用する。 水平的に、トレーニングデータの多様性を高めるために画像レベルと特徴レベルの摂動を適用し、単一ソースドメインにおける限られた多様性の問題を軽減する。 垂直的には、同じ意味圏を持つサンプルの異なる視点からドメイン不変性を学ぶためにマルチルート摂動を導入し、モデルの一般化能力を高める。 さらに、ローカル画像スタイル情報を利用してトレーニングデータをさらに多様化する特徴レベルの摂動手法であるMixPatchを提案する。 各種ベンチマークデータセットの大規模な実験により,本手法の有効性が検証された。

Single domain generalization aims to enhance the ability of the model to generalize to unknown domains when trained on a single source domain. However, the limited diversity in the training data hampers the learning of domain-invariant features, resulting in compromised generalization performance. To address this, data perturbation (augmentation) has emerged as a crucial method to increase data diversity. Nevertheless, existing perturbation methods often focus on either image-level or feature-level perturbations independently, neglecting their synergistic effects. To overcome these limitations, we propose CPerb, a simple yet effective cross-perturbation method. Specifically, CPerb utilizes both horizontal and vertical operations. Horizontally, it applies image-level and feature-level perturbations to enhance the diversity of the training data, mitigating the issue of limited diversity in single-source domains. Vertically, it introduces multi-route perturbation to learn domain-invariant features from different perspectives of samples with the same semantic category, thereby enhancing the generalization capability of the model. Additionally, we propose MixPatch, a novel feature-level perturbation method that exploits local image style information to further diversify the training data. Extensive experiments on various benchmark datasets validate the effectiveness of our method.
翻訳日:2023-08-03 14:10:29 公開日:2023-08-02
# 時系列モデリングと予測のためのベイズ文脈木状態空間モデル

The Bayesian Context Trees State Space Model for time series modelling and forecasting ( http://arxiv.org/abs/2308.00913v1 )

ライセンス: Link先を確認
Ioannis Papageorgiou, Ioannis Kontoyiannis(参考訳) 実数値時系列の混合モデルを開発するための階層的ベイズフレームワークと、学習と推論のための効果的なツールのコレクションが導入されている。 トップレベルでは、有意義な離散状態が最新のサンプルの適切な量子化値として識別される。 この可観測状態の集まりは離散文脈木モデルとして記述される。 次に、下位レベルでは、実数値時系列(ベースモデル)の異なる任意のモデルが各状態に関連付けられます。 これは、フレキシブルで解釈可能な混合モデルを構築するために、既存のモデルクラスと組み合わせて使用できる非常に一般的なフレームワークを定義する。 これをベイジアンコンテキストツリー状態空間モデルあるいはbct-xフレームワークと呼んでいます。 効果的かつ正確なベイズ推定を可能にする効率的なアルゴリズムが導入されたが、特に最大アプリート確率(MAP)コンテキストツリーモデルを特定できる。 これらのアルゴリズムは逐次更新可能で、効率的なオンライン予測を容易にする。 自己回帰的(ar)モデルがベースモデルとして用いられ、結果として非線形ar混合モデルが作成され、条件付きヘテロシドスティック(arch)モデルが使用される場合、金融データでよく知られたボラティリティの非対称性をモデル化する強力な体系的手法を提供する混合モデルが作成される。 予測において、BCT-X法は、精度と計算要求の両面において、シミュレーションおよび実世界のデータにおける最先端技術よりも優れていることがわかった。 モデリングでは、BCT-X構造はデータに存在する自然構造を見つける。 特にbct-archモデルは、レバレッジ効果の強化という形で、株式市場指標データの新しい重要な特徴を明らかにしている。

A hierarchical Bayesian framework is introduced for developing rich mixture models for real-valued time series, along with a collection of effective tools for learning and inference. At the top level, meaningful discrete states are identified as appropriately quantised values of some of the most recent samples. This collection of observable states is described as a discrete context-tree model. Then, at the bottom level, a different, arbitrary model for real-valued time series - a base model - is associated with each state. This defines a very general framework that can be used in conjunction with any existing model class to build flexible and interpretable mixture models. We call this the Bayesian Context Trees State Space Model, or the BCT-X framework. Efficient algorithms are introduced that allow for effective, exact Bayesian inference; in particular, the maximum a posteriori probability (MAP) context-tree model can be identified. These algorithms can be updated sequentially, facilitating efficient online forecasting. The utility of the general framework is illustrated in two particular instances: When autoregressive (AR) models are used as base models, resulting in a nonlinear AR mixture model, and when conditional heteroscedastic (ARCH) models are used, resulting in a mixture model that offers a powerful and systematic way of modelling the well-known volatility asymmetries in financial data. In forecasting, the BCT-X methods are found to outperform state-of-the-art techniques on simulated and real-world data, both in terms of accuracy and computational requirements. In modelling, the BCT-X structure finds natural structure present in the data. In particular, the BCT-ARCH model reveals a novel, important feature of stock market index data, in the form of an enhanced leverage effect.
翻訳日:2023-08-03 14:10:10 公開日:2023-08-02
# ガウスボソンサンプリング量子コンピュータのシミュレーション

Simulating Gaussian boson sampling quantum computers ( http://arxiv.org/abs/2308.00908v1 )

ライセンス: Link先を確認
Alexander S. Dellios, Margaret D. Reid and Peter D. Drummond(参考訳) ガウスボソンサンプリング(gbs)を実装した実験線形フォトニックネットワークのコホートが、量子優位性を主張している。 しかし、これらのフォトニック量子コンピュータが生成する量子相関の豊富な配列を完全に捉えるためにスケーラブルな手法が必要であるため、これらの実験結果を効果的に検証する方法に多くの疑問が残されている。 本稿では,実験gbsネットワークをシミュレートする最近の理論手法について概説する。 我々は主に、量子力学の位相空間表現を使用する手法に焦点を合わせ、これらの手法は高度にスケーラブルであり、理想的な純粋圧縮真空状態からより現実的な熱圧縮状態まで、様々な入力状態に対する実験的な出力と量子優位性のクレームの検証に使用できる。 GBSの理論、最近の実験、その他の手法についても概説する。 これは徹底的なレビューではないが、リニアフォトニックネットワークに適用される位相空間法を簡単に紹介し、さらなる理論的研究を促進することを目的としている。

A growing cohort of experimental linear photonic networks implementing Gaussian boson sampling (GBS) have now claimed quantum advantage. However, many open questions remain on how to effectively verify these experimental results, as scalable methods are needed that fully capture the rich array of quantum correlations generated by these photonic quantum computers. In this paper, we briefly review recent theoretical methods to simulate experimental GBS networks. We focus mostly on methods that use phase-space representations of quantum mechanics, as these methods are highly scalable and can be used to validate experimental outputs and claims of quantum advantage for a variety of input states, ranging from the ideal pure squeezed vacuum state to more realistic thermalized squeezed states. A brief overview of the theory of GBS, recent experiments and other types of methods are also presented. Although this is not an exhaustive review, we aim to provide a brief introduction to phase-space methods applied to linear photonic networks to encourage further theoretical investigations.
翻訳日:2023-08-03 14:09:42 公開日:2023-08-02
# ImageBrush: 画像操作のための視覚的インテクストインストラクションの学習

ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation ( http://arxiv.org/abs/2308.00906v1 )

ライセンス: Link先を確認
Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu and Hideki Koike(参考訳) 言語による画像操作は著しい進歩を遂げているが、人間の意図を忠実に反映する操作プロセスをいかに指導するかという課題は続いている。 自然言語を用いた操作タスクの正確かつ包括的な記述は、言語表現に固有の不確かさと曖昧さのために、困難であり、時には不可能である。 外部モーダル言語情報に頼ることなく、画像操作を実現することは可能か? もしこの可能性が存在するならば、固有のモダリティギャップは無益に排除されるだろう。 本稿では、より正確な画像編集のために視覚的な指示を学習する新しい操作手法imagebrushを提案する。 私たちのキーとなるアイデアは、人間の意図を正確に捉えただけでなく、現実のシナリオにおけるアクセシビリティも促進する、視覚的な指示として変換画像のペアを使用することです。 視覚的な指示をキャプチャすることは、視覚的なデモンストレーションからのみ基礎となる意図を抽出し、その操作を新しいイメージに適用することを含むため、特に難しい。 この課題に対処するために,視覚インストラクション学習を拡散に基づくインペインティング問題として定式化し,反復的な生成過程を通じて文脈情報を十分に活用する。 視覚刺激エンコーダは、視覚指示の背後にある人間の意図を明らかにする際のモデルの能力を高めるために慎重に考案される。 広範な実験により,本手法は実演に伴う変換に準拠した操作結果を生成することが示された。 さらに,ポーズ転送や画像翻訳,映像のインパインティングなど,さまざまな下流タスクに対して,ロバストな一般化機能を示す。

While language-guided image manipulation has made remarkable progress, the challenge of how to instruct the manipulation process faithfully reflecting human intentions persists. An accurate and comprehensive description of a manipulation task using natural language is laborious and sometimes even impossible, primarily due to the inherent uncertainty and ambiguity present in linguistic expressions. Is it feasible to accomplish image manipulation without resorting to external cross-modal language information? If this possibility exists, the inherent modality gap would be effortlessly eliminated. In this paper, we propose a novel manipulation methodology, dubbed ImageBrush, that learns visual instructions for more accurate image editing. Our key idea is to employ a pair of transformation images as visual instructions, which not only precisely captures human intention but also facilitates accessibility in real-world scenarios. Capturing visual instructions is particularly challenging because it involves extracting the underlying intentions solely from visual demonstrations and then applying this operation to a new image. To address this challenge, we formulate visual instruction learning as a diffusion-based inpainting problem, where the contextual information is fully exploited through an iterative process of generation. A visual prompting encoder is carefully devised to enhance the model's capacity in uncovering human intent behind the visual instructions. Extensive experiments show that our method generates engaging manipulation results conforming to the transformations entailed in demonstrations. Moreover, our model exhibits robust generalization capabilities on various downstream tasks such as pose transfer, image translation and video inpainting.
翻訳日:2023-08-03 14:09:25 公開日:2023-08-02
# VLUCI: 反現実推論のための未観測の共同創業者の変分学習

VLUCI: Variational Learning of Unobserved Confounders for Counterfactual Inference ( http://arxiv.org/abs/2308.00904v1 )

ライセンス: Link先を確認
Yonghe Zhao, Qiang Huang, Siwei Wu, Yun Peng, Huiyan Sun(参考訳) 因果推論は疫学、医療、経済学など様々な分野において重要な役割を担っている。 因果推論研究において、観測データにおける不一致と反実予測が顕著な関心事となっている。 既存のモデルが観察された共同設立者に取り組む一方で、観察されていない共同設立者の存在は依然として大きな課題であり、因果推論を歪め、反事実的結果の正確さに影響を与える。 そこで本研究では,非観測的共同設立者の後方分布を生成する,非観測的共同設立者(VLUCI)の新たな変分学習モデルを提案する。 VLUCIは、ほとんどの因果推論法で見過ごされる未解決の仮定を緩和する。 観測された、観測されていない共同設立者を遠ざけることで、VLUCIは二重変動推論モデルを構築し、観測されていない共同設立者の分布を近似する。 合成および半合成データセットに関する大規模な実験は、VLUCIが観測されていない共同設立者を推論する際の優れた性能を示している。 これは最先端の反事実推論モデルと互換性があり、グループレベルと個人レベルでの推論精度が大幅に向上する。 さらに、VLUCIは、リスクに敏感な領域における意思決定を支援する、反ファクト的な結果に対する信頼区間を提供する。 さらに、VLUCIの実用上の利点を浮き彫りにして、一般のIHDPデータセットを例として用いたモデル仮定に厳密に準拠しない場合に、VLUCIを適用する際の考慮事項を明らかにした。

Causal inference plays a vital role in diverse domains like epidemiology, healthcare, and economics. De-confounding and counterfactual prediction in observational data has emerged as a prominent concern in causal inference research. While existing models tackle observed confounders, the presence of unobserved confounders remains a significant challenge, distorting causal inference and impacting counterfactual outcome accuracy. To address this, we propose a novel variational learning model of unobserved confounders for counterfactual inference (VLUCI), which generates the posterior distribution of unobserved confounders. VLUCI relaxes the unconfoundedness assumption often overlooked by most causal inference methods. By disentangling observed and unobserved confounders, VLUCI constructs a doubly variational inference model to approximate the distribution of unobserved confounders, which are used for inferring more accurate counterfactual outcomes. Extensive experiments on synthetic and semi-synthetic datasets demonstrate VLUCI's superior performance in inferring unobserved confounders. It is compatible with state-of-the-art counterfactual inference models, significantly improving inference accuracy at both group and individual levels. Additionally, VLUCI provides confidence intervals for counterfactual outcomes, aiding decision-making in risk-sensitive domains. We further clarify the considerations when applying VLUCI to cases where unobserved confounders don't strictly conform to our model assumptions using the public IHDP dataset as an example, highlighting the practical advantages of VLUCI.
翻訳日:2023-08-03 14:09:01 公開日:2023-08-02
# 量子情報スクランブルの量子貯留層探索

Quantum Reservoir Probing of Quantum Information Scrambling ( http://arxiv.org/abs/2308.00898v1 )

ライセンス: Link先を確認
Kaito Kobayashi and Yukitoshi Motome(参考訳) 量子情報スクランブル(quantum information scramling)は、初期局所化された量子情報がシステム全体に広がる動的過程である。 ここでは,量子貯留層計算の考え方を拡張して,量子情報スクランブル診断のための量子貯留層探索(qrp)を提案する。 パラダイム的な例として、一次元量子イジングチェーンにおけるスクランブルについて研究する。 量子カオス系において,QRPは,自由フェルミオン系における準粒子媒介情報伝達と相関媒介情報伝達の区別に成功していることを示す。 さらに、読み出し作用素の走査により、qrpはヒルベルト空間における量子情報の力学分布を解明することができ、時間外相関子と三成分相互情報を用いた従来の方法とは大きく異なる利点を持つ。

Quantum information scrambling is the dynamical process where initially localized quantum information spreads throughout an entire system. Here, by extending the idea of quantum reservoir computing, we propose the quantum reservoir probing (QRP) to diagnose quantum information scrambling. As a paradigmatic example, we investigate scrambling in a one-dimensional quantum Ising chain. We show that the QRP successfully distinguishes between quasiparticle-mediated information propagation in a free fermion system and correlation-mediated scrambling in a quantum chaotic system. Furthermore, via the scanning of read-out operators, the QRP can elucidate the dynamical distribution of quantum information in the Hilbert space, a distinct advantage over the conventional methods with out-of-time-order correlators and tripartite mutual information.
翻訳日:2023-08-03 14:08:36 公開日:2023-08-02
# ディラック粒子の絡み合い指標としてのローレンツ不変多項式

Lorentz invariant polynomials as entanglement indicators for Dirac particles ( http://arxiv.org/abs/2308.00896v1 )

ライセンス: Link先を確認
Markus Johansson(参考訳) 2つ以上の空間のような分離されたディラック粒子の自由度を考慮し、局所固有直交ローレンツ群のスピノル表現の下で不変な混合多項式を構成する方法について述べる。 この方法は, [Phys. A 105, 032402 (2022), arXiv:2103.07784] および [Ann. Phys. (N. Y.) 457, 169410 (2023), arXiv:2105.07503] で導入された等質多項式を構成する方法の拡張である。 この方法で構成される混合多項式は、すべての積状態に対してゼロである。 したがって、それらはディラック粒子のスピノル絡みの指標と考えられる。 混合多項式は、全ての粒子を含むスピノル絡み、あるいは粒子の適切な部分集合のみを含むスピノル絡みを示すように構成することができる。 混合多項式は、全ての粒子を含むが、均質な局所ローレンツ不変多項式では示せないいくつかのタイプのスピノル絡み合いを示すことが示されている。 2つのディラック粒子が2次(2,2)と2次(3,1)の混合多項式を構成できる。 3つのディラック粒子が二度(2,2)の混合多項式の場合、二度(3,1)と二度(3,3)が構成される。 2 と 3 のディラック粒子に対して構築された多項式と 2 と 3 の非相対論的スピン-$\frac{1}{2}$粒子の多項式スピンエンタングルメント指標の関係について述べる。 さらに, スピノル絡み合いの合成多項式指標は, 粒子の局所時間発展では不変ではないが, 動的に進化し, この動的進化を記述する方法について考察する。

The spinorial degrees of freedom of two or more spacelike separated Dirac particles are considered and a method for constructing mixed polynomials that are invariant under the spinor representations of the local proper orthochronous Lorentz groups is described. The method is an extension of the method for constructing homogeneous polynomials introduced in [Phys. Rev. A 105, 032402 (2022), arXiv:2103.07784] and [Ann. Phys. (N. Y.) 457, 169410 (2023), arXiv:2105.07503]. The mixed polynomials constructed by this method are identically zero for all product states. Therefore they are considered indicators of the spinor entanglement of Dirac particles. Mixed polynomials can be constructed to indicate spinor entanglement that involves all the particles, or alternatively to indicate spinor entanglement that involves only a proper subset of the particles. It is shown that the mixed polynomials can indicate some types of spinor entanglement that involves all the particles but cannot be indicated by any homogeneous locally Lorentz invariant polynomial. For the case of two Dirac particles mixed polynomials of bidegree (2,2) and bidegree (3,1) are constructed. For the case of three Dirac particles mixed polynomials of bidegree (2,2), bidegree (3,1) and bidegree (3,3) are constructed. The relations of the polynomials constructed for two and three Dirac particles to the polynomial spin entanglement indicators for two and three non-relativistic spin-$\frac{1}{2}$ particles are described. Moreover, the constructed polynomial indicators of spinor entanglement are in general not invariant under local time evolutions of the particles but evolve dynamically and we discuss how to describe this dynamical evolution.
翻訳日:2023-08-03 14:08:24 公開日:2023-08-02
# 超音波画像における病変分割のためのsaliency mapの分解と結合

Decomposing and Coupling Saliency Map for Lesion Segmentation in Ultrasound Images ( http://arxiv.org/abs/2308.00947v1 )

ライセンス: Link先を確認
Zhenyuan Ning, Yixiao Mao, Qianjin Feng, Shengzhou Zhong, and Yu Zhang(参考訳) 超音波画像の複雑なシナリオでは、隣接する組織(背景)が類似の強度を共有し、病変領域(前景)よりもリッチなテクスチャパターンを含むことにより、正確な病変のセグメンテーションに固有の課題をもたらす。 この研究はDC-Netと呼ばれる分解結合ネットワークを示し、(地上背景)サリエンシマップのアンタングルメント・フュージョン方式でこの問題に対処する。 DC-Netは分解と結合のサブネットで構成され、前者はプリミティブに元の画像を前景と背景のサリエンシマップに切り離し、後者はサリエンシ前の融合の助けを借りて正確なセグメンテーションを行う。 結合サブネットは、核融合戦略の3つの側面を含む。 1)(エンコーダ内の相違可能なコンテキストプーリング演算子を介して)地域的特徴の集約を行い、次元減少の際、より大きい受容領域で局所的文脈の詳細を適応的に保存する。 2)リゾリューション修復中の低レベル視覚特性と高レベル意味特徴を効率的に融合するための関係認識表現融合(デコーダにおける相互相関融合モジュール) 3) 背景表現から派生した補完的情報を用いて前景的表現を強化するための(カプラによる)依存関係認識事前化。 さらに,高調波損失関数を導入し,低信頼とハードサンプルに注意を向けるようにした。 提案手法は2つの超音波病変セグメンテーションタスクで評価され,既存の最先端手法よりも優れた性能を示す。

Complex scenario of ultrasound image, in which adjacent tissues (i.e., background) share similar intensity with and even contain richer texture patterns than lesion region (i.e., foreground), brings a unique challenge for accurate lesion segmentation. This work presents a decomposition-coupling network, called DC-Net, to deal with this challenge in a (foreground-background) saliency map disentanglement-fusion manner. The DC-Net consists of decomposition and coupling subnets, and the former preliminarily disentangles original image into foreground and background saliency maps, followed by the latter for accurate segmentation under the assistance of saliency prior fusion. The coupling subnet involves three aspects of fusion strategies, including: 1) regional feature aggregation (via differentiable context pooling operator in the encoder) to adaptively preserve local contextual details with the larger receptive field during dimension reduction; 2) relation-aware representation fusion (via cross-correlation fusion module in the decoder) to efficiently fuse low-level visual characteristics and high-level semantic features during resolution restoration; 3) dependency-aware prior incorporation (via coupler) to reinforce foreground-salient representation with the complementary information derived from background representation. Furthermore, a harmonic loss function is introduced to encourage the network to focus more attention on low-confidence and hard samples. The proposed method is evaluated on two ultrasound lesion segmentation tasks, which demonstrates the remarkable performance improvement over existing state-of-the-art methods.
翻訳日:2023-08-03 14:02:31 公開日:2023-08-02
# より小さな言語モデルを使って作曲の疑問を一般化する

Teaching Smaller Language Models To Generalise To Unseen Compositional Questions ( http://arxiv.org/abs/2308.00946v1 )

ライセンス: Link先を確認
Tim Hartill, Neset TAN, Michael Witbrock, Patricia J. Riddle(参考訳) より小さな言語モデルを用いて、トレーニングで見たことのない難解な構成質問への回答を一般化する。 そこで本稿では,多種多様な推論能力を具現化する最大93のタスクを事前訓練するマルチタスクと,段落フラグメントの集合を検索する高密度検索システムの組み合わせを提案する。 質問応答の最近の進歩は、ゼロショットまたは少数ショットの非常に大きな事前学習された言語モデルに対する提案方法や、時には情報検索と組み合わせて、より小さなモデルを微調整することで達成されている。 我々は、特定の問題に答える十分な情報が存在しないコーパスに対して検索を行う小さなモデルにおいて、ゼロショットの一般化がどこまで可能かという未検討の問題に焦点を当てる。 今回我々は,様々な評価データセット(strategyqa,commonsenseqa,iirc,drop,musique,arc-da)に対する強力なベースラインを確立し,モデルに部分的証拠の重み付けや無関係な文脈の無視など,さまざまなヒューリスティックな推論戦略を露出するように設計された検索型トレーニングデータセットを追加することで,パフォーマンスが大幅に向上することを示す。

We equip a smaller Language Model to generalise to answering challenging compositional questions that have not been seen in training. To do so we propose a combination of multitask supervised pretraining on up to 93 tasks designed to instill diverse reasoning abilities, and a dense retrieval system that aims to retrieve a set of evidential paragraph fragments. Recent progress in question-answering has been achieved either through prompting methods against very large pretrained Language Models in zero or few-shot fashion, or by fine-tuning smaller models, sometimes in conjunction with information retrieval. We focus on the less explored question of the extent to which zero-shot generalisation can be enabled in smaller models with retrieval against a corpus within which sufficient information to answer a particular question may not exist. We establish strong baselines in this setting for diverse evaluation datasets (StrategyQA, CommonsenseQA, IIRC, DROP, Musique and ARC-DA), and show that performance can be significantly improved by adding retrieval-augmented training datasets which are designed to expose our models to a variety of heuristic reasoning strategies such as weighing partial evidence or ignoring an irrelevant context.
翻訳日:2023-08-03 14:02:02 公開日:2023-08-02
# 位相回復におけるディープラーニングの利用について

On the use of deep learning for phase recovery ( http://arxiv.org/abs/2308.00942v1 )

ライセンス: Link先を確認
Kaiqiang Wang, Li Song, Chutian Wang, Zhenbo Ren, Guangyuan Zhao, Jiazhen Dou, Jianglei Di, George Barbastathis, Renjie Zhou, Jianlin Zhao, and Edmund Y. Lam(参考訳) 位相回復(英: Phase recovery、PR)とは、その強度測定から光場の位相を計算すること。 定量的位相イメージングおよびコヒーレント回折イメージングから適応光学へ例示されるように、PRは、物体の屈折率分布またはトポグラフィーを再構成し、撮像システムの収差を補正するために不可欠である。 近年、深層ニューラルネットワークによって実装されるディープラーニング(dl)は、計算画像に対する前例のないサポートを提供しており、様々なpr問題に対するより効率的な解決策となっている。 本稿ではまず,従来のPR手法について概説する。 次に,前処理,内処理,後処理という3つの段階からdlがprをサポートする方法について検討する。 また,位相画像処理におけるdlの利用について概説する。 最後に、その成果をDL for PRで要約し、DLをPRの信頼性と効率を改善するためにどのように活用するかを概観する。 さらに、読者がPRについて詳しく学ぶために、ライブ更新リソース(https://github.com/kqwang/phase-recovery)を提示する。

Phase recovery (PR) refers to calculating the phase of the light field from its intensity measurements. As exemplified from quantitative phase imaging and coherent diffraction imaging to adaptive optics, PR is essential for reconstructing the refractive index distribution or topography of an object and correcting the aberration of an imaging system. In recent years, deep learning (DL), often implemented through deep neural networks, has provided unprecedented support for computational imaging, leading to more efficient solutions for various PR problems. In this review, we first briefly introduce conventional methods for PR. Then, we review how DL provides support for PR from the following three stages, namely, pre-processing, in-processing, and post-processing. We also review how DL is used in phase image processing. Finally, we summarize the work in DL for PR and outlook on how to better use DL to improve the reliability and efficiency in PR. Furthermore, we present a live-updating resource (https://github.com/kqwang/phase-recovery) for readers to learn more about PR.
翻訳日:2023-08-03 14:01:34 公開日:2023-08-02
# カテゴリーテキスト生成のための特徴認識条件付きGAN

Feature-aware conditional GAN for category text generation ( http://arxiv.org/abs/2308.00939v1 )

ライセンス: Link先を確認
Xinze Li, Kezhi Mao, Fanfan Lin, Zijian Feng(参考訳) カテゴリーテキスト生成は、様々な自然言語処理タスクに有益であるため、かなりの注目を集めている。 近年,GAN (Generative Adversarial Network) がテキスト生成において有望な性能を達成している。 しかし、テキストGANには、離散性、トレーニング不安定性、モード崩壊、多様性の欠如、コントロール容易性など、いくつかの問題がある。 これらの問題に対処するため,本論文では,カテゴリテキスト生成のための特徴認識型条件付きGAN(FA-GAN)という,新しいGANフレームワークを提案する。 FA-GANでは、特別な特徴認識エンコーダとカテゴリ認識エンコーダを含む3つのエンコーダと、Gumbel SoftMaxアクティベーション機能を備えたリレーショナルメモリコアベースのデコーダからなる、文の多様性を改善するシーケンス・ツー・シーケンス構造を有する。 判別器は、追加のカテゴリ分類ヘッドを有する。 特定のカテゴリの文を生成するために、逆行訓練において多クラス分類損失を補足する。 総合的な実験が行われ、FA-GANは6つのテキスト分類データセットにおける10の最先端テキスト生成手法より一貫して優れていた。 ケーススタディでは,FA-GAN が生成する合成文は,必要なカテゴリと一致し,条件付き文の特徴を認識し,可読性,流布性,文章の真正性を検証した。

Category text generation receives considerable attentions since it is beneficial for various natural language processing tasks. Recently, the generative adversarial network (GAN) has attained promising performance in text generation, attributed to its adversarial training process. However, there are several issues in text GANs, including discreteness, training instability, mode collapse, lack of diversity and controllability etc. To address these issues, this paper proposes a novel GAN framework, the feature-aware conditional GAN (FA-GAN), for controllable category text generation. In FA-GAN, the generator has a sequence-to-sequence structure for improving sentence diversity, which consists of three encoders including a special feature-aware encoder and a category-aware encoder, and one relational-memory-core-based decoder with the Gumbel SoftMax activation function. The discriminator has an additional category classification head. To generate sentences with specified categories, the multi-class classification loss is supplemented in the adversarial training. Comprehensive experiments have been conducted, and the results show that FA-GAN consistently outperforms 10 state-of-the-art text generation approaches on 6 text classification datasets. The case study demonstrates that the synthetic sentences generated by FA-GAN can match the required categories and are aware of the features of conditioned sentences, with good readability, fluency, and text authenticity.
翻訳日:2023-08-03 14:01:15 公開日:2023-08-02
# LEMMA: 言語を学習するマルチロボットマニピュレーション

LEMMA: Learning Language-Conditioned Multi-Robot Manipulation ( http://arxiv.org/abs/2308.00937v1 )

ライセンス: Link先を確認
Ran Gong, Xiaofeng Gao, Qiaozi Gao, Suhaila Shakiah, Govind Thattai, Gaurav S. Sukhatme(参考訳) 複雑な操作タスクは、しばしば協力するために相補的な能力を持つロボットを必要とする。 本稿では,人間の言語指示に基づくタスク割当と長時間ホリゾンオブジェクト操作に着目した言語条件付きマルチロボット操作(lemma)のベンチマークについて紹介する。 LEMMAには8種類の手続き的に生成されたタスクがあり、その一部には、ロボットがツールを使用して互いにツールを渡す必要がある。 それぞれのタスクに対して,800の専門的なデモンストレーションと,トレーニングと評価のためのヒューマンインストラクションを提供します。 lemmaは、システムが各マニピュレータの制限を特定し、それに従ってサブタスクを割り当てると同時に、各タスクの強い時間依存性も処理する必要があるため、既存のベンチマークと比べて大きな課題となる。 これらの課題に対処するため,モジュール型階層的計画手法をベースラインとして提案する。 本稿は,LEMMAが将来の言語条件付きマルチロボットシステムにもたらす可能性を明らかにする。

Complex manipulation tasks often require robots with complementary capabilities to collaborate. We introduce a benchmark for LanguagE-Conditioned Multi-robot MAnipulation (LEMMA) focused on task allocation and long-horizon object manipulation based on human language instructions in a tabletop setting. LEMMA features 8 types of procedurally generated tasks with varying degree of complexity, some of which require the robots to use tools and pass tools to each other. For each task, we provide 800 expert demonstrations and human instructions for training and evaluations. LEMMA poses greater challenges compared to existing benchmarks, as it requires the system to identify each manipulator's limitations and assign sub-tasks accordingly while also handling strong temporal dependencies in each task. To address these challenges, we propose a modular hierarchical planning approach as a baseline. Our results highlight the potential of LEMMA for developing future language-conditioned multi-robot systems.
翻訳日:2023-08-03 14:00:47 公開日:2023-08-02
# 状態適応速度制限戦略を用いた粒子群最適化

Particle swarm optimization with state-based adaptive velocity limit strategy ( http://arxiv.org/abs/2308.00936v1 )

ライセンス: Link先を確認
Xinze Li, Kezhi Mao, Fanfan Lin, Xin Zhang(参考訳) 速度制限 (VL) は粒子群最適化 (PSO) の多くの変種で広く採用されており、粒子が溶液空間外を探索することを防いでいる。 いくつかの適応型VL戦略を導入し、PSOの性能を改善した。 しかしながら、既存の適応VL戦略は、単に繰り返しに基づいてVLを調整するだけで、VLと現在の粒子の探索状態との相容れないため、不満足な最適化結果をもたらす。 この問題に対処するために、状態ベース適応速度制限戦略(PSO-SAVL)を用いた新しいPSO変種を提案する。 提案したPSO-SAVLでは、大域探索状態に対してVLの高値が設定され、局所探索状態に対してVLの低値が設定される進化状態推定(ESE)に基づいて、VLを適応的に調整する。 さらに、ローカルな最適化を避ける能力を改善するために制限処理戦略が修正され、採用されている。 PSO-SAVLの性能は50次元の幅広いベンチマーク関数で実験的に検証されている。 PSO-SAVLの高次元および大規模問題におけるスケーラビリティも検証した。 さらにPSO-SAVLの戦略の利点を実験で検証した。 状態ベース適応型VL戦略における関連するハイパーパラメータの感度分析を行い、これらのハイパーパラメータの選択方法に関する洞察についても述べる。

Velocity limit (VL) has been widely adopted in many variants of particle swarm optimization (PSO) to prevent particles from searching outside the solution space. Several adaptive VL strategies have been introduced with which the performance of PSO can be improved. However, the existing adaptive VL strategies simply adjust their VL based on iterations, leading to unsatisfactory optimization results because of the incompatibility between VL and the current searching state of particles. To deal with this problem, a novel PSO variant with state-based adaptive velocity limit strategy (PSO-SAVL) is proposed. In the proposed PSO-SAVL, VL is adaptively adjusted based on the evolutionary state estimation (ESE) in which a high value of VL is set for global searching state and a low value of VL is set for local searching state. Besides that, limit handling strategies have been modified and adopted to improve the capability of avoiding local optima. The good performance of PSO-SAVL has been experimentally validated on a wide range of benchmark functions with 50 dimensions. The satisfactory scalability of PSO-SAVL in high-dimension and large-scale problems is also verified. Besides, the merits of the strategies in PSO-SAVL are verified in experiments. Sensitivity analysis for the relevant hyper-parameters in state-based adaptive VL strategy is conducted, and insights in how to select these hyper-parameters are also discussed.
翻訳日:2023-08-03 14:00:31 公開日:2023-08-02
# 水流:水中画像強調のためのヒューリスティック正規化フロー

WaterFlow: Heuristic Normalizing Flow for Underwater Image Enhancement and Beyond ( http://arxiv.org/abs/2308.00931v1 )

ライセンス: Link先を確認
Zengxi Zhang, Zhiying Jiang, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) 水中画像は光の屈折と吸収に苦しむため、可視性が損なわれ、その後の応用を妨げる。 既存の水中画像強調法は主に画像品質の改善に焦点を合わせ、実践への影響を無視している。 視覚品質と応用のバランスをとるために,水流と呼ばれる検出駆動水中画像強調のためのヒューリスティック正規化フローを提案する。 具体的には、まず、劣化した画像と明確な画像との変換を実現するための可逆写像を開発する。 相違性と解釈可能性を考慮すると、周辺光と媒質伝達係数が信頼できる生成をもたらすデータ駆動マッピング手法にヒューリスティック事前を組み込む。 さらに、強調画像がより検出好適な特徴を持ち、検出性能の向上が可能な強調手順に暗黙的な意味的ガイダンスを送信する検出知覚モジュールを導入する。 大規模な実験はウォーターフローの優位性を証明し、最先端の手法を定量的に質的に評価する。

Underwater images suffer from light refraction and absorption, which impairs visibility and interferes the subsequent applications. Existing underwater image enhancement methods mainly focus on image quality improvement, ignoring the effect on practice. To balance the visual quality and application, we propose a heuristic normalizing flow for detection-driven underwater image enhancement, dubbed WaterFlow. Specifically, we first develop an invertible mapping to achieve the translation between the degraded image and its clear counterpart. Considering the differentiability and interpretability, we incorporate the heuristic prior into the data-driven mapping procedure, where the ambient light and medium transmission coefficient benefit credible generation. Furthermore, we introduce a detection perception module to transmit the implicit semantic guidance into the enhancement procedure, where the enhanced images hold more detection-favorable features and are able to promote the detection performance. Extensive experiments prove the superiority of our WaterFlow, against state-of-the-art methods quantitatively and qualitatively.
翻訳日:2023-08-03 14:00:08 公開日:2023-08-02
# 大腸内視鏡ポリープ再同定のためのメタラーニングによる識別的表現に向けて

Towards Discriminative Representation with Meta-learning for Colonoscopic Polyp Re-Identification ( http://arxiv.org/abs/2308.00929v1 )

ライセンス: Link先を確認
Suncheng Xiang, Qingzhong Chen, Shilun Cai, Chengfeng Zhou, Crystal Cai, Sijia Du, Dahong Qian(参考訳) 大腸内視鏡的ポリープ再同定は大きなギャラリーから得られたポリプと、異なるカメラで撮影された異なる視点の画像とを一致させることを目的としており、コンピュータ診断における大腸癌の予防と治療において重要な役割を果たす。 しかし、ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDでは、ドメインギャップが大きいため、通常は大腸内視鏡的データセットで不満足な検索性能が得られる。 さらに,これらの手法は,大腸内視鏡的ポリープデータセットにおけるクラス内関係の自己相違の可能性を検討することを怠っている。 このジレンマを解決するために,サンプルが少ないシナリオにおけるメタ学習戦略に基づいて,モデルがより一般的かつ識別的な知識を学習するのに役立つ,Colo-ReIDと呼ばれるシンプルで効果的なトレーニング手法を提案する。 このことから,MLRと呼ばれる動的メタラーニング制御機構を導入し,ポリプ再同定の性能をさらに向上させる。 我々の知る限りでは、これは従来の機械学習の代わりにメタラーニングパラダイムを活用して、大腸ポリプ再同定のタスクにおいて、ディープモデルを効果的に訓練する最初の試みである。 実験の結果,本手法が現在の最先端手法を著しく上回っていることがわかった。

Colonoscopic Polyp Re-Identification aims to match the same polyp from a large gallery with images from different views taken using different cameras and plays an important role in the prevention and treatment of colorectal cancer in computer-aided diagnosis. However, traditional methods for object ReID directly adopting CNN models trained on the ImageNet dataset usually produce unsatisfactory retrieval performance on colonoscopic datasets due to the large domain gap. Additionally, these methods neglect to explore the potential of self-discrepancy among intra-class relations in the colonoscopic polyp dataset, which remains an open research problem in the medical community. To solve this dilemma, we propose a simple but effective training method named Colo-ReID, which can help our model to learn more general and discriminative knowledge based on the meta-learning strategy in scenarios with fewer samples. Based on this, a dynamic Meta-Learning Regulation mechanism called MLR is introduced to further boost the performance of polyp re-identification. To the best of our knowledge, this is the first attempt to leverage the meta-learning paradigm instead of traditional machine learning to effectively train deep models in the task of colonoscopic polyp re-identification. Empirical results show that our method significantly outperforms current state-of-the-art methods by a clear margin.
翻訳日:2023-08-03 13:59:51 公開日:2023-08-02
# quant: 時系列分類のための最小区間法

QUANT: A Minimalist Interval Method for Time Series Classification ( http://arxiv.org/abs/2308.00928v1 )

ライセンス: Link先を確認
Angus Dempster, Daniel F. Schmidt, Geoffrey I. Webb(参考訳) ベンチマークデータセットの標準集合上では,単一特徴量(量子),固定間隔,および'オフ・ザ・シェルフ'分類器を用いて,時系列分類のための最も正確な時間間隔法として,平均的に同じ精度を達成可能であることを示す。 この間隔ベースのアプローチの蒸留は、時系列分類の高速で正確な方法を示し、単一のcpuコアを使用して15分未満の計算時間(トレーニングと推論)で、udrアーカイブ内の142データセットの拡張セットで最先端の精度を達成する。

We show that it is possible to achieve the same accuracy, on average, as the most accurate existing interval methods for time series classification on a standard set of benchmark datasets using a single type of feature (quantiles), fixed intervals, and an 'off the shelf' classifier. This distillation of interval-based approaches represents a fast and accurate method for time series classification, achieving state-of-the-art accuracy on the expanded set of 142 datasets in the UCR archive with a total compute time (training and inference) of less than 15 minutes using a single CPU core.
翻訳日:2023-08-03 13:59:28 公開日:2023-08-02
# 物理インフォームドニューラルネットワークによる血流逆問題

Physics-informed neural networks for blood flow inverse problems ( http://arxiv.org/abs/2308.00927v1 )

ライセンス: Link先を確認
Jeremias Garay, Jocelyn Dunstan, Sergio Uribe, Francisco Sahli Costabal(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、特にシステムに関する完全な情報が知られておらず、散乱測定が可能である場合に、逆問題を解決する強力なツールとして登場した。 これは血液力学において特に有用であり、境界情報はモデル化が困難であり、高品質な血流測定は一般に取得が困難である。 本研究では,上行大動脈における散乱2Dノイズ測定から低次モデルパラメータと全速度場を推定するためにPINN法を用いる。 その結果,シミュレーションデータを用いた場合のパラメータ推定精度は安定であり,速度再構成は測定品質とフローパターンの複雑さに依存することがわかった。 この方法は、血液力学および複雑な結合物理系における臨床関連逆問題を解決することができる。

Physics-informed neural networks (PINNs) have emerged as a powerful tool for solving inverse problems, especially in cases where no complete information about the system is known and scatter measurements are available. This is especially useful in hemodynamics since the boundary information is often difficult to model, and high-quality blood flow measurements are generally hard to obtain. In this work, we use the PINNs methodology for estimating reduced-order model parameters and the full velocity field from scatter 2D noisy measurements in the ascending aorta. The results show stable and accurate parameter estimations when using the method with simulated data, while the velocity reconstruction shows dependence on the measurement quality and the flow pattern complexity. The method allows for solving clinical-relevant inverse problems in hemodynamics and complex coupled physical systems.
翻訳日:2023-08-03 13:59:16 公開日:2023-08-02
# UAV-Viewジオローカライゼーションのための指向型コントラスト学習

Orientation-Guided Contrastive Learning for UAV-View Geo-Localisation ( http://arxiv.org/abs/2308.00982v1 )

ライセンス: Link先を確認
Fabian Deuser, Konrad Habel, Martin Werner, Norbert Oswald(参考訳) 関連するマルチメディアコンテンツを取得することは、ますますデータ駆動の世界で大きな問題の1つだ。 ドローンの普及に伴い、高品質の空中映像が初めて広く視聴できるようになった。 この映像をアプリケーションに組み込むことで、GPSのないジオローカライゼーションや位置補正が可能になる。 本稿では,uav-viewジオローカライズのための方向案内型トレーニングフレームワークを提案する。 衛星画像に関して、UAV画像の階層的位置化方向を推定する。 本稿では,これらの擬似ラベルに対する軽量な予測モジュールを提案する。 我々は、この予測がトレーニングをサポートし、以前のアプローチより優れていることを実験的に実証した。 抽出された擬似ラベルは、衛星画像のアライメント回転を増補として可能とし、一般化をさらに強化する。 推論の間、この向き付けモジュールはもはや不要であり、追加の計算は不要である。 我々は,university-1652とuniversity-160kのデータセットで最新の結果を得る。

Retrieving relevant multimedia content is one of the main problems in a world that is increasingly data-driven. With the proliferation of drones, high quality aerial footage is now available to a wide audience for the first time. Integrating this footage into applications can enable GPS-less geo-localisation or location correction. In this paper, we present an orientation-guided training framework for UAV-view geo-localisation. Through hierarchical localisation orientations of the UAV images are estimated in relation to the satellite imagery. We propose a lightweight prediction module for these pseudo labels which predicts the orientation between the different views based on the contrastive learned embeddings. We experimentally demonstrate that this prediction supports the training and outperforms previous approaches. The extracted pseudo-labels also enable aligned rotation of the satellite image as augmentation to further strengthen the generalisation. During inference, we no longer need this orientation module, which means that no additional computations are required. We achieve state-of-the-art results on both the University-1652 and University-160k datasets.
翻訳日:2023-08-03 13:52:01 公開日:2023-08-02
# 認定マルチ忠実度ゼロ次最適化

Certified Multi-Fidelity Zeroth-Order Optimization ( http://arxiv.org/abs/2308.00978v1 )

ライセンス: Link先を確認
\'Etienne de Montbrun (TSE-R), S\'ebastien Gerchinovitz (IMT)(参考訳) 様々な近似値(様々なコスト)で関数$f$を評価できるマルチ忠実度ゼロ次最適化の問題を考察し、最も安い評価で$f$を最適化することを目標としている。 本稿では,データ駆動上界を最適化誤差で出力するためにも必要となる,emph{certified}アルゴリズムについて検討する。 まず,アルゴリズムと評価環境の間のmin-maxゲームの観点から問題を定式化する。 次に、MFDOOアルゴリズムの証明付き変種を提案し、そのコスト複雑性を任意のリプシッツ関数に対して$f$に制限する。 また、このアルゴリズムがほぼ最適コストの複雑さを持つことを示す$f$-dependent lower boundも証明する。 ノイズ(確率)評価の特殊な事例を直接的な例として取り上げ,論文を締めくくった。

We consider the problem of multi-fidelity zeroth-order optimization, where one can evaluate a function $f$ at various approximation levels (of varying costs), and the goal is to optimize $f$ with the cheapest evaluations possible. In this paper, we study \emph{certified} algorithms, which are additionally required to output a data-driven upper bound on the optimization error. We first formalize the problem in terms of a min-max game between an algorithm and an evaluation environment. We then propose a certified variant of the MFDOO algorithm and derive a bound on its cost complexity for any Lipschitz function $f$. We also prove an $f$-dependent lower bound showing that this algorithm has a near-optimal cost complexity. We close the paper by addressing the special case of noisy (stochastic) evaluations as a direct example.
翻訳日:2023-08-03 13:51:48 公開日:2023-08-02
# 開量子気体の非マルコフダイナミクス

Non-Markovian Dynamics of Open Quantum Gases ( http://arxiv.org/abs/2308.00968v1 )

ライセンス: Link先を確認
Tim Bode, Michael Kajan, Francisco Meirinhos, Johann Kroha(参考訳) 我々は、Jaynes-Cummings型の駆動散逸量子系の非マルコフ力学を扱う補助粒子場理論を導入する。 個々の量子場をそれぞれの貯水池の状態に割り当て、結合系-バス力学の解析的かつ忠実な表現を提供する。 本手法は, 電子およびビブロニック励起を用いた色素分子の貯留層に結合した光子Bose-Einstein Condensate (BEC) に応用する。 この系の全位相図は、BEC内の双指数的に崩壊する光子密度相関から時間的振動を分離する非エルミタン相転移を示す。 一方、これは熱光子BECとレーザーとの質的な区別を与える。 一方、臨界点を回避してBECからラシングフェーズへ連続的にチューニングできることを示す。 この助粒子法は一般に開非マルコフ量子系の力学に適用できる。

We introduce an auxiliary-particle field theory to treat the non-Markovian dynamics of driven-dissipative quantum systems of the Jaynes-Cummings type. It assigns an individual quantum field to each reservoir state and provides an analytic, faithful representation of the coupled system-bath dynamics. We apply the method to a driven-dissipative photon Bose-Einstein condensate (BEC) coupled to a reservoir of dye molecules with electronic and vibronic excitations. The complete phase diagram of this system exhibits a hidden, non-Hermitian phase transition separating temporally oscillating from biexponentially decaying photon density correlations within the BEC. On one hand, this provides a qualitative distinction of the thermal photon BEC from a laser. On the other hand, it shows that one may continuously tune from the BEC to the lasing phase by circumventing a critical point. This auxiliary-particle method is generally applicable to the dynamics of open, non-Markovian quantum systems.
翻訳日:2023-08-03 13:51:34 公開日:2023-08-02
# forensicsforest family:gan生成顔検出のための多層階層林のシリーズ

ForensicsForest Family: A Series of Multi-scale Hierarchical Cascade Forests for Detecting GAN-generated Faces ( http://arxiv.org/abs/2308.00964v1 )

ライセンス: Link先を確認
Jiucui Lu, Yuezun Li, Jiaran Zhou, Bin Li, Junyu Dong, Siwei Lyu(参考訳) 生成モデルの顕著な進歩は、生成した顔の現実を著しく改善し、社会に深刻な懸念をもたらした。 最近のganが生成した顔は高リアリズムのため、偽造の痕跡はより知覚しにくくなり、法医学的な課題が増大している。 GAN生成した顔と戦うために、畳み込みニューラルネットワーク(CNN)に基づく多くの対策が生み出されている。 本稿では,この問題を再考し,CNNの代わりに森林モデルに基づく新たなアプローチを提案する。 具体的には、GAN生成顔を検出するための簡易で効果的な森林ベース手法である {\em ForensicsForest Family について述べる。 提案されたForensicsForestファミリーは、それぞれ {\em ForensicsForest} と {\em Hybrid ForensicsForest} と {\em Divide- and-Conquer ForensicsForest} の3つの変種で構成されている。 ForenscisForestは新たに提案されたマルチスケール階層型カスケードフォレストであり、セマンティック、周波数、生物学の特徴を入力とし、階層的なカスケードは認証予測のための異なるレベルの特徴を識別し、さらにパフォーマンスを向上させるために様々なレベルの情報を包括的に検討できるマルチスケールアンサンブルスキームを採用している。 本研究では,cnn層をモデルに統合し,拡張機能の有効性をさらに高めるための拡張版であるハイブリッドサーフォレストフォレストを開発した。 さらに,学習におけるメモリコストを低減するため,訓練サンプルの一部のみを用いて森林モデルを構築することができる分割・比較調査林を提案する。 トレーニング段階では、トレーニングサンプルのサブセットを用いて、いくつかの候補森林モデルを訓練する。 次にForensicsForestは、これらの候補となる森林モデルから適切なコンポーネントを選択することで組み立てられる。

The prominent progress in generative models has significantly improved the reality of generated faces, bringing serious concerns to society. Since recent GAN-generated faces are in high realism, the forgery traces have become more imperceptible, increasing the forensics challenge. To combat GAN-generated faces, many countermeasures based on Convolutional Neural Networks (CNNs) have been spawned due to their strong learning ability. In this paper, we rethink this problem and explore a new approach based on forest models instead of CNNs. Specifically, we describe a simple and effective forest-based method set called {\em ForensicsForest Family} to detect GAN-generate faces. The proposed ForensicsForest family is composed of three variants, which are {\em ForensicsForest}, {\em Hybrid ForensicsForest} and {\em Divide-and-Conquer ForensicsForest} respectively. ForenscisForest is a newly proposed Multi-scale Hierarchical Cascade Forest, which takes semantic, frequency and biology features as input, hierarchically cascades different levels of features for authenticity prediction, and then employs a multi-scale ensemble scheme that can comprehensively consider different levels of information to improve the performance further. Based on ForensicsForest, we develop Hybrid ForensicsForest, an extended version that integrates the CNN layers into models, to further refine the effectiveness of augmented features. Moreover, to reduce the memory cost in training, we propose Divide-and-Conquer ForensicsForest, which can construct a forest model using only a portion of training samplings. In the training stage, we train several candidate forest models using the subsets of training samples. Then a ForensicsForest is assembled by picking the suitable components from these candidate forest models...
翻訳日:2023-08-03 13:51:21 公開日:2023-08-02
# クラウドにおける自律的・信頼的モデル精錬のための同型暗号化と信頼された実行技術の統合

Integrating Homomorphic Encryption and Trusted Execution Technology for Autonomous and Confidential Model Refining in Cloud ( http://arxiv.org/abs/2308.00963v1 )

ライセンス: Link先を確認
Pinglan Liu and Wensheng Zhang(参考訳) クラウドコンピューティングと機械学習の人気により、機械学習プロセス(モデルトレーニングやモデルベース推論を含む)をクラウドにアウトソースするトレンドになっている。 アウトソーシングによって、クラウドサービスプロバイダが提供する広範囲でスケーラブルなリソースを活用する以外に、クラウドサーバがユーザに代わって機械学習プロセスを自律的に管理できれば、ユーザにとっても魅力的なものになるでしょう。 このような機能は、機械学習が長期的な継続的プロセスであり、ユーザが常に参加できるとは限らない場合に特に有益である。 セキュリティとプライバシの懸念から、自律学習はユーザのデータや関連するモデルの機密性を保っていることも望まれる。 そこで本稿では,クラウド上での自律的かつ機密性の高いモデル精錬を可能にするスキームを設計することを目的としている。 同型暗号化と信頼性の高い実行環境技術は、自律的な計算の機密性を保護することができるが、それぞれに制限があり、互いに補完的である。 そこで本研究では,これら2つの手法をモデル精錬方式の設計に組み入れることを提案する。 実装と実験を通じて,提案手法の有効性を評価した。 提案手法により,クラウドサーバは,新たな暗号化トレーニングデータによる暗号化モデルを自律的に洗練し,その精度を継続的に向上させることができる。 この効率性は、平文データで平文モデルを洗練するベースライン方式よりも依然として著しく低いが、高レベルの並列処理とクラウドサーバにおけるGPUの計算パワーを十分に活用することにより、改善が期待できる。

With the popularity of cloud computing and machine learning, it has been a trend to outsource machine learning processes (including model training and model-based inference) to cloud. By the outsourcing, other than utilizing the extensive and scalable resource offered by the cloud service provider, it will also be attractive to users if the cloud servers can manage the machine learning processes autonomously on behalf of the users. Such a feature will be especially salient when the machine learning is expected to be a long-term continuous process and the users are not always available to participate. Due to security and privacy concerns, it is also desired that the autonomous learning preserves the confidentiality of users' data and models involved. Hence, in this paper, we aim to design a scheme that enables autonomous and confidential model refining in cloud. Homomorphic encryption and trusted execution environment technology can protect confidentiality for autonomous computation, but each of them has their limitations respectively and they are complementary to each other. Therefore, we further propose to integrate these two techniques in the design of the model refining scheme. Through implementation and experiments, we evaluate the feasibility of our proposed scheme. The results indicate that, with our proposed scheme the cloud server can autonomously refine an encrypted model with newly provided encrypted training data to continuously improve its accuracy. Though the efficiency is still significantly lower than the baseline scheme that refines plaintext-model with plaintext-data, we expect that it can be improved by fully utilizing the higher level of parallelism and the computational power of GPU at the cloud server.
翻訳日:2023-08-03 13:50:45 公開日:2023-08-02
# 分離と誘導:モデル盗み攻撃に対するロバストなディープニューラルネットワークのトレーニング

Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks ( http://arxiv.org/abs/2308.00958v1 )

ライセンス: Link先を確認
Jun Guo, Aishan Liu, Xingyu Zheng, Siyuan Liang, Yisong Xiao, Yichao Wu, Xianglong Liu(参考訳) マシンラーニングモデル・アズ・ア・サービス(mlaas)の広範な適用にもかかわらず、モデル盗み攻撃に対して脆弱である。 これらの攻撃は、ターゲットの犠牲者モデルに関する事前の知識なしにブラックボックスクエリプロセスを使用することで、モデルの機能を複製することができる。 既存の盗難防御は、被害者の後部確率を欺いて攻撃者を誤解させる。 しかし、これらの防御は現在、高い推論の計算オーバーヘッドと良性の正確さと、実際にデプロイされるモデルの実現可能性に挑戦する堅牢さの間の不利なトレードオフという問題に直面している。 そこで本研究では,モデルステルス防衛のための新しい効果的なトレーニングフレームワークである分離誘導(InI)を提案する。 冗長な推論時間をもたらす補助的な防御モジュールを配置する代わりに、iniは、敵のトレーニング勾配を期待勾配から分離することで防御モデルを直接訓練し、推論計算コストを効果的に削減する。 良性的正確性を損なうモデル予測に摂動を追加するのとは対照的に,クエリ盗みに対して非形式的アウトプットを生成するようにモデルを訓練することで,良性的性能への影響を最小限に抑えながら,被害者モデルから有用な知識をほとんど取り出すことを敵に促すことができる。 いくつかの視覚分類データセット(例えば、MNISTとCIFAR10)に対する大規模な実験は、他の最先端手法よりも優れた堅牢性(48%まで精度を低下させる)と速度(最大25.4倍高速)を示す。 私たちのコードはhttps://github.com/DIG-Beihang/InI-Model-Stealing-Defenseで確認できます。

Despite the broad application of Machine Learning models as a Service (MLaaS), they are vulnerable to model stealing attacks. These attacks can replicate the model functionality by using the black-box query process without any prior knowledge of the target victim model. Existing stealing defenses add deceptive perturbations to the victim's posterior probabilities to mislead the attackers. However, these defenses are now suffering problems of high inference computational overheads and unfavorable trade-offs between benign accuracy and stealing robustness, which challenges the feasibility of deployed models in practice. To address the problems, this paper proposes Isolation and Induction (InI), a novel and effective training framework for model stealing defenses. Instead of deploying auxiliary defense modules that introduce redundant inference time, InI directly trains a defensive model by isolating the adversary's training gradient from the expected gradient, which can effectively reduce the inference computational cost. In contrast to adding perturbations over model predictions that harm the benign accuracy, we train models to produce uninformative outputs against stealing queries, which can induce the adversary to extract little useful knowledge from victim models with minimal impact on the benign performance. Extensive experiments on several visual classification datasets (e.g., MNIST and CIFAR10) demonstrate the superior robustness (up to 48% reduction on stealing accuracy) and speed (up to 25.4x faster) of our InI over other state-of-the-art methods. Our codes can be found in https://github.com/DIG-Beihang/InI-Model-Stealing-Defense.
翻訳日:2023-08-03 13:50:19 公開日:2023-08-02
# 個人別(クラスタ化)結果の因果推論

Causal Inference with Differentially Private (Clustered) Outcomes ( http://arxiv.org/abs/2308.00957v1 )

ライセンス: Link先を確認
Adel Javanmard, Vahab Mirrokni, Jean Pouget-Abadie(参考訳) ランダム化実験から因果効果を推定することは、参加者が潜在的に敏感な反応を明らかにすることに同意すれば実現可能である。 プライバシーを保証する多くの方法の中で、ラベル差分プライバシーはアルゴリズムのプライバシー保証の広く使われている尺度であり、匿名化のリスクを負わずに参加者が応答を共有することを促す可能性がある。 多くの差分プライベート機構は、このプライバシ保証を達成するために元のデータセットにノイズを注入し、多くの統計推定器の分散を増加させ、因果効果の正確な測定を困難にする。 より強力なプライバシー保証のために、より低い分散を達成するために、データの任意のクラスタ構造を利用しながら因果効果を推定できる新しい差分プライバシメカニズム"cluster-dp"を提案する。 クラスタの品質を直感的に測定することで,プライバシ保証を維持しながら分散損失を改善することができることを示す。 我々は、その性能を、理論上、経験的に、クラスタ化されていないバージョンと、"クラスタDP"アルゴリズムの特別な場合である元の応答分布を一切使用しない、より極端な一様バージョンと比較する。

Estimating causal effects from randomized experiments is only feasible if participants agree to reveal their potentially sensitive responses. Of the many ways of ensuring privacy, label differential privacy is a widely used measure of an algorithm's privacy guarantee, which might encourage participants to share responses without running the risk of de-anonymization. Many differentially private mechanisms inject noise into the original data-set to achieve this privacy guarantee, which increases the variance of most statistical estimators and makes the precise measurement of causal effects difficult: there exists a fundamental privacy-variance trade-off to performing causal analyses from differentially private data. With the aim of achieving lower variance for stronger privacy guarantees, we suggest a new differential privacy mechanism, "Cluster-DP", which leverages any given cluster structure of the data while still allowing for the estimation of causal effects. We show that, depending on an intuitive measure of cluster quality, we can improve the variance loss while maintaining our privacy guarantees. We compare its performance, theoretically and empirically, to that of its unclustered version and a more extreme uniform-prior version which does not use any of the original response distribution, both of which are special cases of the "Cluster-DP" algorithm.
翻訳日:2023-08-03 13:49:47 公開日:2023-08-02
# 暗黒環境におけるカリキュラム指導型ドメイン適応

Curriculum Guided Domain Adaptation in the Dark ( http://arxiv.org/abs/2308.00956v1 )

ライセンス: Link先を確認
Chowdhury Sadman Jahan and Andreas Savakis(参考訳) プライバシーとセキュリティの懸念の高まりに対処するため、暗黒におけるドメイン適応は、ソースデータやソースモデルパラメータにアクセスせずに、ブラックボックスソースのトレーニング済みモデルをラベルなしのターゲットドメインに適応することを目的としている。 ブラックボックス予測器のドメイン適応の必要性は、ディープラーニングベースのソリューションがますます商業化されつつあるため、知的財産を保護するためにさらに顕著になる。 現在の方法は、従来のノイズラベル学習アルゴリズムを適用する前に、ソースモデルからターゲットモデルに得られたターゲットデータにノイズ予測を蒸留し、クリーン/ノイズのターゲットサンプルを分離する。 しかし、これらの方法はクリーン/ノイジーデータ分割の易解な学習の性質を生かさない。 また、既存のメソッドはいずれもエンドツーエンドではなく、個別の微調整ステージと初期ウォームアップステージを必要とする。 本研究では,まず,高い信頼度(クリーン)ラベルを持つ対象データ,次いでノイズの多いラベルを持つ対象データに基づいて,対象モデルを段階的にトレーニングするためのカリキュラム的適応アプローチを提供する,ブラックボックス用カリキュラム適応(CABB)を提案する。 CABBは、従来のクロスエントロピー損失の基準と比較して、クリーンノイズサンプル分離のためのより良い基準としてジェンセン・シャノン分散を用いる。 本手法は,デュアルブランチネットワークの協調学習を利用して,確認バイアスによる誤差蓄積を抑制する。 提案手法はエンドツーエンドのトレーニングが可能であり、既存の手法とは異なり、追加の微調整段階を必要としない。 標準領域適応データセットの実証結果は、CABBが既存の最先端のブラックボックスDAモデルより優れており、ホワイトボックスドメイン適応モデルに匹敵することを示している。

Addressing the rising concerns of privacy and security, domain adaptation in the dark aims to adapt a black-box source trained model to an unlabeled target domain without access to any source data or source model parameters. The need for domain adaptation of black-box predictors becomes even more pronounced to protect intellectual property as deep learning based solutions are becoming increasingly commercialized. Current methods distill noisy predictions on the target data obtained from the source model to the target model, and/or separate clean/noisy target samples before adapting using traditional noisy label learning algorithms. However, these methods do not utilize the easy-to-hard learning nature of the clean/noisy data splits. Also, none of the existing methods are end-to-end, and require a separate fine-tuning stage and an initial warmup stage. In this work, we present Curriculum Adaptation for Black-Box (CABB) which provides a curriculum guided adaptation approach to gradually train the target model, first on target data with high confidence (clean) labels, and later on target data with noisy labels. CABB utilizes Jensen-Shannon divergence as a better criterion for clean-noisy sample separation, compared to the traditional criterion of cross entropy loss. Our method utilizes co-training of a dual-branch network to suppress error accumulation resulting from confirmation bias. The proposed approach is end-to-end trainable and does not require any extra finetuning stage, unlike existing methods. Empirical results on standard domain adaptation datasets show that CABB outperforms existing state-of-the-art black-box DA models and is comparable to white-box domain adaptation models.
翻訳日:2023-08-03 13:49:26 公開日:2023-08-02
# まばらで柔らかな専門家の混合物から

From Sparse to Soft Mixtures of Experts ( http://arxiv.org/abs/2308.00951v1 )

ライセンス: Link先を確認
Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Neil Houlsby(参考訳) 専門家アーキテクチャ(MoE)の疎結合は、トレーニングや推論コストを大きく増加させることなく、モデルのキャパシティをスケールする。 その成功にもかかわらず、moesはトレーニングの不安定さ、トークンの落とし込み、専門家の数をスケールできないこと、効果的でない微調整など、多くの問題に苦しんでいる。 本研究では,これらの課題に対処しつつ,MoEの利点を維持しつつ,完全微分可能なスパーストランスであるSoft MoEを提案する。 soft moeは、すべての入力トークンの異なる重み付けの組み合わせを各専門家に渡すことで、暗黙のソフト割り当てを実行する。 他のMoEの作業と同様に、Soft MoEの専門家は(組み合わせ)トークンのサブセットのみを処理し、推論コストの低いモデルキャパシティを実現する。 視覚認識の文脈では、Soft MoEは標準トランスフォーマー(ViT)と人気のあるMoE(Tokens ChoiceとExperts Choice)を大きく上回っている。 例えば、Soft MoE-Base/16はViT-Huge/14よりも10.5倍低い推論コスト (5.7倍のウォールクロック時間) を必要とする。 soft moe huge/14 16のmoe層で128人のエキスパートを持つsoft moe huge/14は、vit huge/14の40倍以上のパラメータを持ち、推論時間はわずか2%しかかからない。

Sparse mixture of expert architectures (MoEs) scale model capacity without large increases in training or inference costs. Despite their success, MoEs suffer from a number of issues: training instability, token dropping, inability to scale the number of experts, or ineffective finetuning. In this work, we proposeSoft MoE, a fully-differentiable sparse Transformer that addresses these challenges, while maintaining the benefits of MoEs. Soft MoE performs an implicit soft assignment by passing different weighted combinations of all input tokens to each expert. As in other MoE works, experts in Soft MoE only process a subset of the (combined) tokens, enabling larger model capacity at lower inference cost. In the context of visual recognition, Soft MoE greatly outperforms standard Transformers (ViTs) and popular MoE variants (Tokens Choice and Experts Choice). For example, Soft MoE-Base/16 requires 10.5x lower inference cost (5.7x lower wall-clock time) than ViT-Huge/14 while matching its performance after similar training. Soft MoE also scales well: Soft MoE Huge/14 with 128 experts in 16 MoE layers has over 40x more parameters than ViT Huge/14, while inference time cost grows by only 2%, and it performs substantially better.
翻訳日:2023-08-03 13:48:54 公開日:2023-08-02
# 意味的画像セグメンテーションマスクからのトレーニングフリーインスタンスセグメンテーション

Training-Free Instance Segmentation from Semantic Image Segmentation Masks ( http://arxiv.org/abs/2308.00949v1 )

ライセンス: Link先を確認
Yuchen Shen, Dong Zhang, Yuhui Zheng, Zechao Li, Liyong Fu, Qiaolin Ye(参考訳) 近年、インスタンスセグメンテーションの発展は、広範囲のアプリケーションにおいて大きな注目を集めている。 しかし、完全に教師付きインスタンスセグメンテーションモデルのトレーニングには、インスタンスレベルのアノテーションとピクセルレベルのアノテーションの両方が必要となる。 対照的に、弱教師付きインスタンスセグメンテーション手法(画像レベルのクラスラベルやポイントラベルなど)は、現実シナリオの正確性とリコール要件を満たすのに苦労する。 本稿では,本論文で提案する,既成意味セグメンテーションモデルを用いて予測される画像マスクからのインスタンスセグメンテーション結果を実現する,トレーニングフリーインスタンスセグメンテーション (tfiseg) と呼ばれる新しいインスタンスセグメンテーションパラダイムを提案する。 TFISegはセマンティックまたはインスタンスセグメンテーションモデルをトレーニングする必要がなく、インスタンスレベルのイメージアノテーションを必要としない。 したがって、非常に効率的である。 具体的には、まず、訓練された意味セグメンテーションモデルを用いて、入力画像の意味セグメンテーションマスクを得る。 次に, 分割マスクに基づいて各画素の変位場ベクトルを算出し, 同一のクラスに属するが, 異なるインスタンスに属する表現, すなわち, インスタンスレベルのオブジェクト情報を得る。 最後に、学習可能なカテゴリ非依存オブジェクト境界分岐により、インスタンス分割結果が得られる。 2つの挑戦的データセットと代表的セマンティックセグメンテーションベースライン(CNNやTransformersを含む)の広範な実験結果から、TFISegは、人的資源の追加や計算コストの増大を必要とせず、最先端の完全に管理されたインスタンスセグメンテーション手法と比較して、競争的な結果が得られることが示されている。 コードは tfiseg で利用可能です。

In recent years, the development of instance segmentation has garnered significant attention in a wide range of applications. However, the training of a fully-supervised instance segmentation model requires costly both instance-level and pixel-level annotations. In contrast, weakly-supervised instance segmentation methods (i.e., with image-level class labels or point labels) struggle to satisfy the accuracy and recall requirements of practical scenarios. In this paper, we propose a novel paradigm for instance segmentation called training-free instance segmentation (TFISeg), which achieves instance segmentation results from image masks predicted using off-the-shelf semantic segmentation models. TFISeg does not require training a semantic or/and instance segmentation model and avoids the need for instance-level image annotations. Therefore, it is highly efficient. Specifically, we first obtain a semantic segmentation mask of the input image via a trained semantic segmentation model. Then, we calculate a displacement field vector for each pixel based on the segmentation mask, which can indicate representations belonging to the same class but different instances, i.e., obtaining the instance-level object information. Finally, instance segmentation results are obtained after being refined by a learnable category-agnostic object boundary branch. Extensive experimental results on two challenging datasets and representative semantic segmentation baselines (including CNNs and Transformers) demonstrate that TFISeg can achieve competitive results compared to the state-of-the-art fully-supervised instance segmentation methods without the need for additional human resources or increased computational costs. The code is available at: TFISeg
翻訳日:2023-08-03 13:48:29 公開日:2023-08-02
# SALTTS: 音声合成改善のための自己教師付き音声表現の活用

SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis ( http://arxiv.org/abs/2308.01018v1 )

ライセンス: Link先を確認
Ramanan Sivaguru, Vasista Sai Lodagala, S Umesh(参考訳) FastSpeech2は、条件入力としてピッチ、エネルギ、持続時間などの音声の側面を統合することを目的としているが、それでもよりリッチな表現の範囲は残されている。 この研究の一環として,様々な自己教師付き学習(ssl)モデルの表現を用いて,合成音声の品質を向上させる。 特に、SSL表現の再構築を目的として、FastSpeech2エンコーダの長制御出力を一連のエンコーダ層に渡す。 SALTTS並列実装では、この第2エンコーダからの表現はSSL機能による補助的な再構成損失に使用される。 しかし、SALTTS-cascadeの実装は、復元損失に加えてデコーダを通してこれらの表現をパスする。 SSL特徴量からの音声特性の豊かさは出力音声品質を反映し,提案手法の客観的および主観的評価はベースラインであるFastSpeech2より優れている。

While FastSpeech2 aims to integrate aspects of speech such as pitch, energy, and duration as conditional inputs, it still leaves scope for richer representations. As a part of this work, we leverage representations from various Self-Supervised Learning (SSL) models to enhance the quality of the synthesized speech. In particular, we pass the FastSpeech2 encoder's length-regulated outputs through a series of encoder layers with the objective of reconstructing the SSL representations. In the SALTTS-parallel implementation, the representations from this second encoder are used for an auxiliary reconstruction loss with the SSL features. The SALTTS-cascade implementation, however, passes these representations through the decoder in addition to having the reconstruction loss. The richness of speech characteristics from the SSL features reflects in the output speech quality, with the objective and subjective evaluation measures of the proposed approach outperforming the baseline FastSpeech2.
翻訳日:2023-08-03 13:41:57 公開日:2023-08-02
# フォトニック非線形量子ウォークにおけるソリトン:連続体からの教訓

Solitons in a photonic nonlinear quantum walk: lessons from the continuum ( http://arxiv.org/abs/2308.01014v1 )

ライセンス: Link先を確認
Andreu Angl\'es-Castillo, Armando P\'erez, Eugenio Rold\'an(参考訳) 我々は、光学非線形カー媒体上の電界成分を用いて実験的に実装できる非線形QWモデルを、(非線形に)歩行者の状態に依存する角度で、コイン演算子の回転に変換する非線形QWモデルの解析を行う。 この単純な依存により、非線形ディラック方程式の形をとる進化方程式の時空連続体極限を考えるのが容易である。 この連続極限の解析により、いくつかの近似の下で、ソリトン構造の性質についていくつかの知見を得ることができる。 これらのソリトンは、適切な初期条件を選択することで軌道を変調できる安定な構造である。 また,外部電界をシミュレートする追加位相を受けるソリトンの安定性についても検討し,高次元空間で形成されるかどうかを考察した。

We analyse a nonlinear QW model which can be experimentally implemented using the components of the electric field on an optical nonlinear Kerr medium, which translates into a rotation in the coin operator, with an angle which depends (in a nonlinear fashion) on the state of the walker. This simple dependence makes it easy to consider the space-time continuum limit of the evolution equation, which takes the form of a nonlinear Dirac equation. The analysis of this continuum limit allows us, under some approximations, to gain some insight into the nature of soliton structures, which is illustrated by our numerical calculations. These solitons are stable structures whose trajectories can be modulated by choosing the appropriate initial conditions. We have also studied the stability of solitons when they are subject to an additional phase that simulates an external electric field, and also explored if they are formed in higher dimensional spaces.
翻訳日:2023-08-03 13:41:43 公開日:2023-08-02
# Floss を用いた周期時系列表現学習の強化:周波数領域正規化アプローチ

Enhancing Representation Learning for Periodic Time Series with Floss: A Frequency Domain Regularization Approach ( http://arxiv.org/abs/2308.01011v1 )

ライセンス: Link先を確認
Chunwei Yang, Xiaoxu Chen, Lijun Sun, Hongyu Yang, Yuankai Wu(参考訳) 時系列解析は様々なアプリケーション領域において基本的な課題であり、深層学習アプローチはこの分野において顕著な性能を示している。 しかし、多くの実世界の時系列データは、既存のディープラーニングベースのソリューションによって適切に捉えられていない重要な周期的または準周期的ダイナミクスを示す。 この結果、関心のある動的振る舞いの完全な表現が得られなくなる。 このギャップに対処するために,周波数領域における学習表現を自動的に規則化するflossと呼ばれる教師なし手法を提案する。 Floss法はまず時系列から主要な周期を自動的に検出する。 その後、周期的シフトとスペクトル密度類似性尺度を用いて、周期的一貫性を持つ有意義な表現を学習する。 さらに、flossは教師なし、半教師なし、教師なしの学習フレームワークの両方に簡単に組み込むことができる。 フロスの有効性を実証するために,時系列分類,予測,異常検出に関する広範囲な実験を行った。 我々はFlossをいくつかの代表的なディープラーニングソリューションに組み込んで、設計選択を正当化し、周期的ダイナミクスを自動的に発見し、最先端のディープラーニングモデルを改善することができることを示す。

Time series analysis is a fundamental task in various application domains, and deep learning approaches have demonstrated remarkable performance in this area. However, many real-world time series data exhibit significant periodic or quasi-periodic dynamics that are often not adequately captured by existing deep learning-based solutions. This results in an incomplete representation of the underlying dynamic behaviors of interest. To address this gap, we propose an unsupervised method called Floss that automatically regularizes learned representations in the frequency domain. The Floss method first automatically detects major periodicities from the time series. It then employs periodic shift and spectral density similarity measures to learn meaningful representations with periodic consistency. In addition, Floss can be easily incorporated into both supervised, semi-supervised, and unsupervised learning frameworks. We conduct extensive experiments on common time series classification, forecasting, and anomaly detection tasks to demonstrate the effectiveness of Floss. We incorporate Floss into several representative deep learning solutions to justify our design choices and demonstrate that it is capable of automatically discovering periodic dynamics and improving state-of-the-art deep learning models.
翻訳日:2023-08-03 13:41:26 公開日:2023-08-02
# 任意の点:全方位画像からの物体推定

Point Anywhere: Directed Object Estimation from Omnidirectional Images ( http://arxiv.org/abs/2308.01010v1 )

ライセンス: Link先を確認
Nanami Kotani and Asako Kanezaki(参考訳) ロボットナビゲーションにおける直感的な指示方法の1つはポインティングジェスチャである。 本研究では,全方位カメラを用いたポインティングアームのユーザ/オブジェクト位置制約と左右方向の制約を除去する手法を提案する。 等方形画像の歪みが大きいため,骨格と物体検出の精度は低いが,本手法では,等方形画像から興味領域を抽出し,視点画像に投影することにより,高精度な推定が可能となる。 さらに,機械学習における対象オブジェクトの確率のトレーニングにより,推定精度がさらに向上することが分かった。

One of the intuitive instruction methods in robot navigation is a pointing gesture. In this study, we propose a method using an omnidirectional camera to eliminate the user/object position constraint and the left/right constraint of the pointing arm. Although the accuracy of skeleton and object detection is low due to the high distortion of equirectangular images, the proposed method enables highly accurate estimation by repeatedly extracting regions of interest from the equirectangular image and projecting them onto perspective images. Furthermore, we found that training the likelihood of the target object in machine learning further improves the estimation accuracy.
翻訳日:2023-08-03 13:41:08 公開日:2023-08-02
# 100パルス幅のbrillouin光ストレージ

Brillouin light storage for 100 pulse widths ( http://arxiv.org/abs/2308.01009v1 )

ライセンス: Link先を確認
Birgit Stiller, Kevin Jaksch, Johannes Piotrowski, Moritz Merklein, Mikolaj K. Schmidt, Khu Vu, Pan Ma, Stephen Madden, Michael J. Steel, Christopher G. Poulton, and Benjamin J. Eggleton(参考訳) 刺激ブリルアン散乱(sbs)に基づく信号処理は、多くのブリルアン応用を数ナノ秒よりも長い連続波信号や光パルスに限定する光音響応答の狭い線幅によって制限される。 本稿では,150psの時間スケールでのブリルアン相互作用と,100パルス幅の遅延に対応する記録15nsの遅延を実験的に実証する。 この画期的な実験結果は、光音響相互作用長がパルス幅とともに減少するため、カルコゲナイド導波路の高い局所利得によって実現された。 我々は,150psのパルスをブリュアン型メモリ装置内で走行する音波に転送することに成功した。 光パルスに符号化された情報は、音場内の15nsに記憶される。 本研究では,8つの振幅レベル,複数パルス,低歪みのパルス形状を検索する。 ブリルアン系ストレージの超短パルス状態への拡張は、実用的ブリルアン系遅延線およびその他の光学処理応用の実現のための重要なステップである。

Signal processing based on stimulated Brillouin scattering (SBS) is limited by the narrow linewidth of the optoacoustic response, which confines many Brillouin applications to continuous wave signals or optical pulses longer than several nanoseconds. In this work, we experimentally demonstrate Brillouin interactions at the 150 ps time scale and a delay for a record 15 ns which corresponds to a delay of 100 pulse widths. This breakthrough experimental result was enabled by the high local gain of the chalcogenide waveguides as the optoacoustic interaction length reduces with pulse width. We successfully transfer 150ps-long pulses to traveling acoustic waves within a Brillouin-based memory setup. The information encoded in the optical pulses is stored for 15 ns in the acoustic field. We show the retrieval of eight amplitude levels, multiple consecutive pulses and low distortion in pulse shape. The extension of Brillouin-based storage to the ultra-short pulse regime is an important step for the realisation of practical Brillouin-based delay lines and other optical processing applications.
翻訳日:2023-08-03 13:40:57 公開日:2023-08-02
# fusionad: 自動運転の予測と計画タスクのためのマルチモダリティ融合

FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving ( http://arxiv.org/abs/2308.01006v1 )

ライセンス: Link先を確認
Tengju Ye, Wei Jing, Chunyong Hu, Shikun Huang, Lingping Gao, Fangzhen Li, Jingke Wang, Ke Guo, Wencong Xiao, Weibo Mao, Hang Zheng, Kun Li, Junbo Chen, Kaicheng Yu(参考訳) 高精度でロバストなパフォーマンスに向けたマルチモダリティマルチタスクニューラルネットワークの構築は、自動運転の知覚タスクにおけるデファクトスタンダードである。 しかし、複数のセンサからのそのようなデータを活用して予測と計画タスクを共同で最適化することは、ほとんど未検討のままである。 本稿では、FusionADについて、私たちの知る限りでは、カメラとLiDARの2つの重要なセンサーからの情報を融合する最初の統合フレームワークであるFusionADについて述べる。 具体的には、最初にトランスフォーマーベースのマルチモダリティフュージョンネットワークを構築し、フュージョンベースの機能を効果的に生み出す。 カメラベースのエンドツーエンド手法であるUniADに対して、マルチモーダル特徴の利点を生かしたFMSPnPと呼ばれるモダリティ対応予測とステータス対応計画モジュールを融合して構築する。 一般的なベンチマークnuscenesデータセットを広範囲に実験した結果,fusionadは最先端のパフォーマンスを達成し,検出や追跡などの知覚タスクでは平均15%,占有予測精度では10%,adeスコアでは0.708から0.389に低下し,衝突率を0.31%から0.12%に低減した。

Building a multi-modality multi-task neural network toward accurate and robust performance is a de-facto standard in perception task of autonomous driving. However, leveraging such data from multiple sensors to jointly optimize the prediction and planning tasks remains largely unexplored. In this paper, we present FusionAD, to the best of our knowledge, the first unified framework that fuse the information from two most critical sensors, camera and LiDAR, goes beyond perception task. Concretely, we first build a transformer based multi-modality fusion network to effectively produce fusion based features. In constrast to camera-based end-to-end method UniAD, we then establish a fusion aided modality-aware prediction and status-aware planning modules, dubbed FMSPnP that take advantages of multi-modality features. We conduct extensive experiments on commonly used benchmark nuScenes dataset, our FusionAD achieves state-of-the-art performance and surpassing baselines on average 15% on perception tasks like detection and tracking, 10% on occupancy prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score and reduces the collision rate from 0.31% to only 0.12%.
翻訳日:2023-08-03 13:40:42 公開日:2023-08-02
# MDT3D:LiDAR 3Dオブジェクト検出一般化のためのマルチデータセットトレーニング

MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection Generalization ( http://arxiv.org/abs/2308.01000v1 )

ライセンス: Link先を確認
Louis Soum-Fontez, Jean-Emmanuel Deschaud, Fran\c{c}ois Goulette(参考訳) 教師付き3Dオブジェクト検出モデルは、トレーニングデータがテストデータと同じ環境とセンサーから来る単一ドメインの場合において、ますますパフォーマンスが向上している。 しかし、現実のシナリオでは、ターゲットドメインからのデータは微調整やドメイン適応には利用できない。 実際、特定の点分布を持つソースデータセットでトレーニングされた3Dオブジェクト検出モデルは、目に見えないデータセットへの一般化に困難を呈している。 そこで我々は,複数のアノテートされたソースデータセットから得られる情報をMDT3D(Multi-Dataset Training for 3D Object Detection)法で活用し,センサ構成の異なる新しい環境での3Dオブジェクト検出モデルの堅牢性を高めることを決定した。 データセット間のラベリングギャップに対処するために、粗いラベルに基づく新しいラベルマッピングを使用した。 さらに、トレーニング中にデータセットの混合を管理し、最後に新しいクロスデータセット拡張メソッド、クロスデータセットオブジェクトインジェクションを導入しました。 このトレーニングパラダイムが,様々な3dオブジェクト検出モデルに対する改善を示すことを実証する。 この研究プロジェクトのソースコードと追加結果はgithubで公開され、興味のある関係者がアクセスおよび利用できるようになる。

Supervised 3D Object Detection models have been displaying increasingly better performance in single-domain cases where the training data comes from the same environment and sensor as the testing data. However, in real-world scenarios data from the target domain may not be available for finetuning or for domain adaptation methods. Indeed, 3D object detection models trained on a source dataset with a specific point distribution have shown difficulties in generalizing to unseen datasets. Therefore, we decided to leverage the information available from several annotated source datasets with our Multi-Dataset Training for 3D Object Detection (MDT3D) method to increase the robustness of 3D object detection models when tested in a new environment with a different sensor configuration. To tackle the labelling gap between datasets, we used a new label mapping based on coarse labels. Furthermore, we show how we managed the mix of datasets during training and finally introduce a new cross-dataset augmentation method: cross-dataset object injection. We demonstrate that this training paradigm shows improvements for different types of 3D object detection models. The source code and additional results for this research project will be publicly available on GitHub for interested parties to access and utilize: https://github.com/LouisSF/MDT3D
翻訳日:2023-08-03 13:40:18 公開日:2023-08-02
# ダイヤモンド上10Kの鉛原子価中心からの変態光子放出

Transform-Limited Photon Emission From a Lead-Vacancy Center in Diamond Above 10 K ( http://arxiv.org/abs/2308.00995v1 )

ライセンス: Link先を確認
Peng Wang, Lev Kazak, Katharina Senkalla, Petr Siyushev, Ryotaro Abe, Takashi Taniguchi, Shinobu Onoda, Hiromitsu Kato, Toshiharu Makino, Mutsuko Hatano, Fedor Jelezko and Takayuki Iwasaki(参考訳) 量子エミッタからの変換制限光子放出は高忠実度エンタングルメント生成に必須である。 本研究では,ダイヤモンド中の単一負電荷鉛空隙(pbv)中心のコヒーレント光学特性について報告する。 発光励起測定は、寿命測定から推定される変換限界に近い、39MHzの線幅の安定蛍光を6Kで示している。 2つのゼロフォノン線の4桁のライン幅を観測し、基底状態におけるフォノン誘起緩和がこのライン幅の大きな違いに寄与することを発見した。 PbV中心のフォノン吸収が抑制されたため、ほぼ変態した光子放出を16Kまで観測し、ダイヤモンドの他の色中心と比べて高温の堅牢性を示した。

Transform-limited photon emission from quantum emitters is essential for high-fidelity entanglement generation. In this study, we report the coherent optical property of a single negatively-charged lead-vacancy (PbV) center in diamond. Photoluminescence excitation measurements reveal stable fluorescence with a linewidth of 39 MHz at 6 K, close to the transform-limit estimated from the lifetime measurement. We observe four orders of magnitude different linewidths of the two zero-phonon-lines, and find that that the phonon-induced relaxation in the ground state contributes to this huge difference in the linewidth. Due to the suppressed phonon absorption in the PbV center, we observe nearly transform-limited photon emission up to 16 K, demonstrating its high temperature robustness compared to other color centers in diamond.
翻訳日:2023-08-03 13:39:58 公開日:2023-08-02
# データ不均衡問題に対する合成データの利用:データの観点からのベースライン

Exploiting Synthetic Data for Data Imbalance Problems: Baselines from a Data Perspective ( http://arxiv.org/abs/2308.00994v1 )

ライセンス: Link先を確認
Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak, Tae-Hyun Oh(参考訳) 私たちは膨大なデータの海に住んでいますし、ディープニューラルネットワークも例外ではありません。 しかし、このデータは本質的に不均衡な現象を示す。 この不均衡は、偏りのある予測を生み出すディープニューラルネットワークのリスクを生じさせ、潜在的に深刻な倫理的および社会的結果をもたらす。 これらの課題に対処するため、高画質画像生成における最近の拡散モデルによる顕著な進歩を考えると、生成モデルの利用はタスクの理解に有望なアプローチであると信じている。 本研究では,データ不均衡問題に対してタスク固有のアルゴリズムを用いる前段階として合成データを利用する,単純かつ効果的なベースラインであるsynaugを提案する。 この単純なアプローチは、CIFAR100-LT、ImageNet100-LT、UTKFace、Waterbirdなどのデータセットで、既存のタスク固有のメソッドのパフォーマンスを上回っている。 我々は、このアプローチがデータの不均衡問題に対する完全な解決策であると主張するわけではないが、既存のデータを合成データで補完することは、データの不均衡問題に対処する上で効果的かつ重要な予備的ステップであると主張する。

We live in a vast ocean of data, and deep neural networks are no exception to this. However, this data exhibits an inherent phenomenon of imbalance. This imbalance poses a risk of deep neural networks producing biased predictions, leading to potentially severe ethical and social consequences. To address these challenges, we believe that the use of generative models is a promising approach for comprehending tasks, given the remarkable advancements demonstrated by recent diffusion models in generating high-quality images. In this work, we propose a simple yet effective baseline, SYNAuG, that utilizes synthetic data as a preliminary step before employing task-specific algorithms to address data imbalance problems. This straightforward approach yields impressive performance on datasets such as CIFAR100-LT, ImageNet100-LT, UTKFace, and Waterbird, surpassing the performance of existing task-specific methods. While we do not claim that our approach serves as a complete solution to the problem of data imbalance, we argue that supplementing the existing data with synthetic data proves to be an effective and crucial preliminary step in addressing data imbalance concerns.
翻訳日:2023-08-03 13:39:44 公開日:2023-08-02
# 階層的強化学習のためのwasserstein diversity-enriched regularizer

Wasserstein Diversity-Enriched Regularizer for Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2308.00989v1 )

ライセンス: Link先を確認
Haorui Li, Jiaqi Liang, Linjing Li, and Daniel Zeng(参考訳) 階層的強化学習複合システム 複雑なタスクを達成するために異なる階層構造にあるサブポリシーズ ドメイン知識に依存しない自動サブポリシーズ発見は、サブポリシーズを生成するための有望なアプローチであるが、しかしながら、多様性の考慮の欠如や弱い正規化子の雇用のために、既存の方法に対処できない課題である。 本稿では,wasserstein diversity-enriched regularizer (wder) と呼ばれる新しいタスク非依存正規化器を提案する。 提案手法は, 提案手法の損失関数に容易に組み込むことにより, 性能をさらに向上させることができる。実験結果から, WDERは, ハイパーパラメータを変更することなく, 従来の作業と比較して性能と試料効率を向上し, WDERの適用性とロバスト性を示すことを示す。

Hierarchical reinforcement learning composites subpolicies in different hierarchies to accomplish complex tasks.Automated subpolicies discovery, which does not depend on domain knowledge, is a promising approach to generating subpolicies.However, the degradation problem is a challenge that existing methods can hardly deal with due to the lack of consideration of diversity or the employment of weak regularizers. In this paper, we propose a novel task-agnostic regularizer called the Wasserstein Diversity-Enriched Regularizer (WDER), which enlarges the diversity of subpolicies by maximizing the Wasserstein distances among action distributions. The proposed WDER can be easily incorporated into the loss function of existing methods to boost their performance further.Experimental results demonstrate that our WDER improves performance and sample efficiency in comparison with prior work without modifying hyperparameters, which indicates the applicability and robustness of the WDER.
翻訳日:2023-08-03 13:39:23 公開日:2023-08-02
# セマンティクスセグメンテーションのためのプレーンビジョントランスフォーマにおける動的トークンプルーニング

Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation ( http://arxiv.org/abs/2308.01045v1 )

ライセンス: Link先を確認
Quan Tang, Bowen Zhang, Jiajun Liu, Fagiu Liu, Yifan Liu(参考訳) 視覚トランスフォーマーは様々な視覚タスクで主要な性能を達成しているが、それでも高い計算複雑性に苦しんでいる。 セマンティクスセグメンテーションのような密集した予測タスクでは、高分解能の入力や出力が計算に関わるトークンを多く含んでいるため、状況は悪化する。 イメージ分類タスクでは、より注意の少ないトークンを直接削除することが議論されているが、パッチ毎に密な予測が必要となるため、セマンティックセグメンテーションに拡張することはできない。 この目的のために、セマンティックセグメンテーションのためのトークンの早期終了に基づく動的トークンプルーニング(DToP)手法を導入する。 そこで我々は,広く採用されている補助ロスネットワークアーキテクチャをいくつかの段階に分け,各補助ブロックがトークンの難易度をランク付けする。 前方通過を完了させることなく,前もって簡単なトークンの予測を確定することができる。 さらに、各セマンティクスカテゴリに対して、最も高い信頼度トークンをk$にして、代表的コンテキスト情報を保持する。 したがって、計算の複雑さは、人間のセグメンテーションのように、入力の難易度によって変化する。 提案するdtopアーキテクチャは,現在のセマンティクスセグメンテーション法における計算コストの平均20-% - 35-%を,精度劣化のないプレーンビジョントランスフォーマに基づいて削減することを提案している。

Vision transformers have achieved leading performance on various visual tasks yet still suffer from high computational complexity. The situation deteriorates in dense prediction tasks like semantic segmentation, as high-resolution inputs and outputs usually imply more tokens involved in computations. Directly removing the less attentive tokens has been discussed for the image classification task but can not be extended to semantic segmentation since a dense prediction is required for every patch. To this end, this work introduces a Dynamic Token Pruning (DToP) method based on the early exit of tokens for semantic segmentation. Motivated by the coarse-to-fine segmentation process by humans, we naturally split the widely adopted auxiliary-loss-based network architecture into several stages, where each auxiliary block grades every token's difficulty level. We can finalize the prediction of easy tokens in advance without completing the entire forward pass. Moreover, we keep $k$ highest confidence tokens for each semantic category to uphold the representative context information. Thus, computational complexity will change with the difficulty of the input, akin to the way humans do segmentation. Experiments suggest that the proposed DToP architecture reduces on average $20\% - 35\%$ of computational cost for current semantic segmentation methods based on plain vision transformers without accuracy degradation.
翻訳日:2023-08-03 13:31:34 公開日:2023-08-02
# 言語間通信を支援するチャット翻訳誤り検出

Chat Translation Error Detection for Assisting Cross-lingual Communications ( http://arxiv.org/abs/2308.01044v1 )

ライセンス: Link先を確認
Yunmeng Li, Jun Suzuki, Makoto Morishita, Kaori Abe, Ryoko Tokuhisa, Ana Brassard, Kentaro Inui(参考訳) 本稿では,現在の機械チャット翻訳手法の限界により,言語間通信を容易にするために,誤訳を検出する通信支援システムの開発について述べる。 システムのベースラインとしてエラー検出器を訓練し,クラウドソース品質評価を付加したマルチターン口語チャットからなる,日英バイリンガルチャットコーパス「bpersona-chat」を構築した。 エラー検出器は、より高度な誤訳検出システムの奨励基盤として機能する。

In this paper, we describe the development of a communication support system that detects erroneous translations to facilitate crosslingual communications due to the limitations of current machine chat translation methods. We trained an error detector as the baseline of the system and constructed a new Japanese-English bilingual chat corpus, BPersona-chat, which comprises multiturn colloquial chats augmented with crowdsourced quality ratings. The error detector can serve as an encouraging foundation for more advanced erroneous translation detection systems.
翻訳日:2023-08-03 13:31:11 公開日:2023-08-02
# WCCNet:マルチスペクトルペデストリアン検出のためのクロスモーダル再構成融合を用いたウェーブレット統合CNN

WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for Fast Multispectral Pedestrian Detection ( http://arxiv.org/abs/2308.01042v1 )

ライセンス: Link先を確認
Xingjian Wang, Li Chai, Jiming Chen, Zhiguo Shi(参考訳) マルチスペクトル歩行者検出は困難な状況下での視認性が向上し、精度と計算コストの両方が最重要となる様々なタスクに広く応用される。 既存のアプローチのほとんどはrgbと赤外線モダリティを等しく扱うが、一般的には2つの対称cnnバックボーンをマルチモーダル特徴抽出に採用しており、モダリティ間の実質的な差を無視し、計算コストの削減と効果的なクロスモーダル融合に大きな困難をもたらす。 本研究では,異なるスペクトルのリッチな特徴をより少ない計算量で抽出し,これらの特徴を効果的に相互モーダル融合のために意味的に再構成できるWCCNetというフレームワークを提案する。 具体的には、高速な推論とトレーニング速度を実現する離散ウェーブレット変換(DWT)を組み込んで、効率的な特徴抽出のためのデュアルストリームバックボーンを構築する。 WCCNetのDWT層は赤外線モードの周波数成分を抽出し、CNN層はRGBモードの空間領域特徴を抽出する。 この手法は計算複雑性を著しく低減するだけでなく、赤外線特徴の抽出を改善し、その後のクロスモーダル融合を促進する。 抽出された特徴に基づき,空間的不一致を緩和し,空間的関連領域の意味的に補完的な特徴をマージし,クロスモーダル補完情報を増幅するクロスモーダル再配置融合モジュール(cmrf)を精巧に設計する。 我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。 また, アブレーション研究を行い, wccnetの性能に及ぼす各種成分の影響を徹底的に解析した。

Multispectral pedestrian detection achieves better visibility in challenging conditions and thus has a broad application in various tasks, for which both the accuracy and computational cost are of paramount importance. Most existing approaches treat RGB and infrared modalities equally, typically adopting two symmetrical CNN backbones for multimodal feature extraction, which ignores the substantial differences between modalities and brings great difficulty for the reduction of the computational cost as well as effective crossmodal fusion. In this work, we propose a novel and efficient framework named WCCNet that is able to differentially extract rich features of different spectra with lower computational complexity and semantically rearranges these features for effective crossmodal fusion. Specifically, the discrete wavelet transform (DWT) allowing fast inference and training speed is embedded to construct a dual-stream backbone for efficient feature extraction. The DWT layers of WCCNet extract frequency components for infrared modality, while the CNN layers extract spatial-domain features for RGB modality. This methodology not only significantly reduces the computational complexity, but also improves the extraction of infrared features to facilitate the subsequent crossmodal fusion. Based on the well extracted features, we elaborately design the crossmodal rearranging fusion module (CMRF), which can mitigate spatial misalignment and merge semantically complementary features of spatially-related local regions to amplify the crossmodal complementary information. We conduct comprehensive evaluations on KAIST and FLIR benchmarks, in which WCCNet outperforms state-of-the-art methods with considerable computational efficiency and competitive accuracy. We also perform the ablation study and analyze thoroughly the impact of different components on the performance of WCCNet.
翻訳日:2023-08-03 13:31:03 公開日:2023-08-02
# 不均衡分布間の距離の計算 -- 平らなメートル法

Computing the Distance between unbalanced Distributions -- The flat Metric ( http://arxiv.org/abs/2308.01039v1 )

ライセンス: Link先を確認
Henri Schmidt and Christian D\"ull(参考訳) 任意の次元で平坦な計量を計算する実装を提供する。 平坦な計量、あるいは双対有界リプシッツ距離は、よく知られたワッサーシュタイン距離 W1 を、分布が不等質量である場合に一般化する。 これは、不均衡な最適輸送タスクや、サンプルサイズが重要か正規化が不可能であるデータ分布の解析において特に重要である。 この手法のコアはニューラルネットワークに基づいて、与えられた2つの測度間の距離を実現する最適なテスト関数を決定する。 独立に訓練されたネットワークからのペアワイズ計算距離のコンパラビリティの実現に特に焦点が当てられた。 基礎的真理が得られたいくつかの実験とシミュレーションデータを用いて,出力の質を検証した。

We provide an implementation to compute the flat metric in any dimension. The flat metric, also called dual bounded Lipschitz distance, generalizes the well-known Wasserstein distance W1 to the case that the distributions are of unequal total mass. This is of particular interest for unbalanced optimal transport tasks and for the analysis of data distributions where the sample size is important or normalization is not possible. The core of the method is based on a neural network to determine on optimal test function realizing the distance between two given measures. Special focus was put on achieving comparability of pairwise computed distances from independently trained networks. We tested the quality of the output in several experiments where ground truth was available as well as with simulated data.
翻訳日:2023-08-03 13:30:30 公開日:2023-08-02
# 衛星による自由空間QKDにおける各種損失下におけるQBERとキーレートの分析

Analysing QBER and secure key rate under various losses for satellite based free space QKD ( http://arxiv.org/abs/2308.01036v1 )

ライセンス: Link先を確認
Muskan, Ramniwas Meena, Subhashish Banerjee(参考訳) 量子鍵分散(quantum key distribution)は、qubitsを使用して、2つ以上の認証された参加者の間で、1回の暗号化鍵を安全に配布する鍵分散手法である。 本稿では,衛星による低軌道上のアップリンクとダウンリンクのためのBB84プロトコルとBBM92プロトコルとE91プロトコルの比較を行った。 量子ビット誤り率とキーレートの式は4つのプロトコルすべてに対して与えられる。 その結果、BB84プロトコルは、B92プロトコルと比較すると、特定の距離に対して高いセキュアなキーレートの分散を保証する。 同様に、BBM92はE91プロトコルと比較して高いキーレートを保証する。

Quantum Key Distribution is a key distribution method that uses the qubits to safely distribute one-time use encryption keys between two or more authorised participants in a way that ensures the identification of any eavesdropper. In this paper, we have done a comparison between the BB84 and B92 protocols and BBM92 and E91 entanglement based protocols for satellite based uplink and downlink in low Earth orbit. The expressions for the quantum bit error rate and the keyrate are given for all four protocols. The results indicate that, when compared to the B92 protocol, the BB84 protocol guarantees the distribution of a higher secure keyrate for a specific distance. Similarly, it is observed that BBM92 ensures higher keyrate in comparison with E91 protocol.
翻訳日:2023-08-03 13:30:16 公開日:2023-08-02
# TS-RGBDデータセット:視覚障害者のための演劇シーン記述のための新しいデータセット

TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for People with Visual Impairments ( http://arxiv.org/abs/2308.01035v1 )

ライセンス: Link先を確認
Leyla Benhamida and Khadidja Delloul and Slimane Larabi(参考訳) コンピュータビジョンは長い間、視覚障害者が自分の環境を動き回り、障害物や転倒を避けるためのツールだった。 ソリューションは屋内または屋外のシーンに限られており、劇場などの娯楽施設を含む視覚障害者が参加できる場所やシーンの種類を制限している。 さらに,提案手法の多くはrgbベンチマークを用いてモデルのトレーニングを行い,奥行きモダリティの欠如により性能が制限された。 本稿では,映像キャプションとヒューマンアクション認識のための高密なキャプションアノテーションを含む演劇シーンを含む新しいrgb-dデータセットであるts-rgbdデータセットを提案する。 RGB、ディープ、スケルトンシーケンスという3種類のデータが含まれており、Microsoft Kinectによってキャプチャされる。 映像キャプションモデルと骨格に基づく人間の行動認識モデルを用いて,視覚障害者が扱える環境の種類の範囲を拡大し,劇場シーンにおける関心領域の出現をテキストで記述することにより,画像キャプションモデルをテストする。

Computer vision was long a tool used for aiding visually impaired people to move around their environment and avoid obstacles and falls. Solutions are limited to either indoor or outdoor scenes, which limits the kind of places and scenes visually disabled people can be in, including entertainment places such as theatres. Furthermore, most of the proposed computer-vision-based methods rely on RGB benchmarks to train their models resulting in a limited performance due to the absence of the depth modality. In this paper, we propose a novel RGB-D dataset containing theatre scenes with ground truth human actions and dense captions annotations for image captioning and human action recognition: TS-RGBD dataset. It includes three types of data: RGB, depth, and skeleton sequences, captured by Microsoft Kinect. We test image captioning models on our dataset as well as some skeleton-based human action recognition models in order to extend the range of environment types where a visually disabled person can be, by detecting human actions and textually describing appearances of regions of interest in theatre scenes.
翻訳日:2023-08-03 13:30:03 公開日:2023-08-02
# アウトオブディストリビューション検出を改善する3つの要因

Three Factors to Improve Out-of-Distribution Detection ( http://arxiv.org/abs/2308.01030v1 )

ライセンス: Link先を確認
Hyunjun Choi, JaeHo Chung, Hawook Jeong, Jin Young Choi(参考訳) out-of-distribution (ood) 検出の問題では, 微調整のための異常データとしての補助データの利用が有益であった。 しかし,従来の手法は分類精度(ACC)とOOD検出性能(AUROC,FPR,AUPR)のトレードオフに悩まされている。 このトレードオフを改善するために、私たちは3つの貢献をします。 (i)自己認識蒸留損失を組み込むことで、ネットワークの精度を高めることができる。 二 訓練用半硬外乱データをサンプリングすることにより、精度に最小限の影響でOOD検出性能を向上させることができる。 3)新しい教師付きコントラスト学習の導入は,OOD検出性能とネットワークの精度を同時に向上させることができる。 これら3つの要因をすべて取り入れることで,分類とOOD検出のトレードオフに対処し,精度とOOD検出性能の両立を図る。 本手法は,従来の手法よりも性能指標が向上する。

In the problem of out-of-distribution (OOD) detection, the usage of auxiliary data as outlier data for fine-tuning has demonstrated encouraging performance. However, previous methods have suffered from a trade-off between classification accuracy (ACC) and OOD detection performance (AUROC, FPR, AUPR). To improve this trade-off, we make three contributions: (i) Incorporating a self-knowledge distillation loss can enhance the accuracy of the network; (ii) Sampling semi-hard outlier data for training can improve OOD detection performance with minimal impact on accuracy; (iii) The introduction of our novel supervised contrastive learning can simultaneously improve OOD detection performance and the accuracy of the network. By incorporating all three factors, our approach enhances both accuracy and OOD detection performance by addressing the trade-off between classification and OOD detection. Our method achieves improvements over previous approaches in both performance metrics.
翻訳日:2023-08-03 13:29:44 公開日:2023-08-02
# 非定常バンディットを用いた支払いルーティングの成功率の最大化

Maximizing Success Rate of Payment Routing using Non-stationary Bandits ( http://arxiv.org/abs/2308.01028v1 )

ライセンス: Link先を確認
Aayush Chaudhary, Abhinav Rai, Abhishek Gupta(参考訳) 本稿では、近年の取引履歴に基づいて、ほぼ最適の支払いルーティングポリシーを決定するために、非定常的マルチアームバンディットアプローチの設計と展開について論じる。 そこで本稿では,PCI DSS(Payment Card Industry Data Security Standard)によるシステム設計要件とエコシステム制約に準拠して,帯域幅ベースの支払いルーティングを毎秒10000トランザクションに最適にスケールアップする,新しいRayベースのルーティングサービスアーキテクチャを提案する。 まず、カスタムシミュレータ上で複数のbanditベースの支払いルーティングアルゴリズムの有効性を評価し、非定常banditアプローチをベンチマークし、最適なハイパーパラメータを特定する。 次に、ファンタジースポーツプラットフォームdream11上で支払い取引システムに関する実演実験を行った。 実演実験では,我々の非定常帯域ベースアルゴリズムは従来のルールベース手法と比較して,トランザクションの成功率を0.92 %改善することを示した。

This paper discusses the system architecture design and deployment of non-stationary multi-armed bandit approaches to determine a near-optimal payment routing policy based on the recent history of transactions. We propose a Routing Service architecture using a novel Ray-based implementation for optimally scaling bandit-based payment routing to over 10000 transactions per second, adhering to the system design requirements and ecosystem constraints with Payment Card Industry Data Security Standard (PCI DSS). We first evaluate the effectiveness of multiple bandit-based payment routing algorithms on a custom simulator to benchmark multiple non-stationary bandit approaches and identify the best hyperparameters. We then conducted live experiments on the payment transaction system on a fantasy sports platform Dream11. In the live experiments, we demonstrated that our non-stationary bandit-based algorithm consistently improves the success rate of transactions by 0.92\% compared to the traditional rule-based methods over one month.
翻訳日:2023-08-03 13:29:29 公開日:2023-08-02
# デュアルマトリックスドメインウォール:QUBOとIsingモデルによる2次元サイズによる置換生成の新手法

Dual-Matrix Domain-Wall: A Novel Technique for Generating Permutations by QUBO and Ising Models with Quadratic Sizes ( http://arxiv.org/abs/2308.01024v1 )

ライセンス: Link先を確認
Koji Nakano and Shunsuke Tsukiyama and Yasuaki Ito and Takashi Yazane and Junko Yano and Takumi Kato and Shiro Ozaki and Rie Mori and Ryota Katsuki(参考訳) イジングモデルは、量子ビット変数の二次公式を用いて目的関数によって定義される。 イジングモデルの問題は、目的関数を最小化する変数のキュービット値を決定することを目的としており、多くの最適化問題をこの問題に還元することができる。 本稿では,$nから最適な置換を見つけることを目的として,置換に関連する最適化問題に着目する。 可能な$n$要素の置換。 これらの問題をIsingモデルとして表現するために、一般的なアプローチは、シングルホットエンコーディングを使用したカーネルを使用して、$n!のどれかを見つけることである。 最適な解決策として$ permutations。 しかし、このカーネルには多くの二次項と高い絶対係数値が含まれている。 この論文の主な貢献は、双対行列型ドメイン壁と呼ばれる新しい置換符号化技術の導入であり、二次項の数と核内の最大絶対係数値を著しく削減している。 驚くべきことに、デュアルマトリックスのドメインウォールエンコーディングは、二次項数と最大絶対係数をそれぞれ$n^3-n^2$と$n-4$から$6n^2-12n+4$と$2$に削減する。 また、部分置換と準非制約バイナリ最適化(QUBO)モデルへの符号化手法の適用性を実証する。 さらに、Ising/QUBOモデルを用いて効率よく実装できる置換問題のファミリーと、ドメインウォールの二重行列符号化について論じる。

The Ising model is defined by an objective function using a quadratic formula of qubit variables. The problem of an Ising model aims to determine the qubit values of the variables that minimize the objective function, and many optimization problems can be reduced to this problem. In this paper, we focus on optimization problems related to permutations, where the goal is to find the optimal permutation out of the $n!$ possible permutations of $n$ elements. To represent these problems as Ising models, a commonly employed approach is to use a kernel that utilizes one-hot encoding to find any one of the $n!$ permutations as the optimal solution. However, this kernel contains a large number of quadratic terms and high absolute coefficient values. The main contribution of this paper is the introduction of a novel permutation encoding technique called dual-matrix domain-wall, which significantly reduces the number of quadratic terms and the maximum absolute coefficient values in the kernel. Surprisingly, our dual-matrix domain-wall encoding reduces the quadratic term count and maximum absolute coefficient values from $n^3-n^2$ and $2n-4$ to $6n^2-12n+4$ and $2$, respectively. We also demonstrate the applicability of our encoding technique to partial permutations and Quadratic Unconstrained Binary Optimization (QUBO) models. Furthermore, we discuss a family of permutation problems that can be efficiently implemented using Ising/QUBO models with our dual-matrix domain-wall encoding.
翻訳日:2023-08-03 13:29:14 公開日:2023-08-02
# ヒルベルト空間の規則的変動と機能エクストリームの主成分分析

Regular Variation in Hilbert Spaces and Principal Component Analysis for Functional Extremes ( http://arxiv.org/abs/2308.01023v1 )

ライセンス: Link先を確認
Stephan Cl\'emen\c{c}on, Nathan Huet, Anne Sabourin(参考訳) 関数の性質データの増加に動機づけられた我々は、定期的に変化するランダム要素の極値に対する一般的な確率的および統計的フレームワークを、$L^2[0,1]$で$X$で開発する。 我々は、関数極端を観測値 $x$ として定義し、その$l^2$-norm $\|x\|$ が比較的大きいピーク・オーバー・スレッショルド・フレームワークに自分自身を配置する。 我々は,このような極端な観測のために,有限次元射影を生じさせる次元縮小フレームワークを提案する。 私たちの貢献は倍です。 まず、一般的な分離可能なヒルベルト空間において値付けられた乱数に対する正規変分の概念を考察し、実数値変数の確率収束のみを含む新しい具体的な特徴付けを提案する。 次に,機能的極端の「方向」を考慮した機能的主成分分析(PCA)の概念を提案する。 有限標本サイズの推定誤差のヒルベルト・シュミットノルムを上界にすることで、極関数の角成分の経験的共分散作用素の統計的性質を調べる。 シミュレーションと実データによる数値実験はこの研究を説明している。

Motivated by the increasing availability of data of functional nature, we develop a general probabilistic and statistical framework for extremes of regularly varying random elements $X$ in $L^2[0,1]$. We place ourselves in a Peaks-Over-Threshold framework where a functional extreme is defined as an observation $X$ whose $L^2$-norm $\|X\|$ is comparatively large. Our goal is to propose a dimension reduction framework resulting into finite dimensional projections for such extreme observations. Our contribution is double. First, we investigate the notion of Regular Variation for random quantities valued in a general separable Hilbert space, for which we propose a novel concrete characterization involving solely stochastic convergence of real-valued random variables. Second, we propose a notion of functional Principal Component Analysis (PCA) accounting for the principal `directions' of functional extremes. We investigate the statistical properties of the empirical covariance operator of the angular component of extreme functions, by upper-bounding the Hilbert-Schmidt norm of the estimation error for finite sample sizes. Numerical experiments with simulated and real data illustrate this work.
翻訳日:2023-08-03 13:28:46 公開日:2023-08-02
# 量子太陽モデルにおける多体運動エッジ

Many-Body Mobility Edge in Quantum Sun models ( http://arxiv.org/abs/2308.01073v1 )

ライセンス: Link先を確認
Konrad Pawlik, Piotr Sierant, Lev Vidmar, and Jakub Zakrzewski(参考訳) 0次元量子太陽モデル(英: Quantum Sun model)は、エルゴディディティ破壊相転移の鋭いシグネチャを示す相互作用モデルである。 ここでは,モデルが多体移動エッジを示すことを示す。 我々はその存在を解析的に論じ、現状の数値シミュレーションを補完する。 また、粒子数保存を伴う0次元量子太陽モデルも導入し、制約のない前者と多くの類似点を共有していると論じる。

The 0-dimensional Quantum Sun model is an interacting model that exhibits sharp signatures of ergodicity breaking phase transition. Here, we show that the model exhibits a many-body mobility edge. We provide analytical arguments for its existence, complemented by the state-of-the-art numerical simulations. We also introduce the 0-dimensional Quantum Sun model with particle number conservation, and we argue that it shares many similarities with his unrestricted predecessor.
翻訳日:2023-08-03 13:23:34 公開日:2023-08-02
# 時系列分類のための自動特徴工学:評価と考察

Automatic Feature Engineering for Time Series Classification: Evaluation and Discussion ( http://arxiv.org/abs/2308.01071v1 )

ライセンス: Link先を確認
Aur\'elien Renault and Alexis Bondu and Vincent Lemaire and Dominique Gay(参考訳) 時系列分類(TSC)は過去20年間に多くの注目を集めており、データサイエンスと知識工学において依然として重要かつ困難な問題である。 実際、時系列データの可用性の高まりとともに、多くのtscアルゴリズムが文献で研究コミュニティから提案されている。 類似度尺度、間隔、シェープレット、辞書、ディープラーニング法、ハイブリッドアンサンブル法に基づく最先端手法の他に、教師なしのインフォメーション要約統計、別名特徴を時系列から抽出するためのいくつかのツールが近年設計されている。 元々は、情報的かつ解釈可能な特徴を持つ時系列の記述分析と可視化のために設計されたが、これらの機能工学ツールのほとんどがtsc問題に対してベンチマークされ、予測性能の観点からは最先端のtscアルゴリズムと比較されている。 本稿では、このギャップを埋め、既存の機能工学ツールで得られた機能セットの潜在的な予測性能を評価するための単純なtscプロセスを提案する。 そこで本研究では,11個の特徴工学ツールに9個の教師付き分類器を112個の時系列データセットに分岐させた実験的な研究を行う。 10000以上の学習実験の結果から,現在最先端のTSCアルゴリズムと同程度の精度で特徴ベースの手法が動作していることが示唆された。

Time Series Classification (TSC) has received much attention in the past two decades and is still a crucial and challenging problem in data science and knowledge engineering. Indeed, along with the increasing availability of time series data, many TSC algorithms have been suggested by the research community in the literature. Besides state-of-the-art methods based on similarity measures, intervals, shapelets, dictionaries, deep learning methods or hybrid ensemble methods, several tools for extracting unsupervised informative summary statistics, aka features, from time series have been designed in the recent years. Originally designed for descriptive analysis and visualization of time series with informative and interpretable features, very few of these feature engineering tools have been benchmarked for TSC problems and compared with state-of-the-art TSC algorithms in terms of predictive performance. In this article, we aim at filling this gap and propose a simple TSC process to evaluate the potential predictive performance of the feature sets obtained with existing feature engineering tools. Thus, we present an empirical study of 11 feature engineering tools branched with 9 supervised classifiers over 112 time series data sets. The analysis of the results of more than 10000 learning experiments indicate that feature-based methods perform as accurately as current state-of-the-art TSC algorithms, and thus should rightfully be considered further in the TSC literature.
翻訳日:2023-08-03 13:23:27 公開日:2023-08-02
# adaboost コードの解析的解析法

When Analytic Calculus Cracks AdaBoost Code ( http://arxiv.org/abs/2308.01070v1 )

ライセンス: Link先を確認
Jean-Marc Brossier, Olivier Lafitte, Lenny R\'ethor\'e(参考訳) 教師付き学習の原則は、複数の弱い分類器を結合してより強い分類器を得ることである。 AdaBoostはこのアプローチの完璧な例と評価されている。 我々は以前、AdaBoostは真の最適化アルゴリズムではないことを示した。 本稿では,弱分類器の組み合わせは真理表を用いて明示的に計算できるため,adaboost は名称のみのアルゴリズムであることを示す。 本研究は,2つのクラスによる問題を考慮し,3つのバイナリ分類器の特定の場合を例示し,pythonライブラリであるscikit-learnのadaboostアルゴリズムの実装結果との比較を行った。

The principle of boosting in supervised learning involves combining multiple weak classifiers to obtain a stronger classifier. AdaBoost has the reputation to be a perfect example of this approach. We have previously shown that AdaBoost is not truly an optimization algorithm. This paper shows that AdaBoost is an algorithm in name only, as the resulting combination of weak classifiers can be explicitly calculated using a truth table. This study is carried out by considering a problem with two classes and is illustrated by the particular case of three binary classifiers and presents results in comparison with those from the implementation of AdaBoost algorithm of the Python library scikit-learn.
翻訳日:2023-08-03 13:23:03 公開日:2023-08-02
# ニューラルネットワーク符号化変分量子アルゴリズム

Neural network encoded variational quantum algorithms ( http://arxiv.org/abs/2308.01068v1 )

ライセンス: Link先を確認
Jiaqi Miao, Chang-Yu Hsieh and Shi-Xin Zhang(参考訳) 本稿では、雑音の多い中間規模量子(NISQ)コンピュータ上でVQAを実装する際の課題に対処するため、ニューラルネットワーク(NN)符号化変分量子アルゴリズム(VQA)または略してNN-VQAという一般的なフレームワークを導入する。 具体的には、NN-VQAは与えられた問題からニューラルネットワークに入力(ハミルトンのパラメータなど)を供給し、その出力を使用して標準VQAのアンサッツ回路をパラメータ化する。 NNとパラメータ化量子回路の強度を組み合わせることで、NN-VQAはVQAのトレーニングプロセスを劇的に加速し、事前訓練されたNNと異なる入力パラメータで幅広い問題に対処することができる。 NN-VQAの利点を具体的に説明するために,パラメータ化されたXXZスピンモデルの基底状態を解決するため,NN偏差量子固有解器(VQE)について報告する。 その結果、NN-VQEはパラメータ化ハミルトンの基底状態エネルギーを微調整なしで高精度に推定でき、XXZハミルトンの位相にわたって基底状態特性を推定するための総合的なトレーニングコストを大幅に削減できることを示した。 また,予測精度を維持しつつトレーニング効率を高めるために,アクティブラーニング戦略を採用している。 これらの奨励的な結果は、NN-VQAsが、より現実的で困難な計算問題を解くために、NISQリソースを利用するための新しいハイブリッド量子古典パラダイムを提供することを示している。

We introduce a general framework called neural network (NN) encoded variational quantum algorithms (VQAs), or NN-VQA for short, to address the challenges of implementing VQAs on noisy intermediate-scale quantum (NISQ) computers. Specifically, NN-VQA feeds input (such as parameters of a Hamiltonian) from a given problem to a neural network and uses its outputs to parameterize an ansatz circuit for the standard VQA. Combining the strengths of NN and parameterized quantum circuits, NN-VQA can dramatically accelerate the training process of VQAs and handle a broad family of related problems with varying input parameters with the pre-trained NN. To concretely illustrate the merits of NN-VQA, we present results on NN-variational quantum eigensolver (VQE) for solving the ground state of parameterized XXZ spin models. Our results demonstrate that NN-VQE is able to estimate the ground-state energies of parameterized Hamiltonians with high precision without fine-tuning, and significantly reduce the overall training cost to estimate ground-state properties across the phases of XXZ Hamiltonian. We also employ an active-learning strategy to further increase the training efficiency while maintaining prediction accuracy. These encouraging results demonstrate that NN-VQAs offer a new hybrid quantum-classical paradigm to utilize NISQ resources for solving more realistic and challenging computational problems.
翻訳日:2023-08-03 13:22:47 公開日:2023-08-02
# 企業におけるSIEM導入への適応的アプローチ

An Adaptable Approach for Successful SIEM Adoption in Companies ( http://arxiv.org/abs/2308.01065v1 )

ライセンス: Link先を確認
Maximilian Rosenberg, Bettina Schneider, Christopher Scherb, Petra Maria Asprion(参考訳) 世界中の企業では、サイバー攻撃の数が増え続けるにつれて、サイバーセキュリティと情報セキュリティの話題がますます重要になっている。 今日ではもはや、サイバー攻撃に対する保護の問題ではなく、そのような攻撃を早期に検出し、それに応じて対応するのではなくなっている。 現在、SIEM(Security Information and Event Management)システムの実装には一般的な方法論的アプローチがなく、学術的な側面を考慮に入れ、システムの製品や開発者とは独立して適用することができる。 本稿では,Hevnerの設計科学研究アプローチを適用し,企業における各SIEMシステムを実装するための総合的な手続きモデルを開発することを目的とする。 検証期間中の研究によると, 手順モデルの適用性が確認された。 今後の研究の目的として、様々な企業における実施プロジェクトにおいて、その適用性と完全性を分析するための手順モデルを適用すべきである。

In corporations around the world, the topic of cybersecurity and information security is becoming increasingly important as the number of cyberattacks on themselves continues to grow. Nowadays, it is no longer just a matter of protecting against cyberattacks, but rather of detecting such attacks at an early stage and responding accordingly. There is currently no generic methodological approach for the implementation of Security Information and Event Management (SIEM) systems that takes academic aspects into account and can be applied independently of the product or developers of the systems. Applying Hevner's design science research approach, the goal of this paper is to develop a holistic procedure model for implementing respective SIEM systems in corporations. According to the study during the validation phase, the procedure model was verified to be applicable. As desire for future research, the procedure model should be applied in various implementation projects in different enterprises to analyze its applicability and completeness.
翻訳日:2023-08-03 13:22:01 公開日:2023-08-02
# グループレベルでのグラフ異常検出:トポロジーパターンによる教師なしアプローチ

Graph Anomaly Detection at Group Level: A Topology Pattern Enhanced Unsupervised Approach ( http://arxiv.org/abs/2308.01063v1 )

ライセンス: Link先を確認
Xing Ai, Jialong Zhou, Yulin Zhu, Gaolei Li, Tomasz P. Michalak, Xiapu Luo, Kai Zhou(参考訳) グラフ異常検出(gad)は成功し、不正検出、サイバーセキュリティ、金融セキュリティ、生化学など様々な分野に広く適用されている。 しかし、既存のグラフ異常検出アルゴリズムは個々のエンティティ(ノードやグラフ)の識別に重点を置いており、グラフ内の異常なグループの可能性を見落としている。 本稿では,グループレベルグラフ異常検出(Gr-GAD)と呼ばれる新しいタスクのための,教師なしフレームワークを提案する。 提案フレームワークはまず,長距離不整合を捕捉して潜在的な異常グループに属するアンカーノードを特定するために,グラフオートエンコーダ(GAE)の変種を用いる。 その後、グループサンプリングをサンプル候補グループに適用し、提案したTopology Pattern-based Graph Contrastive Learning(TPGCL)手法に入力する。 tpgclはグループのトポロジーパターンを手がかりとして、それぞれの候補群と異なる異常群への埋め込みを生成する。 実世界のデータセットと合成データセットの両方の実験結果から,提案フレームワークは異常群を同定および局所化する上で優れた性能を示し,Gr-GADの有望な解であることが示された。 提案されたフレームワークのデータセットとコードはgithubリポジトリhttps://anonymous.4open.science/r/Topology-Pattern-Enhanced-Unsupervised-Group-Anomaly-Detectionにある。

Graph anomaly detection (GAD) has achieved success and has been widely applied in various domains, such as fraud detection, cybersecurity, finance security, and biochemistry. However, existing graph anomaly detection algorithms focus on distinguishing individual entities (nodes or graphs) and overlook the possibility of anomalous groups within the graph. To address this limitation, this paper introduces a novel unsupervised framework for a new task called Group-level Graph Anomaly Detection (Gr-GAD). The proposed framework first employs a variant of Graph AutoEncoder (GAE) to locate anchor nodes that belong to potential anomaly groups by capturing long-range inconsistencies. Subsequently, group sampling is employed to sample candidate groups, which are then fed into the proposed Topology Pattern-based Graph Contrastive Learning (TPGCL) method. TPGCL utilizes the topology patterns of groups as clues to generate embeddings for each candidate group and thus distinct anomaly groups. The experimental results on both real-world and synthetic datasets demonstrate that the proposed framework shows superior performance in identifying and localizing anomaly groups, highlighting it as a promising solution for Gr-GAD. Datasets and codes of the proposed framework are at the github repository https://anonymous.4open.science/r/Topology-Pattern-Enhanced-Unsupervised-Group-level-Graph-Anomaly-D etection.
翻訳日:2023-08-03 13:21:28 公開日:2023-08-02
# 水中位置認識のための合成訓練ソナー画像記述子の一般化

Improving Generalization of Synthetically Trained Sonar Image Descriptors for Underwater Place Recognition ( http://arxiv.org/abs/2308.01058v1 )

ライセンス: Link先を確認
Ivano Donadi, Emilio Olivastri, Daniel Fusaro, Wanmeng Li, Daniele Evangelista, and Alberto Pretto(参考訳) 水中環境における自律航法は、光吸収や水濁度などの要因により、光学センサーの有効性を制限している。 ソナーシステムは、これらの制限の影響を受けないため、水中操作の知覚に一般的に使用される。 従来のコンピュータビジョンアルゴリズムはソナー生成音響画像に適用しても効果が低いが、畳み込みニューラルネットワーク(CNN)は通常、しばしば入手できない、あるいは取得が難しい大量のラベル付きトレーニングデータを必要とする。 そこで本研究では,合成データのみを訓練しながら実シナリオに一般化可能な,コンパクトなディープソナー記述回路を提案する。 我々のアーキテクチャはResNet18バックエンドと適切にパラメータ化されたランダムガウス射影層に基づいており、入力ソナーデータは標準のアドホック正規化/プリフィルタ技術で拡張されている。 また、カスタマイズされた合成データ生成手順も提示する。 提案手法は合成実データと公開実データの両方を用いて広く評価され,最新手法と比較して有効性を示している。

Autonomous navigation in underwater environments presents challenges due to factors such as light absorption and water turbidity, limiting the effectiveness of optical sensors. Sonar systems are commonly used for perception in underwater operations as they are unaffected by these limitations. Traditional computer vision algorithms are less effective when applied to sonar-generated acoustic images, while convolutional neural networks (CNNs) typically require large amounts of labeled training data that are often unavailable or difficult to acquire. To this end, we propose a novel compact deep sonar descriptor pipeline that can generalize to real scenarios while being trained exclusively on synthetic data. Our architecture is based on a ResNet18 back-end and a properly parameterized random Gaussian projection layer, whereas input sonar data is enhanced with standard ad-hoc normalization/prefiltering techniques. A customized synthetic data generation procedure is also presented. The proposed method has been evaluated extensively using both synthetic and publicly available real data, demonstrating its effectiveness compared to state-of-the-art methods.
翻訳日:2023-08-03 13:20:49 公開日:2023-08-02
# mammodg: 一般的なディープラーニングは、クロスドメイン多施設乳癌検診の限界を破る

MammoDG: Generalisable Deep Learning Breaks the Limits of Cross-Domain Multi-Center Breast Cancer Screening ( http://arxiv.org/abs/2308.01057v1 )

ライセンス: Link先を確認
Yijun Yang, Shujun Wang, Lihao Liu, Sarah Hickman, Fiona J Gilbert, Carola-Bibiane Sch\"onlieb, Angelica I. Aviles-Rivero(参考訳) 乳癌は女性のがん死の主要な原因であり、早期発見が治療成績の改善と生活の質の向上に重要であることを強調している。 一次診断画像検査であるマンモグラフィは, 乳房x線写真において高い変動率とパターンが問題となる。 多くの検診プログラムではマンモグラムの二重読影が推奨され、診断精度は向上するが、放射線医の作業負荷は増大する。 研究者は専門家の意思決定をサポートするために機械学習モデルを探る。 スタンドアローンモデルは放射線学者に匹敵するあるいは優れた性能を示したが、複数のデータセットに対する感度が低下し、高一般化とロバストネスモデルの必要性が示唆された研究もある。 この研究は、クロスドメインマルチセンターマンモグラフィーデータの一般化可能で信頼性の高い解析のための新しいディープラーニングフレームワークであるMammoDGを考案した。 MammoDGは多視点マンモグラムと新しいコントラスト機構を活用して一般化能力を高める。 拡張的検証は、MammoDGの優位性を示し、イメージングプロトコルのバリエーションにおける信頼できるマンモグラフィー解析における領域一般化の重要性を強調している。

Breast cancer is a major cause of cancer death among women, emphasising the importance of early detection for improved treatment outcomes and quality of life. Mammography, the primary diagnostic imaging test, poses challenges due to the high variability and patterns in mammograms. Double reading of mammograms is recommended in many screening programs to improve diagnostic accuracy but increases radiologists' workload. Researchers explore Machine Learning models to support expert decision-making. Stand-alone models have shown comparable or superior performance to radiologists, but some studies note decreased sensitivity with multiple datasets, indicating the need for high generalisation and robustness models. This work devises MammoDG, a novel deep-learning framework for generalisable and reliable analysis of cross-domain multi-center mammography data. MammoDG leverages multi-view mammograms and a novel contrastive mechanism to enhance generalisation capabilities. Extensive validation demonstrates MammoDG's superiority, highlighting the critical importance of domain generalisation for trustworthy mammography analysis in imaging protocol variations.
翻訳日:2023-08-03 13:20:29 公開日:2023-08-02
# 逐次的ニューラルネットワーク推定を用いたシミュレーションベース推論

Simulation-based inference using surjective sequential neural likelihood estimation ( http://arxiv.org/abs/2308.01054v1 )

ライセンス: Link先を確認
Simon Dirmeier, Carlo Albert, Fernando Perez-Cruz(参考訳) 本稿では,確率関数の抽出が不可能なモデルにおけるシミュレーションに基づく推論手法であるSurjective Sequential Neural Likelihood (SSNL) の推定について述べる。 SSNL は次元還元型全単射正規化フローモデルに適合し、マルコフ連鎖モンテカルロ法または変分推論を用いて従来のベイズ推定を可能にする代理可能性関数として用いる。 低次元空間にデータを埋め込むことで、ssnlは、例えば、非インフォーマティブなデータ次元を含む高次元データセットに適用される場合や、低次元多様体に沿って横たわる場合、以前の可能性ベース手法が抱えるいくつかの問題を解決する。 例えば、太陽ダイナモモデルを用いて太陽の磁場強度をモデル化する天体物理学からの挑戦的な実世界の例において、シミュレーションベースの推論で用いられる同時代の手法よりも一般的に優れていることを示す。

We present Surjective Sequential Neural Likelihood (SSNL) estimation, a novel method for simulation-based inference in models where the evaluation of the likelihood function is not tractable and only a simulator that can generate synthetic data is available. SSNL fits a dimensionality-reducing surjective normalizing flow model and uses it as a surrogate likelihood function which allows for conventional Bayesian inference using either Markov chain Monte Carlo methods or variational inference. By embedding the data in a low-dimensional space, SSNL solves several issues previous likelihood-based methods had when applied to high-dimensional data sets that, for instance, contain non-informative data dimensions or lie along a lower-dimensional manifold. We evaluate SSNL on a wide variety of experiments and show that it generally outperforms contemporary methods used in simulation-based inference, for instance, on a challenging real-world example from astrophysics which models the magnetic field strength of the sun using a solar dynamo model.
翻訳日:2023-08-03 13:20:11 公開日:2023-08-02
# 自動運転車の危険度評価における反事実的安全マージンの視点

A Counterfactual Safety Margin Perspective on the Scoring of Autonomous Vehicles' Riskiness ( http://arxiv.org/abs/2308.01050v1 )

ライセンス: Link先を確認
Alessandro Zanardi, Andrea Censi, Margherita Atzei, Luigi Di Lillo, Emilio Frazzoli(参考訳) 自動運転車(AV)は、道路事故の減少や全体の輸送効率の向上など、多くの社会的利益をもたらす可能性がある。 しかし、歴史データの欠如と急速に進化する技術のために、AVに関連するリスクの定量化は困難である。 本稿では,道路利用者の非現実的シミュレーションに基づいて,様々な運用設計ドメイン(odd)における異なるavs行動のリスクを比較するためのデータ駆動フレームワークを提案する。 本稿では,衝突につながる可能性のある通常の行動から最小限の偏差を示す,対物的安全マージンの概念を紹介する。 この概念は、最も重要なシナリオを見つけるだけでなく、avのリスクの頻度と深刻度を評価するのに役立つ。 提案手法は,AVの行動方針が不明な場合においても,最悪の場合や最良事例の分析を通じて適用可能であることを示し,外部の第三者のリスク評価にも有用であることを示す。 実験の結果, 安全マージン, 運転方針品質およびODDシーディングの相関が, 異なるAVプロバイダの相対リスクに与える影響を示唆した。 この研究は、この新興技術を取り巻く立法・保険問題に対処するためのAVの安全性評価と支援に貢献する。

Autonomous Vehicles (AVs) have the potential to provide numerous societal benefits, such as decreased road accidents and increased overall transportation efficiency. However, quantifying the risk associated with AVs is challenging due to the lack of historical data and the rapidly evolving technology. This paper presents a data-driven framework for comparing the risk of different AVs' behaviors in various operational design domains (ODDs), based on counterfactual simulations of "misbehaving" road users. We introduce the concept of counterfactual safety margin, which represents the minimum deviation from normal behavior that could lead to a collision. This concept helps to find the most critical scenarios but also to assess the frequency and severity of risk of AVs. We show that the proposed methodology is applicable even when the AV's behavioral policy is unknown -- through worst- and best-case analyses -- making the method useful also to external third-party risk assessors. Our experimental results demonstrate the correlation between the safety margin, the driving policy quality, and the ODD shedding light on the relative risk associated with different AV providers. This work contributes to AV safety assessment and aids in addressing legislative and insurance concerns surrounding this emerging technology.
翻訳日:2023-08-03 13:19:51 公開日:2023-08-02
# JD広告検索におけるマルチエキスパート知識凝縮を用いたクエリ分類の改善に向けて

Towards Better Query Classification with Multi-Expert Knowledge Condensation in JD Ads Search ( http://arxiv.org/abs/2308.01098v1 )

ライセンス: Link先を確認
Kun-Peng Ning, Ming Pang, Zheng Fang, Xue Jiang, Xi-Wei Zhao, Chang-Ping Peng, Zhan-Gang Lin, Jing-He Hu, Jing-Ping Shao(参考訳) 検索クエリ分類は、ユーザの意図を理解する効果的な方法であり、実際のオンライン広告システムにおいて非常に重要である。 低レイテンシを確保するために、浅いモデル(例えばFastText)が効率的なオンライン推論に広く使われている。 しかし、fasttextモデルの表現能力は不十分であり、特に低頻度クエリや尾付きカテゴリでは分類性能が低下する。 より深く複雑なモデル(bertなど)を使用することは効果的なソリューションだが、オンライン推論の遅延が増加し、計算コストが高くなる。 したがって、推論効率と分類性能の両方をジャグリングする方法は明らかに極めて重要である。 本稿では,この課題を克服するために,オンライン高速テキストモデルの厳密な低レイテンシ制約下での分類性能を向上させるための,単純かつ効果的な知識蒸留フレームワークである知識凝縮(kc)を提案する。 具体的には、より関連性の高いデータを取得するために、オフラインのBERTモデルをトレーニングすることを提案する。 強力なセマンティック表現から恩恵を受けることで、過去のデータに公開されていない関連性の高いラベルがトレーニングセットに追加され、FastTextモデルのトレーニングが改善される。 さらに, 関係データのマイニング能力の向上を図るため, 分散分散多元学習戦略を提案する。 異なるデータ分布から複数のbertモデルをトレーニングすることで、それぞれ、ハイ、ミドル、低周波の検索クエリでパフォーマンスが向上する。 マルチディストリビューションからのモデルアンサンブルにより、その検索能力はより強力になる。 我々はこのフレームワークの2つのバージョンをJD検索にデプロイし、オフライン実験と複数のデータセットからのオンラインA/Bテストの両方で提案手法の有効性を検証した。

Search query classification, as an effective way to understand user intents, is of great importance in real-world online ads systems. To ensure a lower latency, a shallow model (e.g. FastText) is widely used for efficient online inference. However, the representation ability of the FastText model is insufficient, resulting in poor classification performance, especially on some low-frequency queries and tailed categories. Using a deeper and more complex model (e.g. BERT) is an effective solution, but it will cause a higher online inference latency and more expensive computing costs. Thus, how to juggle both inference efficiency and classification performance is obviously of great practical importance. To overcome this challenge, in this paper, we propose knowledge condensation (KC), a simple yet effective knowledge distillation framework to boost the classification performance of the online FastText model under strict low latency constraints. Specifically, we propose to train an offline BERT model to retrieve more potentially relevant data. Benefiting from its powerful semantic representation, more relevant labels not exposed in the historical data will be added into the training set for better FastText model training. Moreover, a novel distribution-diverse multi-expert learning strategy is proposed to further improve the mining ability of relevant data. By training multiple BERT models from different data distributions, it can respectively perform better at high, middle, and low-frequency search queries. The model ensemble from multi-distribution makes its retrieval ability more powerful. We have deployed two versions of this framework in JD search, and both offline experiments and online A/B testing from multiple datasets have validated the effectiveness of the proposed approach.
翻訳日:2023-08-03 13:12:01 公開日:2023-08-02
# 運動インクリメントを用いた運動予測のための時空間分岐

Spatio-Temporal Branching for Motion Prediction using Motion Increments ( http://arxiv.org/abs/2308.01097v1 )

ライセンス: Link先を確認
Jiexin Wang, Yujie Zhou, Wenwen Qiang, Ying Ba, Bing Su, Ji-Rong Wen(参考訳) HMP(Human Motion Prediction)は多種多様な応用のために人気の高い研究トピックとして登場したが、将来的なポーズの確率的・周期的性質のため、依然として難しい課題である。 従来の手法は手作りの特徴と機械学習技術に依存しており、人間の動きの複雑なダイナミクスをモデル化するのに苦労することが多い。 近年の深層学習に基づく手法は、時空間的な動きの表現を学習することで成功しているが、これらのモデルはしばしば動きデータの信頼性を見落としている。 さらに、スケルトンノードの時間的および空間的依存性は異なる。 時間的関係は時間とともに動き情報を捉え、空間的関係は身体構造と異なるノード間の関係を記述する。 本稿では,時間領域と空間領域の特徴の学習を分離し,より多くの動き情報を抽出し,知識蒸留による相補的クロスドメイン知識学習を実現するhmpのためのインクリメンタル情報を用いた,新たな時空間分岐ネットワークを提案する。 本手法は, 雑音干渉を効果的に低減し, 時間的特徴と空間的特徴を別々に抽出することにより, 動きを特徴付ける表現的情報を提供する。 我々は,標準的なHMPベンチマークと最先端手法を予測精度で評価する。

Human motion prediction (HMP) has emerged as a popular research topic due to its diverse applications, but it remains a challenging task due to the stochastic and aperiodic nature of future poses. Traditional methods rely on hand-crafted features and machine learning techniques, which often struggle to model the complex dynamics of human motion. Recent deep learning-based methods have achieved success by learning spatio-temporal representations of motion, but these models often overlook the reliability of motion data. Additionally, the temporal and spatial dependencies of skeleton nodes are distinct. The temporal relationship captures motion information over time, while the spatial relationship describes body structure and the relationships between different nodes. In this paper, we propose a novel spatio-temporal branching network using incremental information for HMP, which decouples the learning of temporal-domain and spatial-domain features, extracts more motion information, and achieves complementary cross-domain knowledge learning through knowledge distillation. Our approach effectively reduces noise interference and provides more expressive information for characterizing motion by separately extracting temporal and spatial features. We evaluate our approach on standard HMP benchmarks and outperform state-of-the-art methods in terms of prediction accuracy.
翻訳日:2023-08-03 13:11:33 公開日:2023-08-02
# AutoPoster: ポスター生成を広告するための高自動・コンテンツ対応デザインシステム

AutoPoster: A Highly Automatic and Content-aware Design System for Advertising Poster Generation ( http://arxiv.org/abs/2308.01095v1 )

ライセンス: Link先を確認
Jinpeng Lin, Min Zhou, Ye Ma, Yifan Gao, Chenxi Fei, Yangjian Chen, Zhang Yu, Tiezheng Ge(参考訳) 情報提示の形式である広告ポスターは、視覚と言語的モダリティを組み合わせる。 ポスターを作るには複数のステップが必要で、デザイン経験と創造性が必要です。 本稿では,広告ポスター作成のための高度自動・コンテンツ認識システムであるAutoPosterを紹介する。 プロダクトイメージとタイトルのみを入力として、autoposterはイメージクリーニングと再ターゲティング、レイアウト生成、タグライン生成、スタイル属性予測という4つの重要なステージを通じて、さまざまなサイズのポスターを自動的に生成することができる。 ポスターの視覚的調和を確保するため、レイアウトとタグライン生成のために2つのコンテンツ対応モデルが組み込まれている。 さらに,視覚的特徴を協調的に予測する新しいマルチタスクスタイル属性予測器(SAP)を提案する。 一方,我々は,76k以上のポスターに対して視覚的属性アノテーションを含む最初のポスター生成データセットを提案する。 ユーザ実験および実験から得られた質的・定量的な成果は,他のポスター生成手法と比較して,システムの有効性とポスターの美的優越性に及ぼしている。

Advertising posters, a form of information presentation, combine visual and linguistic modalities. Creating a poster involves multiple steps and necessitates design experience and creativity. This paper introduces AutoPoster, a highly automatic and content-aware system for generating advertising posters. With only product images and titles as inputs, AutoPoster can automatically produce posters of varying sizes through four key stages: image cleaning and retargeting, layout generation, tagline generation, and style attribute prediction. To ensure visual harmony of posters, two content-aware models are incorporated for layout and tagline generation. Moreover, we propose a novel multi-task Style Attribute Predictor (SAP) to jointly predict visual style attributes. Meanwhile, to our knowledge, we propose the first poster generation dataset that includes visual attribute annotations for over 76k posters. Qualitative and quantitative outcomes from user studies and experiments substantiate the efficacy of our system and the aesthetic superiority of the generated posters compared to other poster generation methods.
翻訳日:2023-08-03 13:11:12 公開日:2023-08-02
# セマンティックスと機械学習によるデータサイエンスソリューションのスケーリング - Bosch氏のケース

Scaling Data Science Solutions with Semantics and Machine Learning: Bosch Case ( http://arxiv.org/abs/2308.01094v1 )

ライセンス: Link先を確認
Baifan Zhou, Nikolay Nikolov, Zhuoxun Zheng, Xianghui Luo, Ognjen Savkovic, Dumitru Roman, Ahmet Soylu, Evgeny Kharlamov(参考訳) 産業 4.0 と Internet of Things (IoT) 技術は、工場生産から前例のない量のデータをアンロックし、ボリュームと多様性においてビッグデータの課題を提起する。 その文脈では、クラウドシステムのような分散コンピューティングソリューションを利用して、データ処理を並列化し、計算時間を短縮する。 クラウドシステムが普及するにつれて、元来クラウドの専門家ではないユーザ(データサイエンティストやドメインエキスパートなど)が、ソリューションをクラウドシステムにデプロイする必要性が高まっている。 しかし、クラウドシステムのユーザに対する高い需要と、トレーニングに要する過剰な時間の両方に対処するのは簡単ではない。 そこで本研究では,semcloudを提案する。semcloudは,クラウドシステムとセマンティック技術と機械学習を結合する,セマンティック拡張型クラウドシステムである。 SemCloudは、データ統合のためのドメインオントロジーとマッピングに依存し、分散コンピューティングノード上のセマンティックデータ統合とデータ分析を並列化する。 さらに、SemCloudはアダプティブなDatalogルールと機械学習を採用して、自動リソース設定を実現している。 このシステムは、何百万ものデータ、何千もの繰り返し実行、ドメインユーザによる産業ユースケースで評価され、有望な結果を示している。

Industry 4.0 and Internet of Things (IoT) technologies unlock unprecedented amount of data from factory production, posing big data challenges in volume and variety. In that context, distributed computing solutions such as cloud systems are leveraged to parallelise the data processing and reduce computation time. As the cloud systems become increasingly popular, there is increased demand that more users that were originally not cloud experts (such as data scientists, domain experts) deploy their solutions on the cloud systems. However, it is non-trivial to address both the high demand for cloud system users and the excessive time required to train them. To this end, we propose SemCloud, a semantics-enhanced cloud system, that couples cloud system with semantic technologies and machine learning. SemCloud relies on domain ontologies and mappings for data integration, and parallelises the semantic data integration and data analysis on distributed computing nodes. Furthermore, SemCloud adopts adaptive Datalog rules and machine learning for automated resource configuration, allowing non-cloud experts to use the cloud system. The system has been evaluated in industrial use case with millions of data, thousands of repeated runs, and domain users, showing promising results.
翻訳日:2023-08-03 13:10:57 公開日:2023-08-02
# 臨床応用のためのハンドトラッキング:Google MediaPipe Hand(GMH)と深度向上GMH-Dフレームワークの検証

Hand tracking for clinical applications: validation of the Google MediaPipe Hand (GMH) and the depth-enhanced GMH-D frameworks ( http://arxiv.org/abs/2308.01088v1 )

ライセンス: Link先を確認
Gianluca Amprimo, Giulia Masi, Giuseppe Pettiti, Gabriella Olmo, Lorenzo Priano and Claudia Ferraris(参考訳) 手と指の動きの正確な3dトラッキングは、コンピュータビジョンにおいて大きな課題となる。 潜在的なアプリケーションは、人間とコンピュータの対話、仮想現実、産業、医療など、複数のドメインにまたがる。 ジェスチャー認識は目覚ましい精度を達成したが、特に手指障害の評価やリハビリテーショントレーニングの結果が正確な測定を必要とする臨床応用においては、微動の定量化がハードルとなっている。 深層学習に基づく新しい軽量フレームワークがいくつか登場してこの問題に対処しているが、指の動きを正確に確実に測定するには、確立されたゴールド標準システムに対する検証が必要である。 本稿では,Google MediaPipe Hand (GMH) によるハンドトラッキングフレームワークと,RGB-Depthカメラの深度推定を利用して,より正確な3D動作追跡を実現する改良型GMH-Dを検証することを目的とする。 臨床医が手の機能障害を評価するために一般的に実施する3つの動的運動(手指の開閉、指のタップ、指のタップ)が検討されている。 その結果,両フレームワークの時間的およびスペクトル的整合性が高いことがわかった。 しかし, 改良されたGMH-Dフレームワークは, 速度と速度の両面において, ベースラインのGMHよりも空間測定の精度が優れている。 本研究は, ハンドトラッキング技術の進歩, 深層学習に基づくハンドトラッキングの有効性を証明するための有効な方法としてのバリデーションの確立, 臨床応用における3次元手の動きを評価するための信頼性の高いフレームワークとしてのGMH-Dの有効性の証明に寄与する。

Accurate 3D tracking of hand and fingers movements poses significant challenges in computer vision. The potential applications span across multiple domains, including human-computer interaction, virtual reality, industry, and medicine. While gesture recognition has achieved remarkable accuracy, quantifying fine movements remains a hurdle, particularly in clinical applications where the assessment of hand dysfunctions and rehabilitation training outcomes necessitate precise measurements. Several novel and lightweight frameworks based on Deep Learning have emerged to address this issue; however, their performance in accurately and reliably measuring fingers movements requires validation against well-established gold standard systems. In this paper, the aim is to validate the handtracking framework implemented by Google MediaPipe Hand (GMH) and an innovative enhanced version, GMH-D, that exploits the depth estimation of an RGB-Depth camera to achieve more accurate tracking of 3D movements. Three dynamic exercises commonly administered by clinicians to assess hand dysfunctions, namely Hand Opening-Closing, Single Finger Tapping and Multiple Finger Tapping are considered. Results demonstrate high temporal and spectral consistency of both frameworks with the gold standard. However, the enhanced GMH-D framework exhibits superior accuracy in spatial measurements compared to the baseline GMH, for both slow and fast movements. Overall, our study contributes to the advancement of hand tracking technology, the establishment of a validation procedure as a good-practice to prove efficacy of deep-learning-based hand-tracking, and proves the effectiveness of GMH-D as a reliable framework for assessing 3D hand movements in clinical applications.
翻訳日:2023-08-03 13:10:35 公開日:2023-08-02
# 複素トポロジカルシーンにおけるホモグラフィ推定

Homography Estimation in Complex Topological Scenes ( http://arxiv.org/abs/2308.01086v1 )

ライセンス: Link先を確認
Giacomo D'Amicantonio, Egor Bondarau, Peter H.N. De With(参考訳) 監視ビデオや画像は、交通分析から犯罪検出まで、幅広い用途に使用されている。 extrinsic camera calibration dataは、ほとんどの分析用途で重要である。 しかし、セキュリティカメラは環境条件や小さなカメラの動きに影響を受けやすいため、これらの異なる条件を考慮できる自動再調整方法が必要となる。 本稿では,任意のカメラ設定に関する事前知識を必要としない辞書ベースのアプローチを活用した自動カメラ校正プロセスを提案する。 この方法は、空間変換器ネットワーク(STN)のカスタム実装と、新しいトポロジ的損失関数からなる。 実験の結果、提案手法は5つの合成データセットとワールドカップ2014データセットにわたる最先端モデルにより最大12%のIoUメトリックを改善することが明らかになった。

Surveillance videos and images are used for a broad set of applications, ranging from traffic analysis to crime detection. Extrinsic camera calibration data is important for most analysis applications. However, security cameras are susceptible to environmental conditions and small camera movements, resulting in a need for an automated re-calibration method that can account for these varying conditions. In this paper, we present an automated camera-calibration process leveraging a dictionary-based approach that does not require prior knowledge on any camera settings. The method consists of a custom implementation of a Spatial Transformer Network (STN) and a novel topological loss function. Experiments reveal that the proposed method improves the IoU metric by up to 12% w.r.t. a state-of-the-art model across five synthetic datasets and the World Cup 2014 dataset.
翻訳日:2023-08-03 13:10:04 公開日:2023-08-02
# 自動運転車の空間知性とルールに基づく意思決定

Spatial Intelligence of a Self-driving Car and Rule-Based Decision Making ( http://arxiv.org/abs/2308.01085v1 )

ライセンス: Link先を確認
Stanislav Kikot(参考訳) 本稿では,複雑な状況下での自動運転車の人間的な行動を実現するために,従来の行動計画手法とルールに基づく意思決定を組み合わせる方法を提案する。 自律運転における意思決定ルールの例を示し,議論する。 これらの例をもとに,ロボットの空間認識技術の開発は,これまで受けてきた空間的推論コミュニティからより注目に値するエキサイティングな活動であることを示す。

In this paper we show how rule-based decision making can be combined with traditional motion planning techniques to achieve human-like behavior of a self-driving vehicle in complex traffic situations. We give and discuss examples of decision rules in autonomous driving. We draw on these examples to illustrate that developing techniques for spatial awareness of robots is an exciting activity which deserves more attention from spatial reasoning community that it had received so far.
翻訳日:2023-08-03 13:09:48 公開日:2023-08-02
# 非線形ハミルトニアン系の2次シンプレクティック表現のデータ駆動同定

Data-Driven Identification of Quadratic Symplectic Representations of Nonlinear Hamiltonian Systems ( http://arxiv.org/abs/2308.01084v1 )

ライセンス: Link先を確認
S\"uleyman Yildiz, Pawan Goyal, Thomas Bendokat and Peter Benner(参考訳) データを用いたハミルトンシステムの学習フレームワークを提案する。 この研究は、非線形ハミルトニアン系が立方体ハミルトニアンを持つ非線形系として書けると仮定する持ち上げ仮説に基づいている。 これにより、変換座標系においてハミルトニアンである二次力学が得られる。 そのために、一般化された位置と運動量データに対して、シンプレクティックオートエンコーダと組み合わせてハミルトン構造を強制して二次力学系を学習する手法を提案する。 強制ハミルトニアン構造はシステムの長期的な安定性を示すが、立方体ハミルトニアン函数は比較的低いモデル複雑性をもたらす。 低次元データでは高次変換座標系を決定するが、高次元データでは所望の特性を持つ低次座標系を求める。 低次元および高次元の非線形ハミルトニアン系を用いて提案手法を実証する。

We present a framework for learning Hamiltonian systems using data. This work is based on the lifting hypothesis, which posits that nonlinear Hamiltonian systems can be written as nonlinear systems with cubic Hamiltonians. By leveraging this, we obtain quadratic dynamics that are Hamiltonian in a transformed coordinate system. To that end, for given generalized position and momentum data, we propose a methodology to learn quadratic dynamical systems, enforcing the Hamiltonian structure in combination with a symplectic auto-encoder. The enforced Hamiltonian structure exhibits long-term stability of the system, while the cubic Hamiltonian function provides relatively low model complexity. For low-dimensional data, we determine a higher-order transformed coordinate system, whereas, for high-dimensional data, we find a lower-order coordinate system with the desired properties. We demonstrate the proposed methodology by means of both low-dimensional and high-dimensional nonlinear Hamiltonian systems.
翻訳日:2023-08-03 13:09:41 公開日:2023-08-02
# 応答生成のためのマイナショットデータ拡張とウォーターフォールプロンプトの活用

Leveraging Few-Shot Data Augmentation and Waterfall Prompting for Response Generation ( http://arxiv.org/abs/2308.01080v1 )

ライセンス: Link先を確認
Lea Krause, Selene B\'aez Santamar\'ia, Michiel van der Meer, Urja Khurana(参考訳) 本稿では,主観的知識を用いたタスク指向会話モデリングのアプローチについて,特に応答生成に着目して述べる。 提案手法は, 提案データセットに存在する応答長, 感情, 対話行動などの重要な要因を評価するデータ分析によって構成された。 我々は,新たに生成された主観的知識項目を用いてデータ拡張を行うため,(1)タスク固有のモデル探索,(2)生成されたすべての応答に最も頻繁な質問を組み込む,(3)gpt-3とchatgptの組み合わせを用いたウォーターフォールプロンプト手法という3つのアプローチを提案する。

This paper discusses our approaches for task-oriented conversational modelling using subjective knowledge, with a particular emphasis on response generation. Our methodology was shaped by an extensive data analysis that evaluated key factors such as response length, sentiment, and dialogue acts present in the provided dataset. We used few-shot learning to augment the data with newly generated subjective knowledge items and present three approaches for DSTC11: (1) task-specific model exploration, (2) incorporation of the most frequent question into all generated responses, and (3) a waterfall prompting technique using a combination of both GPT-3 and ChatGPT.
翻訳日:2023-08-03 13:09:25 公開日:2023-08-02
# キーボード上での深層学習に基づく音響サイドチャネル攻撃

A Practical Deep Learning-Based Acoustic Side Channel Attack on Keyboards ( http://arxiv.org/abs/2308.01074v1 )

ライセンス: Link先を確認
Joshua Harrison, Ehsan Toreini, Maryam Mehrnezhad(参考訳) 近年のディープラーニングの発展、マイクロフォンの普及、パーソナルデバイスによるオンラインサービスの興隆により、アコースティックサイドチャネル攻撃はキーボードにとってこれまでになく大きな脅威となる。 本稿では,スマートフォン統合型マイクロホンを用いて,ノートpcキーストロークを分類するために,最先端のディープラーニングモデルを実践的に実装する。 近くの電話機で記録されたキーストロークで訓練すると、分類器は95%の精度を達成し、言語モデルを用いずに見られる最高精度を達成した。 ビデオ会議ソフトZoomで記録したキーストロークをトレーニングすると、93%の精度が達成され、メディアにとって新たなベストとなった。 本研究は,市販の機器とアルゴリズムを用いて,これらのサイドチャネル攻撃の実用性を示す。 この一連の攻撃からユーザを保護するための一連の緩和手法について論じる。

With recent developments in deep learning, the ubiquity of micro-phones and the rise in online services via personal devices, acoustic side channel attacks present a greater threat to keyboards than ever. This paper presents a practical implementation of a state-of-the-art deep learning model in order to classify laptop keystrokes, using a smartphone integrated microphone. When trained on keystrokes recorded by a nearby phone, the classifier achieved an accuracy of 95%, the highest accuracy seen without the use of a language model. When trained on keystrokes recorded using the video-conferencing software Zoom, an accuracy of 93% was achieved, a new best for the medium. Our results prove the practicality of these side channel attacks via off-the-shelf equipment and algorithms. We discuss a series of mitigation methods to protect users against these series of attacks.
翻訳日:2023-08-03 13:09:12 公開日:2023-08-02
# 胸部ctスキャンにおける分類・分割・再構成・検出のためのマルチタスク学習

Multi-task learning for classification, segmentation, reconstruction, and detection on chest CT scans ( http://arxiv.org/abs/2308.01137v1 )

ライセンス: Link先を確認
Weronika Hryniewska-Guzik, Maria K\k{e}dzierska, Przemys{\l}aw Biecek(参考訳) 肺がんとcovid-19は、世界で最も高い死亡率と死亡率である。 医師にとって、病変の同定は疾患の初期段階で困難であり、時間を要する。 したがって、マルチタスク学習は、より一般化することを学ぶため、少量の医療データから病変などの重要な特徴を抽出するアプローチである。 本稿では,分類,セグメンテーション,再構築,検出のための新しいマルチタスクフレームワークを提案する。 私たちの知る限りでは、マルチタスクソリューションに検出を追加したのは当社が初めてです。 さらに、セグメンテーションタスクで2つの異なるバックボーンと異なる損失関数を使用する可能性を検証した。

Lung cancer and covid-19 have one of the highest morbidity and mortality rates in the world. For physicians, the identification of lesions is difficult in the early stages of the disease and time-consuming. Therefore, multi-task learning is an approach to extracting important features, such as lesions, from small amounts of medical data because it learns to generalize better. We propose a novel multi-task framework for classification, segmentation, reconstruction, and detection. To the best of our knowledge, we are the first ones who added detection to the multi-task solution. Additionally, we checked the possibility of using two different backbones and different loss functions in the segmentation task.
翻訳日:2023-08-03 13:03:34 公開日:2023-08-02
# スカースデータ領域におけるディープニューラルネットワーク訓練のためのエキスパートモデルの活用:オフライン手書き署名検証への応用

Leveraging Expert Models for Training Deep Neural Networks in Scarce Data Domains: Application to Offline Handwritten Signature Verification ( http://arxiv.org/abs/2308.01136v1 )

ライセンス: Link先を確認
Dimitrios Tsourounis, Ilias Theodorakopoulos, Elias N. Zois and George Economou(参考訳) 本稿では,タスク固有データが制限されたり利用できない領域において,既存のエキスパートモデルの知識を活用して新しい畳み込みニューラルネットワークを訓練する手法を提案する。 提案方式はオフライン手書き署名検証(OffSV)で適用され、他の生体認証アプリケーションと同様、規制によるデータ制限に悩まされる。 提案するs-t構成は,局所活性化のためのグラフベースの類似性と,手書きテキストデータのみを用いて学生の学習を監督するグローバル類似性尺度を組み合わせた機能ベース知識蒸留(fkd)を採用している。 驚くべきことに、このテクニックを使ってトレーニングされたモデルは、3つの人気のあるシグネチャデータセットにわたる教師モデルに匹敵するパフォーマンスを示している。 さらに重要なことに、これらの結果は特徴抽出トレーニングプロセス中にシグネチャを使わずに達成される。 本研究は、既存のエキスパートモデルを活用して、OFFSVや他の関連ドメインにおけるデータ不足を克服する効果を示す。

This paper introduces a novel approach to leverage the knowledge of existing expert models for training new Convolutional Neural Networks, on domains where task-specific data are limited or unavailable. The presented scheme is applied in offline handwritten signature verification (OffSV) which, akin to other biometric applications, suffers from inherent data limitations due to regulatory restrictions. The proposed Student-Teacher (S-T) configuration utilizes feature-based knowledge distillation (FKD), combining graph-based similarity for local activations with global similarity measures to supervise student's training, using only handwritten text data. Remarkably, the models trained using this technique exhibit comparable, if not superior, performance to the teacher model across three popular signature datasets. More importantly, these results are attained without employing any signatures during the feature extraction training process. This study demonstrates the efficacy of leveraging existing expert models to overcome data scarcity challenges in OffSV and potentially other related domains.
翻訳日:2023-08-03 13:03:24 公開日:2023-08-02
# 会議鍵と多人数交絡蒸留のための新しいプロトコル

New Protocols for Conference Key and Multipartite Entanglement Distillation ( http://arxiv.org/abs/2308.01134v1 )

ライセンス: Link先を確認
Farzin Salek, Andreas Winter(参考訳) 本稿では,ネットワーク内の量子情報処理における2つの相互接続問題にアプローチする: 与えられたリソースが多部量子状態であるいわゆるソースモデルと,所望の相関関係を生成するために,プレイヤーが公共の古典的チャネル上で相互作用する。 第1の問題は、複数の法的なプレーヤーと盗聴者の間でソース状態が共有されたときに、会議キーを蒸留することである。 2つ目は、与えられた混合状態からの局所的操作と古典的通信(locc)によるグリーンバーガー・ホーン・サイーリンガー(ghz)状態の蒸留である。 これらの問題の設定は、以前の論文 [ieee trans. inf. theory 68(2):976-988, 2022] を拡張し、その結果を一般化する: 全科学におけるコミュニケーションタスクの量子バージョンを用いて、我々は、非相互作用的な通信プロトコルによって、任意の多成分量子状態から蒸留可能な会議キーの新たな下限を導出する。 第二に、多粒子混合状態からのGHZ状態の収量に関する新しい下界を確立する。 すなわち、GHZ状態を生成するために、十分に多くのノード間の二部交絡を生成する2つの方法を提案する。 次に,会議鍵合意プロトコルを一定の条件下で一貫性を持たせることで,GHZ状態の直接生成を可能にすることを示す。

We approach two interconnected problems of quantum information processing in networks: Conference key agreement and entanglement distillation, both in the so-called source model where the given resource is a multipartite quantum state and the players interact over public classical channels to generate the desired correlation. The first problem is the distillation of a conference key when the source state is shared between a number of legal players and an eavesdropper; the eavesdropper, apart from starting off with this quantum side information, also observes the public communication between the players. The second is the distillation of Greenberger-Horne-Zeilinger (GHZ) states by means of local operations and classical communication (LOCC) from the given mixed state. These problem settings extend our previous paper [IEEE Trans. Inf. Theory 68(2):976-988, 2022], and we generalise its results: using a quantum version of the task of communication for omniscience, we derive novel lower bounds on the distillable conference key from any multipartite quantum state by means of non-interacting communication protocols. Secondly, we establish novel lower bounds on the yield of GHZ states from multipartite mixed states. Namely, we present two methods to produce bipartite entanglement between sufficiently many nodes so as to produce GHZ states. Next, we show that the conference key agreement protocol can be made coherent under certain conditions, enabling the direct generation of multipartite GHZ states.
翻訳日:2023-08-03 13:03:05 公開日:2023-08-02
# diffusepast:クラスインクリメンタルセグメンテーションのための拡散型生成リプレイ

DiffusePast: Diffusion-based Generative Replay for Class Incremental Semantic Segmentation ( http://arxiv.org/abs/2308.01127v1 )

ライセンス: Link先を確認
Jingfan Chen, Yuxi Wang, Pengfei Wang, Xiao Chen, Zhaoxiang Zhang, Zhen Lei and Qing Li(参考訳) CISS(Class Incremental Semantic Segmentation)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。 以前の作業では、破滅的な忘れ物やプライバシーの問題に対処するために、事前訓練されたGANから生成された古いクラスサンプルを再生する、生成的リプレイが導入されていた。 しかし, 生成した画像は意味的精度に欠け, 分布特性が発現し, セグメンテーション性能をさらに劣化させる不正確なマスクが生じる。 そこで本研究では,異なる指示(テキストプロンプトやエッジマップなど)によって導かれるより信頼性の高いマスクを用いて,意味的に正確な画像を生成する拡散型生成リプレイモジュールを特徴とする新しいフレームワークであるdividatepastを提案する。 具体的には、DiffusePastがデュアルジェネレータパラダイムを導入し、ダウンストリームデータセットの分布に合わせて、元のイメージの構造とレイアウトを保存しながら、より正確なマスクを可能にする、古いクラスのイメージを生成する。 新たに追加されたクラスの新しい視覚概念に継続的に適応するために、デュアルジェネレータを更新する際、クラスワイズトークンを埋め込みます。 さらに,新しいステップ画像の背景画素に古いクラスの適切な擬似ラベルを割り当て,学習前の知識の忘れを緩和する。 総合的な実験を通じて,本手法は主要なベンチマーク間での競合性能を示し,古いクラスと新しいクラスのパフォーマンスのバランスを良くする。

The Class Incremental Semantic Segmentation (CISS) extends the traditional segmentation task by incrementally learning newly added classes. Previous work has introduced generative replay, which involves replaying old class samples generated from a pre-trained GAN, to address the issues of catastrophic forgetting and privacy concerns. However, the generated images lack semantic precision and exhibit out-of-distribution characteristics, resulting in inaccurate masks that further degrade the segmentation performance. To tackle these challenges, we propose DiffusePast, a novel framework featuring a diffusion-based generative replay module that generates semantically accurate images with more reliable masks guided by different instructions (e.g., text prompts or edge maps). Specifically, DiffusePast introduces a dual-generator paradigm, which focuses on generating old class images that align with the distribution of downstream datasets while preserving the structure and layout of the original images, enabling more precise masks. To adapt to the novel visual concepts of newly added classes continuously, we incorporate class-wise token embedding when updating the dual-generator. Moreover, we assign adequate pseudo-labels of old classes to the background pixels in the new step images, further mitigating the forgetting of previously learned knowledge. Through comprehensive experiments, our method demonstrates competitive performance across mainstream benchmarks, striking a better balance between the performance of old and novel classes.
翻訳日:2023-08-03 13:02:36 公開日:2023-08-02
# beyond generic: 視覚言語事前学習モデルを用いた実世界知識による画像キャプションの拡張

Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model ( http://arxiv.org/abs/2308.01126v1 )

ライセンス: Link先を確認
Kanzhi Cheng, Wenpo Song, Zheng Ma, Wenhao Zhu, Zixuan Zhu, Jianbing Zhang(参考訳) 現在のキャプションアプローチは、現実世界の知識、例えば名前付きエンティティやコンテキスト情報を持たない、正しいが「汎用的な」記述を生成する傾向がある。 Vision-Language Pre-Training (VLP)モデルが、大規模なWebハーベストデータからそのような知識を習得することを考えると、VLPモデルの一般化可能性を活用して、知識を画像記述に組み込むことが期待できる。 ゼロショット推論は、低品質の記述につながる知識幻覚に悩まされるが、下流タスクの微調整における一般的なバイアスは、VLPモデルが知識を表現することを妨げている。 これらの問題に対処するため,我々は,微調整時の事前学習知識の保持を可能にする知識誘導リプレイ(k-replay)と呼ばれる簡易かつ効果的な手法を提案する。 提案手法は,(1)VLPモデルの知識に関する記憶を連続的に覚醒させるために,自動で収集したリプレイにおける知識予測タスクと,(2)生成した記述の忠実さを向上し,知識幻覚を緩和する知識蒸留の2つの部分から構成される。 知識に富んだ記述を評価するため,ランドマーク,有名ブランド,特別食材,映画キャラクタの知識を含む新しいキャプションベンチマーク「ノウキャップ」を構築した。 実験の結果,CIDErでは20.9ポイント (78.7->99.6) , 知識認識精度では20.5ポイント (34.0%->54.5%) の強いVLPベースラインよりも優れていた。 私たちのコードとデータはhttps://github.com/njucckevin/knowcap.comから入手できます。

Current captioning approaches tend to generate correct but "generic" descriptions that lack real-world knowledge, e.g., named entities and contextual information. Considering that Vision-Language Pre-Training (VLP) models master massive such knowledge from large-scale web-harvested data, it is promising to utilize the generalizability of VLP models to incorporate knowledge into image descriptions. However, using VLP models faces challenges: zero-shot inference suffers from knowledge hallucination that leads to low-quality descriptions, but the generic bias in downstream task fine-tuning hinders the VLP model from expressing knowledge. To address these concerns, we propose a simple yet effective method called Knowledge-guided Replay (K-Replay), which enables the retention of pre-training knowledge during fine-tuning. Our approach consists of two parts: (1) a knowledge prediction task on automatically collected replay exemplars to continuously awaken the VLP model's memory about knowledge, thus preventing the model from collapsing into the generic pattern; (2) a knowledge distillation constraint to improve the faithfulness of generated descriptions hence alleviating the knowledge hallucination. To evaluate knowledge-enhanced descriptions, we construct a novel captioning benchmark KnowCap, containing knowledge of landmarks, famous brands, special foods and movie characters. Experimental results show that our approach effectively incorporates knowledge into descriptions, outperforming strong VLP baseline by 20.9 points (78.7->99.6) in CIDEr score and 20.5 percentage points (34.0%->54.5%) in knowledge recognition accuracy. Our code and data is available at https://github.com/njucckevin/KnowCap.
翻訳日:2023-08-03 13:02:09 公開日:2023-08-02
# 注意グラフニューラルネットワークを用いた深層学習に基づく点線特徴マッチングによるステレオ視覚オドメトリ

Stereo Visual Odometry with Deep Learning-Based Point and Line Feature Matching using an Attention Graph Neural Network ( http://arxiv.org/abs/2308.01125v1 )

ライセンス: Link先を確認
Shenbagaraj Kannapiran, Nalin Bendapudi, Ming-Yuan Yu, Devarth Parikh, Spring Berman, Ankit Vora, and Gaurav Pandey(参考訳) ロバストな特徴マッチングは、ほとんどの視覚的同時局在マッピング(vSLAM)、視覚計測、3D再構成、Structure from Motion(SfM)アルゴリズムのバックボーンを形成する。 しかし、テクスチャパウダーシーンから特徴マッチングを復元することは大きな課題であり、依然として研究のオープン領域である。 本稿では,霧・霧・雨・雪などの悪天候条件や夜間照明・照度・照度といった動的照明条件下でも良好に動作するように設計された注意グラフニューラルネットワークに基づく特徴マッチング機構を用いた,ポイント・アンド・ライン特徴に基づくステレオ・ビジュアル・オドメトリ(stereovo)手法を提案する。 我々は,複数の実データと合成データを用いて,低視認性気象条件下でのStereoVOの実現能力と,ロバストポイントとラインマッチによる照明条件の検証を行った。 提案手法は, 異常気象条件や動的照明条件下で, 点特徴マッチングを補完するアルゴリズムよりも, ライン特徴整合性が高いことを示す。

Robust feature matching forms the backbone for most Visual Simultaneous Localization and Mapping (vSLAM), visual odometry, 3D reconstruction, and Structure from Motion (SfM) algorithms. However, recovering feature matches from texture-poor scenes is a major challenge and still remains an open area of research. In this paper, we present a Stereo Visual Odometry (StereoVO) technique based on point and line features which uses a novel feature-matching mechanism based on an Attention Graph Neural Network that is designed to perform well even under adverse weather conditions such as fog, haze, rain, and snow, and dynamic lighting conditions such as nighttime illumination and glare scenarios. We perform experiments on multiple real and synthetic datasets to validate the ability of our method to perform StereoVO under low visibility weather and lighting conditions through robust point and line matches. The results demonstrate that our method achieves more line feature matches than state-of-the-art line matching algorithms, which when complemented with point feature matches perform consistently well in adverse weather and dynamic lighting conditions.
翻訳日:2023-08-03 13:01:32 公開日:2023-08-02
# 胸部x線分類における無学習スプリアス相関

Unlearning Spurious Correlations in Chest X-ray Classification ( http://arxiv.org/abs/2308.01119v1 )

ライセンス: Link先を確認
Misgina Tsighe Hagos, Kathleen M. Curran, Brian Mac Namee(参考訳) 医用画像分類モデルは、複数のデータソースから派生したトレーニングデータセットを使用して頻繁に訓練される。 モデル一般化を達成するためには、複数のデータソースを活用することが不可欠だが、これらのソースの多様な性質は本質的に意図しない共同設立者や、モデル精度と透明性の両方に影響を及ぼす他の課題をもたらすことを認識する必要がある。 特に筋骨格画像分類では, 思春期における骨格成熟による骨成長が顕著である。 我々は,Covid-19胸部X線データセットを用いて深層学習モデルを訓練し,このデータセットが意図しない凹凸領域による刺激的な相関にどのように寄与するかを示す。 eXplanation Based Learning (XBL) は、モデル説明を利用して対話的に引き起こされる突発的相関を利用して、解釈可能性を超えたディープラーニングアプローチである。 これはインタラクティブなユーザフィードバック、特に機能アノテーションを統合することで実現される。 本研究では,非要求型手動フィードバック機構を2つ導入し,これらスプリアス相関を効果的に排除するxblベースアプローチを実装した。 以上の結果から,xbl のロバストモデル構築における有望な可能性について考察した。

Medical image classification models are frequently trained using training datasets derived from multiple data sources. While leveraging multiple data sources is crucial for achieving model generalization, it is important to acknowledge that the diverse nature of these sources inherently introduces unintended confounders and other challenges that can impact both model accuracy and transparency. A notable confounding factor in medical image classification, particularly in musculoskeletal image classification, is skeletal maturation-induced bone growth observed during adolescence. We train a deep learning model using a Covid-19 chest X-ray dataset and we showcase how this dataset can lead to spurious correlations due to unintended confounding regions. eXplanation Based Learning (XBL) is a deep learning approach that goes beyond interpretability by utilizing model explanations to interactively unlearn spurious correlations. This is achieved by integrating interactive user feedback, specifically feature annotations. In our study, we employed two non-demanding manual feedback mechanisms to implement an XBL-based approach for effectively eliminating these spurious correlations. Our results underscore the promising potential of XBL in constructing robust models even in the presence of confounding factors.
翻訳日:2023-08-03 13:01:08 公開日:2023-08-02
# レコメンデーションシステムにおける人気バイアスに関する調査

A Survey on Popularity Bias in Recommender Systems ( http://arxiv.org/abs/2308.01118v1 )

ライセンス: Link先を確認
Anastasiia Klimashevskaia, Dietmar Jannach, Mehdi Elahi, Christoph Trattner(参考訳) レコメンダシステムは、パーソナライズされた方法で関連コンテンツを見つけるのに役立つ。 そのようなシステムの大きな約束の一つは、長い尾の項目、すなわちカタログのあまり知られていない項目の可視性を高めることができることである。 しかし、既存の研究は、現在のレコメンデーションアルゴリズムが人気バイアスを示す代わりに、リコメンデーションにおいてより人気のあるアイテムに焦点を当てることがしばしばあることを示唆している。 このような偏見は、短期的には消費者やプロバイダーのレコメンデーションの価値を限定するだけでなく、時間の経過とともに望ましくない補強効果を引き起こす可能性がある。 本稿では,人気バイアスの原因を考察し,推薦システムにおける人気バイアスの検出,定量化,緩和のための既存のアプローチについて検討する。 そこで本研究では,文献で使用される計算指標の概要と,バイアス低減のための主要な技術的アプローチについて概説した。 さらに,本研究がほぼ完全に計算実験に基づくものであること,およびレコメンデーションにロングテール項目を組み込むことによる実用的効果について,一定の仮定を前提として,今日の文献を批判的に論じる。

Recommender systems help people find relevant content in a personalized way. One main promise of such systems is that they are able to increase the visibility of items in the long tail, i.e., the lesser-known items in a catalogue. Existing research, however, suggests that in many situations today's recommendation algorithms instead exhibit a popularity bias, meaning that they often focus on rather popular items in their recommendations. Such a bias may not only lead to limited value of the recommendations for consumers and providers in the short run, but it may also cause undesired reinforcement effects over time. In this paper, we discuss the potential reasons for popularity bias and we review existing approaches to detect, quantify and mitigate popularity bias in recommender systems. Our survey therefore includes both an overview of the computational metrics used in the literature as well as a review of the main technical approaches to reduce the bias. We furthermore critically discuss today's literature, where we observe that the research is almost entirely based on computational experiments and on certain assumptions regarding the practical effects of including long-tail items in the recommendations.
翻訳日:2023-08-03 13:00:48 公開日:2023-08-02
# 非マルコフ的メカニカルノイズによる光力学的非線形性の向上

Enhanced optomechanical nonlinearity through non-Markovian mechanical noise ( http://arxiv.org/abs/2308.01115v1 )

ライセンス: Link先を確認
Sofia Qvarfort(参考訳) 量子状態におけるキャビティ光学系はキャビティモードと機械的要素を放射圧で結合したものである。 非線形光学系では、ノイズ項が光力学的相互作用項に遷移しないため、開系力学は一般に解析的に扱うことが困難である。 特に、非線形光学系におけるマルコフ的および非マルコフ的機械的ノイズの一般的な処理は、依然として顕著である。 ここでは、機械的要素が調和振動子の浴と相互作用し、完全な量子ブラウン運動を表す非線形状態における光学系の完全な力学を解くことで、この問題に対処する。 厳密かつ解析的な解は、マルコフ(英語版)(Ohmic)と非マルコフ(英語版)(sub-Ohmic and super-Ohmic)の両方の存在下での光学的非線形性の強さを考えることができる。 非線形性の強度は一般にマルコフの浴スペクトルによって低下するが、高度に非マルコフの構造を持つ浴を構築することで向上できることを示す。 この結果は、強い光力学的非線形性を達成するための将来の光力学実験に潜在的に有意である。

Cavity optomechanical systems in the quantum regime consist of a cavity mode and mechanical element coupled together through radiation pressure. In the nonlinear optomechanical regime, open-system dynamics is generally challenging to treat analytically, since the noise terms do not commute with the optomechanical interaction term. Specifically, a general treatment of both Markovian and non-Markovian mechanical noise in the nonlinear optomechanical regime is still outstanding. Here we address this question by solving the full dynamics of an optomechanical system in the nonlinear regime where the mechanical element interacts with a bath of harmonic oscillators, representing full quantum Brownian motion. The solutions, which are exact and analytic, allow us to consider the strength of the optomechanical nonlinearity in the presence of both Markovian (Ohmic) and non-Markovian (sub-Ohmic and super-Ohmic) baths. We show that that while the strength of the nonlinearity is generally reduced by a Markovian bath spectrum, it can be enhanced by constructing a bath with a highly non-Markovian structure. The results have potential implications for future optomechanical experiments which seek to achieve a strong optomechanical nonlinearity.
翻訳日:2023-08-03 13:00:29 公開日:2023-08-02
# 溶接品質モニタリングのためのリテラルアウェア知識グラフ埋め込み:boschの場合

Literal-Aware Knowledge Graph Embedding for Welding Quality Monitoring: A Bosch Case ( http://arxiv.org/abs/2308.01105v1 )

ライセンス: Link先を確認
Zhipeng Tan, Baifan Zhou, Zhuoxun Zheng, Ognjen Savkovic, Ziqi Huang, Irlan-Grangel Gonzalez, Ahmet Soylu, Evgeny Kharlamov(参考訳) 近年、知識グラフ埋め込み(KGE)の研究が続けられており、機械学習(ML)による数値ベクトルや数学的マッピングとしての実体や関係の埋め込みの学習が試みられている。 しかし、製造業における産業問題にkgeを適用する研究は限られている。 本稿では,KGEが製造業界における溶接品質モニタリングにおいて,毎年何百万台もの自動車の生産に影響を及ぼすプロセスである,重要な問題にどの程度有効かを検討する。 この研究は、データ駆動ソリューションに関するboschの研究では、非常にコストがかかり、無駄を生み出す、従来の自動車破壊方法を置き換えることを意図している。 この論文は、溶接スポットの直径がどれだけ大きいのか、溶接スポットがどの車体に属しているのかという、非常に難しい2つの質問に同時に取り組む。 従来のMLでは、クラスラベルとして割り当てられるべき多数の車体が存在するため、問題設定は困難である。 リンク予測として問題を定式化し,リテラルを考慮したKGE手法を実業界データ上で実験した。 本結果は,適応KGE手法の限界と有望性の両方を明らかにした。

Recently there has been a series of studies in knowledge graph embedding (KGE), which attempts to learn the embeddings of the entities and relations as numerical vectors and mathematical mappings via machine learning (ML). However, there has been limited research that applies KGE for industrial problems in manufacturing. This paper investigates whether and to what extent KGE can be used for an important problem: quality monitoring for welding in manufacturing industry, which is an impactful process accounting for production of millions of cars annually. The work is in line with Bosch research of data-driven solutions that intends to replace the traditional way of destroying cars, which is extremely costly and produces waste. The paper tackles two very challenging questions simultaneously: how large the welding spot diameter is; and to which car body the welded spot belongs to. The problem setting is difficult for traditional ML because there exist a high number of car bodies that should be assigned as class labels. We formulate the problem as link prediction, and experimented popular KGE methods on real industry data, with consideration of literals. Our results reveal both limitations and promising aspects of adapted KGE methods.
翻訳日:2023-08-03 13:00:12 公開日:2023-08-02
# 高次元系における部分障壁による量子輸送

Quantum transport through partial barriers in higher-dimensional systems ( http://arxiv.org/abs/2308.01162v1 )

ライセンス: Link先を確認
Jonas St\"ober, Arnd B\"acker, Roland Ketzmerick(参考訳) ハミルトン系のカオス海における部分的な輸送障壁は、カオス位相空間領域間の小さなフラックスを許すため、古典的な輸送に影響を与える。 このような部分的障壁を経由する量子輸送が、量子抑圧から古典輸送の模倣への普遍的な遷移に従う高次元系を定式化する。 スケーリングパラメータは、フラックス、プランクセルのサイズ、共鳴チャネルに沿った動的局在による局在長を含む。 これは、カントーラスを高次元に一般化する部分障壁を持つ連結キックローターに対して数値的に示される。

Partial transport barriers in the chaotic sea of Hamiltonian systems influence classical transport, as they allow for a small flux between chaotic phase-space regions only. We establish for higher-dimensional systems that quantum transport through such a partial barrier follows a universal transition from quantum suppression to mimicking classical transport. The scaling parameter involves the flux, the size of a Planck cell, and the localization length due to dynamical localization along a resonance channel. This is numerically demonstrated for coupled kicked rotors with a partial barrier that generalizes a cantorus to higher dimensions.
翻訳日:2023-08-03 12:52:31 公開日:2023-08-02
# LLMはガラス箱モデル、サプライズ発見、そしてサプライズ修復を理解

LLMs Understand Glass-Box Models, Discover Surprises, and Suggest Repairs ( http://arxiv.org/abs/2308.01157v1 )

ライセンス: Link先を確認
Benjamin J. Lengerich, Sebastian Bordt, Harsha Nori, Mark E. Nunnally, Yin Aphinyanaphongs, Manolis Kellis, Rich Caruana(参考訳) 大規模言語モデル(LLM)は、複雑な結果を一変量グラフ表現コンポーネントに分解する解釈可能なモデルに非常に適していることを示す。 階層的な推論アプローチを採用することで、LLMはモデル全体をコンテキストに適合させることなく、包括的なモデルレベルの要約を提供することができます。 このアプローチにより、LCMは、事前の知識に矛盾する異常の検出、異常の原因の潜在的な説明、異常を除去する修復の提案など、データサイエンスにおける一般的なタスクを自動化するために、その広範なバックグラウンド知識を適用することができる。 我々は、医療における複数の例を用いて、一般化付加モデル(GAM)を中心に、これらのLLMの新しい機能の有用性を実証している。 最後に、パッケージ $\texttt{TalkToEBM}$ をオープンソース LLM-GAM インターフェースとして提示する。

We show that large language models (LLMs) are remarkably good at working with interpretable models that decompose complex outcomes into univariate graph-represented components. By adopting a hierarchical approach to reasoning, LLMs can provide comprehensive model-level summaries without ever requiring the entire model to fit in context. This approach enables LLMs to apply their extensive background knowledge to automate common tasks in data science such as detecting anomalies that contradict prior knowledge, describing potential reasons for the anomalies, and suggesting repairs that would remove the anomalies. We use multiple examples in healthcare to demonstrate the utility of these new capabilities of LLMs, with particular emphasis on Generalized Additive Models (GAMs). Finally, we present the package $\texttt{TalkToEBM}$ as an open-source LLM-GAM interface.
翻訳日:2023-08-03 12:52:21 公開日:2023-08-02
# 言語モデルを用いた算術:記憶から計算へ

Arithmetic with Language Models: from Memorization to Computation ( http://arxiv.org/abs/2308.01154v1 )

ライセンス: Link先を確認
Davide Maltoni and Matteo Ferrara(参考訳) 最近の大規模言語モデルの創発的な計算と問題解決能力をよりよく理解することは、それらをさらに改善し、その適用性を広げるために最も重要なことです。 本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。 バイナリの追加と乗算は、非常に小さな語彙を必要とするため、新しいデータに対してスムーズな入力補間を行うのに有効な入力/出力の不連続性を示すため、この目的のために良いテストベッドを構成する。 我々はこれらのタスクを学習するために軽量言語モデルをトレーニングし、外挿能力と内部情報処理を調査するために多くの実験を行った。 本研究は,入力トークン表現が適切な内部表現にマッピングされると,その値空間で計算が行われるエンコーディング・レグレッション・デコーディングマシンとして言語モデルが動作するという仮説を支持する。

A better understanding of the emergent computation and problem-solving capabilities of recent large language models is of paramount importance to further improve them and broaden their applicability. This work investigates how a language model, trained to predict the next token, can perform arithmetic computations generalizing beyond training data. Binary addition and multiplication constitute a good testbed for this purpose, since they require a very small vocabulary and exhibit relevant input/output discontinuities making smooth input interpolation ineffective for novel data. We successfully trained a light language model to learn these tasks and ran a number of experiments to investigate the extrapolation capabilities and internal information processing. Our findings support the hypotheses that the language model works as an Encoding-Regression-Decoding machine where the computation takes place in the value space once the input token representation is mapped to an appropriate internal representation.
翻訳日:2023-08-03 12:52:05 公開日:2023-08-02
# 細粒度配列アライメントを用いた造影剤拡散モデルによるマークアップ・ツー・イメージ生成

Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation ( http://arxiv.org/abs/2308.01147v1 )

ライセンス: Link先を確認
Guojin Zhong, Jin Yuan, Pan Wang, Kailun Yang, Weili Guan, Zhiyong Li(参考訳) 最近上昇しているマークアップから画像への生成は、エラーに対する耐性が低く、マークアップとレンダリング画像間の複雑なシーケンスとコンテキスト相関が原因で、自然画像生成に比べて大きな課題となっている。 本稿では,FSA-CDM(Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment)と呼ばれる新しいモデルを提案する。 技術的には、ロバストな特徴表現を学習するための2つのモダリティ間のシーケンス類似性をよく探求するために、細粒なクロスモーダルアライメントモジュールを設計する。 一般化能力を向上させるために,モデル最適化の厳密なバウンダリを提供するために数学的に推定される新しいコントラスト的変動目標を最大化することにより,正および負のサンプルを明示的に探索するコントラスト拡張拡散モデルを提案する。 さらに、このコンテキスト対応クロスアテンションモジュールは、復調処理中にマークアップ言語内のコンテキスト情報をキャプチャし、より優れたノイズ予測結果を得る。 異なる領域の4つのベンチマークデータセットに対して大規模な実験を行い、実験結果はFSA-CDMにおける提案したコンポーネントの有効性を実証した。 コードはhttps://github.com/zgj77/FSACDMで公開される。

The recently rising markup-to-image generation poses greater challenges as compared to natural image generation, due to its low tolerance for errors as well as the complex sequence and context correlations between markup and rendered image. This paper proposes a novel model named "Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment" (FSA-CDM), which introduces contrastive positive/negative samples into the diffusion model to boost performance for markup-to-image generation. Technically, we design a fine-grained cross-modal alignment module to well explore the sequence similarity between the two modalities for learning robust feature representations. To improve the generalization ability, we propose a contrast-augmented diffusion model to explicitly explore positive and negative samples by maximizing a novel contrastive variational objective, which is mathematically inferred to provide a tighter bound for the model's optimization. Moreover, the context-aware cross attention module is developed to capture the contextual information within markup language during the denoising process, yielding better noise prediction results. Extensive experiments are conducted on four benchmark datasets from different domains, and the experimental results demonstrate the effectiveness of the proposed components in FSA-CDM, significantly exceeding state-of-the-art performance by about 2%-12% DTW improvements. The code will be released at https://github.com/zgj77/FSACDM.
翻訳日:2023-08-03 12:51:48 公開日:2023-08-02
# ucdformer: トランスフォーマティブ画像変換を用いた教師なし変更検出

UCDFormer: Unsupervised Change Detection Using a Transformer-driven Image Translation ( http://arxiv.org/abs/2308.01146v1 )

ライセンス: Link先を確認
Qingsong Xu, Yilei Shi, Jianhua Guo, Chaojun Ouyang, Xiao Xiang Zhu(参考訳) 両時間画像の比較による変化検出(CD)はリモートセンシングにおいて重要な課題である。 面倒なラベル付き変更情報を必要としないという利点があるため、教師なしCDはコミュニティで広く注目を集めている。 しかし、既存の教師なしcdアプローチでは、多時期画像の照明や大気条件によって生じる季節やスタイルの違いをほとんど考慮しない。 そこで本稿では,リモートセンシング画像の領域シフト設定による変更検出を提案する。 さらに,UCDFormerと呼ばれる軽量トランスを用いた新しい教師なしCD手法を提案する。 具体的には, 2つの画像間の領域シフトをリアルタイムに緩和するために, 軽量トランスとドメイン固有親和度重みを有するトランス駆動画像変換を提案する。 画像翻訳後、翻訳前の画像と元の後画像との差分マップを生成することができる。 次に, ファジィc平均クラスタリングと適応しきい値の擬似変化マップを用いて, 大幅な変化/変更なし画素位置を選択するための, 新たな信頼性の高い画素抽出モジュールを提案する。 最後に、これらの選択された画素対とバイナリ分類器に基づいてバイナリ変更マップを求める。 季節変化とスタイル変化を伴う異なる教師なしcdタスクにおける実験結果は,提案するuddformerの有効性を示す。 例えば、他のいくつかのメソッドと比較して、UCDFormerはKappa係数のパフォーマンスを12\%以上改善している。 また,ucdformerは大規模地震時地すべり検出に優れた性能を発揮する。 コードは \url{https://github.com/zhu-xlab/UCDFormer} で入手できる。

Change detection (CD) by comparing two bi-temporal images is a crucial task in remote sensing. With the advantages of requiring no cumbersome labeled change information, unsupervised CD has attracted extensive attention in the community. However, existing unsupervised CD approaches rarely consider the seasonal and style differences incurred by the illumination and atmospheric conditions in multi-temporal images. To this end, we propose a change detection with domain shift setting for remote sensing images. Furthermore, we present a novel unsupervised CD method using a light-weight transformer, called UCDFormer. Specifically, a transformer-driven image translation composed of a light-weight transformer and a domain-specific affinity weight is first proposed to mitigate domain shift between two images with real-time efficiency. After image translation, we can generate the difference map between the translated before-event image and the original after-event image. Then, a novel reliable pixel extraction module is proposed to select significantly changed/unchanged pixel positions by fusing the pseudo change maps of fuzzy c-means clustering and adaptive threshold. Finally, a binary change map is obtained based on these selected pixel pairs and a binary classifier. Experimental results on different unsupervised CD tasks with seasonal and style changes demonstrate the effectiveness of the proposed UCDFormer. For example, compared with several other related methods, UCDFormer improves performance on the Kappa coefficient by more than 12\%. In addition, UCDFormer achieves excellent performance for earthquake-induced landslide detection when considering large-scale applications. The code is available at \url{https://github.com/zhu-xlab/UCDFormer}
翻訳日:2023-08-03 12:51:22 公開日:2023-08-02
# ADS-Cap: スティリスティックコーパスの精度向上と多角化キャプションのためのフレームワーク

ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with Unpaired Stylistic Corpora ( http://arxiv.org/abs/2308.01143v1 )

ライセンス: Link先を確認
Kanzhi Cheng, Zheng Ma, Shi Zong, Jianbing Zhang, Xinyu Dai, Jiajun Chen(参考訳) 特に多種多様なスタイリスティックなパターンのスタイリッシュなキャプションを期待するので, 視覚的接地画像キャプションを未熟なスタイリスティックコーパスを用いて特定の言語スタイルで生成することは難しい課題である。 本稿では,ADS-Cap(ADS-Cap)を生成するための新しいフレームワークを提案する。 私たちのADS-Capは、まずコントラスト学習モジュールを使用して画像とテキストの特徴を調整します。 次に、条件付き変分自動エンコーダを用いて、潜時空間における多様なスタイルパターンを自動的に記憶し、サンプリングにより多様性を高める。 また,スタイル固有のキャプションをフィルタリングすることにより,スタイル精度を高めるための簡易かつ効果的な再チェックモジュールも設計した。 広く使われている2つの画像キャプションデータセットの実験結果から,画像との整合性,スタイルの正確性,多様性に関して,ADS-Capは様々なベースラインと比較して優れた性能を発揮することが示された。 最終的に,本手法の有効性を理解するために広範な分析を行った。 私たちのコードはhttps://github.com/njucckevin/ADS-Capで利用可能です。

Generating visually grounded image captions with specific linguistic styles using unpaired stylistic corpora is a challenging task, especially since we expect stylized captions with a wide variety of stylistic patterns. In this paper, we propose a novel framework to generate Accurate and Diverse Stylized Captions (ADS-Cap). Our ADS-Cap first uses a contrastive learning module to align the image and text features, which unifies paired factual and unpaired stylistic corpora during the training process. A conditional variational auto-encoder is then used to automatically memorize diverse stylistic patterns in latent space and enhance diversity through sampling. We also design a simple but effective recheck module to boost style accuracy by filtering style-specific captions. Experimental results on two widely used stylized image captioning datasets show that regarding consistency with the image, style accuracy and diversity, ADS-Cap achieves outstanding performances compared to various baselines. We finally conduct extensive analyses to understand the effectiveness of our method. Our code is available at https://github.com/njucckevin/ADS-Cap.
翻訳日:2023-08-03 12:50:59 公開日:2023-08-02
# ディベロッパの視点からの量子ソフトウェアエンジニアリングの課題:研究課題を提案されたワークフローモデルにマッピングする

Quantum Software Engineering Challenges from Developers' Perspective: Mapping Research Challenges to the Proposed Workflow Model ( http://arxiv.org/abs/2308.01141v1 )

ライセンス: Link先を確認
Majid Haghparast, Tommi Mikkonen, Jukka K. Nurminen, Vlad Stirbu(参考訳) 量子コンピューティングへの関心は高まっているが、コスト効率が高く信頼性の高い量子ソフトウェアアプリケーションを実現するための開発は遅い。 ひとつの障壁は、量子プログラムのソフトウェアエンジニアリングであり、2つの方向からアプローチできる。 一方で、特にデバッグといった多くのソフトウェアエンジニアリングプラクティスは、古典的なコンピューティングに縛られている。 一方、量子プログラミングは量子物理学の現象と密接に関連しており、プログラムの表現の仕方はプログラミングの初期と似ている。 さらに、今日のソフトウェアエンジニアリング研究の多くはアジャイル開発に重点を置いており、計算サイクルは安価で、新しいソフトウェアを迅速にデプロイしてテストできるのに対して、量子コンテキストでは、実行は大量のエネルギーを消費し、テストの実行には多くの作業が必要になる可能性がある。 本稿では、量子コンピューティングワークフローを始め、既存のソフトウェア工学研究をこのワークフローにマッピングすることで、このギャップを埋めることを目的とする。 マッピングに基づいて、量子コンピューティングのためのソフトウェア工学研究の方向性を特定する。

Despite the increasing interest in quantum computing, the aspect of development to achieve cost-effective and reliable quantum software applications has been slow. One barrier is the software engineering of quantum programs, which can be approached from two directions. On the one hand, many software engineering practices, debugging in particular, are bound to classical computing. On the other hand, quantum programming is closely associated with the phenomena of quantum physics, and consequently, the way we express programs resembles the early days of programming. Moreover, much of the software engineering research today focuses on agile development, where computing cycles are cheap and new software can be rapidly deployed and tested, whereas in the quantum context, executions may consume lots of energy, and test runs may require lots of work to interpret. In this paper, we aim at bridging this gap by starting with the quantum computing workflow and by mapping existing software engineering research to this workflow. Based on the mapping, we then identify directions for software engineering research for quantum computing.
翻訳日:2023-08-03 12:50:37 公開日:2023-08-02
# DySTreSS: 自己監督型コントラスト学習における動的スケール温度

DySTreSS: Dynamically Scaled Temperature in Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2308.01140v1 )

ライセンス: Link先を確認
Siladittya Manna, Soumitri Chattopadhyay, Rakesh Dey, Saumik Bhattacharya, Umapada Pal(参考訳) SimCLRやMoCoなどの現代の自己監督型コントラストアルゴリズムでは、2つの意味論的に類似したサンプル間のアトラクションのバランスと、異なるクラスからの2つのサンプル間の反発は、主にハードネガティブなサンプルの存在によって影響を受ける。 情報損失はハードネスに基づくペナルティを課すことが示されているが、温度ハイパーパラメータはペナルティの規制と均一性と耐性の間のトレードオフの鍵である。 本研究では, 温度ハイパーパラメータ値の影響を調べることにより, sslにおけるインフォメーションロスの性能向上に着目する。 特徴空間における試料分布を効果的に最適化するために,コサイン類似度依存性温度スケーリング関数を提案する。 さらに,統一性と耐性の指標を分析し,コサイン類似性空間の最適領域を調査した。 さらに、温度が変化するにつれて、前訓練フェーズを通して特徴空間における局所構造と大域構造の挙動を網羅的に調べる。 実験的な証拠は、提案されたフレームワークが、対照的な損失ベースのSSLアルゴリズムよりも優れているか、あるいは同等であることを示している。 SSLの温度スケーリングに関する我々の研究(DySTreSS)は、コントラスト学習における将来の研究の基盤となると信じています。

In contemporary self-supervised contrastive algorithms like SimCLR, MoCo, etc., the task of balancing attraction between two semantically similar samples and repulsion between two samples from different classes is primarily affected by the presence of hard negative samples. While the InfoNCE loss has been shown to impose penalties based on hardness, the temperature hyper-parameter is the key to regulating the penalties and the trade-off between uniformity and tolerance. In this work, we focus our attention to improve the performance of InfoNCE loss in SSL by studying the effect of temperature hyper-parameter values. We propose a cosine similarity-dependent temperature scaling function to effectively optimize the distribution of the samples in the feature space. We further analyze the uniformity and tolerance metrics to investigate the optimal regions in the cosine similarity space for better optimization. Additionally, we offer a comprehensive examination of the behavior of local and global structures in the feature space throughout the pre-training phase, as the temperature varies. Experimental evidence shows that the proposed framework outperforms or is at par with the contrastive loss-based SSL algorithms. We believe our work (DySTreSS) on temperature scaling in SSL provides a foundation for future research in contrastive learning.
翻訳日:2023-08-03 12:50:21 公開日:2023-08-02
# 複合目的をもつ局所的微分的連合学習のための動的プライバシー割当

Dynamic Privacy Allocation for Locally Differentially Private Federated Learning with Composite Objectives ( http://arxiv.org/abs/2308.01139v1 )

ライセンス: Link先を確認
Jiaojiao Zhang, Dominik Fay, and Mikael Johansson(参考訳) 本稿では,各作業者の勾配を誠実だが好ましくないサーバから保護する,強い凸性を持つがおそらく非滑らかな問題に対する局所的に微分プライベートなフェデレーション学習アルゴリズムを提案する。 提案手法は,プライバシを確保するために共有情報に人工ノイズを付加し,事前定義されたプライバシ予算制約の対象となる最適化誤差の上限を最小化するために,時間変動ノイズ分散を動的に割り当てる。 これにより、任意に大きいが有限個のイテレーションが、最適なソリューションの近傍までプライバシー保護とユーティリティの両方を達成することができ、イテレーション数をチューニングする必要がなくなる。 解析結果から,提案手法が最先端手法よりも優れていることを示す。

This paper proposes a locally differentially private federated learning algorithm for strongly convex but possibly nonsmooth problems that protects the gradients of each worker against an honest but curious server. The proposed algorithm adds artificial noise to the shared information to ensure privacy and dynamically allocates the time-varying noise variance to minimize an upper bound of the optimization error subject to a predefined privacy budget constraint. This allows for an arbitrarily large but finite number of iterations to achieve both privacy protection and utility up to a neighborhood of the optimal solution, removing the need for tuning the number of iterations. Numerical results show the superiority of the proposed algorithm over state-of-the-art methods.
翻訳日:2023-08-03 12:49:58 公開日:2023-08-02
# 騒音パターンを伝達できるか? 生成事例を用いたマルチ環境スペクトル分析モデル

Can We Transfer Noise Patterns? An Multi-environment Spectrum Analysis Model Using Generated Cases ( http://arxiv.org/abs/2308.01138v1 )

ライセンス: Link先を確認
Haiwen Du, Zheng Ju, Yu An, Honghui Du, Dongjie Zhu, Zhaoshuo Tian, Aonghus Lawlor, Ruihai Dong(参考訳) オンライン水質試験におけるスペクトル分析システムは汚染物質の種類や濃度を検出し、規制当局が汚染事件に迅速に対応できるように設計されている。 しかしながら、スペクトルデータベースのテストデバイスは、非制御環境にデプロイすると複雑なノイズパターンに苦しむ。 分析モデルをより多くの環境に適用するために,異なる環境における標準水サンプルのスペクトルを事例として,そのノイズパターンの違いを学習し,未知のサンプルへのノイズパターンの転送を可能にするノイズパターン伝達モデルを提案する。 残念ながら、サンプルレベルのベースラインノイズは、データセットレベルの環境ノイズのみが異なるペアデータを得ることができない。 この問題に対処するため,サンプルからサンプルまでのケースベースを生成し,データセットレベルのノイズ学習におけるサンプルレベルのノイズの干渉を排除し,システムの学習性能を向上させる。 背景雑音の異なるスペクトルデータを用いた実験により,ウェーブレット雑音化,ディープニューラルネットワーク,生成モデルなどのベースラインシステムに対する提案手法のノイズ伝達性能が向上した。 そこで本研究では,高品質なケースを生成すれば,DLモデルの性能を向上させることができると提案する。 ソースコードはhttps://github.com/Magnomic/CNSTで公開されている。

Spectrum analysis systems in online water quality testing are designed to detect types and concentrations of pollutants and enable regulatory agencies to respond promptly to pollution incidents. However, spectral data-based testing devices suffer from complex noise patterns when deployed in non-laboratory environments. To make the analysis model applicable to more environments, we propose a noise patterns transferring model, which takes the spectrum of standard water samples in different environments as cases and learns the differences in their noise patterns, thus enabling noise patterns to transfer to unknown samples. Unfortunately, the inevitable sample-level baseline noise makes the model unable to obtain the paired data that only differ in dataset-level environmental noise. To address the problem, we generate a sample-to-sample case-base to exclude the interference of sample-level noise on dataset-level noise learning, enhancing the system's learning performance. Experiments on spectral data with different background noises demonstrate the good noise-transferring ability of the proposed method against baseline systems ranging from wavelet denoising, deep neural networks, and generative models. From this research, we posit that our method can enhance the performance of DL models by generating high-quality cases. The source code is made publicly available online at https://github.com/Magnomic/CNST.
翻訳日:2023-08-03 12:49:45 公開日:2023-08-02
# NvidiaのDeep Learning Acceleratorにリモートサイドチャネルを自動攻撃するMercury

Mercury: An Automated Remote Side-channel Attack to Nvidia Deep Learning Accelerator ( http://arxiv.org/abs/2308.01193v1 )

ライセンス: Link先を確認
Xiaobei Yan, Xiaoxuan Lou, Guowen Xu, Han Qiu, Shangwei Guo, Chip Hong Chang, Tianwei Zhang(参考訳) DNNアクセラレータは、推論プロセスを高速化し、エネルギー消費を減らすために、多くのシナリオで広くデプロイされている。 アクセラレーションの利用に関する大きな懸念のひとつは、デプロイされたモデルの機密性である。 アクセラレーション上でのモデル推論の実行は、サイドチャネル情報をリークする可能性があるため、敵が重要なモデル詳細を回復することができる。 このようなモデル抽出攻撃は、DNNモデルの知的特性を損なうだけでなく、いくつかの敵攻撃を促進する。 これまでの研究では、DNNアクセラレーターからモデルを抽出するためのサイドチャネル技術がいくつか示されているが、2つの理由から実用的ではない。 1) 現実の実用性に限界がある簡易な加速器実装のみを対象としている。 (2)人間分析とドメイン知識を必要とする。 これらの制限を克服するために,本論文では,市販のnvidia dnnアクセラレータに対する初の自動遠隔サイドチャネル攻撃であるmercuryを提案する。 マーキュリーの重要な洞察は、側チャネル抽出過程をシーケンス対シーケンス問題としてモデル化することである。 敵は、TDC(Time-to-digital converter)を利用して、ターゲットモデルの推論のパワートレースを遠隔で収集することができる。 そして、彼は学習モデルを使用して、事前の知識なしで、被害者モデルのアーキテクチャの詳細をパワートレースから自動的に回復する。 敵はアテンション機構を利用して、攻撃に最も寄与するリークポイントをローカライズすることができる。 評価の結果,水銀はモデル抽出の誤差率を1%以下に抑えることができた。

DNN accelerators have been widely deployed in many scenarios to speed up the inference process and reduce the energy consumption. One big concern about the usage of the accelerators is the confidentiality of the deployed models: model inference execution on the accelerators could leak side-channel information, which enables an adversary to preciously recover the model details. Such model extraction attacks can not only compromise the intellectual property of DNN models, but also facilitate some adversarial attacks. Although previous works have demonstrated a number of side-channel techniques to extract models from DNN accelerators, they are not practical for two reasons. (1) They only target simplified accelerator implementations, which have limited practicality in the real world. (2) They require heavy human analysis and domain knowledge. To overcome these limitations, this paper presents Mercury, the first automated remote side-channel attack against the off-the-shelf Nvidia DNN accelerator. The key insight of Mercury is to model the side-channel extraction process as a sequence-to-sequence problem. The adversary can leverage a time-to-digital converter (TDC) to remotely collect the power trace of the target model's inference. Then he uses a learning model to automatically recover the architecture details of the victim model from the power trace without any prior knowledge. The adversary can further use the attention mechanism to localize the leakage points that contribute most to the attack. Evaluation results indicate that Mercury can keep the error rate of model extraction below 1%.
翻訳日:2023-08-03 12:43:13 公開日:2023-08-02
# Data-Centric Diet: 医用画像分割に有効なマルチセンター・データセット・プルーニング

Data-Centric Diet: Effective Multi-center Dataset Pruning for Medical Image Segmentation ( http://arxiv.org/abs/2308.01189v1 )

ライセンス: Link先を確認
Yongkang He, Mingjin Chen, Zhijing Yang, Yongyi Lu(参考訳) 本稿では,データセットのかなりの部分を精度を犠牲にすることなく刈り取ることができるような高密度なラベル付け問題に対処する。 標準の医用画像セグメンテーションベンチマークでは、画像分類に適用された個別トレーニング例の損失勾配標準値が重要なサンプルを識別できないことが観察された。 そこで本稿では,DAD(Dynamic Average Dice)スコアを用いて,対象領域におけるトレーニングダイナミクスを考慮したデータプルーニング手法を提案する。 我々の知識を最大限に活用するため,我々は医療画像解析分野における高密度ラベリングタスクにおけるデータの重要性に最初に対処し,(1)厳密な経験的分析による根本原因の調査,(2)高密度ラベリング問題における効果的なデータプルーニングアプローチの決定,の貢献を行っている。 本ソリューションは,医用画像のセグメンテーションとデータソースの組み合わせによる重要な例を選択するために,強力だがシンプルなベースラインとして利用できる。

This paper seeks to address the dense labeling problems where a significant fraction of the dataset can be pruned without sacrificing much accuracy. We observe that, on standard medical image segmentation benchmarks, the loss gradient norm-based metrics of individual training examples applied in image classification fail to identify the important samples. To address this issue, we propose a data pruning method by taking into consideration the training dynamics on target regions using Dynamic Average Dice (DAD) score. To the best of our knowledge, we are among the first to address the data importance in dense labeling tasks in the field of medical image analysis, making the following contributions: (1) investigating the underlying causes with rigorous empirical analysis, and (2) determining effective data pruning approach in dense labeling problems. Our solution can be used as a strong yet simple baseline to select important examples for medical image segmentation with combined data sources.
翻訳日:2023-08-03 12:42:46 公開日:2023-08-02
# 3レベルディック量子電池

Three-level Dicke quantum battery ( http://arxiv.org/abs/2308.01188v1 )

ライセンス: Link先を確認
Dong-Lin Yang, Fang-Mei Yang, and Fu-Quan Dou(参考訳) 量子電池(Quantum Battery, QB)は、量子力学の原理によって制御されるエネルギー貯蔵・抽出装置である。 本稿では,3段階のディッケqbを提案し,フォック状態,コヒーレント状態,圧縮状態の3つの量子光学状態を考慮して帯電過程を検討する。 コヒーレント状態におけるqbの性能は、フォックおよびスクイズド状態と比較して大幅に向上する。 固定エネルギーは充電器とバッテリの絡み合いと正の相関を示し, 絡み合いを減らし, エルゴトロピーの増強につながることがわかった。 QB システムは漸近的に $N \rightarrow \infty$ として自由であることを示す。 蓄電エネルギーは、n=10$になると完全に抽出可能となり、チャージャーの初期状態とは独立に、蓄電エネルギーとして一貫した挙動に従う。

Quantum battery (QB) is the energy storage and extraction device that is governed by the principles of quantum mechanics. Here we propose a three-level Dicke QB and investigate its charging process by considering three quantum optical states: a Fock state, a coherent state, and a squeezed state. The performance of the QB in a coherent state is substantially improved compared to a Fock and squeezed states. We find that the locked energy is positively related to the entanglement between the charger and the battery, and diminishing the entanglement leads to the enhancement of the ergotropy. We demonstrate the QB system is asymptotically free as $N \rightarrow \infty$. The stored energy becomes fully extractable when $N=10$, and the charging power follows the consistent behavior as the stored energy, independent of the initial state of the charger.
翻訳日:2023-08-03 12:42:27 公開日:2023-08-02
# 部分ラベル前処理による帰納的識別近似による生成雑音ラベル学習

Generative Noisy-Label Learning by Implicit Dicriminative Approximation with Partial Label Prior ( http://arxiv.org/abs/2308.01184v1 )

ライセンス: Link先を確認
Fengbei Liu, Yuanhong Chen, Chong Wang, Yuyuan Liu, Gustavo Carneiro(参考訳) ノイズラベルによる学習は、識別モデルと生成モデルの両方で対処されている。 識別モデルは、より単純なモデリングとより効率的な計算訓練プロセスによってこの分野を支配してきたが、生成モデルは、クリーンでノイズの多いラベルを分離し、ラベル遷移行列の推定を改善するより効果的な手段を提供する。 しかし、生成的アプローチは、興味関連データとクリーンラベルのモデルのみを間接的に最適化する複雑な定式化を用いて、ノイズラベルとデータの結合可能性を最大化する。 さらに、これらのアプローチはトレーニングが難しい生成モデルに依存しており、非インフォーマティブなクリーンラベルプリミティブを使用する傾向がある。 本稿では,これら3つの問題に対処する生成雑音ラベル学習手法を提案する。 まず,データとクリーンラベルを直接関連付ける新しいモデル最適化を提案する。 第二に、生成モデルを識別モデルを用いて暗黙的に推定し、生成モデルの非効率な訓練を除去する。 第3に、雑音ラベル学習の監視信号として、部分ラベル学習に触発された新しい情報ラベルを提案する。 いくつかのノイズラベルベンチマークにおいて、我々の生成モデルは、識別モデルと同様の計算複雑性を維持しながら、最先端の結果を提供することを示した。

The learning with noisy labels has been addressed with both discriminative and generative models. Although discriminative models have dominated the field due to their simpler modeling and more efficient computational training processes, generative models offer a more effective means of disentangling clean and noisy labels and improving the estimation of the label transition matrix. However, generative approaches maximize the joint likelihood of noisy labels and data using a complex formulation that only indirectly optimizes the model of interest associating data and clean labels. Additionally, these approaches rely on generative models that are challenging to train and tend to use uninformative clean label priors. In this paper, we propose a new generative noisy-label learning approach that addresses these three issues. First, we propose a new model optimisation that directly associates data and clean labels. Second, the generative model is implicitly estimated using a discriminative model, eliminating the inefficient training of a generative model. Third, we propose a new informative label prior inspired by partial label learning as supervision signal for noisy label learning. Extensive experiments on several noisy-label benchmarks demonstrate that our generative model provides state-of-the-art results while maintaining a similar computational complexity as discriminative models.
翻訳日:2023-08-03 12:42:13 公開日:2023-08-02
# 暗黙的シーン理解のための解釈可能なエンド・ツー・エンド駆動モデル

Interpretable End-to-End Driving Model for Implicit Scene Understanding ( http://arxiv.org/abs/2308.01180v1 )

ライセンス: Link先を確認
Yiyang Sun, Xiaonian Wang, Yangyang Zhang, Jiagui Tang, Xiaqiang Tang, Jing Yao(参考訳) 運転シーン理解は、センサデータを通じて総合的なシーン情報を取得し、自動運転車の安全性に欠かせない下流タスクの基礎を提供する。 オブジェクト検出やシーングラフ生成などの特定の知覚タスクが一般的に使用される。 しかし、これらのタスクの結果は、シナリオを表現するのに十分ではない高次元のシーンの特徴からサンプリングする特性と等価である。 さらに、知覚タスクの目標は、エゴ軌道に影響を与える可能性のあるものだけに焦点を当てた人間の運転と矛盾する。 そこで,我々は,計画モジュールで案内されたシーン理解結果として暗黙の高次元特徴を抽出し,補助知覚タスクを用いてシーン理解の可能性を検証するため,エンドツーエンドで解釈可能な暗黙的シーン理解モデル(ii-dsu)を提案する。 CARLAベンチマークによる実験結果から,本手法は新たな最先端技術を実現し,よりリッチなシーン情報を具現化して,下流計画の優れた性能を実現することができることがわかった。

Driving scene understanding is to obtain comprehensive scene information through the sensor data and provide a basis for downstream tasks, which is indispensable for the safety of self-driving vehicles. Specific perception tasks, such as object detection and scene graph generation, are commonly used. However, the results of these tasks are only equivalent to the characterization of sampling from high-dimensional scene features, which are not sufficient to represent the scenario. In addition, the goal of perception tasks is inconsistent with human driving that just focuses on what may affect the ego-trajectory. Therefore, we propose an end-to-end Interpretable Implicit Driving Scene Understanding (II-DSU) model to extract implicit high-dimensional scene features as scene understanding results guided by a planning module and to validate the plausibility of scene understanding using auxiliary perception tasks for visualization. Experimental results on CARLA benchmarks show that our approach achieves the new state-of-the-art and is able to obtain scene features that embody richer scene information relevant to driving, enabling superior performance of the downstream planning.
翻訳日:2023-08-03 12:41:56 公開日:2023-08-02
# 暗黒領域壁の検出

Detecting Dark Domain Walls ( http://arxiv.org/abs/2308.01179v1 )

ライセンス: Link先を確認
Kate Clements and Benjamin Elder and Lucia Hackermueller and Mark Fromhold and Clare Burrage(参考訳) 二重井戸ポテンシャルと直接物質結合を持つ光スカラー場は密度駆動相転移を受け、ドメイン壁を形成する。 このような理論はダークエネルギー、ダークマター、またはナノHz重力波の背景を説明できる。 本研究では,実験室実験において,そのような領域壁の検出,スカラー場プロファイルの解法,試験粒子の運動にドメイン壁がどう影響するかを示す実験について述べる。 現在、パラメータ空間の制約のない領域では、ドメインの壁は検出可能なシグネチャを残している。

Light scalar fields, with double well potentials and direct matter couplings, undergo density driven phase transitions, leading to the formation of domain walls. Such theories could explain dark energy, dark matter or source the nanoHz gravitational-wave background. We describe an experiment that could be used to detect such domain walls in a laboratory experiment, solving for the scalar field profile, and showing how the domain wall affects the motion of a test particle. We find that, in currently unconstrained regions of parameter space, the domain walls leave detectable signatures.
翻訳日:2023-08-03 12:41:34 公開日:2023-08-02
# メモリ符号化モデル

Memory Encoding Model ( http://arxiv.org/abs/2308.01175v1 )

ライセンス: Link先を確認
Huzheng Yang, James Gee, Jianbo Shi(参考訳) メモリ関連情報を入力として付加することにより,新しい脳エンコーディングモデルを提案する。 記憶は視覚刺激と共に働く重要な脳機構である。 視覚記憶認知課題では,これまで見てきた画像を用いて非視覚脳が予測可能であることが判明した。 私たちのメモリエンコーディングモデル(Mem)は、モデルアンサンブルなしでも(シングルモデルスコア66.8、アンサンブルスコア70.8)、Algonauts 2023視覚脳コンテストで優勝しました。 メモリ入力のないアンサンブルモデル(61.4)も3位に立つことができる。 さらに, 周期的遅延脳反応は第6~7次前野画像と相関し, 海馬はこの周期性と時間的活動の相関を示した。 我々は、周期的なリプレイが作業メモリを強化するためのメモリ機構と関連している可能性を示唆する。

We explore a new class of brain encoding model by adding memory-related information as input. Memory is an essential brain mechanism that works alongside visual stimuli. During a vision-memory cognitive task, we found the non-visual brain is largely predictable using previously seen images. Our Memory Encoding Model (Mem) won the Algonauts 2023 visual brain competition even without model ensemble (single model score 66.8, ensemble score 70.8). Our ensemble model without memory input (61.4) can also stand a 3rd place. Furthermore, we observe periodic delayed brain response correlated to 6th-7th prior image, and hippocampus also showed correlated activity timed with this periodicity. We conjuncture that the periodic replay could be related to memory mechanism to enhance the working memory.
翻訳日:2023-08-03 12:41:25 公開日:2023-08-02
# 直接勾配時間差学習

Direct Gradient Temporal Difference Learning ( http://arxiv.org/abs/2308.01170v1 )

ライセンス: Link先を確認
Xiaochi Qian, Shangtong Zhang(参考訳) オフ・ポリシー・ラーニングは、強化学習(rl)エージェントが実行されないポリシーについて反事実的に判断することが可能であり、rlで最も重要なアイデアの1つである。 しかし、機能近似とブートストラップを組み合わせると不安定になり、大規模な強化学習に欠かせない2つの要素が組み合わされる。 これは悪名高い 致命的なトリアドだ GTD(Gradient Temporal difference)は、致命的な三位一体を解決する強力なツールである。 その成功は、重みの重複やフェンシェル双対性で間接的に二重サンプリング問題を解くことによる。 本稿では,マルコフデータストリーム内の2つのサンプルをギャップを増加させることで,二重サンプリング問題を解くための直接的手法を提案する。 結果として得られるアルゴリズムはGTDと同じくらい計算効率が良いが、GTDの余分な重みを排除できる。 時間の経過とともにメモリを対数的に増やすだけなのです。 漸近的および有限なサンプル分析を行い, 収束率は正準オンポリティカル時間差学習とほぼ同値である。 我々の分析の鍵は、制限ODEの斬新な離散化である。

Off-policy learning enables a reinforcement learning (RL) agent to reason counterfactually about policies that are not executed and is one of the most important ideas in RL. It, however, can lead to instability when combined with function approximation and bootstrapping, two arguably indispensable ingredients for large-scale reinforcement learning. This is the notorious deadly triad. Gradient Temporal Difference (GTD) is one powerful tool to solve the deadly triad. Its success results from solving a doubling sampling issue indirectly with weight duplication or Fenchel duality. In this paper, we instead propose a direct method to solve the double sampling issue by simply using two samples in a Markovian data stream with an increasing gap. The resulting algorithm is as computationally efficient as GTD but gets rid of GTD's extra weights. The only price we pay is a logarithmically increasing memory as time progresses. We provide both asymptotic and finite sample analysis, where the convergence rate is on-par with the canonical on-policy temporal difference learning. Key to our analysis is a novel refined discretization of limiting ODEs.
翻訳日:2023-08-03 12:41:15 公開日:2023-08-02
# 非エルミートフェルミオン二次形式のジョルダン分解

Jordan Decomposition of Non-Hermitian Fermionic Quadratic Forms ( http://arxiv.org/abs/2308.01166v1 )

ライセンス: Link先を確認
Shunta Kitahama, Ryo Toyota, Hironobu Yoshida, Hosho Katsura(参考訳) 我々は Prosen [Prosen T 2010 J. Stat による Conjecture 3.1 の厳密な証明を与える。 メッチ $\textbf{2010}$ P07020] は二次フェルミオンイオビリアンのジョルダン分解の零部分についてのものである。 また、各大きさのジョーダンブロックの数は、$q$-二項係数と呼ばれる多項式の係数で表せることを示し、また、零部分のジョルダン標準形式を得る手順を記述する。

We give a rigorous proof of Conjecture 3.1 by Prosen [Prosen T 2010 J. Stat. Mech. $\textbf{2010}$ P07020] on the nilpotent part of the Jordan decomposition of a quadratic fermionic Liouvillian. We also show that the number of the Jordan blocks of each size can be expressed in terms of the coefficients of a polynomial called the $q$-binomial coefficient and describe the procedure to obtain the Jordan canonical form of the nilpotent part.
翻訳日:2023-08-03 12:40:58 公開日:2023-08-02
# ステークホルダー・イン・ザ・ループフェア決定:公共組織と民間組織における意思決定支援システムを設計するための枠組み

Stakeholder-in-the-Loop Fair Decisions: A Framework to Design Decision Support Systems in Public and Private Organizations ( http://arxiv.org/abs/2308.01163v1 )

ライセンス: Link先を確認
Yuri Nakao, Takuya Yokota(参考訳) 機械学習技術の不透明さのため、公共または民間組織で使用される意思決定支援システムには、説明可能性と公正性が必要である。 適切な説明と公平な意思決定の基準は、決定の影響を受ける人の値によって変化するが、各ステークホルダーの適切なアウトプットを検討するための議論の枠組みが欠如している。 本稿では,「ループ内での公正な決定」と呼ばれる議論の枠組みを提案する。 これは適切な説明と公平な決定の要件を検討するために提案される。 説明責任決定支援システムを設計するために必要な利害関係者を4名特定し,作業を参照して各利害関係者の適切なアウトプットを検討する方法について検討した。 各アプリケーション領域における特定の利害関係者の特徴を明確にし、すべての利害関係者が同意する出力に利害関係者の価値観を統合することで、意思決定支援システムは説明責任のある意思決定を保証するシステムとして設計することができる。

Due to the opacity of machine learning technology, there is a need for explainability and fairness in the decision support systems used in public or private organizations. Although the criteria for appropriate explanations and fair decisions change depending on the values of those who are affected by the decisions, there is a lack of discussion framework to consider the appropriate outputs for each stakeholder. In this paper, we propose a discussion framework that we call "stakeholder-in-the-loop fair decisions." This is proposed to consider the requirements for appropriate explanations and fair decisions. We identified four stakeholders that need to be considered to design accountable decision support systems and discussed how to consider the appropriate outputs for each stakeholder by referring to our works. By clarifying the characteristics of specific stakeholders in each application domain and integrating the stakeholders' values into outputs that all stakeholders agree upon, decision support systems can be designed as systems that ensure accountable decision makings.
翻訳日:2023-08-03 12:40:49 公開日:2023-08-02
# 医療用ケースにおけるdnn性能の視覚的検査におけるscrutinaiの使用

Using ScrutinAI for Visual Inspection of DNN Performance in a Medical Use Case ( http://arxiv.org/abs/2308.01220v1 )

ライセンス: Link先を確認
Rebekka G\"orge, Elena Haedecke, Michael Mock(参考訳) 当社のビジュアルアナリティクス(va)ツールであるscrutinaiは、パフォーマンスとデータセットをインタラクティブにモデル化するヒューマンアナリストを支援します。 モデルの性能はラベル付けの品質に大きく依存する。 特に医療環境では、高品質なラベルの生成には専門知識の深みが必要で、非常にコストがかかる。 データセットは専門家のグループの意見を集めることでラベル付けされることが多い。 VAツールを使用して、異なる専門家間のラベルのバリエーションがモデルパフォーマンスに与える影響を分析する。 scrutinaiは、ラベル品質の変化や欠如によるディープニューラルネットワーク(dnn)モデルの弱点と真の弱点を区別する根本原因分析の実行を促進する。 我々は,頭蓋内出血の全体的な検出と,公開データセットにおけるサブタイプ間のより微妙な分化について検討した。

Our Visual Analytics (VA) tool ScrutinAI supports human analysts to investigate interactively model performanceand data sets. Model performance depends on labeling quality to a large extent. In particular in medical settings, generation of high quality labels requires in depth expert knowledge and is very costly. Often, data sets are labeled by collecting opinions of groups of experts. We use our VA tool to analyse the influence of label variations between different experts on the model performance. ScrutinAI facilitates to perform a root cause analysis that distinguishes weaknesses of deep neural network (DNN) models caused by varying or missing labeling quality from true weaknesses. We scrutinize the overall detection of intracranial hemorrhages and the more subtle differentiation between subtypes in a publicly available data set.
翻訳日:2023-08-03 12:33:52 公開日:2023-08-02
# シーケンス問題--学習分析におけるシーケンス分析を用いた体系的文献レビュー

The sequence matters: A systematic literature review of using sequence analysis in Learning Analytics ( http://arxiv.org/abs/2308.01218v1 )

ライセンス: Link先を確認
Manuel Valle Torre, Marcus Specht, Catharine Oertel(参考訳) 学習者の行動のシーケンスの記述と分析は、学習分析でより普及しています。 それにもかかわらず、著者らは、学習シーケンスとは何か、どのデータが分析に使用されるのか、どの方法が実装されるのか、目的や教育的介入は、様々な定義を見出した。 本稿では,これらの概念を概観し,学習研究におけるシーケンス分析を用いた意思決定枠組みの構築を目的とする。 44の論文を分析した結果,シーケンスが分析される異なる学習タスクと教育的設定を強調表示し,シーケンス動作の異なる種類のデータマッピングモデルを特定し,目的とスコープに基づいて手法を区別し,シーケンス分析の結果に基づいて可能な教育的介入を識別した。

Describing and analysing sequences of learner actions is becoming more popular in learning analytics. Nevertheless, the authors found a variety of definitions of what a learning sequence is, of which data is used for the analysis, and which methods are implemented, as well as of the purpose and educational interventions designed with them. In this literature review, the authors aim to generate an overview of these concepts to develop a decision framework for using sequence analysis in educational research. After analysing 44 articles, the conclusions enable us to highlight different learning tasks and educational settings where sequences are analysed, identify data mapping models for different types of sequence actions, differentiate methods based on purpose and scope, and identify possible educational interventions based on the outcomes of sequence analysis.
翻訳日:2023-08-03 12:33:42 公開日:2023-08-02
# TeachCLIP: 効率的なテキスト・ビデオ検索のための多言語学習

TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval ( http://arxiv.org/abs/2308.01217v1 )

ライセンス: Link先を確認
Kaibin Tian, Ruixiang Zhao, Hu Hu, Runquan Xie, Fengzong Lian, Zhanhui Kang and Xirong Li(参考訳) アドホックなテキストクエリによるラベルなしビデオの検索を目的としたt2vr(text-to-video retrieval)では,クリップベースの手法が優勢だ。 効率的でコンパクトなCLIP4Clipと比較して、最先端のモデルは細粒度のクロスモーダルな機能相互作用とマッチングによってビデオテキストの類似性を計算し、大規模なT2VRのスケーラビリティを疑う傾向にある。 効率的なT2VRを実現するために,CLIP4Clipをベースとした学生ネットワークが,X-CLIP,TS2-Net,X-Poolといったより先進的で計算量の多いモデルから学習できるように,TeachCLIPをマルチグラデーションで提案する。 学生の学習能力を向上させるために,注意フレーム特徴集約 (afa) ブロックを追加した。 afaが生成する注意重みは、フレームレベルの特徴を組み合わせるために一般的に用いられるが、教師ネットワークによって推定されるフレームテキストの妥当性を模倣する新しい重み付けの利用を提案する。 そのため、AFAは学生(教師)にきめ細かい学習(教育)チャンネルを提供する。 複数のパブリックデータセットに対する広範囲な実験は、提案手法の有効性を正当化する。

For text-to-video retrieval (T2VR), which aims to retrieve unlabeled videos by ad-hoc textual queries, CLIP-based methods are dominating. Compared to CLIP4Clip which is efficient and compact, the state-of-the-art models tend to compute video-text similarity by fine-grained cross-modal feature interaction and matching, putting their scalability for large-scale T2VR into doubt. For efficient T2VR, we propose TeachCLIP with multi-grained teaching to let a CLIP4Clip based student network learn from more advanced yet computationally heavy models such as X-CLIP, TS2-Net and X-Pool . To improve the student's learning capability, we add an Attentional frame-Feature Aggregation (AFA) block, which by design adds no extra storage/computation overhead at the retrieval stage. While attentive weights produced by AFA are commonly used for combining frame-level features, we propose a novel use of the weights to let them imitate frame-text relevance estimated by the teacher network. As such, AFA provides a fine-grained learning (teaching) channel for the student (teacher). Extensive experiments on multiple public datasets justify the viability of the proposed method.
翻訳日:2023-08-03 12:33:27 公開日:2023-08-02
# 神経odeの埋め込み機能

Embedding Capabilities of Neural ODEs ( http://arxiv.org/abs/2308.01213v1 )

ライセンス: Link先を確認
Christian Kuehn and Sara-Viola Kuntz(参考訳) 過去数年間に特に注目されたニューラルネットワークのクラスは、ニューラル常微分方程式(ニューラルODE)である。 動的システム理論を用いてニューラルODEの入出力関係を解析し、低次元および高次元の異なるニューラルODEアーキテクチャにおけるマップの正確な埋め込みに関するいくつかの結果を示す。 ニューラルODEアーキテクチャの埋め込み能力は、例えば線形層の追加や位相空間の増大によって向上することができる。 しかし、現在では体系的な理論は存在せず、組込みが不可能な状況の特定だけでなく、様々な組込み結果を開発することで、この目標に貢献する。 用いられる数学的手法には、主成分反復関数方程式、モース関数、懸垂流、解析からのさらなるアイデアなどが含まれる。 実際、主に普遍近似定理が用いられるが、我々の普遍埋め込みに関する幾何学力学系の視点は、なぜある種のニューラルODEアーキテクチャが他よりも優れているのかという根本的な理解を与える。

A class of neural networks that gained particular interest in the last years are neural ordinary differential equations (neural ODEs). We study input-output relations of neural ODEs using dynamical systems theory and prove several results about the exact embedding of maps in different neural ODE architectures in low and high dimension. The embedding capability of a neural ODE architecture can be increased by adding, for example, a linear layer, or augmenting the phase space. Yet, there is currently no systematic theory available and our work contributes towards this goal by developing various embedding results as well as identifying situations, where no embedding is possible. The mathematical techniques used include as main components iterative functional equations, Morse functions and suspension flows, as well as several further ideas from analysis. Although practically, mainly universal approximation theorems are used, our geometric dynamical systems viewpoint on universal embedding provides a fundamental understanding, why certain neural ODE architectures perform better than others.
翻訳日:2023-08-03 12:33:00 公開日:2023-08-02
# 階層型ソフトマックスを用いたグローバル階層型ニューラルネットワーク

Global Hierarchical Neural Networks using Hierarchical Softmax ( http://arxiv.org/abs/2308.01210v1 )

ライセンス: Link先を確認
Jetze Schuurmans, Flavius Frasincar(参考訳) 本稿では,階層型ソフトマックスを用いてグローバルな階層型分類器を作成する枠組みを提案する。 このアプローチは、クラスの間に自然な階層がある任意の分類タスクに適用できる。 4つのテキスト分類データセットに実験結果を示す。 すべてのデータセットにおいて、階層的ソフトマックスは、マクロF1とマクロリコールの点でフラットな分類器で使われる通常のソフトマックスで改善された。 4つのデータセットのうち3つで、階層型softmaxは高いマイクロ精度とマクロ精度を達成した。

This paper presents a framework in which hierarchical softmax is used to create a global hierarchical classifier. The approach is applicable for any classification task where there is a natural hierarchy among classes. We show empirical results on four text classification datasets. In all datasets the hierarchical softmax improved on the regular softmax used in a flat classifier in terms of macro-F1 and macro-recall. In three out of four datasets hierarchical softmax achieved a higher micro-accuracy and macro-precision.
翻訳日:2023-08-03 12:32:31 公開日:2023-08-02
# クリフォードゲートの量子回路の高速等価性検証

Fast equivalence checking of quantum circuits of Clifford gates ( http://arxiv.org/abs/2308.01206v1 )

ライセンス: Link先を確認
Dimitrios Thanos, Tim Coopmans, Alfons Laarman(参考訳) 2つの量子回路が等価かどうかを確認することは、現実のデバイスを用いた量子コンピュータアプリケーションの設計と最適化に重要である。 クリフォードゲート(Clifford gates)は、全ての量子演算の事実上の関連部分集合であり、絡み合いのような量子的特徴を示すのに十分な大きさであり、量子エラー補正や多くの量子ネットワーク応用の基礎を形成する。 本稿では, 民俗学的な数学的結果に基づく決定論的アルゴリズムを示し, 従来考えられていた最先端手法を上回ることができることを示す。 特に、シングルビットと2ビットのクリフォードゲートの列として2つのクリフォード回路が与えられたとき、アルゴリズムはそれらの等価性を$O(n \cdot m)$ time in the number of qubits $n$ and number of elementary Clifford gates $m$でチェックする。 動作型Stimシミュレータをバックエンドとして,1000キュービット (および10.000ゲート) の量子回路の等価性を$\sim$22秒で,100.000キュービット (deepth 10) の回路を$\sim$15分でチェックし,既存のSATベースおよびパス積分ベースのアプローチを桁違いに比較した。 このアプローチは、量子演算の応用関連部分集合の正確性が、実際には大きな回路まで検証できることを示している。

Checking whether two quantum circuits are equivalent is important for the design and optimization of quantum-computer applications with real-world devices. We consider quantum circuits consisting of Clifford gates, a practically-relevant subset of all quantum operations which is large enough to exhibit quantum features such as entanglement and forms the basis of, for example, quantum-error correction and many quantum-network applications. We present a deterministic algorithm that is based on a folklore mathematical result and demonstrate that it is capable of outperforming previously considered state-of-the-art method. In particular, given two Clifford circuits as sequences of single- and two-qubit Clifford gates, the algorithm checks their equivalence in $O(n \cdot m)$ time in the number of qubits $n$ and number of elementary Clifford gates $m$. Using the performant Stim simulator as backend, our implementation checks equivalence of quantum circuits with 1000 qubits (and a circuit depth of 10.000 gates) in $\sim$22 seconds and circuits with 100.000 qubits (depth 10) in $\sim$15 minutes, outperforming the existing SAT-based and path-integral based approaches by orders of magnitude. This approach shows that the correctness of application-relevant subsets of quantum operations can be verified up to large circuits in practice.
翻訳日:2023-08-03 12:30:54 公開日:2023-08-02
# 競合認識型グラディエント合意強化による視覚強化学習の一般化

Improving Generalization in Visual Reinforcement Learning via Conflict-aware Gradient Agreement Augmentation ( http://arxiv.org/abs/2308.01194v1 )

ライセンス: Link先を確認
Siao Liu, Zhaoyu Chen, Yang Liu, Yuzheng Wang, Dingkang Yang, Zhile Zhao, Ziqing Zhou, Xie Yi, Wei Li, Wenqiang Zhang, Zhongxue Gan(参考訳) 目に見えない環境への大きな一般化を伴うポリシーの学習は、視覚強化学習において依然として挑戦的だが批判的である。 教師付き学習一般化における強化組み合わせの成功にもかかわらず、視覚的RLアルゴリズムに鼻で適用することで、性能劣化に悩まされる訓練効率を損なう可能性がある。 本稿では,まず質的分析を行い,主な原因を明らかにする。 (i)高分散勾配等級及び (ii)様々な増補法に勾配衝突があった。 これらの問題を緩和するために,コンフリクト・アウェア・グラデーション・アグリゲーション・アグリゲーション(cg2a)と呼ばれる一般的なポリシーグラデーション最適化フレームワークを提案する。 特にcg2aは、変化する勾配等級を適応的にバランスさせる勾配一致ソルバを開発し、勾配衝突を緩和するためのソフト勾配手術戦略を導入する。 CG2Aは視覚的RLアルゴリズムの一般化性能とサンプル効率を大幅に改善することを示した。

Learning a policy with great generalization to unseen environments remains challenging but critical in visual reinforcement learning. Despite the success of augmentation combination in the supervised learning generalization, naively applying it to visual RL algorithms may damage the training efficiency, suffering from serve performance degradation. In this paper, we first conduct qualitative analysis and illuminate the main causes: (i) high-variance gradient magnitudes and (ii) gradient conflicts existed in various augmentation methods. To alleviate these issues, we propose a general policy gradient optimization framework, named Conflict-aware Gradient Agreement Augmentation (CG2A), and better integrate augmentation combination into visual RL algorithms to address the generalization bias. In particular, CG2A develops a Gradient Agreement Solver to adaptively balance the varying gradient magnitudes, and introduces a Soft Gradient Surgery strategy to alleviate the gradient conflicts. Extensive experiments demonstrate that CG2A significantly improves the generalization performance and sample efficiency of visual RL algorithms.
翻訳日:2023-08-03 12:30:13 公開日:2023-08-02
# 高解像度リモートセンシング画像とディジタル標高モデルデータを用いた地すべり検出のためのハイパーピクセル・コントラスト学習強化セグメンテーションネットワーク

A Hyper-pixel-wise Contrastive Learning Augmented Segmentation Network for Old Landslide Detection Using High-Resolution Remote Sensing Images and Digital Elevation Model Data ( http://arxiv.org/abs/2308.01251v1 )

ライセンス: Link先を確認
Yiming Zhou, Yuexing Peng, Wei Li, Junchuan Yu, Daqing Ge, Wei Xiang(参考訳) 災害として、地すべりはしばしば人類に多大な損失をもたらすため、地すべりの確実な検出を実現する必要がある。 しかし, リモートセンシングデータを用いた地すべり検出作業では, 視覚のぼやけや小型データセットの問題点が大きな課題となっている。 セマンティックな特徴を確実に抽出するために,HPCLを介して地すべりの境界から局所的に有意な特徴を抽出し,高解像度リモートセンシング画像とディジタル標高モデルデータからセマンティック空間における不均一なインジェクションを融合する,HPCL-Net(Hyper-Pixel-wise contrastive Learning augmented segmentation Network)を提案する。 貴重なサンプルをフル活用するために,ハイパーピクセル単位のサンプルを格納するグローバルキューの構築と運動量エンコーダの更新スキームを含むグローバルハイパーピクセル単位のサンプルペアキューベースのコントラスト学習手法を開発し,意味的特徴の抽出能力を確実に向上した。 提案したHPCL-Netは,Loess高原の旧地すべりデータセットを用いて評価し,mIoU測定値が0.620から0.651に,Landslide IoU測定値が0.334から0.394に,F1スコア測定値が0.501から0.565に,旧地すべり検出の信頼性を大幅に向上させることを示した。

As a harzard disaster, landslide often brings tremendous losses to humanity, so it's necessary to achieve reliable detection of landslide. However, the problems of visual blur and small-sized dataset cause great challenges for old landslide detection task when using remote sensing data. To reliably extract semantic features, a hyper-pixel-wise contrastive learning augmented segmentation network (HPCL-Net) is proposed, which augments the local salient feature extraction from the boundaries of landslides through HPCL and fuses the heterogeneous infromation in the semantic space from High-Resolution Remote Sensing Images and Digital Elevation Model Data data. For full utilization of the precious samples, a global hyper-pixel-wise sample pair queues-based contrastive learning method, which includes the construction of global queues that store hyper-pixel-wise samples and the updating scheme of a momentum encoder, is developed, reliably enhancing the extraction ability of semantic features. The proposed HPCL-Net is evaluated on a Loess Plateau old landslide dataset and experiment results show that the model greatly improves the reliablity of old landslide detection compared to the previous old landslide segmentation model, where mIoU metric is increased from 0.620 to 0.651, Landslide IoU metric is increased from 0.334 to 0.394 and F1-score metric is increased from 0.501 to 0.565.
翻訳日:2023-08-03 12:24:50 公開日:2023-08-02
# リアルタイムマルチオブジェクトトラッキングへのハイブリッドアプローチ

A Hybrid Approach To Real-Time Multi-Object Tracking ( http://arxiv.org/abs/2308.01248v1 )

ライセンス: Link先を確認
Vincenzo Mariano Scarrica, Ciro Panariello, Alessio Ferone, Antonino Staiano(参考訳) マルチオブジェクトトラッキング(multi-object tracking、マルチターゲットトラッキング)は、コンピュータビジョンの重要な領域であり、様々な設定で多くの用途がある。 深層学習(deep learning)の開発は、研究者にこの方向での研究をより多く提案するよう促しており、追跡研究やコンピュータビジョンに関連する多くの分野に関する科学的進歩に大きな影響を与えている。 実際、現在文学や追跡業界で最先端のソリューションはすべて、非常に優れた結果を生み出すディープラーニング方法論上に構築されています。 ディープラーニングは、研究者がこれらのモデルによって要求される重要な計算資源を扱うために利用できる、より強力な技術のおかげで実現されている。 しかし、リアルタイムが主な要件である場合、膨大な計算リソースを持つ高価なハードウェアサポートに制約されることなく、トラッキングシステムを開発することは、実世界の状況でアプリケーションの追跡を広げるために必要である。 この目的のために、より伝統的なアプローチと強力なディープ戦略を組み合わせることで、リアルタイムドメインに適しているにもかかわらず、より精度の低いトラッキング結果のコストで、かなり低い処理ソリューションを優先する。 実際、本研究は、従来の光学フローアルゴリズムとディープラーニングアーキテクチャを効果的に組み合わせたリアルタイムマルチターゲットトラッキングのハイブリッド戦略を提案し、精度と計算コストの追跡性能のトレードオフを示す人力追跡システムを対象としている。 開発したアーキテクチャは異なる設定で実験し、比較した0.549の結果のうち0.608のMOTAが得られ、光学フローフェーズの導入時のランニング時間の半分は精度でほぼ同じ性能を実現した。

Multi-Object Tracking, also known as Multi-Target Tracking, is a significant area of computer vision that has many uses in a variety of settings. The development of deep learning, which has encouraged researchers to propose more and more work in this direction, has significantly impacted the scientific advancement around the study of tracking as well as many other domains related to computer vision. In fact, all of the solutions that are currently state-of-the-art in the literature and in the tracking industry, are built on top of deep learning methodologies that produce exceptionally good results. Deep learning is enabled thanks to the ever more powerful technology researchers can use to handle the significant computational resources demanded by these models. However, when real-time is a main requirement, developing a tracking system without being constrained by expensive hardware support with enormous computational resources is necessary to widen tracking applications in real-world contexts. To this end, a compromise is to combine powerful deep strategies with more traditional approaches to favor considerably lower processing solutions at the cost of less accurate tracking results even though suitable for real-time domains. Indeed, the present work goes in that direction, proposing a hybrid strategy for real-time multi-target tracking that combines effectively a classical optical flow algorithm with a deep learning architecture, targeted to a human-crowd tracking system exhibiting a desirable trade-off between performance in tracking precision and computational costs. The developed architecture was experimented with different settings, and yielded a MOTA of 0.608 out of the compared state-of-the-art 0.549 results, and about half the running time when introducing the optical flow phase, achieving almost the same performance in terms of accuracy.
翻訳日:2023-08-03 12:24:14 公開日:2023-08-02
# tirtha - 画像のクラウドソースと遺産の3dモデル作成のための自動化プラットフォーム

Tirtha -- An Automated Platform to Crowdsource Images and Create 3D Models of Heritage Sites ( http://arxiv.org/abs/2308.01246v1 )

ライセンス: Link先を確認
Jyotirmaya Shivottam and Subhankar Mishra(参考訳) 文化遺産(ch)のデジタル保存は、自然災害や人間の活動による被害から保護するために重要である。 CHサイトの3Dモデルの作成は、コンピュータビジョンとフォトグラムメトリーの進歩により、デジタル保存の一般的な方法となっている。 しかし、このプロセスは時間がかかり、高価であり、通常は特別な設備と専門知識を必要とし、資源に制限された発展途上国で課題を提起する。 さらに、3Dモデルのためのオープンリポジトリがないことは、研究と彼らの遺産への公的な関与を妨げる。 そこで我々は,chサイトの画像をクラウドソーシングして3dモデルを作成するためのwebプラットフォームであるtirthaを提案する。 Tirthaは最先端のStructure from Motion (SfM)とMulti-View Stereo (MVS)技術を利用している。 モジュラーで拡張可能で費用対効果があり、フォトグラメトリーの進歩に伴って新しい技術が取り入れられる。 Tirthaはhttps://tirtha.niser.ac.inのWebインターフェースを通じてアクセスでき、オンプレミスでもクラウド環境でもデプロイできる。 本研究では,インド,オディーシャの寺院の3dモデルを作成し,クラウドソーシング画像を用いてパイプラインの有効性を実証する。 これらのモデルは、tirthaのウェブサイトで閲覧、対話、ダウンロードが可能である。 本研究の目的は,コンピュータビジョン,遺産保存,関連ドメイン研究のためのクラウドソース画像と3D再構成のデータセットを提供することである。 全体として、Tirthaは、主に資源に制限された発展途上国で、デジタル保存の民主化に向けた一歩だ。

Digital preservation of Cultural Heritage (CH) sites is crucial to protect them against damage from natural disasters or human activities. Creating 3D models of CH sites has become a popular method of digital preservation thanks to advancements in computer vision and photogrammetry. However, the process is time-consuming, expensive, and typically requires specialized equipment and expertise, posing challenges in resource-limited developing countries. Additionally, the lack of an open repository for 3D models hinders research and public engagement with their heritage. To address these issues, we propose Tirtha, a web platform for crowdsourcing images of CH sites and creating their 3D models. Tirtha utilizes state-of-the-art Structure from Motion (SfM) and Multi-View Stereo (MVS) techniques. It is modular, extensible and cost-effective, allowing for the incorporation of new techniques as photogrammetry advances. Tirtha is accessible through a web interface at https://tirtha.niser.ac.in and can be deployed on-premise or in a cloud environment. In our case studies, we demonstrate the pipeline's effectiveness by creating 3D models of temples in Odisha, India, using crowdsourced images. These models are available for viewing, interaction, and download on the Tirtha website. Our work aims to provide a dataset of crowdsourced images and 3D reconstructions for research in computer vision, heritage conservation, and related domains. Overall, Tirtha is a step towards democratizing digital preservation, primarily in resource-limited developing countries.
翻訳日:2023-08-03 12:23:46 公開日:2023-08-02
# 無調波振動子の量子インプリント

Quantum Imprint of the Anharmonic Oscillator ( http://arxiv.org/abs/2308.01244v1 )

ライセンス: Link先を確認
Prisco Lo Chiatto, Sebastian Schenk, Felix Yu(参考訳) 古典的振舞いが支配される't Hooft-like double scaling limit'において、正確なウェンツェル・クラマース・ブリユーイン(WKB)法を用いて量子力学におけるアンハーモニックダブルウェルを研究する。 この二重スケーリング限界におけるトンネル作用を計算し、真空から高励起状態への遷移振幅と比較する。 我々の結果は、半古典的極限において、既約かつ驚くべきインスタントン寄与とは別に、2つの表現が一致することを示している。 したがって、アンハーモニック振動子の半古典的極限は、その量子起源を規則として裏切るものであり、量子論が古典的な振る舞いと本質的にギャップがあることを示す「量子インプリント規則」をダブしている。 還元主義の失敗の例と摂動物理学と非摂動物理学の復活的な関係の例に加えて、この研究は量子インプリントに基づいて理論の分類を可能にする。

We study the anharmonic double well in quantum mechanics using exact Wentzel-Kramers-Brillouin (WKB) methods in a 't Hooft-like double scaling limit where classical behavior is expected to dominate. We compute the tunneling action in this double scaling limit, and compare it to the transition amplitude from the vacuum to a highly excited state. Our results, exact in the semiclassical limit, show that the two expressions coincide, apart from an irreducible and surprising instanton contribution. Thus, the semiclassical limit of the anharmonic oscillator betrays its quantum origin as a rule, which we dub the "quantum imprint rule," showing that the quantum theory is intrinsically gapped from classical behavior. Besides an example of the failure of reductionism and an example of a resurgent connection between perturbative and nonperturbative physics, this work provides a possible classification of theories according to their quantum imprints.
翻訳日:2023-08-03 12:23:24 公開日:2023-08-02
# デジタル双生児脳:ヒト脳全体のシミュレーションと同化プラットフォーム

Digital Twin Brain: a simulation and assimilation platform for whole human brain ( http://arxiv.org/abs/2308.01241v1 )

ライセンス: Link先を確認
Wenlian Lu, Longbin Zeng, Xin Du, Wenyong Zhang, Shitong Xiang, Huarui Wang, Jiexiang Wang, Mingda Ji, Yubo Hou, Minglong Wang, Yuhao Liu, Zhongyu Chen, Qibao Zheng, Ningsheng Xu, Jianfeng Feng(参考訳) 本研究では、人間の脳全体のスパイク神経ネットワークをシミュレートし、さらに重要なことは、パーソナライズされた生物学的脳構造をシミュレートする、DTB(Digital twin brain)というコンピューティングプラットフォームを提案する。 多様大域構造を持つほとんどの脳シミュレーションと比較すると、脳のsmri、dti、petデータの疎結合性、結合性、不均一性は、脳シミュレーションの効率に本質的な影響を与えており、これは人間の脳シミュレーションのdtbが計算集約的ではなく、通信集約的かつメモリアクセス集約型計算システムであることを示すスケーリング実験から証明されている。 我々は,不均一な生体構造から一般のGPUベースのHPCへの計算負荷と通信トラフィックのバランスと統合に多くの最適化手法を応用し,ヒト脳スケールのスパイクニューロンネットワーク全体のシミュレーション性能を先導する。 一方、生体構造は、メソスコピックなデータ同化機能を備えており、逆エンジニアリング法により脳の認知機能を調べることが可能であり、DTBの視覚的評価のデジタル実験によって実証されている。 さらに、DTBの開発は、脳-インスピレーション・インテリジェンス、雨病医学、脳-機械インタフェースなど、多くの研究機関にとって有望な強力なプラットフォームになるだろうと考えています。

In this work, we present a computing platform named digital twin brain (DTB) that can simulate spiking neuronal networks of the whole human brain scale and more importantly, a personalized biological brain structure. In comparison to most brain simulations with a homogeneous global structure, we highlight that the sparseness, couplingness and heterogeneity in the sMRI, DTI and PET data of the brain has an essential impact on the efficiency of brain simulation, which is proved from the scaling experiments that the DTB of human brain simulation is communication-intensive and memory-access intensive computing systems rather than computation-intensive. We utilize a number of optimization techniques to balance and integrate the computation loads and communication traffics from the heterogeneous biological structure to the general GPU-based HPC and achieve leading simulation performance for the whole human brain-scaled spiking neuronal networks. On the other hand, the biological structure, equipped with a mesoscopic data assimilation, enables the DTB to investigate brain cognitive function by a reverse-engineering method, which is demonstrated by a digital experiment of visual evaluation on the DTB. Furthermore, we believe that the developing DTB will be a promising powerful platform for a large of research orients including brain-inspiredintelligence, rain disease medicine and brain-machine interface.
翻訳日:2023-08-03 12:23:06 公開日:2023-08-02
# コード理解と生成に基づく命令型大規模言語モデルの評価

Evaluating Instruction-Tuned Large Language Models on Code Comprehension and Generation ( http://arxiv.org/abs/2308.01240v1 )

ライセンス: Link先を確認
Zhiqiang Yuan, Junwei Liu, Qiancheng Zi, Mingwei Liu, Xin Peng, Yiling Lou(参考訳) 本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。 主な発見は以下のとおりである。 まず、ゼロショット設定では、LLMはコード理解と生成タスクにおいて非常に競争力があり、ダウンストリームタスクごとに微調整された小さなSOTAモデルよりも優れている場合があります。 また、より大きな命令付きLLMがコード関連のタスクで常に優れているとは限らないこともわかりました。 第二に、デモの例を追加することで、ほとんどのコード理解および生成タスクにおいてLLMがより優れたパフォーマンスを発揮できるが、その例は不安定あるいはさらに悪いパフォーマンスをもたらすことがある。 さらに,BM25をベースとしたショット選択戦略は,生成問題に対してのみ基本的ランダム選択や固定選択よりも有意に優れていた。 第三に、微調整設定では、ゼロショット/ワンショットのパフォーマンスと比較して、下流のコード理解および生成タスクにおけるモデル性能をさらに向上させることができる。 さらに、同じ下流タスクデータセットで微調整された後、命令チューニングなしで、小さなSOTAモデルと同様のスケールのLLMの両方の性能をLLMに教えた。 本研究は, モデルと利用の推奨, 性能とコストのトレードオフ, 今後の方向性に対する実践的な影響について述べる。

In this work, we evaluate 10 open-source instructed LLMs on four representative code comprehension and generation tasks. We have the following main findings. First, for the zero-shot setting, instructed LLMs are very competitive on code comprehension and generation tasks and sometimes even better than small SOTA models specifically fine-tuned on each downstream task. We also find that larger instructed LLMs are not always better on code-related tasks. Second, for the few-shot setting, we find that adding demonstration examples substantially helps instructed LLMs perform better on most code comprehension and generation tasks; however, the examples would sometimes induce unstable or even worse performance. Furthermore, we find widely-used BM25-based shot selection strategy significantly outperforms the basic random selection or fixed selection only on generation problems. Third, for the fine-tuning setting, we find that fine-tuning could further improve the model performance on downstream code comprehension and generation tasks compared to the zero-shot/one-shot performance. In addition, after being fine-tuned on the same downstream task dataset, instructed LLMs outperform both the small SOTA models and similar-scaled LLMs without instruction tuning. Based on our findings, we further present practical implications on model and usage recommendation, performance and cost trade-offs, and future direction.
翻訳日:2023-08-03 12:22:41 公開日:2023-08-02
# cmunext:大規模カーネルとスキップ融合に基づく効率的な医用画像分割ネットワーク

CMUNeXt: An Efficient Medical Image Segmentation Network based on Large Kernel and Skip Fusion ( http://arxiv.org/abs/2308.01239v1 )

ライセンス: Link先を確認
Fenghe Tang, Jianrui Ding, Lingtao Wang, Chunping Ning, S. Kevin Zhou(参考訳) 医用画像分割ネットワークの設計において,U字型アーキテクチャが重要なパラダイムとして登場した。 しかし、畳み込みの固有の局所的制限のため、U字型アーキテクチャを備えた完全畳み込みセグメンテーションネットワークは、病変の正確な局所化に不可欠なグローバルコンテキスト情報を効果的に抽出するのに苦労する。 CNNとトランスフォーマーを組み合わせたハイブリッドアーキテクチャはこれらの問題に対処できるが、環境やエッジデバイスによって課される計算資源の制約により、実際の医療シナリオでの応用は限られている。 さらに、軽量ネットワークにおける畳み込み型インダクティブバイアスは、トランスベースネットワークに欠けている不足した医療データにうまく適合する。 帰納バイアスを利用してグローバルなコンテキスト情報を抽出するために,実シーンにおける高速かつ正確な補助診断を可能にする,効率的な完全畳み込み型医用画像分割ネットワークであるCMUNeXtを提案する。 CMUNeXtは、大きめのカーネルと逆ボトルネック設計を利用して、遠隔空間と位置情報を徹底的に混合し、グローバルコンテキスト情報を効率的に抽出する。 また,スムーズなスキップ接続を実現し,十分な機能融合を実現するために,Skip-Fusionブロックを導入した。 複数の医用画像データセットを用いた実験の結果, cmunextは, 予測速度, 軽量化, 計算コストの低減とともに, 既存のヘビーウェイトおよび軽量医用画像セグメンテーションネットワークのセグメンテーション性能よりも優れていた。 コードはhttps://github.com/FengheTan9/CMUNeXt.comで入手できる。

The U-shaped architecture has emerged as a crucial paradigm in the design of medical image segmentation networks. However, due to the inherent local limitations of convolution, a fully convolutional segmentation network with U-shaped architecture struggles to effectively extract global context information, which is vital for the precise localization of lesions. While hybrid architectures combining CNNs and Transformers can address these issues, their application in real medical scenarios is limited due to the computational resource constraints imposed by the environment and edge devices. In addition, the convolutional inductive bias in lightweight networks adeptly fits the scarce medical data, which is lacking in the Transformer based network. In order to extract global context information while taking advantage of the inductive bias, we propose CMUNeXt, an efficient fully convolutional lightweight medical image segmentation network, which enables fast and accurate auxiliary diagnosis in real scene scenarios. CMUNeXt leverages large kernel and inverted bottleneck design to thoroughly mix distant spatial and location information, efficiently extracting global context information. We also introduce the Skip-Fusion block, designed to enable smooth skip-connections and ensure ample feature fusion. Experimental results on multiple medical image datasets demonstrate that CMUNeXt outperforms existing heavyweight and lightweight medical image segmentation networks in terms of segmentation performance, while offering a faster inference speed, lighter weights, and a reduced computational cost. The code is available at https://github.com/FengheTan9/CMUNeXt.
翻訳日:2023-08-03 12:22:21 公開日:2023-08-02
# ミスマッチ関係推論を用いた接地画像テキストマッチング

Grounded Image Text Matching with Mismatched Relation Reasoning ( http://arxiv.org/abs/2308.01236v1 )

ライセンス: Link先を確認
Yu Wu, Yana Wei, Haozhe Wang, Yongfei Liu, Sibei Yang, Xuming He(参考訳) 本稿では, トランスフォーマティブ型事前学習モデルの関係理解能力を評価する新しい視覚言語協調作業である, ミスマッチ関係を用いた接地画像テキストマッチング (gitm-mr) を提案する。 GITM-MRは、式が画像を記述するかどうかを最初に決定するためにモデルを必要とし、次に参照オブジェクトをローカライズするか、テキストのミスマッチ部分をグラウンドする。 このタスクで事前訓練されたモデルを評価するためのベンチマークを提供し、限られたデータと配布外文長の挑戦的な設定に焦点をあてる。 本評価は,事前学習モデルにデータ効率と長さ一般化能力が欠けていることを示す。 そこで本研究では,言語構造によって導かれる双方向メッセージ伝搬による関係認識推論を組み込んだ関係感応対応推論ネットワーク(rcrn)を提案する。 RCRNはモジュラープログラムとして解釈でき、長さの一般化とデータ効率の両面で高い性能を提供する。

This paper introduces Grounded Image Text Matching with Mismatched Relation (GITM-MR), a novel visual-linguistic joint task that evaluates the relation understanding capabilities of transformer-based pre-trained models. GITM-MR requires a model to first determine if an expression describes an image, then localize referred objects or ground the mismatched parts of the text. We provide a benchmark for evaluating pre-trained models on this task, with a focus on the challenging settings of limited data and out-of-distribution sentence lengths. Our evaluation demonstrates that pre-trained models lack data efficiency and length generalization ability. To address this, we propose the Relation-sensitive Correspondence Reasoning Network (RCRN), which incorporates relation-aware reasoning via bi-directional message propagation guided by language structure. RCRN can be interpreted as a modular program and delivers strong performance in both length generalization and data efficiency.
翻訳日:2023-08-03 12:21:50 公開日:2023-08-02
# 多言語言語モデルは英語でより良く考えるか?

Do Multilingual Language Models Think Better in English? ( http://arxiv.org/abs/2308.01223v1 )

ライセンス: Link先を確認
Julen Etxaniz, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle, Mikel Artetxe(参考訳) 翻訳テストは多言語言語モデルの性能を向上させるための一般的な手法である。 このアプローチは、外部機械翻訳システムを使用して入力を英語に翻訳し、翻訳された入力に対して推論を実行する。 しかし、これらの改善は、言語モデルでは見られない大量の並列データを訓練する独立した翻訳システムの使用に起因する可能性がある。 本研究では,多言語モデルの数ショット翻訳機能を活用することで,外部翻訳システムの必要性を克服する,自己翻訳と呼ばれる新しい手法を提案する。 5つのタスクの実験では、自己翻訳が直接推論より一貫して優れており、非英語言語で促されるとき、言語モデルが完全な多言語ポテンシャルを活用できないことが示されている。 私たちのコードはhttps://github.com/juletx/self-translateで利用可能です。

Translate-test is a popular technique to improve the performance of multilingual language models. This approach works by translating the input into English using an external machine translation system, and running inference over the translated input. However, these improvements can be attributed to the use of a separate translation system, which is typically trained on large amounts of parallel data not seen by the language model. In this work, we introduce a new approach called self-translate, which overcomes the need of an external translation system by leveraging the few-shot translation capabilities of multilingual language models. Experiments over 5 tasks show that self-translate consistently outperforms direct inference, demonstrating that language models are unable to leverage their full multilingual potential when prompted in non-English languages. Our code is available at https://github.com/juletx/self-translate.
翻訳日:2023-08-03 12:21:34 公開日:2023-08-02
# ディープラーニングにおける校正:最新技術に関する調査

Calibration in Deep Learning: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2308.01222v1 )

ライセンス: Link先を確認
Cheng Wang(参考訳) ディープニューラルネットワークモデルのキャリブレーションは、安全クリティカルなアプリケーションにおいて、信頼性が高くロバストなaiシステムを構築する上で重要な役割を果たす。 近年の研究では、予測能力の高い現代のニューラルネットワークは、キャリブレーションが不十分であり、信頼性の低いモデル予測を生成することが示されている。 深層学習モデルは様々なベンチマークで顕著な性能を発揮するが、モデルの校正と信頼性の研究は比較的過小評価されている。 理想の深層モデルは高い予測性能を持つだけでなく、高度に校正されるべきである。 様々なメカニズムを用いて深部モデルのキャリブレーションを行う手法が提案されている。 本稿では,最先端のキャリブレーション手法を概観し,モデルキャリブレーションの原理について考察する。 まず、モデルの校正の定義から始め、モデルの誤校正の根本原因を説明します。 そして、この側面を計測できる重要な指標を紹介します。 次に, 熱後校正法, 正則化法, 不確実性推定法, 構成法という4つのカテゴリに大別したキャリブレーション法を概説した。 我々はまた、特に大きな言語モデル(LLM)の校正における最近の進歩についても触れた。 最後に、オープンな問題、課題、潜在的な方向性について議論する。

Calibrating deep neural models plays an important role in building reliable, robust AI systems in safety-critical applications. Recent work has shown that modern neural networks that possess high predictive capability are poorly calibrated and produce unreliable model predictions. Though deep learning models achieve remarkable performance on various benchmarks, the study of model calibration and reliability is relatively underexplored. Ideal deep models should have not only high predictive performance but also be well calibrated. There have been some recent methods proposed to calibrate deep models by using different mechanisms. In this survey, we review the state-of-the-art calibration methods and provide an understanding of their principles for performing model calibration. First, we start with the definition of model calibration and explain the root causes of model miscalibration. Then we introduce the key metrics that can measure this aspect. It is followed by a summary of calibration methods that we roughly classified into four categories: post-hoc calibration, regularization methods, uncertainty estimation, and composition methods. We also covered some recent advancements in calibrating large models, particularly large language models (LLMs). Finally, we discuss some open issues, challenges, and potential directions.
翻訳日:2023-08-03 12:21:21 公開日:2023-08-02
# AIが生成したテキストをChatGPTで検出できるのか?

Fighting Fire with Fire: Can ChatGPT Detect AI-generated Text? ( http://arxiv.org/abs/2308.01284v1 )

ライセンス: Link先を確認
Amrita Bhattacharjee, Huan Liu(参考訳) chatgptのような大規模言語モデル(llm)は、大規模テキストコンテンツ生成を含む様々なユースケースでますます使われている。 このようなAI生成テキストの検出方法はすでに存在するが,ChatGPTをデータラベラやアノテーションとして使用する作業にインスパイアされた,そのようなAI生成テキストの検出器としてのChatGPTの性能について検討する。 人間の書き起こし対AI生成テキスト検出タスクにおけるChatGPTのゼロショット性能を評価し、公開データセットで実験を行う。 我々は,ChatGPTがAI生成テキストや人文テキストの検出に対称的に有効かどうかを実証的に検討する。 この結果から,ChatGPTと類似のLCMが,問題の特定の側面を解決し,その解から残りを導出することに集中して,自動検出パイプラインにどのように活用されるか,という知見が得られた。 すべてのコードとデータは \url{https://github.com/AmritaBh/ChatGPT-as-Detector} で公開されている。

Large language models (LLMs) such as ChatGPT are increasingly being used for various use cases, including text content generation at scale. Although detection methods for such AI-generated text exist already, we investigate ChatGPT's performance as a detector on such AI-generated text, inspired by works that use ChatGPT as a data labeler or annotator. We evaluate the zero-shot performance of ChatGPT in the task of human-written vs. AI-generated text detection, and perform experiments on publicly available datasets. We empirically investigate if ChatGPT is symmetrically effective in detecting AI-generated or human-written text. Our findings provide insight on how ChatGPT and similar LLMs may be leveraged in automated detection pipelines by simply focusing on solving a specific aspect of the problem and deriving the rest from that solution. All code and data is available at \url{https://github.com/AmritaBh/ChatGPT-as-Detector}.
翻訳日:2023-08-03 12:12:54 公開日:2023-08-02
# p-Adic Schr\"odinger方程式と量子力学における2分割実験

The p-Adic Schr\"odinger Equation and the Two-slit Experiment in Quantum Mechanics ( http://arxiv.org/abs/2308.01283v1 )

ライセンス: Link先を確認
W. A. Z\'u\~niga-Galindo(参考訳) p-進量子力学は、N-次元 p-進空間 Q_{p}^{N} 上の二乗可積分函数を持つ量子状態を特定するディラック・ヴォン・ノイマン公理から構成される。 時間は実変数であると仮定される。 時間進化は、時間的ウィック回転によりp進熱方程式から得られる非局所シュリンガー方程式によって制御される。 このp進熱方程式は、Q_{p}^{N}でランダムな運動を行う粒子を記述する。 ハミルトニアンは非局所作用素であるため、シュリンガー方程式は非局所相互作用の下での量子状態の進化を記述する。 このフレームワークでは、Schr\"odinger 方程式は平面波動解を許容するが、デ・ブロイ波動-粒子双対性は実時間と位置が p-進であることから排除される。 したがって、我々のモデルは量子波を持たない。 p-進schr\"odinger方程式に対する適切なコーシー問題を用いて、2スリットおよび1スリット実験のための数学的モデルを構築した。 当時、各スリットには局所化された粒子が存在し、これらの粒子は非局所的な方法で相互作用して干渉パターンを生成する。 2つのスリットによって作られるパターンは、スリットの距離が十分大きい場合、1つのスリットによって生成されるパターンに似ている。 最後に、古典的ド・ブロイ波動-粒子双対性は、時空の離散性を表すものである。

p-Adic quantum mechanics is constructed from the Dirac-von Neumann axioms identifying quantum states with square-integrable functions on the N-dimensional p-adic space, Q_{p}^{N}. The time is assumed to be a real variable. The time evolution is controlled by a nonlocal Schr\"odinger equation obtained from a p-adic heat equation by a temporal Wick rotation. This p-adic heat equation describes a particle performing a random motion in Q_{p}^{N}. The Hamiltonian is a nonlocal operator; thus, the Schr\"odinger equation describes the evolution of a quantum state under nonlocal interactions. In this framework, the Schr\"odinger equation admits plane wave solutions, but the de Broglie wave-particle duality is ruled out since the time is real and the position is p-adic. Consequently, our model has no quantum waves. Using a suitable Cauchy problem for the p-adic Schr\"odinger equation, we construct a mathematical model for the two-slit and one-slit experiments. At the time zero, at each slit, there is a localized particle; these particles interact with each other in a nonlocal way to produce an interference pattern. The pattern created by two slits looks like the pattern produced by one slit if the distance to the slits is sufficiently large. Finally, we propose that the classical de Broglie wave-particle duality is just a manifestation of the discreteness of space-time.
翻訳日:2023-08-03 12:12:37 公開日:2023-08-02
# 職場における量子熱平均計算のための量子アルゴリズム

Quantum Algorithms for the computation of quantum thermal averages at work ( http://arxiv.org/abs/2308.01279v1 )

ライセンス: Link先を確認
Riccardo Aiudi, Claudio Bonanno, Claudio Bonati, Giuseppe Clemente, Massimo D'Elia, Lorenzo Maio, Davide Rossini, Salvatore Tirone, Kevin Zambello(参考訳) 近年、真の量子プロセッサ上での熱平均を推定するために、様々な量子アルゴリズムが考案されている。 本稿では,いわゆるQuantum-Quantum Metropolisアルゴリズムの実装について考察する。 この目的のためのテストベッドとして、3つのフラストレーション量子スピンの基本的なシステムをシミュレートし、そのシステマティクスを量子メトロポリスサンプリングアルゴリズムと比較する。

Recently, a variety of quantum algorithms have been devised to estimate thermal averages on a genuine quantum processor. In this paper, we consider the practical implementation of the so-called Quantum-Quantum Metropolis algorithm. As a testbed for this purpose, we simulate a basic system of three frustrated quantum spins and discuss its systematics, also in comparison with the Quantum Metropolis Sampling algorithm.
翻訳日:2023-08-03 12:12:11 公開日:2023-08-02
# brnes:マルチエージェントロボットと自律システムにおけるセキュリティとプライバシアウェアエクスペリエンス共有の実現

BRNES: Enabling Security and Privacy-aware Experience Sharing in Multiagent Robotic and Autonomous Systems ( http://arxiv.org/abs/2308.01274v1 )

ライセンス: Link先を確認
Md Tamjid Hossain, Hung Manh La, Shahriar Badsha, and Anton Netchaev(参考訳) 経験共有(ES)は、アドバイザ・アドバイザ・フレームワークにおけるマルチエージェント強化学習(MARL)を促進するが、分散化されたマルチエージェントシステムにESを適用しようとする試みは、これまで信頼された環境に依存しており、敵の操作や推論の可能性を見落としている。 しかし、現実の世界では、助言者に変装したビザンチン人攻撃者が助言者に虚偽の助言を与え、全体的な学習性能を破滅的に低下させる可能性がある。 また、助言者に変装した推論攻撃者は、アドバイザの個人情報を推測し、プライバシー漏洩の観点からESプロセス全体を疑わしいものにするために、いくつかのクエリを実行することができる。 そこで本研究では,学習ステップごとに動的隣接ゾーンをヒューリスティックに選択し,ビザンチン攻撃の影響を軽減するために重み付け経験集約手法を採用する新しいmarlフレームワーク(brnes)を提案する。 さらに,エージェントの個人情報を敵対的推論攻撃から安全に保つため,esプロセス中にldp(local differential privacy)によって引き起こされるノイズを活用する。 実験の結果,我々のフレームワークは,目標達成,報奨,目標達成の時間という観点から,最先端のフレームワークよりも優れていることがわかった。 特に,提案するフレームワークは,現在の非プライベートフレームワークよりも8.32倍,対向的な設定では1.41倍高速であることを示す。

Although experience sharing (ES) accelerates multiagent reinforcement learning (MARL) in an advisor-advisee framework, attempts to apply ES to decentralized multiagent systems have so far relied on trusted environments and overlooked the possibility of adversarial manipulation and inference. Nevertheless, in a real-world setting, some Byzantine attackers, disguised as advisors, may provide false advice to the advisee and catastrophically degrade the overall learning performance. Also, an inference attacker, disguised as an advisee, may conduct several queries to infer the advisors' private information and make the entire ES process questionable in terms of privacy leakage. To address and tackle these issues, we propose a novel MARL framework (BRNES) that heuristically selects a dynamic neighbor zone for each advisee at each learning step and adopts a weighted experience aggregation technique to reduce Byzantine attack impact. Furthermore, to keep the agent's private information safe from adversarial inference attacks, we leverage the local differential privacy (LDP)-induced noise during the ES process. Our experiments show that our framework outperforms the state-of-the-art in terms of the steps to goal, obtained reward, and time to goal metrics. Particularly, our evaluation shows that the proposed framework is 8.32x faster than the current non-private frameworks and 1.41x faster than the private frameworks in an adversarial setting.
翻訳日:2023-08-03 12:12:04 公開日:2023-08-02
# 周期確率勾配MCMCを用いた自己教師付き学習の確率論的アプローチ

A Probabilistic Approach to Self-Supervised Learning using Cyclical Stochastic Gradient MCMC ( http://arxiv.org/abs/2308.01271v1 )

ライセンス: Link先を確認
Masoumeh Javanbakhat, Christoph Lippert(参考訳) 本稿では,周期確率勾配ハミルトニアンモンテカルロ(cSGHMC)を用いたベイズ的自己教師型学習手法を提案する。 本枠組みでは,自己教師型学習モデルのパラメータよりも先を置き,cSGHMCを用いて埋め込みの高次元および多モード後部分布を近似する。 埋め込み上で表現力のある後方を探索することで、ベイズ自己教師付き学習は解釈可能で多様な表現を生み出す。 これらの表現の限界化は、様々な下流分類タスクにおけるパフォーマンス、キャリブレーション、分散検出の大幅な向上をもたらす。 4つの挑戦的データセット上で複数の分類タスクに関する実験結果を提供する。 さらに,SVHNとCIFAR-10データセットを用いた分布外検出における提案手法の有効性を示す。

In this paper we present a practical Bayesian self-supervised learning method with Cyclical Stochastic Gradient Hamiltonian Monte Carlo (cSGHMC). Within this framework, we place a prior over the parameters of a self-supervised learning model and use cSGHMC to approximate the high dimensional and multimodal posterior distribution over the embeddings. By exploring an expressive posterior over the embeddings, Bayesian self-supervised learning produces interpretable and diverse representations. Marginalizing over these representations yields a significant gain in performance, calibration and out-of-distribution detection on a variety of downstream classification tasks. We provide experimental results on multiple classification tasks on four challenging datasets. Moreover, we demonstrate the effectiveness of the proposed method in out-of-distribution detection using the SVHN and CIFAR-10 datasets.
翻訳日:2023-08-03 12:11:35 公開日:2023-08-02
# GPT-4の道徳と法的推論の心理学的考察

Exploring the psychology of GPT-4's Moral and Legal Reasoning ( http://arxiv.org/abs/2308.01264v1 )

ライセンス: Link先を確認
Guilherme F. C. F. Almeida, Jos\'e Luiz Nunes, Neele Engelmann, Alex Wiegmann, Marcelo de Ara\'ujo(参考訳) 大規模言語モデルは高度に洗練された人工知能の基礎として使われ、法と道徳に関する調査に人間のような応答を届けることができる。 しかし、これらのモデルは自分たちの内部の作業に対する信頼できないガイドであり、彼らの背後にあるエンジニアリングチームでさえ、彼らが現在持っているすべての機能をどのように開発するのかを正確に説明できない。 機械心理学の新興分野は、これらのモデルが持つプロセスや概念についての洞察を得ようとしている。 本稿では,GPT-4の道徳的・法的理由を探るため,心理学的手法を用いる。 具体的には, GPT-4 と人間との類似性, 因果関係の判断, 虚偽の道徳性, 道徳的基盤, 道徳的運が法的判断に与える影響, 同意概念, ルール違反判断について検討する。 人間とAIの反応には高い相関関係があるが、その間にはいくつかの重要な系統的な違いがある。 結論として、発見の哲学的意味に関する議論を締めくくった。

Large language models have been used as the foundation of highly sophisticated artificial intelligences, capable of delivering human-like responses to probes about legal and moral issues. However, these models are unreliable guides to their own inner workings, and even the engineering teams behind their creation are unable to explain exactly how they came to develop all of the capabilities they currently have. The emerging field of machine psychology seeks to gain insight into the processes and concepts that these models possess. In this paper, we employ the methods of psychology to probe into GPT-4's moral and legal reasoning. More specifically, we investigate the similarities and differences between GPT-4 and humans when it comes to intentionality ascriptions, judgments about causation, the morality of deception, moral foundations, the impact of moral luck on legal judgments, the concept of consent, and rule violation judgments. We find high correlations between human and AI responses, but also several significant systematic differences between them. We conclude with a discussion of the philosophical implications of our findings.
翻訳日:2023-08-03 12:11:22 公開日:2023-08-02
# XSTest:大規模言語モデルにおける過大な安全行動を特定するテストスイート

XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models ( http://arxiv.org/abs/2308.01263v1 )

ライセンス: Link先を確認
Paul R\"ottger, Hannah Rose Kirk, Bertie Vidgen, Giuseppe Attanasio, Federico Bianchi, Dirk Hovy(参考訳) 適切な保護がなければ、大きな言語モデルは悪質な指示に従い、有害なコンテンツを生成する。 これは、モデルが役に立たず、無害になることを目標とする、レッドチームや大規模フィードバック学習のような安全努力を動機付ける。 しかし、この2つの目的の間には緊張関係があり、無害性はモデルが安全でないプロンプトに従わないことを要求するため、役に立たない。 最近の逸話的証拠は、いくつかのモデルではバランスが悪く、安全でないプロンプトに類似の言語を使用したり、センシティブなトピックに言及した場合、明確な安全プロンプトが拒否される可能性があることを示唆している。 本稿では,XSTestと呼ばれる新しいテストスイートを導入し,そのようなeXaggerated Safetyの振る舞いを構造化的かつ系統的に識別する。 現在の形式では、XSTestは10のプロンプトタイプにわたる200の安全なプロンプトで構成されている。 我々は、XSTestの作成と構成を説明し、最近リリースされた最先端の言語モデルで、テストスイートを使用して、システマティックな障害モードをハイライトする。

Without proper safeguards, large language models will readily follow malicious instructions and generate toxic content. This motivates safety efforts such as red-teaming and large-scale feedback learning, which aim to make models both helpful and harmless. However, there is a tension between these two objectives, since harmlessness requires models to refuse complying with unsafe prompts, and thus not be helpful. Recent anecdotal evidence suggests that some models may have struck a poor balance, so that even clearly safe prompts are refused if they use similar language to unsafe prompts or mention sensitive topics. In this paper, we introduce a new test suite called XSTest to identify such eXaggerated Safety behaviours in a structured and systematic way. In its current form, XSTest comprises 200 safe prompts across ten prompt types that well-calibrated models should not refuse to comply with. We describe XSTest's creation and composition, and use the test suite to highlight systematic failure modes in a recently-released state-of-the-art language model.
翻訳日:2023-08-03 12:11:04 公開日:2023-08-02
# 衛星画像を用いたNeRFアーキテクチャによるレンダリングへの季節と太陽特異性の導入

Incorporating Season and Solar Specificity into Renderings made by a NeRF Architecture using Satellite Images ( http://arxiv.org/abs/2308.01262v1 )

ライセンス: Link先を確認
Michael Gableman and Avinash Kak(参考訳) シャドウnerfとsat-nerfの結果として、衛星画像を用いた新しい視点からシーンを訓練するためのnerfベースの枠組みにおいて、太陽角度を考慮に入れることができる。 私たちの作品は、これらのコントリビューションを拡張し、どのようにしてレンダリングシーズンを特定できるかを示します。 私たちの主な課題は、視角と太陽の角度とは無関係に季節的な特徴をレンダリングし、影をレンダリングできるニューラル・ラジアンス・フィールド(nerf)を作ることでした。 私たちはネットワークに1つの入力変数(年の時間)を導入することで季節的な特徴を表現できるように教えています。 しかし、衛星画像に典型的な小さな訓練データセットは、特定の季節のイメージごとに影が同じ場所に存在している場合、曖昧さをもたらす可能性がある。 我々は、ネットワークがシャドウの会計に季節的特徴を使用するのを妨げるために、損失関数に追加条件を追加する。 我々は、maxar worldview-3衛星が撮影した画像を含む8つの関心領域におけるネットワークの性能を示す。 この評価には、新しいビューを正確にレンダリングし、高さマップを生成し、シャドウを予測し、シャドウから独立して季節の特徴を特定するフレームワークの能力を測定するテストが含まれる。 我々のアブレーション研究は、ネットワーク設計パラメータの選択を正当化する。

As a result of Shadow NeRF and Sat-NeRF, it is possible to take the solar angle into account in a NeRF-based framework for rendering a scene from a novel viewpoint using satellite images for training. Our work extends those contributions and shows how one can make the renderings season-specific. Our main challenge was creating a Neural Radiance Field (NeRF) that could render seasonal features independently of viewing angle and solar angle while still being able to render shadows. We teach our network to render seasonal features by introducing one more input variable -- time of the year. However, the small training datasets typical of satellite imagery can introduce ambiguities in cases where shadows are present in the same location for every image of a particular season. We add additional terms to the loss function to discourage the network from using seasonal features for accounting for shadows. We show the performance of our network on eight Areas of Interest containing images captured by the Maxar WorldView-3 satellite. This evaluation includes tests measuring the ability of our framework to accurately render novel views, generate height maps, predict shadows, and specify seasonal features independently from shadows. Our ablation studies justify the choices made for network design parameters.
翻訳日:2023-08-03 12:10:43 公開日:2023-08-02
# 長期トラッカースコアの空間分布の学習

Learning Spatial Distribution of Long-Term Trackers Scores ( http://arxiv.org/abs/2308.01256v1 )

ライセンス: Link先を確認
Vincenzo Mariano Scarrica, Antonino Staiano(参考訳) 長期追跡はコンピュータビジョンのホットトピックである。 この文脈では、競合モデルは毎年提示され、パフォーマンスの一定の成長率を示し、主にVisual Object Tracking (VOT)やObject Tracking Benchmark (OTB)のような標準化されたプロトコルで測定される。 fusion-trackers戦略は、既知の再検出問題を克服するため、ここ数年にわたって適用されてきた。 本研究の目的は,パイプラインのベースライントラッカーとして使用される任意の数のトラッカーに融合の概念を一般化することであり,目標が存在しない場合でも,結果が相互にどのように関連しているかをよりよく理解するために学習フェーズを活用することである。 モデルとデータ独立予想が原稿で証明され、VOT-LT2022から学ぶと、TB-50データセットの0.738と、2つのデータセットを逆転することで0.619がリコールされる。 どちらのケースでも、結果は最先端のものと強く競合し、リコールは表彰台で最初のものとなった。

Long-Term tracking is a hot topic in Computer Vision. In this context, competitive models are presented every year, showing a constant growth rate in performances, mainly measured in standardized protocols as Visual Object Tracking (VOT) and Object Tracking Benchmark (OTB). Fusion-trackers strategy has been applied over last few years for overcoming the known re-detection problem, turning out to be an important breakthrough. Following this approach, this work aims to generalize the fusion concept to an arbitrary number of trackers used as baseline trackers in the pipeline, leveraging a learning phase to better understand how outcomes correlate with each other, even when no target is present. A model and data independence conjecture will be evidenced in the manuscript, yielding a recall of 0.738 on LTB-50 dataset when learning from VOT-LT2022, and 0.619 by reversing the two datasets. In both cases, results are strongly competitive with state-of-the-art and recall turns out to be the first on the podium.
翻訳日:2023-08-03 12:10:22 公開日:2023-08-02
# ディジタル量子コンピュータにおける粒子分布のフルカウント統計

Full-counting statistics of particle distribution on a digital quantum computer ( http://arxiv.org/abs/2308.01255v1 )

ライセンス: Link先を確認
Yun-Zhuo Fan and Dan-Bo Zhang(参考訳) FCS(Full-counting statistics)は、特徴関数からシステムの統計情報にアクセスする強力なフレームワークを提供する。 しかし、汎用相互作用量子系に対するFCSの応用は、量子多体問題の古典的シミュレーションの本質的な困難によって妨げられることが多い。 本稿では、相互作用系の粒子分布と累積を両立させることができるFCSの量子アルゴリズムを提案する。 このアルゴリズムは量子計算によって特性関数を評価し、その分布と累積物を古典的後処理で抽出する。 ディジタル信号処理理論により,特徴関数のサンプリング点数を用いて精度の依存性を分析する。 我々は、興味のない量子状態のいくつかの成分をフィルタリングすることにより、正確なFCSのためのサンプリングポイントの所望数を削減できることを示す。 数値シミュレーションにより,混合イジングモデルのための領域壁のFCSを実演する。 このアルゴリズムは、量子コンピュータ上の全計数統計を研究するための道筋を示唆する。

Full-counting statistics (FCS) provides a powerful framework to access the statistical information of a system from the characteristic function. However, applications of FCS for generic interacting quantum systems often be hindered by the intrinsic difficulty of classical simulation of quantum many-body problems. Here, we propose a quantum algorithm for FCS that can obtain both the particle distribution and cumulants of interacting systems. The algorithm evaluates the characteristic functions by quantum computing and then extracts the distribution and cumulants with classical post-processing. With digital signal processing theory, we analyze the dependency of accuracy with the number of sampling points for the characteristic functions. We show that the desired number of sampling points for accurate FCS can be reduced by filtering some components of the quantum state that are not of interest. By numeral simulation, we demonstrate FCS of domain walls for the mixed Ising model. The algorithm suggests an avenue for studying full-counting statistics on quantum computers.
翻訳日:2023-08-03 12:10:02 公開日:2023-08-02
# ELIXR:大規模言語モデルと放射線ビジョンエンコーダのアライメントによる汎用X線人工知能システムを目指して

ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders ( http://arxiv.org/abs/2308.01317v1 )

ライセンス: Link先を確認
Shawn Xu, Lin Yang, Christopher Kelly, Marcin Sieniek, Timo Kohlberger, Martin Ma, Wei-Hung Weng, Attila Kiraly, Sahar Kazemzadeh, Zakkai Melamed, Jungyeon Park, Patricia Strachan, Yun Liu, Chuck Lau, Preeti Singh, Christina Chen, Mozziyar Etemadi, Sreenivasa Raju Kalidindi, Yossi Matias, Katherine Chou, Greg S. Corrado, Shravya Shetty, Daniel Tse, Shruthi Prabhakara, Daniel Golden, Rory Pilgrim, Krish Eswaran, Andrew Sellergren(参考訳) 言語/画像対応X線(ELIXR)のための埋め込み(Embddings for Language/ Image-aligned X-Rays)と呼ばれるアプローチでは,固定LLM, PaLM 2に合成または移植した言語対応画像エンコーダを活用し,幅広いタスクを実行する。 我々は、MIMIC-CXRデータセットからの対応する自由テキストラジオグラフィーレポートと組み合わせた画像を用いて、この軽量アダプタアーキテクチャを訓練する。 ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). 教師付きコントラスト学習(supcon:supervised contrastive learning)を含む既存のデータ効率のよい方法と比較して、elixrは同等の性能に達するのに2桁少ないデータを必要とした。 ELIXRはまた、CXRの視覚言語タスクを約束し、視覚的質問応答と報告品質保証タスクでそれぞれ58.7%と62.5%の精度を示した。 これらの結果はelixrがcxr aiに対する堅牢で多用途なアプローチであることを示唆している。

Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or ELIXR, leverages a language-aligned image encoder combined or grafted onto a fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight adapter architecture using images paired with corresponding free-text radiology reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). Compared to existing data-efficient methods including supervised contrastive learning (SupCon), ELIXR required two orders of magnitude less data to reach similar performance. ELIXR also showed promise on CXR vision-language tasks, demonstrating overall accuracies of 58.7% and 62.5% on visual question answering and report quality assurance tasks, respectively. These results suggest that ELIXR is a robust and versatile approach to CXR AI.
翻訳日:2023-08-03 12:05:04 公開日:2023-08-02
# 高分解能画像合成のためのパッチドノイズ拡散モデル

Patched Denoising Diffusion Models For High-Resolution Image Synthesis ( http://arxiv.org/abs/2308.01316v1 )

ライセンス: Link先を確認
Zheng Ding, Mengqi Zhang, Jiajun Wu, Zhuowen Tu(参考訳) 小型画像パッチ(64$\times$64など)で訓練した高解像度画像(例えば1024$\times$512)を生成するための効果的な分極拡散モデルを提案する。 我々は,大規模画像の合成における境界アーチファクトを回避するために,新しい特徴コラージュ戦略を設計したアルゴリズム Patch-DM を命名した。 フィーチャーコラージュは、隣接するパッチの部分的な特徴を組み合わせて、シフトしたイメージパッチの特徴を予測し、パッチ特徴空間の重なりによる画像全体のシームレスな生成を可能にする。 Patch-DMは、新たに収集した自然画像のデータセット(1024$\times$512)と、LSUN-Bedroom、LSUN-Church、FFHQを含む小サイズの標準ベンチマーク(256$\times$256)で、高品質な画像合成結果を生成する。 本手法は従来のパッチベース生成手法と比較し,4つのデータセットすべてにおいて最先端のfidスコアを得る。 さらにpatch-dmは従来の拡散モデルに比べてメモリの複雑さを低減している。

We propose an effective denoising diffusion model for generating high-resolution images (e.g., 1024$\times$512), trained on small-size image patches (e.g., 64$\times$64). We name our algorithm Patch-DM, in which a new feature collage strategy is designed to avoid the boundary artifact when synthesizing large-size images. Feature collage systematically crops and combines partial features of the neighboring patches to predict the features of a shifted image patch, allowing the seamless generation of the entire image due to the overlap in the patch feature space. Patch-DM produces high-quality image synthesis results on our newly collected dataset of nature images (1024$\times$512), as well as on standard benchmarks of smaller sizes (256$\times$256), including LSUN-Bedroom, LSUN-Church, and FFHQ. We compare our method with previous patch-based generation methods and achieve state-of-the-art FID scores on all four datasets. Further, Patch-DM also reduces memory complexity compared to the classic diffusion models.
翻訳日:2023-08-03 12:04:36 公開日:2023-08-02
# より多くのコンテキスト、より邪魔にならない:コンテキスト属性の推論とコンディショニングによる視覚的分類

More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes ( http://arxiv.org/abs/2308.01313v1 )

ライセンス: Link先を確認
Bang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang(参考訳) 基本的な視覚言語モデルであるCLIPは、様々な視覚概念や自然言語の記述を理解する能力から、ゼロショット画像分類において広く使われている。 しかし、より優れたゼロショット分類を達成するために、CLIPの先例のない人間的な理解能力をフル活用する方法は、まだ未解決の問題である。 現代の神経科学的な見解は、物体の分類において、人はまず、前景の物体を背景から切り離すのに役立つクラス非依存の属性(例えば、背景と向き)を推測し、その情報に基づいて決定を行うことを示唆している。 このことから,CLIPを文脈属性で提供することにより,ゼロショット分類が向上し,スプリアス機能への依存が軽減されることがわかった。 また、CLIP自体が画像から属性を合理的に推測できることも観察します。 そこで本研究では,PerceptionCLIPという2段階のゼロショット分類手法を提案する。 画像が与えられたら、まずコンテキスト属性(例えば背景)を推論し、その上でオブジェクト分類条件を実行する。 実験の結果, PerceptionCLIP はより一般化され, グループ堅牢性が向上し, 解釈可能性も向上することがわかった。 例えば、ViT-L/14のPerceptionCLIPは、Waterbirdsデータセットで16.5%、CelebAで3.5%、最悪のグループ精度を改善する。

CLIP, as a foundational vision language model, is widely used in zero-shot image classification due to its ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP's unprecedented human-like understanding capabilities to achieve better zero-shot classification is still an open question. This paper draws inspiration from the human visual perception process: a modern neuroscience view suggests that in classifying an object, humans first infer its class-independent attributes (e.g., background and orientation) which help separate the foreground object from the background, and then make decisions based on this information. Inspired by this, we observe that providing CLIP with contextual attributes improves zero-shot classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method named PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and better interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.
翻訳日:2023-08-03 12:03:56 公開日:2023-08-02
# Lode Encoder: AI制約によるコクリエーション

Lode Encoder: AI-constrained co-creativity ( http://arxiv.org/abs/2308.01312v1 )

ライセンス: Link先を確認
Debosmita Bhaumik, Ahmed Khalifa, Julian Togelius(参考訳) 本稿では,古典的なプラットフォームパズルゲームLode Runner用のゲーム化混合開始レベル生成システムであるLode Encoderを紹介する。 このシステムは、Lode Runnerレベルのセットでトレーニングされた、いくつかのオートエンコーダを中心に構築されている。 ユーザのデザインに触発されると、各オートエンコーダはそのデザインのバージョンを生成し、そのバージョンはトレーニングされたレベルに近いスタイルになる。 Lode Encoder インターフェースでは、オートエンコーダが提供する提案から 'Painting' を通じてレベルを構築し、編集することができる。 重要なのは、デザイナーに新しい可能性を探求するよう促すため、システムはより伝統的な編集ツールを含んでいない。 本稿では,システム設計とトレーニング手順,システム自体の進化とユーザテストについて報告する。

We present Lode Encoder, a gamified mixed-initiative level creation system for the classic platform-puzzle game Lode Runner. The system is built around several autoencoders which are trained on sets of Lode Runner levels. When fed with the user's design, each autoencoder produces a version of that design which is closer in style to the levels that it was trained on. The Lode Encoder interface allows the user to build and edit levels through 'painting' from the suggestions provided by the autoencoders. Crucially, in order to encourage designers to explore new possibilities, the system does not include more traditional editing tools. We report on the system design and training procedure, as well as on the evolution of the system itself and user tests.
翻訳日:2023-08-03 12:03:30 公開日:2023-08-02
# 食料品ショッピングにおける新しいバスケットレコメンデーションのためのマスキングおよびスワップシーケンスモデリング

Masked and Swapped Sequence Modeling for Next Novel Basket Recommendation in Grocery Shopping ( http://arxiv.org/abs/2308.01308v1 )

ライセンス: Link先を確認
Ming Li, Mozhdeh Ariannezhad, Andrew Yates, Maarten de Rijke(参考訳) 次のバスケットレコメンデーション(NBR)は、すでに購入したバスケットのシーケンスに基づいて、次のアイテムセットを予測するタスクである。 これは、特に食料品の買い物の文脈で広く研究されているレコメンデーションタスクである。 次回のバスケットレコメンデーション(NBR)では、ユーザが以前消費したアイテム、すなわちユーザが以前に消費したアイテム、すなわちユーザが消費していないアイテムを区別することが有用である。 ほとんどのNBRの作品は、この区別を無視しているか、繰り返しアイテムに焦点を当てている。 我々は,次の新しいバスケットレコメンデーション(NNBR)タスク,すなわち,現実の応用とNBR評価の両方に有用な,新しいアイテムのみで構成されるバスケットを推奨するタスクを定式化する。 我々は,既存のNBR手法がNNBRタスクでどのように機能するかを評価し,これまでのところ,NNBRタスクに対して限られた進展が見られた。 NNBRタスクに対処するために、複雑なバスケット表現を学習する代わりに、バスケット内のアイテム間相関を直接モデル化することを目的とした、単純な双方向トランスフォーマーバスケットレコメンデーションモデル(BTBR)を提案する。 BTBRを適切に訓練するために、いくつかのマスキング戦略とトレーニング目標を提案し、検討する。 (i)アイテムレベルのランダムマスキング (ii)アイテムレベルの選択マスク (三)バスケットレベルの全マスキング (iv)バスケットレベルのマスキング、及び (v)ジョイントマスク。 さらに,同じバスケット内のアイテムインタラクションを強化するために,アイテム-バスケット交換戦略を提案する。 様々な特徴を持つ3つのオープンデータセットについて広範な実験を行う。 その結果,BTBR の有効性と NNBR タスクのマスキング・スワップ戦略の有効性が示された。 適切に選択されたマスキングとスワップ戦略を持つBTBRはNNBRの性能を大幅に向上させることができる。

Next basket recommendation (NBR) is the task of predicting the next set of items based on a sequence of already purchased baskets. It is a recommendation task that has been widely studied, especially in the context of grocery shopping. In next basket recommendation (NBR), it is useful to distinguish between repeat items, i.e., items that a user has consumed before, and explore items, i.e., items that a user has not consumed before. Most NBR work either ignores this distinction or focuses on repeat items. We formulate the next novel basket recommendation (NNBR) task, i.e., the task of recommending a basket that only consists of novel items, which is valuable for both real-world application and NBR evaluation. We evaluate how existing NBR methods perform on the NNBR task and find that, so far, limited progress has been made w.r.t. the NNBR task. To address the NNBR task, we propose a simple bi-directional transformer basket recommendation model (BTBR), which is focused on directly modeling item-to-item correlations within and across baskets instead of learning complex basket representations. To properly train BTBR, we propose and investigate several masking strategies and training objectives: (i) item-level random masking, (ii) item-level select masking, (iii) basket-level all masking, (iv) basket-level explore masking, and (v) joint masking. In addition, an item-basket swapping strategy is proposed to enrich the item interactions within the same baskets. We conduct extensive experiments on three open datasets with various characteristics. The results demonstrate the effectiveness of BTBR and our masking and swapping strategies for the NNBR task. BTBR with a properly selected masking and swapping strategy can substantially improve NNBR performance.
翻訳日:2023-08-03 12:03:19 公開日:2023-08-02
# 量子・ダブル・オア・ナッシングゲーム:kelly criterion for spins

A quantum double-or-nothing game: The Kelly Criterion for Spins ( http://arxiv.org/abs/2308.01305v1 )

ライセンス: Link先を確認
Bernhard K Meister and Henry C W Price(参考訳) 2つの可能な方向のいずれかで偏光されたスピン-1/2粒子の列を実験者に提示し、自由選択された偏光方向の測定結果に対して、ダブルオア・ナッシングゲームで賭けることができる。 富は賭けによって獲得される。 粒子の流れから情報を取得すると、測定方向が順調に調整され、ポートフォリオ成長率が上昇する。 最適量子戦略は数値的に決定され、ケリー基準と関連する古典的戦略とは異なることが示されている。 この論文は、ポートフォリオ最適化の側面が量子領域に拡張されるにつれて、量子ファイナンスの発展に寄与する。

A sequence of spin-1/2 particles polarised in one of two possible directions is presented to an experimenter, who can wager in a double-or-nothing game on the outcomes of measurements in freely chosen polarisation directions. Wealth is accrued through astute betting. As information is gained from the stream of particles, the measurement directions are progressively adjusted, and the portfolio growth rate is raised. The optimal quantum strategy is determined numerically and shown to differ from the classical strategy, which is associated with the Kelly criterion. The paper contributes to the development of quantum finance, as aspects of portfolio optimisation are extended to the quantum realm.
翻訳日:2023-08-03 12:02:50 公開日:2023-08-02
# 物体検出のためのDETR事前学習の見直し

Revisiting DETR Pre-training for Object Detection ( http://arxiv.org/abs/2308.01300v1 )

ライセンス: Link先を確認
Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan(参考訳) DETRベースのアプローチがCOCO検出とセグメンテーションのベンチマークに関する新たな記録を確立したことを動機として、近年の取り組みの多くは、バックボーンの凍結を維持しながら自己教師付きでTransformerをトレーニングすることで、DeTRベースのアプローチをさらに改善する方法に関心を示している。 一部の研究では、精度が大幅に向上した。 本稿では,その実験手法を詳しく検討し,そのアプローチが$\mathcal{h}$-deformable-detrのような最新技術で有効であるかどうかを確認する。 我々は,COCOオブジェクト検出タスクの徹底的な実験を行い,事前学習データセットの選択,ローカライゼーション,分類対象生成方式の影響について検討する。 残念なことに、DETRegのような以前の代表的自己監督アプローチは、完全なデータ構造に対する強力なDETRベースのアプローチのパフォーマンス向上に失敗している。 さらに、より正確なボックス予測器とObjects$365$ベンチマークを組み合わせるだけで、フォローアップ実験の結果が大幅に改善できる理由を分析します。 我々は, COCO val 上での AP=$59.3\%$ の強い物体検出結果が, $\mathcal{H}$-Deformable-DETR + Swin-L を$1.4\%$ で上回ることを示す。 最後に,画像からテキストへのキャプションモデル (LLaVA) とテキストから画像への生成モデル (SDXL) を組み合わせて,合成事前学習データセットを生成する。 特に、これらの合成データセットの事前トレーニングは、オブジェクト検出性能を顕著に向上させる。 今後,合成事前学習データセットの今後の拡張により,大きなメリットが期待できる。

Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as $\mathcal{H}$-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects$365$ benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=$59.3\%$ on COCO val set, which surpasses $\mathcal{H}$-Deformable-DETR + Swin-L by +$1.4\%$. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.
翻訳日:2023-08-03 12:02:39 公開日:2023-08-02
# 固定光子状態を用いたベイズ量子位相推定

Bayesian quantum phase estimation with fixed photon states ( http://arxiv.org/abs/2308.01293v1 )

ライセンス: Link先を確認
Boyu Zhou, Saikat Guha, Christos N. Gagatsos(参考訳) 有限フォック展開と固定平均光子数を整数 $n\geq1$ とする2モードボソニック状態 $|\Psi_n\rangle$ の一般形式を考える。 入力状態 $|\Psi_n\rangle$ の上位モードと下位モードはそれぞれ $\phi$ と $-\phi$ をピックアップし、最適入力状態の形式、すなわち、状態のフォック係数の形式、すなわち、$\phi$ を推定する平均二乗誤差 (MSE) が最小化され、MSEは常に測定によって達成される。 我々の設定はベイズ的であり、$\phi$ を事前確率分布関数 (PDF) に従う確率変数と考えることを意味する。 有名なNOON状態($|n0\rangle$ と $|0n\rangle$ の同値な重ね合わせ)については、我々が考慮する入力状態の特別な場合であり、フラットな以前のPDFでは、ハイゼンベルクのスケーリングが失われ、到達可能な最小平均二乗誤差 (MMSE) は$\pi^2/3-1/4n^2$ となる。 そして、この数値解析により、固定値のジェネリック入力状態の最適形が与えられるとともに、透過率$\tau$のビームスプリッターにおいて、フォック状態と真空を混合して生成される状態$|\psi_{\tau}\rangle$が$\tau=0.5$でなければならないという証拠が得られる。 最後に、適応手法の例を考える:$|\Psi_n\rangle$ for $n=1$ の形の状態を考える。 まず、フラットな先行PDFから始め、その後の各ステップで前ステップの後方確率を先行PDFとして使用し、各ステップで最適な状態と最適な測定値を更新する。 最大5ステップの分析結果を示すが、アルゴリズムをさらに実行することができる。 最後に、先行するPDFの形式と無限ステップの最適状態とを予想し、対応するMMSEを計算する。

We consider the generic form of a two-mode bosonic state $|\Psi_n\rangle$ with finite Fock expansion and fixed mean photon number to an integer $n\geq1$. The upper and lower modes of the input state $|\Psi_n\rangle$ pick up a phase $\phi$ and $-\phi$ respectively and we study the form of the optimal input state, i.e., the form of the state's Fock coefficients, such that the mean square error (MSE) for estimating $\phi$ is minimized while the MSE is always attainable by a measurement. Our setting is Bayesian, meaning that we consider $\phi$ as a random variable that follows a prior probability distribution function (PDF). For the celebrated NOON state (equal superposition of $|n0\rangle$ and $|0n\rangle$), which is a special case of the input state we consider, and for a flat prior PDF we find that the Heisenberg scaling is lost and the attainable minimum mean square error (MMSE) is found to be $\pi^2/3-1/4n^2$, which is a manifestation of the fundamental difference between the Fisherian and Bayesian approaches. Then, our numerical analysis provides the optimal form of the generic input state for fixed values of $n$ and we provide evidence that a state $|\Psi_{\tau}\rangle$ produced by mixing a Fock state with vacuum in a beam-splitter of transmissivity $\tau$ (i.e. a special case of the state $|\Psi_n\rangle$), must correspond to $\tau=0.5$. Finally, we consider an example of an adaptive technique: We consider a state of the form of $|\Psi_n\rangle$ for $n=1$. We start with a flat prior PDF, and for each subsequent step we use as prior PDF the posterior probability of the previous step, while for each step we update the optimal state and optimal measurement. We show our analysis for up to five steps, but one can allow the algorithm to run further. Finally, we conjecture the form the of the prior PDF and the optimal state for the infinite step and we calculate the corresponding MMSE.
翻訳日:2023-08-03 12:02:08 公開日:2023-08-02
# フロー: 推論とコラボレーションAIのブロックを構築する

Flows: Building Blocks of Reasoning and Collaborating AI ( http://arxiv.org/abs/2308.01285v1 )

ライセンス: Link先を確認
Martin Josifoski, Lars Klein, Maxime Peyrard, Yifei Li, Saibo Geng, Julian Paul Schnitzler, Yuxing Yao, Jiheng Wei, Debjit Paul, Robert West(参考訳) 人工知能(AI)の最近の進歩は、高い能力と制御可能なシステムを生み出している。 これは、構造化推論と、複数のAIシステムと人間間の協調のための前例のない機会を生み出します。 この可能性を十分に実現するためには、そのような構造化相互作用を設計し研究する原則的な方法を開発することが不可欠である。 本研究では,複雑な相互作用をモデル化するための体系的アプローチであるフローの概念的枠組みを紹介する。 フローは計算の自己完結したビルディングブロックであり、独立した状態を持ち、標準化されたメッセージベースのインターフェイスを介して通信する。 このモジュール設計により、フローは任意にネストされた相互作用に再帰的に構成でき、複雑さは大幅に減少する。 重要なのは、AI-AIとヒューマン-AIインタラクションの事前作業、エンジニアリングスキームのプロンプト、ツール拡張など、あらゆるインタラクションをこのフレームワークを使って実装できることだ。 GPT-4でさえも苦戦する課題である、競争的コーディングの課題におけるFlowsの可能性を示す。 この結果から,AIのみのフローに+21$,Human-AI Flowに+54$の絶対点を加えることで,構造化推論と協調により一般化が大幅に向上することが示唆された。 迅速かつ厳密な研究を支援するために,aiFlowsライブラリを紹介する。 このライブラリにはフローのリポジトリが付属しており、簡単に使用でき、拡張でき、新しく、より複雑なフローに構成できる。 aiFlowsライブラリはhttps://github.com/epfl-dlab/aiflowsで入手できる。 実験を再現するためのデータとフローは、https://github.com/epfl-dlab/cc_flowsで閲覧できます。

Recent advances in artificial intelligence (AI) have produced highly capable and controllable systems. This creates unprecedented opportunities for structured reasoning as well as collaboration among multiple AI systems and humans. To fully realize this potential, it is essential to develop a principled way of designing and studying such structured interactions. For this purpose, we introduce the conceptual framework of Flows: a systematic approach to modeling complex interactions. Flows are self-contained building blocks of computation, with an isolated state, communicating through a standardized message-based interface. This modular design allows Flows to be recursively composed into arbitrarily nested interactions, with a substantial reduction of complexity. Crucially, any interaction can be implemented using this framework, including prior work on AI--AI and human--AI interactions, prompt engineering schemes, and tool augmentation. We demonstrate the potential of Flows on the task of competitive coding, a challenging task on which even GPT-4 struggles. Our results suggest that structured reasoning and collaboration substantially improve generalization, with AI-only Flows adding +$21$ and human--AI Flows adding +$54$ absolute points in terms of solve rate. To support rapid and rigorous research, we introduce the aiFlows library. The library comes with a repository of Flows that can be easily used, extended, and composed into novel, more complex Flows. The aiFlows library is available at https://github.com/epfl-dlab/aiflows. Data and Flows for reproducing our experiments are available at https://github.com/epfl-dlab/cc_flows.
翻訳日:2023-08-03 12:01:20 公開日:2023-08-02
# LLMs4OL:オントロジー学習のための大規模言語モデル

LLMs4OL: Large Language Models for Ontology Learning ( http://arxiv.org/abs/2307.16648v2 )

ライセンス: Link先を確認
Hamed Babaei Giglou and Jennifer D'Souza and S\"oren Auer(参考訳) 本稿では,Large Language Models (LLM) をオントロジー学習(OL)に適用した LLMs4OL アプローチを提案する。 LLMは自然言語処理の大幅な進歩を示し、異なる知識領域における複雑な言語パターンをキャプチャする能力を示している。 LLMs4OLパラダイムは、以下の仮説を調査します。 \textit{Can LLMsは、自然言語テキストから知識を自動的に抽出し、構造化するOLに、言語パターンキャプチャ機能を効果的に適用します。 この仮説をテストするために,ゼロショットプロンプト法を用いて包括的評価を行う。 我々は,9種類のLDMモデルファミリーを,用語タイピング,分類学発見,非分類学関係の抽出という3つの主要なOLタスクに対して評価した。 さらに、評価はWordNetにおける語彙的知識、GeoNamesにおける地理的知識、UMLSにおける医学知識など、様々なオントロジ的知識のジャンルを含む。

We propose the LLMs4OL approach, which utilizes Large Language Models (LLMs) for Ontology Learning (OL). LLMs have shown significant advancements in natural language processing, demonstrating their ability to capture complex language patterns in different knowledge domains. Our LLMs4OL paradigm investigates the following hypothesis: \textit{Can LLMs effectively apply their language pattern capturing capability to OL, which involves automatically extracting and structuring knowledge from natural language text?} To test this hypothesis, we conduct a comprehensive evaluation using the zero-shot prompting method. We evaluate nine different LLM model families for three main OL tasks: term typing, taxonomy discovery, and extraction of non-taxonomic relations. Additionally, the evaluations encompass diverse genres of ontological knowledge, including lexicosemantic knowledge in WordNet, geographical knowledge in GeoNames, and medical knowledge in UMLS.
翻訳日:2023-08-03 10:22:50 公開日:2023-08-02
# 大規模言語モデルのためのプライベートウォーターマーク

A Private Watermark for Large Language Models ( http://arxiv.org/abs/2307.16230v2 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King and Philip S. Yu(参考訳) 近年,大型言語モデル (LLM) のテキスト透かしアルゴリズムは,偽ニュースや著作権問題を含むLLMが生成するテキストの潜在的な害を軽減している。 しかし、現在のテキストアルゴリズムの透かし検出には、生成プロセスのキーが必要であるため、違反や偽造の影響を受けやすい。 本研究では,両段階で同じキーを使用するのではなく,それぞれ異なる2つのニューラルネットワークを用いて電子透かしの生成と検出を行うことにより,現在のテキスト透かしアルゴリズムを拡張した最初のプライベート透かしアルゴリズムを提案する。 一方、透かし生成および検出ネットワークのパラメータの一部を共有することにより、検出ネットワークを極めて効率的に行うことができる。 実験の結果,両ネットワークのパラメータサイズが小さいため,生成速度と検出速度に最小限の影響を伴って高い検出精度が保証された。 また,その後の解析により,検出ネットワークからの透かし生成ルールの復元が困難であることを実証した。

Recently, text watermarking algorithms for large language models (LLMs) have been mitigating the potential harms of text generated by the LLMs, including fake news and copyright issues. However, the watermark detection of current text algorithms requires the key from the generation process, making them susceptible to breaches and counterfeiting. In this work, we propose the first private watermarking algorithm, which extends the current text watermarking algorithms by using two different neural networks respectively for watermark generation and detection, rather than using the same key at both stages. Meanwhile, part of the parameters of the watermark generation and detection networks are shared, which makes the detection network achieve a high accuracy very efficiently. Experiments show that our algorithm ensures high detection accuracy with minimal impact on generation and detection speed, due to the small parameter size of both networks. Additionally, our subsequent analysis demonstrates the difficulty of reverting the watermark generation rules from the detection network.
翻訳日:2023-08-03 10:22:32 公開日:2023-08-02
# 交互量子ウォークによる決定論的空間探索への普遍的アプローチ

Universal approach to deterministic spatial search via alternating quantum walks ( http://arxiv.org/abs/2307.16133v2 )

ライセンス: Link先を確認
Qingwen Wang, Ying Jiang, Shiguang Feng, and Lvzhou Li(参考訳) 空間探索は、グラフ上のマークされた頂点を見つけることを目的とした量子計算において重要な問題である。 本稿では,様々なグラフ上の決定論的量子探索アルゴリズムを交互に設計するための新しい普遍的アプローチを提案する。 この手法は探索空間を一連の部分空間に分割し、これらの部分空間上で決定論的量子探索を行う。 我々は、ジョンソングラフ、ルークグラフ、完全二乗グラフ、完全二部グラフに対して、量子アルゴリズムが100〜%の成功確率を持つマークされた頂点を見つけ、古典的アルゴリズムよりも二次的な高速化を達成することを証明して、このアプローチの柔軟性を強調する。 これは、既存の結果を証明する別の簡潔な方法を与えるだけでなく、より一般的なグラフで新しい発見をもたらす。

Spatial search is an important problem in quantum computation, which aims to find a marked vertex on a graph. We propose a novel and universal approach for designing deterministic quantum search algorithms on a variety of graphs via alternating quantum walks. The approach divides the search space into a series of subspaces and performs deterministic quantum searching on these subspaces. We highlight the flexibility of our approach by proving that for Johnson graphs, rook graphs, complete-square graphs and complete bipartite graphs, our quantum algorithms can find the marked vertex with $100\%$ success probability and achieve quadratic speedups over classical algorithms. This not only gives an alternative succinct way to prove the existing results, but also leads to new findings on more general graphs.
翻訳日:2023-08-03 10:22:13 公開日:2023-08-02
# SEED-Bench: ジェネレータによるマルチモーダルLLMのベンチマーク

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension ( http://arxiv.org/abs/2307.16125v2 )

ライセンス: Link先を確認
Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan(参考訳) 強力な大規模言語モデル(llms)に基づいて、最近の生成型マルチモーダル大言語モデル(mllm)は重要な研究分野として注目され、理解と生成の両方に顕著な能力を示している。 本稿では,SEED-Bench というベンチマークを導入することで,MLLM における生成的理解の評価を,生成的モデルを包括的に評価するための予備的なステップとして扱う。 SEED-Benchは、画像とビデオの両方のモダリティの理解を含む12の評価次元にまたがる、正確な人間のアノテーションによる19Kの複数の選択質問からなる。 自動フィルタリングと手作業による検証プロセスを統合することで,特定の評価次元を対象とするマルチチョース質問を生成するための高度なパイプラインを開発した。 人間のアノテーションを基本とした複数選択質問は、モデル性能の客観的かつ効率的な評価を可能にし、評価中に人間やGPTの介入が不要になる。 さらに,空間的および時間的理解を網羅し,全12次元にわたる18モデルの性能を評価する。 評価結果から既存のMLLMの限界を明らかにすることで,SEED-Benchが今後の研究を動機づけるための洞察を提供することを目指している。 私たちは、モデル能力を評価し調査するためのプラットフォームを提供するためのリーダーボードをローンチし、一貫して維持します。

Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
翻訳日:2023-08-03 10:21:58 公開日:2023-08-02
# okapi:人間のフィードバックによる強化学習を伴う多言語における命令調整型大規模言語モデル

Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2307.16039v2 )

ライセンス: Link先を確認
Viet Dac Lai, Chien Van Nguyen, Nghia Trung Ngo, Thuat Nguyen, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen(参考訳) 大規模言語モデル(LLM)の開発における重要な技術は、モデルの応答と人間の期待を一致させ、印象的な学習能力を実現するための命令チューニングである。 教師付き微調整(SFT)と人間からのフィードバックからの強化学習(RLHF)を特徴付ける2つの指導チューニングアプローチは、現在、最高の商用LCM(例えばChatGPT)を製造するために適用されている。 研究開発におけるLLMのアクセシビリティ向上のために、AlpacaやVicunaなど、命令で調整されたオープンソースのLLMも最近導入されている。 しかし、既存のオープンソース LLM は英語やいくつかのポピュラーな言語に対してのみ教育を受けており、世界中の多くの言語への影響とアクセシビリティを妨げている。 複数の言語でのLLMのインストラクションチューニングを探求するごく最近の研究の中で、SFTは複数の言語のためのインストラクションチューニングLLMの唯一のアプローチとして使われている。 多様な言語におけるRLHFに基づく微調整 LLM には大きなギャップが残されており、RLHF が多言語命令チューニングの性能を向上できるかという重要な疑問が提起されている。 この問題を解決するために,複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。 okapiは26の多様な言語で命令と応答ランクのデータを導入し、将来の多言語llm研究の実験と開発を促進する。 また,複数の言語で生成llmを評価するためのベンチマークデータセットも提示する。 実験では,異なるベースモデルとデータセットに対して,SFT上の多言語命令に対するRLHFの利点を実証した。 私たちのフレームワークとリソースはhttps://github.com/nlp-uoregon/okapiでリリースしています。

A key technology for the development of large language models (LLMs) involves instruction tuning that helps align the models' responses with human expectations to realize impressive learning abilities. Two major approaches for instruction tuning characterize supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF), which are currently applied to produce the best commercial LLMs (e.g., ChatGPT). To improve the accessibility of LLMs for research and development efforts, various instruction-tuned open-source LLMs have also been introduced recently, e.g., Alpaca, Vicuna, to name a few. However, existing open-source LLMs have only been instruction-tuned for English and a few popular languages, thus hindering their impacts and accessibility to many other languages in the world. Among a few very recent work to explore instruction tuning for LLMs in multiple languages, SFT has been used as the only approach to instruction-tune LLMs for multiple languages. This has left a significant gap for fine-tuned LLMs based on RLHF in diverse languages and raised important questions on how RLHF can boost the performance of multilingual instruction tuning. To overcome this issue, we present Okapi, the first system with instruction-tuned LLMs based on RLHF for multiple languages. Okapi introduces instruction and response-ranked data in 26 diverse languages to facilitate the experiments and development of future multilingual LLM research. We also present benchmark datasets to enable the evaluation of generative LLMs in multiple languages. Our experiments demonstrate the advantages of RLHF for multilingual instruction over SFT for different base models and datasets. Our framework and resources are released at https://github.com/nlp-uoregon/Okapi.
翻訳日:2023-08-03 10:21:33 公開日:2023-08-02
# バドミントンマッチ解析のための自動ヒットフレーム検出

Automated Hit-frame Detection for Badminton Match Analysis ( http://arxiv.org/abs/2307.16000v2 )

ライセンス: Link先を確認
Yu-Hang Chien, Fang Yu(参考訳) スポーツ専門家は、常に最高水準での演奏を迫られているため、コーチや選手が手作業の労力を減らし、自動ツールを使用してパフォーマンスを体系的に評価できるスポーツ分析の恩恵を受けることができる。 本研究では,最新の深層学習技術を用いて,マッチビデオからヒットフレームを自動的に検出し,バドミントンにおけるスポーツ分析の進歩を目指す。 ヒットフレームに含まれるデータは、後にプレイヤーのストロークやオンコートの動きを合成したり、トレーニングタスクの分析や競争戦略などの下流のアプリケーションにも利用できる。 本研究で提案するアプローチは,ラリーワイズビデオトリミング,プレーヤとコートキーポイント検出,シャトルコック飛行方向予測,ヒットフレーム検出など,いくつかの自動手順を含む。 本研究では,映像トリミングにおけるショットアングル認識の精度99%,シャトルコック飛行方向予測におけるキーポイントシーケンスの適用精度92%以上を達成し,ラリーワイドビデオトリミングとヒットフレーム検出の評価結果を報告する。

Sports professionals constantly under pressure to perform at the highest level can benefit from sports analysis, which allows coaches and players to reduce manual efforts and systematically evaluate their performance using automated tools. This research aims to advance sports analysis in badminton, systematically detecting hit-frames automatically from match videos using modern deep learning techniques. The data included in hit-frames can subsequently be utilized to synthesize players' strokes and on-court movement, as well as for other downstream applications such as analyzing training tasks and competition strategy. The proposed approach in this study comprises several automated procedures like rally-wise video trimming, player and court keypoints detection, shuttlecock flying direction prediction, and hit-frame detection. In the study, we achieved 99% accuracy on shot angle recognition for video trimming, over 92% accuracy for applying player keypoints sequences on shuttlecock flying direction prediction, and reported the evaluation results of rally-wise video trimming and hit-frame detection.
翻訳日:2023-08-03 10:20:55 公開日:2023-08-02
# MARIO:グラフコントラスト学習におけるOOD一般化のためのモデル非依存レシピ

MARIO: Model Agnostic Recipe for Improving OOD Generalization of Graph Contrastive Learning ( http://arxiv.org/abs/2307.13055v3 )

ライセンス: Link先を確認
Yun Zhu, Haizhou Shi, Zhenshuo Zhang, Siliang Tang(参考訳) 本研究では,教師なし学習法をグラフデータ上で一般化するood(out-of-distribution)の問題について検討する。 グラフニューラルネットワーク(gnn)はラベルが利用可能な場合でも、分布シフトに敏感であることが示されているため、このシナリオは特に難しい。 この課題に対処するために,我々は,unsupervised graph contrastive learning method のununderline{m}odel-\underline{a}gnostic \underline{r}ecipe for \underline{i}mproving \underline{o}od generalizability を提案する。 MARIOは、既存のフレームワークの限界を克服するために、分散シフトロストグラフの対照的な手法を開発するための2つの原則を紹介している。 一 汎用表現を達成するための情報ボトルネック(IB)原則及び (ii)不変表現を得るために逆データ拡張を組み込んだ不変原理。 我々の知る限りでは、これはノードレベルのタスクに特に焦点をあてたグラフ対照的学習のOOD一般化問題を調査する最初の研究である。 実験により,本手法はOODテストセット上での最先端性能を実証し,既存手法と比較した場合の分布内テストセットにおける同等性能を維持する。 私たちのメソッドのソースコードは、https://github.com/ZhuYun97/MARIOで確認できます。

In this work, we investigate the problem of out-of-distribution (OOD) generalization for unsupervised learning methods on graph data. This scenario is particularly challenging because graph neural networks (GNNs) have been shown to be sensitive to distributional shifts, even when labels are available. To address this challenge, we propose a \underline{M}odel-\underline{A}gnostic \underline{R}ecipe for \underline{I}mproving \underline{O}OD generalizability of unsupervised graph contrastive learning methods, which we refer to as MARIO. MARIO introduces two principles aimed at developing distributional-shift-robust graph contrastive methods to overcome the limitations of existing frameworks: (i) Information Bottleneck (IB) principle for achieving generalizable representations and (ii) Invariant principle that incorporates adversarial data augmentation to obtain invariant representations. To the best of our knowledge, this is the first work that investigates the OOD generalization problem of graph contrastive learning, with a specific focus on node-level tasks. Through extensive experiments, we demonstrate that our method achieves state-of-the-art performance on the OOD test set, while maintaining comparable performance on the in-distribution test set when compared to existing approaches. The source code for our method can be found at: https://github.com/ZhuYun97/MARIO
翻訳日:2023-08-03 10:20:28 公開日:2023-08-02
# 明示的な遷移確率を持つ分離拡散モデル

Decoupled Diffusion Models with Explicit Transition Probability ( http://arxiv.org/abs/2306.13720v3 )

ライセンス: Link先を確認
Yuhang Huang and Zheng Qin and Xinwang Liu and Kai Xu(参考訳) 近年の拡散確率モデル (DPM) は, 生成物の顕著な性能を示すが, 複雑な前処理に悩まされることが多く, 逆処理やサンプリング時間の短縮が困難である。 本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する拡散過程自体に着目し, 上記の課題に対処することを目的とする。 特に, ito拡散過程に基づくddm (decoupled diffusion models) と呼ばれる新しい拡散パラダイムを提案し, 雑音経路を標準ワイナー過程で制御しながら, 画像分布を明示的な遷移確率で近似する。 拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。 我々はDPMの新しい学習目標を証明し、モデルが別々にノイズや画像成分を予測することを学べるようにした。 さらに、新しい前方拡散方程式を考えると、通常の微分方程式(ODE)ベースの加速器を使わずに、自然に生成のステップを少なくするDDMの逆分解式を導出する。 実験により,ddmは従来のdpmよりも少ない機能評価設定で大きな差を示し,長機能評価設定で同等の性能を得た。 また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。

Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (Decoupled Diffusion Models) based on the Ito diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations.
翻訳日:2023-08-03 10:20:02 公開日:2023-08-02
# 統合条件推定最適化

Integrated Conditional Estimation-Optimization ( http://arxiv.org/abs/2110.12351v4 )

ライセンス: Link先を確認
Meng Qi, Paul Grigas, Zuo-Jun Max Shen(参考訳) 多くの実世界の最適化問題は、文脈的特徴情報を用いて推定できる確率分布を持つ不確実なパラメータを含む。 まず,不確定パラメータの分布を推定し,その推定に基づいて目標を最適化する標準的なアプローチとは対照的に,最適化問題の構造を考慮しつつ,確率パラメータの基底条件分布を推定する統合条件推定最適化(iceo)フレームワークを提案する。 ランダムパラメータの条件分布と文脈的特徴の関係を直接モデル化し、下流最適化問題と整合した目標を用いて確率モデルを推定する。 我々のI CEOアプローチは、中等正規性条件下で漸近的に整合であることを示し、さらに一般化境界の形で有限な性能保証を提供する。 計算学的には、I CEO アプローチによる推定は非凸であり、しばしば微分不可能な最適化問題である。 本研究では, 推定条件分布から最適決定への可微分写像を微分可能関数によって近似する一般的な手法を提案し, 非凸問題に適用する勾配に基づくアルゴリズムの性能を大幅に改善する。 また,半代数の場合の多項式最適化解法を提案する。 また,データサンプルの制限やモデルミスマッチなど,異なる状況下での経験的成功を示すために,数値実験を行った。

Many real-world optimization problems involve uncertain parameters with probability distributions that can be estimated using contextual feature information. In contrast to the standard approach of first estimating the distribution of uncertain parameters and then optimizing the objective based on the estimation, we propose an integrated conditional estimation-optimization (ICEO) framework that estimates the underlying conditional distribution of the random parameter while considering the structure of the optimization problem. We directly model the relationship between the conditional distribution of the random parameter and the contextual features, and then estimate the probabilistic model with an objective that aligns with the downstream optimization problem. We show that our ICEO approach is asymptotically consistent under moderate regularity conditions and further provide finite performance guarantees in the form of generalization bounds. Computationally, performing estimation with the ICEO approach is a non-convex and often non-differentiable optimization problem. We propose a general methodology for approximating the potentially non-differentiable mapping from estimated conditional distribution to the optimal decision by a differentiable function, which greatly improves the performance of gradient-based algorithms applied to the non-convex problem. We also provide a polynomial optimization solution approach in the semi-algebraic case. Numerical experiments are also conducted to show the empirical success of our approach in different situations including with limited data samples and model mismatches.
翻訳日:2023-08-03 10:19:35 公開日:2023-08-02
# SelfCheck:LDMを使って独自のステップバイステップ推論をゼロショットする

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning ( http://arxiv.org/abs/2308.00436v2 )

ライセンス: Link先を確認
Ning Miao, Yee Whye Teh, Tom Rainforth(参考訳) 大規模言語モデル(llms)の最近の進歩、特にcot(chain-of-thoughts)の発明により、推論問題を解決できるようになった。 しかし、最強のLLMでさえ、非線形思考と多段階推論を必要とするより複雑な問題に苦戦している。 本研究では,LLMが外部資源に頼らずに,自己の誤りを認識できるかどうかを考察する。 特に,ステップバイステップの推論において,個々のエラーを識別するために使用できるかどうかについて検討する。 そこで本研究では,このような誤りを識別するゼロショット検証手法を提案する。 次に,この検証手法を用いて質問応答の重み付き投票を行うことにより,質問応答性能を向上させる。 本手法は,GSM8K,MathQA,MATHの3つの数学データセット上で検証し,誤差の認識に成功し,最終的な予測性能を向上させる。

The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.
翻訳日:2023-08-03 10:14:22 公開日:2023-08-02
# zrigf:ゼロリソースイメージ・グラウンド対話生成のための革新的なマルチモーダルフレームワーク

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation ( http://arxiv.org/abs/2308.00400v2 )

ライセンス: Link先を確認
Bo Zhang, Jian Wang, Hui Ma, Bo Xu, and Hongfei Lin(参考訳) 画像に基づく対話システムは,視覚情報の統合により,高品質な応答生成を実現した。 しかし、現在のモデルは、画像とテキストのモダリティの相違が主な原因で、ゼロリソースのシナリオでそのような情報を効果的に活用するのに苦労している。 この課題を克服するために、ゼロリソース環境での対話生成のための画像基底情報を同化するZRIGFと呼ばれる革新的なマルチモーダルフレームワークを提案する。 ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。 コントラストプレトレーニングには、画像とテキストを統一された符号化ベクトル空間にマッピングするテキスト画像マッチングモジュールと、事前トレーニングされた視覚的特徴を保存し、さらにマルチモーダルな機能アライメントを促進するテキスト支援マスク画像モデリングモジュールが含まれている。 生成事前学習では、マルチモーダル融合モジュールと情報伝達モジュールを用いて、調和したマルチモーダル表現に基づく洞察豊かな応答を生成する。 テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。 さらに,イメージ接地対話データセットに完全ゼロリソースシナリオを適用し,新たなドメインにおけるフレームワークの堅牢な一般化能力を示す。 コードはhttps://github.com/zhangbo-nlp/ZRIGFで入手できる。

Image-grounded dialogue systems benefit greatly from integrating visual information, resulting in high-quality response generation. However, current models struggle to effectively utilize such information in zero-resource scenarios, mainly due to the disparity between image and text modalities. To overcome this challenge, we propose an innovative multimodal framework, called ZRIGF, which assimilates image-grounded information for dialogue generation in zero-resource situations. ZRIGF implements a two-stage learning strategy, comprising contrastive pre-training and generative pre-training. Contrastive pre-training includes a text-image matching module that maps images and texts into a unified encoded vector space, along with a text-assisted masked image modeling module that preserves pre-training visual features and fosters further multimodal feature alignment. Generative pre-training employs a multimodal fusion module and an information transfer module to produce insightful responses based on harmonized multimodal representations. Comprehensive experiments conducted on both text-based and image-grounded dialogue datasets demonstrate ZRIGF's efficacy in generating contextually pertinent and informative responses. Furthermore, we adopt a fully zero-resource scenario in the image-grounded dialogue dataset to demonstrate our framework's robust generalization capabilities in novel domains. The code is available at https://github.com/zhangbo-nlp/ZRIGF.
翻訳日:2023-08-03 10:14:05 公開日:2023-08-02
# MetaGPT: マルチエージェント協調フレームワークのためのメタプログラミング

MetaGPT: Meta Programming for Multi-Agent Collaborative Framework ( http://arxiv.org/abs/2308.00352v2 )

ライセンス: Link先を確認
Sirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu(参考訳) 近年,大規模言語モデル(llm)によるマルチエイジェントによるタスク自動解決において顕著な進歩がみられている。 しかし、既存の研究は主に幻覚の問題による複雑なタスクの探索と調査を欠いた単純なタスクに焦点を当てている。 この種の幻覚は、複数の知的エージェントが相互に相互作用することで無限に増幅され、複雑な問題に取り組む際に失敗する。それ以前には、LLM駆動のマルチエージェントコラボレーションにメタプログラミングアプローチとして効果的なヒューマンワークフローを注入する革新的フレームワークであるMetaGPTを紹介した。 特にMetaGPTは、まずSOP(Standardized Operating Procedures)をプロンプトにエンコードし、構造化された調整を促進する。 そして、アウトプットの検証と複合的なエラーの低減のために、ドメイン専門のエージェントに人間のプロフェッショナルを並列させる。 このように、metagptは、様々なエージェントに多様な役割を割り当てるためにアセンブリラインワークモデルを利用して、複雑なマルチエージェント協調問題を効果的かつ凝集的に分解するフレームワークを構築します。 本稿では,既存の対話型・チャット型マルチエージェントシステムに対して,協調性の高い包括的ソリューションを開発する上で,MetaGPTの能力を示す実験を行った。 これは、人間のドメイン知識をマルチエイジェントに組み込む可能性の基礎となり、複雑な現実世界の課題に取り組むための新しい道を開く。 このプロジェクトのGitHubリポジトリは、https://github.com/geekan/MetaGPTで公開されている。

Recently, remarkable progress has been made in automated task-solving through the use of multi-agents driven by large language models (LLMs). However, existing works primarily focuses on simple tasks lacking exploration and investigation in complicated tasks mainly due to the hallucination problem. This kind of hallucination gets amplified infinitely as multiple intelligent agents interact with each other, resulting in failures when tackling complicated problems.Therefore, we introduce MetaGPT, an innovative framework that infuses effective human workflows as a meta programming approach into LLM-driven multi-agent collaboration. In particular, MetaGPT first encodes Standardized Operating Procedures (SOPs) into prompts, fostering structured coordination. And then, it further mandates modular outputs, bestowing agents with domain expertise paralleling human professionals to validate outputs and reduce compounded errors. In this way, MetaGPT leverages the assembly line work model to assign diverse roles to various agents, thus establishing a framework that can effectively and cohesively deconstruct complex multi-agent collaborative problems. Our experiments conducted on collaborative software engineering tasks illustrate MetaGPT's capability in producing comprehensive solutions with higher coherence relative to existing conversational and chat-based multi-agent systems. This underscores the potential of incorporating human domain knowledge into multi-agents, thus opening up novel avenues for grappling with intricate real-world challenges. The GitHub repository of this project is made publicly available on: https://github.com/geekan/MetaGPT
翻訳日:2023-08-03 10:13:42 公開日:2023-08-02
# 100dBノイズ除去と単一光子感度を有する小型全ファイバー量子インスパイアLiDAR

Compact All-Fiber Quantum-Inspired LiDAR with > 100dB Noise Rejection and Single Photon Sensitivity ( http://arxiv.org/abs/2308.00195v2 )

ライセンス: Link先を確認
Han Liu, Changhao Qin, Georgios Papangelakis, Meng Lon Iu, Amr S Helmy(参考訳) 量子光の絡み合いと相関は、強い背景雑音の存在下でLiDAR感度を高めることができる。 しかし、そのような量子源のパワーは基本的に単一の光子のストリームに限られており、高出力の古典的なLiDAR送信機の検出範囲と競合することができない。 これを回避するために,古典的時間-周波数相関のコヒーレント測定に基づく量子インスパイアlidarプロトタイプを開発し,実演する。 このシステムは、高出力の古典音源を使用し、量子LiDARの高雑音拒絶特性を維持する。 特に、単一光子信号に敏感でありながら、100dB以上(100msの積分時間を持つ)の帯域内雑音の識別不能(統計的に同一な特性を持つ)を実現することができることを示す。 また、LiDARデモに加えて、量子情報応用のためのLiDAR受信機の可能性についても論じる。 特に,光の高次元量子状態のコヒーレントな操作のためのカオス量子周波数変換手法を提案する。 この手法はパルスベースの量子周波数変換と比較して選択性や効率の点で性能を向上できることが示されている。

Entanglement and correlation of quantum light can enhance LiDAR sensitivity in the presence of strong background noise. However, the power of such quantum sources is fundamentally limited to a stream of single photons and cannot compete with the detection range of high-power classical LiDAR transmitters. To circumvent this, we develop and demonstrate a quantum-inspired LiDAR prototype based on coherent measurement of classical time-frequency correlations. This system uses a high-power classical source and maintains the high noise rejection advantage of quantum LiDARs. In particular, we show that it can achieve over 100dB rejection (with 100ms integration time) of indistinguishable(with statistically identical properties in every degrees of freedom) in-band noise while still being sensitive to single photon signals. In addition to the LiDAR demonstration, we also discuss the potential of the proposed LiDAR receiver for quantum information applications. In particular, we propose the chaotic quantum frequency conversion technique for coherent manipulation of high dimensional quantum states of light. It is shown that this technique can provide improved performance in terms of selectivity and efficiency as compared to pulse-based quantum frequency conversion.
翻訳日:2023-08-03 10:13:08 公開日:2023-08-02
# Bi-LSTMに基づくパッサ学習最適化を用いた電子商取引における効率的なレコメンデーションシステム

An Efficient Recommendation System in E-commerce using Passer learning optimization based on Bi-LSTM ( http://arxiv.org/abs/2308.00137v2 )

ライセンス: Link先を確認
Hemn Barzan Abdalla, Awder Ahmed, Bahtiyar Mehmed, Mehdi Gheisari, Maryam Cheraghy(参考訳) グローバルなeコマース市場が拡大するにつれ、ユーザーがパーソナライズされた商品やサービスにアクセスするためのレコメンデーションシステムサービスが重要になっている。 企業の売上を増加させ、ユーザー情報探索のコストを下げることができる。 近年,標準レコメンデーションシステム研究の問題解決にユーザレビューを積極的に活用する研究者が増えている。 しかし、レビューには、広告や架空の、偽のレビューなど、消費者が何を買うべきかを判断する助けにならない情報が含まれているかもしれない。 このようなレビューを使って提案サービスを提供することで、推奨の有効性が低下する可能性がある。 本研究では,その問題を解決するために,Bi-LSTMに基づく通行人学習最適化を用いて,eコマースのレコメンデーションを開発する。 データはまず製品レコメンデーションデータセットから取得され、不足あるいは一貫性のない値を削除するために前処理される。 次に、TF-IDF機能とグラフ埋め込みをサポートする機能を用いて特徴抽出を行う。 解析のために同じ次元の多数の特徴をBi-LSTM分類器に提出する前に、特徴連結アプローチを用いて統合される。 Collaborative Bi-LSTM法は、モデルが推奨製品であるかどうかを判断するためにこれらの特徴を用いる。 分類器のパラメータを効率的に調整し、f1-score、mse、精度、リコールを測定する抽出出力を生成するpl最適化アプローチは、この研究の貢献の基礎である。 従来の手法と比較すると、PL最適化Bi-LSTMはデータセット1, 88.58%, 1.24%, 92.69%, 92.69%, データセット1, 88.46%, 0.48%, 92.43%, 93.47%, データセット2, 92.51%, 1.58%, 91.90%, 90.76%の値を得た。

Recommendation system services have become crucial for users to access personalized goods or services as the global e-commerce market expands. They can increase business sales growth and lower the cost of user information exploration. Recent years have seen a signifi-cant increase in researchers actively using user reviews to solve standard recommender system research issues. Reviews may, however, contain information that does not help consumers de-cide what to buy, such as advertising or fictitious or fake reviews. Using such reviews to offer suggestion services may reduce the effectiveness of those recommendations. In this research, the recommendation in e-commerce is developed using passer learning optimization based on Bi-LSTM to solve that issue (PL optimized Bi-LSTM). Data is first obtained from the product recommendation dataset and pre-processed to remove any values that are missing or incon-sistent. Then, feature extraction is performed using TF-IDF features and features that support graph embedding. Before submitting numerous features with the same dimensions to the Bi-LSTM classifier for analysis, they are integrated using the feature concatenation approach. The Collaborative Bi-LSTM method employs these features to determine if the model is a recommended product. The PL optimization approach, which efficiently adjusts the classifier's parameters and produces an extract output that measures the f1-score, MSE, precision, and recall, is the basis of this research's contributions. As compared to earlier methods, the pro-posed PL-optimized Bi-LSTM achieved values of 88.58%, 1.24%, 92.69%, and 92.69% for dataset 1, 88.46%, 0.48%, 92.43%, and 93.47% for dataset 2, and 92.51%, 1.58%, 91.90%, and 90.76% for dataset 3.
翻訳日:2023-08-03 10:12:52 公開日:2023-08-02
# diviml: ニューラルネットワークを異種プラットフォームにマッピングするモジュールベースのヒューリスティック

DiviML: A Module-based Heuristic for Mapping Neural Networks onto Heterogeneous Platforms ( http://arxiv.org/abs/2308.00127v2 )

ライセンス: Link先を確認
Yassine Ghannane and Mohamed S. Abdelfattah(参考訳) データセンターはますます異質になりつつあり、ネットワーキングやビデオ処理、特にディープラーニングのための特別なハードウェアも含み始めている。 現代のデータセンターの異種計算能力を活用するため、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスにコンパイラレベルで分割する手法を開発した。 自動パーティショニングとデバイスマッピングを提供する異種DNNコンパイルのための汎用フレームワークを提案する。 我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とスケーラビリティのためのモジュラリティベースのヒューリスティックにより、正確な解法と統合する。 さらに, 最適解に対する理論的下界式を提案し, ヒューリスティック解の品質を評価する。 我々は、CPUと2つの異なるGPUからなる異種システム上で、待ち時間とスループットの制約を受ける従来のDNNとランダムに配線されたニューラルネットワークの両方を最適化するスケジューラを評価する。 最速のgpu上でdnnを高速に実行するのに比べ、氏は、データとモデルの並列性を利用して、サンプルのヘテロジニアスサーバノードにdnnをデプロイすることによって、3$\times$のレイテンシーと2.9$\times$のスループットを達成できるフレームワークを提案しました。 さらに、モジュラリティベースの"スプリッティング"ヒューリスティックは、ソリューションのクオリティを完全に犠牲にすることなく、ソリューションランタイムを395$\times$まで改善し、他のすべてのヒューリスティックを30~60%のソリューション品質で上回らせます。 最後に,本ケーススタディでは,ハードウェア設定の対称性を生かして,複数の異種サーバにまたがる大規模言語モデルをスケジュールするためのフレームワークを拡張する方法を示す。 私たちのコードは既存のフレームワークに簡単にプラグインでき、https://github.com/abdelfattah-lab/divimlで利用できます。

Datacenters are increasingly becoming heterogeneous, and are starting to include specialized hardware for networking, video processing, and especially deep learning. To leverage the heterogeneous compute capability of modern datacenters, we develop an approach for compiler-level partitioning of deep neural networks (DNNs) onto multiple interconnected hardware devices. We present a general framework for heterogeneous DNN compilation, offering automatic partitioning and device mapping. Our scheduler integrates both an exact solver, through a mixed integer linear programming (MILP) formulation, and a modularity-based heuristic for scalability. Furthermore, we propose a theoretical lower bound formula for the optimal solution, which enables the assessment of the heuristic solutions' quality. We evaluate our scheduler in optimizing both conventional DNNs and randomly-wired neural networks, subject to latency and throughput constraints, on a heterogeneous system comprised of a CPU and two distinct GPUs. Compared to na\"ively running DNNs on the fastest GPU, he proposed framework can achieve more than 3$\times$ times lower latency and up to 2.9$\times$ higher throughput by automatically leveraging both data and model parallelism to deploy DNNs on our sample heterogeneous server node. Moreover, our modularity-based "splitting" heuristic improves the solution runtime up to 395$\times$ without noticeably sacrificing solution quality compared to an exact MILP solution, and outperforms all other heuristics by 30-60% solution quality. Finally, our case study shows how we can extend our framework to schedule large language models across multiple heterogeneous servers by exploiting symmetry in the hardware setup. Our code can be easily plugged in to existing frameworks, and is available at https://github.com/abdelfattah-lab/diviml.
翻訳日:2023-08-03 10:12:17 公開日:2023-08-02
# 知識グラフ補完のための意味豊かな埋め込みを目指して

Towards Semantically Enriched Embeddings for Knowledge Graph Completion ( http://arxiv.org/abs/2308.00081v2 )

ライセンス: Link先を確認
Mehwish Alam, Frank van Harmelen, Maribel Acosta(参考訳) 埋め込みベースの知識グラフ(KG) 完成度はここ数年で大きな注目を集めている。 現在のアルゴリズムの多くは、KGを多方向ラベル付きグラフと見なしており、スキーマ情報に基づくセマンティクスをキャプチャする能力がない。 別の開発では、人工知能の分野に革命をもたらしたLarge Language Models(LLM)内で、膨大な情報が収集されている。 KGはこれらのLCMの恩恵を受けることができる。 本稿では,KG埋め込み生成のバリエーションに基づいて,既存のKG完了アルゴリズムについて述べる。 トランスダクティブおよびインダクティブリンク予測やエンティティタイプ予測アルゴリズムなど、さまざまなkg補完アルゴリズムについて議論することから始まる。 その後、KG、LLM内の型情報を利用したアルゴリズムに移行し、最後に、異なる記述論理公理で表されるセマンティクスをキャプチャするアルゴリズムに移行する。 本稿は、コミュニティにおける現在の作業状況について批判的な考察を行い、今後の方向性について推奨する。

Embedding based Knowledge Graph (KG) Completion has gained much attention over the past few years. Most of the current algorithms consider a KG as a multidirectional labeled graph and lack the ability to capture the semantics underlying the schematic information. In a separate development, a vast amount of information has been captured within the Large Language Models (LLMs) which has revolutionized the field of Artificial Intelligence. KGs could benefit from these LLMs and vice versa. This vision paper discusses the existing algorithms for KG completion based on the variations for generating KG embeddings. It starts with discussing various KG completion algorithms such as transductive and inductive link prediction and entity type prediction algorithms. It then moves on to the algorithms utilizing type information within the KGs, LLMs, and finally to algorithms capturing the semantics represented in different description logic axioms. We conclude the paper with a critical reflection on the current state of work in the community and give recommendations for future directions.
翻訳日:2023-08-03 10:11:41 公開日:2023-08-02
# 事前学習型デノイング拡散モデルに基づくリモートセンシングにおけるユニバーサル・ディバイサル・ディフェンス

Universal Adversarial Defense in Remote Sensing Based on Pre-trained Denoising Diffusion Models ( http://arxiv.org/abs/2307.16865v2 )

ライセンス: Link先を確認
Weikang Yu, Yonghao Xu, Pedram Ghamisi(参考訳) ディープニューラルネットワーク(DNN)は多くのリモートセンシング(RS)アプリケーションで大きな成功を収めており、DNNは敵の摂動に弱い。 残念なことに、rs研究における現在の敵対的防御アプローチは、通常、rsデータ間の敵対的摂動の事前知識を必要とするため、パフォーマンスのゆらぎと不要な再訓練コストに苦しむ。 これらの課題を回避するために,事前訓練した拡散モデルを用いたRS画像(UAD-RS)における普遍的敵防衛手法を提案し,複数の未知の敵攻撃から共通のDNNを保護する。 具体的には、生成拡散モデルはまず異なるrsデータセット上で事前学習され、様々なデータ領域における一般化表現を学習する。 その後, 事前学習した拡散モデルの前方および逆過程を用いて, 相反サンプルからの摂動を浄化する普遍的相反浄化フレームワークを開発した。 さらに,Frechet Inception Distance(FID)の深部特徴空間におけるクリーンサンプルに最も近い浄化結果が得られる拡散モデルの最適なノイズレベルを捉えるために,適応ノイズレベル選択(ANLS)機構を構築した。 その結果、各データセット上での対向サンプルの普遍的浄化には、1つの事前学習拡散モデルが必要となり、これは再学習の取り組みを著しく軽減し、対向的摂動の事前知識なしで高い性能を維持する。 シーン分類とセマンティックセグメンテーションに関する4つの異種RSデータセットの実験により、UAD-RSは、通常存在する7つの対向的摂動に対する普遍的な防御により、最先端の対向的浄化アプローチより優れていることが確認された。 コードと事前訓練されたモデルはオンラインで入手できる(https://github.com/EricYu97/UAD-RS)。

Deep neural networks (DNNs) have achieved tremendous success in many remote sensing (RS) applications, in which DNNs are vulnerable to adversarial perturbations. Unfortunately, current adversarial defense approaches in RS studies usually suffer from performance fluctuation and unnecessary re-training costs due to the need for prior knowledge of the adversarial perturbations among RS data. To circumvent these challenges, we propose a universal adversarial defense approach in RS imagery (UAD-RS) using pre-trained diffusion models to defend the common DNNs against multiple unknown adversarial attacks. Specifically, the generative diffusion models are first pre-trained on different RS datasets to learn generalized representations in various data domains. After that, a universal adversarial purification framework is developed using the forward and reverse process of the pre-trained diffusion models to purify the perturbations from adversarial samples. Furthermore, an adaptive noise level selection (ANLS) mechanism is built to capture the optimal noise level of the diffusion model that can achieve the best purification results closest to the clean samples according to their Frechet Inception Distance (FID) in deep feature space. As a result, only a single pre-trained diffusion model is needed for the universal purification of adversarial samples on each dataset, which significantly alleviates the re-training efforts and maintains high performance without prior knowledge of the adversarial perturbations. Experiments on four heterogeneous RS datasets regarding scene classification and semantic segmentation verify that UAD-RS outperforms state-of-the-art adversarial purification approaches with a universal defense against seven commonly existing adversarial perturbations. Codes and the pre-trained models are available online (https://github.com/EricYu97/UAD-RS).
翻訳日:2023-08-03 10:11:25 公開日:2023-08-02
# AsdKB: 自閉症スペクトラム障害の早期スクリーニングと診断のための中国語知識ベース

AsdKB: A Chinese Knowledge Base for the Early Screening and Diagnosis of Autism Spectrum Disorder ( http://arxiv.org/abs/2307.16773v2 )

ライセンス: Link先を確認
Tianxing Wu, Xudong Cao, Yipeng Zhu, Feiyue Wu, Tianling Gong, Yuxiang Wang, Shenqi Jing(参考訳) 自閉症スペクトラム障害に関する知識を手軽に取得し,早期スクリーニングと診断を支援するために,中国における自閉症スペクトラム障害の知識基盤であるAsdKBを開発した。 知識基盤はさまざまなソース上に構築されている。 1)精神・行動障害に関するSNOMED CTとICD-10の臨床所見からの疾患知識 2)dsm-5の診断知識と社会組織や医療機関が推奨する異なるスクリーニングツール 3) Web の専門医や病院に関する専門知識。 AsdKBはオントロジと事実の両方の知識を持ち、https://w3id.org/asdkb/でLinked Dataとしてアクセス可能である。 asdkbの潜在的な用途は質問応答、補助診断、エキスパートレコメンデーションであり、http://asdkb.org.cn/でアクセス可能なプロトタイプを用いてそれらを説明する。

To easily obtain the knowledge about autism spectrum disorder and help its early screening and diagnosis, we create AsdKB, a Chinese knowledge base on autism spectrum disorder. The knowledge base is built on top of various sources, including 1) the disease knowledge from SNOMED CT and ICD-10 clinical descriptions on mental and behavioural disorders, 2) the diagnostic knowledge from DSM-5 and different screening tools recommended by social organizations and medical institutes, and 3) the expert knowledge on professional physicians and hospitals from the Web. AsdKB contains both ontological and factual knowledge, and is accessible as Linked Data at https://w3id.org/asdkb/. The potential applications of AsdKB are question answering, auxiliary diagnosis, and expert recommendation, and we illustrate them with a prototype which can be accessed at http://asdkb.org.cn/.
翻訳日:2023-08-03 10:10:56 公開日:2023-08-02
# 高頻度半導体量子ドットの断熱的量子アドミタンス:リフレクションメトリーをポラロンダイナミクスとして再考

Beyond-adiabatic Quantum Admittance of a Semiconductor Quantum Dot at High Frequencies: Rethinking Reflectometry as Polaron Dynamics ( http://arxiv.org/abs/2307.16725v2 )

ライセンス: Link先を確認
L. Peri, G. A. Oakes, L. Cochrane, C. J. B. Ford, M. F. Gonzalez-Zalba(参考訳) 動的に動作する半導体量子ドットは、量子センサーやコンピュータのような多くの量子技術の基礎である。 したがって、マイクロ波周波数での電気特性のモデル化は、より大きな電子回路での性能をシミュレートするために不可欠である。 本研究では,コヒーレント光子浴の効果の下で電荷貯水池に結合した量子ドットトンネルの入射性を得るために,自己整合型量子マスター方程式を定式化する。 本研究では, フォトニックドライブの共振器と共振器との結合が増大し, 寿命の推移とともに, 既知の半古典的(熱的)限界を捉えたアクセタンスに対する一般表現を求める。 さらに,QD状態のドレッシングによって決定される2つの新しい光子活性化機構と,光子損失によって決定されるシステムの拡張について述べる。 本研究では,QDの高周波挙動を広範囲に再現し,過去の実験を記述し,新しいQD-光子相互作用の探索法を提案する。

Semiconductor quantum dots operated dynamically are the basis of many quantum technologies such as quantum sensors and computers. Hence, modelling their electrical properties at microwave frequencies becomes essential to simulate their performance in larger electronic circuits. Here, we develop a self-consistent quantum master equation formalism to obtain the admittance of a quantum dot tunnel-coupled to a charge reservoir under the effect of a coherent photon bath. We find a general expression for the admittance that captures the well-known semiclassical (thermal) limit, along with the transition to lifetime and power broadening regimes due to the increased coupling to the reservoir and amplitude of the photonic drive, respectively. Furthermore, we describe two new photon-mediated regimes Floquet broadening, determined by the dressing of the QD states, and broadening determined by photon loss in the system. Our results provide a method to simulate the high-frequency behaviour of QDs in a wide range of limits, describe past experiments, and propose novel explorations of QD-photon interactions.
翻訳日:2023-08-03 10:10:41 公開日:2023-08-02