このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230727となっている論文です。

PDF登録状況(公開日: 20230727)

TitleAuthorsAbstract論文公表日・翻訳日
# GitHub Actions:プルリクエストプロセスへの影響

GitHub Actions: The Impact on the Pull Request Process ( http://arxiv.org/abs/2206.14118v3 )

ライセンス: Link先を確認
Mairieli Wessel, Joseph Vargovich, Marco A. Gerosa, and Christoph Treude(参考訳) ソフトウェアプロジェクトは、分散ソフトウェア開発プロセスで反復的なアクティビティを実行するために、しばしば自動化ツールを使用します。 最近GitHubは、ソフトウェアプロジェクトに自動化ワークフローを提供する機能であるGitHub Actionsを導入した。 このような技術を採用する効果を理解し、予測することは、計画と管理にとって重要である。 今回の調査では、プロジェクトがgithubアクションをどのように使うか、開発者がそれらについて議論するか、プロジェクトアクティビティインジケータが採用後にどのように変化するかを調査します。 結果から,人気リポジトリの5,000件中1,489件(サンプルの約30%)がgithub actionsを採用しており,開発者が頻繁にその実装に協力を求めています。 また,github アクションの採用により,プルリクエスト(prs)の拒否数の増加,受理されたprの通信数の増加,受理されたprのコミット数の減少,拒絶されたprのコミット数の増加,prの受理時間の増加が確認された。 GitHub Actionsのカテゴリで結果のセグメンテーションを行うと、同様の結果が得られました。 プロジェクトでGitHub Actionsを採用する場合、実践者はこれらの効果を考慮することを推奨します。

Software projects frequently use automation tools to perform repetitive activities in the distributed software development process. Recently, GitHub introduced GitHub Actions, a feature providing automated workflows for software projects. Understanding and anticipating the effects of adopting such technology is important for planning and management. Our research investigates how projects use GitHub Actions, what the developers discuss about them, and how project activity indicators change after their adoption. Our results indicate that 1,489 out of 5,000 most popular repositories (almost 30% of our sample) adopt GitHub Actions and that developers frequently ask for help implementing them. Our findings also suggest that the adoption of GitHub Actions leads to more rejections of pull requests (PRs), more communication in accepted PRs and less communication in rejected PRs, fewer commits in accepted PRs and more commits in rejected PRs, and more time to accept a PR. We found similar results when segmenting our results by categories of GitHub Actions. We suggest practitioners consider these effects when adopting GitHub Actions on their projects.
翻訳日:2023-10-24 15:28:50 公開日:2023-07-27
# iosアプリにおけるオンデバイスモデルの初見

A First Look at On-device Models in iOS Apps ( http://arxiv.org/abs/2307.12328v2 )

ライセンス: Link先を確認
Han Hu, Yujin Huang, Qiuyuan Chen, Terry Yue Zhuo, Chunyang Chen(参考訳) スマートフォンでのディープラーニング技術の人気が高まる中、オンデバイスディープラーニングモデルは金融、ソーシャルメディア、運転支援といった重要な分野で使用されている。 androidプラットフォームと内部デバイスモデルの透明性のため、androidスマートフォン上のオンデバイスモデルは極めて脆弱であることが証明されている。 しかし、iosアプリファイルへのアクセスと分析が難しいため、iosはandroidほど人気があるモバイルプラットフォームであるにも関わらず、iosアプリのオンデバイスモデルに関する作業は行われていない。 AndroidとiOSプラットフォーム上の同じアプリの機能も同様であるため、両方のプラットフォームに同じ脆弱性が存在する可能性がある。 本稿では,iosアプリのオンデバイスモデルに関する最初の実証研究として,ディープラーニングフレームワークの採用,構造,機能,潜在的なセキュリティ問題について述べる。 現在の開発者がiOSとAndroidの1つのアプリに異なるデバイスモデルを使用している理由を調査する。 我々は、事前訓練されたモデルに依存しないホワイトボックスモデルに対するより一般的な攻撃と、iosのグレーボックスオンデバイスモデルをターゲットにした新たな敵攻撃アプローチを提案する。 結果は我々のアプローチの有効性を示している。 最後に、オンデバイスモデルの脆弱性を利用して、実際のiOSアプリを攻撃しました。

Powered by the rising popularity of deep learning techniques on smartphones, on-device deep learning models are being used in vital fields like finance, social media, and driving assistance. Because of the transparency of the Android platform and the on-device models inside, on-device models on Android smartphones have been proven to be extremely vulnerable. However, due to the challenge in accessing and analysing iOS app files, despite iOS being a mobile platform as popular as Android, there are no relevant works on on-device models in iOS apps. Since the functionalities of the same app on Android and iOS platforms are similar, the same vulnerabilities may exist on both platforms. In this paper, we present the first empirical study about on-device models in iOS apps, including their adoption of deep learning frameworks, structure, functionality, and potential security issues. We study why current developers use different on-device models for one app between iOS and Android. We propose a more general attack against white-box models that does not rely on pre-trained models and a new adversarial attack approach based on our findings to target iOS's gray-box on-device models. Our results show the effectiveness of our approaches. Finally, we successfully exploit the vulnerabilities of on-device models to attack real-world iOS apps.
翻訳日:2023-10-23 16:30:07 公開日:2023-07-27
# 実験研究におけるハグフェイスハブの適合性について

On the Suitability of Hugging Face Hub for Empirical Studies ( http://arxiv.org/abs/2307.14841v1 )

ライセンス: Link先を確認
Adem Ait, Javier Luis C\'anovas Izquierdo, Jordi Cabot(参考訳) 背景。 ソフトウェア工学における実証研究の開発は、主にコードホスティングプラットフォームで利用可能なデータに依存しており、githubが最も代表的である。 それにもかかわらず、ここ数年で機械学習(ML)の出現により、MLベースのプロジェクトを開発するためのプラットフォームが開発され、最も人気のあるHugging Face Hub(HFH)が開発されている。 250万を超えるリポジトリと急速に成長しているhfhは、mlアーチファクトの有望なエコシステムになりつつある。 しかし,このような研究においてhfhの可能性を評価する研究はこれまでに行われていない。 目的。 本提案では,hfhの現況を探索的に検討し,経験的研究の基盤としての利用に適することを検討することを目的とする。 方法。 実験研究におけるHFHの質的定量的分析を行った。 前者はHFHの機能とGitHubやGitLabのような他のコードホスティングプラットフォームの機能を比較することで実行される。 後者はhfhで利用可能なデータを分析することによって行われる。

Background. The development of empirical studies in software engineering mainly relies on the data available on code hosting platforms, being GitHub the most representative. Nevertheless, in the last years, the emergence of Machine Learning (ML) has led to the development of platforms specifically designed for developing ML-based projects, being Hugging Face Hub (HFH) the most popular one. With over 250k repositories, and growing fast, HFH is becoming a promising ecosystem of ML artifacts and therefore a potential source of data for empirical studies. However, so far there have been no studies evaluating the potential of HFH for such studies. Objective. In this proposal for a registered report, we aim at performing an exploratory study of the current state of HFH in order to investigate its suitability to be used as a source platform for empirical studies. Method. We conduct a qualitative and quantitative analysis of HFH for empirical studies. The former will be performed by comparing the features of HFH with those of other code hosting platforms, such as GitHub and GitLab. The latter will be performed by analyzing the data available in HFH.
翻訳日:2023-10-23 16:11:30 公開日:2023-07-27
# Living Labs, Real World Laboratoriesおよび同様の研究基盤のクラスタ化と定義に関する文献調査

Literature Survey on how to cluster and define Living Labs, Real World Laboratories and similar research infrastructures ( http://arxiv.org/abs/2307.14761v1 )

ライセンス: Link先を確認
Troung Giang Luu, Tanja Zylowski, Sascha Alpers, Andreas Oberweis(参考訳) デジタル化、人口変動、持続可能性といった分野における社会的課題がますます複雑化している今日の世界では、これらの課題を満たすために新しいイノベーション構造が必要である。 Living LabsやReal World Laboratoriesもそう証明している。 共同創造のような応用手法によって、研究にユーザーを統合し、よりユーザー中心にします。 本稿では,他の研究基盤が存在するか,どのように区別できるかを,系統的な文献研究に基づいて述べる。 さらに,ユーザ統合のための手法を概観的に検討し,提供する。

In today's world, where societal challenges in the areas of digitalization, demographic change and sustainability are becoming increasingly complex, new innovation structures are needed to meet these challenges. Living Labs or also Real World Laboratories prove to be such. Through their applied methods such as co-creation, they integrate users into research, making it more user-centric. Which other research infrastructures exist and how they can be differentiated is presented in this paper on the basis of a systematic literature research. Furthermore, methods for user integration are examined and provided in the form of an overview.
翻訳日:2023-10-23 16:11:13 公開日:2023-07-27
# ビデオゲームの問題点検出にゲームプレイビデオを使う

Using Gameplay Videos for Detecting Issues in Video Games ( http://arxiv.org/abs/2307.14749v1 )

ライセンス: Link先を確認
Emanuela Guglielmi, Simone Scalabrino, Gabriele Bavota, Rocco Oliveto(参考訳) コンテキスト。 近年、ゲーム業界はますます成長している。 毎日、何百万人もの人が趣味だけでなく、プロの競技会(eスポーツやスピードランニングなど)や、他人(ストリーマーなど)を楽しませてビジネスを行うためにビデオゲームをしている。 後者は毎日大量のゲームプレイビデオを制作し、彼らが経験したことをライブでコメントする。 ストリーミングプレイヤーは、プレイ中にいくつかの問題(バグ、不具合、パフォーマンス問題など)に遭遇する可能性がある。 また、開発者がこのような問題を明示的に報告する可能性は低い。 特定された問題はユーザのゲーム体験に悪影響を及ぼし、ゲームやプロデューサーの評判に悪影響を及ぼす可能性がある。 目的。 本稿では,ゲームプレイ映像から関連する情報を自動抽出する手法であるgelidを提案し,実験的に評価する。 (i)ストリーマーが異常を経験した映像セグメントの特定 (ii)その種類(例えば、論理学又はプレゼンテーション)に基づいて分類し、それに基づいてクラスタリングする (iii)(レベルやゲーム領域など)現れる文脈 (iv)特定のイシュータイプ(例えば、ゲームクラッシュ)について。 方法。 GELIDのステップ2(分類)のトレーニングセットと,GELIDの4つのコンポーネントを分離して検証するテストセットを手作業で定義した。 合計して、3つのビデオゲームに関連する170のビデオを手動でセグメンテーション、ラベル付け、クラスタリングし、604のセグメントを含むデータセットを定義しました。 結果だ ステップ1(セグメンテーション)と4(特定の課題クラスタリング)では、gelidは満足のいく結果を得るが、ステップ3(ゲームコンテキストクラスタリング)とステップ2(カテゴリ化)には制限がある。

Context. The game industry is increasingly growing in recent years. Every day, millions of people play video games, not only as a hobby, but also for professional competitions (e.g., e-sports or speed-running) or for making business by entertaining others (e.g., streamers). The latter daily produce a large amount of gameplay videos in which they also comment live what they experience. But no software and, thus, no video game is perfect: Streamers may encounter several problems (such as bugs, glitches, or performance issues) while they play. Also, it is unlikely that they explicitly report such issues to developers. The identified problems may negatively impact the user's gaming experience and, in turn, can harm the reputation of the game and of the producer. Objective. In this paper, we propose and empirically evaluate GELID, an approach for automatically extracting relevant information from gameplay videos by (i) identifying video segments in which streamers experienced anomalies; (ii) categorizing them based on their type (e.g., logic or presentation); clustering them based on (iii) the context in which appear (e.g., level or game area) and (iv) on the specific issue type (e.g., game crashes). Method. We manually defined a training set for step 2 of GELID (categorization) and a test set for validating in isolation the four components of GELID. In total, we manually segmented, labeled, and clustered 170 videos related to 3 video games, defining a dataset containing 604 segments. Results. While in steps 1 (segmentation) and 4 (specific issue clustering) GELID achieves satisfactory results, it shows limitations on step 3 (game context clustering) and, above all, step 2 (categorization).
翻訳日:2023-10-23 16:11:02 公開日:2023-07-27
# StubCoder: モックオブジェクト用のスタブコードの自動生成と修正

StubCoder: Automated Generation and Repair of Stub Code for Mock Objects ( http://arxiv.org/abs/2307.14733v1 )

ライセンス: Link先を確認
Hengcheng Zhu, Lili Wei, Valerio Terragni, Yepang Liu, Shing-Chi Cheung, Jiarong Wu, Qin Sheng, Bing Zhang, Lihong Song(参考訳) モッキングは、依存性からテスト対象クラス(CUT)を分離するために必要なユニットテスト技術である。 開発者はしばしば、モックオブジェクトの振る舞いを指定するスタブコードを開発するためにモックフレームワークを利用する。 しかし、スタブコードの開発とメンテナンスは労働集約的でエラーを起こしやすい。 本稿では,回帰テストのためのスタブコードの自動生成と修復を行うStubCoderを提案する。 StubCoderは、テストケースのランタイム動作によってガイドされるテストパススタブコードを合成する、新しい進化的アルゴリズムを実装している。 13のオープンソースプロジェクトから59のテストケースに対する提案手法を評価した。 評価の結果,スタブコードを用いずに不完全なテストケースに対してスタブコードを効果的に生成でき,スタブコードを破損したテストケースを修復できることがわかった。

Mocking is an essential unit testing technique for isolating the class under test (CUT) from its dependencies. Developers often leverage mocking frameworks to develop stub code that specifies the behaviors of mock objects. However, developing and maintaining stub code is labor-intensive and error-prone. In this paper, we present StubCoder to automatically generate and repair stub code for regression testing. StubCoder implements a novel evolutionary algorithm that synthesizes test-passing stub code guided by the runtime behavior of test cases. We evaluated our proposed approach on 59 test cases from 13 open-source projects. Our evaluation results show that StubCoder can effectively generate stub code for incomplete test cases without stub code and repair obsolete test cases with broken stub code.
翻訳日:2023-10-23 16:10:33 公開日:2023-07-27
# ソフトウェアエンジニアリングにおけるAI: プロジェクト管理アプリケーションに関する調査

AI in Software Engineering: A Survey on Project Management Applications ( http://arxiv.org/abs/2307.15224v1 )

ライセンス: Link先を確認
Talia Crawford, Scott Duong, Richard Fueston, Ayorinde Lawani, Samuel Owoade, Abel Uzoka, Reza M. Parizi, Abbas Yazdinejad(参考訳) 人工知能(AI)は、機械によって示される知性を指し、AIの領域では、機械学習(ML)が注目すべきサブセットである。 MLはデータセットのトレーニングを行うアルゴリズムを採用しており、特定のタスクを自律的に実行することができる。 特に、aiはソフトウェア工学、特にプロジェクト管理と計画の分野で大きな可能性を秘めている。 本稿では,ソフトウェア工学におけるaiの利用について調査し,この分野におけるこれまでの成果を概説する。 まず、この主題に関する11の異なる出版物をレビューし、調査した作品を比較した。 次に、ソフトウェアエンジニアリングにおけるAIの利用における潜在的な課題についてコメントし、さらなる研究の道程と、将来ソフトウェアエンジニアリングでAIが進化する方法について提案する。

Artificial Intelligence (AI) refers to the intelligence demonstrated by machines, and within the realm of AI, Machine Learning (ML) stands as a notable subset. ML employs algorithms that undergo training on data sets, enabling them to carry out specific tasks autonomously. Notably, AI holds immense potential in the field of software engineering, particularly in project management and planning. In this literature survey, we explore the use of AI in Software Engineering and summarize previous works in this area. We first review eleven different publications related to this subject, then compare the surveyed works. We then comment on the possible challenges present in the utilization of AI in software engineering and suggest possible further research avenues and the ways in which AI could evolve with software engineering in the future.
翻訳日:2023-10-23 16:00:13 公開日:2023-07-27
# 自動暗号通貨取引のための深層強化学習の一手法

An Ensemble Method of Deep Reinforcement Learning for Automated Cryptocurrency Trading ( http://arxiv.org/abs/2309.00626v1 )

ライセンス: Link先を確認
Shuyang Wang and Diego Klabjan(参考訳) 本稿では,日々の暗号通貨ポートフォリオ取引の高度に確率的な環境において,深層強化学習アルゴリズムにより訓練されたトレーディング戦略の一般化性能を向上させるアンサンブル手法を提案する。 複数の検証期間を評価するモデル選択法を採用し、選択したモデルを効果的にアンサンブルするための新しい混合分布ポリシーを提案する。 金融データの非定常性に対処するために,市場状況の発展における戦略の堅牢性を示すため,粒度テスト期間におけるサンプル外性能の分布的ビューを提供し,モデルを定期的に再訓練する。 提案手法は,深層強化学習戦略とパッシブ投資戦略のベンチマークと比較し,サンプル外の性能を向上させる。

We propose an ensemble method to improve the generalization performance of trading strategies trained by deep reinforcement learning algorithms in a highly stochastic environment of intraday cryptocurrency portfolio trading. We adopt a model selection method that evaluates on multiple validation periods, and propose a novel mixture distribution policy to effectively ensemble the selected models. We provide a distributional view of the out-of-sample performance on granular test periods to demonstrate the robustness of the strategies in evolving market conditions, and retrain the models periodically to address non-stationarity of financial data. Our proposed ensemble method improves the out-of-sample performance compared with the benchmarks of a deep reinforcement learning strategy and a passive investment strategy.
翻訳日:2023-10-23 11:33:22 公開日:2023-07-27
# 学習の物理的起源について

On Physical Origins of Learning ( http://arxiv.org/abs/2310.02375v1 )

ライセンス: Link先を確認
Alex Ushveridze(参考訳) 知性の起源を理解するための探求は、自然システムにおける学習能力の進化に関する興味深い疑問を提起する。 なぜ生物は未知の知識を得る原動力を持っているのか? このモチベーションは自然選択を通じてのみ説明可能か、生存の可能性を高めるために学習できるシステムを好むか? あるいは、"学習モード"に入るシステムに対して、"正しい方法"で即時報酬を提供する、より迅速なメカニズムが存在するか? この記事では、これらの方法の考えられる性質を解明するために、後者の可能性と努力を探求します。 学習は非生物的・非進化的起源を持つ可能性がある。 学習の重要な特性は、放散を伴う開放共振型系のエネルギー蓄積機構を記述する単純な物理モデルの中で観察、説明、正確に再現できることが判明した。

The quest to comprehend the origins of intelligence raises intriguing questions about the evolution of learning abilities in natural systems. Why do living organisms possess an inherent drive to acquire knowledge of the unknown? Is this motivation solely explicable through natural selection, favoring systems capable of learning due to their increased chances of survival? Or do there exist additional, more rapid mechanisms that offer immediate rewards to systems entering the "learning mode" in the "right ways"? This article explores the latter possibility and endeavors to unravel the possible nature of these ways. We propose that learning may have non-biological and non-evolutionary origin. It turns out that key properties of learning can be observed, explained, and accurately reproduced within simple physical models that describe energy accumulation mechanisms in open resonant-type systems with dissipation.
翻訳日:2023-10-23 04:57:58 公開日:2023-07-27
# 確率的平均勾配 : 簡単な実証的研究

Stochastic Average Gradient : A Simple Empirical Investigation ( http://arxiv.org/abs/2310.12771v1 )

ライセンス: Link先を確認
Pascal Junior Tikeng Notsawo(参考訳) 近年の理論的研究やニューラルネットワークの実証的な成功にもかかわらず、勾配のバックプロパゲーションはそのようなネットワークを訓練するための最も広く使われているアルゴリズムである。 一方、トレーニングデータの量に比例してコストがかかるが、線形収束率を持つ決定的あるいは全勾配(FG)アプローチと、データセットのサイズによらずコストがかかるが、決定論的アプローチよりも最適収束率の低い確率的勾配(SG)手法とがある。 確率的アプローチのコストと決定論的アプローチの収束率を組み合わせるため、確率的平均勾配(SAG)が提案されている。 SAGは有限個の滑らかな凸関数の和を最適化する手法である。 SG法と同様に、SAG法の反復コストは和の項数に依存しない。 そこで本研究では,SAGを機械学習で使用される標準的な最適化器と比較する。 SAGは単純な玩具問題で他のオプティマイザよりも早く収束し、単純な機械学習問題で他の多くのオプティマイザよりも優れたパフォーマンスを発揮する。 また,運動量アルゴリズムとAdamを組み合わせたSAGを提案する。 これらの組み合わせは経験的に高い速度を実現し、他の手法よりも優れた性能を得ることができる。

Despite the recent growth of theoretical studies and empirical successes of neural networks, gradient backpropagation is still the most widely used algorithm for training such networks. On the one hand, we have deterministic or full gradient (FG) approaches that have a cost proportional to the amount of training data used but have a linear convergence rate, and on the other hand, stochastic gradient (SG) methods that have a cost independent of the size of the dataset, but have a less optimal convergence rate than the determinist approaches. To combine the cost of the stochastic approach with the convergence rate of the deterministic approach, a stochastic average gradient (SAG) has been proposed. SAG is a method for optimizing the sum of a finite number of smooth convex functions. Like SG methods, the SAG method's iteration cost is independent of the number of terms in the sum. In this work, we propose to compare SAG to some standard optimizers used in machine learning. SAG converges faster than other optimizers on simple toy problems and performs better than many other optimizers on simple machine learning problems. We also propose a combination of SAG with the momentum algorithm and Adam. These combinations allow empirically higher speed and obtain better performance than the other methods, especially when the landscape of the function to optimize presents obstacles or is ill-conditioned.
翻訳日:2023-10-23 02:12:33 公開日:2023-07-27
# 回転不変なランダム特徴は3次元点雲上の機械学習の強力なベースラインを提供する

Rotation-Invariant Random Features Provide a Strong Baseline for Machine Learning on 3D Point Clouds ( http://arxiv.org/abs/2308.06271v1 )

ライセンス: Link先を確認
Owen Melia, Eric Jonas, and Rebecca Willett(参考訳) 回転不変性(英: Rotational invariance)は、コンピュータビジョンや量子化学のための機械学習など、機械学習の多くの分野で使われている誘導バイアスである。 回転不変の機械学習手法は、分子特性予測や3次元形状分類など、多くのタスクにおいて技術の状態を設定する。 これらの手法は一般にタスク固有の回転不変特性に依存するか、設計や訓練に複雑な汎用ディープニューラルネットワークを使用する。 しかし、これらの手法の成功は、主に回転不変性やディープニューラルネットワークによるものであるかどうかは不明である。 この問題を解決するために,ランダムな特徴量を用いた3次元点雲データの回転不変関数の学習法を提案する。 具体的には,3次元回転に不変なバージョンを導出することにより,rahimi & recht 2007 のランダム特徴法を拡張し,ポイントクラウドデータの評価が高速であることを示す。 本手法は,標準分子特性予測ベンチマークデータセット qm7 および qm9 上での汎用回転不変ニューラルネットワークの性能に匹敵する性能を示す。 また,本手法は汎用的であり,ModelNet40形状分類タスクの回転不変ベースラインを提供する。 最後に,本手法は,競合するカーネル手法よりも予測遅延が桁違いに小さいことを示す。

Rotational invariance is a popular inductive bias used by many fields in machine learning, such as computer vision and machine learning for quantum chemistry. Rotation-invariant machine learning methods set the state of the art for many tasks, including molecular property prediction and 3D shape classification. These methods generally either rely on task-specific rotation-invariant features, or they use general-purpose deep neural networks which are complicated to design and train. However, it is unclear whether the success of these methods is primarily due to the rotation invariance or the deep neural networks. To address this question, we suggest a simple and general-purpose method for learning rotation-invariant functions of three-dimensional point cloud data using a random features approach. Specifically, we extend the random features method of Rahimi & Recht 2007 by deriving a version that is invariant to three-dimensional rotations and showing that it is fast to evaluate on point cloud data. We show through experiments that our method matches or outperforms the performance of general-purpose rotation-invariant neural networks on standard molecular property prediction benchmark datasets QM7 and QM9. We also show that our method is general-purpose and provides a rotation-invariant baseline on the ModelNet40 shape classification task. Finally, we show that our method has an order of magnitude smaller prediction latency than competing kernel methods.
翻訳日:2023-08-20 16:40:17 公開日:2023-07-27
# Joy Learning:パーキンソン病の子供向けのスマートフォンアプリケーション

Joy Learning: Smartphone Application For Children With Parkinson Disease ( http://arxiv.org/abs/2308.06270v1 )

ライセンス: Link先を確認
Mujahid Rafiq, Ibrar Hussain, Muhammad Arif, Kinza Sardar, and Ahsan Humayun(参考訳) パーキンソン病(Parkinson's)は、人体だけでなく、社会や個人の生活にも影響を及ぼす神経学的障害である。 特にパーキンソン病を持つ子どもたちは、社会的相互作用、コミュニケーション、コネクテッドネス、思考、推論、学習、記憶といった他のスキルにおいて、生活のさまざまな領域において無限の困難を生じる。 本研究は,スマートフォンアプリケーションを用いたソーシャルスキル学習のソリューションを提供する。 パーキンソン病(juvenile)を持つ子どもたちは、インストラクターが適切に説明できない現実の状況を観察することで、社会的および共通の問題を解決することができる。 結果として、アプリケーションは複雑な問題を学習し解決することへの関与を高めることになる。

Parkinson's is a Neurologic disorder that not only affects the human body but also their social and personal life. Especially children having the Parkinson's disease come up with infinite difficulties in different areas of life mostly in social interaction, communication, connectedness, and other skills such as thinking, reasoning, learning, remembering. This study gives the solution to learning social skills by using smartphone applications. The children having Parkinson's disease (juvenile) can learn to solve social and common problems by observing real-life situations that cannot be explained properly by instructors. The result shows that the application will enhance their involvement in learning and solving a complex problem.
翻訳日:2023-08-20 16:39:53 公開日:2023-07-27
# ラジオロジーネットの構築:大規模マルチモーダル医療データベースの教師なしアノテーション

Building RadiologyNET: Unsupervised annotation of a large-scale multimodal medical database ( http://arxiv.org/abs/2308.08517v1 )

ライセンス: Link先を確認
Mateja Napravnik, Franko Hr\v{z}i\'c, Sebastian Tschauner, Ivan \v{S}tajduhar(参考訳) 背景と目的: 医学診断と治療における機械学習の使用は、しばしば注記医療放射線画像に依存するコンピュータ支援診断システムの開発を通じて、近年顕著な成長を遂げている。 しかし、アノテーションのプロセスは時間がかかり、コストがかかるため、大きな注釈付き画像データセットが利用できることは大きな障害である。 本稿では,その意味的類似性に関して,医用放射線画像のデータベースを自動アノテートする方法を検討する。 材料と方法: クロアチアのリイェカにある臨床病院にある医用放射線画像の大規模な注釈付きデータセットを構築し、画像、ダイコンメタデータ、ナラティブ診断などのマルチモーダルソースを活用するために、自動化された教師なしのアプローチが用いられている。 データソース毎に複数の適切な特徴抽出器をテストし、そのユーティリティを代表データサブセット上にクラスタリングするk-meansとk-medoidsを用いて評価する。 結果: 最適な特徴抽出器はマルチモーダル表現に統合され、クラスタ化され、1,337,926個の医療画像の前駆的データセットを50個の視覚類似画像にラベル付けする自動化パイプラインが作成される。 クラスターの質は、その均質性と相互情報を調べ、解剖学的領域とモダリティ表現を考慮して評価される。 結論: 結果は,3つのデータソースの埋め込みを融合させることが,大規模医療データの教師なしクラスタリング作業に最適であることが示唆された。 したがって、この研究は、医療放射線画像のより大きくよりきめ細かな注釈付きデータセットを構築するための最初のステップである。

Background and objective: The usage of machine learning in medical diagnosis and treatment has witnessed significant growth in recent years through the development of computer-aided diagnosis systems that are often relying on annotated medical radiology images. However, the availability of large annotated image datasets remains a major obstacle since the process of annotation is time-consuming and costly. This paper explores how to automatically annotate a database of medical radiology images with regard to their semantic similarity. Material and methods: An automated, unsupervised approach is used to construct a large annotated dataset of medical radiology images originating from Clinical Hospital Centre Rijeka, Croatia, utilising multimodal sources, including images, DICOM metadata, and narrative diagnoses. Several appropriate feature extractors are tested for each of the data sources, and their utility is evaluated using k-means and k-medoids clustering on a representative data subset. Results: The optimal feature extractors are then integrated into a multimodal representation, which is then clustered to create an automated pipeline for labelling a precursor dataset of 1,337,926 medical images into 50 clusters of visually similar images. The quality of the clusters is assessed by examining their homogeneity and mutual information, taking into account the anatomical region and modality representation. Conclusion: The results suggest that fusing the embeddings of all three data sources together works best for the task of unsupervised clustering of large-scale medical data, resulting in the most concise clusters. Hence, this work is the first step towards building a much larger and more fine-grained annotated dataset of medical radiology images.
翻訳日:2023-08-20 16:22:25 公開日:2023-07-27
# 少数ショット言語誘導マニピュレーションが可能な蒸留機能フィールド

Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation ( http://arxiv.org/abs/2308.07931v1 )

ライセンス: Link先を確認
William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola(参考訳) 自己教師型および言語教師型画像モデルは、一般化に重要な世界の豊富な知識を含んでいる。 しかし、多くのロボットタスクは、しばしば2D画像の特徴に欠けている3D幾何学の詳細な理解を必要とする。 この研究は、2d基礎モデルからの正確な3d幾何学とリッチセマンティクスを組み合わせるために蒸留フィーチャフィールドを活用することで、ロボット操作のためのこの2dから3dへのギャップを橋渡しする。 そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショット学習手法を提案する。 視覚言語モデルであるCLIPから抽出した特徴を用いて、自由テキスト自然言語による操作のための新しいオブジェクトを指定し、未知の表現や新しいカテゴリのオブジェクトに一般化する能力を示す。

Self-supervised and language-supervised image models contain rich knowledge of the world that is important for generalization. Many robotic tasks, however, require a detailed understanding of 3D geometry, which is often lacking in 2D image features. This work bridges this 2D-to-3D gap for robotic manipulation by leveraging distilled feature fields to combine accurate 3D geometry with rich semantics from 2D foundation models. We present a few-shot learning method for 6-DOF grasping and placing that harnesses these strong spatial and semantic priors to achieve in-the-wild generalization to unseen objects. Using features distilled from a vision-language model, CLIP, we present a way to designate novel objects for manipulation via free-text natural language, and demonstrate its ability to generalize to unseen expressions and novel categories of objects.
翻訳日:2023-08-20 16:18:31 公開日:2023-07-27
# justicebot: 正義へのアクセスを高めるためのaiツールを構築するための方法論

JusticeBot: A Methodology for Building Augmented Intelligence Tools for Laypeople to Increase Access to Justice ( http://arxiv.org/abs/2308.02032v1 )

ライセンス: Link先を確認
Hannes Westermann, Karim Benyekhlef(参考訳) レイパーズ(すなわち法的な訓練を受けていない個人)は、しばしば法的問題の解決に苦労する。 本稿では,ジャスティスボットの方法論について述べる。 この方法論は、ケースベースとルールベースのハイブリッド推論アプローチを使用して、特定の状況における法的権利の探求を支援する、法的意思決定支援ツールを構築するために使用することができる。 本システムは,ユーザに対して状況に関する質問を行い,法的情報,過去の類似事例への言及,次のステップを提案する。 この情報は、訴訟を解決したり、裁判所で権利を行使することによって、ユーザーが問題を解決するのに役立つ可能性がある。 本稿では,法律や判例法から典型的に適用される法則を発見し,ユーザを支援するために過去の事例を符号化する手法を提案する。 また,この手法を用いたツール構築のためのインタフェースと,何千人もの個人が利用してきた地主・テナント紛争に焦点を当てた,初めてデプロイされたジャスティスボットのケーススタディについても紹介する。

Laypeople (i.e. individuals without legal training) may often have trouble resolving their legal problems. In this work, we present the JusticeBot methodology. This methodology can be used to build legal decision support tools, that support laypeople in exploring their legal rights in certain situations, using a hybrid case-based and rule-based reasoning approach. The system ask the user questions regarding their situation and provides them with legal information, references to previous similar cases and possible next steps. This information could potentially help the user resolve their issue, e.g. by settling their case or enforcing their rights in court. We present the methodology for building such tools, which consists of discovering typically applied legal rules from legislation and case law, and encoding previous cases to support the user. We also present an interface to build tools using this methodology and a case study of the first deployed JusticeBot version, focused on landlord-tenant disputes, which has been used by thousands of individuals.
翻訳日:2023-08-14 01:57:37 公開日:2023-07-27
# 1次元畳み込みネットワークによるカードライバーの眠気評価

Car-Driver Drowsiness Assessment through 1D Temporal Convolutional Networks ( http://arxiv.org/abs/2308.02415v1 )

ライセンス: Link先を確認
Francesco Rundo, Concetto Spampinato, Michael Rundo(参考訳) 近年,advanced driver assistance system solutions (adas) の科学的進歩が運転の安全性向上に重要な役割を果たしている。 ADAS技術は、車両のアクティブな制御を可能にし、潜在的に危険な状況を防ぐ。 研究者が注力してきた重要な側面は、運転者の注意度の分析であり、最近の報告では、眠気や注意力の欠如による事故の増加が確認されている。 この問題に対処するため、様々な研究により、自律神経系(ANS)と注意レベルとの間に確立されたつながりが存在するため、運転者の生理状態のモニタリングが提案されている。 本研究では、近赤外LEDエミッタと光検出器からなる革新的なバイオセンサー、特にシリコンフォトマルチプライヤデバイスを設計した。 これにより、関連する光Plethysmography(PPG)信号を分析して運転者の生理的状態を評価することができ、さらに、進行性拡張機構を具現化した1次元時間領域ハイパーフィルタ技術を開発した。 この統合システムにより、運転者の眠気のほぼリアルタイムな分類が可能となり、精度は約96%となる。

Recently, the scientific progress of Advanced Driver Assistance System solutions (ADAS) has played a key role in enhancing the overall safety of driving. ADAS technology enables active control of vehicles to prevent potentially risky situations. An important aspect that researchers have focused on is the analysis of the driver attention level, as recent reports confirmed a rising number of accidents caused by drowsiness or lack of attentiveness. To address this issue, various studies have suggested monitoring the driver physiological state, as there exists a well-established connection between the Autonomic Nervous System (ANS) and the level of attention. For our study, we designed an innovative bio-sensor comprising near-infrared LED emitters and photo-detectors, specifically a Silicon PhotoMultiplier device. This allowed us to assess the driver physiological status by analyzing the associated PhotoPlethysmography (PPG) signal.Furthermore, we developed an embedded time-domain hyper-filtering technique in conjunction with a 1D Temporal Convolutional architecture that embdes a progressive dilation setup. This integrated system enables near real-time classification of driver drowsiness, yielding remarkable accuracy levels of approximately 96%.
翻訳日:2023-08-14 01:38:14 公開日:2023-07-27
# ai literatureレビュースイート

AI Literature Review Suite ( http://arxiv.org/abs/2308.02443v1 )

ライセンス: Link先を確認
David A. Tovar(参考訳) 文献レビューの実施プロセスは、しばしば時間と労力がかかる。 このプロセスを合理化するために、いくつかの機能を統合して総合的な文献レビューを提供するAI Literature Review Suiteを紹介します。 このツールは、オープンアクセス科学、大規模言語モデル(LLM)、自然言語処理の力を活用して、PDFファイルの検索、ダウンロード、整理を可能にし、記事からコンテンツを抽出する。 セマンティック検索クエリはデータ検索に使用され、テキストの埋め込みとLLMを用いた要約は簡潔な文献レビューを提示する。 PDFとのインタラクションはユーザフレンドリーなグラフィカルユーザインタフェース(GUI)によって強化される。 このスイートには、書誌組織の統合プログラム、インタラクションとクエリ、文献レビューの要約も備えている。 このツールは、学術・産業研究における文献レビューのプロセスを自動化し、最適化するためのロバストなソリューションを提供する。

The process of conducting literature reviews is often time-consuming and labor-intensive. To streamline this process, I present an AI Literature Review Suite that integrates several functionalities to provide a comprehensive literature review. This tool leverages the power of open access science, large language models (LLMs) and natural language processing to enable the searching, downloading, and organizing of PDF files, as well as extracting content from articles. Semantic search queries are used for data retrieval, while text embeddings and summarization using LLMs present succinct literature reviews. Interaction with PDFs is enhanced through a user-friendly graphical user interface (GUI). The suite also features integrated programs for bibliographic organization, interaction and query, and literature review summaries. This tool presents a robust solution to automate and optimize the process of literature review in academic and industrial research.
翻訳日:2023-08-14 01:27:59 公開日:2023-07-27
# ファジィ人工知能の設計

Designing Fiduciary Artificial Intelligence ( http://arxiv.org/abs/2308.02435v1 )

ライセンス: Link先を確認
Sebastian Benthall and David Shekman(参考訳) 受託者(fiduciary)は信頼された代理人であり、それを雇用する校長に対して忠誠心と注意をもって行動する法的義務を持つ。 架空の組織がデジタルインターフェースを通じてユーザと対話したり、人工知能で操作を自動化する場合、その義務に準拠するように、これらのAIシステムを設計する必要がある。 本稿では、コンピュータサイエンスと法学における最近の研究を合成し、学位AIの設計と監査の手順を開発する。 学部AIの設計者は、システムのコンテキストを理解し、そのプリンシパルを特定し、それらのプリンシパルの最善の利益を評価する必要がある。 そして、デザイナーはそれらの利益に忠実で、文脈的に適切な方法で注意しなければなりません。 この手順のステップを、プライバシやアライメントといった信頼できるAIの次元に接続します。 Fiduciary AIは、複雑な技術システムと対話する際に、データ対象の同意の不完全性に対処するための有望な手段である。

A fiduciary is a trusted agent that has the legal duty to act with loyalty and care towards a principal that employs them. When fiduciary organizations interact with users through a digital interface, or otherwise automate their operations with artificial intelligence, they will need to design these AI systems to be compliant with their duties. This article synthesizes recent work in computer science and law to develop a procedure for designing and auditing Fiduciary AI. The designer of a Fiduciary AI should understand the context of the system, identify its principals, and assess the best interests of those principals. Then the designer must be loyal with respect to those interests, and careful in an contextually appropriate way. We connect the steps in this procedure to dimensions of Trustworthy AI, such as privacy and alignment. Fiduciary AI is a promising means to address the incompleteness of data subject's consent when interacting with complex technical systems.
翻訳日:2023-08-14 01:26:56 公開日:2023-07-27
# 脳を通して見る:人間の脳信号からの視覚知覚のイメージ再構成

Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals ( http://arxiv.org/abs/2308.02510v1 )

ライセンス: Link先を確認
Yu-Ting Lan, Kan Ren, Yansen Wang, Wei-Long Zheng, Dongsheng Li, Bao-Liang Lu, Lili Qiu(参考訳) しかし、人間の視覚知覚が私たちの認知とどのように絡み合っているかという根本的なメカニズムは、まだ謎のままだ。 最近の神経科学と人工知能の進歩のおかげで、視覚誘発脳の活動を記録し、計算アプローチを通じて視覚知覚能力を模倣することができた。 本稿では,脳波,すなわち脳波データに基づいて観察された画像の再構成を行うことにより,視覚刺激の再建に注意を払う。 脳波信号は時系列形式で動的であり,ノイズの多いことで知られているため,有用な情報を処理し,抽出するためには,より専門的な作業が必要である。 具体的には、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込む。 遅延拡散モデルは抽出した情報を利用して高解像度の視覚刺激像を再構成する。 実験の結果, 画像再構成の有効性と, 提案手法の定量的評価が得られた。

Seeing is believing, however, the underlying mechanism of how human visual perceptions are intertwined with our cognitions is still a mystery. Thanks to the recent advances in both neuroscience and artificial intelligence, we have been able to record the visually evoked brain activities and mimic the visual perception ability through computational approaches. In this paper, we pay attention to visual stimuli reconstruction by reconstructing the observed images based on portably accessible brain signals, i.e., electroencephalography (EEG) data. Since EEG signals are dynamic in the time-series format and are notorious to be noisy, processing and extracting useful information requires more dedicated efforts; In this paper, we propose a comprehensive pipeline, named NeuroImagen, for reconstructing visual stimuli images from EEG signals. Specifically, we incorporate a novel multi-level perceptual information decoding to draw multi-grained outputs from the given EEG data. A latent diffusion model will then leverage the extracted information to reconstruct the high-resolution visual stimuli images. The experimental results have illustrated the effectiveness of image reconstruction and superior quantitative performance of our proposed method.
翻訳日:2023-08-14 01:19:32 公開日:2023-07-27
# 同時ノードとエッジ予測グラフニューラルネットワークを用いたロバスト椎体同定

Robust vertebra identification using simultaneous node and edge predicting Graph Neural Networks ( http://arxiv.org/abs/2308.02509v1 )

ライセンス: Link先を確認
Vincent B\"urgin, Raphael Prevost, Marijn F. Stollenga(参考訳) CTスキャンにおける脊椎の自動局在と同定は多くの臨床応用において重要である。 この分野では多くの進歩があったが、主に脊椎の位置的位置を目標にしており、方向を無視している。 加えて、ほとんどの方法は、異常を含む傾向がある実際の臨床画像に敏感なパイプラインでヒューリスティックスを用いる。 我々は,u-netと標準予測を併用した単純なパイプラインを導入し,単一のグラフニューラルネットワークを用いて椎骨を全方位に関連付け,分類する。 この方法をテストするために,椎体に関連付けられたペディクル検出を含む新しい椎骨データセットを導入し,より困難なランドマーク予測,関連付け,分類タスクを作成する。 本手法では, 正体と椎骨のランドマークを正確に関連付けることができ, 偽陽性を無視し, 脊椎を単純かつ訓練可能なパイプラインで分類することができる。 本稿では,ハンガリーのマッチングや隠れマルコフモデルなど,従来の手法よりも優れた手法を示す。 また, 標準 verse challenge 体識別タスクにおいて, 競合性能を示す。

Automatic vertebra localization and identification in CT scans is important for numerous clinical applications. Much progress has been made on this topic, but it mostly targets positional localization of vertebrae, ignoring their orientation. Additionally, most methods employ heuristics in their pipeline that can be sensitive in real clinical images which tend to contain abnormalities. We introduce a simple pipeline that employs a standard prediction with a U-Net, followed by a single graph neural network to associate and classify vertebrae with full orientation. To test our method, we introduce a new vertebra dataset that also contains pedicle detections that are associated with vertebra bodies, creating a more challenging landmark prediction, association and classification task. Our method is able to accurately associate the correct body and pedicle landmarks, ignore false positives and classify vertebrae in a simple, fully trainable pipeline avoiding application-specific heuristics. We show our method outperforms traditional approaches such as Hungarian Matching and Hidden Markov Models. We also show competitive performance on the standard VerSe challenge body identification task.
翻訳日:2023-08-14 01:19:15 公開日:2023-07-27
# ヨーロッパにおける衛星山火事識別のためのマルチモーダル教師付き機械学習手法

A Multimodal Supervised Machine Learning Approach for Satellite-based Wildfire Identification in Europe ( http://arxiv.org/abs/2308.02508v1 )

ライセンス: Link先を確認
Angelica Urbanelli, Luca Barco, Edoardo Arnaudo, Claudio Rossi(参考訳) ワイルドファイアのような壊滅的な自然現象の頻度が増加すると、迅速かつ自動化されたワイルドファイア検出システムの開発が求められる。 本稿では,複数の情報源を活用し,衛星自動ホットスポット検出システムの精度を向上させるワイルドファイア識別手法を提案する。 我々は,ヨーロッパ森林火災情報システム(effis)データベースを用いて,中分解能画像分光放射計(modis)と可視赤外画像放射計スイート(viirs)により検出された熱異常を相互に参照し,ヨーロッパにおける野火研究のための大規模ホットスポットデータセットを構築する。 次に,マルチモーダル教師付き機械学習によるホットスポット検出の曖昧さを解消し,ワイルドファイアと他のイベントを区別する手法を提案する。 本手法は, ERSI 年次土地利用土地被覆 (LULC) やコペルニクス・センチネル3データなどのマルチモーダルデータソースの利用を含む。 実験の結果,山火事の特定作業におけるアプローチの有効性が示された。

The increasing frequency of catastrophic natural events, such as wildfires, calls for the development of rapid and automated wildfire detection systems. In this paper, we propose a wildfire identification solution to improve the accuracy of automated satellite-based hotspot detection systems by leveraging multiple information sources. We cross-reference the thermal anomalies detected by the Moderate-resolution Imaging Spectroradiometer (MODIS) and the Visible Infrared Imaging Radiometer Suite (VIIRS) hotspot services with the European Forest Fire Information System (EFFIS) database to construct a large-scale hotspot dataset for wildfire-related studies in Europe. Then, we propose a novel multimodal supervised machine learning approach to disambiguate hotspot detections, distinguishing between wildfires and other events. Our methodology includes the use of multimodal data sources, such as the ERSI annual Land Use Land Cover (LULC) and the Copernicus Sentinel-3 data. Experimental results demonstrate the effectiveness of our approach in the task of wildfire identification.
翻訳日:2023-08-14 01:18:58 公開日:2023-07-27
# pseudo-depthとfusionを用いたニューラル・ラミアンス・フィールドの改良

Improved Neural Radiance Fields Using Pseudo-depth and Fusion ( http://arxiv.org/abs/2308.03772v1 )

ライセンス: Link先を確認
Jingliang Li, Qiang Zhou, Chaohui Yu, Zhengda Lu, Jun Xiao, Zhibin Wang, Fan Wang(参考訳) ニューラル・ラミアンス・フィールドの出現以来、新しい視点合成は大きな注目を集めている。 放射場再構成の一般化のための既存のアプローチは、主に周辺ソース画像からの符号化ボリュームを付加的な入力として構成する。 しかし,これらの手法は,実場面の幾何学的情報を様々なスケールオブジェクトや構造で効率的にエンコードすることはできない。 本稿では,マルチスケールエンコーディングボリュームの構築とnrfモデルへのマルチスケールジオメトリ情報の提供を提案する。 構築されたボリュームをシーン内の物体の表面とレンダリングされた深さに可能な限り近いものにするため,深度予測と放射場再構成を同時に行うことを提案する。 予測深度マップは、描画深度を監督し、深度範囲を狭め、ガイドポイントをサンプリングするために使用される。 最後に、点容積特徴に含まれる幾何情報は、閉塞、照明等により不正確なものとなる。 そこで本研究では,深度誘導型近傍特徴融合による点体積特性の向上を提案する。 新たなビュー合成と密な幾何モデリングにおいて,シーンごとの最適化を伴わない手法の優れた性能を示す実験を行った。

Since the advent of Neural Radiance Fields, novel view synthesis has received tremendous attention. The existing approach for the generalization of radiance field reconstruction primarily constructs an encoding volume from nearby source images as additional inputs. However, these approaches cannot efficiently encode the geometric information of real scenes with various scale objects/structures. In this work, we propose constructing multi-scale encoding volumes and providing multi-scale geometry information to NeRF models. To make the constructed volumes as close as possible to the surfaces of objects in the scene and the rendered depth more accurate, we propose to perform depth prediction and radiance field reconstruction simultaneously. The predicted depth map will be used to supervise the rendered depth, narrow the depth range, and guide points sampling. Finally, the geometric information contained in point volume features may be inaccurate due to occlusion, lighting, etc. To this end, we propose enhancing the point volume feature from depth-guided neighbor feature fusion. Experiments demonstrate the superior performance of our method in both novel view synthesis and dense geometry modeling without per-scene optimization.
翻訳日:2023-08-14 00:41:43 公開日:2023-07-27
# 安全強化学習のための近似モデルベースシールド

Approximate Model-Based Shielding for Safe Reinforcement Learning ( http://arxiv.org/abs/2308.00707v1 )

ライセンス: Link先を確認
Alexander W. Goodall, Francesco Belardinelli(参考訳) 強化学習(rl)は、様々な領域で複雑なタスクを解決する大きな可能性を示しています。 しかし、RLを現実世界の安全クリティカルなシステムに適用することは、多くのアルゴリズムがサンプリング非効率であり、標準RLの目的を最大化することは、最悪の場合の性能を保証するものではない。 本稿では,学習したRLポリシーの性能を与えられた安全制約の集合として検証する,原理的ルックアヘッド遮蔽アルゴリズムである近似モデルベース遮蔽(AMBS)を提案する。 我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。 ambsの強固な理論的正当性を提供し,ステート依存の安全ラベルを持つatariゲーム群において,他の安全対応アプローチよりも優れた性能を示す。

Reinforcement learning (RL) has shown great potential for solving complex tasks in a variety of domains. However, applying RL to safety-critical systems in the real-world is not easy as many algorithms are sample-inefficient and maximising the standard RL objective comes with no guarantees on worst-case performance. In this paper we propose approximate model-based shielding (AMBS), a principled look-ahead shielding algorithm for verifying the performance of learned RL policies w.r.t. a set of given safety constraints. Our algorithm differs from other shielding approaches in that it does not require prior knowledge of the safety-relevant dynamics of the system. We provide a strong theoretical justification for AMBS and demonstrate superior performance to other safety-aware approaches on a set of Atari games with state-dependent safety-labels.
翻訳日:2023-08-06 11:02:46 公開日:2023-07-27
# レコメンダシステムの持続的透明性:説明可能性のための画像のベイズランク付け

Sustainable Transparency in Recommender Systems: Bayesian Ranking of Images for Explainability ( http://arxiv.org/abs/2308.01196v1 )

ライセンス: Link先を確認
Jorge Paz-Ruza, Amparo Alonso-Betanzos, Berta Guijarro-Berdi\~nas, Brais Cancela, Carlos Eiras-Franco(参考訳) Recommender Systemsは現代の世界では重要であり、一般的にユーザを関連コンテンツや製品に誘導し、ユーザや市民の判断に大きな影響を与えている。 パーソナライズされた説明がソリューションとして登場し、レコメンデーションの正当化を提供する。 パーソナライズされた説明を生成する既存のアプローチの中で、ユーザによって作成されたビジュアルコンテンツを使用することは、特に有望な選択肢であり、透明性とユーザの信頼を最大化する可能性を示している。 この文脈で推奨を説明する既存のモデルは、次のような制限に直面している。 サステナビリティは、しばしばかなりの計算リソースを必要とするため、重要な関心事であり、統合されるレコメンダシステムに匹敵するかなりの二酸化炭素排出量をもたらす。 さらに、ほとんどのモデルは、与えられたレコメンデーションに対して最も効果的なパーソナライズされた説明をランク付けする目的と一致しない代理学習目標を採用しており、亜最適学習プロセスとより大きなモデルサイズにつながる。 これらの制限に対処するために、我々は、ベイズペアワイズランキングに基づくより適切な学習目標を採用し、6つの実世界のデータセットにおける最先端モデルよりも一貫して優れたパフォーマンスを実現することを可能にするとともに、トレーニング中に最大75%のco${_2}$を発生させ、前のアプローチより64倍小さいモデルで推論することで、既存の課題に対処するために設計された新しいモデルであるbrieを提案する。

Recommender Systems have become crucial in the modern world, commonly guiding users towards relevant content or products, and having a large influence over the decisions of users and citizens. However, ensuring transparency and user trust in these systems remains a challenge; personalized explanations have emerged as a solution, offering justifications for recommendations. Among the existing approaches for generating personalized explanations, using visual content created by the users is one particularly promising option, showing a potential to maximize transparency and user trust. Existing models for explaining recommendations in this context face limitations: sustainability has been a critical concern, as they often require substantial computational resources, leading to significant carbon emissions comparable to the Recommender Systems where they would be integrated. Moreover, most models employ surrogate learning goals that do not align with the objective of ranking the most effective personalized explanations for a given recommendation, leading to a suboptimal learning process and larger model sizes. To address these limitations, we present BRIE, a novel model designed to tackle the existing challenges by adopting a more adequate learning goal based on Bayesian Pairwise Ranking, enabling it to achieve consistently superior performance than state-of-the-art models in six real-world datasets, while exhibiting remarkable efficiency, emitting up to 75% less CO${_2}$ during training and inference with a model up to 64 times smaller than previous approaches.
翻訳日:2023-08-06 10:52:43 公開日:2023-07-27
# 深部時間補間とクラスタリングネットワークによる生理的特徴に基づく急性疾患表現型同定

Identifying acute illness phenotypes via deep temporal interpolation and clustering network on physiologic signatures ( http://arxiv.org/abs/2307.15719v1 )

ライセンス: Link先を確認
Yuanfang Ren, Yanjun Li, Tyler J. Loftus, Jeremy Balch, Kenneth L. Abbott, Shounak Datta, Matthew M. Ruppert, Ziyuan Guan, Benjamin Shickel, Parisa Rashidi, Tezcan Ozrazgat-Baslanti, Azra Bihorac(参考訳) 入院初日は臨床経過に影響を及ぼすが、早期臨床判断はデータ異常によることが多い。 入院後6時間以内のバイタルサインのクラスタリング分析により,病的特徴と予後の異なる患者表現型が早期臨床決定に寄与する可能性がある。 3次医療センターに6時間以上入院した75,762人の成人を対象に,単心縦型ehrデータセットを作成した。 トレーニングコホート(n=41,502)において,スパース,不規則サンプリングされたバイタルサインデータから潜時表現を抽出し,異なる患者表現型を抽出する深部時間補間・クラスタリングネットワークを提案する。 モデルとハイパーパラメータは検証コホート(n=17,415)に基づいて選択された。 実験コホート(n=16,845)を用いて再現性とバイオマーカーとの相関性を検討した。 トレーニング、検証、テストのコホートは、年齢(54-55 yrs)、性別(55%メス)、人種、共生、および病気の重症度で同様の分布を示した。 4つのクラスターが同定された。 フェノタイプA(18%)は, 呼吸不全, 急性腎障害, 敗血症, 3年間の死亡率が高く, 合併症が多かった。 B型(33%)とC型(31%)は軽度臓器機能障害の拡散パターンを示した。 フェノタイプBは短期成績が良好であったが, 3年ぶりの死亡率を示した。 フェノタイプCは良好な臨床成績を示した。 フェノタイプD (17%) は早期・持続性低血圧, 早期手術の頻度, 炎症のバイオマーカーが有意に高かったが, 3年で最も低死亡率であった。 表現型のSOFAスコアを比較した後、クラスタリングの結果は単に他の明度評価を繰り返したわけではない。 異種コホートでは, 深い時間的補間とクラスタリングネットワークにより, 疾患と予後の異なる4つの表現型が同定された。 このツールは、時間的制約の下でトリアージ決定と臨床決定支援に影響を与える可能性がある。

Initial hours of hospital admission impact clinical trajectory, but early clinical decisions often suffer due to data paucity. With clustering analysis for vital signs within six hours of admission, patient phenotypes with distinct pathophysiological signatures and outcomes may support early clinical decisions. We created a single-center, longitudinal EHR dataset for 75,762 adults admitted to a tertiary care center for 6+ hours. We proposed a deep temporal interpolation and clustering network to extract latent representations from sparse, irregularly sampled vital sign data and derived distinct patient phenotypes in a training cohort (n=41,502). Model and hyper-parameters were chosen based on a validation cohort (n=17,415). Test cohort (n=16,845) was used to analyze reproducibility and correlation with biomarkers. The training, validation, and testing cohorts had similar distributions of age (54-55 yrs), sex (55% female), race, comorbidities, and illness severity. Four clusters were identified. Phenotype A (18%) had most comorbid disease with higher rate of prolonged respiratory insufficiency, acute kidney injury, sepsis, and three-year mortality. Phenotypes B (33%) and C (31%) had diffuse patterns of mild organ dysfunction. Phenotype B had favorable short-term outcomes but second-highest three-year mortality. Phenotype C had favorable clinical outcomes. Phenotype D (17%) had early/persistent hypotension, high rate of early surgery, and substantial biomarker rate of inflammation but second-lowest three-year mortality. After comparing phenotypes' SOFA scores, clustering results did not simply repeat other acuity assessments. In a heterogeneous cohort, four phenotypes with distinct categories of disease and outcomes were identified by a deep temporal interpolation and clustering network. This tool may impact triage decisions and clinical decision-support under time constraints.
翻訳日:2023-08-01 19:45:23 公開日:2023-07-27
# LLMediator: GPT-4支援オンライン紛争解決

LLMediator: GPT-4 Assisted Online Dispute Resolution ( http://arxiv.org/abs/2307.16732v1 )

ライセンス: Link先を確認
Hannes Westermann, Jaromir Savelka, Karim Benyekhlef(参考訳) 本稿では,GPT-4のような最先端の大規模言語モデル(LLM)の機能を活用して,オンライン紛争解決(ODR)を強化する実験プラットフォームであるLLMediatorを紹介する。 高量、低強度の法的紛争の文脈では、交渉や仲介のような代替の紛争解決法は、平民に対してアクセス可能で協力的な解決策を提供する。 これらのアプローチはODRプラットフォーム上でオンラインで実施することができる。 LLMediatorは、GPT-4を利用してユーザーメッセージの改定、仲介者の応答の起草、そして潜在的に自律的に議論を行うことによって、そのようなプロセスの有効性を向上させることを目的としている。 我々はLLMediatorのいくつかの特徴を提示し、初期定性評価を行い、LCMがODRをサポートし、円滑な解決を促進する可能性を実証する。 最初の概念実証は有望であり、AIによる交渉と仲介に関するさらなる研究の道を開く。

In this article, we introduce LLMediator, an experimental platform designed to enhance online dispute resolution (ODR) by utilizing capabilities of state-of-the-art large language models (LLMs) such as GPT-4. In the context of high-volume, low-intensity legal disputes, alternative dispute resolution methods such as negotiation and mediation offer accessible and cooperative solutions for laypeople. These approaches can be carried out online on ODR platforms. LLMediator aims to improve the efficacy of such processes by leveraging GPT-4 to reformulate user messages, draft mediator responses, and potentially autonomously engage in the discussions. We present and discuss several features of LLMediator and conduct initial qualitative evaluations, demonstrating the potential for LLMs to support ODR and facilitate amicable settlements. The initial proof of concept is promising and opens up avenues for further research in AI-assisted negotiation and mediation.
翻訳日:2023-08-01 13:50:43 公開日:2023-07-27
# カプセル内視鏡における三次元表面再構成の課題

Challenges of 3D Surface Reconstruction in Capsule Endoscopy ( http://arxiv.org/abs/2103.10390v4 )

ライセンス: Link先を確認
Olivier Rukundo(参考訳) 大腸がん検診の精度と信頼性を向上させるため,カプセル内視鏡(CE)画像を用いた三次元3次元表面再構成は,CEハードウェアとソフトウェア制限のために依然として困難である。 本報告は一般的に3次元可視化に関わる課題に焦点を当て,視線角度の不確定選択が3次元表面に与える影響について検討する。 さらに、同じ方位角と異なる視線角で見る3次元表面からの衝撃も示している。 報告書は、再構成された3次元表面の3Dプリンティングは、視線不確定選択と2次元画面の視覚的制約関連エラーを克服する可能性があると結論付けている。

Essential for improving the accuracy and reliability of bowel cancer screening, three-dimensional (3D) surface reconstruction using capsule endoscopy (CE) images remains challenging due to CE hardware and software limitations. This report generally focuses on challenges associated with 3D visualization and specifically investigates the impact of the indeterminate selection of the angle of the line of sight on 3D surfaces. Furthermore, it demonstrates that impact through 3D surfaces viewed at the same azimuth angles and different elevation angles of the line of sight. The report concludes that 3D printing of reconstructed 3D surfaces can potentially overcome line of sight indeterminate selection and 2D screen visual restriction-related errors.
翻訳日:2023-07-31 17:05:30 公開日:2023-07-27
# 量子量減少について

On Quantum Weight Reduction ( http://arxiv.org/abs/2102.10030v3 )

ライセンス: Link先を確認
M. B. Hastings(参考訳) 量子符号の減量のための一般的な手順を与える。 これは、以前のwork\cite{owr}を修正し、LDPCコードで高重み安定化器を効果的に誘導する"coning"と呼ばれる新しいテクニックを導入する。 1つのアプリケーションとして、任意の$O(1)$の安定化器重みを持つLDPCコードは、すべての安定器が少なくとも5ドル以上の重みを持つコードに変換される。 また、X$-stabilizersが古典的な対数重み付き乱数符号から導出され、Z$-stabilizersが線形重みを持つ量子コードに適用することにより、距離$\tilde \Omega(N^{2/3})$と$\tilde\Omega(N^{2/3})$論理量子ビットを持つLDPC量子コードを構築する。

We give a general procedure for weight reducing quantum codes. This corrects a previous work\cite{owr}, and introduces a new technique that we call "coning" to effectively induce high weight stabilizers in an LDPC code. As one application, any LDPC code (with arbitrary $O(1)$ stabilizer weights) may be turned into a code where all stabilizers have weight at most $5$ at the cost of at most a constant factor increase in number of physical qubits and constant factor reduction in distance. Also, by applying this technique to a quantum code whose $X$-stabilizers are derived from a classical log-weight random code and whose $Z$-stabilizers have linear weight, we construct an LDPC quantum code with distance $\tilde \Omega(N^{2/3})$ and $\tilde\Omega(N^{2/3})$ logical qubits.
翻訳日:2023-07-31 17:05:18 公開日:2023-07-27
# 因果関係の組合せ

The Combinatorics of Causality ( http://arxiv.org/abs/2206.08911v4 )

ライセンス: Link先を確認
Stefano Gogioso and Nicola Pinzani(参考訳) 本稿では,入力に依存した動的因果順序をモデル化するための組合せ対象の広いファミリーである「入力履歴空間」の概念を紹介し,検討する。 我々は,従来の部分順序および前順序に基づく因果順序の概念を参考にして,その定義を動機付け,それらの概念の一般化によって利用可能な組合せ複雑性の新たな展望を探求する。 この過程において、因果関係のきめ細かい構造は以前考えられていたよりもかなり複雑であることが判明した: バイナリ入力の最も単純な場合において、利用可能な「完全に完備」な空間の数は、2つのイベントの7から3つのイベントの2644から4つのイベント(おそらく約10億)の未知数へと増加する。 言い換えると、非局所性と文脈性に関する以前の文献では、3つの出来事に利用可能な2644の空間のうちの1つを使い、確定因果関係の研究は部分順序から19の空間を使い、無期限因果関係の研究は合計25の合計でわずか6つしか使われなかった。 因果分布の層理論的処理は、第2部「因果性トポロジー」 [arxiv:2303.07148] で詳述される一方、関連する経験モデルによって形成されるポリトープは、第3部「因果性幾何学」 [arxiv:2303.09017] で研究されている。 2つの入力を持つ3つのイベントに関する2644の因果完全空間の完全な分類は、「2つの入力を持つ3つのイベント上の因果完全空間の分類」と、4つのイベントの現在進行中の検索による分類と部分結果のアルゴリズムで提供されている。

We introduce and explore the notion of "spaces of input histories", a broad family of combinatorial objects which can be used to model input-dependent, dynamical causal order. We motivate our definition with reference to traditional partial order- and preorder-based notions of causal order, adopted by the majority of previous literature on the subject, and we proceed to explore the novel landscape of combinatorial complexity made available by our generalisation of those notions. In the process, we discover that the fine-grained structure of causality is significantly more complex than we might have previously believed: in the simplest case of binary inputs, the number of available "causally complete" spaces grows from 7 on 2 events, to 2644 on 3 events, to an unknown number on 4 events (likely around a billion). For perspective, previous literature on non-locality and contextuality used a single one of the 2644 available spaces on 3 events, work on definite causality used 19 spaces, derived from partial orders, and work on indefinite causality used only 6 more, for a grand total of 25. This paper is the first instalment in a trilogy: the sheaf-theoretic treatment of causal distributions is detailed in Part 2, "The Topology of Causality" [arXiv:2303.07148], while the polytopes formed by the associated empirical models are studied in Part 3, "The Geometry of Causality" [arXiv:2303.09017]. An exhaustive classification of the 2644 causally complete spaces on 3 events with binary inputs is provided in the supplementary work "Classification of causally complete spaces on 3 events with binary inputs", together with the algorithm used for the classification and partial results from the ongoing search on 4 events.
翻訳日:2023-07-31 17:03:41 公開日:2023-07-27
# ゲージ接続の隠れた量子起源

The hidden quantum origin of gauge connections ( http://arxiv.org/abs/2205.14007v4 )

ライセンス: Link先を確認
Andrei Tudor Patrascu(参考訳) ゲージ場理論のファイバー束視点は、可能な量子解釈に焦点を当てて検討される。 状態空間の非分離性の基本的な量子的性質は、ファイバー束上の接続を定義する文脈において考慮され、量子原理をゲージ理論の幾何学的および位相的定義に適用する。 結果として、標準モデルのすべての相互作用と、おそらくは古典重力でさえ量子成分を持っているかどうかを、正当に自問することができる。 私は標準的なファイバー束法を用いてゲージ理論を導入するが、量子束が存在することは知られているが、それは単に、古典的ゲージ理論を定式化する通常の方法では、これまで未知の量子的側面を見つけることができることを示すためである。 ある意味では、ゲージ場と平行移動を許容するためには、我々の古典的なゲージ理論でさえ少なくともある程度の量子性を認める必要があるという評価を正当化しようと試みる。 主な主張は、時空における相互作用の伝播は量子現象であるということである。

A fibre bundle viewpoint of gauge field theories is reviewed with focus on a possible quantum interpretation. The fundamental quantum properties of non-separability of state spaces is considered in the context of defining the connection on the fibre bundle, leading to an application of the quantum principles to the geometrical and topological definition of gauge theories. As a result, one could justifiably ask oneself if all interactions of the standard model, and perhaps even classical gravity have some quantum component after all. I employ a standard fibre bundle approach to introduce gauge theories, albeit it is known that a quantum bundle exists, simply because the main scope is to show that in the usual way in which we formulate classical gauge theories one can find quantum aspects that have been unknown until now. In a sense, I will try to justify the assessment that if we are to allow for gauge fields and parallel transport, we may have to allow at least some level of quantumness even in our classical gauge theories. The main statement is that propagation of interactions in spacetime is a quantum phenomenon.
翻訳日:2023-07-31 17:02:58 公開日:2023-07-27
# 未知のサービスレートを有する待ち行列システムにおける最適割当ルールの離散セットの学習

Learning a Discrete Set of Optimal Allocation Rules in a Queueing System with Unknown Service Rate ( http://arxiv.org/abs/2202.02419v2 )

ライセンス: Link先を確認
Saghar Adler, Mehrdad Moharrami and Vijay Subramanian(参考訳) デザインプロダクションシステム,メッセージングシステム,アプリベースの駐車システムにおいて,Erlang-Bブロッキングモデルが通信ネットワークやコールセンタを越えて,サイズや価格設定など,幅広い近代的な応用によって動機付けられ,そのようなシステムに対する入場制御について検討する。 私たちのモデルでは、ジョブが到着するたびに、ディスペンサーがジョブを利用可能なサーバに割り当てるか、ブロックするかを決めます。 各サービスされたジョブはディスペンサーに一定の報酬を与えるが、結果としてサービスの単位時間当たりのコストも生じる。 本研究の目的は,現実的なシステムサンプリングを反映した,到着時刻と到着時のシステム状態のみを観測し,ディスパッチの長期平均報酬を最大化するディスパッチポリシを設計することである。 批判的に、ディスパッチはサービス時間も出発時間も観察しないので、報奨信号を使用する標準的な強化学習ベースアプローチは適用されない。 そこで我々は,パラメトリック学習問題として,学習に基づくディスパッチ方式を開発した。 本問題では,部屋政策(無限に頻繁に爆発する)と無許可政策(即ち学習を終了させる)を常に認めるものと,適応的制御文学とは別物とする同一の制御を切り替える。 したがって、我々の学習スキームは、学習が行き詰まることのないように、常に肯定的な部屋ポリシーを使う。 全てのサービスレートに対して、提案されたポリシーは漸近的に最適な行動をとり、有限時間後悔の保証を示すことを学習する。 一定の等価な最適制御ポリシーの極端なコントラストは、異なるパラメーターレジームに対する後悔の限界に現れる学習の困難をもたらす:一方のレジームにおける絶え間ない後悔ともう一方のレジームにおける後悔の対等な成長。

Motivated by the wide range of modern applications of the Erlang-B blocking model beyond communication networks and call centers to sizing and pricing in design production systems, messaging systems, and app-based parking systems, we study admission control for such a system but with unknown arrival and service rates. In our model, at every job arrival, a dispatcher decides to assign the job to an available server or block it. Every served job yields a fixed reward for the dispatcher, but it also results in a cost per unit time of service. Our goal is to design a dispatching policy that maximizes the long-term average reward for the dispatcher based on observing only the arrival times and the state of the system at each arrival that reflects a realistic sampling of such systems. Critically, the dispatcher observes neither the service times nor departure times so that standard reinforcement learning-based approaches that use reward signals do not apply. Hence, we develop our learning-based dispatch scheme as a parametric learning problem a'la self-tuning adaptive control. In our problem, certainty equivalent control switches between an always admit if room policy (explore infinitely often) and a never admit policy (immediately terminate learning), which is distinct from the adaptive control literature. Hence, our learning scheme judiciously uses the always admit if room policy so that learning doesn't stall. We prove that for all service rates, the proposed policy asymptotically learns to take the optimal action and present finite-time regret guarantees. The extreme contrast in the certainty equivalent optimal control policies leads to difficulties in learning that show up in our regret bounds for different parameter regimes: constant regret in one regime versus regret growing logarithmically in the other.
翻訳日:2023-07-31 17:01:40 公開日:2023-07-27
# 自己教師付きビデオ表現学習のためのクロスモーダルマニフォールドカットミックス

Cross-modal Manifold Cutmix for Self-supervised Video Representation Learning ( http://arxiv.org/abs/2112.03906v3 )

ライセンス: Link先を確認
Srijan Das and Michael S. Ryoo(参考訳) ビデオのコントラスト表現学習は、数百万のビデオが利用できることに依存している。 これはWeb上のビデオには実用的だが、現実世界のアプリケーションのための大規模なビデオの入手は非常に高価で手間がかかる。 そこで,本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあて,まず,ビデオの混合による新しいビデオサンプル作成のための最善の戦略を分析する。 では、ビデオの他のモダリティをデータミキシングに利用できるのか、という疑問が残る。 そこで本研究では,ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。 ビデオミキシング戦略stc-mix,すなわちビデオの予備ミキシングとcmmcをビデオ内の異なるモダリティにまたがって行うことにより,学習した映像表現の品質が向上することがわかった。 小型ビデオデータセットUCF101とHMDB51の2つのダウンストリームタスクに対して、アクション認識とビデオ検索の徹底的な実験を行った。 また,ドメイン知識が限られているNTUデータセットに対して,STC-mixの有効性を示す。 両ダウンストリームタスクにおけるSTC-mixの性能は、トレーニングデータが少ない一方で、他の自己教師型アプローチと同等であることを示す。

Contrastive representation learning of videos highly relies on the availability of millions of unlabelled videos. This is practical for videos available on web but acquiring such large scale of videos for real-world applications is very expensive and laborious. Therefore, in this paper we focus on designing video augmentation for self-supervised learning, we first analyze the best strategy to mix videos to create a new augmented video sample. Then, the question remains, can we make use of the other modalities in videos for data mixing? To this end, we propose Cross-Modal Manifold Cutmix (CMMC) that inserts a video tesseract into another video tesseract in the feature space across two different modalities. We find that our video mixing strategy STC-mix, i.e. preliminary mixing of videos followed by CMMC across different modalities in a video, improves the quality of learned video representations. We conduct thorough experiments for two downstream tasks: action recognition and video retrieval on two small scale video datasets UCF101, and HMDB51. We also demonstrate the effectiveness of our STC-mix on NTU dataset where domain knowledge is limited. We show that the performance of our STC-mix on both the downstream tasks is on par with the other self-supervised approaches while requiring less training data.
翻訳日:2023-07-31 17:00:54 公開日:2023-07-27
# ほぼフラストレーションのない地盤状態の準備

Nearly-frustration-free ground state preparation ( http://arxiv.org/abs/2108.03249v2 )

ライセンス: Link先を確認
Matthew Thibodeau, Bryan K. Clark(参考訳) 量子基底状態の解法は量子多体系の性質を理解する上で重要であり、量子コンピュータは量子基底状態の解法に適している可能性がある。 最近の研究は、量子コンピュータ上で完全に汎用的なハミルトン多様体の基底状態を作成するのにほぼ最適なスキームを示しており、クエリの複雑性は$\delta^{-1}$、すなわち、その正規化されたギャップでスケールする。 ここでは、基底状態の準備問題はハミルトンの特別な部分集合に制限され、「ほとんどフラストレーションのない」と言うものを含む: ブロックエンコードされ、従って正規化されたハミルトンの$\alpha^{-1}H$が$\delta^y$ of -1内にあるハミルトニアンのクラス、$\delta$は$\alpha^{-1}H$と$0 \leq y \leq 1$のスペクトルギャップである。 このサブクラスについて、ギャップへの依存が漸近的によいアルゴリズムを記述し、$\delta^{y/2-1}$ とスケーリングし、この新しい依存が$\log \delta$ まで最適であることを示す。 さらに,このサブクラスに居住する物理的動機づけのあるハミルトニアンの例を示す。 最後に, フラストレーションをほとんど含まない者に対して, 一般ハミルトニアンに対しても, 基底状態の場合と同様の高速化で, 励起状態の調製を可能にする手法の拡張について述べる。

Solving for quantum ground states is important for understanding the properties of quantum many-body systems, and quantum computers are potentially well-suited for solving for quantum ground states. Recent work has presented a nearly optimal scheme that prepares ground states on a quantum computer for completely generic Hamiltonians, whose query complexity scales as $\delta^{-1}$, i.e. inversely with their normalized gap. Here we consider instead the ground state preparation problem restricted to a special subset of Hamiltonians, which includes those which we term "nearly-frustration-free": the class of Hamiltonians for which the ground state energy of their block-encoded and hence normalized Hamiltonian $\alpha^{-1}H$ is within $\delta^y$ of -1, where $\delta$ is the spectral gap of $\alpha^{-1}H$ and $0 \leq y \leq 1$. For this subclass, we describe an algorithm whose dependence on the gap is asymptotically better, scaling as $\delta^{y/2-1}$, and show that this new dependence is optimal up to factors of $\log \delta$. In addition, we give examples of physically motivated Hamiltonians which live in this subclass. Finally, we describe an extension of this method which allows the preparation of excited states both for generic Hamiltonians as well as, at a similar speedup as the ground state case, for those which are nearly frustration-free.
翻訳日:2023-07-31 16:59:34 公開日:2023-07-27
# 見逃すデータを再考する - Aleatoric Uncertainty-Aware Recommendation

Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation ( http://arxiv.org/abs/2209.11679v2 )

ライセンス: Link先を確認
Chenxu Wang, Fuli Feng, Yang Zhang, Qifan Wang, Xunhan Hu, Xiangnan He(参考訳) 歴史的相互作用はリコメンダモデルトレーニングのデフォルトの選択肢であり、通常は高い疎性を示す。 標準的な選択は、欠落したデータを負のトレーニングサンプルとして扱い、観察したインタラクションとともにユーザとテーマのペア間のインタラクションの確率を見積もることである。 このような方法では、潜在的な相互作用はトレーニング中に必然的に誤ってラベル付けされるため、モデルの忠実度が損なわれる。 本研究では,失明データ固有のランダム性を記述したアレータティック不確実性の新しい視点から,誤ラベル問題について検討する。 ランダム性は、単に相互作用の可能性を超越し、アレタリック不確実性モデリングを受け入れることを促す。 そこで本研究では,新しい不確実性推定モデルと通常のレコメンデータモデルを組み合わせた,新しいAleatoric Uncertainty-aware Recommendation(AUR)フレームワークを提案する。 aleatoric uncertaintyの理論によれば、私たちは推定子を学ぶための新しい推奨目標を導出する。 誤記の可能性はペアの可能性を反映しているため、aurは不確実性に応じて推奨を行い、全体的なパフォーマンスを犠牲にすることなく、人気度の低いアイテムの推奨性能を改善することが示されている。 行列因子化(MF)、LightGCN、VAEの3つの代表的な推奨モデル上でAURをインスタンス化する。 2つの実世界のデータセットの大規模な結果は、AUR w.r.t.のより優れた推奨結果、特にロングテールアイテムの有効性を検証する。

Historical interactions are the default choice for recommender model training, which typically exhibit high sparsity, i.e., most user-item pairs are unobserved missing data. A standard choice is treating the missing data as negative training samples and estimating interaction likelihood between user-item pairs along with the observed interactions. In this way, some potential interactions are inevitably mislabeled during training, which will hurt the model fidelity, hindering the model to recall the mislabeled items, especially the long-tail ones. In this work, we investigate the mislabeling issue from a new perspective of aleatoric uncertainty, which describes the inherent randomness of missing data. The randomness pushes us to go beyond merely the interaction likelihood and embrace aleatoric uncertainty modeling. Towards this end, we propose a new Aleatoric Uncertainty-aware Recommendation (AUR) framework that consists of a new uncertainty estimator along with a normal recommender model. According to the theory of aleatoric uncertainty, we derive a new recommendation objective to learn the estimator. As the chance of mislabeling reflects the potential of a pair, AUR makes recommendations according to the uncertainty, which is demonstrated to improve the recommendation performance of less popular items without sacrificing the overall performance. We instantiate AUR on three representative recommender models: Matrix Factorization (MF), LightGCN, and VAE from mainstream model architectures. Extensive results on two real-world datasets validate the effectiveness of AUR w.r.t. better recommendation results, especially on long-tail items.
翻訳日:2023-07-31 16:40:23 公開日:2023-07-27
# 乱用言語検出のためのRationale-Guided Few-Shot分類

Rationale-Guided Few-Shot Classification to Detect Abusive Language ( http://arxiv.org/abs/2211.17046v2 )

ライセンス: Link先を確認
Punyajoy Saha, Divyanshu Sheth, Kushal Kedia, Binny Mathew, Animesh Mukherjee(参考訳) 乱用言語は、オンラインソーシャルメディアにおける問題である。 乱用言語の検出に関する過去の研究は、様々なプラットフォーム、言語、写真などをカバーする。 しかし、これらのデータセットを使ってトレーニングされたモデルは、ドメイン間の評価設定ではうまく機能しない。 これを克服するための一般的な戦略は、ターゲットドメインからいくつかのサンプルを使用してモデルをトレーニングし、そのドメインのパフォーマンスを改善することだ(クロスドメインの少数ショットトレーニング)。 しかし、これはモデルがそれらのサンプルのアーティファクトを過剰に適合させる可能性がある。 魅力的な解決策は、モデルの合理的性、すなわちテキストのラベルを正当化するテキストを導くことである。 この手法は様々なNLPタスクのドメイン内設定におけるモデル性能を改善する。 本稿では,乱用言語検出のためのRGFS(Rationale-Guided Few-Shot Classification)を提案する。 まず,合理性,目標,ラベルを共同で学習するマルチタスク学習セットアップを構築し,合理性検出タスクにおける6%マクロf1の有意な改善を見出した。 2つの有理積分BERTベースのアーキテクチャ(RGFSモデル)を導入し、5つの異なる乱用言語データセットに対するシステム評価を行い、数ショットの分類設定では、RGFSベースのモデルはマクロF1スコアの約7%でベースラインモデルより優れ、他のソースドメインで微調整されたモデルと競合的に動作することを示した。 さらに、RGFSベースのモデルは、信頼性の観点からLIME/SHAPベースのアプローチよりも優れており、忠実性の観点からは性能が近い。

Abusive language is a concerning problem in online social media. Past research on detecting abusive language covers different platforms, languages, demographies, etc. However, models trained using these datasets do not perform well in cross-domain evaluation settings. To overcome this, a common strategy is to use a few samples from the target domain to train models to get better performance in that domain (cross-domain few-shot training). However, this might cause the models to overfit the artefacts of those samples. A compelling solution could be to guide the models toward rationales, i.e., spans of text that justify the text's label. This method has been found to improve model performance in the in-domain setting across various NLP tasks. In this paper, we propose RGFS (Rationale-Guided Few-Shot Classification) for abusive language detection. We first build a multitask learning setup to jointly learn rationales, targets, and labels, and find a significant improvement of 6% macro F1 on the rationale detection task over training solely rationale classifiers. We introduce two rationale-integrated BERT-based architectures (the RGFS models) and evaluate our systems over five different abusive language datasets, finding that in the few-shot classification setting, RGFS-based models outperform baseline models by about 7% in macro F1 scores and perform competitively to models finetuned on other source domains. Furthermore, RGFS-based models outperform LIME/SHAP-based approaches in terms of plausibility and are close in performance in terms of faithfulness.
翻訳日:2023-07-31 16:29:11 公開日:2023-07-27
# VITR:クロスモーダル情報検索のための関係焦点学習による視覚変換器の拡張

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval ( http://arxiv.org/abs/2302.06350v3 )

ライセンス: Link先を確認
Yan Gong, Georgina Cosma, and Axel Finke(参考訳) ユーザクエリで表現される関係は、クロスモーダル情報検索に不可欠である。 関係に焦点をあてたクロスモーダル検索は、これらの関係に対応する情報を検索することを目的としており、異なるモダリティ間の効果的な検索を可能にする。 Contrastive Language-Image Pre-Training (CLIP) のような事前学習型ネットワークは、様々なクロスモーダル学習タスクにおける例外的な性能を高く評価している。 しかし、これらのネットワークで使用されるビジョントランスフォーマー(ViT)は、画像領域の関係にフォーカスする能力に制限がある。 特に、vitは、画像領域と記述のアライメントを考慮せずに、画像とグローバルレベルでの関連記述とをマッチングするように訓練される。 本稿では、ローカルエンコーダに基づく画像領域関係の抽出と推論により、ViTを強化する新しいネットワークであるVITRを紹介する。 VITRは2つのキーコンポーネントから構成される。 まず、画像中の領域関係を抽出し、推論できるようにすることで、ViTベースのクロスモーダルネットワークの機能を拡張する。 第2に、VITRは、画像と記述間の類似度スコアを予測するために、推論結果とグローバル知識を組み合わせた融合モジュールを組み込んでいる。 提案したVITRネットワークは,関係性に着目したクロスモーダル情報検索の課題に関する実験を通じて評価された。 refcocog, clevr, flickr30kのデータセットの解析から得られた結果は, 提案するvitrネットワークが, 画像間検索とテキスト間検索において, 最先端のネットワークを一貫して上回っていることを示している。

The relations expressed in user queries are vital for cross-modal information retrieval. Relation-focused cross-modal retrieval aims to retrieve information that corresponds to these relations, enabling effective retrieval across different modalities. Pre-trained networks, such as Contrastive Language-Image Pre-training (CLIP), have gained significant attention and acclaim for their exceptional performance in various cross-modal learning tasks. However, the Vision Transformer (ViT) used in these networks is limited in its ability to focus on image region relations. Specifically, ViT is trained to match images with relevant descriptions at the global level, without considering the alignment between image regions and descriptions. This paper introduces VITR, a novel network that enhances ViT by extracting and reasoning about image region relations based on a local encoder. VITR is comprised of two key components. Firstly, it extends the capabilities of ViT-based cross-modal networks by enabling them to extract and reason with region relations present in images. Secondly, VITR incorporates a fusion module that combines the reasoned results with global knowledge to predict similarity scores between images and descriptions. The proposed VITR network was evaluated through experiments on the tasks of relation-focused cross-modal information retrieval. The results derived from the analysis of the RefCOCOg, CLEVR, and Flickr30K datasets demonstrated that the proposed VITR network consistently outperforms state-of-the-art networks in image-to-text and text-to-image retrieval.
翻訳日:2023-07-31 16:22:00 公開日:2023-07-27
# 一般量子ウィーランドの不等式

A generic quantum Wielandt's inequality ( http://arxiv.org/abs/2301.08241v2 )

ライセンス: Link先を確認
Yifan Jia, Angela Capel(参考訳) 本稿では、量子ウィランドの不等式(英語版)の一般版を提供し、これは最小長$k$に最適な上限を与え、生成系内の要素の積の長さ-$k$は確率1で$M_n(\mathbb{C})$である。 総じて$k$ が $\theta(\log n)$ の順序であることを示すが、これは一般の場合とは対照的に、日付への最善のバウンドは $o(n^2 \log n)$ である。 この結果は、ランダム量子チャネルの原始性指数に新たな境界を与えることを意味する。 さらに, 辺長$\omega( \log n )$ が局所ハミルトニアンの一意な基底状態であるグリッド上の周期境界条件を持つほとんどすべての変換不変なpep(特に行列積状態)を結論付けることにより, 投影された絡み合った対状態に対する長期の開問題に新たな光を当てた。 行列リー代数の類似性を観察し,ランダムリー生成系に対する数値計算結果を提供する。

In this paper, we provide a generic version of quantum Wielandt's inequality, which gives an optimal upper bound on the minimal length $k$ such that length-$k$ products of elements in a generating system span $M_n(\mathbb{C})$ with probability one. We show that $k$ generically is of order $\Theta(\log n)$, as opposed to the general case, in which the best bound to the date is $O(n^2 \log n)$. Our result implies a new bound on the primitivity index of a random quantum channel. Furthermore, we shed new light on a long-standing open problem for Projected Entangled Pair State, by concluding that almost any translation-invariant PEPS (in particular, Matrix Product State) with periodic boundary conditions on a grid with side length of order $\Omega( \log n )$ is the unique ground state of a local Hamiltonian. We observe similar characteristics for matrix Lie algebras and provide numerical results for random Lie-generating systems.
翻訳日:2023-07-31 16:20:47 公開日:2023-07-27
# DiME:マトリックスベースのエントロピーの違いによる相互情報の最大化

DiME: Maximizing Mutual Information by a Difference of Matrix-Based Entropies ( http://arxiv.org/abs/2301.08164v3 )

ライセンス: Link先を確認
Oscar Skean, Jhoan Keider Hoyos Osorio, Austin J. Brockmeier, Luis Gonzalo Sanchez Giraldo(参考訳) 基礎となる分布を明示的に仮定することなく,データから推定可能な相互情報と同様の特性を持つ情報理論量を導入する。 この量は、最近提案された、正規化グラム行列の固有値を用いて、再生核ヒルベルト空間における非中心共分散作用素の固有値の推定を計算する行列ベースのエントロピーに基づいている。 行列に基づくエントロピー(dime)の差異は,確率変数間の相互情報の最大化に関する問題によく適合することを示す。 そのような問題に対する多くの手法は自明な解決につながるが、DMEは自然にそのような結果を罰する。 おもちゃのガウスデータセットにおける相互情報のベースライン推定値と比較した。 本稿では,相互情報の高いビュー間の共有表現をdimeが学習するためのマルチビュー表現学習問題として,潜在因子不等角化や多視点表現学習問題など,dimeのユースケースの例を示す。

We introduce an information-theoretic quantity with similar properties to mutual information that can be estimated from data without making explicit assumptions on the underlying distribution. This quantity is based on a recently proposed matrix-based entropy that uses the eigenvalues of a normalized Gram matrix to compute an estimate of the eigenvalues of an uncentered covariance operator in a reproducing kernel Hilbert space. We show that a difference of matrix-based entropies (DiME) is well suited for problems involving the maximization of mutual information between random variables. While many methods for such tasks can lead to trivial solutions, DiME naturally penalizes such outcomes. We compare DiME to several baseline estimators of mutual information on a toy Gaussian dataset. We provide examples of use cases for DiME, such as latent factor disentanglement and a multiview representation learning problem where DiME is used to learn a shared representation among views with high mutual information.
翻訳日:2023-07-31 16:20:22 公開日:2023-07-27
# 非構造化気候報告書からの気候アンケート調査への回答

Towards Answering Climate Questionnaires from Unstructured Climate Reports ( http://arxiv.org/abs/2301.04253v2 )

ライセンス: Link先を確認
Daniel Spokoyny, Tanmay Laud, Tom Corringham, Taylor Berg-Kirkpatrick(参考訳) 気候変動(CC)の話題は、その緊急性にもかかわらず、NLPでは限定的に注目されている。 活動家や政策立案者は、巨大で急速に成長するテクストの気候レポートを構造化形式に効果的に処理するためのNLPツールを必要としている。 この課題に取り組むために,2つの大規模気候アンケートデータセットを導入し,既存の構造を用いて自己監督モデルのトレーニングを行う。 我々は、これらのモデルが、トレーニング中に見られる異なる組織タイプの気候暴露に一般化することができることを示す実験を行う。 次に,これらのモデルを用いて,非構造化気候文書から半構造化質問紙へのテキスト対応を支援する。 最後に、気候領域におけるさらなるnlp研究を支援するために、既存の気候テキスト分類データセットのベンチマークを導入し、既存のモデルを評価し比較する。

The topic of Climate Change (CC) has received limited attention in NLP despite its urgency. Activists and policymakers need NLP tools to effectively process the vast and rapidly growing unstructured textual climate reports into structured form. To tackle this challenge we introduce two new large-scale climate questionnaire datasets and use their existing structure to train self-supervised models. We conduct experiments to show that these models can learn to generalize to climate disclosures of different organizations types than seen during training. We then use these models to help align texts from unstructured climate documents to the semi-structured questionnaires in a human pilot study. Finally, to support further NLP research in the climate domain we introduce a benchmark of existing climate text classification datasets to better evaluate and compare existing models.
翻訳日:2023-07-31 16:19:47 公開日:2023-07-27
# 因果性のトポロジー

The Topology of Causality ( http://arxiv.org/abs/2303.07148v2 )

ライセンス: Link先を確認
Stefano Gogioso and Nicola Pinzani(参考訳) 完全デバイス非依存・理論非依存の環境で因果関係、非局所性、文脈性を研究するための統一的な運用フレームワークを提供する。 私たちの研究は、Abramsky と Brandenburger による文脈性に関する層理論の枠組みに根ざしており、任意の因果順序(定性、動的、不定)を含むように拡張されている。 入力履歴の任意の空間に対する因果関数の概念を定義し,共役出力に対する因果制約の明示的な付与は入力履歴の先端イベントに対する局所出力の自由割り当てと等価であることを示す。 基底空間の並列, 逐次, 条件付きシーケンシャル合成における因果関数の因子化結果を証明する。 我々は、因果性が基礎空間上の低集合位相に関して連続性に等しいことを証明し、開部分空間上で定義される部分因果函数がプレシェフにバンドル可能であることを示す。 しかし、アブラムスキー・ブランデンブルクのセッティングから著しく離れたところでは、ある状況下で因果関数が棚を形成するのに失敗することを示す。 経験的モデルは、入力履歴の基底空間の任意の開被覆に対して、因果関数上の確率分布の前層における互換族として定義する。 因果的文脈性(causally-induced contextity)の存在を示す。因果的制約自体が文脈依存になるときに生じる現象であり、静的と動的の両方の順序において非局所性に対するno-go結果が証明される。

We provide a unified operational framework for the study of causality, non-locality and contextuality, in a fully device-independent and theory-independent setting. Our work has its roots in the sheaf-theoretic framework for contextuality by Abramsky and Brandenburger, which it extends to include arbitrary causal orders (be they definite, dynamical or indefinite). We define a notion of causal function for arbitrary spaces of input histories, and we show that the explicit imposition of causal constraints on joint outputs is equivalent to the free assignment of local outputs to the tip events of input histories. We prove factorisation results for causal functions over parallel, sequential, and conditional sequential compositions of the underlying spaces. We prove that causality is equivalent to continuity with respect to the lowerset topology on the underlying spaces, and we show that partial causal functions defined on open sub-spaces can be bundled into a presheaf. In a striking departure from the Abramsky-Brandenburger setting, however, we show that causal functions fail, under certain circumstances, to form a sheaf. We define empirical models as compatible families in the presheaf of probability distributions on causal functions, for arbitrary open covers of the underlying space of input histories. We show the existence of causally-induced contextuality, a phenomenon arising when the causal constraints themselves become context-dependent, and we prove a no-go result for non-locality on total orders, both static and dynamical.
翻訳日:2023-07-31 16:12:08 公開日:2023-07-27
# 設計に基づく等角予測

Design-based conformal prediction ( http://arxiv.org/abs/2303.01422v2 )

ライセンス: Link先を確認
Jerzy Wieczorek(参考訳) 共形予測(conformal prediction)は、ほぼ任意の予測モデルに対して分布のない予測間隔や集合を生成するための仮定-リーンなアプローチである。 共形メソッドは統計学や機械学習において活発な研究テーマであるが、最近になって非交換可能データに拡張された。 本稿では,調査手法学者に共形法の利用と貢献を依頼する。 本稿では, 有限集団に対する設計ベース推論の枠組みの下で, 共形予測が, 複雑なサンプル調査の設計から得られるデータにどのように適用できるかを紹介するとともに, 調査方法論者が有益に適用できるギャップを指摘する。 シミュレーションは有限サンプルカバレッジの理論的な保証を実証し,実データを用いて複雑なサンプル調査データに対してコンフォーメーション予測が適用可能であることを示す。

Conformal prediction is an assumption-lean approach to generating distribution-free prediction intervals or sets, for nearly arbitrary predictive models, with guaranteed finite-sample coverage. Conformal methods are an active research topic in statistics and machine learning, but only recently have they been extended to non-exchangeable data. In this paper, we invite survey methodologists to begin using and contributing to conformal methods. We introduce how conformal prediction can be applied to data from several common complex sample survey designs, under a framework of design-based inference for a finite population, and we point out gaps where survey methodologists could fruitfully apply their expertise. Our simulations empirically bear out the theoretical guarantees of finite-sample coverage, and our real-data example demonstrates how conformal prediction can be applied to complex sample survey data in practice.
翻訳日:2023-07-31 16:11:40 公開日:2023-07-27
# マルチモーダルインタラクションの定量化とモデル化:情報分解フレームワーク

Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework ( http://arxiv.org/abs/2302.12247v3 )

ライセンス: Link先を確認
Paul Pu Liang, Yun Cheng, Xiang Fan, Chun Kai Ling, Suzanne Nie, Richard Chen, Zihao Deng, Nicholas Allen, Randy Auerbach, Faisal Mahmood, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 近年のマルチモーダルアプリケーションへの関心の高まりにより、様々なモダリティから情報を表現・統合するためのデータセットや手法が広く選択された。 これらの経験的な進歩にもかかわらず、基礎的な研究の疑問が残る: マルチモーダルなタスクを解決するのに必要な相互作用をどのように定量化できるか? その後、これらの相互作用を捉えるのに最も適したマルチモーダルモデルは何ですか? これらの質問に答えるために,入力モダリティと出力タスクを関連付ける冗長性,特異性,相乗効果の程度を定量化する情報理論的手法を提案する。 これら3つの測度をマルチモーダル分布(略してPID)のPID統計と呼び、高次元分布にスケールするこれらのPID統計に対する2つの新しい推定値を導入する。 PID推定を検証するために、PIDが知られている合成データセットと、PID推定を人間のアノテーションと比較する大規模マルチモーダルベンチマークの両方で広範な実験を行う。 最後に,(1)マルチモーダルデータセット内のインタラクションの定量化,(2)マルチモーダルモデルでキャプチャされたインタラクションの定量化,(3)モデル選択のための原則的アプローチ,(4)病理学,ムード予測,ロボット知覚における3つの実世界のケーススタディにおいて有用性を示す。

The recent explosion of interest in multimodal applications has resulted in a wide selection of datasets and methods for representing and integrating information from different modalities. Despite these empirical advances, there remain fundamental research questions: How can we quantify the interactions that are necessary to solve a multimodal task? Subsequently, what are the most suitable multimodal models to capture these interactions? To answer these questions, we propose an information-theoretic approach to quantify the degree of redundancy, uniqueness, and synergy relating input modalities with an output task. We term these three measures as the PID statistics of a multimodal distribution (or PID for short), and introduce two new estimators for these PID statistics that scale to high-dimensional distributions. To validate PID estimation, we conduct extensive experiments on both synthetic datasets where the PID is known and on large-scale multimodal benchmarks where PID estimations are compared with human annotations. Finally, we demonstrate their usefulness in (1) quantifying interactions within multimodal datasets, (2) quantifying interactions captured by multimodal models, (3) principled approaches for model selection, and (4) three real-world case studies engaging with domain experts in pathology, mood prediction, and robotic perception where our framework helps to recommend strong multimodal models for each application.
翻訳日:2023-07-31 16:10:35 公開日:2023-07-27
# デフォーカス画像からの深層学習による深度推定と画像復元

Depth Estimation and Image Restoration by Deep Learning from Defocused Images ( http://arxiv.org/abs/2302.10730v2 )

ライセンス: Link先を確認
Saqib Nazir, Lorenzo Vaquero, Manuel Mucientes, V\'ictor M. Brea, Daniela Coltuc(参考訳) 単眼深度推定と画像劣化はコンピュータビジョンにおける2つの基本的な課題であり、3Dシーンを理解する上で重要な役割を担っている。 ひとつの画像を頼りにすることで、どれでも達成できるというのは、悪い問題です。 近年のDeep Convolutional Neural Networks(DNN)分野の進歩は、深度推定や画像の劣化など、コンピュータビジョンにおける多くのタスクに革命をもたらした。 デフォーカス画像を使用する場合、デフォーカス物理により、オールインフォーカス(Aif)画像の深さ推定と復元が関連する問題となる。 それにもかかわらず、既存のモデルの多くはそれらを別々に扱う。 しかし、これらの問題を解決するために、2つのネットワークを連続して結合し、まず深さやデフォーカスマップを推定し、それに基づいて焦点を合わせた画像を再構成する最近のモデルがある。 本稿では,深度推定と画像劣化を並列に解消するDNNを提案する。 2-headed depth estimation and debluring network (2hded:net) は,defocus (dfd) ネットワークからの従来の深さを,深さ枝と同じエンコーダを共有するdebluringブランチで拡張する。 提案手法は,室内と屋外のシーンの2つのベンチマーク(NYU-v2とMake3D)で試験に成功した。 これらのベンチマークにおける2HDED:NETによる大規模な実験は、深度推定と画像劣化のための最先端モデルよりも優れた、あるいは近い性能を示した。

Monocular depth estimation and image deblurring are two fundamental tasks in computer vision, given their crucial role in understanding 3D scenes. Performing any of them by relying on a single image is an ill-posed problem. The recent advances in the field of Deep Convolutional Neural Networks (DNNs) have revolutionized many tasks in computer vision, including depth estimation and image deblurring. When it comes to using defocused images, the depth estimation and the recovery of the All-in-Focus (Aif) image become related problems due to defocus physics. Despite this, most of the existing models treat them separately. There are, however, recent models that solve these problems simultaneously by concatenating two networks in a sequence to first estimate the depth or defocus map and then reconstruct the focused image based on it. We propose a DNN that solves the depth estimation and image deblurring in parallel. Our Two-headed Depth Estimation and Deblurring Network (2HDED:NET) extends a conventional Depth from Defocus (DFD) networks with a deblurring branch that shares the same encoder as the depth branch. The proposed method has been successfully tested on two benchmarks, one for indoor and the other for outdoor scenes: NYU-v2 and Make3D. Extensive experiments with 2HDED:NET on these benchmarks have demonstrated superior or close performances to those of the state-of-the-art models for depth estimation and image deblurring.
翻訳日:2023-07-31 16:09:32 公開日:2023-07-27
# 因果関係の幾何学

The Geometry of Causality ( http://arxiv.org/abs/2303.09017v2 )

ライセンス: Link先を確認
Stefano Gogioso and Nicola Pinzani(参考訳) 完全デバイス非依存・理論非依存の環境で因果関係、非局所性、文脈性を研究するための統一的な運用フレームワークを提供する。 我々は、入力履歴の任意の空間と入力コンテキストの任意の選択に対して、私たちの選択した"causal polytopes"のポートマントーを定義する。 条件付き確率分布のより単純なポリトープを因果性方程式の集合でスライスすることで因果的トープが得られることを示す。 我々は,任意のサブカソーサルトピーが支持する経験的モデルの最大成分と関連する因果分数を計算するための効率的な線形プログラムを提供する。 任意の因果制約に対して因果分離性の概念を導入する。 実験モデルの最大因果分離可能な成分、したがってその因果分離分数を計算するための効率的な線形プログラムを提供する。 本研究では, 絡み合いや文脈制御を伴う量子スイッチの選択を含む, いくつかの新しい例について因果分画と因果分画性について検討する。 この過程において,因果的不分離性が非局所性や文脈性と明確に相関する現象である「因果的文脈性(causal contextity)」の存在を実証する。

We provide a unified operational framework for the study of causality, non-locality and contextuality, in a fully device-independent and theory-independent setting. We define causaltopes, our chosen portmanteau of "causal polytopes", for arbitrary spaces of input histories and arbitrary choices of input contexts. We show that causaltopes are obtained by slicing simpler polytopes of conditional probability distributions with a set of causality equations, which we fully characterise. We provide efficient linear programs to compute the maximal component of an empirical model supported by any given sub-causaltope, as well as the associated causal fraction. We introduce a notion of causal separability relative to arbitrary causal constraints. We provide efficient linear programs to compute the maximal causally separable component of an empirical model, and hence its causally separable fraction, as the component jointly supported by certain sub-causaltopes. We study causal fractions and causal separability for several novel examples, including a selection of quantum switches with entangled or contextual control. In the process, we demonstrate the existence of "causal contextuality", a phenomenon where causal inseparability is clearly correlated to, or even directly implied by, non-locality and contextuality.
翻訳日:2023-07-31 16:00:51 公開日:2023-07-27
# コモンセンスのタスクにまたがる手続き的知識の伝達

Transferring Procedural Knowledge across Commonsense Tasks ( http://arxiv.org/abs/2304.13867v2 )

ライセンス: Link先を確認
Yifan Jiang, Filip Ilievski, Kaixin Ma(参考訳) 日常的な状況に関するストーリーは人間のコミュニケーションの重要な部分であり、これらのストーリーを確実に理解できるAIエージェントを開発する必要性を動機付けている。 ストーリー補完と手続き的理解のための教師付きメソッドの長いリストにもかかわらず、現在のAIには、目に見えないストーリーの手順を自動的に追跡し説明するメカニズムがない。 このギャップを埋めるために、我々は、AIモデルが手続き的知識を透明な方法で新しい物語課題に伝達する能力について研究する。 LEAP: 最先端のモデリングアーキテクチャ、トレーニング体制、自然なストーリーと合成ストーリーの両方に基づいた拡張戦略を統合する包括的なフレームワークを設計します。 高度に注釈付けされたトレーニングデータの欠如に対処するため,数発のプロンプトに基づく堅牢な自動ラベルラを考案し,拡張データを強化する。 ドメイン内および外部タスクによる我々の実験は、異なるアーキテクチャの相互作用、トレーニング体制、拡張戦略に関する洞察を明らかにします。 LEAPのラベルには、ドメイン外のデータセットに明確なポジティブな影響がある。

Stories about everyday situations are an essential part of human communication, motivating the need to develop AI agents that can reliably understand these stories. Despite the long list of supervised methods for story completion and procedural understanding, current AI has no mechanisms to automatically track and explain procedures in unseen stories. To bridge this gap, we study the ability of AI models to transfer procedural knowledge to novel narrative tasks in a transparent manner. We design LEAP: a comprehensive framework that integrates state-of-the-art modeling architectures, training regimes, and augmentation strategies based on both natural and synthetic stories. To address the lack of densely annotated training data, we devise a robust automatic labeler based on few-shot prompting to enhance the augmented data. Our experiments with in- and out-of-domain tasks reveal insights into the interplay of different architectures, training regimes, and augmentation strategies. LEAP's labeler has a clear positive impact on out-of-domain datasets, while the resulting dense annotation provides native explainability.
翻訳日:2023-07-31 15:53:06 公開日:2023-07-27
# VISAR: ビジュアルプログラミングとラピッドドラフトプロトタイピングを備えたAIArgumentative Writing Assistant

VISAR: A Human-AI Argumentative Writing Assistant with Visual Programming and Rapid Draft Prototyping ( http://arxiv.org/abs/2304.07810v2 )

ライセンス: Link先を確認
Zheng Zhang, Jie Gao, Ranjodh Singh Dhaliwal, Toby Jia-Jun Li(参考訳) 議論的な執筆では、著者は階層的な執筆目標をブレインストーミングし、議論の説得力を確保し、ドラフトを通じて計画を修正し整理しなければならない。 大規模言語モデル(LLM)の最近の進歩により、チャットインタフェース(チャットGPTなど)を通じてインタラクティブなテキスト生成が可能になった。 しかしながら、このアプローチは暗黙の書き込みコンテキストやユーザの意図を無視し、ユーザコントロールと自律性のサポートを欠き、センスメイキングや書き込み計画の修正に限定的な支援を提供することが多い。 これらの課題に対処するために,著者のブレインストーミングを支援するAI対応ライティングアシスタントシステムであるVISARを導入し,テキスト編集とビジュアルプログラミングを通じて議論構造を整理し,議論の発散による説得力を高める。 visarを使えば、ユーザは自動ドラフトプロトタイピングを使用して、書き込み計画を探索、実験、検証することができる。 制御された研究室研究では、議論的な執筆計画プロセスの促進におけるVISARの有用性と有効性を確認した。

In argumentative writing, writers must brainstorm hierarchical writing goals, ensure the persuasiveness of their arguments, and revise and organize their plans through drafting. Recent advances in large language models (LLMs) have made interactive text generation through a chat interface (e.g., ChatGPT) possible. However, this approach often neglects implicit writing context and user intent, lacks support for user control and autonomy, and provides limited assistance for sensemaking and revising writing plans. To address these challenges, we introduce VISAR, an AI-enabled writing assistant system designed to help writers brainstorm and revise hierarchical goals within their writing context, organize argument structures through synchronized text editing and visual programming, and enhance persuasiveness with argumentation spark recommendations. VISAR allows users to explore, experiment with, and validate their writing plans using automatic draft prototyping. A controlled lab study confirmed the usability and effectiveness of VISAR in facilitating the argumentative writing planning process.
翻訳日:2023-07-31 15:49:58 公開日:2023-07-27
# 非単位フローケット横場イジングモデルのダイナミクスと位相

Dynamics and Phases of Nonunitary Floquet Transverse-Field Ising Model ( http://arxiv.org/abs/2306.07428v2 )

ライセンス: Link先を確認
Lei Su, Aashish Clerk, Ivar Martin(参考訳) 計測誘起量子相転移に関する最近の研究に触発されて,複素最寄り-neighbor結合と複素横磁場を持つ非ユニタリフロッケ横場イジングモデルの解析を行った。 ユニタリ相とは異なり、モデルはいくつかの定常相を示し、可積分性破壊摂動に安定である。 いくつかの位相は、強靭なエッジモードと/または時空間の長距離順序を持つ。 相間の遷移は広い絡み合いエントロピーを持ち、系の大きさのスケーリングは遷移のスペクトルにおける実際の準粒子モードの数に依存する。 特に、ボリューム法のスケーリングは、疑似ハーミティリティによって保護されたいくつかのクリティカルラインに現れる。 定常状態における絡み合いエントロピーのスケーリングとクエンチ後の進化は、カラブレスとカルディの準粒子像の非エルミート一般ザトンと互換性がある。

Inspired by current research on measurement-induced quantum phase transitions, we analyze the nonunitary Floquet transverse-field Ising model with complex nearest-neighbor couplings and complex transverse fields. Unlike its unitary counterpart, the model shows a number of stationary phases, stable to integrability breaking perturbations. Some phases have robust edge modes and/or spatiotemporal long-range orders in the bulk. The transitions between the phases have extensive entanglement entropy, whose scaling with the system size depends on the number of the real quasiparticle modes in the spectrum at the transition. In particular, the volume law scaling appears on some critical lines, protected by pseudo-Hermiticity. Both the scaling of entanglement entropy in steady states and the evolution after a quench are compatible with the non-Hermitian generalizaton of quasiparticle picture of Calabrese and Cardy.
翻訳日:2023-07-31 15:30:35 公開日:2023-07-27
# Visio-Linguistic Reasoningの改良によるCLIPの増強

Augmenting CLIP with Improved Visio-Linguistic Reasoning ( http://arxiv.org/abs/2307.09233v2 )

ライセンス: Link先を確認
Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi(参考訳) CLIPのような画像テキストコントラストモデルは、ゼロショット分類、画像テキスト検索、転送学習など、さまざまなダウンストリームアプリケーションに有用である。 しかし、これらの対照的に訓練された視覚言語モデルは、しばしばウィノグラウンドのような構成的なヴィシオ言語的タスクで失敗する。 本稿では,この課題に対処し,CLIPの合成視覚言語推論能力を改善するために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。 本手法の核となる考え方は,ヴィシオ言語推論タスクに比較的適した安定拡散などの大規模テキスト対画像生成モデルから,蒸留目的の蒸留クリップを微調整するために微分可能な画像パラメータ化を用いることである。 挑戦的なWinogroundコンポジション推論ベンチマークでは,異なるCLIPモデルの絶対的ビオ言語性能を最大7%向上する一方,AROデータセットでは最大3%向上する。 CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。 提案手法は, 既存のコントラスト画像テキストモデルを拡張し, 視覚言語的推論能力を向上させるために, 生成モデルからの蒸留目標を慎重に設計できることを裏付けるものである。

Image-text contrastive models such as CLIP are useful for a variety of downstream applications including zero-shot classification, image-text retrieval and transfer learning. However, these contrastively trained vision-language models often fail on compositional visio-linguistic tasks such as Winoground with performance equivalent to random chance. In our paper, we address this issue and propose a sample-efficient light-weight method called SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities of CLIP. The core idea of our method is to use differentiable image parameterizations to fine-tune CLIP with a distillation objective from large text-to-image generative models such as Stable-Diffusion which are relatively good at visio-linguistic reasoning tasks. On the challenging Winoground compositional reasoning benchmark, our method improves the absolute visio-linguistic performance of different CLIP models by up to 7%, while on the ARO dataset, our method improves the visio-linguistic performance by upto 3%. As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find that the zero-shot performance improves marginally on a variety of downstream datasets. Our method reinforces that carefully designed distillation objectives from generative models can be leveraged to extend existing contrastive image-text models with improved visio-linguistic reasoning capabilities.
翻訳日:2023-07-31 15:24:08 公開日:2023-07-27
# USMLEにおけるChatGPTの性能:AI支援医療教育における大規模言語モデルの可能性

Performance of ChatGPT on USMLE: Unlocking the Potential of Large Language Models for AI-Assisted Medical Education ( http://arxiv.org/abs/2307.00112v2 )

ライセンス: Link先を確認
Prabin Sharma, Kisan Thapa, Dikshya Thapa, Prastab Dhakal, Mala Deep Upadhaya, Santosh Adhikari, Salik Ram Khanal(参考訳) 人工知能はこれまで以上に勢いを増している。 言語モデルとAIベースのビジネスの人気は、ChatGPTがOpenAIを通じて一般公開されて以来、高まっている。 プロフェッショナルと個人の両方でChatGPTを使う人が増えている。 本研究は,ChatGPTの広汎な利用と,その信頼性を考慮し,複雑な医療・臨床問題に対するChatGPTの信頼性について検討した。 ハーバード大学の総合解剖学と米国医学ライセンス試験(USMLE)のアンケートが目的を達成するために用いられた。 本研究は2方向ANOVAとポストホック解析を用いて評価した。 どちらも形式とプロンプトの体系的な共変を示した。 さらに, 医師は, 結果の正確性, 一致性, 洞察性を独立に評価した。 分析の結果,ChatGPTが生成した回答は文脈指向であり,通常のGoogle検索結果よりも推論的推論のモデルとして優れていた。 さらに、ChatGPTは論理的質問で58.8%、倫理的質問で60%を得た。 これは、ChatGPTが論理的質問の通過範囲に近づき、倫理的質問のしきい値を超えたことを意味する。 論文は、ChatGPTや他の言語学習モデルがeラーナーにとって貴重なツールであると考えているが、この研究は、その正確性を改善する余地がまだ残っていることを示唆している。 今後のChatGPTの性能向上には,様々な質問にどのように答えられるかをよりよく理解するために,さらなる研究が必要である。

Artificial intelligence is gaining traction in more ways than ever before. The popularity of language models and AI-based businesses has soared since ChatGPT was made available to the general public via OpenAI. It is becoming increasingly common for people to use ChatGPT both professionally and personally. Considering the widespread use of ChatGPT and the reliance people place on it, this study determined how reliable ChatGPT can be for answering complex medical and clinical questions. Harvard University gross anatomy along with the United States Medical Licensing Examination (USMLE) questionnaire were used to accomplish the objective. The paper evaluated the obtained results using a 2-way ANOVA and posthoc analysis. Both showed systematic covariation between format and prompt. Furthermore, the physician adjudicators independently rated the outcome's accuracy, concordance, and insight. As a result of the analysis, ChatGPT-generated answers were found to be more context-oriented and represented a better model for deductive reasoning than regular Google search results. Furthermore, ChatGPT obtained 58.8% on logical questions and 60% on ethical questions. This means that the ChatGPT is approaching the passing range for logical questions and has crossed the threshold for ethical questions. The paper believes ChatGPT and other language learning models can be invaluable tools for e-learners; however, the study suggests that there is still room to improve their accuracy. In order to improve ChatGPT's performance in the future, further research is needed to better understand how it can answer different types of questions.
翻訳日:2023-07-31 15:21:00 公開日:2023-07-27
# トランスベースオブジェクト検出とセグメンテーションのための動的問合せ学習

Learning Dynamic Query Combinations for Transformer-based Object Detection and Segmentation ( http://arxiv.org/abs/2307.12239v2 )

ライセンス: Link先を確認
Yiming Cui, Linjie Yang, Haichao Yu(参考訳) Transformerベースの検出とセグメンテーション方法は、学習した検出クエリのリストを使用して、トランスフォーマーネットワークから情報を取得し、各クエリから特定のオブジェクトの位置とカテゴリを予測する。 学習したクエリの無作為な凸の組み合わせは、まだ対応するモデルに相応しいことを実証的に見出した。 次に,画像の高レベルなセマンティクスに基づいて,動的係数との凸結合を学習することを提案する。 生成された動的クエリ、名前付き変調クエリは、異なる画像内のオブジェクトの位置やカテゴリをよりよくキャプチャする。 変調クエリにより、オブジェクト検出、インスタンスセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションを含む複数のタスクにおいて、広範囲のDETRベースのモデルが一貫性と優れたパフォーマンスを達成する。

Transformer-based detection and segmentation methods use a list of learned detection queries to retrieve information from the transformer network and learn to predict the location and category of one specific object from each query. We empirically find that random convex combinations of the learned queries are still good for the corresponding models. We then propose to learn a convex combination with dynamic coefficients based on the high-level semantics of the image. The generated dynamic queries, named modulated queries, better capture the prior of object locations and categories in the different images. Equipped with our modulated queries, a wide range of DETR-based models achieve consistent and superior performance across multiple tasks including object detection, instance segmentation, panoptic segmentation, and video instance segmentation.
翻訳日:2023-07-31 15:11:44 公開日:2023-07-27
# RepViT: ViTの視点からモバイルCNNを再考

RepViT: Revisiting Mobile CNN From ViT Perspective ( http://arxiv.org/abs/2307.09283v3 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Hengjun Pu, Guiguang Ding(参考訳) 近年、軽量視覚トランスフォーマ(vits)は、リソース制約のあるモバイルデバイスでの軽量畳み込みニューラルネットワーク(cnns)と比較して優れた性能と低レイテンシを示している。 この改善は通常、モデルがグローバル表現を学習できるようにするマルチヘッド自己保持モジュールによるものである。 しかし,軽量VTと軽量CNNのアーキテクチャ格差は十分に検討されていない。 本研究では,軽量CNNの効率的な設計を再考し,モバイルデバイスにおけるその可能性を強調する。 我々は、軽量VTの効率的なアーキテクチャ選択を統合することで、標準軽量CNN、特にMobileNetV3のモバイルフレンドリ性を徐々に強化する。 最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。 大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetでは、RepViTは80\%以上のトップ1の精度を達成し、iPhone 12では1ms近いレイテンシを実現しています。 我々の最大のモデルであるRepViT-M3は、1.3msのレイテンシで81.4\%の精度を得る。 コードとトレーニングされたモデルは \url{https://github.com/jameslahm/repvit} で入手できる。

Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency compared with lightweight Convolutional Neural Networks (CNNs) on resource-constrained mobile devices. This improvement is usually attributed to the multi-head self-attention module, which enables the model to learn global representations. However, the architectural disparities between lightweight ViTs and lightweight CNNs have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs and emphasize their potential for mobile devices. We incrementally enhance the mobile-friendliness of a standard lightweight CNN, specifically MobileNetV3, by integrating the efficient architectural choices of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. On ImageNet, RepViT achieves over 80\% top-1 accuracy with nearly 1ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Our largest model, RepViT-M3, obtains 81.4\% accuracy with only 1.3ms latency. The code and trained models are available at \url{https://github.com/jameslahm/RepViT}.
翻訳日:2023-07-31 15:09:44 公開日:2023-07-27
# なぜガラスをきれいにしないのか? 動的光摂動による知覚攻撃

Why Don't You Clean Your Glasses? Perception Attacks with Dynamic Optical Perturbations ( http://arxiv.org/abs/2307.13131v2 )

ライセンス: Link先を確認
Yi Han, Matthew Chan, Eric Wengrowski, Zhuohuan Li, Nils Ole Tippenhauer, Mani Srivastava, Saman Zonouz, Luis Garcia(参考訳) 人間の知覚をエミュレートするカメラベースの自律システムは、ますます安全クリティカルなプラットフォームに統合されている。 その結果、基盤となる機械学習モデルをターゲットにした敵対的攻撃を探求する確立された文献が出現した。 敵の攻撃を物理的な世界に適応させることは、攻撃者にとって望ましいことだ。 しかし、現実の世界は、知覚パイプラインにおける環境ノイズと自律システムの動的性によって生じる敵の操作の「生存可能性」に関わる課題を提起している。 本稿では,センサファーストアプローチについて述べる。 EvilEyeは、ディスプレイを透過的に利用し、ダイナミックな物理的逆転の例を生成する。 EvilEyeはカメラの光学を利用して様々な照明条件下での誤分類を誘導する。 動的摂動を生成するために, 撮像された画像の光学パイプラインによる変換関数をモデル化し, ディジタルアタックの物理領域への投影を定式化する。 EvilEyeが生成した逆方向の摂動は、既存の物理的摂動フレームワークと比較して様々な環境光条件においてより堅牢であり、最先端の物理的逆方向検出フレームワークをバイパスしながら高い攻撃成功率(ASR)を達成することを示す。 evileyeのダイナミックな性質により、攻撃者は最先端の物理世界攻撃フレームワークと比較して、asrが大幅に高いさまざまなオブジェクトに敵意的な例を適応させることができる。 最後に,悪眼攻撃に対する緩和戦略について論じる。

Camera-based autonomous systems that emulate human perception are increasingly being integrated into safety-critical platforms. Consequently, an established body of literature has emerged that explores adversarial attacks targeting the underlying machine learning models. Adapting adversarial attacks to the physical world is desirable for the attacker, as this removes the need to compromise digital systems. However, the real world poses challenges related to the "survivability" of adversarial manipulations given environmental noise in perception pipelines and the dynamicity of autonomous systems. In this paper, we take a sensor-first approach. We present EvilEye, a man-in-the-middle perception attack that leverages transparent displays to generate dynamic physical adversarial examples. EvilEye exploits the camera's optics to induce misclassifications under a variety of illumination conditions. To generate dynamic perturbations, we formalize the projection of a digital attack into the physical domain by modeling the transformation function of the captured image through the optical pipeline. Our extensive experiments show that EvilEye's generated adversarial perturbations are much more robust across varying environmental light conditions relative to existing physical perturbation frameworks, achieving a high attack success rate (ASR) while bypassing state-of-the-art physical adversarial detection frameworks. We demonstrate that the dynamic nature of EvilEye enables attackers to adapt adversarial examples across a variety of objects with a significantly higher ASR compared to state-of-the-art physical world attack frameworks. Finally, we discuss mitigation strategies against the EvilEye attack.
翻訳日:2023-07-31 15:01:01 公開日:2023-07-27
# 周波数収差モデリングのための共形予測

Conformal prediction for frequency-severity modeling ( http://arxiv.org/abs/2307.13124v2 )

ライセンス: Link先を確認
Helton Graziadei, Paulo C. Marques F., Eduardo F. L. de Melo, Rodrigo S. Targino(参考訳) 本稿では,保険請求項の予測間隔を構築するための非パラメトリックモデル非依存フレームワークを提案する。 フレームワークの有効性は、シミュレーションと実際のデータセットで示される。 基礎となる重大度モデルがランダムフォレストである場合,二段階分割等角予測手順を延長し,キャリブレーションセットの必要性をなくし,適応幅の予測間隔を作成できるようにするため,外殻機構をどのように活用できるかを示す。

We present a nonparametric model-agnostic framework for building prediction intervals of insurance claims, with finite sample statistical guarantees, extending the technique of split conformal prediction to the domain of two-stage frequency-severity modeling. The effectiveness of the framework is showcased with simulated and real datasets. When the underlying severity model is a random forest, we extend the two-stage split conformal prediction procedure, showing how the out-of-bag mechanism can be leveraged to eliminate the need for a calibration set and to enable the production of prediction intervals with adaptive width.
翻訳日:2023-07-31 15:00:37 公開日:2023-07-27
# 回転電界におけるスピンワン系のベリー相

Berry phase of spin-one system in a rotating electric field ( http://arxiv.org/abs/2307.15093v1 )

ライセンス: Link先を確認
Abdaljalel Alizzi, Zurab K. Silagadze and Artem Uskov(参考訳) スピン1のモデル系における回転電界におけるベリー相の発生を十分に詳細に検討する。 目標は、この興味深い問題に最初に遭遇した学生を助けることにある。

We consider in sufficient detail how the Berry phase arises in a rotating electric field in a model system with spin one. The goal is to help the student who first encountered this interesting problem, which is fraught with some subtleties that require attention in order not to go astray.
翻訳日:2023-07-31 14:52:32 公開日:2023-07-27
# 伝統的機械学習を超えた貯留層コンピューティングとその学際的応用に関する研究

A Survey on Reservoir Computing and its Interdisciplinary Applications Beyond Traditional Machine Learning ( http://arxiv.org/abs/2307.15092v1 )

ライセンス: Link先を確認
Heng Zhang and Danilo Vasconcellos Vargas(参考訳) 貯水池計算 (rc) は、時間的信号処理に初めて適用され、ニューロンがランダムに接続されたリカレントニューラルネットワークである。 初期化後、接続強度は変化しない。 このような単純な構造は、RCを低次元入力を高次元空間にマッピングする非線形力学系に変える。 モデルのリッチなダイナミクス、線形分離性、メモリ容量は、単純な線形読み出しを可能にし、様々なアプリケーションに対して適切な応答を生成する。 rcは、複雑なダイナミクスが様々な物理ハードウェア実装や生体デバイスで実現できることが示されているため、機械学習をはるかに超える領域にまたがっている。 これにより柔軟性が向上し、計算時間が短縮される。 さらに、モデルのダイナミックスによって引き起こされる神経反応は、同様のダイナミックなプロセスを利用する脳のメカニズムを理解することに光を当てた。 RCに関する文献は広く、断片化されているが、ここでは、機械学習から物理学、生物学、神経科学まで、RCの最近の発展を統一的にレビューする。 まず、初期のRCモデルをレビューし、続いて最先端モデルとそのアプリケーションを調査します。 さらに,脳のメカニズムをRCでモデル化する研究を紹介する。 最後に,リザーバ設計,コーディングフレームワーク統合,物理的rc実装,rc,認知神経科学,進化の相互作用など,rc開発に関する新たな視点を提供する。

Reservoir computing (RC), first applied to temporal signal processing, is a recurrent neural network in which neurons are randomly connected. Once initialized, the connection strengths remain unchanged. Such a simple structure turns RC into a non-linear dynamical system that maps low-dimensional inputs into a high-dimensional space. The model's rich dynamics, linear separability, and memory capacity then enable a simple linear readout to generate adequate responses for various applications. RC spans areas far beyond machine learning, since it has been shown that the complex dynamics can be realized in various physical hardware implementations and biological devices. This yields greater flexibility and shorter computation time. Moreover, the neuronal responses triggered by the model's dynamics shed light on understanding brain mechanisms that also exploit similar dynamical processes. While the literature on RC is vast and fragmented, here we conduct a unified review of RC's recent developments from machine learning to physics, biology, and neuroscience. We first review the early RC models, and then survey the state-of-the-art models and their applications. We further introduce studies on modeling the brain's mechanisms by RC. Finally, we offer new perspectives on RC development, including reservoir design, coding frameworks unification, physical RC implementations, and interaction between RC, cognitive neuroscience and evolution.
翻訳日:2023-07-31 14:52:27 公開日:2023-07-27
# 畳み込みニューラルネットワークの前進過程の理解

Understanding Forward Process of Convolutional Neural Network ( http://arxiv.org/abs/2307.15090v1 )

ライセンス: Link先を確認
Peixin Tian(参考訳) 本稿では,cnnのフォワード処理における選択的回転について述べる。 アクティベーション関数を、入力データの回転的側面を統一し、定量化する識別機構として解明する。 実験は、この定義された方法論が、統計指標に基づいて入力を区別するプログレスネットワークを反映していることを示す。 また,データ処理パターンにおけるニューラルネットワークと人間の脳との整合性も明らかにした。

This paper reveal the selective rotation in the CNNs' forward processing. It elucidates the activation function as a discerning mechanism that unifies and quantizes the rotational aspects of the input data. Experiments show how this defined methodology reflects the progress network distinguish inputs based on statistical indicators, which can be comprehended or analyzed by applying structured mathematical tools. Our findings also unveil the consistency between artificial neural networks and the human brain in their data processing pattern.
翻訳日:2023-07-31 14:52:08 公開日:2023-07-27
# オンラインクラスタコードブック

Online Clustered Codebook ( http://arxiv.org/abs/2307.15139v1 )

ライセンス: Link先を確認
Chuanxia Zheng and Andrea Vedaldi(参考訳) ベクトル量子化(VQ)は、機械学習において復活し、表現学習でますます使われている。 しかし、既存のvq-vaeにおける符号ベクトルの最適化は完全に自明ではない。 問題はコードブックの崩壊であり、コードベクタの小さなサブセットだけが最適化に有用な勾配を受け取っているのに対して、その大半は単に‘dies off’で更新や使用は行われない。 これにより、高容量表現を必要とする複雑なコンピュータビジョンタスクにおいて、大きなコードブックを学習するためのvqの有効性が制限される。 本稿では,オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。 我々のアプローチでは、‘dead’'コードベクトルを更新するアンカーとしてエンコードされた機能を選択し、元の損失によって生存しているコードブックを最適化する。 この戦略は、未使用のコードベクタを符号化された機能に近づけ、選択され、最適化される可能性を高める。 我々は、様々なデータセット、タスク(再構築と生成など)、アーキテクチャ(VQ-VAE、VQGAN、LDMなど)に基づいて、量子化器の一般化能力を広範囲に検証する。 私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。

Vector Quantisation (VQ) is experiencing a comeback in machine learning, where it is increasingly used in representation learning. However, optimizing the codevectors in existing VQ-VAE is not entirely trivial. A problem is codebook collapse, where only a small subset of codevectors receive gradients useful for their optimisation, whereas a majority of them simply ``dies off'' and is never updated or used. This limits the effectiveness of VQ for learning larger codebooks in complex computer vision tasks that require high-capacity representations. In this paper, we present a simple alternative method for online codebook learning, Clustering VQ-VAE (CVQ-VAE). Our approach selects encoded features as anchors to update the ``dead'' codevectors, while optimising the codebooks which are alive via the original loss. This strategy brings unused codevectors closer in distribution to the encoded features, increasing the likelihood of being chosen and optimized. We extensively validate the generalization capability of our quantiser on various datasets, tasks (e.g. reconstruction and generation), and architectures (e.g. VQ-VAE, VQGAN, LDM). Our CVQ-VAE can be easily integrated into the existing models with just a few lines of code.
翻訳日:2023-07-31 14:43:59 公開日:2023-07-27
# Seal-3D:ニューラルラジアンスフィールドのための対話型ピクセルレベル編集

Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields ( http://arxiv.org/abs/2307.15131v1 )

ライセンス: Link先を確認
Xiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen(参考訳) 暗黙のニューラル表現(NeRF)やニューラルラディアンスフィールド(NeRF)の人気により、再構成後のシーンや3Dコンテンツ作成といったタスクのために、暗黙の3Dモデルと相互作用する編集方法の必要性が高まっている。 以前の研究では様々な観点からNeRF編集を調査していたが、編集の柔軟性、品質、スピードに制限があり、直接編集応答やインスタントプレビューを提供しなかった。 重要な課題は、編集命令を直接反映し、即座に更新できるローカル編集可能なニューラル表現を想像することである。 このギャップを埋めるために,幅広いnerfライクなバックボーンを用いてnrfモデルをピクセルレベルで自由に編集し,編集効果を即座にプレビューできる,新しい対話型表現編集方式である seal-3d を提案する。 この効果を達成するために,提案するプロキシ関数を用いて,編集命令をNeRFモデルの本来の空間にマッピングし,局所的な事前学習とグローバルな微調整による教師教育戦略を提案する。 様々な編集タイプを展示するために、NeRF編集システムを構築する。 本システムは約1秒のインタラクティブな速度で魅力的な編集効果を実現できる。

With the popularity of implicit neural representations, or neural radiance fields (NeRF), there is a pressing need for editing methods to interact with the implicit 3D models for tasks like post-processing reconstructed scenes and 3D content creation. While previous works have explored NeRF editing from various perspectives, they are restricted in editing flexibility, quality, and speed, failing to offer direct editing response and instant preview. The key challenge is to conceive a locally editable neural representation that can directly reflect the editing instructions and update instantly. To bridge the gap, we propose a new interactive editing method and system for implicit representations, called Seal-3D, which allows users to edit NeRF models in a pixel-level and free manner with a wide range of NeRF-like backbone and preview the editing effects instantly. To achieve the effects, the challenges are addressed by our proposed proxy function mapping the editing instructions to the original space of NeRF models and a teacher-student training strategy with local pretraining and global finetuning. A NeRF editing system is built to showcase various editing types. Our system can achieve compelling editing effects with an interactive speed of about 1 second.
翻訳日:2023-07-31 14:43:36 公開日:2023-07-27
# 自然災害用未登録バイテンポラル画像のエンドツーエンドリモートセンシング変化検出

End-to-end Remote Sensing Change Detection of Unregistered Bi-temporal Images for Natural Disasters ( http://arxiv.org/abs/2307.15128v1 )

ライセンス: Link先を確認
Guiqin Zhao, Lianlei Shan, Weiqiang Wang(参考訳) リモートセンシング画像に基づく変化検出は,リモートセンシングの分野で注目されている分野である。 深層ネットワークは,双方向リモートセンシング画像の変化の検出に有意な成功を収め,様々な分野で応用されている。 自然環境の悪化と自然災害の頻発を考慮し, リモートセンシング画像による災害現場の被害建物を的確かつ迅速に同定することが重要である。 本稿では,自然災害に特有な変化検出について検討する。 両時間画像が一致しない現実的なシナリオと一致しない変更検出研究に使用される既存の公開データセットが登録されていることを考慮し、xBD-E2ECDと呼ばれる未登録のエンドツーエンドの変更検出合成データセットを提案する。 さらに、未登録のバイテンポラル画像ペアを入力として、フローフィールド予測結果と変更検出予測結果とを同時に生成するE2ECDNetというエンドツーエンドの変更検出ネットワークを提案する。 e2ecdnetは、登録されていない特別なケースとして、登録された画像ペアの変更検出もサポートしています。 さらに, 前向きなケースを正しく予測する基準を再定義し, 周辺地域による変化検出評価指標を導入する。 実験結果は有意な改善を示した。

Change detection based on remote sensing images has been a prominent area of interest in the field of remote sensing. Deep networks have demonstrated significant success in detecting changes in bi-temporal remote sensing images and have found applications in various fields. Given the degradation of natural environments and the frequent occurrence of natural disasters, accurately and swiftly identifying damaged buildings in disaster-stricken areas through remote sensing images holds immense significance. This paper aims to investigate change detection specifically for natural disasters. Considering that existing public datasets used in change detection research are registered, which does not align with the practical scenario where bi-temporal images are not matched, this paper introduces an unregistered end-to-end change detection synthetic dataset called xBD-E2ECD. Furthermore, we propose an end-to-end change detection network named E2ECDNet, which takes an unregistered bi-temporal image pair as input and simultaneously generates the flow field prediction result and the change detection prediction result. It is worth noting that our E2ECDNet also supports change detection for registered image pairs, as registration can be seen as a special case of non-registration. Additionally, this paper redefines the criteria for correctly predicting a positive case and introduces neighborhood-based change detection evaluation metrics. The experimental results have demonstrated significant improvements.
翻訳日:2023-07-31 14:43:13 公開日:2023-07-27
# QKDをめぐる議論:NSAの反論に対する反論

The debate over QKD: A rebuttal to the NSA's objections ( http://arxiv.org/abs/2307.15116v1 )

ライセンス: Link先を確認
Renato Renner and Ramona Wolf(参考訳) nsaが最近発表した量子暗号の利用性の評価は、この技術が推奨されないという結論から、大きな注目を集めている。 ここでは、この批判に回答し、提起されたポイントのいくつかは不当であるが、他のポイントは現在問題であるが、当面は解決される可能性があると論じる。

A recent publication by the NSA assessing the usability of quantum cryptography has generated significant attention, concluding that this technology is not recommended for use. Here, we reply to this criticism and argue that some of the points raised are unjustified, whereas others are problematic now but can be expected to be resolved in the foreseeable future.
翻訳日:2023-07-31 14:42:51 公開日:2023-07-27
# 連続的インクリメンタルトレーニングによるモーフィング攻撃の検出

Detecting Morphing Attacks via Continual Incremental Training ( http://arxiv.org/abs/2307.15105v1 )

ライセンス: Link先を確認
Lorenzo Pellegrini, Guido Borghi, Annalisa Franco, Davide Maltoni(参考訳) データ転送とストレージの制限が、バッチベースのトレーニング手順を実行するために、異なるデータソースを利用する単一のデータセットを構成する可能性を制限するシナリオは、特に堅牢なモデルの開発を困難にしている。 我々は、最近の継続学習(CL)パラダイムが、複数のサイトを通しても、インクリメンタルなトレーニングを可能にする効果的なソリューションであると仮定する。 実際、clの基本的な仮定は、モデルがトレーニングされたら、古いデータは連続したトレーニングイテレーションで使用できず、原則として削除できるということである。 そこで本研究では,このシナリオにおける異なる連続学習手法の性能について検討し,可変サイズであっても,新しいデータチャンクが利用可能となる度に更新される学習モデルをシミュレートする。 実験結果から,特定のCL手法,すなわちLawF(Learning without Forgetting)が最良性能アルゴリズムの1つであることが判明した。 次に,新たな学習データ量に関して,モーフィング攻撃検出と対象分類タスクにおけるその利用とパラメトリゼーションについて検討する。

Scenarios in which restrictions in data transfer and storage limit the possibility to compose a single dataset -- also exploiting different data sources -- to perform a batch-based training procedure, make the development of robust models particularly challenging. We hypothesize that the recent Continual Learning (CL) paradigm may represent an effective solution to enable incremental training, even through multiple sites. Indeed, a basic assumption of CL is that once a model has been trained, old data can no longer be used in successive training iterations and in principle can be deleted. Therefore, in this paper, we investigate the performance of different Continual Learning methods in this scenario, simulating a learning model that is updated every time a new chunk of data, even of variable size, is available. Experimental results reveal that a particular CL method, namely Learning without Forgetting (LwF), is one of the best-performing algorithms. Then, we investigate its usage and parametrization in Morphing Attack Detection and Object Classification tasks, specifically with respect to the amount of new training data that became available.
翻訳日:2023-07-31 14:42:45 公開日:2023-07-27
# Nvidia Edge GPUデバイスに実装した短時間フーリエ変換機械学習による音声・音声分類による子どもの虐待検出

Detection of Children Abuse by Voice and Audio Classification by Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU device ( http://arxiv.org/abs/2307.15101v1 )

ライセンス: Link先を確認
Jiuqi Yan, Yingxian Chen, W.W.T.Fok(参考訳) 子どもの家庭における子どもの安全は、社会的な懸念が高まっており、この実験の目的は、児童虐待のシナリオを検知して子どもの安全を高めるために機械学習を応用することである。 この実験では、機械学習を用いて子供の声を分類し、認識し、子供が鳴いたり叫んだりしているかどうかを予測する。 子供が泣いている、または叫んでいると分かったら、直ちに関係者に警告を送り、監視盲点において子供が経験しているかもしれないことを認識し、タイムリーに応答できるようにする。 ビデオ画像分類のハイブリッド利用により、児童虐待検出の精度が著しく向上する。 これにより、子供が保育所で暴力的な虐待を受ける可能性を大幅に減らし、時間内に差し迫った、または差し迫った児童虐待事件を止めることができる。 この実験で収集されたデータセットは、泣き声、笑い声、叫び声、背景雑音など、子供たちの自宅で録音された音からできている。 これらの音声ファイルはショートタイムフーリエ変換を用いてスペクトログラムに変換され、これらの画像データは分類のためにCNNニューラルネットワークにインポートされ、最終的な訓練されたモデルは、約92%の精度で音響検出を行うことができる。

The safety of children in children home has become an increasing social concern, and the purpose of this experiment is to use machine learning applied to detect the scenarios of child abuse to increase the safety of children. This experiment uses machine learning to classify and recognize a child's voice and predict whether the current sound made by the child is crying, screaming or laughing. If a child is found to be crying or screaming, an alert is immediately sent to the relevant personnel so that they can perceive what the child may be experiencing in a surveillance blind spot and respond in a timely manner. Together with a hybrid use of video image classification, the accuracy of child abuse detection can be significantly increased. This greatly reduces the likelihood that a child will receive violent abuse in the nursery and allows personnel to stop an imminent or incipient child abuse incident in time. The datasets collected from this experiment is entirely from sounds recorded on site at the children home, including crying, laughing, screaming sound and background noises. These sound files are transformed into spectrograms using Short-Time Fourier Transform, and then these image data are imported into a CNN neural network for classification, and the final trained model can achieve an accuracy of about 92% for sound detection.
翻訳日:2023-07-31 14:42:25 公開日:2023-07-27
# 教師付き学習と教師なし学習を組み合わせた雰囲気によるイラストのクラスタリング

Clustering of illustrations by atmosphere using a combination of supervised and unsupervised learning ( http://arxiv.org/abs/2307.15099v1 )

ライセンス: Link先を確認
Keisuke Kubota (Doshisha University), Masahiro Okuda (Doshisha University)(参考訳) TwitterやPixivといったソーシャルメディア上のイラストレーションの配信は、アニメーション、ゲーム、アニメーション映画の人気が高まっている。 イラストの"atmosphere"はユーザーの好みにおいて重要な役割を果たす。 大気によるイラストの分類は、推奨や検索に役立つ。 しかし、明確なラベルを「雰囲気」や従来の教師付き分類に割り当てることは必ずしも現実的ではない。 さらに、同じ色、エッジ、低レベルの特徴を持つ画像でさえ、同様の雰囲気を持っておらず、低レベルの特徴に基づく分類が困難になる可能性がある。 本稿では,疑似ラベルを用いた教師なし学習と教師なし学習の両方を用いて,この問題を解決する。 特徴ベクトルは、あいまいな雰囲気に寄与する擬似ラベルを持つ教師付き方法を用いて得られる。 さらに、これらの特徴ベクトルに基づいてクラスタリングを行う。 実験の結果,手作業で分類したデータセットのクラスタリング手法は従来の手法よりも優れていた。

The distribution of illustrations on social media, such as Twitter and Pixiv has increased with the growing popularity of animation, games, and animated movies. The "atmosphere" of illustrations plays an important role in user preferences. Classifying illustrations by atmosphere can be helpful for recommendations and searches. However, assigning clear labels to the elusive "atmosphere" and conventional supervised classification is not always practical. Furthermore, even images with similar colors, edges, and low-level features may not have similar atmospheres, making classification based on low-level features challenging. In this paper, this problem is solved using both supervised and unsupervised learning with pseudo-labels. The feature vectors are obtained using the supervised method with pseudo-labels that contribute to an ambiguous atmosphere. Further, clustering is performed based on these feature vectors. Experimental analyses show that our method outperforms conventional methods in human-like clustering on datasets manually classified by humans.
翻訳日:2023-07-31 14:42:02 公開日:2023-07-27
# 合成開口型ソナーターゲット認識のための自己教師あり学習

Self-Supervised Learning for Improved Synthetic Aperture Sonar Target Recognition ( http://arxiv.org/abs/2307.15098v1 )

ライセンス: Link先を確認
BW Sheffield(参考訳) 本研究では,合成開口ソナー(SAS)画像における目標認識向上のための自己教師付き学習(SSL)の適用について検討する。 水中環境の独特な課題は、光学カメラ画像に大きく依存する従来のコンピュータビジョン技術に効果を低下させる。 SASは高解像度の画像を生成する能力を持ち、水中イメージングの選択肢として好まれる。 しかし、voluminous high- resolution sasデータはラベル付けの重要な課題であり、ディープニューラルネットワーク(dnn)を訓練するための重要なステップである。 ラベルを必要とせずにデータ内の機能を学習できるSSLは、SASにおけるデータラベリングチャレンジの潜在的な解決策として提案されている。 この研究は、バイナリ画像分類タスクにおいて、よく認識された教師付き学習モデルであるResNet18に対する2つの著名なSSLアルゴリズムMoCov2とBYOLの性能を評価する。 この結果は、SSLモデルが、数ショットのシナリオで少数のラベルにアクセスすることで、完全に教師されたモデルを上回ることができる一方で、すべてのラベルが使用される場合、そのモデルを超えることはないことを示唆している。 その結果、SSLが従来の教師付き学習の代替となる可能性を強調し、データラベリングに関連する時間とコストを削減しつつタスクパフォーマンスを維持できることを示した。 この研究はまた、リモートセンシングにおけるSSLの使用を支持する証拠の増大に寄与し、この分野のさらなる研究を促進する可能性がある。

This study explores the application of self-supervised learning (SSL) for improved target recognition in synthetic aperture sonar (SAS) imagery. The unique challenges of underwater environments make traditional computer vision techniques, which rely heavily on optical camera imagery, less effective. SAS, with its ability to generate high-resolution imagery, emerges as a preferred choice for underwater imaging. However, the voluminous high-resolution SAS data presents a significant challenge for labeling; a crucial step for training deep neural networks (DNNs). SSL, which enables models to learn features in data without the need for labels, is proposed as a potential solution to the data labeling challenge in SAS. The study evaluates the performance of two prominent SSL algorithms, MoCov2 and BYOL, against the well-regarded supervised learning model, ResNet18, for binary image classification tasks. The findings suggest that while both SSL models can outperform a fully supervised model with access to a small number of labels in a few-shot scenario, they do not exceed it when all the labels are used. The results underscore the potential of SSL as a viable alternative to traditional supervised learning, capable of maintaining task performance while reducing the time and costs associated with data labeling. The study also contributes to the growing body of evidence supporting the use of SSL in remote sensing and could stimulate further research in this area.
翻訳日:2023-07-31 14:41:47 公開日:2023-07-27
# 要求・苦情検出用カスケードクロスモーダル変圧器

Cascaded Cross-Modal Transformer for Request and Complaint Detection ( http://arxiv.org/abs/2307.15097v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea and Radu Tudor Ionescu(参考訳) 音声とテキストの書き起こしを組み合わせることで,電話会話における顧客の要求や苦情を検知する,新しいカスケード型クロスモーダルトランスフォーマ(ccmt)を提案する。 本手法は,自動音声認識(asr)モデルを用いて音声を書き起こし,異なる言語に翻訳することで,マルチモーダルパラダイムを活用する。 次に,言語固有のBERTモデルとWav2Vec2.0音声機能を組み合わせた,新しいケースド・クロスアテンション・トランスフォーマモデルを提案する。 本システムは,acmマルチメディア2023計算言語学チャレンジの要求サブキャレンジに適用し,苦情と要求クラスに対して65.41%,85.87%の非重み付け平均リコール(uar)を達成した。

We propose a novel cascaded cross-modal transformer (CCMT) that combines speech and text transcripts to detect customer requests and complaints in phone conversations. Our approach leverages a multimodal paradigm by transcribing the speech using automatic speech recognition (ASR) models and translating the transcripts into different languages. Subsequently, we combine language-specific BERT-based models with Wav2Vec2.0 audio features in a novel cascaded cross-attention transformer model. We apply our system to the Requests Sub-Challenge of the ACM Multimedia 2023 Computational Paralinguistics Challenge, reaching unweighted average recalls (UAR) of 65.41% and 85.87% for the complaint and request classes, respectively.
翻訳日:2023-07-31 14:41:24 公開日:2023-07-27
# ReD-SOMモデルによる損傷信号のモダリティ回復のためのコーテックスによる学習

Cortex Inspired Learning to Recover Damaged Signal Modality with ReD-SOM Model ( http://arxiv.org/abs/2307.15095v1 )

ライセンス: Link先を確認
Artem Muliukov, Laurent Rodriguez, Benoit Miramond(参考訳) AIと認知科学の分野での最近の進歩は、これまで研究ができなかった新しい課題を開く。 そのような現代的なタスクの1つは、あるモダリティの失われたデータを別のモダリティから取り出すことである。 同様の効果(マクグルク効果と呼ばれる)は、ヒトの脳の機能にも見られる。 この効果を観察すると、情報のモダリティが互いに干渉し、その知覚が変化する。 本稿では,このような効果をシミュレートし,変分オートエンコーダ,自己組織化マップ,ヘッブ接続を統合されたReD-SOM(Reentering Deep Self-organizing Map)モデルで組み合わせることで,損失データモダリティを再構築する手法を提案する。 私たちは、あるモダリティにおいて情報が不足している場合に、異なるモダリティで脳の異なるゾーンを使用する人間の能力にインスピレーションを受けています。 この新しいアプローチは、曖昧なデータの解析を改善するだけでなく、意図した信号を復元する。 マルチモーダルデータセットで得られた結果は、信号再構成の品質の向上を示す。 この効果は視覚的にも量的にも顕著であり、特に信号の歪みの程度が顕著である。

Recent progress in the fields of AI and cognitive sciences opens up new challenges that were previously inaccessible to study. One of such modern tasks is recovering lost data of one modality by using the data from another one. A similar effect (called the McGurk Effect) has been found in the functioning of the human brain. Observing this effect, one modality of information interferes with another, changing its perception. In this paper, we propose a way to simulate such an effect and use it to reconstruct lost data modalities by combining Variational Auto-Encoders, Self-Organizing Maps, and Hebb connections in a unified ReD-SOM (Reentering Deep Self-organizing Map) model. We are inspired by human's capability to use different zones of the brain in different modalities, in case of having a lack of information in one of the modalities. This new approach not only improves the analysis of ambiguous data but also restores the intended signal! The results obtained on the multimodal dataset demonstrate an increase of quality of the signal reconstruction. The effect is remarkable both visually and quantitatively, specifically in presence of a significant degree of signal's distortion.
翻訳日:2023-07-31 14:41:09 公開日:2023-07-27
# 因果推定評価のためのRCTリジェクションサンプリング

RCT Rejection Sampling for Causal Estimation Evaluation ( http://arxiv.org/abs/2307.15176v1 )

ライセンス: Link先を確認
Katherine A. Keith, Sergey Feldman, David Jurgens, Jonathan Bragg, Rohit Bhattacharya(参考訳) コンバウンディングは観測データから因果効果の偏りのない推定に重要な障害となる。 テキストデータやゲノミクス,行動社会科学といった,高次元の共変量設定では,機械学習手法を因果推定の目標に適応させることで,共変量を調整する方法が提案されている。 しかし、これらの調整方法の実証的な評価は困難で制限されている。 本研究では,評価設計を単純化し,実データを使用する有望な実証的評価戦略を構築する。rcts(subsampling randomized controlled trials)は,rctsの平均的因果効果を基盤として使用しながら,複合的な観測データセットを作成する。 提案手法は, RCT拒絶サンプリングと呼ばれる新しいサンプリングアルゴリズムに寄与し, 観測データに因果同定が保持されていることを理論的に保証し, 基幹RCTとの比較を可能にする。 合成データを用いて,本アルゴリズムは,従来提案されていたアルゴリズムでは必ずしもそうではないような,既成のサンプルに対してオラクル推定器を評価した場合のバイアスが小さくなることを示す。 この識別結果に加えて, RCT のリジェクションサンプリングを自身のデータセットで使用することを計画している評価設計者に対して, 有限データ考慮点をいくつか挙げる。 概念実証として、サンプル評価パイプラインを実装し、これらの有限データの考察を、約70kの観測とテキストデータを高次元の共変量として公開する、新しい実世界のrctで検討する。 これらの貢献は、因果推定に対する経験的評価を改善するという、より広いアジェンダに向かっている。

Confounding is a significant obstacle to unbiased estimation of causal effects from observational data. For settings with high-dimensional covariates -- such as text data, genomics, or the behavioral social sciences -- researchers have proposed methods to adjust for confounding by adapting machine learning methods to the goal of causal estimation. However, empirical evaluation of these adjustment methods has been challenging and limited. In this work, we build on a promising empirical evaluation strategy that simplifies evaluation design and uses real data: subsampling randomized controlled trials (RCTs) to create confounded observational datasets while using the average causal effects from the RCTs as ground-truth. We contribute a new sampling algorithm, which we call RCT rejection sampling, and provide theoretical guarantees that causal identification holds in the observational data to allow for valid comparisons to the ground-truth RCT. Using synthetic data, we show our algorithm indeed results in low bias when oracle estimators are evaluated on the confounded samples, which is not always the case for a previously proposed algorithm. In addition to this identification result, we highlight several finite data considerations for evaluation designers who plan to use RCT rejection sampling on their own datasets. As a proof of concept, we implement an example evaluation pipeline and walk through these finite data considerations with a novel, real-world RCT -- which we release publicly -- consisting of approximately 70k observations and text data as high-dimensional covariates. Together, these contributions build towards a broader agenda of improved empirical evaluation for causal estimation.
翻訳日:2023-07-31 14:33:47 公開日:2023-07-27
# オンライン学習に基づく自動需要応答システムにおける因果サイバー攻撃

Causative Cyberattacks on Online Learning-based Automated Demand Response Systems ( http://arxiv.org/abs/2307.15175v1 )

ライセンス: Link先を確認
Samrat Acharya, Yury Dvorkin, Ramesh Karri(参考訳) 電力事業者は、コストのかかる燃料火力発電機を代替し、ピーク電力需要時の混雑を抑えるために、自動需要応答(ADR)を採用している。 同様に、サードパーティのデマンドレスポンス(dr)アグリゲータは、制御可能な小規模電気負荷を利用して、ユーティリティーにオンデマンドグリッドサポートサービスを提供する。 一部のアグリゲータやユーティリティは、電気消費者のエネルギー使用パターンを学び、この知識を使って最適なdrインセンティブを設計するために人工知能(ai)を使い始めた。 このようなaiフレームワークは、ユーティリティ/アグリゲータと dr ユーザの間のオープンな通信チャネルを使用しており、これらは \textit{causative} データ完全性サイバー攻撃に対して脆弱である。 本稿では,aiベースのdr学習の脆弱性を調査し,ニューヨーク大学(nyu)キャンパスビルディングから収集したデータをもとに,データ駆動型攻撃戦略を考案する。 ケーススタディは悪質な改ざんの可能性と効果を示しています (i)リアルタイムDRインセンティブ 二 DR顧客に送信されたDRイベントデータ及び (iii)drインセンティブに対するdr顧客の反応

Power utilities are adopting Automated Demand Response (ADR) to replace the costly fuel-fired generators and to preempt congestion during peak electricity demand. Similarly, third-party Demand Response (DR) aggregators are leveraging controllable small-scale electrical loads to provide on-demand grid support services to the utilities. Some aggregators and utilities have started employing Artificial Intelligence (AI) to learn the energy usage patterns of electricity consumers and use this knowledge to design optimal DR incentives. Such AI frameworks use open communication channels between the utility/aggregator and the DR customers, which are vulnerable to \textit{causative} data integrity cyberattacks. This paper explores vulnerabilities of AI-based DR learning and designs a data-driven attack strategy informed by DR data collected from the New York University (NYU) campus buildings. The case study demonstrates the feasibility and effects of maliciously tampering with (i) real-time DR incentives, (ii) DR event data sent to DR customers, and (iii) responses of DR customers to the DR incentives.
翻訳日:2023-07-31 14:33:20 公開日:2023-07-27
# クーディシステムを用いたU(1)格子ゲージ理論の変分量子シミュレーション

Variational quantum simulation of U(1) lattice gauge theories with qudit systems ( http://arxiv.org/abs/2307.15173v1 )

ライセンス: Link先を確認
Pavel P. Popov, Michael Meth, Maciej Lewenstein, Philipp Hauke, Martin Ringbauer, Erez Zohar, Valentin Kasper(参考訳) 格子ゲージ理論は、粒子物理学、凝縮物質、量子情報理論など、様々な分野の基本である。 量子系の制御の最近の進歩は、テーブルトップ実験におけるアベリア格子ゲージ理論の研究を可能にする。 しかし、高空間次元での動的フェルミオンの実装や磁場の項など、いくつかの課題が残っている。 ここでは,任意の d に対して局所相互作用を持つ u(1) アーベル格子ゲージ理論を qudit 系に写像する。我々は,局所ハミルトニアンを持つ qudit 系の変分量子シミュレーションスキームを提案し, [nat. phys. 18, 1053-1057 (2022)] で開発されたような,普遍的な qudit 量子デバイス上で実装できる。 本稿では, 量子コンピュータ上での非平衡物理学をシミュレーションするために, 基底状態生成のための変分時間進化プロトコルと変分時間進化プロトコルを実装する方法について述べる。 提案手法は格子ゲージ理論,特に高空間次元において,システムサイズとゲート数の両方に関して,最小限の資源でシミュレーションする方法として機能する。

Lattice gauge theories are fundamental to various fields, including particle physics, condensed matter, and quantum information theory. Recent progress in the control of quantum systems allows for studying Abelian lattice gauge theories in table-top experiments. However, several challenges remain, such as implementing dynamical fermions in higher spatial dimensions and magnetic field terms. Here, we map D-dimensional U(1) Abelian lattice gauge theories onto qudit systems with local interactions for arbitrary D. We propose a variational quantum simulation scheme for the qudit system with a local Hamiltonian, that can be implemented on a universal qudit quantum device as the one developed in [Nat. Phys. 18, 1053-1057 (2022)]. We describe how to implement the variational imaginary-time evolution protocol for ground state preparation as well as the variational real-time evolution protocol to simulate non-equilibrium physics on universal qudit quantum computers, supplemented with numerical simulations. Our proposal can serve as a way of simulating lattice gauge theories, particularly in higher spatial dimensions, with minimal resources, regarding both system sizes and gate count.
翻訳日:2023-07-31 14:33:04 公開日:2023-07-27
# PredictChain: 分散型ブロックチェーンベースのマーケットプレースにおけるAIのコラボレーションとデータアクセシビリティの強化

PredictChain: Empowering Collaboration and Data Accessibility for AI in a Decentralized Blockchain-based Marketplace ( http://arxiv.org/abs/2307.15168v1 )

ライセンス: Link先を確認
Matthew T. Pisano and Connor J. Patterson and Oshani Seneviratne(参考訳) コンピューティングリソースやトレーニングデータへの限られたアクセスは、予測機械学習モデルのトレーニングと活用を目指す個人やグループにとって大きな課題となる。 多くの機械学習モデルが存在するが、それらはしばしばホストされていないため、エンドユーザーが計算基盤を確立する必要がある。 あるいは、これらのモデルは有料のクラウドベースのメカニズムを通してのみアクセス可能であり、一般利用に費用がかかることを証明できる。 さらに、モデルとデータプロバイダは、リソース使用を追跡するためのより合理化されたアプローチを必要とします。 効果的なメカニズムは、モデルパフォーマンスを改善するための高品質なデータも提供できない。 これらの問題に対処するために,予測機械学習モデルのためのブロックチェーンベースのマーケットプレース"predictchain"を提案する。 このマーケットプレースは、予測機械学習モデルをトレーニングするためのデータセットのアップロード、以前にアップロードされたデータセットの要求モデルトレーニング、トレーニングされたモデルへのクエリの提出を可能にする。 利用可能なコンピューティングリソースを備えたブロックチェーンネットワーク内のノードは、これらのモデルを運用し、コスト、スピード、シンプルさ、パワー、コスト効率など、さまざまな特性を持つ、さまざまな古型機械学習モデルを提供する。 この分散アプローチによって、ユーザには、パブリックにアクセス可能な改良されたモデルの開発、データ共有の促進、集中型クラウドプロバイダへの依存の軽減が可能になる。

Limited access to computing resources and training data poses significant challenges for individuals and groups aiming to train and utilize predictive machine learning models. Although numerous publicly available machine learning models exist, they are often unhosted, necessitating end-users to establish their computational infrastructure. Alternatively, these models may only be accessible through paid cloud-based mechanisms, which can prove costly for general public utilization. Moreover, model and data providers require a more streamlined approach to track resource usage and capitalize on subsequent usage by others, both financially and otherwise. An effective mechanism is also lacking to contribute high-quality data for improving model performance. We propose a blockchain-based marketplace called "PredictChain" for predictive machine-learning models to address these issues. This marketplace enables users to upload datasets for training predictive machine learning models, request model training on previously uploaded datasets, or submit queries to trained models. Nodes within the blockchain network, equipped with available computing resources, will operate these models, offering a range of archetype machine learning models with varying characteristics, such as cost, speed, simplicity, power, and cost-effectiveness. This decentralized approach empowers users to develop improved models accessible to the public, promotes data sharing, and reduces reliance on centralized cloud providers.
翻訳日:2023-07-31 14:32:42 公開日:2023-07-27
# VISU at WASSA 2023 Shared Task: Detecting Emotions in Reaction to News Stories Leveraging BERT and Stacked Embeddings (英語)

VISU at WASSA 2023 Shared Task: Detecting Emotions in Reaction to News Stories Leveraging BERT and Stacked Embeddings ( http://arxiv.org/abs/2307.15164v1 )

ライセンス: Link先を確認
Vivek Kumar, Sushmita Singh and Prayag Tiwari(参考訳) 私たちのシステムであるvisuは、ニュース記事に反応して書かれたエッセイから感情分類のwasa 2023共有タスク(3)に参加した。 複雑な対話からの感情検出は困難であり、しばしばコンテキスト/ドメイン理解を必要とする。 そこで本研究では,表現された感情のニュアンスを捉えるために,単語埋め込み表現と韻律を組み込んだ深層学習(DL)モデルの開発に焦点をあてた。 実験では,双方向長短期メモリ(BiLSTM)とトランスフォーマーベースモデルを用いて,静的およびコンテキスト埋め込み(個別およびスタック化)を行った。 マクロf1スコアを0.2717とすることで感情検出タスクの10位を占め、ターゲット感情のカテゴリが混在する小規模で不均衡なデータセットに対する実装手法の有効性を検証した。

Our system, VISU, participated in the WASSA 2023 Shared Task (3) of Emotion Classification from essays written in reaction to news articles. Emotion detection from complex dialogues is challenging and often requires context/domain understanding. Therefore in this research, we have focused on developing deep learning (DL) models using the combination of word embedding representations with tailored prepossessing strategies to capture the nuances of emotions expressed. Our experiments used static and contextual embeddings (individual and stacked) with Bidirectional Long short-term memory (BiLSTM) and Transformer based models. We occupied rank tenth in the emotion detection task by scoring a Macro F1-Score of 0.2717, validating the efficacy of our implemented approaches for small and imbalanced datasets with mixed categories of target emotions.
翻訳日:2023-07-31 14:32:20 公開日:2023-07-27
# d波超伝導体平面ジョセフソン接合におけるマヨラナ境界状態

Majorana bound states in d-wave superconductor planar Josephson junction ( http://arxiv.org/abs/2307.15162v1 )

ライセンス: Link先を確認
Hamed Vakili, Moaz Ali, Mohamed Elekhtiar, Alexey A. Kovalev(参考訳) スピン軌道結合の強い2次元電子ガスと高臨界温度の利点を有するd波超伝導体からなる位相制御平面ジョセフソン接合について検討した。 2つの超伝導体間の領域は、面内ゼーマン場によって位相状態に調整でき、マヨラナ境界状態をホストできることを示す。 ゼーマン場の関数としての位相図、化学ポテンシャル、超伝導体間の位相差は、幅広いパラメータに対するロバストなマヨラナ結合状態の出現を示している。 さらに, 位相ギャップの挙動と, d波ペアリング(d, d+is, d+id')のタイプ依存性について検討し, 純d波超伝導体におけるギャップのない励起の存在により生じる難しさについて考察した。 一方、d+is と d+id' の対を持つ超伝導体に基づく平面ジョセフソン接合は、マヨラナ境界状態の実現に繋がる可能性がある。 本提案は, 機械的に剥離したファンデルワールス銅酸化物ヘテロ構造で実現可能な2層d波超伝導体において実現可能である。

We study phase-controlled planar Josephson junction comprising a two-dimensional electron gas with strong spin-orbit coupling and d-wave superconductors, which have an advantage of high critical temperature. We show that a region between the two superconductors can be tuned into topological state by the in-plane Zeeman field, and can host Majorana bound states. The phase diagram as a function of the Zeeman field, chemical potential, and the phase difference between superconductors exhibits the appearance of robust Majorana bound states for a wide range of parameters. We further investigate the behavior of the topological gap and its dependence on the type of d-wave pairing, i.e., d, d+is, or d+id', and note the difficulties that can arise due to the presence of gapless excitations in pure d-wave superconductors. On the other hand, the planar Josephson junctions based on superconductors with d+is and d+id' pairings can potentially lead to realizations of Majorana bound states. Our proposal can be realized in twisted bilayer d-wave superconductors realizable in mechanically exfoliated van der Waals copper oxide heterostructures.
翻訳日:2023-07-31 14:32:03 公開日:2023-07-27
# R-LPIPS: 対向的にロバストな知覚的類似度メトリクス

R-LPIPS: An Adversarially Robust Perceptual Similarity Metric ( http://arxiv.org/abs/2307.15157v1 )

ライセンス: Link先を確認
Sara Ghazanfari, Siddharth Garg, Prashanth Krishnamurthy, Farshad Khorrami, Alexandre Araujo(参考訳) 類似度測定は、画像の基盤となる意味を捉えるためにコンピュータビジョンにおいて重要な役割を果たしてきた。 近年,LPIPS(Learned Perceptual Image Patch similarity)のような高度な類似度指標が出現している。 これらの指標は、訓練されたニューラルネットワークから抽出された深い特徴を活用しており、相対的な画像類似性を評価する際に人間の知覚と密に連携する顕著な能力を示している。 しかし現在では、ニューラルネットワークは敵の例、すなわち、故意にモデルを誤解させるために造られた人間の目に見えない小さな摂動の影響を受けやすいことが知られている。 その結果、LPIPSメトリックはそのような逆例にも敏感である。 この感受性は、特に大規模アプリケーションでLPIPSが広く採用されていることを考えると、重大なセキュリティ上の懸念をもたらす。 本稿では,R-LPIPS(Robust Learned Perceptual Image Patch similarity)尺度を提案する。 総合的な実験を通して、古典的なLPIPSメトリックと比較してR-LPIPSの優位性を示す。 コードは \url{https://github.com/SaraGhazanfari/R-LPIPS} で公開されている。

Similarity metrics have played a significant role in computer vision to capture the underlying semantics of images. In recent years, advanced similarity metrics, such as the Learned Perceptual Image Patch Similarity (LPIPS), have emerged. These metrics leverage deep features extracted from trained neural networks and have demonstrated a remarkable ability to closely align with human perception when evaluating relative image similarity. However, it is now well-known that neural networks are susceptible to adversarial examples, i.e., small perturbations invisible to humans crafted to deliberately mislead the model. Consequently, the LPIPS metric is also sensitive to such adversarial examples. This susceptibility introduces significant security concerns, especially considering the widespread adoption of LPIPS in large-scale applications. In this paper, we propose the Robust Learned Perceptual Image Patch Similarity (R-LPIPS) metric, a new metric that leverages adversarially trained deep features. Through a comprehensive set of experiments, we demonstrate the superiority of R-LPIPS compared to the classical LPIPS metric. The code is available at \url{https://github.com/SaraGhazanfari/R-LPIPS}.
翻訳日:2023-07-31 14:31:44 公開日:2023-07-27
# 非定常性に対するロバスト性を有する線形帯域のA/B試験とベストアーム同定

A/B Testing and Best-arm Identification for Linear Bandits with Robustness to Non-stationarity ( http://arxiv.org/abs/2307.15154v1 )

ライセンス: Link先を確認
Zhihan Xiong, Romain Camilleri, Maryam Fazel, Lalit Jain, Kevin Jamieson(参考訳) 非定常環境下での線形包帯に対する固定予算ベストアーム識別(BAI)問題について検討する。 有限腕集合 $\mathcal{X}\subset\mathbb{R}^d$ と固定予算 $T$ とパラメータの予測不可能な列 $\left\lbrace\theta_t\right\rbrace_{t=1}^{T}$ が与えられたとき、アルゴリズムは可能な限り高い確率で最良のアーム $x^* := \arg\max_{x\in\mathcal{X}}x^\top\sum_{t=1}^{T}\theta_t$ を正しく識別する。 以前の研究では、すべての$t$に対して$\theta_t = \theta_1$ という定常設定に対処し、問題依存定数 $\rho^*$ に対して$\exp(-t /\rho^*)$ でエラー確率が減少することを示した。 しかし、私たちの仕事の動機となる多くの現実世界の$a/b/n$多変量テストシナリオでは、環境は不安定であり、定常設定を期待するアルゴリズムは簡単に失敗する可能性がある。 堅牢な識別のために、もし腕を$\mathcal{X}$よりもG最適設計からランダムに非適応に選択すると、誤差確率は$\exp(-T\Delta^2_{(1)}/d)$と減少し、$\Delta_{(1)} = \min_{x \neq x^*} (x^*x)^\top \frac{1}{T}\sum_{t=1}^T \theta_t$となることが知られている。 例えば、$\Delta_{(1)}^2/ d \ll 1/ \rho^*$ という環境が存在するため、我々は、良性設定における非定常性に対する堅牢性と識別の速さという両方の世界の長所を得るための新しいアルゴリズム $\mathsf{P1}$-$\mathsf{RAGE}$ を提案する動機付けがある。 我々は、$\mathsf{p1}$-$\mathsf{rage}$の誤差確率を特徴付け、このアルゴリズムがg-optimal設計よりも決して悪くなることはないが、定常設定の最良のアルゴリズムと比較すると実証的に証明する。

We investigate the fixed-budget best-arm identification (BAI) problem for linear bandits in a potentially non-stationary environment. Given a finite arm set $\mathcal{X}\subset\mathbb{R}^d$, a fixed budget $T$, and an unpredictable sequence of parameters $\left\lbrace\theta_t\right\rbrace_{t=1}^{T}$, an algorithm will aim to correctly identify the best arm $x^* := \arg\max_{x\in\mathcal{X}}x^\top\sum_{t=1}^{T}\theta_t$ with probability as high as possible. Prior work has addressed the stationary setting where $\theta_t = \theta_1$ for all $t$ and demonstrated that the error probability decreases as $\exp(-T /\rho^*)$ for a problem-dependent constant $\rho^*$. But in many real-world $A/B/n$ multivariate testing scenarios that motivate our work, the environment is non-stationary and an algorithm expecting a stationary setting can easily fail. For robust identification, it is well-known that if arms are chosen randomly and non-adaptively from a G-optimal design over $\mathcal{X}$ at each time then the error probability decreases as $\exp(-T\Delta^2_{(1)}/d)$, where $\Delta_{(1)} = \min_{x \neq x^*} (x^* - x)^\top \frac{1}{T}\sum_{t=1}^T \theta_t$. As there exist environments where $\Delta_{(1)}^2/ d \ll 1/ \rho^*$, we are motivated to propose a novel algorithm $\mathsf{P1}$-$\mathsf{RAGE}$ that aims to obtain the best of both worlds: robustness to non-stationarity and fast rates of identification in benign settings. We characterize the error probability of $\mathsf{P1}$-$\mathsf{RAGE}$ and demonstrate empirically that the algorithm indeed never performs worse than G-optimal design but compares favorably to the best algorithms in the stationary setting.
翻訳日:2023-07-31 14:31:25 公開日:2023-07-27
# R-Block: 畳み込みネットワークにおけるドロップアウトの正規化ブロック

R-Block: Regularized Block of Dropout for convolutional networks ( http://arxiv.org/abs/2307.15150v1 )

ライセンス: Link先を確認
Liqi Wang, Qiya Hu(参考訳) 正規化技法としてのドロップアウトは完全連結層で広く使われているが、畳み込み層では効果が低い。 したがって、畳み込みネットワークを規則化するより構造化された形式のドロップアウトが提案されている。 これらの方法の欠点は、ランダム性がトレーニングと推論の矛盾を引き起こすことである。 本稿では,畳み込み層正規化のための相互学習訓練戦略,すなわち,生成した差分最大化部分モデルの2つの出力を互いに一貫性を持たせるrブロックを適用する。 具体的には、R-Blockはトレーニングデータセットの各サンプルに対して異なるドロップ領域を持つ2つのサブモデルの出力分布間の損失を最小化する。 このようなサブモデルを構築するための2つのアプローチを設計する。 我々の実験では、R-Blockは他の構造化されたドロップアウトモデルよりも優れた性能を示す。 また、サブモデルを構築するアプローチは他のモデルよりも優れていることを示す。

Dropout as a regularization technique is widely used in fully connected layers while is less effective in convolutional layers. Therefore more structured forms of dropout have been proposed to regularize convolutional networks. The disadvantage of these methods is that the randomness introduced causes inconsistency between training and inference. In this paper, we apply a mutual learning training strategy for convolutional layer regularization, namely R-Block, which forces two outputs of the generated difference maximizing sub models to be consistent with each other. Concretely, R-Block minimizes the losses between the output distributions of two sub models with different drop regions for each sample in the training dataset. We design two approaches to construct such sub models. Our experiments demonstrate that R-Block achieves better performance than other existing structured dropout variants. We also demonstrate that our approaches to construct sub models outperforms others.
翻訳日:2023-07-31 14:30:27 公開日:2023-07-27
# 光子検出器:ショットノイズ限界付近の適応型量子光学センサー

Photon discerner: Adaptive quantum optical sensing near the shot noise limit ( http://arxiv.org/abs/2307.15141v1 )

ライセンス: Link先を確認
F. Bao and L. Bauer and A. E. Rubio Lopez and Z. Jacob(参考訳) 光場の光子統計は、かさばる光学成分のない低光レベルのシナリオにおける量子光学センシングに使用できる。 しかし、光子統計を解き放つ光子数分解検出は困難である。 そこで本研究では,正確な光子数を記録することなく,光子統計量推定に適応光子しきい値を用いる「光子識別」と呼ばれる新しい検出手法を提案する。 our photon discernerはニューラルネットワークの分野に動機付けられており、機械学習タスクにおいて最適な決定バウンダリを分離する上で、チューニング可能なしきい値が効率的であることが証明されています。 光子識別器は、ショットノイズ限界に近づくために、リアルタイムに最適な閾値を反復的に選択することにより、光子当たりのフィッシャー情報を最大化する。 提案手法は, 量子DoLP(直線偏光度)カメラと量子LiDARの独自のリモートセンシングへの応用をもたらす。 最適しきい値について検討し、光子束縛効果により、弱い信号(光子数)であっても、最適光子しきい値が逆直観的(1と等しくない)であることを示した。 また、近い将来に実験的に実装できる光子ディスクラーナーの超伝導ナノワイヤの実現も行った。 我々は,光子ディスクラナーの適応性により,光子数分解検出器を限られた光子数解像度で打ち負かすことができることを示した。 我々の研究は、情報理論駆動、コンパクト、および学習に基づく量子光学センシングのための新しい種類の検出器を提案する。

Photon statistics of an optical field can be used for quantum optical sensing in low light level scenarios free of bulky optical components. However, photon-number-resolving detection to unravel the photon statistics is challenging. Here, we propose a novel detection approach, that we call `photon discerning', which uses adaptive photon thresholding for photon statistical estimation without recording exact photon numbers. Our photon discerner is motivated by the field of neural networks where tunable thresholds have proven efficient for isolating optimal decision boundaries in machine learning tasks. The photon discerner maximizes Fisher information per photon by iteratively choosing the optimal threshold in real-time to approach the shot noise limit. Our proposed scheme of adaptive photon thresholding leads to unique remote-sensing applications of quantum DoLP (degree of linear polarization) camera and quantum LiDAR. We investigate optimal thresholds and show that the optimal photon threshold can be counter-intuitive (not equal to 1) even for weak signals (mean photon number much less than 1), due to the photon bunching effect. We also put forth a superconducting nanowire realization of the photon discerner which can be experimentally implemented in the near-term. We show that the adaptivity of our photon discerner enables it to beat realistic photon-number-resolving detectors with limited photon-number resolution. Our work suggests a new class of detectors for information-theory driven, compact, and learning-based quantum optical sensing.
翻訳日:2023-07-31 14:30:14 公開日:2023-07-27
# PromptStyler: ソースフリードメイン一般化のためのプロンプト駆動型スタイル生成

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization ( http://arxiv.org/abs/2307.15199v1 )

ライセンス: Link先を確認
Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak(参考訳) 共同視覚言語空間では、テキスト機能(例:「犬の写真」から)はその関連画像の特徴(例:犬の写真から)を効果的に表現することができる。 そこで本研究では,ソースフリー領域の一般化を扱うために,画像を使わずにプロンプトを介して多様なスタイルを合成することにより,関節空間における様々な分布シフトをシミュレートするPromptStylerを提案する。 提案手法は,擬似単語S*の学習可能な単語ベクトルを用いて,様々なスタイル特徴(aのS*スタイルから)を生成することを学習する。 学習されたスタイルがコンテンツ情報を歪めないようにするため、スタイルコンテンツの特徴([クラス]のs*スタイルから)は、共用視覚言語空間内の対応するコンテンツ特徴([クラス]から)の近くに配置するよう強制します。 スタイル単語ベクトルを学習した後、合成スタイルコンテンツ特徴を用いて線形分類器を訓練する。 promptstylerはpacs、vlcs、officehome、domainnetの最先端技術を実現しているが、イメージは一切必要とせず、単一のgpuを使ってトレーニングするのに30分程度しかかからない。

In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Inspired by this, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. Our method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not require any images and takes just ~30 minutes for training using a single GPU.
翻訳日:2023-07-31 14:24:54 公開日:2023-07-27
# ニューロイメージングデータのワンショット関節抽出・登録・分割

One-shot Joint Extraction, Registration and Segmentation of Neuroimaging Data ( http://arxiv.org/abs/2307.15198v1 )

ライセンス: Link先を確認
Yao Su and Zhentian Qian and Lei Ma and Lifang He and Xiangnan Kong(参考訳) 脳の抽出、登録、セグメンテーションは、神経画像研究において必須の事前処理ステップである。 目的は、原画像スキャン(すなわち、抽出ステップ)から脳を抽出し、対象の脳画像(すなわち、登録ステップ)と整列させ、解剖学的脳領域(すなわち、セグメンテーションステップ)をラベル付けすることである。 従来の研究は、典型的には、教師付き環境での抽出、登録、分割タスクのための別々の方法の開発に重点を置いている。 これらの手法の性能は、トレーニングサンプルの量と、専門家による誤り訂正のための視覚検査の程度に大きく左右される。 しかしながら、多くの医学研究において、ボクセルレベルのラベルを収集し、高次元神経画像(例えば3D MRI)の手動品質制御を行うのは高価で時間を要する。 本稿では,1つのラベル付きテンプレート画像(a.a.atlas)と数個のラベル付き生画像のみを活用するニューロイメージングデータにおけるワンショット関節抽出,登録,セグメンテーションの問題について検討する。 我々はJERSと呼ばれる統合されたエンドツーエンドフレームワークを提案し、抽出、登録、セグメント化タスクを共同で最適化し、それら間のフィードバックを可能にする。 具体的には,抽出マスク,変換マスク,分割マスクを学習するために,抽出,登録,分割モジュールのグループを用いる。 実世界のデータセットにおける実験結果は,提案手法が抽出,登録,セグメンテーションタスクにおいて極めて有効であることを示している。 我々のコードとデータはhttps://github.com/Anonymous4545/JERSで確認できる。

Brain extraction, registration and segmentation are indispensable preprocessing steps in neuroimaging studies. The aim is to extract the brain from raw imaging scans (i.e., extraction step), align it with a target brain image (i.e., registration step) and label the anatomical brain regions (i.e., segmentation step). Conventional studies typically focus on developing separate methods for the extraction, registration and segmentation tasks in a supervised setting. The performance of these methods is largely contingent on the quantity of training samples and the extent of visual inspections carried out by experts for error correction. Nevertheless, collecting voxel-level labels and performing manual quality control on high-dimensional neuroimages (e.g., 3D MRI) are expensive and time-consuming in many medical studies. In this paper, we study the problem of one-shot joint extraction, registration and segmentation in neuroimaging data, which exploits only one labeled template image (a.k.a. atlas) and a few unlabeled raw images for training. We propose a unified end-to-end framework, called JERS, to jointly optimize the extraction, registration and segmentation tasks, allowing feedback among them. Specifically, we use a group of extraction, registration and segmentation modules to learn the extraction mask, transformation and segmentation mask, where modules are interconnected and mutually reinforced by self-supervision. Empirical results on real-world datasets demonstrate that our proposed method performs exceptionally in the extraction, registration and segmentation tasks. Our code and data can be found at https://github.com/Anonymous4545/JERS
翻訳日:2023-07-31 14:24:31 公開日:2023-07-27
# スモールラーニングレートSGDにおけるモーメントムのマージナル値

The Marginal Value of Momentum for Small Learning Rate SGD ( http://arxiv.org/abs/2307.15196v1 )

ライセンス: Link先を確認
Runzhe Wang, Sadhika Malladi, Tianhao Wang, Kaifeng Lyu, Zhiyuan Li(参考訳) モーメントは、確率的勾配雑音を伴わない強い凸条件下での勾配降下の収束を加速することが知られている。 ニューラルネットワークのトレーニングのような確率的最適化において、民話では、モーメントは確率的勾配更新のばらつきを減らすことによって深層学習の最適化に役立つ可能性があるが、以前の理論的分析では、証明可能な加速を与えるモーメントが見つからない。 本稿では,学習速度が小さく,勾配ノイズが不安定な確率的設定における運動量の役割を理論的に明らかにし,運動量の有無に関わらずsgdが短時間および長時間の地平線においても同じように振る舞うことを示唆する。 実験の結果,ImageNetのスクラッチから中小バッチまでの学習,下流タスクの微調整言語モデルなど,学習速度がそれほど大きくない実践的な学習体制において,モメンタは最適化と一般化の両方に制限があることがわかった。

Momentum is known to accelerate the convergence of gradient descent in strongly convex settings without stochastic gradient noise. In stochastic optimization, such as training neural networks, folklore suggests that momentum may help deep learning optimization by reducing the variance of the stochastic gradient update, but previous theoretical analyses do not find momentum to offer any provable acceleration. Theoretical results in this paper clarify the role of momentum in stochastic settings where the learning rate is small and gradient noise is the dominant source of instability, suggesting that SGD with and without momentum behave similarly in the short and long time horizons. Experiments show that momentum indeed has limited benefits for both optimization and generalization in practical training regimes where the optimal learning rate is not very large, including small- to medium-batch training from scratch on ImageNet and fine-tuning language models on downstream tasks.
翻訳日:2023-07-31 14:24:00 公開日:2023-07-27
# 反復型マルチユニットペイ・アズ・バイドオークションにおける学習

Learning in Repeated Multi-Unit Pay-As-Bid Auctions ( http://arxiv.org/abs/2307.15193v1 )

ライセンス: Link先を確認
Rigel Galgana and Negin Golrezaei(参考訳) 炭素排出取引方式, 財務オークション, 調達オークションに動機づけられ, いずれも均質な複数ユニットのオークションが絡み合っており, 複数単位のペイ・アズ・バイ・オークションの入札方法を学ぶことが課題である。 これらのオークションでは、多数の(同一の)アイテムが最も大きな入札に割り当てられ、それぞれの入札の価格は入札そのものに等しい。 対価入札の入札方法を学ぶという問題は、行動空間の組合せの性質のために難しい。 我々は、入札者が過去の入札にのみアクセスしながら入札のベクターを最適化するオフライン設定に焦点を合わせることで、この課題を克服する。 オフライン問題に対する最適解は多項式時間動的計画法(DP)を用いて得られることを示す。 dpスキームの構造を利用して,全情報とバンディットフィードバック設定下で多項式時間と空間複雑性を持つオンライン学習アルゴリズムを設計する。 我々は、それぞれ$O(M\sqrt{T\log |\mathcal{B}|})$と$O(M\sqrt{|\mathcal{B}|T\log |\mathcal{B}|})$の後悔に対する上限の上限を達成する。 これらの結果は、M$の線形依存に一致する、後悔の少ない低い境界で付随する。 以上の結果から,提案した後悔学習アルゴリズムに従わずに全てのエージェントが振る舞うと,結果の市場ダイナミクスは,入札者が一様入札を提出する均衡を最大化するための福祉に収束することが示唆された。 最後に,本研究の結果から,有料化オークションの収益は,人気の選択肢である均一価格オークションに比べ,一貫して有意に高いことがわかった。

Motivated by Carbon Emissions Trading Schemes, Treasury Auctions, and Procurement Auctions, which all involve the auctioning of homogeneous multiple units, we consider the problem of learning how to bid in repeated multi-unit pay-as-bid auctions. In each of these auctions, a large number of (identical) items are to be allocated to the largest submitted bids, where the price of each of the winning bids is equal to the bid itself. The problem of learning how to bid in pay-as-bid auctions is challenging due to the combinatorial nature of the action space. We overcome this challenge by focusing on the offline setting, where the bidder optimizes their vector of bids while only having access to the past submitted bids by other bidders. We show that the optimal solution to the offline problem can be obtained using a polynomial time dynamic programming (DP) scheme. We leverage the structure of the DP scheme to design online learning algorithms with polynomial time and space complexity under full information and bandit feedback settings. We achieve an upper bound on regret of $O(M\sqrt{T\log |\mathcal{B}|})$ and $O(M\sqrt{|\mathcal{B}|T\log |\mathcal{B}|})$ respectively, where $M$ is the number of units demanded by the bidder, $T$ is the total number of auctions, and $|\mathcal{B}|$ is the size of the discretized bid space. We accompany these results with a regret lower bound, which match the linear dependency in $M$. Our numerical results suggest that when all agents behave according to our proposed no regret learning algorithms, the resulting market dynamics mainly converge to a welfare maximizing equilibrium where bidders submit uniform bids. Lastly, our experiments demonstrate that the pay-as-bid auction consistently generates significantly higher revenue compared to its popular alternative, the uniform price auction.
翻訳日:2023-07-31 14:23:41 公開日:2023-07-27
# 小型だが重要:小型の信号機等を検知するための信号機の提案

Small, but important: Traffic light proposals for detecting small traffic lights and beyond ( http://arxiv.org/abs/2307.15191v1 )

ライセンス: Link先を確認
Tom Sanitz, Christian Wilms, Simone Frintrop(参考訳) 交通信号検出は、自動運転車と運転支援システムの文脈において難しい問題である。 ほとんどの既存のシステムは大きな信号機で良い結果をもたらすが、小さなものや小さなものを検出することは見過ごされがちである。 ここでの重要な問題は、cnnの固有のダウンサンプリングであり、検出のための低解像度機能につながる。 この問題を軽減するため, 汎用オブジェクトの提案生成による発見, きめ細かなマルチスケール特徴, 効率的な処理のための注意を活かした新しいトラヒックライト提案生成器を備える新しいトラヒックライト検出システムを提案する。 さらに,提案手法の分類と精査のための新しい検出ヘッドを設計する。 3つの挑戦的な公開データセットでシステムを評価し,6つの方法と比較した。 結果は、小さな信号機と小さな信号機で少なくとも12.6\%の大幅な改善と、あらゆる大きさの信号機に対する強力な結果を示している。

Traffic light detection is a challenging problem in the context of self-driving cars and driver assistance systems. While most existing systems produce good results on large traffic lights, detecting small and tiny ones is often overlooked. A key problem here is the inherent downsampling in CNNs, leading to low-resolution features for detection. To mitigate this problem, we propose a new traffic light detection system, comprising a novel traffic light proposal generator that utilizes findings from general object proposal generation, fine-grained multi-scale features, and attention for efficient processing. Moreover, we design a new detection head for classifying and refining our proposals. We evaluate our system on three challenging, publicly available datasets and compare it against six methods. The results show substantial improvements of at least $12.6\%$ on small and tiny traffic lights, as well as strong results across all sizes of traffic lights.
翻訳日:2023-07-31 14:23:00 公開日:2023-07-27
# シーケンスレベル知識蒸留のためのf-divergence最小化

f-Divergence Minimization for Sequence-Level Knowledge Distillation ( http://arxiv.org/abs/2307.15190v1 )

ライセンス: Link先を確認
Yuqiao Wen, Zichao Li, Wenyu Du, Lili Mou(参考訳) 知識蒸留 (KD) は、大きなモデルから小さなモデルへ知識を伝達する過程である。 自然言語処理コミュニティでは、成長を続ける言語モデルを圧縮する要求によって、その関心が高まっている。 本研究では,一般化されたf-divergence関数の最小化として,シーケンスレベルの知識蒸留を定式化するf-蒸留フレームワークを提案する。 本フレームワークでは,4つの蒸留変種を提案し,既存のSeqKD法とENGINE法がf-DISTILL法の近似であることを示す。 さらに、f-DISTILLのステップワイズ分解を導出し、抽出可能な方法で計算可能な単語レベルの損失に対する難解なシーケンスレベルのばらつきを低減する。 4つのデータセットで実験したところ、我々の手法は既存のKD手法よりも優れており、対称蒸留による損失は、教師の分布から学ぶことを強いる可能性があることがわかった。

Knowledge distillation (KD) is the process of transferring knowledge from a large model to a small one. It has gained increasing attention in the natural language processing community, driven by the demands of compressing ever-growing language models. In this work, we propose an f-DISTILL framework, which formulates sequence-level knowledge distillation as minimizing a generalized f-divergence function. We propose four distilling variants under our framework and show that existing SeqKD and ENGINE approaches are approximations of our f-DISTILL methods. We further derive step-wise decomposition for our f-DISTILL, reducing intractable sequence-level divergence to word-level losses that can be computed in a tractable manner. Experiments across four datasets show that our methods outperform existing KD approaches, and that our symmetric distilling losses can better force the student to learn from the teacher distribution.
翻訳日:2023-07-31 14:22:43 公開日:2023-07-27
# Med-Flamingo:マルチモーダル・メディカル・ファウショット学習者

Med-Flamingo: a Multimodal Medical Few-shot Learner ( http://arxiv.org/abs/2307.15189v1 )

ライセンス: Link先を確認
Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec(参考訳) 医学はその性質上、様々な様相にわたる情報の合成を必要とする多面的領域である。 医療生成視覚言語モデル(VLM)はこの方向への第一歩を踏み出し、多くのエキサイティングな臨床応用を約束する。 しかし、既存のモデルは、大容量のダウンストリームデータセットに基づいて微調整される必要があり、多くの医療応用データが不足しているため、かなりの制限を課し、リアルタイムに少数のサンプルから学習できるモデルを必要とします。 本稿では,医療領域に適応したマルチモーダルな数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。 Med-Flamingoは、数発の生成的医用視覚質問応答(VQA)機能をアンロックし、いくつかのデータセットで評価する。 さらに、我々は、医師が対話型アプリケーションで問題や失明世代をレビューする、生成医療用VQAの最初の人的評価を行う。 med-flamingoは、臨床医のレーティングで最大20\%向上し、まずは合理化などマルチモーダルな医療的少数ショット適応を可能にする。 私たちは、モデル、コード、評価アプリをhttps://github.com/snap-stanford/med-flamingoでリリースしています。

Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.
翻訳日:2023-07-31 14:22:25 公開日:2023-07-27
# 量子位相による粒子検出のための最適重ね合わせ

Optimal Superpositions for Particle Detection via Quantum Phase ( http://arxiv.org/abs/2307.15186v1 )

ライセンス: Link先を確認
Eva Kilian, Marko Toro\v{s}, P.F. Barker, Sougato Bose(参考訳) 量子力学をセンシングに活用することは、前例のない可能性をもたらす。 新たな量子センサーの最先端技術提案は、しばしば大きな重ね合わせの作成に依存し、一般に磁場を検知する。 しかし、特定の方向から入射粒子(または入射粒子の流れ)を検出するのに最適な重ね合わせサイズは何でしょうか。 この問題は、一般的には、この粒子は様々なモーメントで散乱し、センサーに様々な反動を与えるため、よく定義された測定可能な位相ではなくデコヒーレンスをもたらす。 量子重ね合わせの系による方向的粒子環境の散乱相互作用を考えることで、相対位相を介して入射粒子を測定するための「最適重ね合わせ」サイズが存在することを見出した。 環境の異方性(anisotropy of the environment)の結果,システムの密度行列の実部と虚部の境界挙動に新たな特徴が見られ,重ね合わせサイズの最適性と散乱器の波長を結びつけた。

Exploiting quantum mechanics for sensing offers unprecedented possibilities. State of the art proposals for novel quantum sensors often rely on the creation of large superpositions and generally detect a field. However, what is the optimal superposition size for detecting an incident particle (or an incident stream of particles) from a specific direction? This question is nontrivial as, in general, this incident particle will scatter off with varied momenta, imparting varied recoils to the sensor, resulting in decoherence rather than a well defined measurable phase. By considering scattering interactions of directional particulate environments with a system in a quantum superposition, we find that there is an "optimal superposition" size for measuring incoming particles via a relative phase. As a consequence of the anisotropy of the environment, we observe a novel feature in the limiting behaviour of the real and imaginary parts of the system's density matrix, linking the optimality of the superposition size to the wavelength of the scatterer.
翻訳日:2023-07-31 14:22:01 公開日:2023-07-27
# EnSolver:ディープアンサンブルを用いた不確かさを意識したCAPTCHAソルバー

EnSolver: Uncertainty-Aware CAPTCHA Solver Using Deep Ensembles ( http://arxiv.org/abs/2307.15180v1 )

ライセンス: Link先を確認
Duc C. Hoang, Cuong V. Nguyen, Amin Kharraz(参考訳) 自動化されたボットからウェブサイトを保護するセキュリティメカニズムとしてのテキストベースのCAPTCHAの人気は、CAPTCHA解決者の研究を刺激し、その障害事例を理解し、CAPTCHAをよりセキュアにする。 最近提案された解法は、ディープラーニングの進歩に基づいて構築されており、非常に難しいCAPTCHAを高精度で破ることができる。 しかし、これらの解法は、トレーニングセットのものと異なる視覚的特徴を含む分布外サンプルでよく機能しない。 さらに、これらのサンプルを検知して回避する能力が欠如しており、一定数の失敗の後、防衛システムによってロックアウトされる恐れがある。 本稿では, 深層アンサンブル不確実性推定を利用して分布外CAPTCHAを検出し, スキップする新しいCAPTCHAソルバであるEnSolverを提案する。 対象検出モデルを用いた解法の利用を実証し, 分布内データと分布外データの両方において良好に動作し, 分布外データ検出時の98.1%, 分布内captcha解決時の成功率は最大93%であることを示した。

The popularity of text-based CAPTCHA as a security mechanism to protect websites from automated bots has prompted researches in CAPTCHA solvers, with the aim of understanding its failure cases and subsequently making CAPTCHAs more secure. Recently proposed solvers, built on advances in deep learning, are able to crack even the very challenging CAPTCHAs with high accuracy. However, these solvers often perform poorly on out-of-distribution samples that contain visual features different from those in the training set. Furthermore, they lack the ability to detect and avoid such samples, making them susceptible to being locked out by defense systems after a certain number of failed attempts. In this paper, we propose EnSolver, a novel CAPTCHA solver that utilizes deep ensemble uncertainty estimation to detect and skip out-of-distribution CAPTCHAs, making it harder to be detected. We demonstrate the use of our solver with object detection models and show empirically that it performs well on both in-distribution and out-of-distribution data, achieving up to 98.1% accuracy when detecting out-of-distribution data and up to 93% success rate when solving in-distribution CAPTCHAs.
翻訳日:2023-07-31 14:21:43 公開日:2023-07-27
# テンソルネットワーク法による量子ドットSWAPゲート忠実度の評価

Assessing quantum dot SWAP gate fidelity using tensor network methods ( http://arxiv.org/abs/2307.15177v1 )

ライセンス: Link先を確認
Jacob R. Taylor, Nathan L. Foulk, and Sankar Das Sarma(参考訳) SWAPゲートは量子ビット間の量子状態の交換を促進し、量子アルゴリズムに不可欠なものである。 20から100個の量子ドットスピン量子ビットからなるシステムにおいて、繰り返しスワップ操作の忠実性を調べるために、高度なテンソルネットワーク手法を用いる。 谷の状態、谷分割、スピンバレー結合、ゼーマン分割、クロストークが組み込まれています。 SWAPゲートの忠実度は、これらのパラメータが共鳴する以外はゼーマン分割と谷分割の影響を受けない。 残留交換において、J_\text{SWAP}$が大きな交換結合によって正の影響を受けること、およびスピン-ヴァレー結合がフィリティに負の影響を与えることを確認することに加えて、バレー固有状態に対しては、そのフィデリティがバレー相から独立であり、ジェネリックバレーではいくつかの小さな補正が生じることを示す。 また、クロストークが唯一のエラー源となる谷効果のない長いクビット鎖の忠実度スケーリングも解析する。

The SWAP gate facilitates the exchange of quantum states between qubits and is integral to quantum algorithms. We utilize advanced tensor network methods to explore the fidelity for repeated SWAP operations on a system comprising 20 to 100 quantum dot spin qubits. We incorporate valley states, valley splitting, spin-valley coupling, Zeeman splitting, and crosstalk. The fidelity of SWAP gates is largely unaffected by Zeeman splitting and valley splitting, except when these parameters come into resonance. In addition to confirming that fidelity is positively impacted by the larger exchange couplings $J_\text{SWAP}$ in terms of the residual exchange $J_0$ and that spin-valley coupling negatively impacts fidelity, we also show that for valley eigenstates, the fidelity remains independent of the valley phase, while for generic valley states some minor corrections arise. We also analyze the fidelity scaling for long qubit chains without valley effects, where crosstalk represents the only error source.
翻訳日:2023-07-31 14:21:20 公開日:2023-07-27
# ravensニューロプロセッサの機能的仕様

Functional Specification of the RAVENS Neuroprocessor ( http://arxiv.org/abs/2307.15232v1 )

ライセンス: Link先を確認
Adam Z. Foshie and James S. Plank and Garrett S. Rose and Catherine D. Schuman(参考訳) RAVENSは、テネシー大学のTENNLab研究グループによって開発された神経プロセッサである。 その主な焦点は、メムリシティブな要素を持つチップ設計のための車両であるが、全デジタルCMOS開発のための車両であり、FPGA、マイクロコントローラ、ソフトウェアシミュレーションにも実装されている。 ソフトウェアシミュレーションはTENNLabニューロモルフィックソフトウェアフレームワークによってサポートされており、研究者は様々なニューロモルフィックコンピューティングアプリケーション向けのRAVENSソリューションを開発することができる。 この文書は、RAVENSニューロプロセッサのすべての実装に適用すべきRAVENSの機能仕様を提供する。

RAVENS is a neuroprocessor that has been developed by the TENNLab research group at the University of Tennessee. Its main focus has been as a vehicle for chip design with memristive elements; however it has also been the vehicle for all-digital CMOS development, plus it has implementations on FPGA's, microcontrollers and software simulation. The software simulation is supported by the TENNLab neuromorphic software framework so that researchers may develop RAVENS solutions for a variety of neuromorphic computing applications. This document provides a functional specification of RAVENS that should apply to all implementations of the RAVENS neuroprocessor.
翻訳日:2023-07-31 14:14:16 公開日:2023-07-27
# 量子力学シミュレーションのためのハイブリッド手法

A hybrid method for quantum dynamics simulation ( http://arxiv.org/abs/2307.15231v1 )

ライセンス: Link先を確認
Niladri Gomes, Jia Yin, Siyuan Niu, Chao Yang, Wibe Albert de Jong(参考訳) 本稿では,トロッターに基づく量子アルゴリズムと古典的動的モード分解を組み合わせることにより,量子多体力学をシミュレートするハイブリッド手法を提案する。 興味は、しばしば波動関数の形式を明示的に得るのではなく、観測可能なものを推定することにある。 本手法は,量子コンピュータからの短時間測定のセットからのデータを用いて,長時間の量子状態の観測可能性を予測する。 我々の方法の大域的誤差の上限は、測定値の固定セットで$O(t^{3/2})$とスケールする。 本手法をハバードモデルおよび近接スピン系におけるクエンチダイナミクスに適用し、量子測定から得られたデータ点数を制御することで観測可能な特性を合理的な誤差まで予測できることを示す。

We propose a hybrid approach to simulate quantum many body dynamics by combining Trotter based quantum algorithm with classical dynamic mode decomposition. The interest often lies in estimating observables rather than explicitly obtaining the wave function's form. Our method predicts observables of a quantum state in the long time by using data from a set of short time measurements from a quantum computer. The upper bound for the global error of our method scales as $O(t^{3/2})$ with a fixed set of the measurement. We apply our method to quench dynamics in Hubbard model and nearest neighbor spin systems and show that the observable properties can be predicted up to a reasonable error by controlling the number of data points obtained from the quantum measurements.
翻訳日:2023-07-31 14:13:57 公開日:2023-07-27
# 色補正と新しいメンバーシップ関数による砂砂の高速画像強調

Fast Dust Sand Image Enhancement Based on Color Correction and New Membership Function ( http://arxiv.org/abs/2307.15230v1 )

ライセンス: Link先を確認
Ali Hakem Alsaeedi, Suha Mohammed Hadi, Yarub Alazzawi(参考訳) 視認性と品質の悪いほこりの多い環境で撮影された画像。 砂塵画像のようなこれらの画像の強調は、様々な大気光学応用において重要な役割を果たす。 そこで本研究では,色補正に基づく新しいモデルと,サンダスト画像を強化する新しいメンバーシップ機能を提案する。 提案モデルは,カラーシフトの補正,ヘイズ除去,コントラストと明るさの向上の3段階からなる。 yuv色空間におけるuとvの値を調整するために、新しいメンバーシップ関数を用いて色シフトを補正する。 アダプティブダークチャンネルプリミティブ(A-DCP)は、ヘイズ除去に用いられる。 ストレッチコントラストと画像輝度の改善は、Contrast Limited Adaptive Histogram Equalization (CLAHE)に基づいている。 提案手法は,多くの実砂塵画像を用いて実験・評価を行う。 実験の結果,赤と黄色の鋳型を効果的に除去し,高品質で量の多いダスト画像を提供するという現在の研究よりも,提案手法が優れていることがわかった。

Images captured in dusty environments suffering from poor visibility and quality. Enhancement of these images such as sand dust images plays a critical role in various atmospheric optics applications. In this work, proposed a new model based on Color Correction and new membership function to enhance san dust images. The proposed model consists of three phases: correction of color shift, removal of haze, and enhancement of contrast and brightness. The color shift is corrected using a new membership function to adjust the values of U and V in the YUV color space. The Adaptive Dark Channel Prior (A-DCP) is used for haze removal. The stretching contrast and improving image brightness are based on Contrast Limited Adaptive Histogram Equalization (CLAHE). The proposed model tests and evaluates through many real sand dust images. The experimental results show that the proposed solution is outperformed the current studies in terms of effectively removing the red and yellow cast and provides high quality and quantity dust images.
翻訳日:2023-07-31 14:13:16 公開日:2023-07-27
# 1つの論理量子ビットを符号化する量子極符号のファクトリーベースフォールトトレラント合成

Factory-based Fault-tolerant Preparation of Quantum Polar Codes Encoding One logical Qubit ( http://arxiv.org/abs/2307.15226v1 )

ライセンス: Link先を確認
Ashutosh Goswami, Mehdi Mhalla, Valentin Savin(参考訳) Q1符号の論理的符号状態、すなわち1量子ビットを符号化する量子極性符号を作成するフォールトトレラントな方法が最近提案されている。 エラー検出装置の助けを借りて耐故障性を保証し、準備中にエラーを検出した場合には、準備不良を宣言して完全に廃棄する。 これは、その成功率を準備率と呼ぶ準備を確率的にする。 そこで本研究では,Q1コードステートの複製を並列に数回作成しようとする,Q1コードステートの工場準備について考察する。 余分なスケジューリングステップの助けを借りて、エラーが検出されるたびに、準備を完全に破棄することを避けることができるので、準備率を高めることができる。 さらに, モンテカルロシミュレーションに基づく数値結果の厳密な適合を示す工場調製法を用いて作成したQ1符号の合成と論理誤差率を推定する理論的手法を提案する。 したがって,モンテカルロシミュレーションが実現不可能である大規模符号長の推定には,理論的な手法が有用である。 例えば、N = 256 の場合、実用的に興味深い p = 10^{-3} の物理誤差率に対して 0.02% から 27% に増加する。 驚くべきことに、長さ n = 256 の q1 符号は、それぞれ p = 10^{-3} と p = 3 \times 10^{-4} の物理的誤り率に対して 10^{-11} と 10^{-15} の論理的誤り率を達成するため、大規模フォールトトレラント量子コンピューティングの計画が期待できる。

A fault-tolerant way to prepare logical code-states of Q1 codes, i.e., quantum polar codes encoding one qubit, has been recently proposed. The fault tolerance therein is guaranteed with the help of an error detection gadget, where if an error is detected during the preparation, one declares a preparation failure and discards entirely the preparation. This makes the preparation probabilistic, whose success rate is referred to as the preparation rate. In this paper, to improve the preparation rate, we consider a factory preparation of Q1 code-states, where one attempts to prepare several copies of Q1 code-states in parallel. With the help of an extra scheduling step, we can avoid discarding the preparation entirely, every time an error is detected, hence, we may achieve an increased preparation rate. We further provide a theoretical method to estimate preparation and logical error rates of the Q1 codes, prepared using factory preparation, which is shown to tightly fit the Monte-Carlo simulation based numerical results. Therefore, our theoretical method is useful for providing estimates for large code-lengths, where Monte-Carlo simulations are practically not feasible. Our numerical results, for a circuit-level depolarizing noise model, indicate that the preparation rate increases significantly, especially for large N. For example, for N = 256, it increases from 0.02% to 27% for a practically interesting physical error rate of p = 10^{-3}. Remarkably, a Q1 code of length N = 256 achieves logical error rates around 10^{-11} and 10^{-15} for the physical error rates of p = 10^{-3} and p = 3 \times 10^{-4}, respectively, hence, showing the promise of the proposed scheme for large-scale fault-tolerant quantum computing.
翻訳日:2023-07-31 14:12:50 公開日:2023-07-27
# サイバーいじめ調査のためのセキュアなオープンソースインテリジェンスフレームワーク

A Secure Open-Source Intelligence Framework For Cyberbullying Investigation ( http://arxiv.org/abs/2307.15225v1 )

ライセンス: Link先を確認
Sylvia Worlali Azumah, Victor Adewopo, Zag ElSayed(参考訳) 携帯電話の普及とインターネット利用が世界中の個人に影響を与えることから、サイバーいじめは広範にわたる問題となっている。 本稿では,Twitterのデータを用いてソーシャルメディアにおけるサイバーいじめに関連するキーワードを追跡し,法執行機関のダッシュボードを構築するためのオープンソースのインテリジェンスパイプラインを提案する。 我々は、ソーシャルメディアにおけるサイバーいじめの流行状況、個人がサイバーいじめに没頭させる要因、異なる国におけるサイバーいじめの法的意義について論じるとともに、サイバーいじめ事件の調査において法執行官が直面する方向性、資源、訓練、支援の欠如についても論じる。 サイバーいじめに対する介入は、親、法執行機関、ソーシャルメディアプラットフォーム、教育機関、教育者、研究者を含む様々な利害関係者による集団的な取り組みを含む。 私たちの研究は、サイバーいじめの枠組みを提供し、捜査員がサイバーいじめ、その戦術、パターンを追跡し識別するためのデジタルランドスケープの包括的なビューを提供します。 リアルタイム監視を備えたOSINTダッシュボードは、法執行機関が迅速に行動し、被害者を保護し、より安全なオンライン環境を構築するための大きな努力をすることができる。

Cyberbullying has become a pervasive issue based on the rise of cell phones and internet usage affecting individuals worldwide. This paper proposes an open-source intelligence pipeline using data from Twitter to track keywords relevant to cyberbullying in social media to build dashboards for law enforcement agents. We discuss the prevalence of cyberbullying on social media, factors that compel individuals to indulge in cyberbullying, and the legal implications of cyberbullying in different countries also highlight the lack of direction, resources, training, and support that law enforcement officers face in investigating cyberbullying cases. The proposed interventions for cyberbullying involve collective efforts from various stakeholders, including parents, law enforcement, social media platforms, educational institutions, educators, and researchers. Our research provides a framework for cyberbullying and provides a comprehensive view of the digital landscape for investigators to track and identify cyberbullies, their tactics, and patterns. An OSINT dashboard with real-time monitoring empowers law enforcement to swiftly take action, protect victims, and make significant strides toward creating a safer online environment.
翻訳日:2023-07-31 14:12:16 公開日:2023-07-27
# 何百もの手術ビデオ講義を視聴したマルチモーダル表現の学習

Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures ( http://arxiv.org/abs/2307.15220v1 )

ライセンス: Link先を確認
Kun Yuan, Vinkle Srivastav, Tong Yu, Joel Lavanchy, Pietro Mascagni, Nassir Navab, Nicolas Padoy(参考訳) 外科的コンピュータビジョン応用の最近の進歩は、主に視覚データのみを使用して、完全に監督された方法によって進められている。 これらの手法は、手動で注釈付けされた外科的ビデオを使って、固定された対象のカテゴリーを予測する。 本研究では,e-learningプラットフォームをオープンにすることで,手作業によるアノテーションを使わずに,マルチモーダル表現学習に効果的な監督信号を提供できる,という考え方を提示する。 本稿では,複数の補完的自動音声認識システムを用いてテキストの書き起こしを生成することで,外科的映像講義における手術特有の言語課題に対処する。 次に、多モーダル表現学習のための新しい方法、SurgVLP - Surgery Vision Language Pre-trainingを提案する。 SurgVLPは、ビデオクリップの埋め込みと対応する複数のテキストの埋め込みとを一致させるための、新しいコントラスト学習目標を構築する。 学習したジョイント潜在空間の表現能力を効果的に示すために,テキストベースのビデオ検索,時間的活動グラウンド,ビデオキャプションなど,手術のための視覚・言語タスクを評価ベンチマークとして導入した。 さらに,ラベル付き基底真理を用いなければ,手術器具,位相認識,三重項認識などの従来の視覚のみの手術下下流課題に応用できることを示した。 コードはhttps://github.com/CAMMA-public/SurgVLPで公開される。

Recent advancements in surgical computer vision applications have been driven by fully-supervised methods, primarily using only visual data. These methods rely on manually annotated surgical videos to predict a fixed set of object categories, limiting their generalizability to unseen surgical procedures and downstream tasks. In this work, we put forward the idea that the surgical video lectures available through open surgical e-learning platforms can provide effective supervisory signals for multi-modal representation learning without relying on manual annotations. We address the surgery-specific linguistic challenges present in surgical video lectures by employing multiple complementary automatic speech recognition systems to generate text transcriptions. We then present a novel method, SurgVLP - Surgical Vision Language Pre-training, for multi-modal representation learning. SurgVLP constructs a new contrastive learning objective to align video clip embeddings with the corresponding multiple text embeddings by bringing them together within a joint latent space. To effectively show the representation capability of the learned joint latent space, we introduce several vision-and-language tasks for surgery, such as text-based video retrieval, temporal activity grounding, and video captioning, as benchmarks for evaluation. We further demonstrate that without using any labeled ground truth, our approach can be employed for traditional vision-only surgical downstream tasks, such as surgical tool, phase, and triplet recognition. The code will be made available at https://github.com/CAMMA-public/SurgVLP
翻訳日:2023-07-31 14:11:55 公開日:2023-07-27
# reachability poorman discrete-bidding games(英語)

Reachability Poorman Discrete-Bidding Games ( http://arxiv.org/abs/2307.15218v1 )

ライセンス: Link先を確認
Guy Avni, Tobias Meggendorfer, Suman Sadhukhan, Josef Tkadlec and {\DJ}or{\dj}e \v{Z}ikeli\'c(参考訳) 2人のプレイヤーのゼロサム・グラフゲームのクラスである「em bidding games」を考える。 ゲームは以下の通り進行する。 両選手とも予算制限がある。 トークンはグラフの頂点に配置され、各ターンでプレイヤーが同時に入札を行い、上位の入札者がトークンを移動させ、そこでプレイヤー1に有利な入札関係を打ち破る。 プレイヤー1がゲームに勝利し、トークンが指定されたターゲット頂点を訪問する。 我々は、入札の粒度が制限され、より高い入札が銀行に支払われる、初めて、貧しい人による離散入札を考える。 以前の仕事は、粒度制限を課さないか、あるいは「em richman」入札を検討するかのどちらかであった(bidは相手に対して支払われる)。 後者のメカニズムは技術的にはよりアクセスしやすいが、前者は実用的な観点からより魅力的である。 本研究は,プレーヤ1が所定のプレーヤ2の予算に勝つために必要な,必要かつ十分な初期予算である,しきい値予算に焦点をあてる。 まず閾値の存在を示します。 DAGでは、しきい値の予算を連続バイディング下でのしきい値による誤差境界に近似し、周期的な振舞いを示す。 特殊ケースで閉形式解を同定する。 我々は,しきい値予算を求めるアルゴリズムを実装し,実験する。

We consider {\em bidding games}, a class of two-player zero-sum {\em graph games}. The game proceeds as follows. Both players have bounded budgets. A token is placed on a vertex of a graph, in each turn the players simultaneously submit bids, and the higher bidder moves the token, where we break bidding ties in favor of Player 1. Player 1 wins the game iff the token visits a designated target vertex. We consider, for the first time, {\em poorman discrete-bidding} in which the granularity of the bids is restricted and the higher bid is paid to the bank. Previous work either did not impose granularity restrictions or considered {\em Richman} bidding (bids are paid to the opponent). While the latter mechanisms are technically more accessible, the former is more appealing from a practical standpoint. Our study focuses on {\em threshold budgets}, which is the necessary and sufficient initial budget required for Player 1 to ensure winning against a given Player 2 budget. We first show existence of thresholds. In DAGs, we show that threshold budgets can be approximated with error bounds by thresholds under continuous-bidding and that they exhibit a periodic behavior. We identify closed-form solutions in special cases. We implement and experiment with an algorithm to find threshold budgets.
翻訳日:2023-07-31 14:11:32 公開日:2023-07-27
# 人間のフィードバックによる強化学習のオープン問題と基本的限界

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2307.15217v1 )

ライセンス: Link先を確認
Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, J\'er\'emy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Rapha\"el Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem B{\i}y{\i}k, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell(参考訳) 人間のフィードバックからの強化学習(RLHF)は、人間の目標に合わせるようにAIシステムを訓練する技術である。 RLHFは、最先端の大規模言語モデル(LLM)を微調整する中心的な手法として登場した。 この人気にもかかわらず、その欠陥を体系化する公共事業は比較的少ない。 本稿では,(1)RLHFとその関連手法のオープンな問題と基本的限界,(2)実際にRLHFを理解し,改善し,補完する技術,(3)RLHFシステムの社会的監視を改善するための監査・公開基準を提案する。 我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発における多面的アプローチの重要性を強調している。

Reinforcement learning from human feedback (RLHF) is a technique for training AI systems to align with human goals. RLHF has emerged as the central method used to finetune state-of-the-art large language models (LLMs). Despite this popularity, there has been relatively little public work systematizing its flaws. In this paper, we (1) survey open problems and fundamental limitations of RLHF and related methods; (2) overview techniques to understand, improve, and complement RLHF in practice; and (3) propose auditing and disclosure standards to improve societal oversight of RLHF systems. Our work emphasizes the limitations of RLHF and highlights the importance of a multi-faceted approach to the development of safer AI systems.
翻訳日:2023-07-31 14:11:11 公開日:2023-07-27
# PCA, SVD, およびデータ中心化

PCA, SVD, and Centering of Data ( http://arxiv.org/abs/2307.15213v1 )

ライセンス: Link先を確認
Donggun Kim, Kisung You(参考訳) 本稿では,データ次元の低減を目的とした統計学および機械学習における基礎的手法である主成分分析(PCA)を精査する。 Singular Value Decomposition (SVD) はしばしばPCAの計算の第一の手段として使用される。 本研究では,この批判的かつしばしば無視される,あるいは軽視されるデータ中心のステップの影響を詳細に調査する。 本研究は,集中型SVDと無中心型SVDの2つのPCA埋め込みを協調的に検討する。 この探索の一環として、第1特異ベクトルと平均方向の関係を解析し、この観測を中心行列と非中心行列の2つのSVDの合同性にリンクする。 さらに,スペクトル解析の観点から,svdによるpca実行の文脈における中心の欠如から生じる潜在的影響について検討する。 本研究は,PCAの計算に係わる微妙さの包括的理解と認識の重要性を強調した。 このように,本論文は,この基礎的統計手法の微妙な理解に重要な貢献をし,統計学の分野における学術文献の付加価値として評価されている。

The research detailed in this paper scrutinizes Principal Component Analysis (PCA), a seminal method employed in statistics and machine learning for the purpose of reducing data dimensionality. Singular Value Decomposition (SVD) is often employed as the primary means for computing PCA, a process that indispensably includes the step of centering - the subtraction of the mean location from the data set. In our study, we delve into a detailed exploration of the influence of this critical yet often ignored or downplayed data centering step. Our research meticulously investigates the conditions under which two PCA embeddings, one derived from SVD with centering and the other without, can be viewed as aligned. As part of this exploration, we analyze the relationship between the first singular vector and the mean direction, subsequently linking this observation to the congruity between two SVDs of centered and uncentered matrices. Furthermore, we explore the potential implications arising from the absence of centering in the context of performing PCA via SVD from a spectral analysis standpoint. Our investigation emphasizes the importance of a comprehensive understanding and acknowledgment of the subtleties involved in the computation of PCA. As such, we believe this paper offers a crucial contribution to the nuanced understanding of this foundational statistical method and stands as a valuable addition to the academic literature in the field of statistics.
翻訳日:2023-07-31 14:10:58 公開日:2023-07-27
# 医療イメージングのためのジェネレーティブAI:monAIフレームワークの拡張

Generative AI for Medical Imaging: extending the MONAI Framework ( http://arxiv.org/abs/2307.15208v1 )

ライセンス: Link先を確認
Walter H. L. Pinaya, Mark S. Graham, Eric Kerfoot, Petru-Daniel Tudosiu, Jessica Dafflon, Virginia Fernandez, Pedro Sanchez, Julia Wolleb, Pedro F. da Costa, Ashay Patel, Hyungjin Chung, Can Zhao, Wei Peng, Zelong Liu, Xueyan Mei, Oeslle Lucena, Jong Chul Ye, Sotirios A. Tsaftaris, Prerna Dogra, Andrew Feng, Marc Modat, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 生成AIの最近の進歩は、医療画像などいくつかの分野で驚くべきブレークスルーをもたらしている。 これらの生成モデルは、合成データセットを介して医療データを安全に共有するだけでなく、異常検出、画像から画像への変換、デノナイジング、MRI再構成など、さまざまな応用を行うためにも役立つ。 しかし、これらのモデルの複雑さのため、それらの実装と再現性は困難である。 この複雑さは進歩を妨げ、使用障壁として機能し、新しいメソッドと既存のメソッドの比較を無効にする。 本研究では,研究者や開発者が容易に生成モデルと関連アプリケーションを訓練,評価,デプロイできる,無償で利用可能なオープンソースプラットフォームであるmonai generative modelsを提案する。 我々のプラットフォームは、異なるアーキテクチャ(拡散モデル、自己回帰変換器、GANなど)を含む標準化された方法で最先端の研究を再現し、コミュニティのために事前訓練されたモデルを提供する。 我々は、これらのモデルを汎用的に実装し、その結果を2dまたは3dのシナリオに拡張できることを示し、異なるモード(ct、mri、x線データなど)と異なる解剖学的領域を含む医療画像を含む。 最後に、モジュール化された拡張可能なアプローチを採用し、長期の保守性と将来の機能に対する現在のアプリケーションの拡張を確保します。

Recent advances in generative AI have brought incredible breakthroughs in several areas, including medical imaging. These generative models have tremendous potential not only to help safely share medical data via synthetic datasets but also to perform an array of diverse applications, such as anomaly detection, image-to-image translation, denoising, and MRI reconstruction. However, due to the complexity of these models, their implementation and reproducibility can be difficult. This complexity can hinder progress, act as a use barrier, and dissuade the comparison of new methods with existing works. In this study, we present MONAI Generative Models, a freely available open-source platform that allows researchers and developers to easily train, evaluate, and deploy generative models and related applications. Our platform reproduces state-of-art studies in a standardised way involving different architectures (such as diffusion models, autoregressive transformers, and GANs), and provides pre-trained models for the community. We have implemented these models in a generalisable fashion, illustrating that their results can be extended to 2D or 3D scenarios, including medical images with different modalities (like CT, MRI, and X-Ray data) and from different anatomical areas. Finally, we adopt a modular and extensible approach, ensuring long-term maintainability and the extension of current applications for future features.
翻訳日:2023-07-31 14:10:36 公開日:2023-07-27
# 量子センシングのための複雑な3次元マイクロスケール構造

Complex 3-Dimensional Microscale Structures for Quantum Sensing Applications ( http://arxiv.org/abs/2307.15233v1 )

ライセンス: Link先を確認
Brian W. Blankenship, Zachary Jones, Naichen Zhao, Harpreet Singh, Adrisha Sarkar, Runxuan Li, Erin Suh, Alan Chen, Costas Grigoropoulos, Ashok Ajoy(参考訳) 二光子重合を用いた窒素空孔(NV)中心に基づく量子センサをホストする高度にカスタマイズ可能な3次元構造の作製法を提案する。 このアプローチは、従来の単一結晶量子センシングプラットフォームの構築に伴う課題を克服し、サブミクロスケールの解像度(400nmまで)と大きな視野(>1mm)を備えた複雑な3次元センサーアセンブリの作成を可能にする。 nv中心を含むナノ粒子を例示構造に組み込むことにより、マイクロスケールにおける温度と磁場の高感度光センシングを実証する。 本研究は、量子センサーと先進的な製造技術を統合する可能性を示し、既存のマイクロ流体・電子プラットフォームへのセンサの組み込みを促進し、量子センサーを様々な用途で広く利用するための新しい道を開く。

We present a novel method for fabricating highly customizable three-dimensional structures hosting quantum sensors based on Nitrogen Vacancy (NV) centers using two-photon polymerization. This approach overcomes challenges associated with structuring traditional single-crystal quantum sensing platforms and enables the creation of complex, fully three-dimensional, sensor assemblies with sub-microscale resolutions (down to 400 nm) and large fields of view (>1 mm). By embedding NV center-containing nanoparticles in exemplary structures, we demonstrate high sensitivity optical sensing of temperature and magnetic fields at the microscale. Our work showcases the potential for integrating quantum sensors with advanced manufacturing techniques, facilitating the incorporation of sensors into existing microfluidic and electronic platforms, and opening new avenues for widespread utilization of quantum sensors in various applications.
翻訳日:2023-07-31 14:01:28 公開日:2023-07-27
# セキュアアグリゲーションの確保 - フェデレートラーニングにおけるマルチロードプライバシリークの軽減

Securing Secure Aggregation: Mitigating Multi-Round Privacy Leakage in Federated Learning ( http://arxiv.org/abs/2106.03328v2 )

ライセンス: Link先を確認
Jinhyun So, Ramy E. Ali, Basak Guler, Jiantao Jiao, Salman Avestimehr(参考訳) セキュアアグリゲーションは、サーバがローカルモデルを観察せずにユーザのアグリゲーションモデルを学習できるようにする、連邦学習(FL)において重要なコンポーネントである。 従来、セキュアな集約アルゴリズムは、単一のトレーニングラウンドで個々のユーザのプライバシを確保することだけに重点を置いています。 このような設計は、FLの各ラウンドにおける部分的なユーザ選択/参加のために、複数のトレーニングラウンドで重大なプライバシリークを引き起こす可能性がある、と私たちは主張する。 実際、FLにおける従来のランダムなユーザ選択戦略は、ユーザ数に線形なラウンド数で、個々のモデルのリークにつながることを示す。 この課題に対処するために,複数ラウンドのプライバシー保証を備えたセキュアアグリゲーションフレームワークであるMulti-RoundSecAggを導入する。 特に,複数のトレーニングラウンドにおけるflのプライバシ保証を定量化する新しい指標を導入し,各ユーザの(任意のトレーニングラウンドで)長期的なプライバシを保証する構造化ユーザ選択戦略を開発した。 当社のフレームワークは、各ラウンドのフェアネスと参加ユーザの平均数についても慎重に説明しています。 IIDおよび非IID設定におけるMNISTおよびCIFAR-10データセットに関する実験は、プライバシー保護とテスト精度の両方の観点から、ベースラインに対する性能改善を示す。

Secure aggregation is a critical component in federated learning (FL), which enables the server to learn the aggregate model of the users without observing their local models. Conventionally, secure aggregation algorithms focus only on ensuring the privacy of individual users in a single training round. We contend that such designs can lead to significant privacy leakages over multiple training rounds, due to partial user selection/participation at each round of FL. In fact, we show that the conventional random user selection strategies in FL lead to leaking users' individual models within number of rounds that is linear in the number of users. To address this challenge, we introduce a secure aggregation framework, Multi-RoundSecAgg, with multi-round privacy guarantees. In particular, we introduce a new metric to quantify the privacy guarantees of FL over multiple training rounds, and develop a structured user selection strategy that guarantees the long-term privacy of each user (over any number of training rounds). Our framework also carefully accounts for the fairness and the average number of participating users at each round. Our experiments on MNIST and CIFAR-10 datasets in the IID and the non-IID settings demonstrate the performance improvement over the baselines, both in terms of privacy protection and test accuracy.
翻訳日:2023-07-28 21:09:49 公開日:2023-07-27
# 資源制約下における神経モジュールの特殊化のダイナミクス

Dynamics of specialization in neural modules under resource constraints ( http://arxiv.org/abs/2106.02626v2 )

ライセンス: Link先を確認
Gabriel B\'ena, Dan F. M. Goodman(参考訳) 脳は構造と機能の両方において高度にモジュール化されていると長い間信じられてきたが、最近の証拠は両方のモジュラリティの程度に疑問を呈している。 私たちは、構造的モジュラリティが機能的な特殊化を保証するのに十分であるという仮説をテストするために、人工ニューラルネットワークを使用しました。 次に,環境とネットワークのどの特徴が特殊化の出現に繋がるかを体系的にテストした。 我々は,簡単な玩具環境,タスク,ネットワークを用いて,精密な制御を可能にし,この設定では,いくつかの異なる特殊化尺度が質的に類似した結果をもたらすことを示す。 さらに,(1) 環境の特徴が有意に分離可能な環境でのみ特殊化が実現可能であること,(2) ネットワークのリソース制約が強い場合に優先的に特殊化が生じること,(3) それらの発見は異なるネットワークアーキテクチャ間で質的に類似しているが,量的関係はアーキテクチャタイプに依存している。 最後に,機能的特殊化は時間ごとに動的に変化し,そのダイナミクスがネットワーク内の情報フローのタイミングと帯域に依存することを示した。 我々は、構造的モジュラリティに基づく特殊化の静的概念は、実世界の複雑さの状況においてインテリジェントなシステムを理解するためのフレームワークがあまりにも単純すぎると結論づける。 より複雑なデータ、ネットワークモデル、電気生理学的記録に拡張する前に、単純化されたシナリオで機能的モジュラリティの候補を徹底的にテストすることを提案することは、実りあるアプローチである可能性が高い。

It has long been believed that the brain is highly modular both in terms of structure and function, although recent evidence has led some to question the extent of both types of modularity. We used artificial neural networks to test the hypothesis that structural modularity is sufficient to guarantee functional specialization, and find that in general, this doesn't necessarily hold except at extreme levels. We then systematically tested which features of the environment and network do lead to the emergence of specialization. We used a simple toy environment, task and network, allowing us precise control, and show that in this setup, several distinct measures of specialization give qualitatively similar results. We further find that (1) specialization can only emerge in environments where features of that environment are meaningfully separable, (2) specialization preferentially emerges when the network is strongly resource-constrained, and (3) these findings are qualitatively similar across different network architectures, but the quantitative relationships depends on the architecture type. Finally, we show that functional specialization varies dynamically across time, and demonstrate that these dynamics depend on both the timing and bandwidth of information flow in the network. We conclude that a static notion of specialization, based on structural modularity, is likely too simple a framework for understanding intelligent systems in situations of real-world complexity. We propose that thoroughly stress testing candidate definitions of functional modularity in simplified scenarios before extending to more complex data, network models and electrophysiological recordings is likely to be a fruitful approach.
翻訳日:2023-07-28 21:09:26 公開日:2023-07-27
# DanceFormer:パラメトリックモーショントランスを用いた音楽調和型3Dダンス生成

DanceFormer: Music Conditioned 3D Dance Generation with Parametric Motion Transformer ( http://arxiv.org/abs/2103.10206v5 )

ライセンス: Link先を確認
Buyu Li, Yongchi Zhao, Zhelun Shi, Lu Sheng(参考訳) 音楽から3dダンスを生成することは、視覚とグラフィックの多くの応用に役立つ、出現した研究課題である。 以前の作品では、このタスクをシーケンス生成として扱っていたが、高いキネマティックな複雑さとコヒーレントな動きを持つ音楽指向の長期的なシーケンスをレンダリングすることは困難である。 本稿では,2段階のプロセス,すなわちキーポーズ生成,それから2段階のパラメトリック動作曲線予測によって,キーポーズが音楽のビートと同期しやすくなり,パラメトリック曲線を効率よく回帰し,流速リズムに沿った動きを描画する。 そこで我々は,提案手法をDanceFormerと命名し,各ステージに対応する2つのカスケーディングキネマティクス付きトランスフォーマー誘導ネットワーク(DanTrans)を含む。 さらに,大規模な音楽条件付3dダンスデータセットであるphantomdanceを提案し,リコンストラクションやモーションキャプチャではなく,経験豊富なアニメーターによって正確にラベル付けされる。 このデータセットは、ポーズシーケンスとは別に、キーポーズとパラメトリックモーションカーブとしてダンスをエンコードするので、DanceFormerのトレーニングに役立ちます。 大規模な実験により,提案手法は既存のデータセットで訓練されてさえも,従来の作品を定量的かつ質的に超越した,流動的で演奏性の高い3Dダンスを生成できることが実証された。 さらに、提案されたDanceFormerはPhantomDanceデータセット(https://github.com/libuyu/PhantomDanceDataset)とともに産業アニメーションソフトウェアとシームレスに互換性があり、様々な下流アプリケーションへの適応を容易にする。

Generating 3D dances from music is an emerged research task that benefits a lot of applications in vision and graphics. Previous works treat this task as sequence generation, however, it is challenging to render a music-aligned long-term sequence with high kinematic complexity and coherent movements. In this paper, we reformulate it by a two-stage process, ie, a key pose generation and then an in-between parametric motion curve prediction, where the key poses are easier to be synchronized with the music beats and the parametric curves can be efficiently regressed to render fluent rhythm-aligned movements. We named the proposed method as DanceFormer, which includes two cascading kinematics-enhanced transformer-guided networks (called DanTrans) that tackle each stage, respectively. Furthermore, we propose a large-scale music conditioned 3D dance dataset, called PhantomDance, that is accurately labeled by experienced animators rather than reconstruction or motion capture. This dataset also encodes dances as key poses and parametric motion curves apart from pose sequences, thus benefiting the training of our DanceFormer. Extensive experiments demonstrate that the proposed method, even trained by existing datasets, can generate fluent, performative, and music-matched 3D dances that surpass previous works quantitatively and qualitatively. Moreover, the proposed DanceFormer, together with the PhantomDance dataset (https://github.com/libuyu/PhantomDanceDataset), are seamlessly compatible with industrial animation software, thus facilitating the adaptation for various downstream applications.
翻訳日:2023-07-28 21:08:58 公開日:2023-07-27
# 動的共変量バランス-局所射影による時間的治療効果の推定

Dynamic covariate balancing: estimating treatment effects over time with potential local projections ( http://arxiv.org/abs/2103.01280v3 )

ライセンス: Link先を確認
Davide Viviano, Jelena Bradic(参考訳) 本稿では,治療が時間とともに動的に変化する場合のパネルデータ設定における治療履歴の推定と推定について検討する。 我々は許容できる方法を提案する。 一 高次元共変量、過去の成果及び治療に基づいて、時間とともに動的に割り当てられる治療 二 治療の軌跡に依存する結果及び時間変化の共変体 (iii)治療効果の多様性。 我々のアプローチは、過去の歴史に対する潜在的な成果の期待を再帰的に予測する。 その後、動的に観測可能な特性のバランスをとることでバイアスを制御する。 推定器の漸近的および数値的特性について検討し,その利点を経験的応用で説明する。

This paper studies the estimation and inference of treatment histories in panel data settings when treatments change dynamically over time. We propose a method that allows for (i) treatments to be assigned dynamically over time based on high-dimensional covariates, past outcomes and treatments; (ii) outcomes and time-varying covariates to depend on treatment trajectories; (iii) heterogeneity of treatment effects. Our approach recursively projects potential outcomes' expectations on past histories. It then controls the bias by balancing dynamically observable characteristics. We study the asymptotic and numerical properties of the estimator and illustrate the benefits of the procedure in an empirical application.
翻訳日:2023-07-28 21:08:23 公開日:2023-07-27
# アクロボットの強化学習に基づく制御に関する実験的研究

Experimental Study on Reinforcement Learning-based Control of an Acrobot ( http://arxiv.org/abs/2011.09246v2 )

ライセンス: Link先を確認
Leo Dostal, Alexej Bespalko, and Daniel A. Duecker(参考訳) 本稿では,人工知能(ai)が強化学習(rl)を用いて交流ロボットを制御する方法に関する計算および実験結果を示す。 このように、実験的なセットアップは、ロボット工学およびエネルギー収穫アプリケーションに興味のある組み込みシステムとして設計される。 具体的には、交流ロボットの角速度の制御と、運動量とポテンシャルエネルギーの合計である全エネルギーの制御について研究する。 すなわち、RLアルゴリズムは、アクロボットの第1振り子の角速度またはエネルギーを所望の値に駆動するように設計されている。 これにより、acrobotのunctuated pendulumのリブレーションまたは完全な回転が達成される。 さらに、アクロボット制御の研究を行い、状態空間の離散化、エピソード長、動作空間、または駆動振子の質量がRL制御に与える影響について考察する。 さらに多くのシミュレーションと実験により、パラメータ変動の影響が評価される。

We present computational and experimental results on how artificial intelligence (AI) learns to control an Acrobot using reinforcement learning (RL). Thereby the experimental setup is designed as an embedded system, which is of interest for robotics and energy harvesting applications. Specifically, we study the control of angular velocity of the Acrobot, as well as control of its total energy, which is the sum of the kinetic and the potential energy. By this means the RL algorithm is designed to drive the angular velocity or the energy of the first pendulum of the Acrobot towards a desired value. With this, libration or full rotation of the unactuated pendulum of the Acrobot is achieved. Moreover, investigations of the Acrobot control are carried out, which lead to insights about the influence of the state space discretization, the episode length, the action space or the mass of the driven pendulum on the RL control. By further numerous simulations and experiments the effects of parameter variations are evaluated.
翻訳日:2023-07-28 21:08:14 公開日:2023-07-27
# 深層学習の規制に向けて

Towards Regulated Deep Learning ( http://arxiv.org/abs/1912.13122v7 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Camino(参考訳) マルチエージェントシステム(mas)と宣言型電子機関(deis)の規制は、(物理的およびソフトウェア)エージェントと法に関する過去10年間の多分野にわたる研究テーマであったが、最近は2016年以来、ニュースを流用するロボット弁護士へと進化した。 ソフトウェアエージェントの行動を制限する最初の提案の1つは電子機関であったが、近年のディープラーニング(dl)としての人工ニューラルネットワーク(anns)の改革により、dlの使用に関するセキュリティ、プライバシ、倫理、法的な問題により、人工知能(ai)コミュニティの懸念が高まっている。 現在、MASの規制はほぼ正しく対処されているため、我々はInstitutional Neural Network (INN)と呼ぶ特殊なタイプの制御ニューラルネットワークのエージェントベーストレーニングとして、ニューラルネットワークの規制を提案する。 本研究の目的は,人工学習(AT)に注意を向けることであり,Regulated Deep Learning(RDL)の概念実証実装を示す仮の回答を与えることである。 本稿では,前者の概念を紹介し,これまで宣言的にモデル化し,電子施設を拡張するために用いられてきた言語である$I^*$について,人工ニューラルネットワークの実行と人工教師との相互作用を規制する手段として紹介する。

Regulation of Multi-Agent Systems (MAS) and Declarative Electronic Institutions (DEIs) was a multidisciplinary research topic of the past decade involving (Physical and Software) Agents and Law since the beginning, but recently evolved towards News-claimed Robot Lawyer since 2016. One of these first proposals of restricting the behaviour of Software Agents was Electronic Institutions.However, with the recent reformulation of Artificial Neural Networks (ANNs) as Deep Learning (DL), Security, Privacy,Ethical and Legal issues regarding the use of DL has raised concerns in the Artificial Intelligence (AI) Community. Now that the Regulation of MAS is almost correctly addressed, we propose the Regulation of Artificial Neural Networks as Agent-based Training of a special type of regulated Artificial Neural Network that we call Institutional Neural Network (INN).The main purpose of this paper is to bring attention to Artificial Teaching (AT) and to give a tentative answer showing a proof-of-concept implementation of Regulated Deep Learning (RDL). This paper introduces the former concept and provide $I^*$, a language previously used to model declaratively and extend Electronic Institutions, as a means to regulate the execution of Artificial Neural Networks and their interactions with Artificial Teachers (ATs)
翻訳日:2023-07-28 21:07:27 公開日:2023-07-27
# 部分閉塞が歩行者検出性に及ぼす影響

The Impact of Partial Occlusion on Pedestrian Detectability ( http://arxiv.org/abs/2205.04812v6 )

ライセンス: Link先を確認
Shane Gilroy, Darragh Mullins, Edward Jones, Ashkan Parsi and Martin Glavin(参考訳) 脆弱な道路利用者のロバスト検出は、自動運転車を異種交通に配備するための安全上重要な要件である。 最も複雑な課題の1つは、対象の物体が、他の前景の物体の障害物によって、センサーに部分的にしか利用できない部分閉塞である。 多くの主要な歩行者検出ベンチマークは部分閉塞に対するアノテーションを提供しているが、それぞれのベンチマークは閉塞の発生と重症度の定義で大きく異なる。 近年の研究では、これらの症例では高い主観性が咬合レベルを分類するために用いられており、咬合は部分的および重閉塞などの2~3つの広いカテゴリに分類される。 これにより、どのベンチマークが使われているかによって、歩行者検出モデルのパフォーマンスが不正確または矛盾していることを報告できる。 本研究は, 歩行者検出モデルの客観的評価を容易にするため, 部分閉塞歩行者検出のための新しい客観的ベンチマークを提案する。 提案手法の有効性と解析能力の向上を実証するため,0~99%の閉塞レベルに対する7つの一般的な歩行者検出モデルを用いて評価を行った。 その結果, 歩行者検出性能は低下し, 歩行者咬合レベルが上昇するにつれて偽陰性検出数が増加することがわかった。 人気の高い歩行者検出ルーチン7つのうち、CenterNetは、SSDliteに続いて、全体的なパフォーマンスが最も高い。 RetinaNetの全体的な検出性能は、オクルージョンレベルの範囲で最低である。

Robust detection of vulnerable road users is a safety critical requirement for the deployment of autonomous vehicles in heterogeneous traffic. One of the most complex outstanding challenges is that of partial occlusion where a target object is only partially available to the sensor due to obstruction by another foreground object. A number of leading pedestrian detection benchmarks provide annotation for partial occlusion, however each benchmark varies greatly in their definition of the occurrence and severity of occlusion. Recent research demonstrates that a high degree of subjectivity is used to classify occlusion level in these cases and occlusion is typically categorized into 2 to 3 broad categories such as partially and heavily occluded. This can lead to inaccurate or inconsistent reporting of pedestrian detection model performance depending on which benchmark is used. This research introduces a novel, objective benchmark for partially occluded pedestrian detection to facilitate the objective characterization of pedestrian detection models. Characterization is carried out on seven popular pedestrian detection models for a range of occlusion levels from 0-99%, in order to demonstrate the efficacy and increased analysis capabilities of the proposed characterization method. Results demonstrate that pedestrian detection performance degrades, and the number of false negative detections increase as pedestrian occlusion level increases. Of the seven popular pedestrian detection routines characterized, CenterNet has the greatest overall performance, followed by SSDlite. RetinaNet has the lowest overall detection performance across the range of occlusion levels.
翻訳日:2023-07-28 21:01:20 公開日:2023-07-27
# COVID-19は人体移動の時空間次元の変化と関連している

COVID-19 is linked to changes in the time-space dimension of human mobility ( http://arxiv.org/abs/2201.06527v3 )

ライセンス: Link先を確認
Clodomir Santana, Federico Botta, Hugo Barbosa, Filippo Privitera, Ronaldo Menezes and Riccardo Di Clemente(参考訳) 社会経済構造と都市トポロジーは、人間の移動パターンの重要な要因である。 2019年の新型コロナウイルスのパンデミックで、これらのパターンは、毎日の旅行距離で表される空間次元と通勤の同期時間として表される時間次元に書き換えられた。 本研究では,非特定携帯電話ユーザからの位置情報データを活用することで,ロックダウン時の空間移動性の低下と非同期モビリティのダイナミクスの出現が相互に作用することを確認した。 都市移動における制限の解除は、時間的よりも空間的次元の回復を早めることができた。 また,都市化レベルや経済階層によって移動の回復度が異なっていた。 農村部や低所得地域では、都市部や高所得層に比べて空間移動度が著しく低下した。 対照的に,都市化地域や高所得地域では,農村地域や低所得地域よりも時間次元の影響が大きかった。

Socio-economic constructs and urban topology are crucial drivers of human mobility patterns. During the coronavirus disease 2019 pandemic, these patterns were reshaped in their components: the spatial dimension represented by the daily travelled distance, and the temporal dimension expressed as the synchronization time of commuting routines. Here, leveraging location-based data from de-identified mobile phone users, we observed that, during lockdowns restrictions, the decrease of spatial mobility is interwoven with the emergence of asynchronous mobility dynamics. The lifting of restriction in urban mobility allowed a faster recovery of the spatial dimension compared with the temporal one. Moreover, the recovery in mobility was different depending on urbanization levels and economic stratification. In rural and low-income areas, the spatial mobility dimension suffered a more considerable disruption when compared with urbanized and high-income areas. In contrast, the temporal dimension was more affected in urbanized and high-income areas than in rural and low-income areas.
翻訳日:2023-07-28 21:01:01 公開日:2023-07-27
# コミュニティ検出によるグラフベース推薦システム

Graph-Based Recommendation System Enhanced with Community Detection ( http://arxiv.org/abs/2201.03622v3 )

ライセンス: Link先を確認
Zeinab Shokrzadeh, Mohammad-Reza Feizi-Derakhshi, Mohammad-Ali Balafar, Jamshid Bagherzadeh-Mohasefi(参考訳) 多くの研究者がレコメンデーションシステムにおけるレコメンデーション手法の性能向上にタグ情報を使用している。 ユーザーのタグを調べることは、興味を得るのに役立ち、レコメンデーションでより正確になる。 ユーザ定義タグは自由かつ制限なく選択されるため、タグの正確な意味と類似性を決定する際に問題が発生する。 しかし、ユーザが自由に定義し、多くのデータセットで異なる言語を使用するため、シソーラスとオントロジーを使ってタグの意味を見つけることは、あまり効率的ではない。 そこで,本論文では,語彙的類似性を決定する数学的および統計的手法と,意味的類似性を割り当てる共起タグの解を用いる。 一方,利用者の興味の変化により,タグの類似性を決定するための共起タグにおけるタグ割り当ての時間について考察した。 次に、タグの類似性に基づいてグラフを作成する。 ユーザの興味をモデル化するために,コミュニティ検出手法を用いてタグのコミュニティを決定する。 そのため、タグのコミュニティとリソース間の類似性に基づいたレコメンデーションが行われる。 提案手法の性能は,2つの公開データセットに対する評価による精度とリコールの2つの基準を用いて評価されている。 評価の結果,提案手法の精度と再現性は,他の手法と比較して有意に向上した。 実験結果によると, 平均して5%, 7%の精度でリコール基準と精度が改善した。

Many researchers have used tag information to improve the performance of recommendation techniques in recommender systems. Examining the tags of users will help to get their interests and leads to more accuracy in the recommendations. Since user-defined tags are chosen freely and without any restrictions, problems arise in determining their exact meaning and the similarity of tags. However, using thesaurus and ontologies to find the meaning of tags is not very efficient due to their free definition by users and the use of different languages in many data sets. Therefore, this article uses mathematical and statistical methods to determine lexical similarity and co-occurrence tags solution to assign semantic similarity. On the other hand, due to the change of users' interests over time this article has considered the time of tag assignments in co-occurrence tags for determining similarity of tags. Then the graph is created based on similarity of tags. For modeling the interests of the users, the communities of tags are determined by using community detection methods. So, recommendations based on the communities of tags and similarity between resources are done. The performance of the proposed method has been evaluated using two criteria of precision and recall through evaluations on two public datasets. The evaluation results show that the precision and recall of the proposed method have significantly improved, compared to the other methods. According to the experimental results, the criteria of recall and precision have been improved, on average by 5% and 7% respectively.
翻訳日:2023-07-28 21:00:41 公開日:2023-07-27
# RELDEC: 正規長LDPC符号の強化学習に基づく復号化

RELDEC: Reinforcement Learning-Based Decoding of Moderate Length LDPC Codes ( http://arxiv.org/abs/2112.13934v3 )

ライセンス: Link先を確認
Salman Habib, Allison Beemer, and Joerg Kliewer(参考訳) 本研究では,中等長低密度パリティチェック(LDPC)符号の逐次復号化手法であるRELDECを提案する。 RELDECの背景にある主要な考え方は、マルコフ決定プロセス(MDP)に基づいた強化学習によって最適化された復号法が得られたことである。 エージェントがひとつのグループ(クラスタ)内の1つのチェックノード(cn)だけをスケジュールすることを学ぶ以前の作業とは対照的に、この作業では、エージェントにクラスタ内のすべてのcnと、イテレーション毎にすべてのクラスタをスケジュールするようにトレーニングします。 すなわち、RELDECの各学習ステップにおいて、エージェントは特定のクラスタのスケジューリング結果に関連する報酬に応じて、CNクラスタを順次スケジュールすることを学ぶ。 また、MPPの状態空間の表現も変更し、RELDECが以前の研究よりも大きなブロック長LDPC符号に適合できるようにした。 さらに,様々なチャネル条件下での復号化に対処するために,メタ強化学習を用いたアジャイルメタRELDEC(AM-RELDEC)を提案する。 提案したRELDEC方式は,5G新無線用に設計されたコードを含む様々なLDPC符号に対して,標準的なフラッディングとランダムなシーケンシャルデコーディングを著しく上回っている。

In this work we propose RELDEC, a novel approach for sequential decoding of moderate length low-density parity-check (LDPC) codes. The main idea behind RELDEC is that an optimized decoding policy is subsequently obtained via reinforcement learning based on a Markov decision process (MDP). In contrast to our previous work, where an agent learns to schedule only a single check node (CN) within a group (cluster) of CNs per iteration, in this work we train the agent to schedule all CNs in a cluster, and all clusters in every iteration. That is, in each learning step of RELDEC an agent learns to schedule CN clusters sequentially depending on a reward associated with the outcome of scheduling a particular cluster. We also modify the state space representation of the MDP, enabling RELDEC to be suitable for larger block length LDPC codes than those studied in our previous work. Furthermore, to address decoding under varying channel conditions, we propose agile meta-RELDEC (AM-RELDEC) that employs meta-reinforcement learning. The proposed RELDEC scheme significantly outperforms standard flooding and random sequential decoding for a variety of LDPC codes, including codes designed for 5G new radio.
翻訳日:2023-07-28 21:00:21 公開日:2023-07-27
# 確率的最適停止問題の量子アルゴリズムとファイナンスへの応用

Quantum algorithm for stochastic optimal stopping problems with applications in finance ( http://arxiv.org/abs/2111.15332v4 )

ライセンス: Link先を確認
Jo\~ao F. Doriguello, Alessandro Luongo, Jinge Bao, Patrick Rebentrost, Miklos Santha(参考訳) 有名な最小二乗モンテカルロ(LSM)アルゴリズムは、線形最小二乗回帰とモンテカルロシミュレーションを組み合わせることで、確率的最適停止理論の問題を解決する。 本研究では,確率過程への量子アクセス,最適停止時間計算のための量子回路,モンテカルロの量子技術に基づく量子LSMを提案する。 このアルゴリズムについて,モンテカルロにおける関数近似と量子アルゴリズムの複雑な相互作用を解明する。 提案アルゴリズムは,軽度仮定下でのLSMアルゴリズムと比較して,実行時のほぼ2次高速化を実現する。 具体的には、我々の量子アルゴリズムをアメリカのオプション価格に適用し、ブラウン運動と幾何学的ブラウン運動の共通状況に関するケーススタディを分析する。

The famous least squares Monte Carlo (LSM) algorithm combines linear least square regression with Monte Carlo simulation to approximately solve problems in stochastic optimal stopping theory. In this work, we propose a quantum LSM based on quantum access to a stochastic process, on quantum circuits for computing the optimal stopping times, and on quantum techniques for Monte Carlo. For this algorithm, we elucidate the intricate interplay of function approximation and quantum algorithms for Monte Carlo. Our algorithm achieves a nearly quadratic speedup in the runtime compared to the LSM algorithm under some mild assumptions. Specifically, our quantum algorithm can be applied to American option pricing and we analyze a case study for the common situation of Brownian motion and geometric Brownian motion processes.
翻訳日:2023-07-28 20:59:56 公開日:2023-07-27
# 低ランク量子状態準備

Low-rank quantum state preparation ( http://arxiv.org/abs/2111.03132v3 )

ライセンス: Link先を確認
Israel F. Araujo, Carsten Blank, Ismael C. S. Ara\'ujo, Adenilton J. da Silva(参考訳) 量子コンピューティングにおけるユビキタスは、データを量子状態にエンコードするステップである。 この過程は量子状態準備と呼ばれ、非構造化データの複雑さは量子ビット数で指数関数的である。 いくつかの研究は、例えば、固定深度回路を管理可能な複雑さで訓練する変分法を用いてこの問題に対処している。 これらの方法は、バックプロパゲーション技術や不毛高原がないため、その限界がある。 本研究は,計算複雑性を古典コンピュータにオフロードすることで,状態準備回路の深さを削減するアルゴリズムを提案する。 初期化量子状態は正確あるいは近似であり、近似は元の状態の初期化よりも今日の量子プロセッサの方が優れていることを示す。 実験により,提案手法は量子状態における確率分布のより効率的な初期化を可能にすることを示す。

Ubiquitous in quantum computing is the step to encode data into a quantum state. This process is called quantum state preparation, and its complexity for non-structured data is exponential on the number of qubits. Several works address this problem, for instance, by using variational methods that train a fixed depth circuit with manageable complexity. These methods have their limitations, as the lack of a back-propagation technique and barren plateaus. This work proposes an algorithm to reduce state preparation circuit depth by offloading computational complexity to a classical computer. The initialized quantum state can be exact or an approximation, and we show that the approximation is better on today's quantum processors than the initialization of the original state. Experimental evaluation demonstrates that the proposed method enables more efficient initialization of probability distributions in a quantum state.
翻訳日:2023-07-28 20:59:44 公開日:2023-07-27
# アウト・オブ・ディストリビューション・ジェネライゼーションに向けて--調査

Towards Out-Of-Distribution Generalization: A Survey ( http://arxiv.org/abs/2108.13624v2 )

ライセンス: Link先を確認
Jiashuo Liu, Zheyan Shen, Yue He, Xingxuan Zhang, Renzhe Xu, Han Yu, Peng Cui(参考訳) 従来の機械学習のパラダイムは、トレーニングデータとテストデータの両方が同じ統計パターンに従うという仮定に基づいている。 しかし、現実のアプリケーションでは、この$i.i.d.$の仮定はしばしば予期せぬ分布の変化のために保持できず、デプロイ時のモデル性能が大幅に低下する。 この観測された不一致は、アウト・オブ・ディストリビューション(ood)一般化問題を調査することの意義を示している。 OOD一般化は、テストデータの分布がトレーニングデータとは異なる複雑なシナリオに焦点を当てた機械学習研究の新たなトピックである。 本稿では,OODの一般化を包括的かつ体系的に検討し,問題定義,方法論開発,評価手順から分野の意義と今後の方向性まで,様々な側面を包括的に考察する。 我々の議論は、OOD一般化問題の正確で正式な特徴付けから始まる。 次に,既存の方法論を,教師なし表現学習,教師なしモデル学習,最適化の3つのセグメントに分類する。 我々は,各カテゴリの代表的方法論に関する詳細な議論を行い,それらの理論的な関連を明らかにする。 続いて、OOD一般化研究で使われる一般的なベンチマークデータセットについて概説する。 結論として,本領域における既存の研究成果を概説するとともに,OODの一般化に関する今後の研究への道のりを提案する。 本稿では,OOD一般化手法の概要をhttp://out-of-distriion- generalization.comで紹介する。

Traditional machine learning paradigms are based on the assumption that both training and test data follow the same statistical pattern, which is mathematically referred to as Independent and Identically Distributed ($i.i.d.$). However, in real-world applications, this $i.i.d.$ assumption often fails to hold due to unforeseen distributional shifts, leading to considerable degradation in model performance upon deployment. This observed discrepancy indicates the significance of investigating the Out-of-Distribution (OOD) generalization problem. OOD generalization is an emerging topic of machine learning research that focuses on complex scenarios wherein the distributions of the test data differ from those of the training data. This paper represents the first comprehensive, systematic review of OOD generalization, encompassing a spectrum of aspects from problem definition, methodological development, and evaluation procedures, to the implications and future directions of the field. Our discussion begins with a precise, formal characterization of the OOD generalization problem. Following that, we categorize existing methodologies into three segments: unsupervised representation learning, supervised model learning, and optimization, according to their positions within the overarching learning process. We provide an in-depth discussion on representative methodologies for each category, further elucidating the theoretical links between them. Subsequently, we outline the prevailing benchmark datasets employed in OOD generalization studies. To conclude, we overview the existing body of work in this domain and suggest potential avenues for future research on OOD generalization. A summary of the OOD generalization methodologies surveyed in this paper can be accessed at http://out-of-distribution-generalization.com.
翻訳日:2023-07-28 20:59:31 公開日:2023-07-27
# 変圧器ヘッドの可変サブセットプルーニング

Differentiable Subset Pruning of Transformer Heads ( http://arxiv.org/abs/2108.04657v3 )

ライセンス: Link先を確認
Jiaoda Li, Ryan Cotterell, Mrinmaya Sachan(参考訳) マルチヘッドアテンション(Multi-head attention)は、入力の異なる部分に独立して関与するいくつかのアテンションメカニズムの集合である。 しかし、近年の研究では、トランスフォーマーのマルチヘッドアテンション機構におけるヘッドの大部分が、モデルの性能を著しく損なうことなく安全にプルーピングできることが示されている。 我々の研究は、微分可能なサブセットプルーニングと呼ばれる新しいヘッドプルーニング技術を導入している。 直観的には頭毎重要度変数を学習し、ユーザが指定した頭数に対するハード制約を強制する。 重要性変数は確率勾配降下によって学習される。 我々は、自然言語の推論と機械翻訳の実験を行い、微分可能なサブセットプルーニングは、疎度レベルを正確に制御しながら、従来の作業と同等かそれ以上に実行可能であることを示す。

Multi-head attention, a collection of several attention mechanisms that independently attend to different parts of the input, is the key ingredient in the Transformer. Recent work has shown, however, that a large proportion of the heads in a Transformer's multi-head attention mechanism can be safely pruned away without significantly harming the performance of the model; such pruning leads to models that are noticeably smaller and faster in practice. Our work introduces a new head pruning technique that we term differentiable subset pruning. Intuitively, our method learns per-head importance variables and then enforces a user-specified hard constraint on the number of unpruned heads. The importance variables are learned via stochastic gradient descent. We conduct experiments on natural language inference and machine translation; we show that differentiable subset pruning performs comparably or better than previous works while offering precise control of the sparsity level.
翻訳日:2023-07-28 20:59:05 公開日:2023-07-27
# リジェクトオプションによる機械学習: 調査

Machine Learning with a Reject Option: A survey ( http://arxiv.org/abs/2107.11277v2 )

ライセンス: Link先を確認
Kilian Hendrickx, Lorenzo Perini, Dries Van der Plas, Wannes Meert, Jesse Davis(参考訳) 機械学習モデルは、不正確になりやすい場合でも、常に予測を行う。 この振る舞いは、多くの意思決定支援アプリケーションで避けるべきであり、ミスが深刻な結果をもたらす可能性がある。 1970年にはすでに勉強していたが、最近は拒絶を伴う機械学習が関心を集めている。 この機械学習サブフィールドにより、機械学習モデルは、間違いを犯す可能性のある予測を控えることができる。 この調査は、拒絶を伴う機械学習の概要を提供することを目的としている。 我々は,2種類の拒絶,曖昧さ,新規性拒絶につながる条件を導入し,慎重に定式化する。 さらに,モデルの予測的かつ拒絶的品質を評価するための戦略をレビューし,分類する。 さらに、拒絶を伴うモデルに対する既存のアーキテクチャを定義し、そのようなモデルを学ぶための標準技術を記述する。 最後に、関連するアプリケーションドメインの例を示し、機械学習が他の機械学習研究領域とどのように関係しているかを示す。

Machine learning models always make a prediction, even when it is likely to be inaccurate. This behavior should be avoided in many decision support applications, where mistakes can have severe consequences. Albeit already studied in 1970, machine learning with rejection recently gained interest. This machine learning subfield enables machine learning models to abstain from making a prediction when likely to make a mistake. This survey aims to provide an overview on machine learning with rejection. We introduce the conditions leading to two types of rejection, ambiguity and novelty rejection, which we carefully formalize. Moreover, we review and categorize strategies to evaluate a model's predictive and rejective quality. Additionally, we define the existing architectures for models with rejection and describe the standard techniques for learning such models. Finally, we provide examples of relevant application domains and show how machine learning with rejection relates to other machine learning research areas.
翻訳日:2023-07-28 20:58:46 公開日:2023-07-27
# すべての領域の裏側にシフトがある:パノラマ意味セグメンテーションのための歪み認識視覚トランスフォーマーの適用

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2207.11860v3 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Hao Shi, Simon Rei{\ss}, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen(参考訳) 本稿では, パノラマ画像における画像歪みと物体変形, 2)360度画像における意味アノテーションの欠如という2つの重要な課題により, 未探索のパノラマ意味セグメンテーションに対処する。 まず,パノラマ意味セグメンテーションのための改良版,すなわち,dpe(deformable patch embedded)とdmlpv2モジュールを備えたtrans4pass+を提案する。 第2に,非教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル整流による相互型適応(mpa)戦略を強化する。 第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を持つ新しいデータセット(SynPASS)を作成し、360度画像におけるSynthetic-to-Real(Syn2Real)適応スキームを容易にする。 室内および屋外のシナリオをカバーする広範な実験を行い,各シナリオをpin2panおよびsyn2real regimensを用いて検討した。 Trans4PASS+は4つのドメイン適応型パノラマセマンティックセマンティックセマンティックベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/jamycheung/trans4passで入手できる。

In this paper, we address panoramic semantic segmentation which is under-explored due to two critical challenges: (1) image distortions and object deformations on panoramas; (2) lack of semantic annotations in the 360-degree imagery. To tackle these problems, first, we propose the upgraded Transformer for Panoramic Semantic Segmentation, i.e., Trans4PASS+, equipped with Deformable Patch Embedding (DPE) and Deformable MLP (DMLPv2) modules for handling object deformations and image distortions whenever (before or after adaptation) and wherever (shallow or deep levels). Second, we enhance the Mutual Prototypical Adaptation (MPA) strategy via pseudo-label rectification for unsupervised domain adaptive panoramic segmentation. Third, aside from Pinhole-to-Panoramic (Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic images, facilitating Synthetic-to-Real (Syn2Real) adaptation scheme in 360-degree imagery. Extensive experiments are conducted, which cover indoor and outdoor scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens. Trans4PASS+ achieves state-of-the-art performances on four domain adaptive panoramic semantic segmentation benchmarks. Code is available at https://github.com/jamycheung/Trans4PASS.
翻訳日:2023-07-28 20:50:27 公開日:2023-07-27
# 確率的既知のログからのトレースリカバリ

Trace Recovery from Stochastically Known Logs ( http://arxiv.org/abs/2206.12672v2 )

ライセンス: Link先を確認
Eli Bogdanov, Izack Cohen, Avigdor Gal(参考訳) 本研究では,不確定なデータを生成するセンサや予測モデルの増加に伴って一般的になりつつある,確率的既知のログからトレースリカバリするアルゴリズムを提案する。 提案手法は, プロセスモデルと確率的既知のトレースとの適合度を計算し, この確率的トレースにおける最良アライメントを真のトレースとして復元する。 本稿では, 各種コストモデルがトレース回収精度に与える影響を解析し, 代替のトレース回収オプションを比較するために, 製品マルチグラフを利用する。 2つの公開データセットを用いて評価したアプローチの平均精度は印象的であり、平均回復精度は90~97%であり、不確実なアクティビティごとに最も可能性が高い値を選択する共通のヒューリスティックを著しく改善している。 統計的に既知のログから正確なトレースを復元するアルゴリズムの有効性は,不確定な状況下で信頼できる意思決定ツールを開発する上で有効であると考えられる。

In this work we propose an algorithm for trace recovery from stochastically known logs, a setting that is becoming more common with the increasing number of sensors and predictive models that generate uncertain data. The suggested approach calculates the conformance between a process model and a stochastically known trace and recovers the best alignment within this stochastic trace as the true trace. The paper offers an analysis of the impact of various cost models on trace recovery accuracy and makes use of a product multi-graph to compare alternative trace recovery options. The average accuracy of our approach, evaluated using two publicly available datasets, is impressive, with an average recovery accuracy score of 90-97%, significantly improving a common heuristic that chooses the most likely value for each uncertain activity. We believe that the effectiveness of the proposed algorithm in recovering correct traces from stochastically known logs may be a powerful aid for developing credible decision-making tools in uncertain settings.
翻訳日:2023-07-28 20:49:00 公開日:2023-07-27
# 予測関数のリップシッツネスによる説明者ロバストネスの解析

Analyzing Explainer Robustness via Lipschitzness of Prediction Functions ( http://arxiv.org/abs/2206.12481v2 )

ライセンス: Link先を確認
Zulqarnain Khan, Davin Hill, Aria Masoomi, Joshua Bone, and Jennifer Dy(参考訳) 機械学習の手法は予測能力を大幅に改善したが、同時にそれらはより複雑で透明性が低いものになっている。 その結果、説明者はブラックボックス予測モデルへの解釈可能性を提供するためにしばしば頼られる。 重要な診断ツールとして、これらの説明器自体が堅牢であることが重要である。 本稿では,ロバスト性について,説明者が類似したデータ入力に対して同様の説明をすべきであることを示す。 予測関数の正確性に類似した説明器の正確性を導入して定義することにより、この概念を定式化する。 我々の形式主義は、関数の局所的な滑らかさの確率をキャプチャする予測者の確率的リプシッツ性と説明的ロバスト性を結びつけることができる。 予測関数のリプシッツ性が与えられた場合、様々な説明者(例えば、シャップ、ライジング、cxplain)の確率性に対する下限の保証を与える。 これらの理論的結果は局所滑らかな予測関数が局所的堅牢な説明に結びつくことを示唆している。 これらの結果を実データと同様にシミュレーションによって実証的に評価する。

Machine learning methods have significantly improved in their predictive capabilities, but at the same time they are becoming more complex and less transparent. As a result, explainers are often relied on to provide interpretability to these black-box prediction models. As crucial diagnostics tools, it is important that these explainers themselves are robust. In this paper we focus on one particular aspect of robustness, namely that an explainer should give similar explanations for similar data inputs. We formalize this notion by introducing and defining explainer astuteness, analogous to astuteness of prediction functions. Our formalism allows us to connect explainer robustness to the predictor's probabilistic Lipschitzness, which captures the probability of local smoothness of a function. We provide lower bound guarantees on the astuteness of a variety of explainers (e.g., SHAP, RISE, CXPlain) given the Lipschitzness of the prediction function. These theoretical results imply that locally smooth prediction functions lend themselves to locally robust explanations. We evaluate these results empirically on simulated as well as real datasets.
翻訳日:2023-07-28 20:48:44 公開日:2023-07-27
# スケッチによるアルゴリズム的ガウス化:データをサブガウス的ランダムデザインに変換する

Algorithmic Gaussianization through Sketching: Converting Data into Sub-gaussian Random Designs ( http://arxiv.org/abs/2206.10291v2 )

ライセンス: Link先を確認
Micha{\l} Derezi\'nski(参考訳) アルゴリズムガウス化(英: Algorithmic Gaussianization)は、大規模なデータセットのより小さな表現を生成するためにランダム化されたスケッチ法やサンプリング法を用いて発生する現象である。 しかし、この現象は特定のタスクやメトリクス、あるいは計算コストの高い手法に依存することでのみ研究されてきた。 平均化によってデータ分布をガウス化するためのアルゴリズムフレームワークを提供し、サブガウスのランダム設計からほぼ区別できない(全変動距離の観点で)データスケッチを効率的に構築できることを証明した。 特に、最近紹介されたreferation score sparsified (less) embeddedsと呼ばれるスケッチ技術に依存すると、$n\times d$ sketch of an $n\times d$ matrix $a$, where $n\ll n$, is almost indistinguishable with a sub-gaussian design, in time $o(\text{nnz}(a)\log n + nd^2)$, where $\text{nnz}(a)$ is the number of non-zero entry in $a$ である。 結果として、ガウス以下の設計(例えば、最小二乗とラッソ回帰、共分散推定、低ランク近似など)から得られる推定値に対して、強い統計的保証と正確な漸近が、スケッチフレームワークに容易に適応できる。 我々はこれを、スケッチされた最小二乗に対する新しい近似保証で説明する。

Algorithmic Gaussianization is a phenomenon that can arise when using randomized sketching or sampling methods to produce smaller representations of large datasets: For certain tasks, these sketched representations have been observed to exhibit many robust performance characteristics that are known to occur when a data sample comes from a sub-gaussian random design, which is a powerful statistical model of data distributions. However, this phenomenon has only been studied for specific tasks and metrics, or by relying on computationally expensive methods. We address this by providing an algorithmic framework for gaussianizing data distributions via averaging, proving that it is possible to efficiently construct data sketches that are nearly indistinguishable (in terms of total variation distance) from sub-gaussian random designs. In particular, relying on a recently introduced sketching technique called Leverage Score Sparsified (LESS) embeddings, we show that one can construct an $n\times d$ sketch of an $N\times d$ matrix $A$, where $n\ll N$, that is nearly indistinguishable from a sub-gaussian design, in time $O(\text{nnz}(A)\log N + nd^2)$, where $\text{nnz}(A)$ is the number of non-zero entries in $A$. As a consequence, strong statistical guarantees and precise asymptotics available for the estimators produced from sub-gaussian designs (e.g., for least squares and Lasso regression, covariance estimation, low-rank approximation, etc.) can be straightforwardly adapted to our sketching framework. We illustrate this with a new approximation guarantee for sketched least squares, among other examples.
翻訳日:2023-07-28 20:48:25 公開日:2023-07-27
# 記憶から知識を分離する: 検索による即興学習

Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning ( http://arxiv.org/abs/2205.14704v4 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Ningyu Zhang, Xiaozhuan Liang, Shumin Deng, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 素早い学習アプローチは、パラメトリックベースの学習パラダイムに従っている間、より優れた数ショットのパフォーマンスを誘導することで、自然言語処理に波を巻き起こしている。 特に、バニラ・プロンプト・ラーニングは、完全に教師されたトレーニングや、低ショットデータによる浅層パターンの過剰適合において、ロートによる非定型インスタンスの利用に苦労する可能性がある。 このような制約を緩和するため、モデルが一般化と記憶のバランスをとるのを助けるために、記憶から知識を分離する動機を持つレトロプロンプトを開発した。 バニラの素早い学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックの知識ストアを構築し、入力、トレーニング、推論のプロセス中に検索メカニズムを実装し、トレーニングコーパスから関連するコンテキストを抽出する機能を付加して強化の手がかりとする。 大規模な実験では、RetroPromptは、数ショットとゼロショットの両方でパフォーマンスが向上することを示した。 さらに,提案するretropromptは,新たなデータセットによって,より優れた一般化能力が得られることを示す。 メモリ化の詳細な分析により、RetroPromptはメモリ化における言語モデルへの依存を減らすことができ、下流タスクの一般化を改善することができる。 コードはhttps://github.com/zjunlp/PromptKG/tree/main/research/RetroPromptで入手できる。

Prompt learning approaches have made waves in natural language processing by inducing better few-shot performance while they still follow a parametric-based learning paradigm; the oblivion and rote memorization problems in learning may encounter unstable generalization issues. Specifically, vanilla prompt learning may struggle to utilize atypical instances by rote during fully-supervised training or overfit shallow patterns with low-shot data. To alleviate such limitations, we develop RetroPrompt with the motivation of decoupling knowledge from memorization to help the model strike a balance between generalization and memorization. In contrast with vanilla prompt learning, RetroPrompt constructs an open-book knowledge-store from training instances and implements a retrieval mechanism during the process of input, training and inference, thus equipping the model with the ability to retrieve related contexts from the training corpus as cues for enhancement. Extensive experiments demonstrate that RetroPrompt can obtain better performance in both few-shot and zero-shot settings. Besides, we further illustrate that our proposed RetroPrompt can yield better generalization abilities with new datasets. Detailed analysis of memorization indeed reveals RetroPrompt can reduce the reliance of language models on memorization; thus, improving generalization for downstream tasks. Code is available in https://github.com/zjunlp/PromptKG/tree/main/research/RetroPrompt.
翻訳日:2023-07-28 20:47:44 公開日:2023-07-27
# 量子ウォークは単純点と多重完全状態移動を探索する

Quantum walks on simplexes and multiple perfect state transfer ( http://arxiv.org/abs/2210.13106v2 )

ライセンス: Link先を確認
Hiroshi Miki, Satoshi Tsujimoto, Da Zhao(参考訳) 本稿では,関連スキームの拡張に関する量子ウォークについて検討する。 これらのグラフ上では、単純で分数的なリバイバルの極端点間の多重状態転送など、様々な状態転送が達成できる。 複数の(完全な)状態転送の例はごくわずかなので、このコレクションに追加することを目指している。

In this paper, we study quantum walks on the extension of association schemes. Various state transfers can be achieved on these graphs, such as multiple state transfer among extreme points of a simplex, fractional revival on subsimplexes. Since only few examples of multiple (perfect) state transfer are known, we aim to make some additions in this collection.
翻訳日:2023-07-28 20:41:39 公開日:2023-07-27
# グラフニューラルネットワークによるパリティゲームにおける勝利領域予測(拡張抽象)

Predicting Winning Regions in Parity Games via Graph Neural Networks (Extended Abstract) ( http://arxiv.org/abs/2210.09924v2 )

ライセンス: Link先を確認
Tobias Hecking and Swathy Muthukrishnan and Alexander Weinert(参考訳) パリティゲームの解決は、リアクティブプログラム検証と合成における多くの応用のための主要な構成要素である。 実際に効率的に解けるが、多項式最悪の実行時複雑性を持つ手法は知られていない。 グラフニューラルネットワークを用いてパリティゲームの勝利領域を決定するための不完全多項式時間アプローチを提案する。 ランダムに生成した900個のパリティゲームに対する評価は,本手法が実際に有効かつ効果的であることを示す。 これは、データセット内のゲームのうち$\sim$60\%の勝利領域を正しく決定し、残りのゲームでのみ小さなエラーを発生させる。 このアプローチはパリティゲームを効率的に解くためにも拡張できると考えています。

Solving parity games is a major building block for numerous applications in reactive program verification and synthesis. While they can be solved efficiently in practice, no known approach has a polynomial worst-case runtime complexity. We present a incomplete polynomial-time approach to determining the winning regions of parity games via graph neural networks. Our evaluation on 900 randomly generated parity games shows that this approach is effective and efficient in practice. It correctly determines the winning regions of $\sim$60\% of the games in our data set and only incurs minor errors in the remaining ones. We believe that this approach can be extended to efficiently solve parity games as well.
翻訳日:2023-07-28 20:41:34 公開日:2023-07-27
# カーネル密度推定による学習伝達演算子

Learning Transfer Operators by Kernel Density Estimation ( http://arxiv.org/abs/2210.03124v3 )

ライセンス: Link先を確認
Sudam Surasinghe, Jeremie Fish and Erik M. Bollt(参考訳) データからの転送作用素の推論は、しばしばウラム法に基づく古典的な問題として定式化される。 ウラム・ガレルキン法(Ulam-Galerkin method)と呼ばれる従来の記述は、長方形の細い格子上で支えられる特性関数として表される基底関数を射影する。 この観点から、Ulam-Galerkinアプローチはヒストグラム法による密度推定と解釈できる。 本研究では,統計的密度推定の枠組みの中で問題を再検討する。 この代替的な視点により、バイアスと分散の明示的かつ厳密な分析が可能になり、平均二乗誤差に関する議論が容易になる。 ロジスティック写像とマルコフ写像を利用する包括的な例を通して、フロベニウス・ペロン作用素の固有ベクトルの推定におけるこのアプローチの有効性と有効性を示す。 我々は,ヒストグラム密度推定(HDE)法とカーネル密度推定(KDE)法を比較し,KDEが一般的にHDEよりも精度が高いことを示す。 しかしながら、KDE は境界点とジャンプに関する制限を示すことに注意する必要がある。 本研究の結果から,この分野に他の密度推定手法を組み込む可能性を示唆し,高次元写像に対するkdeに基づく推定の適用に関する今後の研究を提案する。 これらの知見は、フロベニウス・ペロン作用素の推定に取り組んでいる研究者や実践者にとって貴重な洞察を与え、この領域における密度推定技術の可能性を強調している。 キーワード:転送演算子、フロベニウス・ペロン演算子、確率密度推定、ulam-galerkin法、カーネル密度推定、ヒストグラム密度推定。

Inference of transfer operators from data is often formulated as a classical problem that hinges on the Ulam method. The conventional description, known as the Ulam-Galerkin method, involves projecting onto basis functions represented as characteristic functions supported over a fine grid of rectangles. From this perspective, the Ulam-Galerkin approach can be interpreted as density estimation using the histogram method. In this study, we recast the problem within the framework of statistical density estimation. This alternative perspective allows for an explicit and rigorous analysis of bias and variance, thereby facilitating a discussion on the mean square error. Through comprehensive examples utilizing the logistic map and a Markov map, we demonstrate the validity and effectiveness of this approach in estimating the eigenvectors of the Frobenius-Perron operator. We compare the performance of Histogram Density Estimation(HDE) and Kernel Density Estimation(KDE) methods and find that KDE generally outperforms HDE in terms of accuracy. However, it is important to note that KDE exhibits limitations around boundary points and jumps. Based on our research findings, we suggest the possibility of incorporating other density estimation methods into this field and propose future investigations into the application of KDE-based estimation for high-dimensional maps. These findings provide valuable insights for researchers and practitioners working on estimating the Frobenius-Perron operator and highlight the potential of density estimation techniques in this area of study. Keywords: Transfer Operators; Frobenius-Perron operator; probability density estimation; Ulam-Galerkin method; Kernel Density Estimation; Histogram Density Estimation.
翻訳日:2023-07-28 20:41:24 公開日:2023-07-27
# 人工ニューラルネットワークの統計的プロセスモニタリング

Statistical process monitoring of artificial neural networks ( http://arxiv.org/abs/2209.07436v2 )

ライセンス: Link先を確認
Anna Malinovskaya, Pavlo Mozharovskyi, Philipp Otto(参考訳) 人工知能に基づくモデルの急速な進歩は、計算コストの低いリアルタイム運用が可能な革新的なモニタリング技術を必要とする。 機械学習では、特に人工知能ニューラルネットワーク(ANN)を考えると、モデルはしばしば教師付きで訓練される。 したがって、入力と出力の間の学習された関係は、モデルのデプロイの間も有効でなければならない。 この定常性仮定が成立すれば、ANNは正確な予測を行うことができる。 さもなくば、モデルのリトレーニングや再構築が必要になります。 本稿では,データストリームの非定常化開始時刻を決定するために,ANNが生成するデータ(埋め込み)の潜在的特徴表現について検討する。 特に,データ深度計算と正規化ランクに基づいて,多変量制御チャートを適用して埋め込みを監視する。 提案手法の性能は,様々なANNアーキテクチャや基礎となるデータフォーマットのベンチマーク手法と比較される。

The rapid advancement of models based on artificial intelligence demands innovative monitoring techniques which can operate in real time with low computational costs. In machine learning, especially if we consider artificial neural networks (ANNs), the models are often trained in a supervised manner. Consequently, the learned relationship between the input and the output must remain valid during the model's deployment. If this stationarity assumption holds, we can conclude that the ANN provides accurate predictions. Otherwise, the retraining or rebuilding of the model is required. We propose considering the latent feature representation of the data (called "embedding") generated by the ANN to determine the time when the data stream starts being nonstationary. In particular, we monitor embeddings by applying multivariate control charts based on the data depth calculation and normalized ranks. The performance of the introduced method is compared with benchmark approaches for various ANN architectures and different underlying data formats.
翻訳日:2023-07-28 20:40:06 公開日:2023-07-27
# 多モジュールグラフニューラルネットワークのフレキシブル表現による一般化に向けて

Towards Better Generalization with Flexible Representation of Multi-Module Graph Neural Networks ( http://arxiv.org/abs/2209.06589v3 )

ライセンス: Link先を確認
Hyungeun Lee, Kijung Yoon(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの学習と推論を行うように設計されている。 しかし、より大きなグラフにスケールし、out-of-distribution (ood)入力に一般化するためのgnnの基本的な制限を理解するための作業はほとんど行われていない。 本稿では,グラフのサイズと構造がGNNの予測性能に与える影響を,ランダムなグラフ生成器を用いて体系的に検討する。 本稿では,GNNが未確認グラフに一般化できるかどうかを判断する上で,平均ノード次数が重要な特徴であることを示すとともに,複数ノード更新関数を用いることで,マルチモーダル度分布のグラフを扱う場合のGNNの一般化性能を向上させることができることを示す。 そこで本研究では,集約された入力に対して単一の正準非線形変換を一般化することにより,ネットワークが新しいグラフに柔軟に対応可能なマルチモジュールGNNフレームワークを提案する。 その結果,マルチモジュールGNNは多様な構造的特徴の方向に様々な推論タスクのOOD一般化を改善した。

Graph neural networks (GNNs) have become compelling models designed to perform learning and inference on graph-structured data. However, little work has been done to understand the fundamental limitations of GNNs for scaling to larger graphs and generalizing to out-of-distribution (OOD) inputs. In this paper, we use a random graph generator to systematically investigate how the graph size and structural properties affect the predictive performance of GNNs. We present specific evidence that the average node degree is a key feature in determining whether GNNs can generalize to unseen graphs, and that the use of multiple node update functions can improve the generalization performance of GNNs when dealing with graphs of multimodal degree distributions. Accordingly, we propose a multi-module GNN framework that allows the network to adapt flexibly to new graphs by generalizing a single canonical nonlinear transformation over aggregated inputs. Our results show that the multi-module GNNs improve the OOD generalization on a variety of inference tasks in the direction of diverse structural features.
翻訳日:2023-07-28 20:39:54 公開日:2023-07-27
# ニューラルベイズ推定器を用いた擬似自由パラメータ推定

Likelihood-Free Parameter Estimation with Neural Bayes Estimators ( http://arxiv.org/abs/2208.12942v4 )

ライセンス: Link先を確認
Matthew Sainsbury-Dale, Andrew Zammit-Mangion, and Rapha\"el Huser(参考訳) ニューラルネットワークは、データをパラメータポイント推定にマッピングするニューラルネットワークである。 それらは高速で、おそらく自由であり、その不滅の性質のため、高速なブートストラップに基づく不確実性定量化が可能である。 本稿では,この比較的新しい推論ツールに対する統計学者の意識を高め,ユーザフレンドリーなオープンソースソフトウェアを提供することで,その採用を促進することを目的とする。 また、複製されたデータから推論を行うというユビキタスな問題にも注目する。 広範囲なシミュレーション研究を通じて、これらのニューラルポイント推定器は、比較的容易に弱同定された高パラメータモデルのパラメータを(ベイズ感覚で)迅速かつ最適に推定できることを示した。 実験の結果,赤海での極端海面温度の解析により,数百の空間場から1秒でパラメータ推定とブートストラップに基づく信頼区間を求めることにより,その適用性を示す。

Neural point estimators are neural networks that map data to parameter point estimates. They are fast, likelihood free and, due to their amortised nature, amenable to fast bootstrap-based uncertainty quantification. In this paper, we aim to increase the awareness of statisticians to this relatively new inferential tool, and to facilitate its adoption by providing user-friendly open-source software. We also give attention to the ubiquitous problem of making inference from replicated data, which we address in the neural setting using permutation-invariant neural networks. Through extensive simulation studies we show that these neural point estimators can quickly and optimally (in a Bayes sense) estimate parameters in weakly-identified and highly-parameterised models with relative ease. We demonstrate their applicability through an analysis of extreme sea-surface temperature in the Red Sea where, after training, we obtain parameter estimates and bootstrap-based confidence intervals from hundreds of spatial fields in a fraction of a second.
翻訳日:2023-07-28 20:39:35 公開日:2023-07-27
# QBistがメルローポンティを読む

A QBist reads Merleau-Ponty ( http://arxiv.org/abs/2212.11094v2 )

ライセンス: Link先を確認
R\"udiger Schack(参考訳) Michel Bitbol氏(Bitbol 2020)とLaura de la Tremblaye氏(de La Tremblaye 2020)による以前の研究に続いて、この短い論文はQBismとMaurice Merleau-Ponty氏のエッセイであるThe Intertwining -- the chiasmの接触点を探求する。

Following earlier work by Michel Bitbol (Bitbol 2020) and Laura de la Tremblaye (de La Tremblaye 2020) which examines QBism from the perspective of phenomenology, this short paper explores points of contact between QBism and Maurice Merleau-Ponty's essay The intertwining -- the chiasm.
翻訳日:2023-07-28 20:31:12 公開日:2023-07-27
# ニューラルネットワークポテンシャルのスケーラブルベイズ不確実性定量化:約束と落とし穴

Scalable Bayesian Uncertainty Quantification for Neural Network Potentials: Promise and Pitfalls ( http://arxiv.org/abs/2212.07959v2 )

ライセンス: Link先を確認
Stephan Thaler, Gregor Doehner, Julija Zavadlav(参考訳) ニューラルネットワーク(NN)ポテンシャルは、古典的MD力場の計算複雑性の中で非常に正確な分子動力学(MD)シミュレーションを約束する。 しかし、トレーニング領域外に適用した場合、NNポテンシャル予測は不正確になり、不確実性定量化(UQ)の必要性が高まる。 ベイズモデリングはuqの数学的枠組みを提供するが、マルコフ連鎖モンテカルロ(mcmc)に基づく古典的なベイズ手法はnnポテンシャルに対して計算的に難解である。 液体水とアラニンジペプチドの粗粒系に対するグラフNN電位をトレーニングすることにより、確率勾配MCMC(SG-MCMC)によるスケーラブルベイズUQが、MD可観測物に対して確実な不確実性推定をもたらすことを示した。 冷間後部は必要なトレーニングデータサイズを削減でき、信頼性の高いUQには複数のマルコフ連鎖が必要であることを示す。 さらに,SG-MCMCとDeep Ensemble法は,トレーニングが短く,ハイパーパラメータの調整も少ないにもかかわらず,同等の結果が得られた。 いずれの手法も,md観測可能な正確な信頼区間を得るためには,適切なモデリングによって最小化する必要があるが,系統的不確実性は得られない。 本研究は,実際の意思決定に必要な信頼できるNN電位に基づくMDシミュレーションにおいて重要な,正確なUQに向けた一歩である。

Neural network (NN) potentials promise highly accurate molecular dynamics (MD) simulations within the computational complexity of classical MD force fields. However, when applied outside their training domain, NN potential predictions can be inaccurate, increasing the need for Uncertainty Quantification (UQ). Bayesian modeling provides the mathematical framework for UQ, but classical Bayesian methods based on Markov chain Monte Carlo (MCMC) are computationally intractable for NN potentials. By training graph NN potentials for coarse-grained systems of liquid water and alanine dipeptide, we demonstrate here that scalable Bayesian UQ via stochastic gradient MCMC (SG-MCMC) yields reliable uncertainty estimates for MD observables. We show that cold posteriors can reduce the required training data size and that for reliable UQ, multiple Markov chains are needed. Additionally, we find that SG-MCMC and the Deep Ensemble method achieve comparable results, despite shorter training and less hyperparameter tuning of the latter. We show that both methods can capture aleatoric and epistemic uncertainty reliably, but not systematic uncertainty, which needs to be minimized by adequate modeling to obtain accurate credible intervals for MD observables. Our results represent a step towards accurate UQ that is of vital importance for trustworthy NN potential-based MD simulations required for decision-making in practice.
翻訳日:2023-07-28 20:31:01 公開日:2023-07-27
# バイパスチャネルの存在下での衛星による量子鍵分布

Satellite-Based Quantum Key Distribution in the Presence of Bypass Channels ( http://arxiv.org/abs/2212.04807v2 )

ライセンス: Link先を確認
Masoud Ghalaii and Sima Bahrani and Carlo Liorni and Federico Grasselli and Hermann Kampermann and Lewis Wooltorton and Rupesh Kumar and Stefano Pirandola and Timothy P. Spiller and Alexander Ling and Bruno Huttner and Mohsen Razavi(参考訳) 制限された盗聴シナリオ下での衛星による量子鍵分布(qkd)のセキュリティ対策について述べる。 特に、盗聴器であるイヴがアリスやボブの受信局によって送信された信号に限られている場合を考える。 この制限は、alice/bobとeveの間の損失チャネルによってモデル化される。 このような損失のあるチャンネルのアーチファクトは、イヴにはアクセスできないが、必ずしもユーザーによって特徴づけられるとは限らないチャンネルを持つ可能性である。 これはQKDセキュリティを分析する興味深い、未調査のシナリオを生み出します。 本稿では、バイパスチャネルの存在下での鍵レートの一般的な境界を求め、直接および逆整合を伴うガウス符号化を用いた連続可変QKDプロトコルに適用する。 上述したEveの制限がシステム性能を大幅に改善できるような運用体制を見いだす。 また、bb84ファミリー内のいくつかのプロトコルのカスタマイズされた境界を開発し、特定のレジームにおいて、弱いコヒーレントパルスを持つbb84の単純なプロトコルでさえ、高チャネル損失で正の鍵レートを提供できることを示した。 この場合、イブ上の制限により、アリスは理想イブの下で最適な値よりも大きな強度の信号を送ることができ、効果的チャネル損失を効果的に低減できる。 これらの場合、Eveに届かない送信信号の一部が、達成可能なキーレートを指定する際には、非自明な役割を果たす。 我々の研究は、宇宙で動く量子通信システムのための新しいセキュリティフレームワークを開放する。

The security of prepare-and-measure satellite-based quantum key distribution (QKD), under restricted eavesdropping scenarios, is addressed. We particularly consider cases where the eavesdropper, Eve, has limited access to the transmitted signal by Alice, and/or Bob's receiver station. This restriction is modeled by lossy channels between Alice/Bob and Eve, where the transmissivity of such channels can, in principle, be bounded by monitoring techniques. An artefact of such lossy channels is the possibility of having {\it bypass} channels, those which are not accessible to Eve, but may not necessarily be characterized by the users either. This creates interesting, unexplored, scenarios for analyzing QKD security. In this paper, we obtain generic bounds on the key rate in the presence of bypass channels and apply them to continuous-variable QKD protocols with Gaussian encoding with direct and reverse reconciliation. We find regimes of operation in which the above restrictions on Eve can considerably improve system performance. We also develop customised bounds for several protocols in the BB84 family and show that, in certain regimes, even the simple protocol of BB84 with weak coherent pulses is able to offer positive key rates at high channel losses, which would otherwise be impossible under an unrestricted Eve. In this case the limitation on Eve would allow Alice to send signals with larger intensities than the optimal value under an ideal Eve, which effectively reduces the effective channel loss. In all these cases, the part of the transmitted signal that does not reach Eve can play a non-trivial role in specifying the achievable key rate. Our work opens up new security frameworks for spaceborne quantum communications systems.
翻訳日:2023-07-28 20:30:34 公開日:2023-07-27
# 時間混合による時間系列の対比領域適応

Contrastive Domain Adaptation for Time-Series via Temporal Mixup ( http://arxiv.org/abs/2212.01555v2 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh and Xiaoli Li(参考訳) Unsupervised Domain Adaptation (UDA) は、ラベル付きソースドメインからシフトしたラベル付きターゲットドメインへの知識転送を通じて、ドメインシフト問題の強力な解決策として登場した。 ビジュアルアプリケーションでUDAが普及しているにもかかわらず、時系列アプリケーションでは調査が比較的少ない。 本稿では,時系列データに対するcotmixと呼ばれる新しい軽量コントラストドメイン適応フレームワークを提案する。 統計的距離法や逆境法を用いる既存のアプローチとは異なり、異なる領域にまたがる分布シフトを緩和するためだけにコントラスト学習を利用する。 具体的には、ソースとターゲットドメインに対する2つの中間的な拡張ビューを生成するための、新しい時間混合戦略を提案する。 その後、コントラスト学習を利用して、各ドメインと対応する拡張ビューとの類似性を最大化する。 生成されたビューは、2つのドメイン間のセマンティクスを継承しながら、適応プロセス中の時系列データの時間的ダイナミクスを考える。 したがって、両領域を共通の中間空間へ徐々に押し上げ、それらの間の分布シフトを緩和する。 5つの実世界の時系列データセットで行った広範囲な実験は、我々のアプローチがすべての最先端のudaメソッドを大きく上回ることを示している。 CoTMix の実装コードは \href{https://github.com/emadeldeen24/CoTMix}{github.com/emadeldeen24/CoTMix} で公開されている。

Unsupervised Domain Adaptation (UDA) has emerged as a powerful solution for the domain shift problem via transferring the knowledge from a labeled source domain to a shifted unlabeled target domain. Despite the prevalence of UDA for visual applications, it remains relatively less explored for time-series applications. In this work, we propose a novel lightweight contrastive domain adaptation framework called CoTMix for time-series data. Unlike existing approaches that either use statistical distances or adversarial techniques, we leverage contrastive learning solely to mitigate the distribution shift across the different domains. Specifically, we propose a novel temporal mixup strategy to generate two intermediate augmented views for the source and target domains. Subsequently, we leverage contrastive learning to maximize the similarity between each domain and its corresponding augmented view. The generated views consider the temporal dynamics of time-series data during the adaptation process while inheriting the semantics among the two domains. Hence, we gradually push both domains towards a common intermediate space, mitigating the distribution shift across them. Extensive experiments conducted on five real-world time-series datasets show that our approach can significantly outperform all state-of-the-art UDA methods. The implementation code of CoTMix is available at \href{https://github.com/emadeldeen24/CoTMix}{github.com/emadeldeen24/CoTMix}.
翻訳日:2023-07-28 20:30:07 公開日:2023-07-27
# GeoUDF:幾何学誘導距離表現による3次元点雲の表面再構成

GeoUDF: Surface Reconstruction from 3D Point Clouds via Geometry-guided Distance Representation ( http://arxiv.org/abs/2211.16762v4 )

ライセンス: Link先を確認
Siyu Ren, Junhui Hou, Xiaodong Chen, Ying He, Wenping Wang(参考訳) 本稿では, 疎点雲から離散面を再構築する長期的かつ困難な問題に取り組むための学習ベース手法であるgeoudfを提案する。具体的には, クエリ点の無符号距離を学習可能なアフィン平均値として明示的に定式化するudfの幾何誘導学習法とその勾配推定法を提案する。 さらに,各点に対する二次多項式を明示的に学習することにより,入力点雲の局所幾何構造をモデル化する。 これは入力スパース点雲のアップサンプリングを容易にするだけでなく、自然に非正規化を誘導し、UDF推定をさらに増大させる。 最後に,予測したudfから三角形メッシュを抽出するために,エッジベースマーチングキューブモジュールを提案する。 本手法は, 復元精度, 効率, 汎用性の観点から, 最先端法よりも優れた性能を示すため, 広範囲にわたる実験およびアブレーション実験を行った。 ソースコードはhttps://github.com/rsy6318/GeoUDFで公開されている。

We present a learning-based method, namely GeoUDF,to tackle the long-standing and challenging problem of reconstructing a discrete surface from a sparse point cloud.To be specific, we propose a geometry-guided learning method for UDF and its gradient estimation that explicitly formulates the unsigned distance of a query point as the learnable affine averaging of its distances to the tangent planes of neighboring points on the surface. Besides,we model the local geometric structure of the input point clouds by explicitly learning a quadratic polynomial for each point. This not only facilitates upsampling the input sparse point cloud but also naturally induces unoriented normal, which further augments UDF estimation. Finally, to extract triangle meshes from the predicted UDF we propose a customized edge-based marching cube module. We conduct extensive experiments and ablation studies to demonstrate the significant advantages of our method over state-of-the-art methods in terms of reconstruction accuracy, efficiency, and generality. The source code is publicly available at https://github.com/rsy6318/GeoUDF.
翻訳日:2023-07-28 20:29:44 公開日:2023-07-27
# Gated Class-Attention と Cascaded Feature Drift Compensation による視覚変換器の連続学習

Exemplar-free Continual Learning of Vision Transformers via Gated Class-Attention and Cascaded Feature Drift Compensation ( http://arxiv.org/abs/2211.12292v3 )

ライセンス: Link先を確認
Marco Cotogni, Fei Yang, Claudio Cusano, Andrew D. Bagdanov, Joost van de Weijer(参考訳) 本稿では,ViTsの非正規クラスインクリメンタルトレーニングのための新しい手法を提案する。 exemplar-free 連続学習の主な課題は、学習者の可塑性を維持することである。 これはしばしば、以前のタスク分類器を新しいタスクを学ぶときに発生するフィーチャードリフトに再分類するのに役立ちます。 しかし、exemplar replayは、多くのアプリケーションでは不可能かもしれない以前のタスクからサンプルを保持するコストがかかる。 連続vit訓練の問題に対処するために,まず,最終vit変圧器ブロックのドリフトを最小化するゲート付きクラスアテンションを提案する。 このマスクベースのゲーティングは、最後の変圧器ブロックのクラスアテンション機構に適用され、以前のタスクに不可欠な重みを強く制御する。 重要なことに、ゲートされたクラスアテンションは推論中にタスクIDを必要としないため、他のパラメータ分離メソッドと区別する。 次に,新しいタスクを学習する際にバックボーン内の特徴ドリフトに対応する新しい特徴ドリフト補償法を提案する。 ゲート型クラスアテンションとカスケード型機能ドリフト補償の組み合わせにより、以前のタスクの忘れを制限しながら、新しいタスクに対する可塑性を実現することができる。 CIFAR-100, Tiny-ImageNet, ImageNet100 で行った大規模な実験により, リハーサルベースの ViT 法と比較した場合, 競合する結果が得られることを示した。

We propose a new method for exemplar-free class incremental training of ViTs. The main challenge of exemplar-free continual learning is maintaining plasticity of the learner without causing catastrophic forgetting of previously learned tasks. This is often achieved via exemplar replay which can help recalibrate previous task classifiers to the feature drift which occurs when learning new tasks. Exemplar replay, however, comes at the cost of retaining samples from previous tasks which for many applications may not be possible. To address the problem of continual ViT training, we first propose gated class-attention to minimize the drift in the final ViT transformer block. This mask-based gating is applied to class-attention mechanism of the last transformer block and strongly regulates the weights crucial for previous tasks. Importantly, gated class-attention does not require the task-ID during inference, which distinguishes it from other parameter isolation methods. Secondly, we propose a new method of feature drift compensation that accommodates feature drift in the backbone when learning new tasks. The combination of gated class-attention and cascaded feature drift compensation allows for plasticity towards new tasks while limiting forgetting of previous ones. Extensive experiments performed on CIFAR-100, Tiny-ImageNet and ImageNet100 demonstrate that our exemplar-free method obtains competitive results when compared to rehearsal based ViT methods.
翻訳日:2023-07-28 20:29:24 公開日:2023-07-27
# STGlow: 歩行者軌道予測のためのデュアルグラフマーを備えたフローベース生成フレームワーク

STGlow: A Flow-based Generative Framework with Dual Graphormer for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2211.11220v4 )

ライセンス: Link先を確認
Rongqin Liang, Yuanman Li, Jiantao Zhou, and Xia Li(参考訳) 歩行者軌道予測タスクはインテリジェントシステムの不可欠な構成要素である。 その用途には、自動運転、ロボットナビゲーション、監視システムの異常検出などに限定されない。 歩行者の行動行動の多様性と複雑な社会的相互作用のため、将来の軌跡を正確に予測することは困難である。 既存のアプローチでは、様々な軌道を生成するためにGANまたはCVAEを採用するのが一般的である。 しかし、GANベースの手法は遅延空間におけるデータを直接モデル化しないため、基礎となるデータ分布に対する完全なサポートが得られず、CVAEベースの手法は、ログのような観測範囲の低い境界を最適化し、学習した分布が基礎となる分布から逸脱する可能性がある。 上記の制限により、既存のアプローチは、しばしば高いバイアスや不正確な軌道を生成する。 本稿では,歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。 従来の手法と異なり,動作動作の正確なログ様相を最適化することで,より正確にデータ分布をモデル化できる。 また,人間の動作行動の進化をシミュレートするための物理的意義も明らかにした。 流れの進行過程は、複雑な動きの挙動を徐々に単純な振る舞いに分解し、逆の過程は複雑な動きの振る舞いへの単純な動きの進化を表す。 さらに,時間依存性と相互空間相互作用をより適切にモデル化するために,グラフ構造と組み合わせた双対グラフマーを導入する。 いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。

The pedestrian trajectory prediction task is an essential component of intelligent systems. Its applications include but are not limited to autonomous driving, robot navigation, and anomaly detection of monitoring systems. Due to the diversity of motion behaviors and the complex social interactions among pedestrians, accurately forecasting their future trajectory is challenging. Existing approaches commonly adopt GANs or CVAEs to generate diverse trajectories. However, GAN-based methods do not directly model data in a latent space, which may make them fail to have full support over the underlying data distribution; CVAE-based methods optimize a lower bound on the log-likelihood of observations, which may cause the learned distribution to deviate from the underlying distribution. The above limitations make existing approaches often generate highly biased or inaccurate trajectories. In this paper, we propose a novel generative flow based framework with dual graphormer for pedestrian trajectory prediction (STGlow). Different from previous approaches, our method can more precisely model the underlying data distribution by optimizing the exact log-likelihood of motion behaviors. Besides, our method has clear physical meanings for simulating the evolution of human motion behaviors. The forward process of the flow gradually degrades complex motion behavior into simple behavior, while its reverse process represents the evolution of simple behavior into complex motion behavior. Further, we introduce a dual graphormer combining with the graph structure to more adequately model the temporal dependencies and the mutual spatial interactions. Experimental results on several benchmarks demonstrate that our method achieves much better performance compared to previous state-of-the-art approaches.
翻訳日:2023-07-28 20:28:59 公開日:2023-07-27
# 長期学習のための大規模言語モデル

Large Language Models Struggle to Learn Long-Tail Knowledge ( http://arxiv.org/abs/2211.08411v2 )

ライセンス: Link先を確認
Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, Colin Raffel(参考訳) インターネットには、歴史人物の誕生日からプログラミングのチュートリアルまで、豊富な知識が含まれており、これらすべてが言語モデルによって学習される可能性がある。 しかし、ある情報はウェブ上ではユビキタスだが、他の情報はほとんど現れない。 本稿では,大規模言語モデルが記憶する知識と,Webから抽出した事前学習データセットの情報との関係について検討する。 特に、言語モデルが事実に基づく質問に答える能力は、事前学習中にその質問に関連づけられた文書の数に関係していることを示す。 我々は、これらの関連文書を、事前学習データセットをリンクし、与えられた質問応答ペアと同じエンティティを含む文書をカウントすることで識別する。 その結果,多くの質問応答データセット(例えばTriviaQA),事前学習コーパス(例えばROTS),モデルサイズ(例えば176Bパラメータ)について,精度と関連文書数の相関関係が強く示された。 さらに,大規模モデルの方がロングテール知識の学習に優れる一方で,事前学習データへのサポートがほとんどない質問に対して,競争上のqa性能を達成するためには,今日のモデルの規模を何桁も拡大する必要があると推定した。 最後に,検索強化により,関連する事前学習情報への依存度を低減できることを示す。

The Internet contains a wealth of knowledge -- from the birthdays of historical figures to tutorials on how to code -- all of which may be learned by language models. However, while certain pieces of information are ubiquitous on the web, others appear extremely rarely. In this paper, we study the relationship between the knowledge memorized by large language models and the information in pre-training datasets scraped from the web. In particular, we show that a language model's ability to answer a fact-based question relates to how many documents associated with that question were seen during pre-training. We identify these relevant documents by entity linking pre-training datasets and counting documents that contain the same entities as a given question-answer pair. Our results demonstrate strong correlational and causal relationships between accuracy and relevant document count for numerous question answering datasets (e.g., TriviaQA), pre-training corpora (e.g., ROOTS), and model sizes (e.g., 176B parameters). Moreover, while larger models are better at learning long-tail knowledge, we estimate that today's models must be scaled by many orders of magnitude to reach competitive QA performance on questions with little support in the pre-training data. Finally, we show that retrieval-augmentation can reduce the dependence on relevant pre-training information, presenting a promising approach for capturing the long-tail.
翻訳日:2023-07-28 20:28:16 公開日:2023-07-27
# ボソニック系の効率的計測法

Efficient measurement schemes for bosonic systems ( http://arxiv.org/abs/2210.13585v2 )

ライセンス: Link先を確認
Tianren Gu, Xiao Yuan, Bujiao Wu(参考訳) ボソンは最も基本的な粒子の1つであり、交換関係を保存する。 ボゾン系を測定する効率的な方法は、量子ビットベースの量子コンピュータ上でボーソン(核など)の複雑な物理現象をシミュレートするだけでなく、ボーソン(例えば連続変数量子コンピュータ)で構築された量子シミュレーター/コンピュータから古典情報を抽出するのにも重要である。 本稿では,最近提案されたシャドウトモグラフィなどの局所的な計測手法を拡張し,ボソニックシステムの効率的な測定手法について検討する。 離散量子コンピュータ上でのシミュレーションボソンと固有ボソン系に対応する非定常qudit系と連続変数系をそれぞれ考慮し,これら2つの場合の分散を理論的に解析した異なる測定スキームを提案する。 本研究では,離散量子コンピュータと連続可変ガウス状態を用いてシミュレーションした核振動の測定手法を数値的に検証し,提案手法の性能を従来のものと比べた。

Boson is one of the most basic types of particles and preserves the commutation relation. An efficient way to measure a bosonic system is important not only for simulating complex physics phenomena of bosons (such as nuclei) on a qubit based quantum computer, but for extracting classical information from a quantum simulator/computer that itself is built with bosons (such as a continuous variable quantum computer). Extending the recently proposed measurement schemes for qubits, such as shadow tomography and other local measurement schemes, here we study efficient measurement approaches for bosonic systems. We consider truncated qudit and continuous variable systems, corresponding to simulated bosons on a discrete quantum computer and an inherent boson system, respectively, and propose different measurement schemes with theoretical analyses of the variances for these two cases. We numerically test the schemes for measuring nuclei vibrations simulated using a discrete quantum computer and a continuous variable Gaussian state, and the simulation results show great improvement of the performance of the proposed method compared to conventional ones.
翻訳日:2023-07-28 20:27:51 公開日:2023-07-27
# 鎖状系における結合励起子とフォノンの量子力学:テンソルトレインアプローチと高次プロパゲータ

Quantum dynamics of coupled excitons and phonons in chain-like systems: tensor train approaches and higher-order propagators ( http://arxiv.org/abs/2302.03568v3 )

ライセンス: Link先を確認
Patrick Gel{\ss}, Sebastian Matera, Rupert Klein, and Burkhard Schmidt(参考訳) オンサイトおよび近距離相互作用のみを持つ鎖状量子系に対する時間依存schr\"odinger方程式の解に対するテンソルトレイン法の利用について検討した。 効率のよい低ランクテンソルトレイン表現を用いて,メモリ消費と計算コストの削減を目標とする。 例えば、fr\"ohlich-holstein型ハミルトニアンの項でモデル化された結合励起子とフォノンが研究されている。 テンソルトレインに基づく結果と半解析結果を比較することにより、量子状態ベクトルのランクの鍵となる役割を実証する。 典型的には、解の質は最大階数が一定の値を超える場合にのみ見出される。 伝搬スキームの1つのクラスは、ハミルトニアンを2つのグループに分割し、それぞれのグループ内で可換であるインターリーブされた最も近い隣り合う相互作用である。 特に,第4次吉田ネリ,第8次加半李シンプレクティック組成物は,機械精度に近い精度で極めて正確な結果が得られることを示した。 しかし、計算コストのため、現在ではその用途は短鎖に限られている。 これはまた、行列積状態の文脈で一般的に用いられる時間依存変分原理に基づく伝播にも適用される。 しかし、別のプロパゲーターのクラスは明示的で時相化されたオイラー積分器を含んでいる。 特に4次変種は、分割スキームの高精度さに到達できないにもかかわらず、長い鎖の量子シミュレーションに推奨されている。 さらに、局所ヒルベルト空間の次元による計算作業のスケーリングは、分割スキームや変分スキームよりも微分に有利である。

We investigate the use of tensor-train approaches to the solution of the time-dependent Schr\"odinger equation for chain-like quantum systems with on-site and nearest-neighbor interactions only. Using efficient low-rank tensor train representations, we aim at reducing the memory consumption as well as the computation costs. As an example, coupled excitons and phonons modeled in terms of Fr\"ohlich-Holstein type Hamiltonians are studied here. By comparing our tensor-train based results with semi-analytical results, we demonstrate the key role of the ranks of the quantum state vectors. Typically, an excellent quality of the solutions is found only when the maximum number of ranks exceed a certain value. One class of propagation schemes builds on splitting the Hamiltonian into two groups of interleaved nearest-neighbor interactions which commutate within each of the groups. In particular, the 4-th order Yoshida-Neri and the 8-th order Kahan-Li symplectic compositions are demonstrated to yield very accurate results, close to machine precision. However, due to the computational costs, currently their use is restricted to rather short chains. That also applies to propagations based on the time-dependent variational principle, typically used in the context of matrix product states. Yet another class of propagators involves explicit, time-symmetrized Euler integrators. Especially the 4-th order variant is recommended for quantum simulations of longer chains, even though the high precision of the splitting schemes cannot be reached. Moreover, the scaling of the computational effort with the dimensions of the local Hilbert spaces is much more favorable for the differencing than for the splitting or variational schemes.
翻訳日:2023-07-28 20:21:51 公開日:2023-07-27
# 因果リフティングとリンク予測

Causal Lifting and Link Prediction ( http://arxiv.org/abs/2302.01198v2 )

ライセンス: Link先を確認
Leonardo Cotta, Beatrice Bevilacqua, Nesreen Ahmed, Bruno Ribeiro(参考訳) リンク予測のための既存の因果モデルでは、グラフ内のリンクの因果進化を制御する固有のノード要因(ノードの誕生時に定義された固有特性)のセットを仮定している。 しかし、いくつかの因果的タスクでは、リンク形成は経路依存であり、リンク介入の結果は既存のリンクに依存する。 残念ながら、これらの既存の因果的手法は経路依存リンクの生成のために設計されておらず、リンク間のカスケード機能的依存関係(経路依存から生じる)は識別できないか、制御変数の非現実的な数を必要とする。 これを解決するために,リンク予測において経路依存を扱える最初の因果モデルを開発した。 本研究では,グラフ上で限定的な介入データを用いて因果関係予測クエリを識別できる独立関心の因果モデルにおける不変性である因果浮揚の概念を紹介する。 さらに,グラフニューラルネットワークノードの埋め込みや行列係数化など,既存のノードの埋め込みとは対照的に,構造的対角埋め込みが低いバイアスを示し,タスクの因果構造を正しく表現することを示す。 最後に, 因果関係予測タスクの3つのシナリオ, 知識ベース補完, 共分散行列推定, 消費者製品推薦に関する理論的知見を検証した。

Existing causal models for link prediction assume an underlying set of inherent node factors -- an innate characteristic defined at the node's birth -- that governs the causal evolution of links in the graph. In some causal tasks, however, link formation is path-dependent: The outcome of link interventions depends on existing links. Unfortunately, these existing causal methods are not designed for path-dependent link formation, as the cascading functional dependencies between links (arising from path dependence) are either unidentifiable or require an impractical number of control variables. To overcome this, we develop the first causal model capable of dealing with path dependencies in link prediction. In this work we introduce the concept of causal lifting, an invariance in causal models of independent interest that, on graphs, allows the identification of causal link prediction queries using limited interventional data. Further, we show how structural pairwise embeddings exhibit lower bias and correctly represent the task's causal structure, as opposed to existing node embeddings, e.g., graph neural network node embeddings and matrix factorization. Finally, we validate our theoretical findings on three scenarios for causal link prediction tasks: knowledge base completion, covariance matrix estimation and consumer-product recommendations.
翻訳日:2023-07-28 20:21:23 公開日:2023-07-27
# 文脈内検索型言語モデル

In-Context Retrieval-Augmented Language Models ( http://arxiv.org/abs/2302.00083v2 )

ライセンス: Link先を確認
Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham(参考訳) 言語モデル(LM)を生成中の接地コーパスから記述した文書に条件付けした検索言語モデリング(RALM)手法は,言語モデリング性能を著しく向上させることを示した。 さらに、事実的不正確なテキスト生成の問題を緩和し、天然資源の帰属メカニズムを提供する。 既存のRALMアプローチでは、外部情報の取り込みを容易にするため、LMアーキテクチャの変更に重点を置いている。 本稿では, LMアーキテクチャをそのままにして, LMのさらなる訓練を伴わずに, 基盤となる文書を入力に残すという, シンプルな方法を提案する。 In-Context RALMは,市販の汎用検索システム上に構築されており,モデルサイズや多種多様なコーパスに対して驚くほど大きなLMゲインを提供する。 また,文書検索とランキング機構をralm設定に特化することで,さらなる性能向上が期待できることを示す。 In-Context RALM は、特に、事前訓練された LM を変更せずに使用し、API アクセスを介して使用する必要がある設定において、LM の接地率を高める可能性があると結論付けている。

Retrieval-Augmented Language Modeling (RALM) methods, which condition a language model (LM) on relevant documents from a grounding corpus during generation, were shown to significantly improve language modeling performance. In addition, they can mitigate the problem of factually inaccurate text generation and provide natural source attribution mechanism. Existing RALM approaches focus on modifying the LM architecture in order to facilitate the incorporation of external information, significantly complicating deployment. This paper considers a simple alternative, which we dub In-Context RALM: leaving the LM architecture unchanged and prepending grounding documents to the input, without any further training of the LM. We show that In-Context RALM that builds on off-the-shelf general purpose retrievers provides surprisingly large LM gains across model sizes and diverse corpora. We also demonstrate that the document retrieval and ranking mechanism can be specialized to the RALM setting to further boost performance. We conclude that In-Context RALM has considerable potential to increase the prevalence of LM grounding, particularly in settings where a pretrained LM must be used without modification or even via API access.
翻訳日:2023-07-28 20:21:01 公開日:2023-07-27
# ThoughtSource: 大規模言語モデル推論のための中心的なハブ

ThoughtSource: A central hub for large language model reasoning data ( http://arxiv.org/abs/2301.11596v5 )

ライセンス: Link先を確認
Simon Ott, Konstantin Hebenstreit, Valentin Li\'evin, Christoffer Egeberg Hother, Milad Moradi, Maximilian Mayrhauser, Robert Praas, Ole Winther, Matthias Samwald(参考訳) GPT-4のような大規模言語モデル(LLM)は、最近、幅広いタスクで印象的な結果を示した。 LLMは依然として制限されているが、複雑な推論でしばしば失敗し、推論プロセスは不透明であり、事実を「幻覚させる」傾向があるため、その根底にあるバイアスには懸念がある。 モデルが推論ステップを自然言語として言語化する手法は、近年、これらの問題に対処する方法として提案されている。 ここでは、思考の連鎖(CoT)推論のためのメタデータおよびソフトウェアライブラリであるThoughtSourceを紹介します。 ThoughtSourceの目標は、CoTの質的理解を促進し、経験的評価を可能にし、トレーニングデータを提供することによって、将来の人工知能システムを改善することである。 ThoughtSourceの最初のリリースでは、7つの科学/医学、3つの一般ドメイン、5つの数学語質問応答データセットを統合している。

Large language models (LLMs) such as GPT-4 have recently demonstrated impressive results across a wide range of tasks. LLMs are still limited, however, in that they frequently fail at complex reasoning, their reasoning processes are opaque, they are prone to 'hallucinate' facts, and there are concerns about their underlying biases. Letting models verbalize reasoning steps as natural language, a technique known as chain-of-thought prompting, has recently been proposed as a way to address some of these issues. Here we present ThoughtSource, a meta-dataset and software library for chain-of-thought (CoT) reasoning. The goal of ThoughtSource is to improve future artificial intelligence systems by facilitating qualitative understanding of CoTs, enabling empirical evaluations, and providing training data. This first release of ThoughtSource integrates seven scientific/medical, three general-domain and five math word question answering datasets.
翻訳日:2023-07-28 20:20:27 公開日:2023-07-27
# デコヒーレンスまたは弱い測定下での量子臨界

Quantum criticality under decoherence or weak measurement ( http://arxiv.org/abs/2301.05238v2 )

ライセンス: Link先を確認
Jong Yeon Lee, Chao-Ming Jian, and Cenke Xu(参考訳) デコヒーレンスは必然的に量子状態が環境に曝されると起こり、非自明な方法で量子臨界点(qcp)に影響を与える可能性がある。 1+1)d$共形場理論(CFT)に関する最近の文献で指摘されているように、弱い測定の効果は境界CFTの問題に数学的にマッピングできる。 本研究では,近年,境界効果と欠陥効果が理論的,数値的興味を惹きつけている(2+1)d$QCPに着目した。 測定結果の選択後における弱測定による非一貫性に着目した。 その結果,(1)o(n)wilson-fisher qcpでは,一般によく知られたwilson-fisherの不動点と全く異なる挙動を持つ2つの異なる境界/欠陥臨界点が観察され,特に最近提案されたエキゾチックな"extraordinary-log"相関を観察することができる。 2) 余剰量子相転移は、renyiエントロピーのような非結合密度行列と非線形な量を考えると、デコヒーレンスによって駆動することができる。 この遷移と toric コードモデルにおけるエラーによって駆動される情報理論的な遷移との関係を実証する。 (3) 選択後がない場合, 局所作用素間の相関関数は非復号状態のままであるにもかかわらず, 非局所作用素は「退次作用素」のような定性的に異なる挙動を持つ。

Decoherence inevitably happens when a quantum state is exposed to its environment, which can affect quantum critical points (QCP) in a nontrivial way. As was pointed out in recent literature on $(1+1)d$ conformal field theory (CFT), the effect of weak measurement can be mathematically mapped to the problem of boundary CFT. In this work, we focus on the $(2+1)d$ QCPs, whose boundary and defect effects have attracted enormous theoretical and numerical interests very recently. We focus on decoherence caused by weak measurements with and without post-selecting the measurement outcomes. Our main results are: (1) for an O(N) Wilson-Fisher QCP under weak measurement with post-selection, an observer would in general observe two different types of boundary/defect criticality with very different behaviors from the well-known Wilson-Fisher fixed points; in particular, it is possible to observe the recently proposed exotic "extraordinary-log" correlation. (2) An extra quantum phase transition can be driven by decoherence, if we consider quantities nonlinear with the decohered density matrix, such as the Renyi entropy. We demonstrate the connection between this transition to the information-theoretic transition driven by an error in the toric code model. (3) When there is no post-selection, though correlation functions between local operators remain the same as the undecohered pure state, nonlocal operators such as the "disorder operator" would have qualitatively distinct behaviors; and we also show that the decoherence can lead to confinement.
翻訳日:2023-07-28 20:20:13 公開日:2023-07-27
# MixupE: 方向微分の観点からのミックスアップの理解と改善

MixupE: Understanding and Improving Mixup from Directional Derivative Perspective ( http://arxiv.org/abs/2212.13381v4 )

ライセンス: Link先を確認
Yingtian Zou, Vikas Verma, Sarthak Mittal, Wai Hoh Tang, Hieu Pham, Juho Kannala, Yoshua Bengio, Arno Solin, Kenji Kawaguchi(参考訳) Mixupはディープニューラルネットワークをトレーニングするための一般的なデータ拡張テクニックで、入力とラベルを線形に補間することで追加サンプルを生成する。 この技術は多くの学習パラダイムや応用において一般化性能を向上させることが知られている。 本研究では,まず混合を解析し,すべての順序の無限個の方向微分を暗黙的に規則化することを示す。 この新たな知見に基づいて,理論上はバニラミックスアップよりも優れた一般化性能を提供するため,mixupの改良版を提案する。 提案手法の有効性を示すために,画像,表データ,音声,グラフなどの様々な領域で実験を行った。 提案手法は,様々なアーキテクチャを用いて,複数のデータセットのミックスアップを改良し,ImageNet Top-1の精度が0.8%向上したことを示す。

Mixup is a popular data augmentation technique for training deep neural networks where additional samples are generated by linearly interpolating pairs of inputs and their labels. This technique is known to improve the generalization performance in many learning paradigms and applications. In this work, we first analyze Mixup and show that it implicitly regularizes infinitely many directional derivatives of all orders. Based on this new insight, we propose an improved version of Mixup, theoretically justified to deliver better generalization performance than the vanilla Mixup. To demonstrate the effectiveness of the proposed method, we conduct experiments across various domains such as images, tabular data, speech, and graphs. Our results show that the proposed method improves Mixup across multiple datasets using a variety of architectures, for instance, exhibiting an improvement over Mixup by 0.8% in ImageNet top-1 accuracy.
翻訳日:2023-07-28 20:19:07 公開日:2023-07-27
# 量子ホール液滴の断熱変形

Adiabatic Deformations of Quantum Hall Droplets ( http://arxiv.org/abs/2212.12935v3 )

ライセンス: Link先を確認
Blagoje Oblak and Benoit Estienne(参考訳) 平面の面積保存変形を、基礎となる計量と収束ポテンシャルの両方を変える「量子同相」を通して電子波動関数に作用すると考える。 このような変換の断熱的な配列はベリー相を生じさせ、相互作用の存在下でも多体流と密度の項で閉じた形で書けることを示した。 シーリングとせん断を一般化する大きな種類の変形に対して、位相の先頭は熱力学極限における超過渡的なアハロノフ・ボーム項(N 電子に対して N$^2$ に比例する)である。 ゲージ不変なサブリーディングパートナーは、強磁場の限界におけるエッジでのジャンプから位相への支配的な寄与が生じる電流のみを測定する。 この結果、単位面積当たりのベリー曲率は有限となり、ホール粘度を連想させる。 後者は我々の形式に含まれており、トーラス上の標準導出を回避し、量子シミュレータで観測するための現実的な実験的な設定を提案している。

We consider area-preserving deformations of the plane, acting on electronic wavefunctions through "quantomorphisms" that change both the underlying metric and the confining potential. We show that adiabatic sequences of such transformations produce Berry phases that can be written in closed form in terms of the many-body current and density, even in the presence of interactions. For a large class of deformations that generalize squeezing and shearing, the leading piece of the phase is a super-extensive Aharonov-Bohm term (proportional to N$^2$ for N electrons) in the thermodynamic limit. Its gauge-invariant subleading partner only measures the current, whose dominant contribution to the phase stems from a jump at the edge in the limit of strong magnetic fields. This results in a finite Berry curvature per unit area, reminiscent of the Hall viscosity. We show that the latter is in fact included in our formalism, bypassing its standard derivation on a torus and suggesting realistic experimental setups for its observation in quantum simulators.
翻訳日:2023-07-28 20:18:52 公開日:2023-07-27
# グラフ表現学習による効率的かつ実現可能なロボット組立シーケンス計画

Efficient and Feasible Robotic Assembly Sequence Planning via Graph Representation Learning ( http://arxiv.org/abs/2303.10135v4 )

ライセンス: Link先を確認
Matan Atad, Jianxiang Feng, Ismael Rodr\'iguez, Maximilian Durner, Rudolph Triebel(参考訳) 自動ロボット組立シーケンス計画(RASP)は、製品カスタマイズの必要性が高まるとともに、現代製造業における生産性とレジリエンスを大幅に向上させることができる。 このような自動化を実現する上での最大の課題のひとつは、ますます複雑なアセンブリの潜在的なシーケンスの数が増えることによるソリューションの効率的な発見にある。 さらに、ロボットシステムにはコストのかかる実現性チェックが常に必要です。 そこで本研究では,製品アセンブリのためのグラフ表現であるアセンブリグラフと,アセンブリシーケンス生成のためのGRACEと呼ばれるポリシアーキテクチャであるGraph Assembly Processing Networkを提案する。 graceを使えば、グラフ入力から意味のある情報を抽出し、ステップバイステップでアセンブリシーケンスを予測できます。 実験では、両腕ロボットシステムのシミュレーションで収集したデータに基づいて、アルミニウムプロファイルの製品変種間で実現可能な組立シーケンスを予測できることを示す。 さらに,本手法は, 偽予測による望ましくない影響を著しく軽減し, 現実の展開を容易にすることができることを示す。 コードとトレーニングデータはhttps://github.com/DLR-RM/GRACEで公開されている。

Automatic Robotic Assembly Sequence Planning (RASP) can significantly improve productivity and resilience in modern manufacturing along with the growing need for greater product customization. One of the main challenges in realizing such automation resides in efficiently finding solutions from a growing number of potential sequences for increasingly complex assemblies. Besides, costly feasibility checks are always required for the robotic system. To address this, we propose a holistic graphical approach including a graph representation called Assembly Graph for product assemblies and a policy architecture, Graph Assembly Processing Network, dubbed GRACE for assembly sequence generation. With GRACE, we are able to extract meaningful information from the graph input and predict assembly sequences in a step-by-step manner. In experiments, we show that our approach can predict feasible assembly sequences across product variants of aluminum profiles based on data collected in simulation of a dual-armed robotic system. We further demonstrate that our method is capable of detecting infeasible assemblies, substantially alleviating the undesirable impacts from false predictions, and hence facilitating real-world deployment soon. Code and training data are available at https://github.com/DLR-RM/GRACE.
翻訳日:2023-07-28 20:12:03 公開日:2023-07-27
# 広二重ポテンシャルのダイナミクスによるマクロ量子重ね合わせ

Macroscopic Quantum Superpositions via Dynamics in a Wide Double-Well Potential ( http://arxiv.org/abs/2303.07959v2 )

ライセンス: Link先を確認
Marc Roda-Llordes, Andreu Riera-Campeny, Davide Candoli, Piotr T. Grochowski, Oriol Romero-Isart(参考訳) 本研究では, 量子状態における浮遊粒子の質量中心の高速合成に関する実験的提案を行い, ゼロ点運動よりも長いスケールで非局在化状態であり, 古典的類似性を持たない状態について述べる。 この状態は、高調波トラップが突然切り替わった後、粒子を十分に純粋な量子状態へ初期冷却した後、静的な二重ウェルポテンシャルで進化させることで得られる。 ナノ粒子とマイクロ粒子の共振実験に関係のあるノイズとデコヒーレンスを徹底的に解析する。 この文脈では、ノイズとデコヒーレンスの集合的源の影響を緩和するために、2つの粒子がそれぞれのポテンシャル井戸で進化する可能性を強調している。 提案の汎用性と拡張性は,単一原子,イオン,ボース・アインシュタイン凝縮など,幅広い系での実装に適している。 この結果から,非局在化量子状態において,ソース質量が生成する重力場を実験的に探索する方法が確立された。

We present an experimental proposal for the rapid preparation of the center of mass of a levitated particle in a macroscopic quantum state, that is a state delocalized over a length scale much larger than its zero-point motion and that has no classical analog. This state is prepared by letting the particle evolve in a static double-well potential after a sudden switchoff of the harmonic trap, following initial center-of-mass cooling to a sufficiently pure quantum state. We provide a thorough analysis of the noise and decoherence that is relevant to current experiments with levitated nano- and microparticles. In this context, we highlight the possibility of using two particles, one evolving in each potential well, to mitigate the impact of collective sources of noise and decoherence. The generality and scalability of our proposal make it suitable for implementation with a wide range of systems, including single atoms, ions, and Bose-Einstein condensates. Our results have the potential to enable the generation of macroscopic quantum states at unprecedented scales of length and mass, thereby paving the way for experimental exploration of the gravitational field generated by a source mass in a delocalized quantum state.
翻訳日:2023-07-28 20:11:47 公開日:2023-07-27
# ファイングラインド視覚認識問題に対する自己改善型表現改善のための共通学習

Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems ( http://arxiv.org/abs/2303.01669v2 )

ライセンス: Link先を確認
Yangyang Shu, Anton van den Hengel, Lingqiao Liu(参考訳) 自己教師付き学習(SSL)戦略は、様々な認識タスクにおいて顕著な性能を示した。 しかし,本研究および最近の研究は,SSL目標の最適化に有効な多くの特徴がFGVRの微妙な違いを特徴づけるのに適さないため,細粒度視覚認識(FGVR)の学習効果が低いことを示唆している。 この問題を克服するために,本論文では,インスタンスやクラス間でよく見られる識別的手がかりを識別するための,新たなスクリーニング機構の学習を提案する。 直感的には、共通有理は前景オブジェクトのキー部分からの識別パターンに対応する傾向がある。 既存のSSLプロセスとシームレスに統合できるように、トレーニング済みのオブジェクト部品やサリエンシ検出器を使わずに、SSL目標から誘導されるGradCAMを単純に活用することで、共通の合理性検出器を学習できることが示される。 具体的には、GradCAMを限定的な適合能力のブランチに適合させることで、共通の論理をキャプチャし、あまり一般的でない識別パターンを捨てることができます。 テスト段階では、ブランチは一連の空間重みを生成し、インスタンスを表す特徴を選択的に集約する。 4つの視覚的タスクに対する大規模な実験結果から,提案手法は異なる評価設定において大幅な改善をもたらすことが示された。

Self-supervised learning (SSL) strategies have demonstrated remarkable performance in various recognition tasks. However, both our preliminary investigation and recent studies suggest that they may be less effective in learning representations for fine-grained visual recognition (FGVR) since many features helpful for optimizing SSL objectives are not suitable for characterizing the subtle differences in FGVR. To overcome this issue, we propose learning an additional screening mechanism to identify discriminative clues commonly seen across instances and classes, dubbed as common rationales in this paper. Intuitively, common rationales tend to correspond to the discriminative patterns from the key parts of foreground objects. We show that a common rationale detector can be learned by simply exploiting the GradCAM induced from the SSL objective without using any pre-trained object parts or saliency detectors, making it seamlessly to be integrated with the existing SSL process. Specifically, we fit the GradCAM with a branch with limited fitting capacity, which allows the branch to capture the common rationales and discard the less common discriminative patterns. At the test stage, the branch generates a set of spatial weights to selectively aggregate features representing an instance. Extensive experimental results on four visual tasks demonstrate that the proposed method can lead to a significant improvement in different evaluation settings.
翻訳日:2023-07-28 20:10:37 公開日:2023-07-27
# 異次元化の実証分析とてんかん発作検出のための分類法

Empirical analysis of Different Dimensionality Reduction and classification Techniques for Epileptic Seizure detection ( http://arxiv.org/abs/2302.12012v2 )

ライセンス: Link先を確認
Rabel Guharoy, Nanda Dulal Jana, Suparna Biswas and Lalit Garg(参考訳) 脳波(Electroencephalogram、EEG)は、脳の電気活動を記録する非侵襲的な検査である。 この試験は、異なる脳疾患などの疾患の診断に使用される。 脳波信号はてんかん検出のためのもので、離散ウェーブレット変換(DWT)と機械学習分類器を用いてててんかん検出を行う。 てんかん発作検出では、主に機械学習分類器と統計的特徴を用いる。 脳波信号の隠れた情報は、脳に影響を及ぼす疾患を検出するのに有用である。 時と周波数領域の目的における脳波の最小変化を特定するのは非常に困難である。 dwtは周波数帯域の異なる信号の分解と特徴抽出を良好に行うことができる。 3次元性低減アルゴリズムを用いる。 主成分分析(pca)、独立成分分析(ica)、線形判別分析(lda)である。 最後に、フュージョンルールを用いて特徴を選択し、最後のステップでは3つの異なる分類器サポートベクターマシン(svm)、naive bayes(nb)、k-nearest-neighbor(knn)を個別に分類する。 提案したフレームワークはボンデータセット上でテストされ、シミュレーション結果はLDAとSVM 89.17%、LDAとKNN 80.42%、PCAとNB 89.92%、PCAとSVM 85.58%、PCAとKNN 80.42%、ICAとNB 82.33%、ICAとSVM 90.42%、ICAとKNN 90%、LDAとNB 100%の精度を提供する。 100%、100%、100%、100%、100%、100%の感度、特異性、精度、精度、そしてリコールを示す。 このLDAとNB法の組み合わせは、既存の手法を100%上回る精度を提供する。 その結果、このモデルの有効性が証明された。

An Electroencephalogram (EEG) is a non-invasive exam that records the electrical activity of the brain. This exam is used to help diagnose conditions such as different brain problems. EEG signals are taken for the purpose of epilepsy detection and with Discrete Wavelet Transform (DWT) and machine learning classifier, they perform epilepsy detection. In Epilepsy seizure detection, mainly machine learning classifiers and statistical features are used. The hidden information in the EEG signal is useful for detecting diseases affecting the brain. Sometimes it is very difficult to identify the minimum changes in the EEG in the time and frequency domains purpose. The DWT can give a good decomposition of the signals in different frequency bands and feature extraction. We use the tri-dimensionality reduction algorithm.; Principal Component Analysis (PCA), Independent Component Analysis (ICA), and Linear Discriminant Analysis (LDA). Finally, features are selected by using a fusion rule and at the last step three different classifiers Support Vector Machine (SVM), Naive Bayes (NB) and K-Nearest-Neighbor(KNN) have been used individually for the classification. The proposed framework is tested on the Bonn dataset and the simulation results provide the accuracy for the combination of LDA and SVM 89.17%, LDA and KNN 80.42%, PCA and NB 89.92%, PCA and SVM 85.58%, PCA and KNN 80.42%, ICA and NB 82.33%, ICA and SVM 90.42%, and ICA and KNN 90%, LDA and NB 100%, accuracy. It shows the sensitivity, specificity, accuracy, Precision, and Recall of 100%, 100%, 100%, 100%, and 100%. This combination of LDA with NB method provides the accuracy of 100% outperforming all existing methods. The results prove the effectiveness of this model.
翻訳日:2023-07-28 20:10:12 公開日:2023-07-27
# 近面風のアルゴリズムによる幻覚:対流パーミットスケールに対する生成逆ネットワークによる統計的ダウンスケーリング

Algorithmic Hallucinations of Near-Surface Winds: Statistical Downscaling with Generative Adversarial Networks to Convection-Permitting Scales ( http://arxiv.org/abs/2302.08720v2 )

ライセンス: Link先を確認
Nicolaas J. Annau, Alex J. Cannon, Adam H. Monahan(参考訳) 本稿では,画像超解像(SR)から統計的ダウンスケーリングへの新たな機械学習手法の適用について検討する。 特に,畳み込みニューラルネットワークに基づく生成型逆ネットワーク(gans)に注目する。 気象調査・予測(WRF)モデルシミュレーションを模擬した高分解能(HR)表面風を生成するために,我々は低分解能(LR)入力を条件とした。 従来のSRモデルとは異なり、LR入力はHR画像の粗大化バージョンとして理想化されているが、WRFエミュレーションでは非理想化LRとHRペアを使用し、内部変数による共有スケールのミスマッチが発生する。 本研究は,現在のsrに基づく統計ダウンスケールに基づいて,コンピュータビジョン分野からの新たな周波数分離(fs)アプローチを試みている。 SRモデルのスキルを評価するため,評価指標を慎重に選択し,空間パワースペクトルに基づく性能測定に着目する。 本稿では,GAN構成が生成領域の空間構造,特に空間変動スペクトルのバイアスに与える影響を明らかにする。 FS実験の評価にパワースペクトルを用いると、FSのコンピュータビジョンへの応用が気候場に変換されないことが明らかになった。 しかし、FS実験は、一般的なGANベースのSR目的関数に対するパワースペクトルの感度を示し、空間構造の決定におけるその役割を解釈し理解するのに役立つ。 この結果は、有望な構成オプションとして、新しい部分周波数分離スキームの開発を動機付ける。 また,内部変動による非理想化LRフィールドのGAN性能への影響を定量化する。 さらに,異なる物理的関連lr共変量に対する生成場の空間構造依存性を探索できるスペクトルに基づく特徴インポータンス実験を行った。

This paper explores the application of emerging machine learning methods from image super-resolution (SR) to the task of statistical downscaling. We specifically focus on convolutional neural network-based Generative Adversarial Networks (GANs). Our GANs are conditioned on low-resolution (LR) inputs to generate high-resolution (HR) surface winds emulating Weather Research and Forecasting (WRF) model simulations over North America. Unlike traditional SR models, where LR inputs are idealized coarsened versions of the HR images, WRF emulation involves using non-idealized LR and HR pairs resulting in shared-scale mismatches due to internal variability. Our study builds upon current SR-based statistical downscaling by experimenting with a novel frequency-separation (FS) approach from the computer vision field. To assess the skill of SR models, we carefully select evaluation metrics, and focus on performance measures based on spatial power spectra. Our analyses reveal how GAN configurations influence spatial structures in the generated fields, particularly biases in spatial variability spectra. Using power spectra to evaluate the FS experiments reveals that successful applications of FS in computer vision do not translate to climate fields. However, the FS experiments demonstrate the sensitivity of power spectra to a commonly used GAN-based SR objective function, which helps interpret and understand its role in determining spatial structures. This result motivates the development of a novel partial frequency-separation scheme as a promising configuration option. We also quantify the influence on GAN performance of non-idealized LR fields resulting from internal variability. Furthermore, we conduct a spectra-based feature-importance experiment allowing us to explore the dependence of the spatial structure of generated fields on different physically relevant LR covariates.
翻訳日:2023-07-28 20:09:18 公開日:2023-07-27
# 文脈データからニューズベンダー決定:データ駆動アルゴリズムの実際の性能について

From Contextual Data to Newsvendor Decisions: On the Actual Performance of Data-Driven Algorithms ( http://arxiv.org/abs/2302.08424v3 )

ライセンス: Link先を確認
Omar Besbes, Will Ma, Omar Mouchtaki(参考訳) 本研究では,過去データの関連性と量がどのようにデータ駆動型ポリシーの性能に影響するかを検討するために,文脈的意思決定の枠組みを検討する。 我々は、未成年者と未成年者とのトレードオフが必要な状況ニュースベンドル問題を分析し、不確定な需要に直面した。 我々は, ``close by'' の文脈で観察された過去の要求が分布によって近似し,データ駆動アルゴリズムの性能を文脈依存の最悪の場合の期待する後悔という概念を通して分析する。 我々は,過去のデータを文脈空間における類似性に応じて測定する,Weighted Empirical Risk Minimization(WERM)政策の幅広いクラスを分析した。 このクラスには、EMM、k-Nearest Neighbors、カーネルベースのポリシーなどの古典的なポリシーが含まれている。 我々の主要な方法論的貢献は、WERMポリシーの最悪の後悔を、特定のコンテキストの構成で正確に特徴づけることである。 我々の知る限りでは、過去の文献では濃度の不等式を通した上限に焦点をあてており、文脈的意思決定問題における厳密な性能保証に関する最初の理解を提供する。 代わりに最適化手法を採り、ニュースベンダー損失関数の構造を分離し、最悪の場合の分布に対する無限次元の最適化問題を単純な行探索に還元する。 これにより、以前の汎用的な境界によって難解な基本的な洞察が明らかにできます。 我々は、実際の保証された性能を文脈の関数として特徴付け、アルゴリズムの学習曲線に関する詳細な洞察を与える。

In this work, we explore a framework for contextual decision-making to study how the relevance and quantity of past data affects the performance of a data-driven policy. We analyze a contextual Newsvendor problem in which a decision-maker needs to trade-off between an underage and an overage cost in the face of uncertain demand. We consider a setting in which past demands observed under ``close by'' contexts come from close by distributions and analyze the performance of data-driven algorithms through a notion of context-dependent worst-case expected regret. We analyze the broad class of Weighted Empirical Risk Minimization (WERM) policies which weigh past data according to their similarity in the contextual space. This class includes classical policies such as ERM, k-Nearest Neighbors and kernel-based policies. Our main methodological contribution is to characterize exactly the worst-case regret of any WERM policy on any given configuration of contexts. To the best of our knowledge, this provides the first understanding of tight performance guarantees in any contextual decision-making problem, with past literature focusing on upper bounds via concentration inequalities. We instead take an optimization approach, and isolate a structure in the Newsvendor loss function that allows to reduce the infinite-dimensional optimization problem over worst-case distributions to a simple line search. This in turn allows us to unveil fundamental insights that were obfuscated by previous general-purpose bounds. We characterize actual guaranteed performance as a function of the contexts, as well as granular insights on the learning curve of algorithms.
翻訳日:2023-07-28 20:08:51 公開日:2023-07-27
# 安定化剤エントロピーの相転移と効率的な純度推定

Phase transition in Stabilizer Entropy and efficient purity estimation ( http://arxiv.org/abs/2302.07895v2 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F. E. Oliviero, Gianluca Esposito, Alioscia Hamma(参考訳) 安定化器エントロピー(SE)は、パウリ作用素に基づいて状態の拡散を定量化する。 非安定化性の計算可能な尺度であり、量子計算に有用な資源である。 seは量子システムの周りを移動でき、その複雑な特徴からサブシステムを効果的に浄化することができる。 残余サブシステムseに非クリフォード資源の密度関数としての相転移が存在することを示す。 このフェーズ遷移は、$poly(n)exp(t)$多くのクエリを必要とするサブシステム純度推定プロトコルの開始を印字し、安定化状態から状態に備える$t$非クリフォードゲートを含む回路に印をつける。 そして、$t=O(\log n)$の場合、多項式資源で純度を推定し、高度に絡み合った状態の場合、既知の最先端アルゴリズムよりも指数的なスピードアップを達成する。

Stabilizer Entropy (SE) quantifies the spread of a state in the basis of Pauli operators. It is a computationally tractable measure of non-stabilizerness and thus a useful resource for quantum computation. SE can be moved around a quantum system, effectively purifying a subsystem from its complex features. We show that there is a phase transition in the residual subsystem SE as a function of the density of non-Clifford resources. This phase transition has important operational consequences: it marks the onset of a subsystem purity estimation protocol that requires $poly(n)exp(t)$ many queries to a circuit containing $t$ non-Clifford gates that prepares the state from a stabilizer state. Then, for $t=O(\log n)$, it estimates the purity with polynomial resources and, for highly entangled states, attains an exponential speed-up over the known state-of-the-art algorithms.
翻訳日:2023-07-28 20:08:24 公開日:2023-07-27
# 量子粒子のエントロピー力

Entropic force for quantum particles ( http://arxiv.org/abs/2302.05429v2 )

ライセンス: Link先を確認
Jayarshi Bhattacharya, Gautam Gangopadhyay and Sunandan Gangopadhyay(参考訳) エントロピック力は、2011年にE. Verlindeがニュートンの第二法則とアインシュタインの一般相対性理論の場方程式を導出した後、理論物理学者の注目を集めている。 本稿では,量子粒子の分布にエントロピー力の考え方を拡張する。 連続変数に対するシャノンエントロピーの定義から始め、ここでは、ボゾン粒子とフェルミオン粒子の連続エントロピー力と同様に量子浸透圧を導出した。 エントロピー力はボソンとフェルミオンの対に対して明示的に計算される。 この結果の低温限界は、ボーソンのエントロピー力はフックの弾性の法則に似ており、ボース=アインシュタイン凝縮体の形成におけるこのアイデアの重要性を明らかにした。 フェルミオンの場合、低温限界はよく知られたノイマンの放射力に沸騰し、またパウリの排除原理を明らかにする。 次に、量子粒子間のエントロピー力の古典的極限について論じる。 さらに、非可換空間における量子粒子のエントロピー力も計算される。 その結果、非可換空間におけるフェルミオンに対するポーリの排他原理の違反が明らかになった。

Entropic force has been drawing the attention of theoretical physicists following E. Verlinde's work in 2011 to derive Newton's second law and Einstein's field equations of general relativity. In this paper, we extend the idea of entropic force to the distribution of quantum particles. Starting from the definition of Shannon entropy for continuous variables, here we have derived quantum osmotic pressure as well as the consequent entropic forces for bosonic and fermionic particles. The entropic force is computed explicitly for a pair of bosons and fermions. The low temperature limit of this result show that the entropic force for bosons is similar to Hooke's law of elasticity revealing the importance of this idea in the formation of a Bose-Einstein condensate. For fermions, the low temperature limit boils down to the well known Neumann's radial force and also reveals the Pauli's exclusion principle. The classical limit of the entropic force between quantum particles is then discussed. As a further example, the entropic force for quantum particles in noncommutative space is also computed. The result reveals a violation of the Pauli exclusion principle for fermions in noncommutative space.
翻訳日:2023-07-28 20:08:09 公開日:2023-07-27
# 気晴らしの悪影響: 動き推定のための逆向きの天候攻撃

Distracting Downpour: Adversarial Weather Attacks for Motion Estimation ( http://arxiv.org/abs/2305.06716v2 )

ライセンス: Link先を確認
Jenny Schmalfuss and Lukas Mehl and Andr\'es Bruhn(参考訳) 運動推定(光学フロー)に対する現在の敵対攻撃は、実世界では現れない小さなピクセル当たりの摂動を最適化する。 対照的に、悪天候はより現実的な脅威シナリオである。 そこで本研究では,雪片や雨天,霧雲などの気象効果を再現するために,逆最適化粒子を利用した動き推定手法を提案する。 我々の攻撃フレームワークの中核は、粒子を統合する微分可能な粒子レンダリングシステムである (i)連続して複数の時間ステップ (ii)3d空間へ (三)写真リアリスティックな外観。 最適化により, 運動推定に大きな影響を及ぼす逆向きの天候を得る。 驚くべきことに、以前1ピクセルあたりの小さな摂動に対して良好な堅牢性を示した手法は、特に敵の天候に弱い。 同時に、非最適化の気象で訓練を増強することで、気象効果に対するロバスト性が向上し、ほぼ追加コストで一般化性が向上する。 私たちのコードはhttps://github.com/cv-stuttgart/distractingdownpourで利用できます。

Current adversarial attacks on motion estimation, or optical flow, optimize small per-pixel perturbations, which are unlikely to appear in the real world. In contrast, adverse weather conditions constitute a much more realistic threat scenario. Hence, in this work, we present a novel attack on motion estimation that exploits adversarially optimized particles to mimic weather effects like snowflakes, rain streaks or fog clouds. At the core of our attack framework is a differentiable particle rendering system that integrates particles (i) consistently over multiple time steps (ii) into the 3D space (iii) with a photo-realistic appearance. Through optimization, we obtain adversarial weather that significantly impacts the motion estimation. Surprisingly, methods that previously showed good robustness towards small per-pixel perturbations are particularly vulnerable to adversarial weather. At the same time, augmenting the training with non-optimized weather increases a method's robustness towards weather effects and improves generalizability at almost no additional cost. Our code will be available at https://github.com/cv-stuttgart/DistractingDownpour.
翻訳日:2023-07-28 20:02:56 公開日:2023-07-27
# フェデレーションラーニングとO-RANの相乗効果:マルチ分散機械学習サービスのためのElastic Virtualized Architectureを目指して

Synergies Between Federated Learning and O-RAN: Towards an Elastic Virtualized Architecture for Multiple Distributed Machine Learning Services ( http://arxiv.org/abs/2305.02109v2 )

ライセンス: Link先を確認
Payam Abdisarabshali, Nicholas Accurso, Filippo Malandra, Weifeng Su, Seyyedali Hosseinalipour(参考訳) フェデレートラーニング(FL)は、最も人気のある分散機械学習技術である。 しかし、現代の無線ネットワーク上でのFLの実装は、大きな課題に直面している。 (i)ネットワーク状態のダイナミクス及び (ii)先行研究では考慮されていない複数のflサービス/タスクとシステム内の他のネットワークサービスの共存。 これらの課題に乗じて,動的マルチサービスFL(DMS-FL)と呼ばれるNextGネットワーク上の汎用FLパラダイムを導入する。 DMS-FLにおける3つの未探索設計事項を同定する。 (i)FLサービスオペレータの蓄積 (二)無線リソースの断片化、及び (iii)信号強度変動。 本稿では,新しい分散MLアーキテクチャである Elastic Virtualized FL (EV-FL) を提案する。 EV-FLはOpen RAN(O-RAN)システムの全可能性を解き放ち、FLサービスを実行するためのエラスティックリソースプロビジョニング手法を導入している。 さらに、既存のFLアーキテクチャに3次元を導入するマルチタイムのFL管理システムを構成する。 (i)仮想化 (ii)スケーラビリティ,及び (iii)弾力性。 EV-FLの調査を通じて,今後の研究の方向性を明らかにする。 最終的にEV-FLをシミュレートし、無線リソースの節約とFLサービスの公平性向上の可能性を実証した。

Federated learning (FL) is the most popular distributed machine learning technique. However, implementation of FL over modern wireless networks faces key challenges caused by (i) dynamics of the network conditions and (ii) the coexistence of multiple FL services/tasks and other network services in the system, which are not jointly considered in prior works. Motivated by these challenges, we introduce a generic FL paradigm over NextG networks, called dynamic multi-service FL (DMS-FL). We identify three unexplored design considerations in DMS-FL: (i) FL service operator accumulation, (ii) wireless resource fragmentation, and (iii) signal strength fluctuations. We take the first steps towards addressing these design considerations by proposing a novel distributed ML architecture called elastic virtualized FL (EV-FL). EV-FL unleashes the full potential of Open RAN (O-RAN) systems and introduces an elastic resource provisioning methodology to execute FL services. It further constitutes a multi-time-scale FL management system that introduces three dimensions into existing FL architectures: (i) virtualization, (ii) scalability, and (iii) elasticity. Through investigating EV-FL, we reveal a series of open research directions for future work. We finally simulate EV-FL to demonstrate its potential in saving wireless resources and increasing fairness among FL services.
翻訳日:2023-07-28 20:02:09 公開日:2023-07-27
# veml:大規模高次元データのためのエンドツーエンド機械学習ライフサイクル

VeML: An End-to-End Machine Learning Lifecycle for Large-scale and High-dimensional Data ( http://arxiv.org/abs/2304.13037v2 )

ライセンス: Link先を確認
Van-Duc Le, Cuong-Tien Bui, Wen-Syan Li(参考訳) エンドツーエンドの機械学習(ML)ライフサイクルは、データ準備やMLモデル設計からモデルトレーニング、そして推論のためのトレーニングされたモデルのデプロイに至るまで、多くの反復プロセスで構成されている。 ML問題のためのエンドツーエンドライフサイクルを構築する場合、多くのMLパイプラインを設計して実行し、多数のライフサイクルバージョンを生成する必要がある。 そこで本稿では,エンドツーエンドMLライフサイクル専用のバージョン管理システムであるVeMLを紹介する。 我々のシステムは、他のシステムが解決していないいくつかの重要な問題に取り組む。 まず、特に大規模かつ高次元のデータセットにおいて、MLライフサイクルを構築するための高コストに対処する。 我々は、システム内で管理されている類似データセットのライフサイクルを、新しいトレーニングデータに転送することで、この問題を解決する。 大規模・高次元データの類似性を効率的に計算するためのコアセットに基づくアルゴリズムを設計する。 もうひとつの重要な問題は、トレーニングデータとML寿命中のテストデータの違いによるモデルの精度低下であり、リカバリにつながる。 このシステムは、テストデータからラベル付きデータを取得し、新しいデータバージョンのmlライフサイクルを再構築することなく、このミスマッチを検出するのに役立ちます。 本研究は,運転画像と時空間センサデータを用いた実世界の大規模データセット実験を行い,有望な結果を示す。

An end-to-end machine learning (ML) lifecycle consists of many iterative processes, from data preparation and ML model design to model training and then deploying the trained model for inference. When building an end-to-end lifecycle for an ML problem, many ML pipelines must be designed and executed that produce a huge number of lifecycle versions. Therefore, this paper introduces VeML, a Version management system dedicated to end-to-end ML Lifecycle. Our system tackles several crucial problems that other systems have not solved. First, we address the high cost of building an ML lifecycle, especially for large-scale and high-dimensional dataset. We solve this problem by proposing to transfer the lifecycle of similar datasets managed in our system to the new training data. We design an algorithm based on the core set to compute similarity for large-scale, high-dimensional data efficiently. Another critical issue is the model accuracy degradation by the difference between training data and testing data during the ML lifetime, which leads to lifecycle rebuild. Our system helps to detect this mismatch without getting labeled data from testing data and rebuild the ML lifecycle for a new data version. To demonstrate our contributions, we conduct experiments on real-world, large-scale datasets of driving images and spatiotemporal sensor data and show promising results.
翻訳日:2023-07-28 20:01:50 公開日:2023-07-27
# CAR-DESPOT:共生環境におけるロボットのための因果形オンラインPOMDP計画

CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in Confounded Environments ( http://arxiv.org/abs/2304.06848v3 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Lars Kunze(参考訳) 現実の環境で動くロボットは、確率的な行動の結果を推論し、真の世界状態の部分的な観察に基づく決定をしなければならない。 正確でロバストな行動予測を行う上での大きな課題は、統合の問題であり、もし未処理のままにしておくと予測エラーにつながる可能性がある。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらの確率的かつ部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。 しかしながら、明示的な因果意味論の欠如により、pomdpの計画手法はバイアスを和らげる傾向にあり、従って、観察されていない共同創設者の存在下では、低パフォーマンスなポリシーを生み出す可能性がある。 本稿では,現代オンラインPOMDPプランナであるAR-DESPOTの因果的インフォームド拡張について,因果的モデリングと推論を用いて,不測の共起変数によるエラーを除去する手法を提案する。 さらに,提案手法は,基礎的真理モデルデータから因果モデルの部分パラメータ化をオフラインで学習する手法を提案する。 我々は,未観測の共同創設者による玩具問題に対する手法の評価を行い,学習した因果モデルが非常に正確であることを示し,また,提案手法はAR-DESPOTよりも総合的に高い性能の政策を立案し,より堅牢であることを示す。

Robots operating in real-world environments must reason about possible outcomes of stochastic actions and make decisions based on partial observations of the true world state. A major challenge for making accurate and robust action predictions is the problem of confounding, which if left untreated can lead to prediction errors. The partially observable Markov decision process (POMDP) is a widely-used framework to model these stochastic and partially-observable decision-making problems. However, due to a lack of explicit causal semantics, POMDP planning methods are prone to confounding bias and thus in the presence of unobserved confounders may produce underperforming policies. This paper presents a novel causally-informed extension of "anytime regularized determinized sparse partially observable tree" (AR-DESPOT), a modern anytime online POMDP planner, using causal modelling and inference to eliminate errors caused by unmeasured confounder variables. We further propose a method to learn offline the partial parameterisation of the causal model for planning, from ground truth model data. We evaluate our methods on a toy problem with an unobserved confounder and show that the learned causal model is highly accurate, while our planning method is more robust to confounding and produces overall higher performing policies than AR-DESPOT.
翻訳日:2023-07-28 20:01:29 公開日:2023-07-27
# DiffFit: 簡単なパラメータ効率の良い微調整による大拡散モデルの解錠性

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2304.06648v6 )

ライセンス: Link先を確認
Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li(参考訳) 拡散モデルは高品質な画像の生成に非常に有効であることが証明されている。 しかし、大規模な事前学習拡散モデルを新しい領域に適用することは、現実世界のアプリケーションにとって重要な課題である。 本稿では,新しい領域への高速適応を可能にする大規模事前学習拡散モデルを微調整するパラメータ効率の高い手法であるdifffitを提案する。 DiffFitは、特定のレイヤでバイアス項と新たに追加されたスケーリング要素のみを微調整するが、トレーニングのスピードアップとモデルストレージコストの削減をもたらす、恥ずかしいほど単純である。 完全な微調整と比較すると、DiffFitは2$\times$トレーニングスピードアップを実現しており、全体のモデルパラメータの約0.12\%を格納する必要がある。 高速適応におけるスケーリング因子の有効性を正当化する直観的理論解析が提案されている。 下流の8つのデータセットでは、DiffFitはより効率的でありながら、完全な微調整よりも優れた、あるいは競争的なパフォーマンスを達成する。 注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。 拡散ベースの手法の中で、DiffFitはImageNet 512$\times$512ベンチマークで3.02の最先端FIDを新たに設定し、公開前のImageNet 256$\times$256チェックポイントから25エポックだけを微調整した。

Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.
翻訳日:2023-07-28 20:01:02 公開日:2023-07-27
# $\tilde{\mathcal{o}}$:漸近的に優れているが、実用的でない量子分散アルゴリズム

Mind the $\tilde{\mathcal{O}}$: Asymptotically Better, but Still Impractical, Quantum Distributed Algorithms ( http://arxiv.org/abs/2304.02825v5 )

ライセンス: Link先を確認
Phillip A. Kerger, David E. Bernal Neira, Zoe Gonzalez Izquierdo, Eleanor G. Rieffel(参考訳) CONGESTとCONGEST-CLIQUEモデルは、ネットワーク内のプロセッサ間の通信帯域幅が著しく制限されている状況を表現するために慎重に研究されている。 O(log(n))$ビットの情報のみのメッセージは、各ラウンドのプロセッサ間で送信することができる。 これらのモデルの量子バージョンにより、プロセッサは同じ帯域制限下で量子ビットと通信し、計算することができる。 古典量子モデルよりもこれらの量子モデルでより効率的に解くことができる問題は何か? 既存の作業に基づいて、私たちはこの質問に2つの方法で貢献します。 まず, 分散計算の量子連続格子モデルにおいて, ほぼ最適なスタイナーツリーを生成するためのアルゴリズムと, ネットワーク内のノード数を$n$とする$\tilde{o}(n^{1/4})$ rounds と$\tilde{o}(n^{9/4})$メッセージを使用する完全有向最小スパンニングツリーを生成するアルゴリズムの2つのアルゴリズムを提案する。 したがって、このアルゴリズムは古典集合-ユークリッドモデルにおける既知のアルゴリズムよりも低い漸近的ラウンドとメッセージ複雑性を達成する。 高レベルでは、古典的アルゴリズムフレームワークと量子サブルーチンを組み合わせることで、これらの結果を達成する。 Groverの検索アルゴリズムの分散バージョンを使用して三角形探索を高速化する既存のフレームワークは、漸近的スピードアップの中核にある。 第二に、我々のアルゴリズムと関連するアルゴリズムにかかわる定数と対数要素を慎重に特徴づけるが、そうでなければ$\tilde{O}$表記法でよく分からない。 この分析は、我々の量子アルゴリズムと既存の量子アルゴリズムと古典アルゴリズムの両方を実用的にするためにいくつかの改善が必要であることを示している。

The CONGEST and CONGEST-CLIQUE models have been carefully studied to represent situations where the communication bandwidth between processors in a network is severely limited. Messages of only $O(log(n))$ bits of information each may be sent between processors in each round. The quantum versions of these models allow the processors instead to communicate and compute with quantum bits under the same bandwidth limitations. This leads to the following natural research question: What problems can be solved more efficiently in these quantum models than in the classical ones? Building on existing work, we contribute to this question in two ways. Firstly, we present two algorithms in the Quantum CONGEST-CLIQUE model of distributed computation that succeed with high probability; one for producing an approximately optimal Steiner Tree, and one for producing an exact directed minimum spanning tree, each of which uses $\tilde{O}(n^{1/4})$ rounds of communication and $\tilde{O}(n^{9/4})$ messages, where $n$ is the number of nodes in the network. The algorithms thus achieve a lower asymptotic round and message complexity than any known algorithms in the classical CONGEST-CLIQUE model. At a high level, we achieve these results by combining classical algorithmic frameworks with quantum subroutines. An existing framework for using distributed version of Grover's search algorithm to accelerate triangle finding lies at the core of the asymptotic speedup. Secondly, we carefully characterize the constants and logarithmic factors involved in our algorithms as well as related algorithms, otherwise commonly obscured by $\tilde{O}$ notation. The analysis shows that some improvements are needed to render both our and existing related quantum and classical algorithms practical, as their asymptotic speedups only help for very large values of $n$.
翻訳日:2023-07-28 20:00:34 公開日:2023-07-27
# USTC FLICAR:大型自律飛行ロボットのためのLiDAR-Iertial-Cameraのセンサーフュージョンデータセット

USTC FLICAR: A Sensors Fusion Dataset of LiDAR-Inertial-Camera for Heavy-duty Autonomous Aerial Work Robots ( http://arxiv.org/abs/2304.01986v2 )

ライセンス: Link先を確認
Ziming Wang, Yujiang Liu, Yifan Duan, Xingchen Li, Xinran Zhang, Jianmin Ji, Erbao Dong and Yanyong Zhang(参考訳) 本稿では,重度自律型航空作業ロボットのための作業空間の同時局所化とマッピング,高精度な3次元再構築を目的としたUSTC FLICARデータセットを提案する。 近年、多くの公共データセットが自動運転車や無人航空機(UAV)の発展に重要な役割を果たしている。 しかし、これら2つのプラットフォームは空中作業ロボットとは異なる。UAVはペイロード容量に制限され、車両は2次元移動に制限されている。 このギャップを埋めるために,4台のLiDAR,2台のステレオカメラ,2台の単眼カメラ,慣性測定ユニット(IMU),およびGNSS/INSシステムという,多種多様な校正・同期センサーを備えたバケットトラックをベースとした"ジラフ"マッピングロボットを開発した。 レーザートラッカーを用いてミリレベルの地上真実位置を記録する。 私たちはまた、比較のためにデータを集めるために「okapi」マッピングロボットである地上双生児も作っています。 提案したデータセットは、典型的な自律走行センシングスイートを空中シーンに拡張し、自律走行認識システムとバケットトラックを組み合わせることで、汎用的な自律航空作業プラットフォームを構築する可能性を実証する。 さらに,segment anythingモデル(sam)に基づいて,時間的および空間的次元の連続データに対して,詳細な意味セグメンテーションアノテーションを提供するセマンティックフレクタデータセットを作成した。 データセットは、https://ustc-flicar.github.io/からダウンロードできる。

In this paper, we present the USTC FLICAR Dataset, which is dedicated to the development of simultaneous localization and mapping and precise 3D reconstruction of the workspace for heavy-duty autonomous aerial work robots. In recent years, numerous public datasets have played significant roles in the advancement of autonomous cars and unmanned aerial vehicles (UAVs). However, these two platforms differ from aerial work robots: UAVs are limited in their payload capacity, while cars are restricted to two-dimensional movements. To fill this gap, we create the "Giraffe" mapping robot based on a bucket truck, which is equipped with a variety of well-calibrated and synchronized sensors: four 3D LiDARs, two stereo cameras, two monocular cameras, Inertial Measurement Units (IMUs), and a GNSS/INS system. A laser tracker is used to record the millimeter-level ground truth positions. We also make its ground twin, the "Okapi" mapping robot, to gather data for comparison. The proposed dataset extends the typical autonomous driving sensing suite to aerial scenes, demonstrating the potential of combining autonomous driving perception systems with bucket trucks to create a versatile autonomous aerial working platform. Moreover, based on the Segment Anything Model (SAM), we produce the Semantic FLICAR dataset, which provides fine-grained semantic segmentation annotations for multimodal continuous data in both temporal and spatial dimensions. The dataset is available for download at: https://ustc-flicar.github.io/.
翻訳日:2023-07-28 19:59:58 公開日:2023-07-27
# FedFTN:多施設PETデノベーションのためのDeep Feature Transformation Networkによる個人化フェデレーション学習

FedFTN: Personalized Federated Learning with Deep Feature Transformation Network for Multi-institutional Low-count PET Denoising ( http://arxiv.org/abs/2304.00570v2 )

ライセンス: Link先を確認
Bo Zhou, Huidong Xie, Qiong Liu, Xiongchao Chen, Xueqi Guo, Zhicheng Feng, S. Kevin Zhou, Biao Li, Axel Rominger, Kuangyu Shi, James S. Duncan, Chi Liu(参考訳) 低位PETは放射線照射と取得時間を短縮する効率的な方法であるが、再構成された画像は低信号対雑音比 (SNR) に悩まされることが多く、診断や下流作業に影響を及ぼす。 近年のディープラーニングの進歩は,PET画像の品質向上に大きな可能性を示しているが,患者データのプライバシやセキュリティ上の懸念から,堅牢なモデルをトレーニングするために,複数の機関から大規模で集中的かつ多様なデータセットを取得することは困難である。 さらに、異なる機関のローカウンドpetデータは異なるデータ分布を持つため、パーソナライズされたモデルが必要となる。 従来のフェデレーション学習(fl)アルゴリズムでは,ローカルデータの集約を必要とせずに,多施設共同トレーニングを可能にするが,複数機関の低人数petデノイジング適用における大きなドメインシフトへの対処は依然として課題であり,未検討のままである。 本稿では,これらの課題に対処する個人化されたフェデレーション学習戦略であるFedFTNを提案する。 FedFTNは、ローカルなディープ・フィーチャー・トランスフォーメーション・ネットワーク(FTN)を使用して、グローバルに共有されているデノナイジング・ネットワークの機能出力を変調し、各機関でパーソナライズされたローカウントPETデノナイジングを可能にする。 連合学習の過程では、分断ネットワークの重みのみが通信され、集約され、一方ftnは特徴変換のための地方機関に残る。 本手法は,3大陸にまたがる3つの医療センターの多施設間におけるPET画像データの大規模データセットを用いて評価し,FedFTNが高品質なPET画像を提供することを示した。

Low-count PET is an efficient way to reduce radiation exposure and acquisition time, but the reconstructed images often suffer from low signal-to-noise ratio (SNR), thus affecting diagnosis and other downstream tasks. Recent advances in deep learning have shown great potential in improving low-count PET image quality, but acquiring a large, centralized, and diverse dataset from multiple institutions for training a robust model is difficult due to privacy and security concerns of patient data. Moreover, low-count PET data at different institutions may have different data distribution, thus requiring personalized models. While previous federated learning (FL) algorithms enable multi-institution collaborative training without the need of aggregating local data, addressing the large domain shift in the application of multi-institutional low-count PET denoising remains a challenge and is still highly under-explored. In this work, we propose FedFTN, a personalized federated learning strategy that addresses these challenges. FedFTN uses a local deep feature transformation network (FTN) to modulate the feature outputs of a globally shared denoising network, enabling personalized low-count PET denoising for each institution. During the federated learning process, only the denoising network's weights are communicated and aggregated, while the FTN remains at the local institutions for feature transformation. We evaluated our method using a large-scale dataset of multi-institutional low-count PET imaging data from three medical centers located across three continents, and showed that FedFTN provides high-quality low-count PET images, outperforming previous baseline FL reconstruction methods across all low-count levels at all three institutions.
翻訳日:2023-07-28 19:59:28 公開日:2023-07-27
# 深分類器におけるマハラノビス距離を用いた不確かさ推定のためのガウス的潜在表現

Gaussian Latent Representations for Uncertainty Estimation using Mahalanobis Distance in Deep Classifiers ( http://arxiv.org/abs/2305.13849v2 )

ライセンス: Link先を確認
Aishwarya Venkataramanan, Assia Benbihi, Martin Laviale, Cedric Pradalier(参考訳) 近年,ネットワークの潜在空間におけるデータ分布は,分類の不確かさを推定し,ood(out-of-distribution)サンプルを検出するのに有用であることが示された。 不確実性推定に資するよく規則化された潜在空間を得るため、既存の手法はモデルアーキテクチャやトレーニング手順に大きな変化をもたらす。 本稿では,マハラノビス距離に基づく不確実性予測のための軽量,高速,高性能な正規化手法を提案する。 マハラノビス距離計算に好適なガウス的潜在表現を導出するために、クラス内表現を複数のガウス的表現に分離する自己教師付き表現学習法を提案する。 非ガウス表現を持つクラスは自動的に識別され、ほぼガウス表現である複数の新しいクラスに動的にクラスタ化される。 標準OODベンチマークによる評価の結果,提案手法は最小推定時間でOOD検出の最先端化を実現し,予測確率のキャリブレーションに非常に競争力があることがわかった。 最後に,本手法の微生物分類における実生活コンピュータビジョン利用事例への適用性を示す。

Recent works show that the data distribution in a network's latent space is useful for estimating classification uncertainty and detecting Out-of-distribution (OOD) samples. To obtain a well-regularized latent space that is conducive for uncertainty estimation, existing methods bring in significant changes to model architectures and training procedures. In this paper, we present a lightweight, fast, and high-performance regularization method for Mahalanobis distance-based uncertainty prediction, and that requires minimal changes to the network's architecture. To derive Gaussian latent representation favourable for Mahalanobis Distance calculation, we introduce a self-supervised representation learning method that separates in-class representations into multiple Gaussians. Classes with non-Gaussian representations are automatically identified and dynamically clustered into multiple new classes that are approximately Gaussian. Evaluation on standard OOD benchmarks shows that our method achieves state-of-the-art results on OOD detection with minimal inference time, and is very competitive on predictive probability calibration. Finally, we show the applicability of our method to a real-life computer vision use case on microorganism classification.
翻訳日:2023-07-28 19:50:52 公開日:2023-07-27
# 分位回帰と流れによる運転行動分布のテール分位子学習について

On Learning the Tail Quantiles of Driving Behavior Distributions via Quantile Regression and Flows ( http://arxiv.org/abs/2305.13106v2 )

ライセンス: Link先を確認
Jia Yu Tee, Oliver De Candido, Wolfgang Utschick, Philipp Geiger(参考訳) 安全自律運転(AD)に向けて、AD車両との相互作用において、人間の運転行動確率分布の多様性とテール量子を正確に把握する学習モデルの問題を検討する。 運転者の状態から連続的な行動を予測するこのようなモデルは、ADエージェントシミュレーションと現実の間のギャップを埋めることに特に関係している。 この目的のために,(1)量子回帰(絶対損失に基づく)と(2)自己回帰的量子フロー(正規化フローのバージョン)という,強い分布仮定を避けるための2つの柔軟な量子化学習フレームワークを適用した。 トレーニングは行動クローニングファシオンで行われる。 いくつかの高速道路で運転者軌道からなる高Dデータセットを使用する。 我々は1ステップの加速予測タスクと複数ステップのドライバーシミュレーションロールアウトでアプローチを評価した。 傾斜した絶対損失を指標として定量的な結果を報告し,現実的な極値行動が学べることを示す定性的な例を示し,主な知見について考察する。

Towards safe autonomous driving (AD), we consider the problem of learning models that accurately capture the diversity and tail quantiles of human driver behavior probability distributions, in interaction with an AD vehicle. Such models, which predict drivers' continuous actions from their states, are particularly relevant for closing the gap between AD agent simulations and reality. To this end, we adapt two flexible quantile learning frameworks for this setting that avoid strong distributional assumptions: (1) quantile regression (based on the titled absolute loss), and (2) autoregressive quantile flows (a version of normalizing flows). Training happens in a behavior cloning-fashion. We use the highD dataset consisting of driver trajectories on several highways. We evaluate our approach in a one-step acceleration prediction task, and in multi-step driver simulation rollouts. We report quantitative results using the tilted absolute loss as metric, give qualitative examples showing that realistic extremal behavior can be learned, and discuss the main insights.
翻訳日:2023-07-28 19:50:32 公開日:2023-07-27
# 集合アノテーション付き名前付きエンティティ認識のための信頼に基づく部分ラベル学習モデル

A Confidence-based Partial Label Learning Model for Crowd-Annotated Named Entity Recognition ( http://arxiv.org/abs/2305.12485v2 )

ライセンス: Link先を確認
Limao Xiong, Jie Zhou, Qunxi Zhu, Xiao Wang, Yuanbin Wu, Qi Zhang, Tao Gui, Xuanjing Huang, Jin Ma, Ying Shan(参考訳) 名前付きエンティティ認識(NER)の既存のモデルは、主に大規模ラベル付きデータセットに基づいており、常にクラウドソーシングを用いて取得される。 しかし、大きなラベル付け空間とこのタスクの複雑さのため、NERの複数のアノテータから多数決によって統一された正しいラベルを得るのは難しい。 この問題に対処するため,我々は,元々のマルチアノテーションラベルを直接利用することを目指している。 特に,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。 このモデルは,経験的リスクを最小限に抑えて,期待最大化(EM)アルゴリズムを用いてトークンとコンテンツに依存した信頼度を学習する。 真後推定器と信頼推定器とを反復的に行い、真後推定器と信頼度をそれぞれ更新する。 実世界のデータセットと合成データセットの両方で広範囲に実験を行い、強力なベースラインと比較して性能を効果的に向上できることを示す。

Existing models for named entity recognition (NER) are mainly based on large-scale labeled datasets, which always obtain using crowdsourcing. However, it is hard to obtain a unified and correct label via majority voting from multiple annotators for NER due to the large labeling space and complexity of this task. To address this problem, we aim to utilize the original multi-annotator labels directly. Particularly, we propose a Confidence-based Partial Label Learning (CPLL) method to integrate the prior confidence (given by annotators) and posterior confidences (learned by models) for crowd-annotated NER. This model learns a token- and content-dependent confidence via an Expectation-Maximization (EM) algorithm by minimizing empirical risk. The true posterior estimator and confidence estimator perform iteratively to update the true posterior and confidence respectively. We conduct extensive experimental results on both real-world and synthetic datasets, which show that our model can improve performance effectively compared with strong baselines.
翻訳日:2023-07-28 19:50:14 公開日:2023-07-27
# 2次元投影画像を用いた歯科用cbctおよび顔スキャンデータの3次元自動登録

Automatic 3D Registration of Dental CBCT and Face Scan Data using 2D Projection Images ( http://arxiv.org/abs/2305.10132v3 )

ライセンス: Link先を確認
Hyoung Suk Park and Chang Min Hyun and Sang-Hwy Lee and Jin Keun Seo and Kiwan Jeon(参考訳) 本稿では,歯科用コーンビームCT(CBCT)と顔スキャンデータの完全自動登録法を提案する。 3Dデジタル治療計画や矯正手術など、様々な用途で3D顎顔面モデルのデジタルプラットフォームとして使用できる。 顔スキャンとCBCT画像の正確な融合の困難は、異なる画像取得方法と2つの顔表面の対応範囲の制限によるものである。 また、放射線被曝を伴う顔関連3d医療データを用いるため、機械学習技術を使うことは困難であり、訓練には入手が困難である。 提案手法は,既存の機械学習に基づく2Dランドマーク検出アルゴリズムをオープンソースライブラリに再利用し,対応する2Dランドマークの知識からペア化された3Dランドマークを識別する新しい数学的アルゴリズムを開発した。 本研究の主な貢献は,様々な2次元顔画像モデルに頑健で一般化された顔ランドマーク検出アルゴリズムを用いて,顔ランドマークの注釈付きトレーニングデータを必要としないことである。 これにより、2つの異なる投影角度から生成された2次元投影画像上で対応するランドマークを識別する2次元問題に3次元ランドマーク検出問題を還元する。 登録対象の3次元ランドマークは,cbctおよび顔スキャン環境下での幾何変化の少ないサブサーフェスから選択した。 最終微調整には3次元ランドマーク周辺の幾何学的情報を利用する反復クローズトポイント法が適用された。 実験の結果,提案手法は3組のcbctおよびface scanデータセットにおいて平均0.74mmの面距離誤差を達成した。

This paper presents a fully automatic registration method of dental cone-beam computed tomography (CBCT) and face scan data. It can be used for a digital platform of 3D jaw-teeth-face models in a variety of applications, including 3D digital treatment planning and orthognathic surgery. Difficulties in accurately merging facial scans and CBCT images are due to the different image acquisition methods and limited area of correspondence between the two facial surfaces. In addition, it is difficult to use machine learning techniques because they use face-related 3D medical data with radiation exposure, which are difficult to obtain for training. The proposed method addresses these problems by reusing an existing machine-learning-based 2D landmark detection algorithm in an open-source library and developing a novel mathematical algorithm that identifies paired 3D landmarks from knowledge of the corresponding 2D landmarks. A main contribution of this study is that the proposed method does not require annotated training data of facial landmarks because it uses a pre-trained facial landmark detection algorithm that is known to be robust and generalized to various 2D face image models. Note that this reduces a 3D landmark detection problem to a 2D problem of identifying the corresponding landmarks on two 2D projection images generated from two different projection angles. Here, the 3D landmarks for registration were selected from the sub-surfaces with the least geometric change under the CBCT and face scan environments. For the final fine-tuning of the registration, the Iterative Closest Point method was applied, which utilizes geometrical information around the 3D landmarks. The experimental results show that the proposed method achieved an averaged surface distance error of 0.74 mm for three pairs of CBCT and face scan datasets.
翻訳日:2023-07-28 19:49:31 公開日:2023-07-27
# SUG: 3Dポイントクラウド分類のための単一データセット統一一般化

SUG: Single-dataset Unified Generalization for 3D Point Cloud Classification ( http://arxiv.org/abs/2305.09160v2 )

ライセンス: Link先を確認
Siyuan Huang, Bo Zhang, Botian Shi, Peng Gao, Yikang Li, Hongsheng Li(参考訳) ドメイン一般化(dg)問題は2d画像タスクで急速に増加しているが、3dポイントクラウドデータの探索はまだ不十分であり、クラス間の不均一なモダリティ分布を持つより複雑で不確定なクロスドメイン分散に挑戦されている。 本稿では,従来の2次元DGとは違って3次元DG問題に焦点をあて,単一のソースデータセットのみを活用する単一データセット統一一般化(SUG)フレームワークを提案する。 具体的には,まず,分割したサブドメイン間の特徴アライメント処理を単一ソースデータセットから行うことにより,学習した表現をドメインに依存しない識別性に制約できるマルチグラニュアルサブドメインアライメント(MSA)手法を設計する。 次に、サンプルレベルのドメイン認識(SDA)戦略を示し、サンプルレベルのドメイン間距離に応じて異なるサブドメインからのサンプルを選択的に適応させ、負の転送を避ける。 実験により、当社のsugは、ターゲット領域の広範囲なデータにアクセスする必要のある既存の教師なしドメイン適応メソッドを上回ることさえも、対象領域の非認識の一般化能力を向上できることが示されました。 私たちのコードはhttps://github.com/siyuanhuang95/sugで入手できる。

Although Domain Generalization (DG) problem has been fast-growing in the 2D image tasks, its exploration on 3D point cloud data is still insufficient and challenged by more complex and uncertain cross-domain variances with uneven inter-class modality distribution. In this paper, different from previous 2D DG works, we focus on the 3D DG problem and propose a Single-dataset Unified Generalization (SUG) framework that only leverages a single source dataset to alleviate the unforeseen domain differences faced by a well-trained source model. Specifically, we first design a Multi-grained Sub-domain Alignment (MSA) method, which can constrain the learned representations to be domain-agnostic and discriminative, by performing a multi-grained feature alignment process between the splitted sub-domains from the single source dataset. Then, a Sample-level Domain-aware Attention (SDA) strategy is presented, which can selectively enhance easy-to-adapt samples from different sub-domains according to the sample-level inter-domain distance to avoid the negative transfer. Experiments demonstrate that our SUG can boost the generalization ability for unseen target domains, even outperforming the existing unsupervised domain adaptation methods that have to access extensive target domain data. Our code is available at https://github.com/SiyuanHuang95/SUG.
翻訳日:2023-07-28 19:49:02 公開日:2023-07-27
# 差動畳み込みファジィ時系列予測

Differential Convolutional Fuzzy Time Series Forecasting ( http://arxiv.org/abs/2305.08890v2 )

ライセンス: Link先を確認
Tianxiang Zhan, Yuanpeng He, Yong Deng, Zhen Li(参考訳) ファジィ時系列予測(FTSF)は適用範囲が広い典型的な予測手法である。 従来のFTSFは、未定義の機能を認識する能力の喪失につながるエキスパートシステムと見なされている。 前述のことがFTSFで予測が下手な理由である。 この問題を解決するために,提案モデルである差動ファジィ畳み込みニューラルネットワーク(DFCNN)は,畳み込みニューラルネットワークを用いて学習可能な能力でFTSFを再実装する。 DFCNNは潜在的な情報を認識し、予測精度を向上させることができる。 ニューラルネットワークの学習能力のおかげで、FTSFで確立されたファジィルールの長さは、専門家がエキスパートシステムで処理できない任意の長さに拡張される。 同時に、FTSFは非定常時系列の傾向のため、通常、非定常時系列の満足な性能を達成できない。 非定常時系列の傾向は、FTSFによって確立されたファジィ集合が無効となり、予測が失敗する原因となる。 DFCNNは差分アルゴリズムを用いて非定常時系列を弱め、DFCNNはFTSFが良好な性能で予測できない低い誤差で非定常時系列を予測できる。 一連の実験の後、DFCNNは既存のFTSFや一般的な時系列予測アルゴリズムよりも先にある優れた予測効果を持つ。 最後に、DFCNNはFTSFを改善するためのさらなるアイデアを提供し、継続的な研究価値を保持している。

Fuzzy time series forecasting (FTSF) is a typical forecasting method with wide application. Traditional FTSF is regarded as an expert system which leads to loss of the ability to recognize undefined features. The mentioned is the main reason for poor forecasting with FTSF. To solve the problem, the proposed model Differential Fuzzy Convolutional Neural Network (DFCNN) utilizes a convolution neural network to re-implement FTSF with learnable ability. DFCNN is capable of recognizing potential information and improving forecasting accuracy. Thanks to the learnable ability of the neural network, the length of fuzzy rules established in FTSF is expended to an arbitrary length that the expert is not able to handle by the expert system. At the same time, FTSF usually cannot achieve satisfactory performance of non-stationary time series due to the trend of non-stationary time series. The trend of non-stationary time series causes the fuzzy set established by FTSF to be invalid and causes the forecasting to fail. DFCNN utilizes the Difference algorithm to weaken the non-stationary of time series so that DFCNN can forecast the non-stationary time series with a low error that FTSF cannot forecast in satisfactory performance. After the mass of experiments, DFCNN has an excellent prediction effect, which is ahead of the existing FTSF and common time series forecasting algorithms. Finally, DFCNN provides further ideas for improving FTSF and holds continued research value.
翻訳日:2023-07-28 19:48:36 公開日:2023-07-27
# トリビュートAIコンペティションの物語の紹介

Introducing Tales of Tribute AI Competition ( http://arxiv.org/abs/2305.08234v2 )

ライセンス: Link先を確認
Jakub Kowalski, Rados{\l}aw Miernik, Katarzyna Polak, Dominik Budzki, Damian Kowalik(参考訳) 本稿では,The Elder Scrolls OnlineのHigh Isle章でリリースされた2人のプレイヤーによるデッキビルディングカードゲームに基づいて,新たなAIチャレンジであるTOTAICを提案する。 現在、CCG(Collectible Card Games)のジャンルをカバーするAIコンペティションは他になく、デッキビルディングゲームをターゲットにした大会は一度もない。 したがって、ランダム性や隠れ情報、大きな分岐要因など、通常のCCG関連の障害を克服するためには、長期的な計画と汎用性も必要である。 このゲームは、古典的な敵探索、シングルプレイヤー計画、ニューラルネットワークベースのアルゴリズムなど、複数のアプローチで対処できる。 本稿では,競争の枠組みを紹介し,ゲームのルールを説明し,サンプルAIエージェント間のトーナメントの結果を示す。 TOTAICの最初のエディションはIEEE Conference on Games 2023で開催されている。

This paper presents a new AI challenge, the Tales of Tribute AI Competition (TOTAIC), based on a two-player deck-building card game released with the High Isle chapter of The Elder Scrolls Online. Currently, there is no other AI competition covering Collectible Card Games (CCG) genre, and there has never been one that targets a deck-building game. Thus, apart from usual CCG-related obstacles to overcome, like randomness, hidden information, and large branching factor, the successful approach additionally requires long-term planning and versatility. The game can be tackled with multiple approaches, including classic adversarial search, single-player planning, and Neural Networks-based algorithms. This paper introduces the competition framework, describes the rules of the game, and presents the results of a tournament between sample AI agents. The first edition of TOTAIC is hosted at the IEEE Conference on Games 2023.
翻訳日:2023-07-28 19:48:16 公開日:2023-07-27
# 微調整・ゼロショット3次元形状スケッチビューの類似性と検索

Fine-Tuned but Zero-Shot 3D Shape Sketch View Similarity and Retrieval ( http://arxiv.org/abs/2306.08541v2 )

ライセンス: Link先を確認
Gianluca Berardi and Yulia Gryaditskaya(参考訳) 近年、ViT (vision transformer) やResNetのようなエンコーダは膨大なデータセットでトレーニングされており、スケッチや画像の比較やゼロショット設定でのマルチドメインエンコーダなどの知覚的指標として利用されている。 しかし、これらのエンコーダの粒度を定量化する努力は限られている。 我々の研究は、個々の3Dインスタンスのマルチモーダル2Dプロジェクションに焦点を当てることで、このギャップに対処する。 このタスクは検索とスケッチベースのモデリングに重要な意味を持っている。 ゼロショット設定では、スケッチが抽象的になるほど、誤った画像が一致する可能性が高くなることを示す。 同じスケッチ領域内でも、例えば異なる個人によって異なるスタイルで描かれた同じオブジェクトのスケッチは正確には一致しないかもしれない。 我々の研究の重要な発見の1つは、ある種類の3次元形状の精密な微調整によって、他の形状のクラスの性能が向上し、監督された手法の精度を達成または超える可能性があることである。 いくつかの微調整戦略を比較し議論する。 さらに、スケッチ中のオブジェクトのスケールが異なるネットワーク層における機能の類似性にどのように影響するかを深く調べ、どのネットワーク層が最も正確なマッチングを提供するかを特定するのに役立ちます。 重要なことに、同様のオブジェクトスケールを扱う場合、ViTとResNetが最適であることがわかった。 我々の研究はスケッチ領域の研究に大きな影響を与え、知覚的損失として大規模な事前学習モデルを採用する方法についての洞察とガイダンスを提供するだろうと考えています。

Recently, encoders like ViT (vision transformer) and ResNet have been trained on vast datasets and utilized as perceptual metrics for comparing sketches and images, as well as multi-domain encoders in a zero-shot setting. However, there has been limited effort to quantify the granularity of these encoders. Our work addresses this gap by focusing on multi-modal 2D projections of individual 3D instances. This task holds crucial implications for retrieval and sketch-based modeling. We show that in a zero-shot setting, the more abstract the sketch, the higher the likelihood of incorrect image matches. Even within the same sketch domain, sketches of the same object drawn in different styles, for example by distinct individuals, might not be accurately matched. One of the key findings of our research is that meticulous fine-tuning on one class of 3D shapes can lead to improved performance on other shape classes, reaching or surpassing the accuracy of supervised methods. We compare and discuss several fine-tuning strategies. Additionally, we delve deeply into how the scale of an object in a sketch influences the similarity of features at different network layers, helping us identify which network layers provide the most accurate matching. Significantly, we discover that ViT and ResNet perform best when dealing with similar object scales. We believe that our work will have a significant impact on research in the sketch domain, providing insights and guidance on how to adopt large pretrained models as perceptual losses.
翻訳日:2023-07-28 19:42:30 公開日:2023-07-27
# 因子グラフにおけるモデル自動比較

Automating Model Comparison in Factor Graphs ( http://arxiv.org/abs/2306.05965v2 )

ライセンス: Link先を確認
Bart van Erp, Wouter W. L. Nuijten, Thijs van de Laar, Bert de Vries(参考訳) ベイズ状態とパラメータ推定は様々な確率的プログラミング言語で効果的に自動化されている。 一方、モデル比較のプロセスは、まだエラーが発生しやすく、時間を要する手動の導出を必要とするが、その重要性にもかかわらずしばしば見過ごされる。 本稿では,Forney型因子グラフ上のメッセージパッシングによるベイズモデルの平均化,選択,組み合わせを,独自の混合ノードで効率的に自動化する。 パラメータと状態の推論とモデルの比較は、スケールファクタを持つメッセージパッシングを使って同時に実行できる。 このアプローチは、モデル設計サイクルを短縮し、複雑な時間変動プロセスのモデリングに対応するために、階層モデルと時間モデルプリエントへの簡単な拡張を可能にする。

Bayesian state and parameter estimation have been automated effectively in a variety of probabilistic programming languages. The process of model comparison on the other hand, which still requires error-prone and time-consuming manual derivations, is often overlooked despite its importance. This paper efficiently automates Bayesian model averaging, selection, and combination by message passing on a Forney-style factor graph with a custom mixture node. Parameter and state inference, and model comparison can then be executed simultaneously using message passing with scale factors. This approach shortens the model design cycle and allows for the straightforward extension to hierarchical and temporal model priors to accommodate for modeling complicated time-varying processes.
翻訳日:2023-07-28 19:41:42 公開日:2023-07-27
# 部分微分方程式に対する群同変フーリエニューラル作用素

Group Equivariant Fourier Neural Operators for Partial Differential Equations ( http://arxiv.org/abs/2306.05697v2 )

ライセンス: Link先を確認
Jacob Helwig, Xuan Zhang, Cong Fu, Jerry Kurtin, Stephan Wojtowytsch, Shuiwang Ji(参考訳) 周波数領域で動作するフーリエニューラル演算子(FNO)を用いて偏微分方程式(PDE)を解くことを検討する。 物理法則はそれらを記述するために用いられる座標系に依存しないので、より優れた性能と学習を容易にするために神経オペレーターアーキテクチャにそのような対称性を符号化することが望ましい。 群論を用いた物理領域における対称性の符号化は広く研究されているが、周波数領域における対称性の捉え方は未検討である。 本研究では、群畳み込みを周波数領域に拡張し、フーリエ変換の同分散性を利用して回転、変換、反射に同変するフーリエ層を設計する。 結果として生じる$G$-FNOアーキテクチャは、入力解像度にわたってよく一般化され、対称性のレベルが異なる設定でうまく機能する。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS)の一部として公開されています。

We consider solving partial differential equations (PDEs) with Fourier neural operators (FNOs), which operate in the frequency domain. Since the laws of physics do not depend on the coordinate system used to describe them, it is desirable to encode such symmetries in the neural operator architecture for better performance and easier learning. While encoding symmetries in the physical domain using group theory has been studied extensively, how to capture symmetries in the frequency domain is under-explored. In this work, we extend group convolutions to the frequency domain and design Fourier layers that are equivariant to rotations, translations, and reflections by leveraging the equivariance property of the Fourier transform. The resulting $G$-FNO architecture generalizes well across input resolutions and performs well in settings with varying levels of symmetry. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS).
翻訳日:2023-07-28 19:41:32 公開日:2023-07-27
# 効率的な交代最小化と軽量低ランク近似への応用

Efficient Alternating Minimization with Applications to Weighted Low Rank Approximation ( http://arxiv.org/abs/2306.04169v2 )

ライセンス: Link先を確認
Zhao Song, Mingquan Ye, Junze Yin, Lichen Zhang(参考訳) 重み付き低階近似は数値線形代数の基本的な問題であり、機械学習に多くの応用がある。 行列 $m \in \mathbb{r}^{n \times n}$, 重み行列 $w \in \mathbb{r}_{\geq 0}^{n \times n}$, パラメータ $k$ が与えられたとき、目標は2つの行列 u, v \in \mathbb{r}^{n \times k}$ を$\| w \circ (m - u v^\top) \|_f$ として出力することであり、ここで $\circ$ はアダマール積を表す。 このような問題はNPハードであることが知られており、指数時間仮説 [GG11, RSW16] を仮定するのも難しい。 一方、交互最小化は重み付き低階近似を近似する優れたヒューリスティック解である。 作業[llr16]は、穏やかな仮定の下で、交互の最小化が証明可能な保証を提供することを示している。 本研究では、最小化を交互に行うための効率的で堅牢なフレームワークを開発する。 重み付き低階近似では、[LLR16] のランタイムを $n^2k^2$ から $n^2k$ に改善する。 作業フレームワークの核心は、反復最小化の堅牢な解析とともに、高精度な多重応答回帰解法である。

Weighted low rank approximation is a fundamental problem in numerical linear algebra, and it has many applications in machine learning. Given a matrix $M \in \mathbb{R}^{n \times n}$, a weight matrix $W \in \mathbb{R}_{\geq 0}^{n \times n}$, a parameter $k$, the goal is to output two matrices $U, V \in \mathbb{R}^{n \times k}$ such that $\| W \circ (M - U V^\top) \|_F$ is minimized, where $\circ$ denotes the Hadamard product. Such a problem is known to be NP-hard and even hard to approximate assuming Exponential Time Hypothesis [GG11, RSW16]. Meanwhile, alternating minimization is a good heuristic solution for approximating weighted low rank approximation. The work [LLR16] shows that, under mild assumptions, alternating minimization does provide provable guarantees. In this work, we develop an efficient and robust framework for alternating minimization. For weighted low rank approximation, this improves the runtime of [LLR16] from $n^2 k^2$ to $n^2k$. At the heart of our work framework is a high-accuracy multiple response regression solver together with a robust analysis of alternating minimization.
翻訳日:2023-07-28 19:41:17 公開日:2023-07-27
# AIアートキュレーション: ヘルシンキ市をバイエニアル時代に備えて再想像する

AI Art Curation: Re-imagining the city of Helsinki in occasion of its Biennial ( http://arxiv.org/abs/2306.03753v2 )

ライセンス: Link先を確認
Ludovica Schaerf, Pepe Ballesteros, Valentine Bernasconi, Iacopo Neri, Dario Negueruela del Castillo(参考訳) 美術カリキュラムの実践は、知識のある方法で美術コレクションを提示することによって特徴づけられる。 マシンプロセスは、大量のデータを管理し分析する能力によって特徴づけられる。 本稿では,aiのキュレーションとオーディエンスインタラクションを考察し,現代機械学習モデルがキュレーション世界に与える影響について考察する。 このプロジェクトは、2023年のヘルシンキ美術二年祭(New Directions May Emerge)のために開発された。 我々はヘルシンキ美術館(HAM)のコレクションを使って、機械認識のレンズを通してヘルシンキ市を再想像する。 視覚テキストモデルを用いて,室内アートワークを公共空間に配置し,類似度スコアに基づいて架空の座標を割り当てる。 人工的な360度パノラマを制作することで、各芸術作品が市内に居住する空間を変革する。 本研究は,360パノラマ画像からの深度推定値の生成と,各アートの機械的生成プロンプトを導出する。 このプロジェクトの成果は、アートワークを想像上の物理的な空間に配置し、アートワーク、コンテキスト、マシン知覚の行をぼかすAIキュレーションである。 この研究は事実上、このリンク上のwebベースのインストールとして提示されている。http://newlyformedcity.net/(リンク)では、ユーザーが都市の代替バージョンをナビゲートしながら、その文化的遺産を大規模に探求し、対話することができる。

Art curatorial practice is characterized by the presentation of an art collection in a knowledgeable way. Machine processes are characterized by their capacity to manage and analyze large amounts of data. This paper envisages AI curation and audience interaction to explore the implications of contemporary machine learning models for the curatorial world. This project was developed for the occasion of the 2023 Helsinki Art Biennial, entitled New Directions May Emerge. We use the Helsinki Art Museum (HAM) collection to re-imagine the city of Helsinki through the lens of machine perception. We use visual-textual models to place indoor artworks in public spaces, assigning fictional coordinates based on similarity scores. We transform the space that each artwork inhabits in the city by generating synthetic 360 art panoramas. We guide the generation estimating depth values from 360 panoramas at each artwork location, and machine-generated prompts of the artworks. The result of this project is an AI curation that places the artworks in their imagined physical space, blurring the lines of artwork, context, and machine perception. The work is virtually presented as a web-based installation on this link http://newlyformedcity.net/, where users can navigate an alternative version of the city while exploring and interacting with its cultural heritage at scale.
翻訳日:2023-07-28 19:40:46 公開日:2023-07-27
# SNR対応スウィントランスを用いた教師なし低光画像強調

Unsupervised Low Light Image Enhancement Using SNR-Aware Swin Transformer ( http://arxiv.org/abs/2306.02082v2 )

ライセンス: Link先を確認
Zhijian Luo, Jiahui Tang, Yueen Hou, Zihan Huang and Yanzeng Gao(参考訳) 低照度条件下でキャプチャされた画像は、不快なアーティファクトを示し、多くの上流のビジュアルタスクで機能抽出のパフォーマンスを損なう。 低光度画像強調は、明るさとコントラストを改善し、さらに視覚品質を損なうノイズを減らすことを目的としている。 近年,スウィントランスを用いた画像復元手法が多数提案され,性能が向上している。 しかし、低光度画像強調に自明にスウィントランスを用いると、露光過度、明るさの不均衡、ノイズ破損など、いくつかのアーティファクトが露呈する。 一方、低照度画像と対応する地中画像の対を同一の視覚シーンで撮影することは現実的ではない。 本稿では,低照度画像強調のための空間変化情報を提供する信号対雑音比事前マップによって導かれるSwin Transformerに基づくデュアルブランチネットワークを提案する。 さらに,教師なし学習を用いてretinexモデルに基づく最適化目標を構築し,提案ネットワークのトレーニングを指導する。 実験により,提案モデルがベースラインモデルと競合することを示す。

Image captured under low-light conditions presents unpleasing artifacts, which debilitate the performance of feature extraction for many upstream visual tasks. Low-light image enhancement aims at improving brightness and contrast, and further reducing noise that corrupts the visual quality. Recently, many image restoration methods based on Swin Transformer have been proposed and achieve impressive performance. However, on one hand, trivially employing Swin Transformer for low-light image enhancement would expose some artifacts, including over-exposure, brightness imbalance and noise corruption, etc. On the other hand, it is impractical to capture image pairs of low-light images and corresponding ground-truth, i.e. well-exposed image in same visual scene. In this paper, we propose a dual-branch network based on Swin Transformer, guided by a signal-to-noise ratio prior map which provides the spatial-varying information for low-light image enhancement. Moreover, we leverage unsupervised learning to construct the optimization objective based on Retinex model, to guide the training of proposed network. Experimental results demonstrate that the proposed model is competitive with the baseline models.
翻訳日:2023-07-28 19:40:22 公開日:2023-07-27
# 量子倫理教育への総合的アプローチ

A Holistic Approach to Quantum Ethics Education ( http://arxiv.org/abs/2306.00027v2 )

ライセンス: Link先を確認
Joan \'Etude Arrow, Sara E. Marsh, and Josephine C. Meyer(参考訳) 本稿ではまず,量子倫理のサブ分野である作業定義,量子技術の社会的,経済的,政治的意味に関する研究,今後の研究の方向性について概説する。 第二に、量子倫理プロジェクト(qep)、その活動、そしてその組織化哲学を紹介する。 第3章では、QEPの進行中のカリキュラム開発作業、すなわち、量子技術の倫理と社会影響に関する最初のフル長コースの1つについて報告している。 授業設計における教育的アプローチを概説し,主要な学習成果,トピック領域,指導方法,合理性などについて概説する。 最後に,倫理的推論指導の問題点や評価・実施の考え方など,現在の限界と今後の注意点について論じる。

This paper first provides an overview of the growing subfield of quantum ethics, including a working definition; research to date into social, economic, and political implications of quantum technologies; and directions for future research. Second, it introduces the Quantum Ethics Project (QEP), its activities to date, and its organizing philosophy. The third section reports on QEP's ongoing curriculum development work, i.e. creating one of the first full-length courses on Ethics and Social Impacts of Quantum Technology. We outline the pedagogical approach being taken in the course design, including key learning outcomes, topic areas, teaching methods, and rationale. Finally, we discuss current limitations and future areas of attention, such as drawbacks to teaching ethical reasoning and ideas for assessment and implementation.
翻訳日:2023-07-28 19:39:59 公開日:2023-07-27
# ゼロThreshold PT-Symmetric Polariton-Ramanレーザー

A Zero-Threshold PT-Symmetric Polariton-Raman Laser ( http://arxiv.org/abs/2305.17475v3 )

ライセンス: Link先を確認
Avijit Dhara, Devarshi Chakrabarty, Pritam Das, Kritika Ghosh, Ayan Roy Chaudhuri, Sajal Dhara(参考訳) 古典的状態におけるパリティ時間(pt)対称性は、非相互伝播や有限しきい値単一モードレーザーのような多くの応用をもたらす電磁波伝搬の損失とゲインを導入することで、光学において実現されている。 しかし、量子状態におけるpt対称性は未だ解明されていない。 偏光励起子-偏光子による励起共鳴ラマン散乱を利用したpt対称偏光子-ラマンレーザーの実証を行った。 非エルミート位相を持つポラリトンバンドの例外点を共鳴励起することにより、ラマンアクティブフォノンモード周波数がポラリトンモード周波数差と一致する場合に量子pt対称位相を実現する。 ゼロ閾値ラシングに対応するPT対称相を、浴温度の変動やポンプ偏光によるキャビティデチューニングにより有限しきい値を示すPT破壊相に切り替えることができる。 量子状態におけるPT対称性の実現と、したがってゼロ閾値レーザーは量子情報への応用を開放し、空洞量子力学における新しい研究活動を刺激することができる。

Parity-time (PT)-symmetry in the classical regime has been realized in optics by introducing loss and gain in electromagnetic wave propagation which has yielded numerous applications like nonreciprocal propagation and finite threshold single-mode lasers. However, PT-symmetry in the quantum regime so far remains elusive. Here, we demonstrate a PT-symmetric zero-threshold polariton-Raman laser by utilizing stimulated resonant Raman scattering of polarized exciton-polaritons. By pumping resonantly at the exceptional point of polariton bands with non-Hermitian topology, a quantum PT-symmetric phase is realized when the Raman-active phonon mode frequencies match with the polariton mode frequency difference. The PT-symmetric phase corresponding to zero-threshold lasing can be switched to PT broken phase showing a finite threshold via cavity detuning by the variation of bath temperature or pump polarization. Our realization of PT-symmetry in the quantum regime and consequently the zero-threshold laser can open up applications in quantum information and stimulate new research activities in cavity quantum electrodynamics.
翻訳日:2023-07-28 19:39:25 公開日:2023-07-27
# 一方向局所演算と古典的通信における立方体系の3次元部分空間における区別可能な基底の存在

The existence of distinguishable bases in three-dimensional subspaces of qutrit-qudit systems under one-way local operations and classical communication ( http://arxiv.org/abs/2307.01980v3 )

ライセンス: Link先を確認
Zhiwei Song, Lin Chen and Dragomir Z. Djokovic(参考訳) 立方体あるいは実数系の任意の3次元部分空間は、一方向局所演算および古典的通信(locc)の下で識別可能な基底を持つことを示す。 特に、これは [J. Phys. A, 40, 7937, 2007] で提案された開問題を解く。 局所的に区別可能な基底が一意である3次元空間を構築し、状態変換のタスクに一意性を適用する。 また、絡み合いを補助する3次元局所微分可能な多部空間も構築する。 一方, 1 方向の locc の下では 4 次元区別不能な 2 成分部分空間が存在する。 さらに,3次元環境を有する各チャネルの環境支援古典容量は,少なくとも$\log_2 3$であり,任意のクトリットチャネルの環境支援古典容量は$\log_2 3$であることを示した。 また、量子古典境界付近の一般化された古典状態に、絡み合うチャネルで変換できることも示している。

We show that every three-dimensional subspace of qutrit-qudit complex or real systems has a distinguishable basis under one-way local operations and classical communication (LOCC). In particular this solves an open problem proposed in [J. Phys. A, 40, 7937, 2007]. We construct a three-dimensional space whose locally distinguishable basis is unique and apply the uniqueness property to the task of state transformation. We also construct a three-dimensional locally distinguishable multipartite space assisted with entanglement. On the other hand, we show that four-dimensional indistinguishable bipartite subspaces under one-way LOCC exist. Further, we show that the environment-assisted classical capacity of every channel with a three-dimensional environment is at least $\log_2 3$, and the environment-assisting classical capacity of any qutrit channel is $\log_2 3$. We also show that every two-qutrit state can be converted into a generalized classical state near the quantum-classical boundary by an entanglement-breaking channel.
翻訳日:2023-07-28 19:31:06 公開日:2023-07-27
# セマンティックセグメンテーションのための画像の学習圧縮表現の爆発的富化

Exploiting Richness of Learned Compressed Representation of Images for Semantic Segmentation ( http://arxiv.org/abs/2307.01524v2 )

ライセンス: Link先を確認
Ravi Kakaiya, Rakshith Sathish, Ramanathan Sethuraman and Debdoot Sheet(参考訳) 自動運転車とADAS(Advanced Driving Assistance Systems)は、旅行のやり方を根本的に変える可能性がある。 これらの車両の多くは、周囲の物体を検知し追跡するために、現在セグメンテーションと物体検出アルゴリズムに依存している。 車両から収集されたデータは、これらのアルゴリズムの継続的な/一生の学習を容易にするために、しばしばクラウドサーバに送られる。 帯域幅の制約を考慮すると、データはサーバに送信する前に圧縮され、トレーニングや分析のためにデ圧縮される。 本研究では,標準パイプラインにおける減圧縮動作に発生するレイテンシのオーバーヘッドを削減するために,学習ベースの圧縮コーデックを用いることを提案する。 得られた圧縮表現は,画像を得るための減算に加えて,意味セグメンテーションなどのタスクの実行にも利用できることを示す。 我々は、cityscapesデータセット上で提案されたパイプラインを実験的に検証し、圧縮係数を最大6,6 \times$とし、除算された画像を用いて達成した0.88$に対して、サイス係数0.84$でセグメンテーションを行うために必要な情報を保存し、全体的な計算を1,1\%$で削減した。

Autonomous vehicles and Advanced Driving Assistance Systems (ADAS) have the potential to radically change the way we travel. Many such vehicles currently rely on segmentation and object detection algorithms to detect and track objects around its surrounding. The data collected from the vehicles are often sent to cloud servers to facilitate continual/life-long learning of these algorithms. Considering the bandwidth constraints, the data is compressed before sending it to servers, where it is typically decompressed for training and analysis. In this work, we propose the use of a learning-based compression Codec to reduce the overhead in latency incurred for the decompression operation in the standard pipeline. We demonstrate that the learned compressed representation can also be used to perform tasks like semantic segmentation in addition to decompression to obtain the images. We experimentally validate the proposed pipeline on the Cityscapes dataset, where we achieve a compression factor up to $66 \times$ while preserving the information required to perform segmentation with a dice coefficient of $0.84$ as compared to $0.88$ achieved using decompressed images while reducing the overall compute by $11\%$.
翻訳日:2023-07-28 19:30:35 公開日:2023-07-27
# 不完全発話からのマイニング:不完全発話書き換えのためのクエリ強化ネットワーク

Mining Clues from Incomplete Utterance: A Query-enhanced Network for Incomplete Utterance Rewriting ( http://arxiv.org/abs/2307.00866v2 )

ライセンス: Link先を確認
Shuzheng Si, Shuang Zeng, Baobao Chang(参考訳) 不完全発話の書き直しが最近注目を集めている。 しかし、先行研究では、不完全発話と書き直し発話の間の意味構造情報を考慮せず、暗黙的かつ不十分に意味構造をモデル化している。 そこで本研究では,QUERY-Enhanced Network (QUEEN)を提案する。 まず,提案する問合せテンプレートは,不完全発話と書き直された発話モデル間の意味的構造的知識を明示的にもたらし,省略されたトークンを参照したり,取り戻したりする場所を認識させる。 次に,2つのトークン間の関係をモデル化するために,高速かつ効果的な編集動作スコアリングネットワークを採用する。 提案されたクエリテンプレートとよく設計された編集操作スコアリングネットワークから得られるQUEENは、いくつかの公開データセット上で最先端のパフォーマンスを実現する。

Incomplete utterance rewriting has recently raised wide attention. However, previous works do not consider the semantic structural information between incomplete utterance and rewritten utterance or model the semantic structure implicitly and insufficiently. To address this problem, we propose a QUEry-Enhanced Network (QUEEN). Firstly, our proposed query template explicitly brings guided semantic structural knowledge between the incomplete utterance and the rewritten utterance making model perceive where to refer back to or recover omitted tokens. Then, we adopt a fast and effective edit operation scoring network to model the relation between two tokens. Benefiting from proposed query template and the well-designed edit operation scoring network, QUEEN achieves state-of-the-art performance on several public datasets.
翻訳日:2023-07-28 19:30:12 公開日:2023-07-27
# Fraunhofer SIT at CheckThat! 2023年:マルチモーダルツイートのチェックウェアネスを推定するためにシングルモーダル分類器を混合

Fraunhofer SIT at CheckThat! 2023: Mixing Single-Modal Classifiers to Estimate the Check-Worthiness of Multi-Modal Tweets ( http://arxiv.org/abs/2307.00610v2 )

ライセンス: Link先を確認
Raphael Frick, Inna Vogel(参考訳) ソーシャルメディア上で画像、ビデオ、オーディオファイルを共有するオプションは、インターネット上で偽情報と偽ニュースを区別する新たな可能性を開く。 ソーシャルメディア上で毎秒に大量のデータが共有されているため、すべてのデータがコンピュータや人間の専門家によって検証されるわけではない。 ここで、チェック値解析は、ファクトチェックパイプラインの第1ステップとして、また、効率を改善するフィルタリングメカニズムとして使用できる。 本稿では,マルチモーダルつぶやきのチェック性を検出する新しい手法を提案する。 1つのモダリティで訓練された2つの分類器を利用する。 画像データについては,OCR解析による埋め込みテキストの抽出が最良であることが示されている。 2つの分類器を組み合わせることで、提案されたソリューションは最初にCheckThatに配置することができた! 2023 タスク1a プライベートテストセットで達成された f1 スコア 0.7297 のタスク1。

The option of sharing images, videos and audio files on social media opens up new possibilities for distinguishing between false information and fake news on the Internet. Due to the vast amount of data shared every second on social media, not all data can be verified by a computer or a human expert. Here, a check-worthiness analysis can be used as a first step in the fact-checking pipeline and as a filtering mechanism to improve efficiency. This paper proposes a novel way of detecting the check-worthiness in multi-modal tweets. It takes advantage of two classifiers, each trained on a single modality. For image data, extracting the embedded text with an OCR analysis has shown to perform best. By combining the two classifiers, the proposed solution was able to place first in the CheckThat! 2023 Task 1A with an F1 score of 0.7297 achieved on the private test set.
翻訳日:2023-07-28 19:29:57 公開日:2023-07-27
# 要約因果グラフによる直接効果の同定可能性

Identifiability of direct effects from summary causal graphs ( http://arxiv.org/abs/2306.16958v2 )

ライセンス: Link先を確認
Simon Ferreira and Charles K. Assaad(参考訳) 動的構造因果モデル(scms)は、ある変数の変更が他の変数にどのように影響するかを計測し、他の変数を定数に保ちながら直接効果について、動的システムにおいて推論するための強力なフレームワークである。 動的構造因果モデルにおける因果関係は、フルタイム因果グラフで定性的に表すことができる。 線形性と因果係数を仮定し、フルタイム因果グラフを与えられた場合、直接因果効果は常に同定可能であり、いわゆる単一ドア基準によって与えられる変数の集合を調整してデータから推定することができる。 しかし、多くのアプリケーションでは、このようなグラフは様々な理由で利用できないが、それでも専門家は時系列間の因果関係を表すフルタイム因果グラフの抽象化にアクセスできる。 本稿では,その直接効果が要約因果グラフからグラフィカルに識別可能なすべての事例を特徴付ける完全識別可能性結果と,その直接効果が識別可能であれば,その直接効果を推定するために使用できる2つの健全な有限調整セットを与える。

Dynamic structural causal models (SCMs) are a powerful framework for reasoning in dynamic systems about direct effects which measure how a change in one variable affects another variable while holding all other variables constant. The causal relations in a dynamic structural causal model can be qualitatively represented with a full-time causal graph. Assuming linearity and causal sufficiency and given the full-time causal graph, the direct causal effect is always identifiable and can be estimated from data by adjusting on any set of variables given by the so-called single-door criterion. However, in many application such a graph is not available for various reasons but nevertheless experts have access to an abstraction of the full-time causal graph which represents causal relations between time series while omitting temporal information. This paper presents a complete identifiability result which characterizes all cases for which the direct effect is graphically identifiable from summary causal graphs and gives two sound finite adjustment sets that can be used to estimate the direct effect whenever it is identifiable.
翻訳日:2023-07-28 19:29:44 公開日:2023-07-27
# 変分量子回路におけるパラメータの同時最適化

Parsimonious Optimisation of Parameters in Variational Quantum Circuits ( http://arxiv.org/abs/2306.11842v2 )

ライセンス: Link先を確認
Sayantan Pramanik, Chaitanya Murti, M Girish Chandra(参考訳) 変分量子回路は、通常勾配情報に依存する古典的な最適化手順を用いて最適化されるパラメータを用いて量子システムの状態を特徴づける。 期待値の勾配を推定する回路実行の複雑さは、回路内のパラメータ数で線形に増大し、そのような方法が強制的に高価になる。 本稿では、最適なパラメータを更新するために、イテレーション毎に少なくとも2つの回路を実行する必要がある新しい量子勾配サンプリングアルゴリズムを提案し、ショット数を減らし、この問題に対処する。 さらに,本手法は古典的勾配降下と類似した漸近収束率を達成し,経験的に勾配降下,ランダム座標降下,spsaを上回っている。

Variational quantum circuits characterise the state of a quantum system through the use of parameters that are optimised using classical optimisation procedures that typically rely on gradient information. The circuit-execution complexity of estimating the gradient of expectation values grows linearly with the number of parameters in the circuit, thereby rendering such methods prohibitively expensive. In this paper, we address this problem by proposing a novel Quantum-Gradient Sampling algorithm that requires the execution of at most two circuits per iteration to update the optimisable parameters, and with a reduced number of shots. Furthermore, our proposed method achieves similar asymptotic convergence rates to classical gradient descent, and empirically outperforms gradient descent, randomised coordinate descent, and SPSA.
翻訳日:2023-07-28 19:29:26 公開日:2023-07-27
# 容易に実装可能なユニバーサルゲートセットを持つ多モードボソニック猫符号

Multimode bosonic cat codes with an easily implementable universal gate set ( http://arxiv.org/abs/2306.11621v2 )

ライセンス: Link先を確認
Aur\'elie Denys, Anthony Leverrier(参考訳) 本稿では,量子誤り訂正符号の設計手法として,量子ビット符号のトランスバーサルゲートやボソニック符号のガウスユニタリといった単純な物理演算を用いて,特定の論理演算群を実装する手法を提案する。 後者の場合、このアプローチを利用してキャット qubit のマルチモード拡張を定義することができ、すべての単量子クリフォード論理ゲートは二次ハミルトニアンから得られる。 制御回転のような四進ハミルトニアンも利用可能であれば、CZおよびCSゲートの実装に使用でき、普遍ゲートセットを提供する。

We present a method for designing quantum error correcting codes such that a specific group of logical operations is implemented using simple physical operations such as transversal gates for qubit codes, or Gaussian unitaries for bosonic codes. In the latter case, one can exploit this approach to define multimode extensions of the cat qubit, wherein all single-qubit Clifford logical gates are obtained from a quadratic Hamiltonian. If a quartic Hamiltonian is also available, such as a controlled rotation, then it can be used to implement the CZ and CS gates, providing a universal gate set.
翻訳日:2023-07-28 19:29:13 公開日:2023-07-27
# 2D-Shapley: 断片化されたデータ評価のためのフレームワーク

2D-Shapley: A Framework for Fragmented Data Valuation ( http://arxiv.org/abs/2306.10473v2 )

ライセンス: Link先を確認
Zhihong Liu, Hoang Anh Just, Xiangyu Chang, Xi Chen, Ruoxi Jia(参考訳) データ評価 -- モデルの特定の予測行動に対する個々のデータソースの貢献を定量化する -- は、機械学習の透明性を高め、データ共有のためのインセンティブシステムを設計する上で非常に重要である。 既存の作業は、共有機能やサンプルスペースでデータソースを評価することに集中しています。 それぞれの部分的な特徴とサンプルのみを含む断片化されたデータソースの評価方法は、未解決の問題のままである。 まず,集約されたデータマトリックスから断片を除去することの反事実を計算する手法を提案する。 反事実計算に基づいてさらに,断片化されたデータコンテキストにおける一意に魅力的な公理を満たす,断片化されたデータ評価のための理論的枠組みである2d-shapleyを提案する。 2D-Shapleyは、有用なデータフラグメントの選択、サンプル単位のデータ値の解釈、きめ細かいデータ問題診断など、さまざまな新しいユースケースを促進する。

Data valuation -- quantifying the contribution of individual data sources to certain predictive behaviors of a model -- is of great importance to enhancing the transparency of machine learning and designing incentive systems for data sharing. Existing work has focused on evaluating data sources with the shared feature or sample space. How to valuate fragmented data sources of which each only contains partial features and samples remains an open question. We start by presenting a method to calculate the counterfactual of removing a fragment from the aggregated data matrix. Based on the counterfactual calculation, we further propose 2D-Shapley, a theoretical framework for fragmented data valuation that uniquely satisfies some appealing axioms in the fragmented data context. 2D-Shapley empowers a range of new use cases, such as selecting useful data fragments, providing interpretation for sample-wise data values, and fine-grained data issue diagnosis.
翻訳日:2023-07-28 19:29:01 公開日:2023-07-27
# 結晶特性予測のための完全原子間ポテンシャルの効率的な近似

Efficient Approximations of Complete Interatomic Potentials for Crystal Property Prediction ( http://arxiv.org/abs/2306.10045v7 )

ライセンス: Link先を確認
Yuchao Lin, Keqiang Yan, Youzhi Luo, Yi Liu, Xiaoning Qian, Shuiwang Ji(参考訳) 結晶材料の特性予測について検討する。 結晶構造は、無限に3d空間で繰り返される最小単位セルからなる。 このような繰り返し構造を機械学習モデルで正確に表現する方法はまだ未解決である。 現在の手法では、近傍のノード間でのみエッジを確立し、無限の繰り返しパターンや遠方の原子間相互作用を忠実に捉えることができないグラフを構築する。 本研究では,これらの限界を克服するためのいくつかのイノベーションを提案する。 まず,物理学を基本とした原子間ポテンシャルを直接モデル化することを提案する。 これらのポテンシャルにはクーロンポテンシャル、ロンドン分散ポテンシャル、パウリ反発ポテンシャルが含まれる。 第二に、既存の方法のように近くの原子間だけではなく、すべての原子間の完全なポテンシャルの集合をモデル化する。 これは証明可能な誤差境界を持つ無限ポテンシャル和の近似によって実現される。 近似を計算するための効率的なアルゴリズムを更に開発する。 最後に、完全な原子間ポテンシャルの計算をメッセージパッシングニューラルネットワークに組み込んで表現学習を提案する。 評価のためのJARVISおよびMaterial Projectベンチマーク実験を行った。 その結果、原子間ポテンシャルと完全な原子間ポテンシャルを用いることで、合理的な計算コストで一貫した性能向上が期待できる。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet)の一部として公開されています。

We study property prediction for crystal materials. A crystal structure consists of a minimal unit cell that is repeated infinitely in 3D space. How to accurately represent such repetitive structures in machine learning models remains unresolved. Current methods construct graphs by establishing edges only between nearby nodes, thereby failing to faithfully capture infinite repeating patterns and distant interatomic interactions. In this work, we propose several innovations to overcome these limitations. First, we propose to model physics-principled interatomic potentials directly instead of only using distances as in many existing methods. These potentials include the Coulomb potential, London dispersion potential, and Pauli repulsion potential. Second, we model the complete set of potentials among all atoms, instead of only between nearby atoms as in existing methods. This is enabled by our approximations of infinite potential summations with provable error bounds. We further develop efficient algorithms to compute the approximations. Finally, we propose to incorporate our computations of complete interatomic potentials into message passing neural networks for representation learning. We perform experiments on the JARVIS and Materials Project benchmarks for evaluation. Results show that the use of interatomic potentials and complete interatomic potentials leads to consistent performance improvements with reasonable computational costs. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet).
翻訳日:2023-07-28 19:28:45 公開日:2023-07-27
# 単一非局在質量の場による重力の非古典性検証

Testing the nonclassicality of gravity with the field of a single delocalized mass ( http://arxiv.org/abs/2307.09354v2 )

ライセンス: Link先を確認
Alessandro Pesci, Pierbiagio Pieri(参考訳) 重力の量子の性質の実験実験のための既存の提案のほとんどは、2つの非局在化質量または十分な空間範囲を持つ純粋量子状態で準備された調和結合質量の使用に基づいている。 ここでは、重力の作用下を移動する調和的に束縛された試験質量(第1の膨張と圧縮)と結合した1つの非局在化質量に基づくセットアップを提案する。 本研究では, カシミール力のテーム能力に大きく依存する, 実験の原理的実現可能性について検討する。 そこで我々は、これを達成するための設計を進め、同時にそれらと戦うだけでなく、これらの力を活用しようと試みた。

Most of the existing proposals for laboratory tests of a quantum nature of gravity are based on the use of two delocalized masses or harmonically bound masses prepared in pure quantum states with large enough spatial extent. Here, a setup is proposed that is based on on a single delocalized mass coupled to a harmonically-trapped test mass (undergoing first expansion and then compression) that moves under the action of gravity. We investigate the in-principle feasibility of such an experiment, which turns out to crucially depend on the ability to tame Casimir forces. We thus proceed with a design aimed at achieving this, trying at the same time to take advantage of these forces rather than only fighting them.
翻訳日:2023-07-28 19:23:04 公開日:2023-07-27
# 人工知能はアルゴリズムの模倣だ:なぜ「エージェント」が適切なエージェントではない(そしてそうでない)のか

Artificial intelligence is algorithmic mimicry: why artificial "agents" are not (and won't be) proper agents ( http://arxiv.org/abs/2307.07515v2 )

ライセンス: Link先を確認
Johannes Jaeger(参考訳) agi(artificial general intelligence)の開発はどうなるのか? 生活システムとアルゴリズムシステムとを体系的に比較し,特に「アジェンシー」の概念に焦点をあてて考察する。 1) 生活システムは自己表現型,すなわち自己生産型であり,それゆえ自発的な目標を設定することが可能であり,一方,外部エージェントによって提供される対象関数を持つ計算環境にはアルゴリズムが存在する。 2) リビングシステムは, ハードウェアからソフトウェアを最大限に分離する計算アーキテクチャ上でアルゴリズムが動作するのに対して, シンボル的側面と物理的側面の分離がないという意味で具体化されている。 3) 生活システムには大きな世界があり、ほとんどの問題は不定義であり(すべて定義可能ではない)、アルゴリズムは小さな世界に存在し、すべての問題が明確に定義されている。 これら3つの違いは、生活システムとアルゴリズムシステムは、非常に異なる能力と限界を持っていることを意味する。 特に、AI研究の現在のアルゴリズムフレームワークにおいて、真のAGI(単なる模倣)が開発される可能性は極めて低い。 したがって、アルゴリズムツールの適切な開発と展開に関する議論は、現在の狭義のAIの危険性と機会を中心に形成されるべきであり、人工システムにおける真のエージェンシーが出現する可能性は極めて低い。

What is the prospect of developing artificial general intelligence (AGI)? I investigate this question by systematically comparing living and algorithmic systems, with a special focus on the notion of "agency." There are three fundamental differences to consider: (1) Living systems are autopoietic, that is, self-manufacturing, and therefore able to set their own intrinsic goals, while algorithms exist in a computational environment with target functions that are both provided by an external agent. (2) Living systems are embodied in the sense that there is no separation between their symbolic and physical aspects, while algorithms run on computational architectures that maximally isolate software from hardware. (3) Living systems experience a large world, in which most problems are ill-defined (and not all definable), while algorithms exist in a small world, in which all problems are well-defined. These three differences imply that living and algorithmic systems have very different capabilities and limitations. In particular, it is extremely unlikely that true AGI (beyond mere mimicry) can be developed in the current algorithmic framework of AI research. Consequently, discussions about the proper development and deployment of algorithmic tools should be shaped around the dangers and opportunities of current narrow AI, not the extremely unlikely prospect of the emergence of true agency in artificial systems.
翻訳日:2023-07-28 19:22:41 公開日:2023-07-27
# ネットワークモデルの再パラメータ化によるリカレントニューラルネットワークの固定点学習

Learning fixed points of recurrent neural networks by reparameterizing the network model ( http://arxiv.org/abs/2307.06732v2 )

ライセンス: Link先を確認
Vicky Zhu and Robert Rosenbaum(参考訳) 計算神経科学において、リカレントニューラルネットワークの固定点は、静的またはゆっくりと変化する刺激に対する神経反応をモデル化するために一般的に用いられる。 これらの応用は、不動点で評価される損失関数を最小化するために、再帰的ニューラルネットワークにおける重み付けのトレーニング方法に関する疑問を提起する。 自然なアプローチは、シナプス重みのユークリッド空間上の勾配勾配を利用することである。 この手法は,損失面に生じる特異点に起因して,学習性能の低下につながる可能性があることを示す。 我々は、再帰的ネットワークモデルの再パラメータ化を用いて、より堅牢な学習ダイナミクスを生み出す2つの代替学習ルールを導出する。 これらの学習規則を, 回帰重みの空間上の非ユークリッド計量の下で, 最も急な降下と勾配降下と解釈できることを示す。 結果は,脳内の学習はシナプス重みの負のユークリッド勾配に従うことが期待される,暗黙の仮定に疑問を呈する。

In computational neuroscience, fixed points of recurrent neural networks are commonly used to model neural responses to static or slowly changing stimuli. These applications raise the question of how to train the weights in a recurrent neural network to minimize a loss function evaluated on fixed points. A natural approach is to use gradient descent on the Euclidean space of synaptic weights. We show that this approach can lead to poor learning performance due, in part, to singularities that arise in the loss surface. We use a reparameterization of the recurrent network model to derive two alternative learning rules that produces more robust learning dynamics. We show that these learning rules can be interpreted as steepest descent and gradient descent, respectively, under a non-Euclidean metric on the space of recurrent weights. Our results question the common, implicit assumption that learning in the brain should be expected to follow the negative Euclidean gradient of synaptic weights.
翻訳日:2023-07-28 19:21:57 公開日:2023-07-27
# ド・ジッター空間の量子熱力学

Quantum thermodynamics of de Sitter space ( http://arxiv.org/abs/2307.04800v2 )

ライセンス: Link先を確認
Robert Alicki, Gabriela Barenboim and Alejandro Jenkins(参考訳) 我々は、拡大する三次元空間 $\mathbf{x}$ に埋め込まれた開量子系の局所物理学を考える。 系の非ユニタリ進化に対する対応するマルコフのマスター方程式を導出し、ハッブルパラメータ $h = $ const を持つド・ジッター(dS)空間に対して証明する。 背景フィールドは、温度$t_{\rm ds} = h / 2 \pi$ の物理的な熱浴として機能する。 この浴のエネルギー密度は、ステファン=ボルツマン法$\rho_{\rm dS} \propto h^4$に従う。 これらの結果が dS 空間の熱力学をどのように明らかにするかを論じるとともに,その不安定性に関する以前の議論を支持する。 宇宙論的な意味合いは、付随する手紙で考慮される

We consider the local physics of an open quantum system embedded in an expanding three-dimensional space $\mathbf{x}$, evolving in cosmological time $t$, weakly coupled to massless quantum fields. We derive the corresponding Markovian master equation for the system's non-unitary evolution and show that, for a de Sitter (dS) space with Hubble parameter $h = $ const., the background fields act as a physical heat bath with temperature $T_{\rm dS} = h / 2 \pi$. The energy density of this bath obeys the Stefan-Boltzmann law $\rho_{\rm dS} \propto h^4$. We comment on how these results clarify the thermodynamics of dS space and support previous arguments for its instability in the infrarred. The cosmological implications are considered in a accompanying letter
翻訳日:2023-07-28 19:21:38 公開日:2023-07-27
# GP誘導MPPIによる複雑クラッタ環境における効率的なナビゲーション

GP-guided MPPI for Efficient Navigation in Complex Unknown Cluttered Environments ( http://arxiv.org/abs/2307.04019v2 )

ライセンス: Link先を確認
Ihab S. Mohamed, Mahmoud Ali, and Lantao Liu(参考訳) センサー能力に制限のある未知のクラッタ環境におけるロボットナビゲーションは、ロボット工学において大きな課題となる。 モデル予測パスインターガル(MPPI)のような局所軌道最適化手法はこの課題に対して有望な解決策である。 しかし、特に困難な環境条件に遭遇したり、計画の地平線を越えて航行する場合には、効果的な航行を確保するために、グローバルな指導が必要である。 本研究では,Sparse Gaussian Process(SGP)に基づく局所認識モデルとMPPIを統合したオンライン学習型制御戦略GP-MPPIを提案する。 鍵となるアイデアは、SGPの学習能力を活用して分散(不確実性)表面を構築することで、ロボットはその周囲の移動可能な空間を学習し、提案されたサブゴールの集合を特定し、最終的に地元のMPPIプランナーに定義されたコスト関数を最小限に抑える最適なサブゴールを推奨する。 その後、MPPIはロボットと衝突回避制約を満たす最適制御シーケンスを計算する。 このようなアプローチは、環境のグローバルマップやオフラインのトレーニングプロセスの必要性を排除します。 複雑な環境下での2次元自律走行タスクのシミュレーションおよび実環境実験により提案した制御戦略の有効性とロバスト性を検証し,ロボットを目的に向かって安全に誘導する上での優位性を実証した。 追加ビデオを含むGP-MPPIのGPU実装はhttps://github.com/IhabMohamed/GP-MPPIで利用可能である。

Robotic navigation in unknown, cluttered environments with limited sensing capabilities poses significant challenges in robotics. Local trajectory optimization methods, such as Model Predictive Path Intergal (MPPI), are a promising solution to this challenge. However, global guidance is required to ensure effective navigation, especially when encountering challenging environmental conditions or navigating beyond the planning horizon. This study presents the GP-MPPI, an online learning-based control strategy that integrates MPPI with a local perception model based on Sparse Gaussian Process (SGP). The key idea is to leverage the learning capability of SGP to construct a variance (uncertainty) surface, which enables the robot to learn about the navigable space surrounding it, identify a set of suggested subgoals, and ultimately recommend the optimal subgoal that minimizes a predefined cost function to the local MPPI planner. Afterward, MPPI computes the optimal control sequence that satisfies the robot and collision avoidance constraints. Such an approach eliminates the necessity of a global map of the environment or an offline training process. We validate the efficiency and robustness of our proposed control strategy through both simulated and real-world experiments of 2D autonomous navigation tasks in complex unknown environments, demonstrating its superiority in guiding the robot safely towards its desired goal while avoiding obstacles and escaping entrapment in local minima. The GPU implementation of GP-MPPI, including the supplementary video, is available at https://github.com/IhabMohamed/GP-MPPI.
翻訳日:2023-07-28 19:21:25 公開日:2023-07-27
# 電池電解質の構造とデバイス性能のマッピングのための定式化グラフ

Formulation Graphs for Mapping Structure-Composition of Battery Electrolytes to Device Performance ( http://arxiv.org/abs/2307.03811v2 )

ライセンス: Link先を確認
Vidushi Sharma, Maxwell Giammona, Dmitry Zubarev, Andy Tek, Khanh Nugyuen, Linda Sundberg, Daniele Congiu, Young-Hye La(参考訳) 高度な計算手法は、定式化のような新しい組合せ材料の発見と開発に関連する課題に対処するために積極的に求められている。 広く採用されているアプローチは、結合して定式化できる個々のコンポーネントのドメインインフォームドハイスループットスクリーニングである。 これにより、ターゲットとなる用途で新しい化合物の発見を加速するが、短いリストの化学空間から適切な「生成」を識別するプロセスは、主に実験室の実験駆動プロセスとして残される。 本稿では, 個々の成分の構造-構成関係を, 全体としての液体定式化の性質にマッピングできる深層学習モデル, フォーミュレーショングラフ畳み込みネットワーク(F-GCN)について報告する。 複数のGCNが並列に組み立てられ、形成成分をドメイン的にハエに誘導する。 得られた分子記述子は、各構成成分のモルパーセンテージに基づいて拡張され、次いで、外部学習アーキテクチャへの完全な定式化を表す複合記述子に形式化される。 提案する定式化学習モデルのユースケースは、電解質の定式化と電池性能を表す2つの模範データセット上で、電池電解質をトレーニングし、試験することで実証される。 モデルでは, クーロンビック効率 (ce) などの性能指標と, 報告誤差の低い新規電解質製剤の比容量を予測できた。 最も優れたF-GCNモデルは、知識伝達技術を用いてHOMO-LUMOと分子の電気モーメント特性を知らせる分子グラフに由来する分子記述子を用いる。

Advanced computational methods are being actively sought for addressing the challenges associated with discovery and development of new combinatorial material such as formulations. A widely adopted approach involves domain informed high-throughput screening of individual components that can be combined into a formulation. This manages to accelerate the discovery of new compounds for a target application but still leave the process of identifying the right 'formulation' from the shortlisted chemical space largely a laboratory experiment-driven process. We report a deep learning model, Formulation Graph Convolution Network (F-GCN), that can map structure-composition relationship of the individual components to the property of liquid formulation as whole. Multiple GCNs are assembled in parallel that featurize formulation constituents domain-intuitively on the fly. The resulting molecular descriptors are scaled based on respective constituent's molar percentage in the formulation, followed by formalizing into a combined descriptor that represents a complete formulation to an external learning architecture. The use case of proposed formulation learning model is demonstrated for battery electrolytes by training and testing it on two exemplary datasets representing electrolyte formulations vs battery performance -- one dataset is sourced from literature about Li/Cu half-cells, while the other is obtained by lab-experiments related to lithium-iodide full-cell chemistry. The model is shown to predict the performance metrics like Coulombic Efficiency (CE) and specific capacity of new electrolyte formulations with lowest reported errors. The best performing F-GCN model uses molecular descriptors derived from molecular graphs that are informed with HOMO-LUMO and electric moment properties of the molecules using a knowledge transfer technique.
翻訳日:2023-07-28 19:20:28 公開日:2023-07-27
# 連続観測におけるクラスタリングの差分プライバシー

Differential Privacy for Clustering Under Continual Observation ( http://arxiv.org/abs/2307.03430v2 )

ライセンス: Link先を確認
Max Dupr\'e la Tour, Monika Henzinger, David Saulpic(参考訳) 我々は、点の挿入と削除の両方を行う$\mathbb{r}^d$のデータセットをプライベートにクラスタリングする問題を考える。 具体的には、連続観察下での$k$-means目的に対して、$\varepsilon$-differentially private clustering 機構を与える。 これは、更新数$t$の対数のみに依存する加法誤差を伴うこの問題に対する最初の近似アルゴリズムである。 乗算誤差は非プライベート誤差とほとんど同じである。 そこで本研究では,連続観測下で次元の縮小を図り,それを微分プライベートな近似アルゴリズムと組み合わせて$k$-meansを求める方法を示す。 結果も部分的に$k$-median問題に拡張します。

We consider the problem of clustering privately a dataset in $\mathbb{R}^d$ that undergoes both insertion and deletion of points. Specifically, we give an $\varepsilon$-differentially private clustering mechanism for the $k$-means objective under continual observation. This is the first approximation algorithm for that problem with an additive error that depends only logarithmically in the number $T$ of updates. The multiplicative error is almost the same as non privately. To do so we show how to perform dimension reduction under continual observation and combine it with a differentially private greedy approximation algorithm for $k$-means. We also partially extend our results to the $k$-median problem.
翻訳日:2023-07-28 19:19:57 公開日:2023-07-27
# Fraunhofer SIT at CheckThat! 2023:チェックウエア分類の例に基づくモデルソープによる不確かさの対応

Fraunhofer SIT at CheckThat! 2023: Tackling Classification Uncertainty Using Model Souping on the Example of Check-Worthiness Classification ( http://arxiv.org/abs/2307.02377v2 )

ライセンス: Link先を確認
Raphael Frick, Inna Vogel, and Jeong-Eun Choi(参考訳) 本稿では,Fraunhofer SITチームが開発したCLEF-2023 CheckThat! Lab Task 1B for Englishについて述べる。 政治的議論から引用されたテキストスニペットを考えると、このタスクの目的はチェックの妥当性を評価するかどうかを判断することである。 チェック可能なステートメントの検出は、ファクトチェックが最初に考慮すべきクレームを優先順位付けすることで、手動のファクトチェック作業を促進することを目的としている。 また、ファクトチェックシステムの第一段階と見なすこともできる。 提案手法は,モデルスープを中心としたアンサンブル分類方式を活用した。 提案モデルは, 英語データセットに適用すると, f1総合得点0.878点を達成し, コンペティションにおいて2位にランクインした。

This paper describes the second-placed approach developed by the Fraunhofer SIT team in the CLEF-2023 CheckThat! lab Task 1B for English. Given a text snippet from a political debate, the aim of this task is to determine whether it should be assessed for check-worthiness. Detecting check-worthy statements aims to facilitate manual fact-checking efforts by prioritizing the claims that fact-checkers should consider first. It can also be considered as primary step of a fact-checking system. Our best-performing method took advantage of an ensemble classification scheme centered on Model Souping. When applied to the English data set, our submitted model achieved an overall F1 score of 0.878 and was ranked as the second-best model in the competition.
翻訳日:2023-07-28 19:19:45 公開日:2023-07-27
# 弱修正変化検出のための効果的な事前及び効率的なモデル探索

Exploring Effective Priors and Efficient Models for Weakly-Supervised Change Detection ( http://arxiv.org/abs/2307.10853v3 )

ライセンス: Link先を確認
Zhenghui Zhao, Lixiang Ru, Chen Wu(参考訳) weakly-supervised change detection (wscd)は、画像レベルのアノテーションだけでピクセルレベルの変更を検出することを目的としている。 ラベルの効率のため、WSCDは最近注目を集めている。 しかし、現在のWSCDメソッドは、画像レベルのアノテーションとピクセルレベルの予測の不整合など、変更の欠如と製造の難しさにしばしば遭遇する。 特に、変化の欠如は、画像レベルのラベルが変化しているにもかかわらず、WSCDモデルが変化したピクセルを予測できない状況と、その逆は変化の作り方である。 この課題に対処するため、WSCDにおけるグローバルスケールおよびローカルスケールの事前処理を活用し、Dilated Prior(DP)デコーダとLabel Gated(LG)制約という2つのコンポーネントを提案する。 DPデコーダは、変更された画像レベルラベルでサンプルをデコードし、変更されていないラベルでサンプルをスキップし、すべて変更されていないピクセルレベルラベルで置き換える。 LGの制約は、変化した表現と画像レベルのラベルの対応から派生し、変化状態の誤予測時にモデルをペナルティ化する。 さらに,変更検出における弱教師付き学習の可能性を示す,シンプルながら強力なトランスフォーマーベースモデルであるTransWCDを開発した。 DPデコーダとLG制約をTransWCDに統合することにより、TransWCD-DLを形成する。 提案したTransWCDとTransWCD-DLは,WHU-CDデータセットの最先端手法に対して,それぞれ有意な+6.33%,+9.55%のF1スコアを達成している。 いくつかのパフォーマンス指標は、FSCD(Full-supervised Change Detection)の競合よりも多い。 コードはhttps://github.com/zhenghuizhao/TransWCDで入手できる。

Weakly-supervised change detection (WSCD) aims to detect pixel-level changes with only image-level annotations. Owing to its label efficiency, WSCD is drawing increasing attention recently. However, current WSCD methods often encounter the challenge of change missing and fabricating, i.e., the inconsistency between image-level annotations and pixel-level predictions. Specifically, change missing refer to the situation that the WSCD model fails to predict any changed pixels, even though the image-level label indicates changed, and vice versa for change fabricating. To address this challenge, in this work, we leverage global-scale and local-scale priors in WSCD and propose two components: a Dilated Prior (DP) decoder and a Label Gated (LG) constraint. The DP decoder decodes samples with the changed image-level label, skips samples with the unchanged label, and replaces them with an all-unchanged pixel-level label. The LG constraint is derived from the correspondence between changed representations and image-level labels, penalizing the model when it mispredicts the change status. Additionally, we develop TransWCD, a simple yet powerful transformer-based model, showcasing the potential of weakly-supervised learning in change detection. By integrating the DP decoder and LG constraint into TransWCD, we form TransWCD-DL. Our proposed TransWCD and TransWCD-DL achieve significant +6.33% and +9.55% F1 score improvements over the state-of-the-art methods on the WHU-CD dataset, respectively. Some performance metrics even exceed several fully-supervised change detection (FSCD) competitors. Code will be available at https://github.com/zhenghuizhao/TransWCD.
翻訳日:2023-07-28 19:10:39 公開日:2023-07-27
# TwinLiteNet:自動運転車における走行可能エリアとレーンセグメンテーションのための効率的軽量モデル

TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars ( http://arxiv.org/abs/2307.10705v3 )

ライセンス: Link先を確認
Quang Huy Che and Dinh Phuc Nguyen and Minh Quan Pham and Duc Khai Lam(参考訳) セマンティックセグメンテーションは、周囲の環境を理解するための自律運転において一般的な課題である。 運転可能なエリアセグメンテーションとレーン検出は、道路上の安全かつ効率的なナビゲーションに特に重要である。 しかし、オリジナルのセマンティクスセグメンテーションモデルは計算コストが高く、ハイエンドハードウェアを必要とするため、自動運転車の組み込みシステムでは実現不可能である。 本稿では,運転可能領域と車線区分の軽量モデルを提案する。 TwinLiteNetは安価に設計されているが、正確で効率的なセグメンテーション結果が得られる。 bdd100kデータセット上でtwinlitenetを評価し,現代的なモデルと比較する。 実験の結果,twinlitenetは既存の手法と同様に動作し,計算資源が大幅に少ないことがわかった。 具体的には、twinlitenet はdrivable area task の91.3%、レーン検出タスクの31.08% iou を 0.4 million のパラメータで達成し、gpu rtx a5000 で 415 fps を達成した。 さらにtwinlitenetは、jetson xavier nxで60fpsを達成したため、計算能力に制限のある組み込みデバイス上でリアルタイムに動作し、自動運転車にとって理想的なソリューションとなる。 コードは url{https://github.com/chequanghuy/TwinLiteNet} で入手できる。

Semantic segmentation is a common task in autonomous driving to understand the surrounding environment. Driveable Area Segmentation and Lane Detection are particularly important for safe and efficient navigation on the road. However, original semantic segmentation models are computationally expensive and require high-end hardware, which is not feasible for embedded systems in autonomous vehicles. This paper proposes a lightweight model for the driveable area and lane line segmentation. TwinLiteNet is designed cheaply but achieves accurate and efficient segmentation results. We evaluate TwinLiteNet on the BDD100K dataset and compare it with modern models. Experimental results show that our TwinLiteNet performs similarly to existing approaches, requiring significantly fewer computational resources. Specifically, TwinLiteNet achieves a mIoU score of 91.3% for the Drivable Area task and 31.08% IoU for the Lane Detection task with only 0.4 million parameters and achieves 415 FPS on GPU RTX A5000. Furthermore, TwinLiteNet can run in real-time on embedded devices with limited computing power, especially since it achieves 60FPS on Jetson Xavier NX, making it an ideal solution for self-driving vehicles. Code is available: url{https://github.com/chequanghuy/TwinLiteNet}.
翻訳日:2023-07-28 19:10:13 公開日:2023-07-27
# RCM融合:3次元物体検出のためのレーダーカメラ多層核融合

RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection ( http://arxiv.org/abs/2307.10249v2 )

ライセンス: Link先を確認
Jisong Kim, Minjae Seong, Geonho Bang, Dongsuk Kum, Jun Won Choi(参考訳) LiDARセンサーは3Dオブジェクト検出に精力的に応用されているが、レーダーとカメラセンサーの可利用性は、融合レーダーと3Dオブジェクト検出のためのカメラへの関心を高めている。 しかし, 従来のレーダカメラ融合モデルでは, カメラの特徴のみに基づいて初期3次元提案が生成され, インスタンスレベルの融合が実施されるなど, レーダ情報を十分に活用できなかった。 本稿では,レーダー情報を完全に活用するために,機能レベルとインスタンスレベルの両方でレーダとカメラのモードを融合するレーダ・カメラ・マルチレベル融合(rcm-fusion)を提案する。 機能レベルでは、レーダバードのEye-View(BEV)機能を利用して、画像特徴を正確なBEV表現に変換し、レーダとカメラのBEV機能を適応的に組み合わせたRadar Guided BEV Encoderを提案する。 実例レベルでは,レーダ点雲の特性を考慮し,局所化誤差を低減できるレーダ格子点微細化モジュールを提案する。 公開nuScenesデータセットを用いて行った実験により,提案したRCM-Fusionは,カメラのみのベースラインモデルよりも11.8%の性能向上を実現し,nuScenes 3Dオブジェクト検出ベンチマークにおけるレーダカメラ融合手法の最先端化を実現した。 コードは公開される予定だ。

While LiDAR sensors have been succesfully applied to 3D object detection, the affordability of radar and camera sensors has led to a growing interest in fusiong radars and cameras for 3D object detection. However, previous radar-camera fusion models have not been able to fully utilize radar information in that initial 3D proposals were generated based on the camera features only and the instance-level fusion is subsequently conducted. In this paper, we propose radar-camera multi-level fusion (RCM-Fusion), which fuses radar and camera modalities at both the feature-level and instance-level to fully utilize radar information. At the feature-level, we propose a Radar Guided BEV Encoder which utilizes radar Bird's-Eye-View (BEV) features to transform image features into precise BEV representations and then adaptively combines the radar and camera BEV features. At the instance-level, we propose a Radar Grid Point Refinement module that reduces localization error by considering the characteristics of the radar point clouds. The experiments conducted on the public nuScenes dataset demonstrate that our proposed RCM-Fusion offers 11.8% performance gain in nuScenes detection score (NDS) over the camera-only baseline model and achieves state-of-the-art performaces among radar-camera fusion methods in the nuScenes 3D object detection benchmark. Code will be made publicly available.
翻訳日:2023-07-28 19:09:52 公開日:2023-07-27
# 情報検索と大規模言語モデル:中国のIRコミュニティによる戦略的報告

Information Retrieval Meets Large Language Models: A Strategic Report from Chinese IR Community ( http://arxiv.org/abs/2307.09751v2 )

ライセンス: Link先を確認
Qingyao Ai, Ting Bai, Zhao Cao, Yi Chang, Jiawei Chen, Zhumin Chen, Zhiyong Cheng, Shoubin Dong, Zhicheng Dou, Fuli Feng, Shen Gao, Jiafeng Guo, Xiangnan He, Yanyan Lan, Chenliang Li, Yiqun Liu, Ziyu Lyu, Weizhi Ma, Jun Ma, Zhaochun Ren, Pengjie Ren, Zhiqiang Wang, Mingwen Wang, Ji-Rong Wen, Le Wu, Xin Xin, Jun Xu, Dawei Yin, Peng Zhang, Fan Zhang, Weinan Zhang, Min Zhang and Xiaofei Zhu(参考訳) 情報検索研究分野(ir)は大きく発展し、様々なユーザ情報のニーズを満たすために従来の検索を超えて拡大してきた。 近年、Large Language Models (LLM) は、テキスト理解、生成、知識推論において例外的な能力を示し、IR研究のエキサイティングな道を開いた。 LLMは、生成的検索を容易にするだけでなく、ユーザ理解、モデル評価、ユーザシステム間のインタラクションのための改善されたソリューションも提供する。 さらに重要なことは、IRモデル、LLM、および人間間の相乗的関係は、情報探索のためにより強力な新しい技術パラダイムを形成することである。 IRモデルはリアルタイムで関連する情報を提供し、LLMは内部知識を提供し、人間は情報サービスの信頼性に対する需要者や評価者の中心的な役割を果たす。 それでも、計算コスト、信頼性の懸念、ドメイン固有の制限、倫理上の考慮など、大きな課題が存在する。 LLMがIR研究に与える影響を徹底的に議論するため、中国のIRコミュニティは2023年4月に戦略的ワークショップを開催し、貴重な洞察を得た。 本稿では,irのコアバリューの再検討,llmsとirの相互強化,新しいir技術パラダイムの提案,オープンチャレンジなど,ワークショップの結果の概要を紹介する。

The research field of Information Retrieval (IR) has evolved significantly, expanding beyond traditional search to meet diverse user information needs. Recently, Large Language Models (LLMs) have demonstrated exceptional capabilities in text understanding, generation, and knowledge inference, opening up exciting avenues for IR research. LLMs not only facilitate generative retrieval but also offer improved solutions for user understanding, model evaluation, and user-system interactions. More importantly, the synergistic relationship among IR models, LLMs, and humans forms a new technical paradigm that is more powerful for information seeking. IR models provide real-time and relevant information, LLMs contribute internal knowledge, and humans play a central role of demanders and evaluators to the reliability of information services. Nevertheless, significant challenges exist, including computational costs, credibility concerns, domain-specific limitations, and ethical considerations. To thoroughly discuss the transformative impact of LLMs on IR research, the Chinese IR community conducted a strategic workshop in April 2023, yielding valuable insights. This paper provides a summary of the workshop's outcomes, including the rethinking of IR's core values, the mutual enhancement of LLMs and IR, the proposal of a novel IR technical paradigm, and open challenges.
翻訳日:2023-07-28 19:09:23 公開日:2023-07-27
# マルチラベル画像分類のためのsemantic-aware dual contrastive learning

Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification ( http://arxiv.org/abs/2307.09715v2 )

ライセンス: Link先を確認
Leilei Ma, Dengdi Sun, Lei Wang, Haifeng Zhao and Bin Luo(参考訳) 画像のセマンティクスを効果的に抽出し、対応するラベルを複数のオブジェクトや属性に割り当てることは、複雑なシーンの内容とラベル依存の混乱のために困難である。 最近の研究はグラフとのラベル関係のモデル化とクラスアクティベーションマップ(CAM)を用いたオブジェクト領域の理解に焦点を当てている。 しかし、これらの手法は、特定の意味的特徴間の複雑なカテゴリー内およびカテゴリー間関係を無視し、CAMはノイズの多い情報を生成する傾向にある。 そこで本研究では,サンプルからサンプルへのコントラスト学習 (sscl) とプロトタイプからサンプルへのコントラスト学習 (pscl) を併用した,新しいセマンティクス・アウェア・デュアルコントラスト学習フレームワークを提案する。 具体的には,セマンティクス・アウェア表現学習を用いて,カテゴリー関連局所識別特徴の抽出とカテゴリプロトタイプの構築を行う。 そして、ssclに基づいて、同一カテゴリのラベルレベルの視覚的表現を集約し、異なるカテゴリに属する特徴を分離する。 一方, 正のサンプルとカテゴリのプロトタイプとの距離を狭め, 負のサンプルを対応するカテゴリのプロトタイプから遠ざける新しいpsclモジュールを構築した。 そして、上記3つの部品の合同訓練により、画像内容に関する識別ラベルレベル特徴を正確に取得する。 5つの挑戦的な大規模公開データセットの実験により,提案手法が有効であり,最先端の手法よりも優れていることを示す。 コードと補足資料はhttps://github.com/yu-gi-oh-leilei/SADCLで公開されている。

Extracting image semantics effectively and assigning corresponding labels to multiple objects or attributes for natural images is challenging due to the complex scene contents and confusing label dependencies. Recent works have focused on modeling label relationships with graph and understanding object regions using class activation maps (CAM). However, these methods ignore the complex intra- and inter-category relationships among specific semantic features, and CAM is prone to generate noisy information. To this end, we propose a novel semantic-aware dual contrastive learning framework that incorporates sample-to-sample contrastive learning (SSCL) as well as prototype-to-sample contrastive learning (PSCL). Specifically, we leverage semantic-aware representation learning to extract category-related local discriminative features and construct category prototypes. Then based on SSCL, label-level visual representations of the same category are aggregated together, and features belonging to distinct categories are separated. Meanwhile, we construct a novel PSCL module to narrow the distance between positive samples and category prototypes and push negative samples away from the corresponding category prototypes. Finally, the discriminative label-level features related to the image content are accurately captured by the joint training of the above three parts. Experiments on five challenging large-scale public datasets demonstrate that our proposed method is effective and outperforms the state-of-the-art methods. Code and supplementary materials are released on https://github.com/yu-gi-oh-leilei/SADCL.
翻訳日:2023-07-28 19:09:03 公開日:2023-07-27
# 自己教師付き音声表現損失関数を用いた音声強調における音声言語の効果

The Effect of Spoken Language on Speech Enhancement using Self-Supervised Speech Representation Loss Functions ( http://arxiv.org/abs/2307.14502v1 )

ライセンス: Link先を確認
George Close, Thomas Hain and Stefan Goetze(参考訳) 音声強調(SE)の分野での最近の研究は、損失関数の特徴変換として自己教師付き音声表現(SSSR)の使用に関わっている。 しかし、先行研究では、自己監督表現の訓練に用いられる音声の言語とSEシステムの訓練に用いられる音声との関係にはほとんど注意が払われていない。 SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。 これは、従来のスペクトログラムや時間領域損失関数を用いて訓練されたモデルとは異なり、言語固有の拡張システムとなり、見知らぬ言語にうまく一般化しない。 この研究では、SEモデルは様々な言語で訓練され、テストされ、それぞれが異なる言語の組み合わせを使って訓練された自己教師付き表現と、損失関数表現として異なるネットワーク構造を持つ。 これらのモデルは未知の言語でテストされ、パフォーマンスが分析される。 自己教師型表現の訓練言語は、特定の言語の訓練データの量である強化性能に小さな影響を与えているように見えるが、性能に大きな影響を及ぼす。

Recent work in the field of speech enhancement (SE) has involved the use of self-supervised speech representations (SSSRs) as feature transformations in loss functions. However, in prior work, very little attention has been paid to the relationship between the language of the audio used to train the self-supervised representation and that used to train the SE system. Enhancement models trained using a loss function which incorporates a self-supervised representation that shares exactly the language of the noisy data used to train the SE system show better performance than those which do not match exactly. This may lead to enhancement systems which are language specific and as such do not generalise well to unseen languages, unlike models trained using traditional spectrogram or time domain loss functions. In this work, SE models are trained and tested on a number of different languages, with self-supervised representations which themselves are trained using different language combinations and with differing network structures as loss function representations. These models are then tested across unseen languages and their performances are analysed. It is found that the training language of the self-supervised representation appears to have a minor effect on enhancement performance, the amount of training data of a particular language, however, greatly affects performance.
翻訳日:2023-07-28 16:39:32 公開日:2023-07-27
# カシミール力に対するポジトロニウムと$\pi^{0}$中間子の寄与に関する研究

Study on the Contribution of Positronium and $\pi^{0}$ Mesons to Casimir Force ( http://arxiv.org/abs/2307.14506v1 )

ライセンス: Link先を確認
Cong Li(参考訳) 2つの金属板の間にカシミール力があります。 カシミール力は真空中の仮想光子によって媒介されると考えられており、これは理論計算で用いられる無質量中間粒子に対応する。 真空中の仮想光子だけでなく、質量を持つ他の仮想粒子も研究によって示されている。 質量が最も軽い電荷のない仮想粒子は、ポジトロニウム (1 mev) と $\pi^{0}$ mesons (135 mev) である。 本稿では主に陽電子と$\pi^{0}$中間子に起因するカシミール力の補正について研究する。 特に、2つのプレート間の距離が1/m_{positronium}$ の順であれば、ポジトロニウムの寄与は重要となり、1/m_{\pi^0}$ の順では、$\pi^{0}$ mesonの寄与は重要となる。 この計算結果は、プレート間の距離が大きい場合のカシミール力の理論計算における誤差を低減し、距離が小さい場合の大幅な補正を期待する。

There is a Casimir force between two metal plates. It is generally believed that the Casimir force is mediated by virtual photons in a vacuum, which correspond to the massless intermediate particles used in our theoretical calculations. Studies have shown that not only virtual photons in a vacuum, but also other virtual particles that have masses. The lightest chargeless virtual particles with mass are positronium (1 MeV) and $\pi^{0}$ mesons (135 MeV). This paper primarily focuses on studying the corrections to the Casimir force caused by positronium and $\pi^{0}$ mesons. Especially when the distance between the two plates is on the order of $1/m_{positronium}$ , the contribution of positronium becomes significant, and on the order of $1/m_{\pi^0}$ , the contribution of the $\pi^{0}$ meson becomes significant. We hope that the calculation results can reduce the error in the theoretical calculation of the Casimir force when the distance between the plates is large and provide significant corrections when the distance is small.
翻訳日:2023-07-28 16:27:09 公開日:2023-07-27
# 磁気メカニクスによる巨大量子重ね合わせ

Massive quantum superpositions using magneto-mechanics ( http://arxiv.org/abs/2307.14553v1 )

ライセンス: Link先を確認
Sarath Raman Nair, Shilu Tian, Gavin K. Brennen, Sougato Bose, and Jason Twamley(参考訳) 巨大な物体のマクロ的な量子重ね合わせは、重力と量子力学の相互作用の探索から量子センシング、量子シミュレーション、計算まで、多くの潜在的な応用があるので、非常に興味深い。 本稿では,磁気力の重畳によるQ因子の高い大規模量子発振器系の空間的重ね合わせを作成するための2つの関連スキームを提案する。 第1の方法では,隣り合う磁束量子ビットによって印加される磁気力により発生する浮揚球状磁石の空間的重ね合わせを提案する。 この方法では、空間的重ね合わせ範囲$\Delta z$) が粒子の大きさに依存しないことが分かる。 第2の方法では、磁気浮揚された(マイスナー効果を用いた)フラックス量子ビットの大きな空間的重ね合わせを、浮揚された量子ビットを誘導的に駆動することによって生成する。 どちらのスキームにおいても、超大集合 $\Delta z/\delta z_{\rm zpm}\sim 10^6$ は可能であり、$\delta z_{\rm zpm}$ はゼロ点運動度である。

Macroscopic quantum superpositions of massive objects are deeply interesting as they have a number of potential applications ranging from the exploration of the interaction of gravity with quantum mechanics to quantum sensing, quantum simulation, and computation. In this letter, we propose two related schemes to prepare a spatial superposition of massive quantum oscillator systems with high Q-factor via a superposition of magnetic forces. In the first method, we propose a large spatial superposition of a levitated spherical magnet generated via magnetic forces applied by adjacent flux qubits. We find that in this method the spatial superposition extent ($\Delta z$) is independent of the size of the particle. In the second method, we propose a large spatial superposition of a magnetically levitated (using the Meissner effect) flux qubit, generated via driving the levitated qubit inductively. In both schemes, we show that ultra-large superpositions $\Delta z/\delta z_{\rm zpm}\sim 10^6$, are possible, where $\delta z_{\rm zpm}$ is the zero point motional extent.
翻訳日:2023-07-28 16:19:33 公開日:2023-07-27
# youtubeのリコメンデーターを訓練する方法

How to Train Your YouTube Recommender ( http://arxiv.org/abs/2307.14551v1 )

ライセンス: Link先を確認
Alexander Liu, Siqi Wu, Paul Resnick(参考訳) YouTubeでは,‘Not interested’や‘`Don\'t recommend channel’ボタンなど,不要なレコメンデーションが提示された時に,不関心を示す機能を提供している。 これらのボタンは、ユーザがレコメンデーションシステムで作成した '`mistakes'' を修正できるようにするために付与される。 しかし、これらのボタンの実証効果についてはあまり知られていない。 ユーザの認識や信頼については、あまり知られていない。 これらのギャップに対処するため、YouTubeユーザーをソックパペットエージェントでシミュレートした。 各エージェントは最初に `stain phase'' を実行し、1つの割り当てられたトピックの多くのビデオを見た後に ``scrub phase'' を実行し、割り当てられたトピックのレコメンデーションを削除しようとした。 各エージェントは、以前見ていた動画を削除したり、ウォッチ履歴から削除したり、新しく推奨されたビデオの「'not interested'」や「`don\'t recommend channel''」ボタンをクリックするなど、単一のスクレイビング戦略を繰り返し適用した。 全体的に、ステンドフェーズは、割り当てられたトピックを専門とするuser\のホームページの推奨ビデオの割合を大幅に増加させた。 スクラブフェーズでは、`not interested''ボタンの使用が最もうまく動作し、テスト対象のすべてのトピックにおいて、88\%を平均して削減した。 しかし、ステンドフェーズやスクラブフェーズはビデオページの推薦に大きな影響を与えなかった(ビデオを見ている間にユーザーに与えた影響)。 われわれはまた、アメリカの成人YouTubeユーザーに対して、これらのボタンの認識と使用の有無、そしてこれらのボタンの有効性について調査を行った($300)。 44\%の参加者が‘not interest’ボタンの存在を知らなかったことがわかりました。 しかし、このボタンに気付いていた人は、望ましくない推奨(82.8\%)を取り除き、控えめに効果があることを発見した(3.42対5)。

YouTube provides features for users to indicate disinterest when presented with unwanted recommendations, such as the ``Not interested'' and ``Don\'t recommend channel'' buttons. These buttons are purported to allow the user to correct ``mistakes'' made by the recommendation system. Yet, relatively little is known about the empirical efficacy of these buttons. Neither is much known about users' awareness of and confidence in them. To address these gaps, we simulated YouTube users with sock puppet agents. Each agent first executed a ``stain phase'', where it watched many videos of one assigned topic; then it executed a ``scrub phase'', where it tried to remove recommendations of the assigned topic. Each agent repeatedly applied a single scrubbing strategy, which included disliking previously-watched videos or deleting them from watch history, as well as clicking the ``not interested'' or ``don\'t recommend channel'' button on newly-recommended videos. Overall, we found that the stain phase significantly increased the fraction of the recommended videos on the user\'s homepage dedicated to the assigned topic. For the scrub phase, using the ``Not interested'' button worked best, significantly reducing such recommendations in all topics tested, on average removing 88\% of them. Neither the stain phase nor the scrub phase, however, had much effect on videopage recommendations (those given to users while they watch a video). We also ran a survey ($N$ =300) asking adult YouTube users in the US whether they were aware of and used these buttons before, as well as how effective they found these buttons to be. We found that 44\% of participants were not aware that the ``Not interested'' button existed. However, those who were aware of this button often used it to remove unwanted recommendations (82.8\%) and found it to be modestly effective (3.42 out of 5).
翻訳日:2023-07-28 16:19:14 公開日:2023-07-27
# 複数の遊びを伴う対向型睡眠バンディット問題:アルゴリズムとランキング応用

Adversarial Sleeping Bandit Problems with Multiple Plays: Algorithm and Ranking Application ( http://arxiv.org/abs/2307.14549v1 )

ライセンス: Link先を確認
Jianjun Yuan and Wei Lee Woon and Ludovik Coba(参考訳) 本稿では,オンラインレコメンデーションシステムにおいて,複数のプレイの問題で睡眠帯域を効率的に解決するアルゴリズムを提案する。 問題は、有界で対向的な損失と、腕の可用性のための未知のi.d.分布である。 提案アルゴリズムは、単腕選択のための睡眠帯域アルゴリズムを拡張し、$\bigO(kN^2\sqrt{T\log T})$の残差上限を持つ理論的性能を保証し、$k$は時間ステップ毎に選択されたアームの数、$N$は腕の総数、$T$は時間軸である。

This paper presents an efficient algorithm to solve the sleeping bandit with multiple plays problem in the context of an online recommendation system. The problem involves bounded, adversarial loss and unknown i.i.d. distributions for arm availability. The proposed algorithm extends the sleeping bandit algorithm for single arm selection and is guaranteed to achieve theoretical performance with regret upper bounded by $\bigO(kN^2\sqrt{T\log T})$, where $k$ is the number of arms selected per time step, $N$ is the total number of arms, and $T$ is the time horizon.
翻訳日:2023-07-28 16:18:39 公開日:2023-07-27
# フローサイトメトリーセルトランス解析のための説明可能な技術

Explainable Techniques for Analyzing Flow Cytometry Cell Transformers ( http://arxiv.org/abs/2307.14581v1 )

ライセンス: Link先を確認
Florian Kowarsch, Lisa Weijler, FLorian Kleber, Matthias W\"odlinger, Michael Reiter, Margarita Maurer-Granofszky, Michael Dworzak(参考訳) ディープラーニングモデルの説明性は、自動システムの決定が広範囲にわたる結果をもたらす臨床応用において、特に重要である。 注目の可視化やサリエンシマップなど,さまざまなポストホックな説明可能な手法が,自然言語や画像などの共通データモダリティに対してすでに存在するが,フローサイトメトリー(FCM)データのモダリティに適応するための作業はほとんど行われていない。 本研究では,注目の可視化を容易にするReluFormerと呼ばれるトランスフォーマーアーキテクチャの利用状況を評価するとともに,FCMに適したグラデーションと注目に基づく可視化手法を提案する。 小児急性リンパ性白血病(all)fcm検体における細胞分類とポリゴン回帰の可視化技術について定量的に評価した。 その結果,モデルの意思決定過程を概説し,提案手法を用いてモデルを検証する方法を示す。 勾配に基づく可視化は、特定の予測に最も重要な細胞を特定するだけでなく、fcm特徴空間における変化が予測に最も影響を及ぼす方向を示す。 注意可視化は、FCMデータを扱う際の変換器の決定過程に関する洞察を提供する。 学習中に二分分類信号のみを収集したモデルであっても, 異なる注意ヘッドは, 異なる生物学的に有意義なサブ人口に適応することで, 特殊化できることを示した。

Explainability for Deep Learning Models is especially important for clinical applications, where decisions of automated systems have far-reaching consequences. While various post-hoc explainable methods, such as attention visualization and saliency maps, already exist for common data modalities, including natural language and images, little work has been done to adapt them to the modality of Flow CytoMetry (FCM) data. In this work, we evaluate the usage of a transformer architecture called ReluFormer that ease attention visualization as well as we propose a gradient- and an attention-based visualization technique tailored for FCM. We qualitatively evaluate the visualization techniques for cell classification and polygon regression on pediatric Acute Lymphoblastic Leukemia (ALL) FCM samples. The results outline the model's decision process and demonstrate how to utilize the proposed techniques to inspect the trained model. The gradient-based visualization not only identifies cells that are most significant for a particular prediction but also indicates the directions in the FCM feature space in which changes have the most impact on the prediction. The attention visualization provides insights on the transformer's decision process when handling FCM data. We show that different attention heads specialize by attending to different biologically meaningful sub-populations in the data, even though the model retrieved solely supervised binary classification signals during training.
翻訳日:2023-07-28 16:10:41 公開日:2023-07-27
# 歯科用CBCT画像における金属誘起アーティファクト低減のための神経表現法

Neural Representation-Based Method for Metal-induced Artifact Reduction in Dental CBCT Imaging ( http://arxiv.org/abs/2307.14579v1 )

ライセンス: Link先を確認
Hyoung Suk Park and Kiwan Jeon and Jin Keun Seo(参考訳) 本研究では, 歯科用コーンビームCT (CBCT) の再構築手法を提案する。 金属アーチファクトの低減技術が著しく進歩したにもかかわらず、多色X線ビームと金属オブジェクトとの複雑な物理的相互作用により、さらに金属と歯の相互作用と歯科用CBCTデータ環境に特有の要因に結びついている。 これらの制約を克服するために,2つの異なる情報的トモグラフィ画像を生成する暗黙のニューラルネットワークを提案する。 1つの画像は特定のエネルギーレベルでの単色減衰分布を表し、もう1つの画像はX線光の多色性に起因する非線形ビーム硬化率を捉えている。 従来のCT再構成法とは対照的に,提案法はBeer-Lambert法にのみ依存しており,従来の方法で一般的に実装されているバックプロジェクションプロセスにおいて,金属誘起アーティファクトの発生を効果的に防止する。 広範な実験評価により, 提案手法は高品質な画像再構成を行いながら, 効果的に金属アーティファクトを低減できることが示され, 非線形ビーム硬化係数の取得における第2画像の重要性が強調された。

This study introduces a novel reconstruction method for dental cone-beam computed tomography (CBCT), focusing on effectively reducing metal-induced artifacts commonly encountered in the presence of prevalent metallic implants. Despite significant progress in metal artifact reduction techniques, challenges persist owing to the intricate physical interactions between polychromatic X-ray beams and metal objects, which are further compounded by the additional effects associated with metal-tooth interactions and factors specific to the dental CBCT data environment. To overcome these limitations, we propose an implicit neural network that generates two distinct and informative tomographic images. One image represents the monochromatic attenuation distribution at a specific energy level, whereas the other captures the nonlinear beam-hardening factor resulting from the polychromatic nature of X-ray beams. In contrast to existing CT reconstruction techniques, the proposed method relies exclusively on the Beer--Lambert law, effectively preventing the generation of metal-induced artifacts during the backprojection process commonly implemented in conventional methods. Extensive experimental evaluations demonstrate that the proposed method effectively reduces metal artifacts while providing high-quality image reconstructions, thus emphasizing the significance of the second image in capturing the nonlinear beam-hardening factor.
翻訳日:2023-07-28 16:10:17 公開日:2023-07-27
# ガンダー:野生での歩行検出と認識

GADER: GAit DEtection and Recognition in the Wild ( http://arxiv.org/abs/2307.14578v1 )

ライセンス: Link先を確認
Yuxiang Guo, Cheng Peng, Ram Prabhakar, Chun Pong Lau, Rama Chellappa(参考訳) 歩行認識は、色情報ではなく、歩行パターンに基づいて被験者を頑健に識別する。 従来のアプローチは屋内のキュレートシーンではうまく機能していたが、屋外や長距離のシーンなど、制約のない状況での適用性が著しく低下している。 本稿では,屋外シナリオにおける人間認証のためのエンド・ツー・エンドの歩行検出・認識(gader)アルゴリズムを提案する。 具体的には、二重ヘリカルシグナチャを利用して人間の動きの断片を検知し、補助的なRGB認識モデルから蒸留して表現を学習する新しい歩行認識手法を組み込む。 推測時、GADERはシルエットモダリティのみを使用するが、より堅牢な表現の恩恵を受ける。 屋内および屋外のデータセットに関する広範囲な実験により、提案手法は歩容認識と検証のための最先端技術よりも優れており、訓練されていない長距離シーンでは20.6%改善されていることが示されている。

Gait recognition holds the promise of robustly identifying subjects based on their walking patterns instead of color information. While previous approaches have performed well for curated indoor scenes, they have significantly impeded applicability in unconstrained situations, e.g. outdoor, long distance scenes. We propose an end-to-end GAit DEtection and Recognition (GADER) algorithm for human authentication in challenging outdoor scenarios. Specifically, GADER leverages a Double Helical Signature to detect the fragment of human movement and incorporates a novel gait recognition method, which learns representations by distilling from an auxiliary RGB recognition model. At inference time, GADER only uses the silhouette modality but benefits from a more robust representation. Extensive experiments on indoor and outdoor datasets demonstrate that the proposed method outperforms the State-of-The-Arts for gait recognition and verification, with a significant 20.6% improvement on unconstrained, long distance scenes.
翻訳日:2023-07-28 16:09:52 公開日:2023-07-27
# 運転ビデオにおける教師なし交通事故検出のためのメモリ提示型マルチタスク協調フレームワーク

A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos ( http://arxiv.org/abs/2307.14575v1 )

ライセンス: Link先を確認
Rongqin Liang, Yuanman Li, Yingxin Yi, Jiantao Zhou, Xia Li(参考訳) 運転ビデオにおける交通事故の特定は、自動運転と運転支援システムの安全性を確保するために不可欠である。 運転イベントの長期分布による潜在的な危険性に対処するため,既存の交通事故検出法は教師なし学習に大きく依存している。 しかし、運転シナリオにおけるカメラとダイナミックシーンの急速な移動のため、tadは依然として困難である。 既存の教師なしtadメソッドは、事故を検出するために、主に単一のプリテキストタスク、すなわち外観ベースまたは将来のオブジェクトローカライズタスクに依存する。 しかし、外観に基づくアプローチは、カメラの急速な移動と照明の変化によって容易に妨げられ、交通事故検出の性能が著しく低下する。 将来のオブジェクトのローカライゼーションに基づく手法は、ビデオフレームの外観変化を捉えるのに失敗し、エゴ関連事故(例えば、エゴ車両の制御不能)を検出するのが困難になる。 本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。 従来の手法と異なり,光学的フロー再構成と将来のオブジェクトローカライゼーションタスクの協調により,映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。 さらに、メモリに格納された通常の交通パターンの高レベルな特徴を活用して、動作表現を増強し、異常との差を大きくする、メモリ拡張動作表現機構を導入し、異なる種類の動作表現間の相互関係を十分に探求する。 最近発表された大規模データセットによる実験結果から,本手法は従来の最先端手法と比較して性能が向上することが示された。

Identifying traffic accidents in driving videos is crucial to ensuring the safety of autonomous driving and driver assistance systems. To address the potential danger caused by the long-tailed distribution of driving events, existing traffic accident detection (TAD) methods mainly rely on unsupervised learning. However, TAD is still challenging due to the rapid movement of cameras and dynamic scenes in driving scenarios. Existing unsupervised TAD methods mainly rely on a single pretext task, i.e., an appearance-based or future object localization task, to detect accidents. However, appearance-based approaches are easily disturbed by the rapid movement of the camera and changes in illumination, which significantly reduce the performance of traffic accident detection. Methods based on future object localization may fail to capture appearance changes in video frames, making it difficult to detect ego-involved accidents (e.g., out of control of the ego-vehicle). In this paper, we propose a novel memory-augmented multi-task collaborative framework (MAMTCF) for unsupervised traffic accident detection in driving videos. Different from previous approaches, our method can more accurately detect both ego-involved and non-ego accidents by simultaneously modeling appearance changes and object motions in video frames through the collaboration of optical flow reconstruction and future object localization tasks. Further, we introduce a memory-augmented motion representation mechanism to fully explore the interrelation between different types of motion representations and exploit the high-level features of normal traffic patterns stored in memory to augment motion representations, thus enlarging the difference from anomalies. Experimental results on recently published large-scale dataset demonstrate that our method achieves better performance compared to previous state-of-the-art approaches.
翻訳日:2023-07-28 16:09:35 公開日:2023-07-27
# コンテクストベースカスケードcnnアプローチによる車両照明のロバスト検出、アソシエーション、位置推定と評価

Robust Detection, Assocation, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations ( http://arxiv.org/abs/2307.14571v1 )

ライセンス: Link先を確認
Akshay Gopalkrishnan, Ross Greer, Maitrayee Keskar, Mohan Trivedi(参考訳) 車両が車線変更や旋回を行っているかどうかを判断するために、車両の軽量状態を予測するなどの重要な下流の安全な自動運転タスクには、車両の光検出が必要である。 現在、多くの車両光検出器は単段検出器を使用して車両光を識別するために境界ボックスを予測している。 本稿では,上流の車両を検知し,可視光の中心を近似した車両光を検出する方法を提案する。 本手法は,各車両の光に付随する四角角を推定する。 我々は周辺車両の混乱を軽減するために設計されたcnnアーキテクチャ、データ拡張およびコンテキスト前処理手法を実験する。 地上の真理角からの平均距離誤差は5.9ピクセルであり、平均で車両の光量の約17.24%である。 我々は、LISA Lightsデータセットでモデルをトレーニングし、評価し、様々な車両の照明形状と照明条件に基づいて車両の光角検出モデルを徹底的に評価する。 本手法は,車体検出と車体光センタ検出を併用したパイプラインに統合し,車体光検出ネットワークを構築することで,運転シーンにおける軌道変化信号の同定に有用である。

Vehicle light detection is required for important downstream safe autonomous driving tasks, such as predicting a vehicle's light state to determine if the vehicle is making a lane change or turning. Currently, many vehicle light detectors use single-stage detectors which predict bounding boxes to identify a vehicle light, in a manner decoupled from vehicle instances. In this paper, we present a method for detecting a vehicle light given an upstream vehicle detection and approximation of a visible light's center. Our method predicts four approximate corners associated with each vehicle light. We experiment with CNN architectures, data augmentation, and contextual preprocessing methods designed to reduce surrounding-vehicle confusion. We achieve an average distance error from the ground truth corner of 5.09 pixels, about 17.24% of the size of the vehicle light on average. We train and evaluate our model on the LISA Lights dataset, allowing us to thoroughly evaluate our vehicle light corner detection model on a large variety of vehicle light shapes and lighting conditions. We propose that this model can be integrated into a pipeline with vehicle detection and vehicle light center detection to make a fully-formed vehicle light detection network, valuable to identifying trajectory-informative signals in driving scenes.
翻訳日:2023-07-28 16:09:06 公開日:2023-07-27
# 対向学習法を用いた単眼rgb画像からの物理的に有理な3次元人間-scene再構成

Physically Plausible 3D Human-Scene Reconstruction from Monocular RGB Image using an Adversarial Learning Approach ( http://arxiv.org/abs/2307.14570v1 )

ライセンス: Link先を確認
Sandika Biswas, Kejie Li, Biplab Banerjee, Subhasis Chaudhuri, Hamid Rezatofighi(参考訳) ホロスティックな3次元人間シーンの再構築はロボット知覚において重要かつ新しい研究領域である。 総合的な3次元人間シーン再構築の鍵となる課題は、単一の単眼RGB画像から物理的に可視な3Dシーンを生成することである。 既存の研究は主に、RGBフレームのシーケンスから、明確に定義された物理法則と異なるシーン要素(人間とオブジェクト)間の制約でシーンを再構築するための最適化に基づくアプローチを提案する。 しかしながら、すべてのシナリオにおいてすべての物理法則を明示的に定義しモデル化することは困難である。 本稿では、シーン要素の暗黙的特徴表現を用いて、人間と物体の物理的に妥当なアライメントと、不可解な要素とを区別する。 本稿では,シーンのエンコードされた物理表現を用いたグラフに基づく全体表現を用いて,シーン内のヒューマン・オブジェクト間インタラクションとオブジェクト間インタラクションを分析する。 この図式表現を用いて、私たちは、これらの間の法則や制約を明確に定義することなく、トレーニングデータ自体からシーン要素の実行可能なアライメントを学習するようにモデルを逆さまに訓練します。 既存の推論時間最適化アプローチとは異なり、この逆向きに訓練されたモデルを用いて、物理法則や制約に従うシーンをフレームごとの3D再構成する。 学習に基づく手法は,既存の最適化に基づく総合的人間-シーン復元法と同等の3次元再構成品質を達成し,推定時間最適化は不要である。 これにより、既存の方法と比較して、ロボットナビゲーションなどのロボットアプリケーションで使用するために、より適している。

Holistic 3D human-scene reconstruction is a crucial and emerging research area in robot perception. A key challenge in holistic 3D human-scene reconstruction is to generate a physically plausible 3D scene from a single monocular RGB image. The existing research mainly proposes optimization-based approaches for reconstructing the scene from a sequence of RGB frames with explicitly defined physical laws and constraints between different scene elements (humans and objects). However, it is hard to explicitly define and model every physical law in every scenario. This paper proposes using an implicit feature representation of the scene elements to distinguish a physically plausible alignment of humans and objects from an implausible one. We propose using a graph-based holistic representation with an encoded physical representation of the scene to analyze the human-object and object-object interactions within the scene. Using this graphical representation, we adversarially train our model to learn the feasible alignments of the scene elements from the training data itself without explicitly defining the laws and constraints between them. Unlike the existing inference-time optimization-based approaches, we use this adversarially trained model to produce a per-frame 3D reconstruction of the scene that abides by the physical laws and constraints. Our learning-based method achieves comparable 3D reconstruction quality to existing optimization-based holistic human-scene reconstruction methods and does not need inference time optimization. This makes it better suited when compared to existing methods, for potential use in robotic applications, such as robot navigation, etc.
翻訳日:2023-07-28 16:08:44 公開日:2023-07-27
# 深部強化学習による自律走行における安全制約の評価

Evaluation of Safety Constraints in Autonomous Navigation with Deep Reinforcement Learning ( http://arxiv.org/abs/2307.14568v1 )

ライセンス: Link先を確認
Brian Angulo, Gregory Gorbov, Aleksandr Panov, Konstantin Yakovlev(参考訳) 強化学習アルゴリズムは自律ナビゲーションの分野で大きな成功を収めているが、安全性の制約を考慮せずに実際の自律システムに適用することはできない。 後述は、道路上の自動運転車の安全でない行動を避けるために不可欠である。 これらの制約の重要性を強調するため,本研究では,学習可能な2つのナビゲーションポリシー,safeとunsafeを比較した。 セーフポリシーは制約を考慮に入れますが、他のポリシーは考慮しません。 安全ポリシーは、よりクリアランス(障害物までの距離)で軌道を生成することができ、全体的な性能を犠牲にすることなく、トレーニング中に衝突を少なくできることを示す。

While reinforcement learning algorithms have had great success in the field of autonomous navigation, they cannot be straightforwardly applied to the real autonomous systems without considering the safety constraints. The later are crucial to avoid unsafe behaviors of the autonomous vehicle on the road. To highlight the importance of these constraints, in this study, we compare two learnable navigation policies: safe and unsafe. The safe policy takes the constraints into account, while the other does not. We show that the safe policy is able to generate trajectories with more clearance (distance to the obstacles) and makes less collisions while training without sacrificing the overall performance.
翻訳日:2023-07-28 16:08:20 公開日:2023-07-27
# 遅延フィードバックを用いた量子サイクリング自己オシレータ

A quantum ticking self-oscillator using delayed feedback ( http://arxiv.org/abs/2307.14567v1 )

ライセンス: Link先を確認
Yanan Liu, William J. Munro, and Jason Twamley(参考訳) SSO(Self-Sustained oscillator)は、古典的なクロック信号を生成するための一般的な方法であり、遅延フィードバックを用いたSSOは、極低位相ノイズとドリフトを持つ商業的に開発されている。 量子や古典的なデバイスを制御できる周期的および正規的な出力 {\em tick} も持てる量子自振器の開発の研究が盛んに行われており、これまで研究されてきた量子SSOは相拡散に悩まされており、相空間の極限サイクル全体にわたって量子発振器がスミアリングし、システムが自振器として機能する能力は著しく低下している。 本稿では,時間遅延型SSOの量子バージョンについて検討する。 まず,位相拡散を伴わない完全振動を示す線形量子ssoを設計する。 次に非線形遅延量子SSOを探索するが、従来研究されていた非遅延系と同様の劣化を示す。

Self-sustained oscillators (SSOs) is a commonly used method to generate classical clock signals and SSOs using delayed feedback have been developed commercially which possess ultra-low phase noise and drift. Research into the development of quantum self-oscillation, where one can also have a periodic and regular output {\em tick}, that can be used to control quantum and classical devices has received much interest and quantum SSOs so far studied suffer from phase diffusion which leads to the smearing out of the quantum oscillator over the entire limit cycle in phase space seriously degrading the system's ability to perform as a self-oscillation. In this paper, we explore quantum versions of time-delayed SSOs, which has the potentials to develop a ticking quantum clock. We first design a linear quantum SSO which exhibits perfect oscillation without phase diffusion. We then explore a nonlinear delayed quantum SSO but find it exhibits dephasing similar to previously studied non-delayed systems.
翻訳日:2023-07-28 16:08:08 公開日:2023-07-27
# Auto-Tables: 例を使わずにテーブルをリレーショナル化するマルチステップ変換の合成

Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize Tables without Using Examples ( http://arxiv.org/abs/2307.14565v1 )

ライセンス: Link先を確認
Peng Li, Yeye He, Cong Yan, Yue Wang, Surajit Chauduri(参考訳) 各行がエンティティに対応し、各列が属性に対応しているリレーショナルテーブルは、リレーショナルデータベースにおけるテーブルの標準となっている。 しかし、そのような標準は「野生の」テーブルを扱うときに当然のことだとは考えられない。 実際のスプレッドシートテーブルとwebテーブルに関する調査では、このようなテーブルの30%以上がリレーショナル標準に準拠していないことが分かりました。 StackOverflowやExcel/Tableauフォーラムなど,多数のフォーラムの質問が証明しているように,技術的および非技術的ユーザにとって,プログラムに必要な変換は大きな問題である。 我々は,マルチステップ変換(Pythonや他の言語)でパイプラインを自動的に合成し,非リレーショナルテーブルを標準リレーショナル形式に変換して下流分析を行い,ユーザが手動でトランスフォーメーションをプログラムする必要をなくすオートテイブルシステムを開発した。 ユーザスプレッドシートとオンラインフォーラムから194の実際のテストケースを収集することで、この新しいタスクの広範なベンチマークをコンパイルする。 評価の結果, 自動テーブルはユーザからの入力を必要とせず, 70%以上のテストケースに対して, インタラクティブな速度で変換を効果的に合成できることが示唆された。

Relational tables, where each row corresponds to an entity and each column corresponds to an attribute, have been the standard for tables in relational databases. However, such a standard cannot be taken for granted when dealing with tables "in the wild". Our survey of real spreadsheet-tables and web-tables shows that over 30% of such tables do not conform to the relational standard, for which complex table-restructuring transformations are needed before these tables can be queried easily using SQL-based analytics tools. Unfortunately, the required transformations are non-trivial to program, which has become a substantial pain point for technical and non-technical users alike, as evidenced by large numbers of forum questions in places like StackOverflow and Excel/Tableau forums. We develop an Auto-Tables system that can automatically synthesize pipelines with multi-step transformations (in Python or other languages), to transform non-relational tables into standard relational forms for downstream analytics, obviating the need for users to manually program transformations. We compile an extensive benchmark for this new task, by collecting 194 real test cases from user spreadsheets and online forums. Our evaluation suggests that Auto-Tables can successfully synthesize transformations for over 70% of test cases at interactive speeds, without requiring any input from users, making this an effective tool for both technical and non-technical users to prepare data for analytics.
翻訳日:2023-07-28 16:07:50 公開日:2023-07-27
# ブラウザのHTMLレンダリングエンジンにおけるファズテストの強化学習

Reinforcement learning guided fuzz testing for a browser's HTML rendering engine ( http://arxiv.org/abs/2307.14556v1 )

ライセンス: Link先を確認
Martin Sablotny, Bj{\o}rn Sand Jensen, Jeremy Singer(参考訳) ジェネレーションベースのファズテストは、さまざまなバグやセキュリティ脆弱性を明らかにすることができる。 しかし、ミュータントベースのfuzzテストと比較して、適切なテストケースを生成し、新しいコードパスを実行するために基盤となる構造を壊す場所を決定する、バランスの取れたジェネレータを開発するには、はるかに時間がかかる。 本稿では,トレーニングされたテストケース生成モデルとダブルディープq-network(ddqn)を初めて組み合わせた新しい手法を提案する。 DDQNはコードカバレッジ信号に基づいてテストケースの作成をガイドする。 提案手法は,ベースライン文法ベースのファジィザと比較して,Firefox HTMLレンダリングエンジンのジェネレータモデルのコードカバレッジ性能を最大18.5倍に向上させる。

Generation-based fuzz testing can uncover various bugs and security vulnerabilities. However, compared to mutation-based fuzz testing, it takes much longer to develop a well-balanced generator that produces good test cases and decides where to break the underlying structure to exercise new code paths. We propose a novel approach to combine a trained test case generator deep learning model with a double deep Q-network (DDQN) for the first time. The DDQN guides test case creation based on a code coverage signal. Our approach improves the code coverage performance of the underlying generator model by up to 18.5\% for the Firefox HTML rendering engine compared to the baseline grammar based fuzzer.
翻訳日:2023-07-28 16:07:21 公開日:2023-07-27
# ハイゼンベルク極限におけるアブ初期位相推定のためのSU(11)干渉計の適応プロトコル

Adaptive protocols for SU(11) interferometers to achieve ab initio phase estimation at the Heisenberg limit ( http://arxiv.org/abs/2307.14606v1 )

ライセンス: Link先を確認
Mingchen Liu, Lijian Zhang, Haixing Miao(参考訳) 干渉計による位相推定の精度は非古典量子状態を用いて大幅に向上することができ、su(11)干渉計は内部で2モードの圧縮状態を生成し信号の増幅を行うエレガントなスキームである。 それは[詩]に示されている. a {\bf 95}, 063843 (2017) では、光子数の測定はハイゼンベルク限界を達成することができるが、小さな位相シフトを推定できるだけである。 2つの適応プロトコルを考慮することで、位相サイズの制約を緩和する。1つは特別に調整されたフィードバック位相を持つ光子数測定を使い、もう1つは微調整なしで実現可能な最適測定を実装している。

The precision of phase estimation with interferometers can be greatly enhanced using non-classical quantum states, and the SU(11) interferometer is an elegant scheme, which generates two-mode squeezed state internally and also amplifies the signal. It has been shown in [Phys. Rev. A {\bf 95}, 063843 (2017)] that the photon-number measurement can achieve the Heisenberg limit, but only for estimating a small phase shift. We relax the constraint on the phase size by considering two adaptive protocols: one also uses the photon-number measurement with a specially tuned sequence of feedback phase; the other implements the yet-to-be-realised optimal measurement but without fine tuning.
翻訳日:2023-07-28 16:01:12 公開日:2023-07-27
# クラスタリングに基づく3次元解析のためのポイントクラウド表現学習

Clustering based Point Cloud Representation Learning for 3D Analysis ( http://arxiv.org/abs/2307.14605v1 )

ライセンス: Link先を確認
Tuo Feng, Wenguan Wang, Xiaohan Wang, Yi Yang, Qinghua Zheng(参考訳) ポイントクラウド分析(3dセグメンテーションや検出など)は、何百万もの無秩序なポイントの不規則なジオメトリだけでなく、深さ、視点、咬合などによって引き起こされる大きな変動があるため、難しい課題である。 最近の研究では、ポイントクラウドの複雑なジオメトリへのニューラルネットワークの適応に多くの注目が寄せられているが、基本的な問題に盲目である。 そこで本研究では,ポイントクラウド分析のためのクラスタリングに基づく教師付き学習手法を提案する。 現在のデファクト、シーン単位でのトレーニングパラダイムとは異なり、アルゴリズムはポイント埋め込み空間でクラス内クラスタリングを行い、シーン間で潜在的なサブクラスパターンを自動的に発見する。 マイニングされたパターンは、次に埋め込みスペースを塗り替え、トレーニングデータセット全体の基盤となる分布を尊重し、バリエーションに対する堅牢性を改善するために使用される。 当社のアルゴリズムは原則的であり、トレーニング中に現代的なポイントクラウドセグメンテーションネットワークに容易に接続できます。 様々な3Dネットワークアーキテクチャ(ボクセルベース、ポイントベース、トランスフォーマーベース、自動検索)で、我々のアルゴリズムは有名な点クラウドセグメンテーションデータセット(シングルスキャンでは2.0-2.6%、セマンティックKITTIでは2.0-2.2%、S3DISでは1.8-1.9%)において顕著な改善を示している。 また,本アルゴリズムは3次元検出における有用性を示し,KITTIの2~3.4%のmAPゲインを示す。

Point cloud analysis (such as 3D segmentation and detection) is a challenging task, because of not only the irregular geometries of many millions of unordered points, but also the great variations caused by depth, viewpoint, occlusion, etc. Current studies put much focus on the adaption of neural networks to the complex geometries of point clouds, but are blind to a fundamental question: how to learn an appropriate point embedding space that is aware of both discriminative semantics and challenging variations? As a response, we propose a clustering based supervised learning scheme for point cloud analysis. Unlike current de-facto, scene-wise training paradigm, our algorithm conducts within-class clustering on the point embedding space for automatically discovering subclass patterns which are latent yet representative across scenes. The mined patterns are, in turn, used to repaint the embedding space, so as to respect the underlying distribution of the entire training dataset and improve the robustness to the variations. Our algorithm is principled and readily pluggable to modern point cloud segmentation networks during training, without extra overhead during testing. With various 3D network architectures (i.e., voxel-based, point-based, Transformer-based, automatically searched), our algorithm shows notable improvements on famous point cloud segmentation datasets (i.e.,2.0-2.6% on single-scan and 2.0-2.2% multi-scan of SemanticKITTI, 1.8-1.9% on S3DIS, in terms of mIoU). Our algorithm also demonstrates utility in 3D detection, showing 2.0-3.4% mAP gains on KITTI.
翻訳日:2023-07-28 16:00:56 公開日:2023-07-27
# 膵腫瘍の3次リンパ組織検出のためのクロススケール注意誘導とノイズ感受性制約を組み込んだ弱監視セグメンテーションネットワーク

A Weakly Supervised Segmentation Network Embedding Cross-scale Attention Guidance and Noise-sensitive Constraint for Detecting Tertiary Lymphoid Structures of Pancreatic Tumors ( http://arxiv.org/abs/2307.14603v1 )

ライセンス: Link先を確認
Bingxue Wang, Liwen Zou, Jun Chen, Yingying Cao, Zhenghua Cai, Yudong Qiu, Liang Mao, Zhongqiu Wang, Jingya Chen, Luying Gui and Xiaoping Yang(参考訳) 膵病理像における3次リンパ構造(TLS)の存在は膵腫瘍の予後を示す重要な指標である。 したがって,膵腫瘍の診断と治療において,膵病理画像上のtlss検出が重要な役割を担っている。 しかし、ディープラーニングに基づく完全な教師付き検出アルゴリズムは、通常、多くの手動アノテーションを必要とする。 本稿では,弱い教師付きセグメンテーションネットワークを提案することにより,少数ショット学習によるtls検出を目標とする。 まず, 予め訓練した核分割モデルと, リンパ球認識のためのドメイン対向ネットワークを組み合わせることで, リンパ球密度マップを得る。 そこで,造血組織像から粗大な特徴とリンパ球密度の注意から細分化した特徴を共同学習し,クロススケールな注意誘導機構を確立する。 トレーニング手順に符号付き距離関数損失を埋め込んでノイズ感受性制約を導入し、小さな予測誤差を低減する。 2つのデータセットを用いた実験の結果,提案手法はtlss検出精度において最先端のセグメンテーションベースアルゴリズムを有意に上回っていることがわかった。 さらに,TLSの密度と膵周囲血管浸潤との関連性について検討し,臨床統計学的結果を得た。

The presence of tertiary lymphoid structures (TLSs) on pancreatic pathological images is an important prognostic indicator of pancreatic tumors. Therefore, TLSs detection on pancreatic pathological images plays a crucial role in diagnosis and treatment for patients with pancreatic tumors. However, fully supervised detection algorithms based on deep learning usually require a large number of manual annotations, which is time-consuming and labor-intensive. In this paper, we aim to detect the TLSs in a manner of few-shot learning by proposing a weakly supervised segmentation network. We firstly obtain the lymphocyte density maps by combining a pretrained model for nuclei segmentation and a domain adversarial network for lymphocyte nuclei recognition. Then, we establish a cross-scale attention guidance mechanism by jointly learning the coarse-scale features from the original histopathology images and fine-scale features from our designed lymphocyte density attention. A noise-sensitive constraint is introduced by an embedding signed distance function loss in the training procedure to reduce tiny prediction errors. Experimental results on two collected datasets demonstrate that our proposed method significantly outperforms the state-of-the-art segmentation-based algorithms in terms of TLSs detection accuracy. Additionally, we apply our method to study the congruent relationship between the density of TLSs and peripancreatic vascular invasion and obtain some clinically statistical results.
翻訳日:2023-07-28 16:00:26 公開日:2023-07-27
# 量子安定符号からの超対称共形場理論

Supersymmetric conformal field theories from quantum stabilizer codes ( http://arxiv.org/abs/2307.14602v1 )

ライセンス: Link先を確認
Kohki Kawabata, Tatsuma Nishioka and Takuya Okuda(参考訳) 我々は、スペクトルが量子安定化符号によって特徴づけられるフェルミオン共形場理論(CFT)を構築する。 我々は,カルダーバンク・ソール・ステアン型の量子安定化符号に着目し,超対称性を持つフェルミオン性cftの探索を行い,理論の超対称性に対する簡単な基準を導出する。 基準を満たすフェルミオンCFTのいくつかの例を示し、$\mathcal{N} =4$超対称性を実現する量子符号を求める。 我々の研究は量子符号の新しい応用を構成し、超対称CFTの体系的探索の道を開く。

We construct fermionic conformal field theories (CFTs) whose spectra are characterized by quantum stabilizer codes. We exploit our construction to search for fermionic CFTs with supersymmetry by focusing on quantum stabilizer codes of the Calderbank-Shor-Steane type, and derive simple criteria for the theories to be supersymmetric. We provide several examples of fermionic CFTs that meet the criteria, and find quantum codes that realize $\mathcal{N} =4$ supersymmetry. Our work constitutes a new application of quantum codes and paves the way for the methodical search for supersymmetric CFTs.
翻訳日:2023-07-28 15:59:45 公開日:2023-07-27
# 時間遅延をもつ量子ビット系の絡み合いの2段階フィードバック準備

Two-step feedback preparation of entanglement for qubit systems with time delay ( http://arxiv.org/abs/2307.14599v1 )

ライセンス: Link先を確認
Yanan Liu, Daoyi Dong, Sen Kuang, Ian R. Petersen, and Hidehiro Yonezawa(参考訳) 量子絡み合いは、量子計算と量子通信において基本的な役割を果たす。 フィードバック制御は、非常に堅牢性があり、フィルタ状態の計算やフィルタベースの制御に要する時間は、多くの実用的な応用において無視できないため、確率量子システムにおいて、与えられた絡み合い状態を生成するために広く用いられてきた。 本稿では,Lyapunov法に基づく2つの制御戦略を設計し,一定の遅延時間で量子ビット系の絡み合った状態のクラスを作成する。 最初のものはバンバンのような制御戦略であり、定数値とゼロを切り替える単純な形式であり、その安定性が証明されている。 もう一つの制御戦略はリアプノフ制御を切り替えることであり、計算時間を補償するためにフィルタベースのフィードバック制御法に一定の遅延時間を導入する。 2 qubit システムの数値計算結果から,これら2 つの制御手法の有効性が示唆された。

Quantum entanglement plays a fundamental role in quantum computation and quantum communication. Feedback control has been widely used in stochastic quantum systems to generate given entangled states since it has good robustness, where the time required to compute filter states and conduct filter based control usually cannot be ignored in many practical applications. This paper designed two control strategies based on the Lyapunov method to prepare a class of entangled states for qubit systems with a constant delay time. The first one is bang bang like control strategy, which has a simple form with switching between a constant value and zero, the stability of which is proved. Another control strategy is switching Lyapunov control, where a constant delay time is introduced in the filter-based feedback control law to compensate for the computation time. Numerical results on a two qubit system illustrate the effectiveness of these two proposed control strategies.
翻訳日:2023-07-28 15:59:29 公開日:2023-07-27
# HUTFormer: 長期トラフィック予測のための階層型U-Netトランス

HUTFormer: Hierarchical U-Net Transformer for Long-Term Traffic Forecasting ( http://arxiv.org/abs/2307.14596v1 )

ライセンス: Link先を確認
Zezhi Shao, Fei Wang, Zhao Zhang, Yuchen Fang, Guangyin Jin, Yongjun Xu(参考訳) 交通予報は歴史観測に基づく交通状況の予測を目的としており,知的交通の重要な構成要素として広く認識されている。 空間時間グラフニューラルネットワーク(STGNN)に関する最近の提案は、逐次モデルとグラフ畳み込みネットワークを組み合わせることで大きな進歩を遂げている。 しかし、複雑な問題が多いため、STGNNは短期的な交通予測(例えば1時間予測)のみに焦点を当て、より実用的な長期予測を無視している。 本稿では,1日間の予測など,長期交通予測の最初の試みを行う。 この目的のために,我々はまず,マルチスケール表現の活用におけるユニークな課題を明らかにする。 次に, 長期交通予測問題に対処するために, 階層型u-netトランス(hutformer)を提案する。 hutformerは階層エンコーダとデコーダで構成され、トラフィックデータのマルチスケール表現を共同で生成し活用する。 具体的には,長期間のトラヒックデータからマルチスケール表現を抽出するため,ウィンドウの自己アテンションとセグメントマージを提案する。 マルチスケール表現を効果的に組み込むためのクロススケールアテンション機構をデコーダに設計する。 さらに、HUTFormerは複雑な問題に対処するために効率的な入力埋め込み戦略を採用している。 4つのトラヒックデータセットに関する広範囲な実験により、hutformerは最先端のトラフィック予測と長期時系列予測ベースラインを大きく上回っていることが示された。

Traffic forecasting, which aims to predict traffic conditions based on historical observations, has been an enduring research topic and is widely recognized as an essential component of intelligent transportation. Recent proposals on Spatial-Temporal Graph Neural Networks (STGNNs) have made significant progress by combining sequential models with graph convolution networks. However, due to high complexity issues, STGNNs only focus on short-term traffic forecasting, e.g., 1-hour forecasting, while ignoring more practical long-term forecasting. In this paper, we make the first attempt to explore long-term traffic forecasting, e.g., 1-day forecasting. To this end, we first reveal its unique challenges in exploiting multi-scale representations. Then, we propose a novel Hierarchical U-net TransFormer (HUTFormer) to address the issues of long-term traffic forecasting. HUTFormer consists of a hierarchical encoder and decoder to jointly generate and utilize multi-scale representations of traffic data. Specifically, for the encoder, we propose window self-attention and segment merging to extract multi-scale representations from long-term traffic data. For the decoder, we design a cross-scale attention mechanism to effectively incorporate multi-scale representations. In addition, HUTFormer employs an efficient input embedding strategy to address the complexity issues. Extensive experiments on four traffic datasets show that the proposed HUTFormer significantly outperforms state-of-the-art traffic forecasting and long time series forecasting baselines.
翻訳日:2023-07-28 15:59:03 公開日:2023-07-27
# FakeTracer: トレーニングの痕跡を埋め込んだディープフェイクを積極的に防ぐ

FakeTracer: Proactively Defending Against Face-swap DeepFakes via Implanting Traces in Training ( http://arxiv.org/abs/2307.14593v1 )

ライセンス: Link先を確認
Pu Sun, Honggang Qi, Yuezun Li and Siwei Lyu(参考訳) Face-swap DeepFakeは、AIベースの顔偽造技術で、表現や方向などの一貫した顔属性を保持しながら、ビデオ中の元の顔をターゲットアイデンティティの生成された顔に置き換えることができる。 顔のプライバシーが高いため、この手法の誤用は深刻な社会的懸念を生じさせ、最近DeepFakesに対する防衛に多大な注意を払っている。 本稿では,フェイクトトレーサ(faketracer)と呼ばれる新しいプロアクティブ防御法について述べる。 顔合成のDeepFakeと比較すると、顔スワップのDeepFakeは、アイデンティティの変更を伴うため、より複雑であり、エンコーディング・デコードプロセスの対象となり、教師なしで訓練され、トレースをトレーニングフェーズに埋め込むのが困難になる。 フェイススワップのディープフェイクに対して効果的に防御するため、トレーニングフェイスに付加する2種類のトレース、sustainable trace (strace) と erasable trace (etrace) を設計した。 トレーニング中、これらの操作された顔は、フェイススワップのDeepFakeモデルの学習に影響を与えるため、持続可能なトレースのみを含む顔を生成することができる。 これら2つの痕跡から,本手法はディープフェイクを同定して効果的に露出することができる。 celeb-dfデータセットについて,最近のパッシブおよびプロアクティブな防御法と比較して広範囲な実験を行い,フェイススワップディープフェイク防御法の有効性について検討した。

Face-swap DeepFake is an emerging AI-based face forgery technique that can replace the original face in a video with a generated face of the target identity while retaining consistent facial attributes such as expression and orientation. Due to the high privacy of faces, the misuse of this technique can raise severe social concerns, drawing tremendous attention to defend against DeepFakes recently. In this paper, we describe a new proactive defense method called FakeTracer to expose face-swap DeepFakes via implanting traces in training. Compared to general face-synthesis DeepFake, the face-swap DeepFake is more complex as it involves identity change, is subjected to the encoding-decoding process, and is trained unsupervised, increasing the difficulty of implanting traces into the training phase. To effectively defend against face-swap DeepFake, we design two types of traces, sustainable trace (STrace) and erasable trace (ETrace), to be added to training faces. During the training, these manipulated faces affect the learning of the face-swap DeepFake model, enabling it to generate faces that only contain sustainable traces. In light of these two traces, our method can effectively expose DeepFakes by identifying them. Extensive experiments are conducted on the Celeb-DF dataset, compared with recent passive and proactive defense methods, and are studied thoroughly regarding various factors, corroborating the efficacy of our method on defending against face-swap DeepFake.
翻訳日:2023-07-28 15:58:31 公開日:2023-07-27
# 非正則制御に基づくアイデンティティスイッチの検出と整定

The detection and rectification for identity-switch based on unfalsified control ( http://arxiv.org/abs/2307.14591v1 )

ライセンス: Link先を確認
Junchao Huang, Xiaoqi He and Sheng Zhao(参考訳) マルチオブジェクト追跡(MOT)の目的は、ビデオで検出されたオブジェクトを継続的に追跡し、識別することである。 現在、マルチオブジェクト追跡のためのほとんどの方法は、動き情報をモデル化し、それを出現情報と組み合わせてオブジェクトを識別し追跡する。 本稿では,多目的追跡におけるIDスウィッチ問題に対処するために,不正制御を用いる。 追跡過程における軌跡の出現情報変動のシーケンスを確立し,idスイッチ検出とリカバリに特化した検出・整流モジュールを設計する。 また,データアソシエーションプロセスにおける出現情報のあいまいな一致問題に対処するための,簡便かつ効果的な戦略を提案する。 一般に公開されているMOTデータセットの実験結果から,オクルージョンや急速動作によるトラッキングエラーの処理において,トラッカーが優れた有効性と堅牢性を示すことが示された。

The purpose of multi-object tracking (MOT) is to continuously track and identify objects detected in videos. Currently, most methods for multi-object tracking model the motion information and combine it with appearance information to determine and track objects. In this paper, unfalsified control is employed to address the ID-switch problem in multi-object tracking. We establish sequences of appearance information variations for the trajectories during the tracking process and design a detection and rectification module specifically for ID-switch detection and recovery. We also propose a simple and effective strategy to address the issue of ambiguous matching of appearance information during the data association process. Experimental results on publicly available MOT datasets demonstrate that the tracker exhibits excellent effectiveness and robustness in handling tracking errors caused by occlusions and rapid movements.
翻訳日:2023-07-28 15:58:02 公開日:2023-07-27
# MCPA:2次元医用画像分割のためのマルチスケールクロスパーセプトロン注意ネットワーク

MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical Image Segmentation ( http://arxiv.org/abs/2307.14588v1 )

ライセンス: Link先を確認
Liang Xu, Mingxiao Chen, Yi Cheng, Pengfei Shao, Shuwei Shen, Peng Yao, and Ronald X.Xu(参考訳) 畳み込みニューラルネットワーク(CNN)に基づくUNetアーキテクチャは、医用画像解析において顕著な性能を示した。 しかし、制限された受容領域と畳み込み操作の固有のバイアスにより、長距離依存を捕捉する上での課題に直面している。 近年,グローバルな特徴相関を効果的に捉えることで,この制限を克服するため,UNetアーキテクチャに多くのトランスフォーマーベースの技術が組み込まれている。 しかし、Transformerモジュールの統合により、グローバルな機能融合プロセス中にローカルなコンテキスト情報が失われる可能性がある。 これらの課題を克服するために,Multiscale Cross Perceptron Attention Network (MCPA)と呼ばれる2次元医用画像分割モデルを提案する。 MCPAは、エンコーダ、デコーダ、クロスパーセプトロンの3つの主要コンポーネントで構成されている。 クロスパーセプトロンはまず、複数のマルチスケールクロスパーセプトロンモジュールを使用して局所相関をキャプチャし、スケールにまたがる特徴の融合を容易にする。 得られたマルチスケール特徴ベクトルは空間的に展開され、連結され、グローバルな依存をモデル化するためにグローバルパーセプトロンモジュールを介して供給される。 さらに,より微細な組織構造を含む画像のセマンティックセグメンテーションに対処するために,プログレッシブデュアルブランチ構造を導入する。 この構造は、MCPAネットワークトレーニングのセグメンテーション焦点を、大規模構造特徴からより高度なピクセルレベルの特徴へと徐々にシフトさせる。 提案するmcpaモデルは,ct(synapse),mri(acdc), fundus camera(drive, chase_db1,hrf),およびocta(rose)のオープン大規模データセットなど,さまざまなタスクやデバイスから利用可能な医療画像データセット上で評価する。 実験の結果,我々のMCPAモデルは最先端の性能を達成できた。 コードはhttps://github.com/simonustc/MCPA-for-2D-Medical-Image-Segmentationで公開されている。

The UNet architecture, based on Convolutional Neural Networks (CNN), has demonstrated its remarkable performance in medical image analysis. However, it faces challenges in capturing long-range dependencies due to the limited receptive fields and inherent bias of convolutional operations. Recently, numerous transformer-based techniques have been incorporated into the UNet architecture to overcome this limitation by effectively capturing global feature correlations. However, the integration of the Transformer modules may result in the loss of local contextual information during the global feature fusion process. To overcome these challenges, we propose a 2D medical image segmentation model called Multi-scale Cross Perceptron Attention Network (MCPA). The MCPA consists of three main components: an encoder, a decoder, and a Cross Perceptron. The Cross Perceptron first captures the local correlations using multiple Multi-scale Cross Perceptron modules, facilitating the fusion of features across scales. The resulting multi-scale feature vectors are then spatially unfolded, concatenated, and fed through a Global Perceptron module to model global dependencies. Furthermore, we introduce a Progressive Dual-branch Structure to address the semantic segmentation of the image involving finer tissue structures. This structure gradually shifts the segmentation focus of MCPA network training from large-scale structural features to more sophisticated pixel-level features. We evaluate our proposed MCPA model on several publicly available medical image datasets from different tasks and devices, including the open large-scale dataset of CT (Synapse), MRI (ACDC), fundus camera (DRIVE, CHASE_DB1, HRF), and OCTA (ROSE). The experimental results show that our MCPA model achieves state-of-the-art performance. The code is available at https://github.com/simonustc/MCPA-for-2D-Medical-Image-Segmentation.
翻訳日:2023-07-28 15:57:46 公開日:2023-07-27
# 励起変動を有する光パラメトリック発振器の耐故障性$H^\infty$制御

Fault-tolerant $H^\infty$ control for optical parametric oscillators with pumping fluctuations ( http://arxiv.org/abs/2307.14583v1 )

ライセンス: Link先を確認
Yanan Liu, Daoyi Dong, Ian R. Petersen, and Hidehiro Yonezaw(参考訳) 光パラメトリックオシレータ (OPOs) は、励起状態の生成や高度な技術開発に量子光学に広く応用されている。 opoのパンピングフィールドの位相または/および振幅が故障信号によるゆらぎを持つ場合、システムの動的パラメータに時間変動の不確実性を導入する。 本稿では, 故障入力と時間変化の不確実性を有するOPO用耐故障性$H^\infty$コントローラの設計法について検討し, 量子システムに必要な$H^\infty$性能を実現する。 量子系にロバストな$H^\infty$制御理論を適用し、2つのリカティ方程式の解に基づいて受動的コントローラとアクティブコントローラを設計する。 パッシブコントローラは単純な構造であり、パッシブ光学コンポーネントのみを使用して実装し易いが、アクティブ量子コントローラはパフォーマンスが向上する可能性がある。 システム不確かさを考慮せずに設計した2つのコントローラと1つのコントローラの制御性能を,特定のOPOにおける数値シミュレーションにより比較し,設計したコントローラがポンプ界の位相と振幅の変動に対して効果的に働くことを示す。

Optical Parametric Oscillators (OPOs) have wide applications in quantum optics for generating squeezed states and developing advanced technologies. When the phase or/and the amplitude of the pumping field for an OPO have fluctuations due to fault signals, time-varying uncertainties will be introduced in the dynamic parameters of the system. In this paper, we investigate how to design a fault-tolerant $H^\infty$ controller for an OPO with a disturbance input and time-varying uncertainties, which can achieve the required $H^\infty$ performance of the quantum system. We apply robust $H^\infty$ control theory to a quantum system, and design a passive controller and an active controller based on the solutions to two Riccati equations. The passive controller has a simple structure and is easy to be implemented by using only passive optical components, while the active quantum controller may achieve improved performance. The control performance of the proposed two controllers and one controller that was designed without consideration of system uncertainties is compared by numerical simulations in a specific OPO, and the results show that the designed controllers work effectively for fluctuations in both the phase and amplitude of the pumping field.
翻訳日:2023-07-28 15:57:12 公開日:2023-07-27
# FS-Depth:未確認屋内シーンにおける単一画像からの焦点・スケール深度推定

FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen Indoor Scene ( http://arxiv.org/abs/2307.14624v1 )

ライセンス: Link先を確認
Chengrui Wei, Meng Yang, Lei He, Nanning Zheng(参考訳) 現実の(見当たらない)屋内シーンで単一の画像から絶対深度マップを予測するのは、長い間不適切な問題だった。 単眼深度推定の一般化能力の低下は, スケール・あいまいな問題だけでなく, 焦点・あいまいな問題も本質的に原因であると考えられる。 つまり、異なるスケールのシーンで焦点距離の異なるカメラによって撮影される可能性がある。 本稿では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発する。 まず,多様なスケール/セマンティクスを持つ単一画像から相対深度を学習するために,相対深度推定ネットワークを採用する。 第2に、単一の焦点長値を焦点長特徴にマッピングし、異なるスケールの中間特徴と相対深度推定を連結することにより、マルチスケール特徴を生成する。 最後に、相対深度とマルチスケール特徴を共同で絶対深度推定ネットワークに供給する。 さらに、同じまたは同様の焦点長のカメラで撮影される公共データセットの焦点長の多様性を強化するために、新しいパイプラインが開発されている。 私たちのモデルは拡張nyudv2でトレーニングされ、見えない3つのデータセットでテストされます。 我々のモデルでは,最近の5つのSOTAと比較して,データ拡張による深度推定の一般化能力を41%/13%向上させ,3次元再構成における変形問題を緩和する。 特に,本モデルでは,元のNYUDv2の深度推定の精度を良好に維持する。

It has long been an ill-posed problem to predict absolute depth maps from single images in real (unseen) indoor scenes. We observe that it is essentially due to not only the scale-ambiguous problem but also the focal-ambiguous problem that decreases the generalization ability of monocular depth estimation. That is, images may be captured by cameras of different focal lengths in scenes of different scales. In this paper, we develop a focal-and-scale depth estimation model to well learn absolute depth maps from single images in unseen indoor scenes. First, a relative depth estimation network is adopted to learn relative depths from single images with diverse scales/semantics. Second, multi-scale features are generated by mapping a single focal length value to focal length features and concatenating them with intermediate features of different scales in relative depth estimation. Finally, relative depths and multi-scale features are jointly fed into an absolute depth estimation network. In addition, a new pipeline is developed to augment the diversity of focal lengths of public datasets, which are often captured with cameras of the same or similar focal lengths. Our model is trained on augmented NYUDv2 and tested on three unseen datasets. Our model considerably improves the generalization ability of depth estimation by 41%/13% (RMSE) with/without data augmentation compared with five recent SOTAs and well alleviates the deformation problem in 3D reconstruction. Notably, our model well maintains the accuracy of depth estimation on original NYUDv2.
翻訳日:2023-07-28 15:51:16 公開日:2023-07-27
# bubbleml: 機械学習のためのマルチフィジカルデータセットとベンチマーク

BubbleML: A Multi-Physics Dataset and Benchmarks for Machine Learning ( http://arxiv.org/abs/2307.14623v1 )

ライセンス: Link先を確認
Sheikh Md Shakeel Hassan, Arthur Feeney, Akash Dhruv, Jihoon Kim, Youngjoon Suh, Jaiyoung Ryu, Yoonjin Won, Aparna Chandramowlishwaran(参考訳) 位相変化現象の分野では、機械学習(ML)トレーニングに適したアクセシビリティと多様なデータセットの欠如が大きな課題となっている。 既存の実験データセットは、可用性の制限と根拠の少ないデータによって、しばしば制限され、この複雑なマルチフィジカルな現象の理解を妨げる。 このギャップを埋めるためにbubblemlデータセット(https://github.com/hpcforge/bubbleml)を提案する。これは物理駆動シミュレーションを利用して、核プール沸騰、フロー沸騰、サブクール沸騰を含む様々な沸騰シナリオの正確な地上真理情報を提供する。 この広範なデータセットは、さまざまな重力条件、流量、サブクーリングレベル、壁過熱を含む、51のシミュレーションを含む幅広いパラメータをカバーしている。 BubbleMLは、実験的な観察とトレンドに対して検証されており、ML研究の貴重なリソースとして確立されている。 さらに,2つのベンチマークを導入することで,多様な下流タスクの探索を容易にする可能性を示す。 a) 気泡力学を捉えるための光学的流れ解析,及び (b)温度力学の学習のためのオペレータネットワーク。 BubbleMLデータセットとそのベンチマークは、多物理相変化現象に関するML駆動の研究の進展の触媒として機能し、最先端の技術とモデルの開発と比較を可能にする。

In the field of phase change phenomena, the lack of accessible and diverse datasets suitable for machine learning (ML) training poses a significant challenge. Existing experimental datasets are often restricted, with limited availability and sparse ground truth data, impeding our understanding of this complex multi-physics phenomena. To bridge this gap, we present the BubbleML Dataset(https://github.com/HPCForge/BubbleML) which leverages physics-driven simulations to provide accurate ground truth information for various boiling scenarios, encompassing nucleate pool boiling, flow boiling, and sub-cooled boiling. This extensive dataset covers a wide range of parameters, including varying gravity conditions, flow rates, sub-cooling levels, and wall superheat, comprising 51 simulations. BubbleML is validated against experimental observations and trends, establishing it as an invaluable resource for ML research. Furthermore, we showcase its potential to facilitate exploration of diverse downstream tasks by introducing two benchmarks: (a) optical flow analysis to capture bubble dynamics, and (b) operator networks for learning temperature dynamics. The BubbleML dataset and its benchmarks serve as a catalyst for advancements in ML-driven research on multi-physics phase change phenomena, enabling the development and comparison of state-of-the-art techniques and models.
翻訳日:2023-07-28 15:50:50 公開日:2023-07-27
# NeRF-Det:多視点3次元物体検出のための幾何学的学習量表現

NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection ( http://arxiv.org/abs/2307.14620v1 )

ライセンス: Link先を確認
Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka(参考訳) 提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。 シーン形状のモデル化に苦慮する既存の屋内3d検出手法とは異なり,nerfをエンド・ツー・エンドで新規に使用することで3d形状を明示的に推定し,3d検出性能を向上させる。 具体的には、NeRFのシーンごとの最適化に付随する大きな遅延を避けるために、NeRF-MLPの一般化性を高めるのに十分な幾何の事前を導入する。 さらに,共有MLPを用いて検出とNeRF分岐をサブセットに接続し,3次元検出のための幾何学的容積表現の抽出と出力にNeRFを効果的に適用する。 提案手法は,ScanNetベンチマークとARKITScenesベンチマークでそれぞれ3.9mAP,3.1mAPの最先端性能を示した。 我々は、NeRF-Detの動作に関する詳細な分析を行っている。 共同トレーニング設計の結果、NeRF-Detは、シーンごとの最適化を必要とせず、オブジェクト検出、ビュー合成、深度推定といった未確認シーンをうまく一般化することができる。 コードは \url{https://github.com/facebookresearch/nerf-det} で入手できる。

We present NeRF-Det, a novel method for indoor 3D detection with posed RGB images as input. Unlike existing indoor 3D detection methods that struggle to model scene geometry, our method makes novel use of NeRF in an end-to-end manner to explicitly estimate 3D geometry, thereby improving 3D detection performance. Specifically, to avoid the significant extra latency associated with per-scene optimization of NeRF, we introduce sufficient geometry priors to enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the detection and NeRF branches through a shared MLP, enabling an efficient adaptation of NeRF to detection and yielding geometry-aware volumetric representations for 3D detection. Our method outperforms state-of-the-arts by 3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We provide extensive analysis to shed light on how NeRF-Det works. As a result of our joint-training design, NeRF-Det is able to generalize well to unseen scenes for object detection, view synthesis, and depth estimation tasks without requiring per-scene optimization. Code is available at \url{https://github.com/facebookresearch/NeRF-Det}.
翻訳日:2023-07-28 15:50:28 公開日:2023-07-27
# 放射状複素軌道:低レベル安定性と高レベル挙動

Imitating Complex Trajectories: Bridging Low-Level Stability and High-Level Behavior ( http://arxiv.org/abs/2307.14619v1 )

ライセンス: Link先を確認
Adam Block, Daniel Pfrommer, Max Simchowitz(参考訳) 非線形力学系における確率的、非マルコフ的、潜在的にマルチモーダル(すなわち「複雑」)な専門家の模倣を研究するための理論的枠組みを提案する。 我々のフレームワークは、専門家によるデモンストレーションに関する模倣ポリシーを安定化させるために、低レベルのコントローラーセイザーが学習され、あるいは暗黙的に位置コマンド制御を行う。 私たちはそれを示します a) 適切な低レベルの安定保証及び b)我々が「トータル変分連続性」(total variation continuity, tvc)と呼ぶ学習した方針の確率的連続性特性は、演者の状態分布に対する行動を正確に推定する模倣者である。 次に、一般的なデータ拡張レジームと新しいアルゴリズムのトリックを組み合わせることで、TVCが最小限の精度の劣化で確保できることを示し、実行時に拡張ノイズを追加する。 拡散モデルによりパラメータ化されたポリシーの保証をインスタンス化し、学習者が(雑音増大した)エキスパートポリシーのスコアを正確に推定した場合、擬似軌道の分布は自然の最適輸送距離における演者分布に近くなることを示す。 提案手法は,無関心な手法である雑音提示トラジェクタ間の複雑なカップリングを構成する。 アルゴリズムによる推薦を実証的に検証することで結論づける。

We propose a theoretical framework for studying the imitation of stochastic, non-Markovian, potentially multi-modal (i.e. "complex" ) expert demonstrations in nonlinear dynamical systems. Our framework invokes low-level controllers - either learned or implicit in position-command control - to stabilize imitation policies around expert demonstrations. We show that with (a) a suitable low-level stability guarantee and (b) a stochastic continuity property of the learned policy we call "total variation continuity" (TVC), an imitator that accurately estimates actions on the demonstrator's state distribution closely matches the demonstrator's distribution over entire trajectories. We then show that TVC can be ensured with minimal degradation of accuracy by combining a popular data-augmentation regimen with a novel algorithmic trick: adding augmentation noise at execution time. We instantiate our guarantees for policies parameterized by diffusion models and prove that if the learner accurately estimates the score of the (noise-augmented) expert policy, then the distribution of imitator trajectories is close to the demonstrator distribution in a natural optimal transport distance. Our analysis constructs intricate couplings between noise-augmented trajectories, a technique that may be of independent interest. We conclude by empirically validating our algorithmic recommendations.
翻訳日:2023-07-28 15:50:07 公開日:2023-07-27
# 咬合を用いたバイオメトリック認識のためのマルチスケールダイナミックグラフ表現

Multiscale Dynamic Graph Representation for Biometric Recognition with Occlusions ( http://arxiv.org/abs/2307.14617v1 )

ライセンス: Link先を確認
Min Ren, Yunlong Wang, Yuhao Zhu, Kunbo Zhang, Zhenan Sun(参考訳) 咬合は野生の生体認証において一般的な問題である。 CNNの一般化能力は、様々な閉塞の影響により大幅に低下する。 そこで本研究では,生体認証におけるオクルージョン問題を克服するために,cnnとグラフモデルの利点を統合する新しい統一フレームワークであるmultiscale dynamic graph representation (ms-dgr)を提案する。 具体的には、ある部分領域に反映された深い特徴群を特徴グラフ(FG)に再構成する。 FG内の各ノードは、入力されたサンプルの特定の局所領域を特徴付けるものとされ、エッジは非閉塞領域の共起を意味する。 ノード表現の類似性を解析し、隣接する行列に格納されたトポロジ構造を測定することにより、提案するフレームワークは動的グラフマッチングを利用して、オクルードされた部分に対応するノードを公平に破棄する。 マルチスケール戦略は、様々なサイズの領域を表すより多様なノードを獲得するためにさらに組み込まれている。 さらに、提案フレームワークは、ペアノードを示すことにより、より説明的かつ合理的な推論を示す。 大規模な実験により,本フレームワークの優位性が示され,本フレームワークは,本手法と比較して,自然および咬合シミュレーションの両方の精度を大きなマージンで向上させる。

Occlusion is a common problem with biometric recognition in the wild. The generalization ability of CNNs greatly decreases due to the adverse effects of various occlusions. To this end, we propose a novel unified framework integrating the merits of both CNNs and graph models to overcome occlusion problems in biometric recognition, called multiscale dynamic graph representation (MS-DGR). More specifically, a group of deep features reflected on certain subregions is recrafted into a feature graph (FG). Each node inside the FG is deemed to characterize a specific local region of the input sample, and the edges imply the co-occurrence of non-occluded regions. By analyzing the similarities of the node representations and measuring the topological structures stored in the adjacent matrix, the proposed framework leverages dynamic graph matching to judiciously discard the nodes corresponding to the occluded parts. The multiscale strategy is further incorporated to attain more diverse nodes representing regions of various sizes. Furthermore, the proposed framework exhibits a more illustrative and reasonable inference by showing the paired nodes. Extensive experiments demonstrate the superiority of the proposed framework, which boosts the accuracy in both natural and occlusion-simulated cases by a large margin compared with that of baseline methods.
翻訳日:2023-07-28 15:49:43 公開日:2023-07-27
# 自己矛盾グラフ拡散ネットワーク

Self-Contrastive Graph Diffusion Network ( http://arxiv.org/abs/2307.14613v1 )

ライセンス: Link先を確認
Yixian Ma, Kun Zhan(参考訳) 強化手法とサンプリング戦略は、対照的な学習において重要であるが、既存のほとんどの研究では、強化手法は慎重に設計する必要がある。 さらに、既存の手法ではデータの2つの異なる表現を得るために複雑な設計が必要である。 このような制約を克服するため,SCGDN(Self-Contrastive Graph Diffusion Network)と呼ばれる新しいフレームワークを提案する。 このフレームワークはattmental module (attm) と diffusion module (difm) の2つの主要コンポーネントから構成されている。 attmは優れた埋め込みを得るために高次構造と特徴情報を集約し、difmはラプラシアン拡散学習を通じてグラフの各ノードの状態のバランスをとり、グラフ内の隣接性と特徴情報の協調進化を可能にする。 既存の方法論とは異なり、scgdnはプレトレーニングを必要とせず、"サンプリングバイアス"とセマンティックドリフトを回避する拡張フリーなアプローチである。 構造や特徴情報に基づいて,高品質なサンプルサンプリングを行う。 2つのノードが隣り合う場合、それらは互いに正のサンプルと見なされる。 2つの非連結ノードが$k$NNグラフ上でも無関係であれば、互いに負のサンプルと見なされる。 比較対象は,提案するサンプリング戦略を合理的に活用し,冗長性低減期間は埋め込み内の冗長な情報を最小化し,より識別的な情報を保持できる。 この新しい枠組みでは、グラフ自己結合学習パラダイムは表現に強力な力を与える。 SCGDNは、高次構造情報の保存とオーバーフィッティングの回避を効果的にバランスする。 その結果、SCGDNはコントラスト法と古典法の両方に対して、一貫して性能を向上できることがわかった。

Augmentation techniques and sampling strategies are crucial in contrastive learning, but in most existing works, augmentation techniques require careful design, and their sampling strategies can only capture a small amount of intrinsic supervision information. Additionally, the existing methods require complex designs to obtain two different representations of the data. To overcome these limitations, we propose a novel framework called the Self-Contrastive Graph Diffusion Network (SCGDN). Our framework consists of two main components: the Attentional Module (AttM) and the Diffusion Module (DiFM). AttM aggregates higher-order structure and feature information to get an excellent embedding, while DiFM balances the state of each node in the graph through Laplacian diffusion learning and allows the cooperative evolution of adjacency and feature information in the graph. Unlike existing methodologies, SCGDN is an augmentation-free approach that avoids "sampling bias" and semantic drift, without the need for pre-training. We conduct a high-quality sampling of samples based on structure and feature information. If two nodes are neighbors, they are considered positive samples of each other. If two disconnected nodes are also unrelated on $k$NN graph, they are considered negative samples for each other. The contrastive objective reasonably uses our proposed sampling strategies, and the redundancy reduction term minimizes redundant information in the embedding and can well retain more discriminative information. In this novel framework, the graph self-contrastive learning paradigm gives expression to a powerful force. SCGDN effectively balances between preserving high-order structure information and avoiding overfitting. The results manifest that SCGDN can consistently generate outperformance over both the contrastive methods and the classical methods.
翻訳日:2023-07-28 15:49:24 公開日:2023-07-27
# genco: リモートセンシングにおける数発学習強化のためのコントラスト学習補助生成器

GenCo: An Auxiliary Generator from Contrastive Learning for Enhanced Few-Shot Learning in Remote Sensing ( http://arxiv.org/abs/2307.14612v1 )

ライセンス: Link先を確認
Jing Wu, Naira Hovakimyan, Jennifer Hobbs(参考訳) 限られたサンプルから分類・分節パターンを抽出することは、正確なラベル付きデータを大量に取得することが困難であるため、リモートセンシングや地球観測において重要な課題である。 これまでの研究では、クエリとサポートセットのエピソディクストレーニングを含むメタラーニングが有望なアプローチであることが示されている。 しかし、直接微調整技術にはほとんど注意が払われていない。 本稿では,分類・意味セグメンテーションタスクのためのマイトショット学習の事前学習方法として,コントラスト学習を活用した。 具体的には、バックボーンを事前訓練し、特徴サンプルの変種を同時に探索するジェネレータベースのコントラスト学習フレームワーク(GenCo)を導入する。 微調整では、補助ジェネレータを使用して、特徴空間内の限られたラベル付きデータサンプルを濃縮することができる。 本手法は,2つのリモートセンシングデータセットであるGarmy-VisionとEuroSATにおいて,数ショット学習性能の向上に有効であることを示す。 実証的アプローチは,分類と意味的セグメンテーションタスクの両方において,農業ビジョンの95,000近い画像に対して,純粋に教師付きトレーニングを上回っている。 同様に,提案手法は,EuroSATの土地被覆分類タスクにおいて,データセットの完全教師付きモデルトレーニングの結果と比較して,より良い結果が得られる。

Classifying and segmenting patterns from a limited number of examples is a significant challenge in remote sensing and earth observation due to the difficulty in acquiring accurately labeled data in large quantities. Previous studies have shown that meta-learning, which involves episodic training on query and support sets, is a promising approach. However, there has been little attention paid to direct fine-tuning techniques. This paper repurposes contrastive learning as a pre-training method for few-shot learning for classification and semantic segmentation tasks. Specifically, we introduce a generator-based contrastive learning framework (GenCo) that pre-trains backbones and simultaneously explores variants of feature samples. In fine-tuning, the auxiliary generator can be used to enrich limited labeled data samples in feature space. We demonstrate the effectiveness of our method in improving few-shot learning performance on two key remote sensing datasets: Agriculture-Vision and EuroSAT. Empirically, our approach outperforms purely supervised training on the nearly 95,000 images in Agriculture-Vision for both classification and semantic segmentation tasks. Similarly, the proposed few-shot method achieves better results on the land-cover classification task on EuroSAT compared to the results obtained from fully supervised model training on the dataset.
翻訳日:2023-07-28 15:48:56 公開日:2023-07-27
# TextManiA: テキスト駆動マニフォールド拡張による視覚機能強化

TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation ( http://arxiv.org/abs/2307.14611v1 )

ライセンス: Link先を確認
Moon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae-Hyun Oh(参考訳) 近年のラベルミックスによる拡張手法は, 単純さに拘わらず, 一般化における有効性を示しており, その有効性は意味レベル向上によるものが多い。 しかし,少ないデータクラスはクラス間摂動に対してはほとんどサンプリングされないため,スキュードクラス分布に弱いことが判明した。 データ分布に関係なく視覚的特徴空間を意味的に豊かにするテキスト駆動型多様体拡張法であるTextManiAを提案する。 TextManiAは、理解しやすい視覚的模倣語、すなわち属性を利用して、クラス内の意味摂動で視覚データを増強する。 この目的のために,テキスト表現と対象視覚特徴空間を橋渡しし,効率的なベクトル拡張を提案する。 設計の有効性を実証的に支援するため、2つの可視化に基づく解析を行い、2つの異なるモダリティ空間間の橋梁の妥当性を示す。 実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは強力であることがわかった。 また、均等に分散した不足データに対するラベルミックスベースアプローチとの互換性を示す。

Recent label mix-based augmentation methods have shown their effectiveness in generalization despite their simplicity, and their favorable effects are often attributed to semantic-level augmentation. However, we found that they are vulnerable to highly skewed class distribution, because scarce data classes are rarely sampled for inter-class perturbation. We propose TextManiA, a text-driven manifold augmentation method that semantically enriches visual feature spaces, regardless of data distribution. TextManiA augments visual data with intra-class semantic perturbation by exploiting easy-to-understand visually mimetic words, i.e., attributes. To this end, we bridge between the text representation and a target visual feature space, and propose an efficient vector augmentation. To empirically support the validity of our design, we devise two visualization-based analyses and show the plausibility of the bridge between two different modality spaces. Our experiments demonstrate that TextManiA is powerful in scarce samples with class imbalance as well as even distribution. We also show compatibility with the label mix-based approaches in evenly distributed scarce data.
翻訳日:2023-07-28 15:48:35 公開日:2023-07-27
# Complete and separate: ターゲット属性の欠如による条件付き分離

Complete and separate: Conditional separation with missing target source attribute completion ( http://arxiv.org/abs/2307.14609v1 )

ライセンス: Link先を確認
Dimitrios Bralios, Efthymios Tzinis, Paris Smaragdis(参考訳) ソース分離における最近のアプローチは、条件付き分離モデルで使用される場合、その入力混合物と構成源のセマンティック情報を活用することができる。 これらの線に沿ったほとんどのアプローチは単純な記述に焦点を合わせており、様々な種類の入力混合に対して必ずしも有用ではない。 本研究では、入力混合物と対象ソースに関する部分的意味情報を与えられたモデルを用いて、追加的な意味データを抽出する手法を提案する。 次に,この事前学習モデルを用いて,非結合多条件分離ネットワークの分離性能を向上させる。 実験により, この多条件モデルの分離性能は大幅に向上し, 完全な意味情報を持つオラクルモデルの性能に近づいた。 さらに,本手法は,最高の性能を持つ単一条件モデルに匹敵する性能レベルを達成し,代替品の使い勝手を向上させる。

Recent approaches in source separation leverage semantic information about their input mixtures and constituent sources that when used in conditional separation models can achieve impressive performance. Most approaches along these lines have focused on simple descriptions, which are not always useful for varying types of input mixtures. In this work, we present an approach in which a model, given an input mixture and partial semantic information about a target source, is trained to extract additional semantic data. We then leverage this pre-trained model to improve the separation performance of an uncoupled multi-conditional separation network. Our experiments demonstrate that the separation performance of this multi-conditional model is significantly improved, approaching the performance of an oracle model with complete semantic information. Furthermore, our approach achieves performance levels that are comparable to those of the best performing specialized single conditional models, thus providing an easier to use alternative.
翻訳日:2023-07-28 15:48:17 公開日:2023-07-27
# 準粒子バンド構造の量子計算の実証

Demonstrating Quantum Computation for Quasiparticle Band Structures ( http://arxiv.org/abs/2307.14607v1 )

ライセンス: Link先を確認
Takahiro Ohgoe, Hokuto Iwakiri, Masaya Kohda, Kazuhide Ichikawa, Yuya O. Nakagawa, Hubert Okadome Valencia, and Sho Koh(参考訳) 第一原理からの固体材料の特性の理解と予測は数十年にわたって大きな課題であった。 量子技術の最近の進歩により、量子計算はこの目標を達成するための有望な方法を提供する。 本稿では,実際の量子コンピュータ上で準粒子バンド構造の第一原理計算を示す。 これは量子古典的なハイブリッドアルゴリズムと、量子ビットの減算と誤り軽減技術によって達成される。 我々のデモは、量子コンピュータの実用的な応用への道を開くだろう。

Understanding and predicting the properties of solid-state materials from first-principles has been a great challenge for decades. Owing to the recent advances in quantum technologies, quantum computations offer a promising way to achieve this goal. Here, we demonstrate the first-principles calculation of a quasiparticle band structure on actual quantum computers. This is achieved by hybrid quantum-classical algorithms in conjunction with qubit-reduction and error-mitigation techniques. Our demonstration will pave the way to practical applications of quantum computers.
翻訳日:2023-07-28 15:48:03 公開日:2023-07-27
# ブラックボックス変分推論の線形収束:着陸を控えるべきか?

Linear Convergence of Black-Box Variational Inference: Should We Stick the Landing? ( http://arxiv.org/abs/2307.14642v1 )

ライセンス: Link先を確認
Kyurae Kim, Yian Ma, and Jacob R. Gardner(参考訳) 制御変数を持つブラックボックス変分推論(bbvi)、特にスティッキング・ザ・ランディング(stl)推定器は、完全変分族仕様の下で幾何学的(伝統的に「線形」と呼ばれる)に収束する。 特に、不特定変分族を含むSTL推定器の勾配分散の2次境界を証明した。 二次分散条件に関する以前の研究と組み合わさって、これはプロジェクテッド確率勾配勾配を用いたBBVIの収束を直接意味する。 また,正規閉形式エントロピー勾配推定器の既存解析を改善し,stl推定器との比較を可能にし,その両方に対して明示的な非漸近的複雑性を保証する。

We prove that black-box variational inference (BBVI) with control variates, particularly the sticking-the-landing (STL) estimator, converges at a geometric (traditionally called "linear") rate under perfect variational family specification. In particular, we prove a quadratic bound on the gradient variance of the STL estimator, one which encompasses misspecified variational families. Combined with previous works on the quadratic variance condition, this directly implies convergence of BBVI with the use of projected stochastic gradient descent. We also improve existing analysis on the regular closed-form entropy gradient estimators, which enables comparison against the STL estimator and provides explicit non-asymptotic complexity guarantees for both.
翻訳日:2023-07-28 15:40:45 公開日:2023-07-27
# 一般化固有値方程式におけるユークリッド時間法

Euclidean time method in Generalized Eigenvalue Equation ( http://arxiv.org/abs/2307.14640v1 )

ライセンス: Link先を確認
Mi-Ra Hwang, Eylee Jung, Museong Kim, DaeKil Park(参考訳) 一般化固有値方程式 $a \ket{\phi_n} = \lambda_n b \ket{\phi_n}$ を解くための変分量子固有ソルバのユークリッド時間法を開発した。 目的のために、時間に依存しないシュルンディンガー方程式を解くために開発された通常のユークリッド時間形式を修正する。 テストの2つの数値例に形式化を適用するが、ここではそれぞれ$b$が正則かつ特異である。 私たちの形式主義はどちらの例でも非常にうまく機能している。 原子問題に対する将来的な応用について概説する。

We develop the Euclidean time method of the variational quantum eigensolver for solving the generalized eigenvalue equation $A \ket{\phi_n} = \lambda_n B \ket{\phi_n}$. For the purpose we modify the usual Euclidean time formalism, which was developed for solving the time-independent Schr\"{o}dinger equation. We apply our formalism to two numerical examples for test, where $B$ is regular and singular respectively. It is shown that our formalism works very well in both examples. The future applications to the atomic problems are briefly discussed.
翻訳日:2023-07-28 15:40:30 公開日:2023-07-27
# EqGAN:Few-shot画像生成のための特徴等化融合

EqGAN: Feature Equalization Fusion for Few-shot Image Generation ( http://arxiv.org/abs/2307.14638v1 )

ライセンス: Link先を確認
Yingbo Zhou, Zhihao Yue, Yutong Ye, Pengyu Zhang, Xian Wei, Mingsong Chen(参考訳) 微細な構造やテクスチャ情報がないため、既存の核融合による少数ショット画像生成法は不満足な生成品質と多様性に悩まされる。 この問題に対処するために,数ショット画像生成のためのEqGAN(Equalization fusion Generative Adversarial Network)を提案する。 深い特徴や局所的な表現に依存する既存の融合戦略とは異なり、エンコードされた特徴を浅い内容と深い内容に分離することで、構造とテクスチャを融合する2つの別々の枝を設計する。 全ての特徴レベルで画像内容の洗練を図るため、異なるスケールで融合構造とテクスチャのセマンティクスを等化し、接続をスキップすることでデコーダをよりリッチな情報で補う。 融合構造とテクスチャは互いに矛盾する可能性があるため、等化特徴とデコーダの中間出力との間に一貫した等化損失を導出し、セマンティクスをさらに整合させる。 3つの公開データセットに関する総合的な実験によると、EqGANはFIDスコア(最大32.7%)とLPIPSスコア(最大4.19%)で生成性能を著しく向上するだけでなく、下流分類タスクの精度(最大1.97%)で最先端のパフォーマンスも向上している。

Due to the absence of fine structure and texture information, existing fusion-based few-shot image generation methods suffer from unsatisfactory generation quality and diversity. To address this problem, we propose a novel feature Equalization fusion Generative Adversarial Network (EqGAN) for few-shot image generation. Unlike existing fusion strategies that rely on either deep features or local representations, we design two separate branches to fuse structures and textures by disentangling encoded features into shallow and deep contents. To refine image contents at all feature levels, we equalize the fused structure and texture semantics at different scales and supplement the decoder with richer information by skip connections. Since the fused structures and textures may be inconsistent with each other, we devise a consistent equalization loss between the equalized features and the intermediate output of the decoder to further align the semantics. Comprehensive experiments on three public datasets demonstrate that, EqGAN not only significantly improves generation performance with FID score (by up to 32.7%) and LPIPS score (by up to 4.19%), but also outperforms the state-of-the-arts in terms of accuracy (by up to 1.97%) for downstream classification tasks.
翻訳日:2023-07-28 15:40:21 公開日:2023-07-27
# マイクロ圧縮認識のためのHTNet

HTNet for micro-expression recognition ( http://arxiv.org/abs/2307.14637v1 )

ライセンス: Link先を確認
Zhifeng Wang and Kaihao Zhang and Wenhan Luo and Ramesh Sankaranarayana(参考訳) 表情は顔面筋収縮と関連し、異なる筋運動は異なる感情状態に対応する。 微小な表情認識では、筋肉の動きは通常微妙であり、現在の顔の感情認識アルゴリズムの性能に悪影響を及ぼす。 既存のほとんどの方法は、シーケンス内のトークン間の関係をキャプチャするために自己注意機構を使用しているが、顔のランドマーク間の固有の空間的関係を考慮していない。 これにより, マイクロ圧縮認識タスクにおける準最適性能が得られ, 従来, 顔の筋肉の動きを認識することは, マイクロ圧縮認識の領域において重要な課題である。 本稿では,顔面筋運動の重要な領域を特定するために階層型トランスフォーマーネットワーク(HTNet)を提案する。 HTNetには2つの主要なコンポーネントが含まれている。ローカルの時間的特徴を活用するトランスフォーマー層と、ローカルとグローバルのセマンティックな顔の特徴を抽出するアグリゲーション層だ。 具体的には、HTNetは顔を4つの異なる顔領域(左唇領域、左目領域、右目領域、右唇領域)に分割する。 変圧器層は、各領域における局所的自己着脱を伴う局所的小筋運動の表現に焦点をあてる。 凝集層は、眼領域と唇領域の間の相互作用を学ぶために使用される。 公開された4つのマイクロ圧縮データセットの実験は、提案手法が従来の手法よりも大きなマージンで優れていることを示している。 コードとモデルは以下の通りである。 \url{https://github.com/wangzhifengharrison/HTNet}

Facial expression is related to facial muscle contractions and different muscle movements correspond to different emotional states. For micro-expression recognition, the muscle movements are usually subtle, which has a negative impact on the performance of current facial emotion recognition algorithms. Most existing methods use self-attention mechanisms to capture relationships between tokens in a sequence, but they do not take into account the inherent spatial relationships between facial landmarks. This can result in sub-optimal performance on micro-expression recognition tasks.Therefore, learning to recognize facial muscle movements is a key challenge in the area of micro-expression recognition. In this paper, we propose a Hierarchical Transformer Network (HTNet) to identify critical areas of facial muscle movement. HTNet includes two major components: a transformer layer that leverages the local temporal features and an aggregation layer that extracts local and global semantical facial features. Specifically, HTNet divides the face into four different facial areas: left lip area, left eye area, right eye area and right lip area. The transformer layer is used to focus on representing local minor muscle movement with local self-attention in each area. The aggregation layer is used to learn the interactions between eye areas and lip areas. The experiments on four publicly available micro-expression datasets show that the proposed approach outperforms previous methods by a large margin. The codes and models are available at: \url{https://github.com/wangzhifengharrison/HTNet}
翻訳日:2023-07-28 15:39:55 公開日:2023-07-27
# 想像的磁場を持つ二次元格子

Two dimensional lattice with an imaginary magnetic field ( http://arxiv.org/abs/2307.14635v1 )

ライセンス: Link先を確認
Tomoki Ozawa and Tomoya Hayata(参考訳) 仮想磁場を持つ2次元非エルミート格子系のゲージ非依存特性について検討する。 開境界条件下でのエネルギースペクトルは、そのようなゲージ非依存な性質の例である。 非ブロックバンド理論の枠組みを用いて, 片側の長さの増大に伴う漸近連続エネルギースペクトルを得る方法について検討する。 また,Aharonov-Bohm効果の類似性も見出され,閉鎖経路を断熱的に形成する波動関数のノルムの純変化は,その経路に囲む想像上の磁束によって決定される。

We explore gauge-independent properties of two-dimensional non-Hermitian lattice systems with an imaginary magnetic field. We find that the energy spectrum under the open boundary conditions is an example of such gauge-independent properties. We discuss how to obtain the asymptotic continuum energy spectrum upon increasing length of one side using the framework of the non-Bloch band theory. We also find an analog of the Aharonov-Bohm effect; the net change of the norm of the wavefunction upon adiabatically forming a closed path is determined by the imaginary magnetic flux enclosed by the path.
翻訳日:2023-07-28 15:39:31 公開日:2023-07-27
# AI生成レポートのFact-Checking

Fact-Checking of AI-Generated Reports ( http://arxiv.org/abs/2307.14634v1 )

ライセンス: Link先を確認
Razi Mahmood, Ge Wang, Mannudeep Kalra, and Pingkun Yan(参考訳) 生成人工知能(AI)の進歩により、放射線画像の予備読取のための現実的な自動レポートを作成できるようになった。 これにより、臨床ワークフローの迅速化、精度の向上、全体的なコスト削減が可能になる。 しかし、このようなモデルはしばしば幻覚を起こし、生成された報告に誤った発見をもたらすことが知られている。 本稿では,関連画像を用いたAI生成レポートのファクトチェック手法を提案する。 具体的には,本研究は,実文と偽文とを区別し,実文と偽文とを関連づけることによって,実文と偽文とを区別する。 このような検査者を訓練するために,我々はまず,画像に関連付けられた元の地中真実ラジオグラフィーレポートの知見を摂動することで,偽レポートの新しいデータセットを作成した。 これらのレポートから得られた実文と偽文のテキストエンコーディングは、画像エンコーディングと組み合わせて、実・偽ラベルへのマッピングを学ぶ。 偽文を検出して削除することにより、自動生成されたレポートを検証するための検査器の有用性を実証する。 将来の生成型AIアプローチでは、結果のツールを使用して報告を検証することで、臨床ワークフローの迅速化にAIをより責任のある使用が可能になる。

With advances in generative artificial intelligence (AI), it is now possible to produce realistic-looking automated reports for preliminary reads of radiology images. This can expedite clinical workflows, improve accuracy and reduce overall costs. However, it is also well-known that such models often hallucinate, leading to false findings in the generated reports. In this paper, we propose a new method of fact-checking of AI-generated reports using their associated images. Specifically, the developed examiner differentiates real and fake sentences in reports by learning the association between an image and sentences describing real or potentially fake findings. To train such an examiner, we first created a new dataset of fake reports by perturbing the findings in the original ground truth radiology reports associated with images. Text encodings of real and fake sentences drawn from these reports are then paired with image encodings to learn the mapping to real/fake labels. The utility of such an examiner is demonstrated for verifying automatically generated reports by detecting and removing fake sentences. Future generative AI approaches can use the resulting tool to validate their reports leading to a more responsible use of AI in expediting clinical workflows.
翻訳日:2023-07-28 15:39:20 公開日:2023-07-27
# メトリクスベースのインコンテキスト学習:テキスト単純化におけるケーススタディ

Metric-Based In-context Learning: A Case Study in Text Simplification ( http://arxiv.org/abs/2307.14632v1 )

ライセンス: Link先を確認
Subha Vadlamannati, G\"ozde G\"ul \c{S}ahin(参考訳) 大規模言語モデルのインコンテキスト学習(ICL)は多くの自然言語処理タスクにおいて強力なアプローチであることが証明されている。 しかしながら、iclのサンプルを選択する最良の方法を決定することは、結果が使用するサンプルの品質、量、順序によって大きく異なるため、非自明である。 本稿では,テキスト簡易化(ts)に関するケーススタディを行い,iclのベストかつ最も堅牢な例を選択する方法について検討する。 本稿では、SARI、圧縮比、BERT-Precisionなどの一般的なTSメトリクスを利用して、メトリクスベースのインコンテキスト学習(MBL)手法を提案する。 TurkCorpus や ASSET のような標準 TS ベンチマークにおける様々なサイズの GPT モデルによる広範な実験を通して、上位 SARI スコアが選択した例は GPT-175B のような大きなモデルで最高であるのに対して、圧縮比は GPT-13B や GPT-6.7B のようなより小さなモデルでより良く動作することを示した。 さらに、mblは一般に、サンプルの順序付けやドメイン外テストセットに頑健であり、強力なベースラインや最先端の言語モデルを上回ることを実証する。 最後に,大規模GPTモデルの挙動を,選択した計量によって暗黙的に制御できることを示す。 本研究は, iclのサンプル選択のための新しいフレームワークを提供し, テキスト簡易化タスクにおけるその効果を実証し, より正確かつ効率的なnlgシステムのための新たな基盤を壊す。

In-context learning (ICL) for large language models has proven to be a powerful approach for many natural language processing tasks. However, determining the best method to select examples for ICL is nontrivial as the results can vary greatly depending on the quality, quantity, and order of examples used. In this paper, we conduct a case study on text simplification (TS) to investigate how to select the best and most robust examples for ICL. We propose Metric-Based in-context Learning (MBL) method that utilizes commonly used TS metrics such as SARI, compression ratio, and BERT-Precision for selection. Through an extensive set of experiments with various-sized GPT models on standard TS benchmarks such as TurkCorpus and ASSET, we show that examples selected by the top SARI scores perform the best on larger models such as GPT-175B, while the compression ratio generally performs better on smaller models such as GPT-13B and GPT-6.7B. Furthermore, we demonstrate that MBL is generally robust to example orderings and out-of-domain test sets, and outperforms strong baselines and state-of-the-art finetuned language models. Finally, we show that the behaviour of large GPT models can be implicitly controlled by the chosen metric. Our research provides a new framework for selecting examples in ICL, and demonstrates its effectiveness in text simplification tasks, breaking new ground for more accurate and efficient NLG systems.
翻訳日:2023-07-28 15:39:01 公開日:2023-07-27
# 360VOT: 双方向ビジュアルオブジェクト追跡のためのベンチマークデータセット

360VOT: A New Benchmark Dataset for Omnidirectional Visual Object Tracking ( http://arxiv.org/abs/2307.14630v1 )

ライセンス: Link先を確認
Huajian Huang, Yinzhe Xu, Yingshu Chen, and Sai-Kit Yeung(参考訳) 360{\deg}画像は、安定かつ長期のシーン知覚に重要な全方位視野を提供することができる。 本稿では,視覚物体追跡のための360{\deg}画像について検討し,360{\deg}画像の歪み,縫製加工,その他の特徴による新たな課題について考察する。 これらの問題を緩和するために、ターゲットローカライゼーションの新たな表現、すなわちバウンディング・フィールド・オブ・ビューを生かし、全方位トラッキングに典型的なトラッカーを利用できる一般的な360トラッキングフレームワークを導入する。 さらに, 今後の研究を促進するために, 大規模全方位追跡ベンチマークデータセット 360vot を提案する。 360VOTは120のシーケンスと113Kの高解像度フレームを含んでいる。 追跡対象は、さまざまなシナリオで32のカテゴリをカバーする。 さらに,(回転)バウンディングボックスと(回転)バウンディング・フィールド・オブ・ビューと,360{\deg} 画像用に調整された新しいメトリクスにより,全方位追跡性能の高精度な評価が可能となる。 最後に、最先端の20のビジュアルトラッカーを広範囲に評価し、将来の比較のための新しいベースラインを提供した。 ホームページ: https://360vot.hkustvgd.com

360{\deg} images can provide an omnidirectional field of view which is important for stable and long-term scene perception. In this paper, we explore 360{\deg} images for visual object tracking and perceive new challenges caused by large distortion, stitching artifacts, and other unique attributes of 360{\deg} images. To alleviate these problems, we take advantage of novel representations of target localization, i.e., bounding field-of-view, and then introduce a general 360 tracking framework that can adopt typical trackers for omnidirectional tracking. More importantly, we propose a new large-scale omnidirectional tracking benchmark dataset, 360VOT, in order to facilitate future research. 360VOT contains 120 sequences with up to 113K high-resolution frames in equirectangular projection. The tracking targets cover 32 categories in diverse scenarios. Moreover, we provide 4 types of unbiased ground truth, including (rotated) bounding boxes and (rotated) bounding field-of-views, as well as new metrics tailored for 360{\deg} images which allow for the accurate evaluation of omnidirectional tracking performance. Finally, we extensively evaluated 20 state-of-the-art visual trackers and provided a new baseline for future comparisons. Homepage: https://360vot.hkustvgd.com
翻訳日:2023-07-28 15:38:31 公開日:2023-07-27
# 迅速かつスケーラブルなベイズ型ab試験

Rapid and Scalable Bayesian AB Testing ( http://arxiv.org/abs/2307.14628v1 )

ライセンス: Link先を確認
Srivas Chennu, Andrew Maher, Christian Pangerl, Subash Prabanantham, Jae Hyeon Bae, Jamie Martin and Bud Goswami(参考訳) abテストは事業者の意思決定を支援するもので、デジタルユーザエクスペリエンスを改善するためにデータから学ぶための標準的な方法だと考えられている。 しかしながら、実践者の要求と、ABテストの分析に一般的に使用される統計仮説検査手法によって課される制約との間には、通常はギャップがある。 これには、多くの要因を持つ多変量体設計における統計力の欠如、これらの要因間の相関、早期停止のためのシーケンシャルテストの必要性、過去のテストから知識をプールできないことが含まれる。 本稿では,上記の制限に対処するために階層ベイズ推定を適用した解を提案する。 現在の逐次abテスト手法と比較して,因子間の相関を活用し,過度な偽陽性リスクを伴わずに逐次テストと漸進的早期停止を可能にすることにより,統計力を高める。 また、この手法を拡張して過去のabテストから複合的なグローバルラーニングを抽出し、将来のテストを加速する方法を実証する。 我々は、階層的推定の価値を明確化する固い理論的枠組みで作業の土台となる。 数値シミュレーションと実世界のABテストの両方を用いて,その実用性を実証する。 これらの結果は,技術産業における統計的推測に対する我々のアプローチの実践的価値を強調するものである。

AB testing aids business operators with their decision making, and is considered the gold standard method for learning from data to improve digital user experiences. However, there is usually a gap between the requirements of practitioners, and the constraints imposed by the statistical hypothesis testing methodologies commonly used for analysis of AB tests. These include the lack of statistical power in multivariate designs with many factors, correlations between these factors, the need of sequential testing for early stopping, and the inability to pool knowledge from past tests. Here, we propose a solution that applies hierarchical Bayesian estimation to address the above limitations. In comparison to current sequential AB testing methodology, we increase statistical power by exploiting correlations between factors, enabling sequential testing and progressive early stopping, without incurring excessive false positive risk. We also demonstrate how this methodology can be extended to enable the extraction of composite global learnings from past AB tests, to accelerate future tests. We underpin our work with a solid theoretical framework that articulates the value of hierarchical estimation. We demonstrate its utility using both numerical simulations and a large set of real-world AB tests. Together, these results highlight the practical value of our approach for statistical inference in the technology industry.
翻訳日:2023-07-28 15:38:09 公開日:2023-07-27
# 機械学習による絡み合った多体状態の生成

Preparation of Entangled Many-Body States with Machine Learning ( http://arxiv.org/abs/2307.14627v1 )

ライセンス: Link先を確認
Donggyu Kim, Eun-Gook Moon(参考訳) 量子シミュレータ上での標的量子多体状態の生成は、量子科学と技術の重要なステップの1つである。 少数の量子ビットでは、greenberger-horne-zeilinger状態のようないくつかの量子状態が準備されているが、量子演算数のリーブ・ロビンソン境界を含む多くの量子ビットを持つシステムにおける根本的な困難は残っている。 そこで我々は,深層学習プロセスを実装したアルゴリズムを1つ提供し,多くの量子ビットで目標基底状態を作成する。 我々の戦略は、機械学習モデルを訓練し、少数の量子ビットを持つ対応する量子状態から量子状態のパターンを利用して、多くの量子ビットを持つパラメータを予測することである。 例えば、Quantum Approximate Optimization Ansatzを用いたアルゴリズムは、64スピンの1次元XYモデルの基底状態を効果的に生成できることを示す。 また, 2つの量子ビットの密度演算子を減少させることで, 量子臨界状態においても相関長などの量子多体状態のパターンを捉えることができることを示した。

Preparation of a target quantum many-body state on quantum simulators is one of the significant steps in quantum science and technology. With a small number of qubits, a few quantum states, such as the Greenberger-Horne-Zeilinger state, have been prepared, but fundamental difficulties in systems with many qubits remain, including the Lieb-Robinson bounds for the number of quantum operations. Here, we provide one algorithm with an implementation of a deep learning process and achieve to prepare the target ground states with many qubits. Our strategy is to train a machine-learning model and predict parameters with many qubits by utilizing a pattern of quantum states from the corresponding quantum states with small numbers of qubits. For example, we demonstrate that our algorithm with the Quantum Approximate Optimization Ansatz can effectively generate the ground state for a 1D XY model with 64 spins. We also demonstrate that the reduced density operator of two qubits can be utilized to capture the pattern of quantum many-body states such as correlation lengths even for quantum critical states.
翻訳日:2023-07-28 15:37:48 公開日:2023-07-27
# 対称および反対称状態からの集合放出としての単一光子超放射とサブ放射

Single Photon Superradiance and Subradiance as Collective Emission From Symmetric and Antisymmetric States ( http://arxiv.org/abs/2307.14667v1 )

ライセンス: Link先を確認
Nicola Piovella and Stefano Olivares(参考訳) 最近の研究では、N$共振2レベル原子のアンサンブルからの集合的な単一光子自然放出が豊富な研究分野であることが示されている。 超放射能は、例えば外部レーザーによって印加された1つの励起原子で、N$原子の完全に対称な状態からの放出を記述する。 代わりに、サブラジオアンスは残りの$N-1$非対称状態からの放出に関連付けられ、単一の原子値よりも集団崩壊率が低い。 本稿では,対称および非対称状態の正規直交基底の性質と超ラジアントおよび亜ラジアント状態の絡み合い特性について考察する。

Recent works have shown that collective single photon spontaneous emission from an ensemble of $N$ resonant two-level atoms is a rich field of study. Superradiance describes emission from a completely symmetric state of $N$ atoms, with a single excited atom prepared with a given phase, for instance imprinted by an external laser. Instead, subradiance is associated with the emission from the remaining $N-1$ asymmetric states, with a collective decay rate less than the single-atom value. Here, we discuss the properties of the orthonormal basis of symmetric and asymmetric states and the entanglement properties of superradiant and subradiant states.
翻訳日:2023-07-28 15:31:57 公開日:2023-07-27
# トランスフォーマーモデルと言語情報を用いたアラビア語の自然言語推論の改善

Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training ( http://arxiv.org/abs/2307.14666v1 )

ライセンス: Link先を確認
Mohammad Majd Saad Al Deen, Maren Pielka, J\"orn Hees, Bouthaina Soulef Abdou, Rafet Sifa(参考訳) 本稿では自然言語処理(NLP)分野におけるアラビア文字データの分類について,特に自然言語推論(NLI)とコントラディクション検出(CD)に注目した。 アラビア語はリソース不足言語と考えられており、利用可能なデータセットは少ないため、NLPメソッドは限られている。 この制限を克服するため、公開リソースから専用のデータセットを作成します。 その後、トランスフォーマーベースの機械学習モデルをトレーニングし、評価している。 我々は,言語特化モデル(arabert)が最先端の多言語アプローチと競合することを見出し,名前付きエンティティ認識(ner)のような言語的インフォームド事前学習手法を適用した。 私たちの知る限り、これはアラビア語でのこのタスクに対する最初の大規模評価であり、この文脈におけるマルチタスク事前トレーニングの最初の応用である。

This paper addresses the classification of Arabic text data in the field of Natural Language Processing (NLP), with a particular focus on Natural Language Inference (NLI) and Contradiction Detection (CD). Arabic is considered a resource-poor language, meaning that there are few data sets available, which leads to limited availability of NLP methods. To overcome this limitation, we create a dedicated data set from publicly available resources. Subsequently, transformer-based machine learning models are being trained and evaluated. We find that a language-specific model (AraBERT) performs competitively with state-of-the-art multilingual approaches, when we apply linguistically informed pre-training methods such as Named Entity Recognition (NER). To our knowledge, this is the first large-scale evaluation for this task in Arabic, as well as the first application of multi-task pre-training in this context.
翻訳日:2023-07-28 15:31:44 公開日:2023-07-27
# 数値計画における多値部分順序計画

Multi-Valued Partial Order Plans in Numeric Planning ( http://arxiv.org/abs/2307.14660v1 )

ライセンス: Link先を確認
Hayyan Helal, Gerhard Lakemeyer(参考訳) 多くの計画形式はブール効果と数値を混合することができる。 しかし、これらの形式主義のほとんどは決定不能である。 本稿では,この不確定性の原因を,それまでの計量流用者にとって有用なアプローチである,異なる行動の発生数を調べることによって分析する。 まず,検索問題として限定タスクとして知られる数値計画問題を整理することから始める。 次に、ヒューリスティックスを用いてNP完備な数値計画の断片を見つける方法を示す。 これを実現するため、我々は多値部分順序計画のアイデアを開発し、(順序と並列)計画のコンパクトな表現を最小にする。 最後に,ソフトプレコンディションを組み込むための最適化手法について検討する。

Many planning formalisms allow for mixing numeric with Boolean effects. However, most of these formalisms are undecidable. In this paper, we will analyze possible causes for this undecidability by studying the number of different occurrences of actions, an approach that proved useful for metric fluents before. We will start by reformulating a numeric planning problem known as restricted tasks as a search problem. We will then show how an NP-complete fragment of numeric planning can be found by using heuristics. To achieve this, we will develop the idea of multi-valued partial order plans, a least committing compact representation for (sequential and parallel) plans. Finally, we will study optimization techniques for this representation to incorporate soft preconditions.
翻訳日:2023-07-28 15:31:28 公開日:2023-07-27
# LLDiffusion:低照度画像強調のための拡散モデルにおける学習劣化表現

LLDiffusion: Learning Degradation Representations in Diffusion Models for Low-Light Image Enhancement ( http://arxiv.org/abs/2307.14659v1 )

ライセンス: Link先を確認
Tao Wang, Kaihao Zhang, Ziqian Shao, Wenhan Luo, Bjorn Stenger, Tae-Kyun Kim, Wei Liu, Hongdong Li(参考訳) 現在の低照度画像強調(LLIE)の深層学習法は、通常、ペア化されたデータから学んだピクセルワイドマッピングに依存している。 しかし、これらの手法はしばしば劣化表現を考えることの重要性を見落とし、それが準最適結果をもたらす可能性がある。 本稿では,拡散モデルを用いてllieの分解・認識学習方式を提案することで,拡散過程に劣化と画像先行を効果的に統合することにより,画像のエンハンスメントが向上することを示す。 提案手法は, 低照度画像に現れる特定の劣化パターンを正確にモデル化し, キャプチャする上で, 劣化表現が重要な役割を担っていることに基づく。 この目的のために、まず、画像生成と画像強調の両方のための共同学習フレームワークを示し、分解表現を学習する。 第二に、学習した劣化表現を活用するために、よく設計された動的拡散モジュールを備えた低光拡散モデル(LLDiffusion)を開発する。 このモジュールは、拡散過程を導くために色地図と潜在劣化表現の両方を考慮に入れる。 これらの条件付け因子を組み込むことで、本提案のLDDiffusionは、本質的な劣化パターンと所望の色忠実度の両方を考慮して、効果的に低照度画像を強化することができる。 最後に,提案手法を,合成および実世界の未ペアデータセットを含む,よく知られたベンチマークデータセットで評価する。 公開ベンチマークの広範な実験により,我々のlldiffusionは定量的および定性的に最先端llie法よりも優れていることが示された。 ソースコードと事前トレーニングされたモデルは、https://github.com/taowangzj/lldiffusionで入手できる。

Current deep learning methods for low-light image enhancement (LLIE) typically rely on pixel-wise mapping learned from paired data. However, these methods often overlook the importance of considering degradation representations, which can lead to sub-optimal outcomes. In this paper, we address this limitation by proposing a degradation-aware learning scheme for LLIE using diffusion models, which effectively integrates degradation and image priors into the diffusion process, resulting in improved image enhancement. Our proposed degradation-aware learning scheme is based on the understanding that degradation representations play a crucial role in accurately modeling and capturing the specific degradation patterns present in low-light images. To this end, First, a joint learning framework for both image generation and image enhancement is presented to learn the degradation representations. Second, to leverage the learned degradation representations, we develop a Low-Light Diffusion model (LLDiffusion) with a well-designed dynamic diffusion module. This module takes into account both the color map and the latent degradation representations to guide the diffusion process. By incorporating these conditioning factors, the proposed LLDiffusion can effectively enhance low-light images, considering both the inherent degradation patterns and the desired color fidelity. Finally, we evaluate our proposed method on several well-known benchmark datasets, including synthetic and real-world unpaired datasets. Extensive experiments on public benchmarks demonstrate that our LLDiffusion outperforms state-of-the-art LLIE methods both quantitatively and qualitatively. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLDiffusion.
翻訳日:2023-07-28 15:31:15 公開日:2023-07-27
# マルウェア分類における機械学習の秘密の復号:データセット、特徴抽出、モデル性能の深い研究

Decoding the Secrets of Machine Learning in Malware Classification: A Deep Dive into Datasets, Feature Extraction, and Model Performance ( http://arxiv.org/abs/2307.14657v1 )

ライセンス: Link先を確認
Savino Dambra, Yufei Han, Simone Aonzo, Platon Kotzias, Antonino Vitale, Juan Caballero, Davide Balzarotti, Leyla Bilge(参考訳) 多くの研究が、マルウェアの検出と分類のための機械学習モデルを提案し、ほぼ完璧な性能を報告している。 しかし、それらは異なる方法で基盤を組み立て、特徴抽出のために多様な静的および動的解析技術を使用し、マルウェアファミリーを考えるものによってさえ異なる。 その結果、我々のコミュニティは、収集されたデータセットの性質と分布に結びついているかどうか、トレーニングデータセットの家族やサンプルの数がパフォーマンスにどの程度影響を与えているか、静的機能と動的機能がいかに補完するかといった、マルウェア分類結果の理解を欠いている。 この仕事はこれらのオープンな質問に光を当てる。 MLベースのマルウェアの検出と分類に影響を及ぼす重要な要因を調べる。 このために、これまでで最大のバランスのとれたマルウェアデータセットを670家族(それぞれ100のサンプル)から67Kのサンプルで収集し、我々のデータセットを使ってマルウェア検出と家族分類のための最先端のモデルを訓練した。 その結果,静的な特徴は動的機能よりも優れており,両者の組み合わせは静的機能よりも限界的な改善をもたらすことがわかった。 その結果,パッキンと分類精度の相関は認められず,動的抽出特徴の欠落が性能を著しく低下させることがわかった。 また,分類を行う家族の数が増えると分類が難しくなり,また1家族あたりのサンプル数が増えると精度が向上することを示した。 最後に、家族ごとのサンプルの均一分布に基づいて訓練されたモデルが、目に見えないデータに基づいてより一般化されることが分かる。

Many studies have proposed machine-learning (ML) models for malware detection and classification, reporting an almost-perfect performance. However, they assemble ground-truth in different ways, use diverse static- and dynamic-analysis techniques for feature extraction, and even differ on what they consider a malware family. As a consequence, our community still lacks an understanding of malware classification results: whether they are tied to the nature and distribution of the collected dataset, to what extent the number of families and samples in the training dataset influence performance, and how well static and dynamic features complement each other. This work sheds light on those open questions. by investigating the key factors influencing ML-based malware detection and classification. For this, we collect the largest balanced malware dataset so far with 67K samples from 670 families (100 samples each), and train state-of-the-art models for malware detection and family classification using our dataset. Our results reveal that static features perform better than dynamic features, and that combining both only provides marginal improvement over static features. We discover no correlation between packing and classification accuracy, and that missing behaviors in dynamically-extracted features highly penalize their performance. We also demonstrate how a larger number of families to classify make the classification harder, while a higher number of samples per family increases accuracy. Finally, we find that models trained on a uniform distribution of samples per family better generalize on unseen data.
翻訳日:2023-07-28 15:30:47 公開日:2023-07-27
# 機械学習に基づく地域気候モデルのパラメータ感性 -オーストラリア南東部におけるヒートエクストリームのWRFモデルの場合-

Machine Learning based Parameter Sensitivity of Regional Climate Models -- A Case Study of the WRF Model for Heat Extremes over Southeast Australia ( http://arxiv.org/abs/2307.14654v1 )

ライセンス: Link先を確認
P. Jyoteeshkumar Reddy, Sandeep Chinta, Richard Matear, John Taylor, Harish Baki, Marcus Thatcher, Jatin Kala, and Jason Sharples(参考訳) 熱波や山火事は世界中の社会や生態系に大きな影響を及ぼす。 対処可能な緩和および適応戦略の開発を支援するためには、熱極度の正確な情報が必要である。 地域気候モデルは、これらの現象のダイナミクスをよりよく理解するためによく用いられる。 これらのモデルは非常に大きな入力パラメータセットを持ち、物理スキーム内のパラメータはモデルの性能に大きく影響する。 しかし、地域モデルによる熱極端のパラメータ感度解析(sa)はほとんど未検討である。 ここでは、世界的なホットスポットの一つであるオーストラリア南東部に焦点を合わせます。 オーストラリア南東部の気象研究予測モデル(wrf)は、地域全体の極端な気象現象をシミュレートするために広く使われている地域モデルである。 そこで本研究では,オーストラリア南東部の2つの極端な熱イベントにおいて,気温,相対湿度,風速などの気象変数に対するWRFモデルパラメータの感度に着目した。 複数のパラメータの存在と出力変数との複雑な関係から,SAには機械学習(ML)サロゲートに基づくグローバル感度解析法が検討されている。 MLサロゲートに基づくSobol SAは、WRFモデルの7つの異なる物理スキームにおいて、24の調整可能なパラメータの感度を識別するために使用される。 その結果, この24項目のうち, 散乱チューニングパラメータ, 飽和土壌水分量の乗算器, 運動量拡散係数のプロファイル形状指数の3つのパラメータのみが, 気象学的変数として重要であることがわかった。 これらのSA結果は、2つの異なる極端な熱事象と一致している。 さらに,感度パラメータの物理的意義を検討した。 本研究の結果は、モデルシミュレーションを改善するために、WRFパラメータのさらなる最適化に役立つ。

Heatwaves and bushfires cause substantial impacts on society and ecosystems across the globe. Accurate information of heat extremes is needed to support the development of actionable mitigation and adaptation strategies. Regional climate models are commonly used to better understand the dynamics of these events. These models have very large input parameter sets, and the parameters within the physics schemes substantially influence the model's performance. However, parameter sensitivity analysis (SA) of regional models for heat extremes is largely unexplored. Here, we focus on the southeast Australian region, one of the global hotspots of heat extremes. In southeast Australia Weather Research and Forecasting (WRF) model is the widely used regional model to simulate extreme weather events across the region. Hence in this study, we focus on the sensitivity of WRF model parameters to surface meteorological variables such as temperature, relative humidity, and wind speed during two extreme heat events over southeast Australia. Due to the presence of multiple parameters and their complex relationship with output variables, a machine learning (ML) surrogate-based global sensitivity analysis method is considered for the SA. The ML surrogate-based Sobol SA is used to identify the sensitivity of 24 adjustable parameters in seven different physics schemes of the WRF model. Results show that out of these 24, only three parameters, namely the scattering tuning parameter, multiplier of saturated soil water content, and profile shape exponent in the momentum diffusivity coefficient, are important for the considered meteorological variables. These SA results are consistent for the two different extreme heat events. Further, we investigated the physical significance of sensitive parameters. This study's results will help in further optimising WRF parameters to improve model simulation.
翻訳日:2023-07-28 15:30:19 公開日:2023-07-27
# ディープラーニングのための速度制限

Speed Limits for Deep Learning ( http://arxiv.org/abs/2307.14653v1 )

ライセンス: Link先を確認
Inbar Seroussi, Alexander A. Alemi, Moritz Helias, Zohar Ringel(参考訳) 最先端のニューラルネットワークは、トレーニングに極端な計算能力を必要とする。 したがって、それらが最適に訓練されているかどうか疑問に思うのは自然である。 本稿では,Wasserstein-2 距離の比とそれらを接続する力学過程のエントロピー生成率に基づいて,初期重量分布から完全トレーニングネットワークの最終分布への移動速度を制限できる確率的熱力学の最近の進歩を適用する。 勾配流とランジュバンのトレーニングダイナミクスの両方を考慮すると、線形および線形化可能なニューラルネットワーク(例えば、neural tangent kernel(ntk))の速度制限に関する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。 この結果はCIFAR-10上での畳み込みニューラルネットワーク(CNN)と完全連結ニューラルネットワーク(FCN)による小規模な実験と一致する。

State-of-the-art neural networks require extreme computational power to train. It is therefore natural to wonder whether they are optimally trained. Here we apply a recent advancement in stochastic thermodynamics which allows bounding the speed at which one can go from the initial weight distribution to the final distribution of the fully trained network, based on the ratio of their Wasserstein-2 distance and the entropy production rate of the dynamical process connecting them. Considering both gradient-flow and Langevin training dynamics, we provide analytical expressions for these speed limits for linear and linearizable neural networks e.g. Neural Tangent Kernel (NTK). Remarkably, given some plausible scaling assumptions on the NTK spectra and spectral decomposition of the labels -- learning is optimal in a scaling sense. Our results are consistent with small-scale experiments with Convolutional Neural Networks (CNNs) and Fully Connected Neural networks (FCNs) on CIFAR-10, showing a short highly non-optimal regime followed by a longer optimal regime.
翻訳日:2023-07-28 15:29:55 公開日:2023-07-27
# 拡散確率モデルに基づく空間周波数U-Net

Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2307.14648v1 )

ライセンス: Link先を確認
Xin Yuan, Linjie Li, Jianfeng Wang, Zhengyuan Yang, Kevin Lin, Zicheng Liu and Lijuan Wang(参考訳) 本稿では,視覚合成のためのピクセル空間ではなく,ウェーブレット空間における消音拡散確率モデル(ddpm)について検討する。 ウェーブレット変換が空間領域と周波数領域のイメージを表すことを考慮し,二つの領域の相関を効果的に捉えるために,新しいアーキテクチャsfunetを慎重に設計する。 具体的には,2次元畳み込みと空間のみのアテンション層を空間周波数認識畳み込みとアテンションモジュールで補うことで,ウェーブレットデータにおける空間領域と周波数領域からの補完情報を協調的にモデル化する。 我々の新しいアーキテクチャは、ピクセルベースのネットワークのドロップイン代替として使用することができ、バニラDDPMトレーニングプロセスと互換性がある。 CIFAR-10, FFHQ, LSUN-Bedroom, LSUN-Churchデータセット上で, ピクセルベースよりも高画質の画像を生成することができる。

In this paper, we study the denoising diffusion probabilistic model (DDPM) in wavelet space, instead of pixel space, for visual synthesis. Considering the wavelet transform represents the image in spatial and frequency domains, we carefully design a novel architecture SFUNet to effectively capture the correlation for both domains. Specifically, in the standard denoising U-Net for pixel data, we supplement the 2D convolutions and spatial-only attention layers with our spatial frequency-aware convolution and attention modules to jointly model the complementary information from spatial and frequency domains in wavelet data. Our new architecture can be used as a drop-in replacement to the pixel-based network and is compatible with the vanilla DDPM training process. By explicitly modeling the wavelet signals, we find our model is able to generate images with higher quality on CIFAR-10, FFHQ, LSUN-Bedroom, and LSUN-Church datasets, than the pixel-based counterpart.
翻訳日:2023-07-28 15:29:40 公開日:2023-07-27
# 量子光と結合した分子アンサンブルの量子力学:重要な成分としての対回転相互作用

Quantum dynamics of molecular ensembles coupled with quantum light: Counter-rotating interactions as an essential component ( http://arxiv.org/abs/2307.14645v1 )

ライセンス: Link先を確認
Yi-Ting Chuang and Liang-Yan Hsu(参考訳) 光-物質相互作用に対する回転波近似は量子電磁力学のハミルトンで広く用いられているが、その妥当性は長い間議論されてきた。 本稿では, 回転波近似が複素誘電体環境における多分子の量子力学に与える影響を, 巨視的量子電磁力学の枠組みにおいて検討する。 一般に,分子のエネルギーシフトと分子間双極子-双極子相互作用は,反回転相互作用を考慮した場合にのみ正であることがわかった。 さらに、回転波近似の下では、基底状態分子のエネルギーシフトと分子間相互作用の一部が破棄される。 特に、近距離領域(分子間距離が短い)では、分子間相互作用の減少は最大50%に達する。 また, プラズモニック表面上の同一分子対の個体群動態についてもケーススタディを行った。 解析的および数値解析により、回転波近似は強い結合状態と弱い結合状態の両方の分子の力学に深く影響し、量子光と結合した多分子系における回転波近似を行う際に、注意深い考慮の必要性を強調した。

The rotating-wave approximation to light-matter interactions is widely used in the quantum electrodynamics Hamiltonian; however, its validity has long been a matter of debate. In this article, we explore the impact of the rotating-wave approximation on the quantum dynamics of multiple molecules in complex dielectric environments within the framework of macroscopic quantum electrodynamics. In general, we find that the energy shifts of the molecules and the inter-molecule dipole-dipole interaction obtained in the weak coupling regime are correct only when the counter-rotating interactions are considered. Moreover, under the rotating-wave approximation, the energy shifts of the ground-state molecules and a portion of the inter-molecule interaction are discarded. Notably, in the near-field zone (short inter-molecular distance), the reduction of inter-molecule interaction can reach up to 50 percent. We also conduct a case study on the population dynamics of a pair of identical molecules above a plasmonic surface. Through analytical and numerical analysis, it is revealed that the rotating-wave approximation can profoundly affect the dynamics of the molecules in both strong and weak coupling regimes, emphasizing the need for careful consideration when making the rotating-wave approximation in a multiple-molecule system coupled with quantum light.
翻訳日:2023-07-28 15:29:20 公開日:2023-07-27
# MVMR-FS : クラス間最大変動と最小冗長性に基づく非パラメトリック特徴選択アルゴリズム

MVMR-FS : Non-parametric feature selection algorithm based on Maximum inter-class Variation and Minimum Redundancy ( http://arxiv.org/abs/2307.14643v1 )

ライセンス: Link先を確認
Haitao Nie, Shengbo Zhang, Bin Xie(参考訳) 機能の妥当性と冗長性を正確に測定する方法は、機能選択の分野における長年の課題である。 しかし、既存のフィルタに基づく特徴選択手法では、連続データに対する冗長性を直接測定することはできない。 加えて、ほとんどのメソッドは、専門家の知識がなければエラーを引き起こす可能性のある機能の数を手動で指定する。 本稿では,MVMR-FSを省略した最大クラス間変動と最小冗長性に基づく非パラメトリック特徴選択アルゴリズムを提案する。 まず、その類似点とクラス間分布と全体分布の差を捉えるために、カーネル密度の教師付きおよび教師なし推定を導入する。 次に,クラス間の最大変動と最小冗長性(MVMR)の基準を示し,クラス間確率分布を用いて特徴の関連性を反映し,全体の確率分布間の距離を用いて冗長性を定量化する。 最後に、MVMRを最小限に抑える機能サブセットを探すためにAGAを使用します。 10種類の最先端手法と比較して、MVMR-FSは高い平均精度を達成し、5%から11%の精度向上を実現している。

How to accurately measure the relevance and redundancy of features is an age-old challenge in the field of feature selection. However, existing filter-based feature selection methods cannot directly measure redundancy for continuous data. In addition, most methods rely on manually specifying the number of features, which may introduce errors in the absence of expert knowledge. In this paper, we propose a non-parametric feature selection algorithm based on maximum inter-class variation and minimum redundancy, abbreviated as MVMR-FS. We first introduce supervised and unsupervised kernel density estimation on the features to capture their similarities and differences in inter-class and overall distributions. Subsequently, we present the criteria for maximum inter-class variation and minimum redundancy (MVMR), wherein the inter-class probability distributions are employed to reflect feature relevance and the distances between overall probability distributions are used to quantify redundancy. Finally, we employ an AGA to search for the feature subset that minimizes the MVMR. Compared with ten state-of-the-art methods, MVMR-FS achieves the highest average accuracy and improves the accuracy by 5% to 11%.
翻訳日:2023-07-28 15:28:58 公開日:2023-07-27
# MIM-OOD:医療画像における分布外検出のためのマスク画像生成モデル

MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images ( http://arxiv.org/abs/2307.14701v1 )

ライセンス: Link先を確認
Sergio {Naval Marimont}, Vasilis Siomos, Giacomo Tarroni(参考訳) Unsupervised Out-of-Distribution (OOD) 検出は、正常な解剖学の画像に基づいて訓練されたモデルのみを活用する画像中の異常領域を特定することである。 確立されたアプローチは、イメージをトークン化し、Auto-Regressive (AR)モデルでトークンの分散をモデル化することである。 ARモデルは使われています 1)異常トークンを特定して 2) in-distributionトークンを持つ in-paint 異常表現。 しかし、ARモデルは推定時間が遅いため、OOD検出性能に悪影響を及ぼすエラー蓄積問題が発生しやすい。 我々の新しい手法MIM-OODは、ARモデルを2つのタスク固有ネットワークに置き換えることで、速度と誤差の蓄積問題を克服する。 1)異常トークンの識別に最適化された変圧器 2) マスク画像モデリング(mim)を用いたインペイント異常トークンに最適化したトランス 脳MRIの異常による実験では、MIM-OODはARモデル(DICE 0.458 vs 0.301)を大幅に上回り、約25倍のスピードアップ(9.5s vs 244s)を達成した。

Unsupervised Out-of-Distribution (OOD) detection consists in identifying anomalous regions in images leveraging only models trained on images of healthy anatomy. An established approach is to tokenize images and model the distribution of tokens with Auto-Regressive (AR) models. AR models are used to 1) identify anomalous tokens and 2) in-paint anomalous representations with in-distribution tokens. However, AR models are slow at inference time and prone to error accumulation issues which negatively affect OOD detection performance. Our novel method, MIM-OOD, overcomes both speed and error accumulation issues by replacing the AR model with two task-specific networks: 1) a transformer optimized to identify anomalous tokens and 2) a transformer optimized to in-paint anomalous tokens using masked image modelling (MIM). Our experiments with brain MRI anomalies show that MIM-OOD substantially outperforms AR models (DICE 0.458 vs 0.301) while achieving a nearly 25x speedup (9.5s vs 244s).
翻訳日:2023-07-28 15:21:23 公開日:2023-07-27
# 非マルコフ量子ゲートセットトモグラフィ

Non-Markovian Quantum Gate Set Tomography ( http://arxiv.org/abs/2307.14696v1 )

ライセンス: Link先を確認
Ze-Tong Li, Cong-Cong Zheng, Fan-Xu Meng, Zai-Chen Zhang, Xu-Tao Yu(参考訳) 工学的量子デバイスは量子ビット、量子演算、量子ノイズを含む量子システムの信頼性の高いキャラクタリゼーションを必要とする。 近年,量子ゲート集合トモグラフィ(gst)は,量子状態,ゲートおよび測定を自己整合的に記述する手法として出現している。 しかし、量子系と環境の間の非マルコフ相関は、GSTの信頼性回帰を引き起こす。 ゲート集合と非マルコフ相関を同時に記述することが不可欠である。 そこで我々はまず,非マルコフGSTのための自己整合操作手法,ist(Insistant set tomography)を提案する。 確率的量子過程に基づいて、楽器セットは、楽器、初期状態、および非マルコフ系環境(SE)相関を記述するために定義される。 まず、楽器とSEの線形関係とゲージ自由度との相関を検知し、記述するための線形反転IST(LIST)を提案する。 しかし、LISTは制約がないため、物理的に実装可能な楽器セットを常に決定できない。 次に,MLE-IST(MLE-IST)の混合推定に基づく物理制約付き統計手法について,マルコフ次数に関するパラメータの多項式数で提案する。 モデルと制約を調整することで、ノイズの多い中間スケール量子(nisq)デバイスなど、さまざまな種類のデバイスに適した大きな柔軟性を示す。 実験結果は、楽器と非マルコフ量子系を記述することの有効性を示す。 結果として、ISTは、機器セットの側面において量子デバイスをベンチマークし、開発するための重要な方法を提供する。

Engineering quantum devices requires reliable characterization of the quantum system including qubits, quantum operations (aka instruments) and the quantum noise. Recently, quantum gate set tomography (GST) has emerged as a promissing technique to self-consistently describe the quantum states, gates and measurements. However, non-Markovian correlations between the quantum system and environment cause the reliability regression of GST. It is essential to simultaneously describe the gate set and non-Markovian correlations. To this end, we first propose a self-consistent operational method, named instrument set tomography (IST), for non-Markovian GST. Based on the stochastic quantum process, the instrument set is defined to describe instruments, the initial state, and non-Markovian system-environment (SE) correlations. First, we propose a linear inversion IST (LIST) to detect and describe the disharmony of linear relationship of instruments and SE correlations with gauge freedom. However, LIST cannot always determine physical implementable instrument set because of the absence of constraints. Then, a physically constrained statistical method based on the miximum likelihood estimation for IST (MLE-IST) is proposed with polynomial number of parameters with respect to the Markovian order. It shows significant flexibility that suit for different types of device, e.g. noisy intermediate-scale quantum (NISQ) devices, by adjusting the model and constraints. The experimental results show the effectiveness of describing instruments and the non-Markovian quantum system. As a result, the IST provides an essential method for benchmarking and developing quantum devices in the aspect of instrument set.
翻訳日:2023-07-28 15:21:03 公開日:2023-07-27
# 量子マルコフ過程のジャイネス原理:一般化ギブス-フォン・ノイマン状態規則

Jaynes principle for quantum Markov processes: Generalized Gibbs - von Neumann states rule ( http://arxiv.org/abs/2307.14695v1 )

ライセンス: Link先を確認
Jaroslav Novotn\'y, Ji\v{r}\'i Mary\v{s}ka, Igor Jex(参考訳) 有限次元量子マルコフ過程の任意の漸近性は、離散的かつ連続的な場合と同様に一般化されたジェインズ原理の形で定式化できることを証明できる。 驚くべきことに、オープンシステムのダイナミクスはフォン・ノイマンエントロピーの最大化を必要としない。 実際、過激化すべき自然函数は量子相対エントロピーであり、結果として生じる漸近状態や軌道は常に指数的ギブス形式である。 完全に既知の初期状態の漸近的軌跡、いくつかの運動定数の既知の期待値によって不完全に決定された漸近的軌跡、そしていくつかの運動積分の期待値によって不完全に決定された定常状態である。 すべてのバージョンは、基礎となるダイナミクスの知識に基づいている。 したがって、我々の原理は主に固有の物理学に根ざしており、単なる情報構成ではない。 発見された原理は、ユニタリ量子マルコフ過程の特別な場合におけるマックスエント原理と一致する。 一般化原理が統計物理学の基本的な関係をどう修正するかを論じる。

We prove that any asymptotics of a finite-dimensional quantum Markov processes can be formulated in the form of a generalized Jaynes principle in the discrete as well as in the continuous case. Surprisingly, we find that the open system dynamics does not require maximization of von Neumannentropy. In fact, the natural functional to be extremized is the quantum relative entropy and the resulting asymptotic states or trajectories are always of the exponential Gibbs-like form. Three versions of the principle are presented for different settings, each treating different prior knowledge: for asymptotic trajectories of fully known initial states, for asymptotic trajectories incompletely determined by known expectation values of some constants of motion and for stationary states incompletely determined by expectation values of some integrals of motion. All versions are based on the knowledge of the underlying dynamics. Hence our principle is primarily rooted in the inherent physics and it is not solely an information construct. The found principle coincides with the MaxEnt principle in the special case of unital quantum Markov processes. We discuss how the generalized principle modifies fundamental relations of statistical physics.
翻訳日:2023-07-28 15:20:40 公開日:2023-07-27
# 遅延選択実験:今後の分析

Delayed choice experiments: An analysis in forward time ( http://arxiv.org/abs/2307.14687v1 )

ライセンス: Link先を確認
Marijn Waaijer and Jan van Neerven(参考訳) 本稿では、ウィーラーの古典的なゲダンケン実験と遅延量子消去器の2つの遅延選択実験について詳細に分析する。 その結果, 教科書量子力学のみを用いて実験中に収集した情報に基づいて, 両実験の結果を十分に説明できることがわかった。 分析において、次に何が起こるかを説明するために、未来からの情報は必要ない。 どちらの実験も厳密に数学的な方法では、ステップの時間順序を変更する修正バージョンが遅延した選択を避けるために全く同じ最終状態になることを示している。 この運用的な意味では、シナリオは結果から引き出すことができる結論の観点から完全に等価である。

In this article, we present a detailed analysis of two famous delayed choice experiments: Wheeler's classic gedanken-experiment and the delayed quantum eraser. It shows that the outcomes of both experiment can be fully explained on the basis of the information collected during the experiments using textbook quantum mechanics only. At no point in the analysis, information from the future is needed to explain what happens next. In fact more is true: for both experiments we show, in a strictly mathematical way, that a modified version in which the time-ordering of the steps is changed to avoid the delayed choice leads to exactly the same final state. In this operational sense, the scenarios are completely equivalent in terms of conclusions that can be drawn from their outcomes.
翻訳日:2023-07-28 15:20:21 公開日:2023-07-27
# 物理的世界の可視赤外クロスモーダルアタックに対する統一逆境パッチ

Unified Adversarial Patch for Visible-Infrared Cross-modal Attacks in the Physical World ( http://arxiv.org/abs/2307.14682v1 )

ライセンス: Link先を確認
Xingxing Wei, Yao Huang, Yitong Sun, Jie Yu(参考訳) 物理的敵攻撃はDNNベースの物体検出器に深刻な脅威を与えている。 セキュリティを強化するために、様々なシナリオに可視センサーと赤外線センサーの組み合わせが展開され、既存の単一モードの物理的攻撃を無効にする効果が証明されている。 このような場合の潜在的なリスクをさらに実証するため,我々は,単一パッチと同時に両方のモダリティを回避し,クロスモーダルな物理的攻撃を実行できる統一的な敵パッチを設計した。 可視光センサーと赤外線センサーの異なる画像メカニズムを考慮し、我々の研究はパッチの形状を制御し、変化した時に異なるモードでキャプチャできる。 課題に対処するため,本論文では,敵パッチのコンパクトで滑らかな形状を実現することを目的とした新しい境界限定形状最適化手法を提案する。 また,マルチモーダルセンサの予測スコアを反復的に減少させるために,可視・赤外線検出器間の騙しの程度を最適化するスコアアウェア反復評価法も導入した。 さらに,学習可能な形状を様々な角度に頑健にすることで,実世界の異なる射角による形状変形の問題を緩和するアフィン変換に基づく拡張戦略を提案する。 提案手法はいくつかの最先端物体検出器に対して評価され,アタック成功率(ASR)が80%以上に達する。 また, 異なる角度, 距離, 姿勢, 可視・赤外線センサのシーンなど, 様々な環境下での物理的シナリオにおけるアプローチの有効性を示す。

Physical adversarial attacks have put a severe threat to DNN-based object detectors. To enhance security, a combination of visible and infrared sensors is deployed in various scenarios, which has proven effective in disabling existing single-modal physical attacks. To further demonstrate the potential risks in such cases, we design a unified adversarial patch that can perform cross-modal physical attacks, achieving evasion in both modalities simultaneously with a single patch. Given the different imaging mechanisms of visible and infrared sensors, our work manipulates patches' shape features, which can be captured in different modalities when they undergo changes. To deal with challenges, we propose a novel boundary-limited shape optimization approach that aims to achieve compact and smooth shapes for the adversarial patch, making it easy to implement in the physical world. And a score-aware iterative evaluation method is also introduced to balance the fooling degree between visible and infrared detectors during optimization, which guides the adversarial patch to iteratively reduce the predicted scores of the multi-modal sensors. Furthermore, we propose an Affine-Transformation-based enhancement strategy that makes the learnable shape robust to various angles, thus mitigating the issue of shape deformation caused by different shooting angles in the real world. Our method is evaluated against several state-of-the-art object detectors, achieving an Attack Success Rate (ASR) of over 80%. We also demonstrate the effectiveness of our approach in physical-world scenarios under various settings, including different angles, distances, postures, and scenes for both visible and infrared sensors.
翻訳日:2023-07-28 15:20:11 公開日:2023-07-27
# TimeGNN: 時系列予測のための時間動的グラフ学習

TimeGNN: Temporal Dynamic Graph Learning for Time Series Forecasting ( http://arxiv.org/abs/2307.14680v1 )

ライセンス: Link先を確認
Nancy Xu, Chrysoula Kosma, Michalis Vazirgiannis(参考訳) 時系列予測は、科学と工学の多くの分野における重要な実世界の応用の中核にある。 複雑なパターンと長期的な依存関係からなる大規模な時系列データセットの存在は、さまざまなニューラルネットワークアーキテクチャの開発につながった。 グラフニューラルネットワークアプローチは、予測中に多変量時系列の生値の相関に基づいてグラフ構造を共同で学習するが、最近は大きな成功を収めている。 しかし、そのようなソリューションはトレーニングにコストがかかり、スケールが難しいことが多い。 本稿では,時系列間のパターンの進化を複数の系列の相関関係とともに捉え,動的時間的グラフ表現を学習するTimeGNNを提案する。 TimeGNNは、他の最先端グラフベースの手法よりも4倍から80倍高速で予測性能を向上する

Time series forecasting lies at the core of important real-world applications in many fields of science and engineering. The abundance of large time series datasets that consist of complex patterns and long-term dependencies has led to the development of various neural network architectures. Graph neural network approaches, which jointly learn a graph structure based on the correlation of raw values of multivariate time series while forecasting, have recently seen great success. However, such solutions are often costly to train and difficult to scale. In this paper, we propose TimeGNN, a method that learns dynamic temporal graph representations that can capture the evolution of inter-series patterns along with the correlations of multiple series. TimeGNN achieves inference times 4 to 80 times faster than other state-of-the-art graph-based methods while achieving comparable forecasting performance
翻訳日:2023-07-28 15:19:44 公開日:2023-07-27
# 量子カオスダイナミクスにおける高感度露光

Exposing Hypersensitivity in Quantum Chaotic Dynamics ( http://arxiv.org/abs/2307.14678v1 )

ライセンス: Link先を確認
Andrzej Grudka, Pawe{\l} Kurzy\'nski, Adam S. Sajna, Jan W\'ojcik, Antoni W\'ojcik(参考訳) 本研究では,マルチキュービットシステムのユニタリダイナミクスが初期状態摂動に対する過敏性を示すことを実証する。 これは、量子系におけるカオスを識別するために、初期近傍の軌道の指数的発散に基づく古典的アプローチは適用できないという共通の信念と矛盾する。 超感度を観測するために、girolami と anza によって導入された量子状態測定 (quantum state-metric) [phys. rev. lett. 126 (2021) 170502] を用いる。 量子システムの例として、量子キックトトップのマルチキュービット実装(量子カオスの振る舞いを示すことで知られるパラダイムシステム)を挙げる。 その結果、観測された過敏性は量子カオスの一般的なシグネチャに対応することが判明した。 さらに,提案手法では,量子カオスを,それに対応する古典的場合と同様な初期条件下で検出できることを実証する。

We demonstrate that the unitary dynamics of a multi-qubit system can display hypersensitivity to initial state perturbation. This contradicts the common belief that the classical approach based on the exponential divergence of initially neighboring trajectories cannot be applied to identify chaos in quantum systems. To observe hypersensitivity we use quantum state-metric, introduced by Girolami and Anza in [Phys. Rev. Lett. 126 (2021) 170502], which can be interpreted as a quantum Hamming distance. As an example of a quantum system, we take the multi-qubit implementation of the quantum kicked top, a paradigmatic system known to exhibit quantum chaotic behavior. Our findings confirm that the observed hypersensitivity corresponds to commonly used signatures of quantum chaos. Furthermore, we demonstrate that the proposed metric can detect quantum chaos in the same regime and under analogous initial conditions as in the corresponding classical case.
翻訳日:2023-07-28 15:19:32 公開日:2023-07-27
# 物理形ニューラルネットワークによる風力タービンパワーの予測と見かけの不確実性定量化

Prediction of wind turbines power with physics-informed neural networks and evidential uncertainty quantification ( http://arxiv.org/abs/2307.14675v1 )

ライセンス: Link先を確認
Alfonso Gij\'on, Ainhoa Pujana-Goitia, Eugenio Perea, Miguel Molina-Solana and Juan G\'omez-Romero(参考訳) 風力エネルギーの継続的な利用により、ピッチアングル制御によるタービン操作の最適化と早期故障検出によるメンテナンスが必要となる。 風力タービンの挙動を模倣する正確で堅牢なモデルを持つことは、特に風速の関数として発生した電力を予測するために重要である。 既存の経験的モデルと物理学に基づくモデルは、風の変動によって増大する入力変数とパワーの間の複雑な関係を捉えるのに限界がある。 データ駆動方式は、精度と効率を向上させることにより、大きなデータセットの風力タービンモデリングを強化する新たな機会を提供する。 本研究では,物理に変形したニューラルネットワークを用いて,風力発電所の4つのタービンから得られた過去のデータを再現し,そのモデルに一定の物理的制約を課した。 出力変数としてのパワー,トルク,パワー係数の回帰モデルでは,実データと物理方程式の両方において高い精度を示した。 最後に、効率的な立証層の導入は予測の不確実性推定を提供し、絶対誤差と一致し、パワー曲線における信頼区間の定義を可能にした。

The ever-growing use of wind energy makes necessary the optimization of turbine operations through pitch angle controllers and their maintenance with early fault detection. It is crucial to have accurate and robust models imitating the behavior of wind turbines, especially to predict the generated power as a function of the wind speed. Existing empirical and physics-based models have limitations in capturing the complex relations between the input variables and the power, aggravated by wind variability. Data-driven methods offer new opportunities to enhance wind turbine modeling of large datasets by improving accuracy and efficiency. In this study, we used physics-informed neural networks to reproduce historical data coming from 4 turbines in a wind farm, while imposing certain physical constraints to the model. The developed models for regression of the power, torque, and power coefficient as output variables showed great accuracy for both real data and physical equations governing the system. Lastly, introducing an efficient evidential layer provided uncertainty estimations of the predictions, proved to be consistent with the absolute error, and made possible the definition of a confidence interval in the power curve.
翻訳日:2023-07-28 15:19:17 公開日:2023-07-27
# ファジィ順序ソート特徴論理

Fuzzy order-sorted feature logic ( http://arxiv.org/abs/2307.14669v1 )

ライセンス: Link先を確認
Gian Carlo Milanese, Gabriella Pasi(参考訳) Order-Sorted Feature (OSF) 論理は、関数記述型特徴記号と集合記述型ソート記号に基づく知識表現および推論言語である。 osf論理は、エンティティのクラスを表現し、それ自身を仮定関係で順序付けするレコードライクな用語の構成を可能にする。 このような構造に対する統一アルゴリズムは、計算言語学に応用され、LOGINやLIFEのような制約論理プログラミング言語やCEDARのような自動推論言語で実装された、型置換の効率的な計算を提供する。 この作業はOSFロジックをファジィ設定に一般化する。 ファジィ集合間のザデの包含を一般化するファジィ仮定関係の柔軟な定義を与える。 この定義に基づいて、ソートシンボルとOSF項がファジィ集合を表すOSF論理のファジィ意味論を定義する。 我々は OSF 項に対する仮定関係を拡張し、それが 2 つの OSF 項が crisp の意味において互いに仮定される性質を持つファジィ部分順序を構成することを証明する。 2つのOSF項の最大下界を求める方法と、2つのOSF項間の仮定度を計算する方法を示し、これらの演算の複雑さを提供する。

Order-Sorted Feature (OSF) logic is a knowledge representation and reasoning language based on function-denoting feature symbols and set-denoting sort symbols ordered in a subsumption lattice. OSF logic allows the construction of record-like terms that represent classes of entities and that are themselves ordered in a subsumption relation. The unification algorithm for such structures provides an efficient calculus of type subsumption, which has been applied in computational linguistics and implemented in constraint logic programming languages such as LOGIN and LIFE and automated reasoners such as CEDAR. This work generalizes OSF logic to a fuzzy setting. We give a flexible definition of a fuzzy subsumption relation which generalizes Zadeh's inclusion between fuzzy sets. Based on this definition we define a fuzzy semantics of OSF logic where sort symbols and OSF terms denote fuzzy sets. We extend the subsumption relation to OSF terms and prove that it constitutes a fuzzy partial order with the property that two OSF terms are subsumed by one another in the crisp sense if and only if their subsumption degree is greater than 0. We show how to find the greatest lower bound of two OSF terms by unifying them and how to compute the subsumption degree between two OSF terms, and we provide the complexity of these operations.
翻訳日:2023-07-28 15:18:59 公開日:2023-07-27
# モデル非依存順序調整による二部分類フェアネス

Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment ( http://arxiv.org/abs/2307.14668v1 )

ライセンス: Link先を確認
Sen Cui, Weishen Pan, Changshui Zhang, Fei Wang(参考訳) アルゴリズムの公平性は深刻な関心事であり、機械学習コミュニティに大きな関心を集めている。 本稿では,正のクラスと負のクラスの両方からインスタンスが生まれ,正のインスタンスを負のクラスよりも上位にランク付けするランキング関数を学習する,二部的なランキングシナリオに注目した。 フェアネスと性能の間にはトレードオフがある可能性があるが,アルゴリズム分類性能の両部ランク付けにおいて公平性を達成するためのモデルに依存しない後処理フレームワークxOrderを提案する。 特に、異なる保護されたグループをまたいだ最適なワーピングパスを識別し、動的プログラミングプロセスを通じて解くために、ユーティリティの重み付き和を最適化する。 xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。 バイナリグループに加えて、xOrderは複数の保護されたグループに適用できる。 提案アルゴリズムを4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。 xorderは、異なるメトリクスを持つさまざまなデータセットのアルゴリズムユーティリティとランキングフェアネスのバランスを一貫して向上させる。 校正されたランキングスコアの可視化から、xOrderはベースラインと比較して異なるグループのスコア分布シフトを緩和する。 さらに、xOrderがサンプルが少ない場合に頑健な性能を達成し、トレーニングと評価スコアの分布に大きな差があることを解析学的に検証した。

Algorithmic fairness has been a serious concern and received lots of interest in machine learning community. In this paper, we focus on the bipartite ranking scenario, where the instances come from either the positive or negative class and the goal is to learn a ranking function that ranks positive instances higher than negative ones. While there could be a trade-off between fairness and performance, we propose a model agnostic post-processing framework xOrder for achieving fairness in bipartite ranking and maintaining the algorithm classification performance. In particular, we optimize a weighted sum of the utility as identifying an optimal warping path across different protected groups and solve it through a dynamic programming process. xOrder is compatible with various classification models and ranking fairness metrics, including supervised and unsupervised fairness metrics. In addition to binary groups, xOrder can be applied to multiple protected groups. We evaluate our proposed algorithm on four benchmark data sets and two real-world patient electronic health record repositories. xOrder consistently achieves a better balance between the algorithm utility and ranking fairness on a variety of datasets with different metrics. From the visualization of the calibrated ranking scores, xOrder mitigates the score distribution shifts of different groups compared with baselines. Moreover, additional analytical results verify that xOrder achieves a robust performance when faced with fewer samples and a bigger difference between training and testing ranking score distributions.
翻訳日:2023-07-28 15:18:38 公開日:2023-07-27
# vox2vec:医療画像におけるVoxelレベルの表現の自己教師型コントラスト学習フレームワーク

vox2vec: A Framework for Self-supervised Contrastive Learning of Voxel-level Representations in Medical Images ( http://arxiv.org/abs/2307.14725v1 )

ライセンス: Link先を確認
Mikhail Goncharov, Vera Soboleva, Anvar Kurmukov, Maxim Pisov and Mikhail Belyaev(参考訳) 本稿では,voxelレベル表現の自己教師付き学習(ssl)のための対比手法vox2vecについて述べる。 vox2vec表現は特徴ピラミッドネットワーク(fpn)によってモデル化され、voxel表現は異なるピラミッドレベルから対応する特徴ベクトルの結合である。 fpnは、異なる拡張コンテキストにおける同じボクセルの類似表現と異なるボクセルの識別表現を生成するように事前訓練されている。 これにより、グローバルセマンティクス(身体の一部など)とローカルセマンティクス(例えば、異なる小器官、健康組織と腫瘍組織)の両方をキャプチャする統一されたマルチスケール表現が生まれる。 Vox2vec を用いて,FPN を 6500 以上の画像で事前トレーニングする。 プレトレーニングされた表現は,その上に単純なヘッドを装着し,22のセグメンテーションタスクに対するモデルのトレーニングを行うことで評価する。 Vox2vec は既存の医用画像 SSL 技術よりも、線形および非線形探索とエンドツーエンド微調整の3つの評価設定で優れていることを示す。 さらに、凍結したvox2vec表現上にトレーニングされた非線形ヘッドは、トレーニング可能なパラメータの50倍の少ないFPNとスクラッチからトレーニングされたFPNとの競合性能を達成する。 コードはhttps://github.com/mishgon/vox2vecで入手できる。

This paper introduces vox2vec - a contrastive method for self-supervised learning (SSL) of voxel-level representations. vox2vec representations are modeled by a Feature Pyramid Network (FPN): a voxel representation is a concatenation of the corresponding feature vectors from different pyramid levels. The FPN is pre-trained to produce similar representations for the same voxel in different augmented contexts and distinctive representations for different voxels. This results in unified multi-scale representations that capture both global semantics (e.g., body part) and local semantics (e.g., different small organs or healthy versus tumor tissue). We use vox2vec to pre-train a FPN on more than 6500 publicly available computed tomography images. We evaluate the pre-trained representations by attaching simple heads on top of them and training the resulting models for 22 segmentation tasks. We show that vox2vec outperforms existing medical imaging SSL techniques in three evaluation setups: linear and non-linear probing and end-to-end fine-tuning. Moreover, a non-linear head trained on top of the frozen vox2vec representations achieves competitive performance with the FPN trained from scratch while having 50 times fewer trainable parameters. The code is available at https://github.com/mishgon/vox2vec .
翻訳日:2023-07-28 15:12:53 公開日:2023-07-27
# EFLNet:赤外小ターゲット検出のための特徴学習の強化

EFLNet: Enhancing Feature Learning for Infrared Small Target Detection ( http://arxiv.org/abs/2307.14723v1 )

ライセンス: Link先を確認
Bo Yang, Xinyu Zhang, Jiahao Zhu, Jian Zhang, Dongjian Tian, Jun Luo, Mingliang Zhou, Yangjun Pi(参考訳) 単一フレーム赤外線小目標検出は、ターゲットと背景の極端な不均衡のため、バウンディングボックス回帰は赤外線小目標に対して極めて敏感であり、高レベル意味層では小さな目標情報が失われやすいため、難しい課題であると考えられている。 本稿では,これらの問題を解決するために,YOLOv7フレームワークに基づく機能学習ネットワーク(EFLNet)を提案する。 まず、赤外線画像の背景とターゲットとの間には非常に不均衡があることに気付き、モデルが背景特徴にもっと注意を払うようにして、検出を逃してしまう。 この問題に対処するために,損失重みを自動的に調整する適応しきい値焦点損失関数を提案する。 次に,正規化ガウス的ワッサースタイン距離を導入し,赤外小目標に対する境界ボックス回帰の極感度に起因するモデル収束の難しさを緩和する。 最後に,動的なヘッド機構をネットワークに組み込んで,各意味層の相対的重要度を適応的に学習する。 実験結果は,最先端のディープラーニング手法と比較して,赤外小目標の検出性能が向上することを示した。

Single-frame infrared small target detection is considered to be a challenging task, due to the extreme imbalance between target and background, bounding box regression is extremely sensitive to infrared small targets, and small target information is easy to lose in the high-level semantic layer. In this paper, we propose an enhancing feature learning network (EFLNet) based on YOLOv7 framework to solve these problems. First, we notice that there is an extremely imbalance between the target and the background in the infrared image, which makes the model pay more attention to the background features, resulting in missed detection. To address this problem, we propose a new adaptive threshold focal loss function that adjusts the loss weight automatically, compelling the model to allocate greater attention to target features. Second, we introduce the normalized Gaussian Wasserstein distance to alleviate the difficulty of model convergence caused by the extreme sensitivity of the bounding box regression to infrared small targets. Finally, we incorporate a dynamic head mechanism into the network to enable adaptive learning of the relative importance of each semantic layer. Experimental results demonstrate our method can achieve better performance in the detection performance of infrared small targets compared to state-of-the-art deep-learning based methods.
翻訳日:2023-07-28 15:12:31 公開日:2023-07-27
# ニューラルネットワークの確率的予測による量子状態の生成

Enhanced quantum state preparation via stochastic prediction of neural network ( http://arxiv.org/abs/2307.14715v1 )

ライセンス: Link先を確認
Chao-Chao Li, Run-Hong He, Zhao-Ming Wang(参考訳) ニューラルネットワークの述語能力の向上を追求するため、さまざまなサンプルを包含するデータセットの作成は長年にわたって目標とされてきた。 その目的は、ニューラルネットワークの地平線を広げ、トレーニングプロセス中に予測精度を向上させるよう継続的に努力することであり、これは究極の評価指標である。 本稿では,ニューラルネットワークの知識盲点を生かして,アルゴリズムの有効性を高めるための興味深い道を探る。 我々のアプローチは、半導体二重量子ドットシステムにおいて任意の量子状態を作成するために使用される機械学習アルゴリズムを中心にしている。 ニューラルネットワークが生成する確率的予測を利用することで,局所的オプティマから逃れるために最適化プロセスを導くことができる。 特に、強化学習を用いてパルスパターンを識別する従来の手法とは異なり、教師あり学習に似たトレーニングアプローチを採用し、最終的にはパルスシーケンスを動的に設計する。 このアプローチは学習プロセスを合理化するだけでなく、ニューラルネットワークのサイズを制限し、アルゴリズムの効率を向上させる。

In pursuit of enhancing the predication capabilities of the neural network, it has been a longstanding objective to create dataset encompassing a diverse array of samples. The purpose is to broaden the horizons of neural network and continually strive for improved prediction accuracy during training process, which serves as the ultimate evaluation metric. In this paper, we explore an intriguing avenue for enhancing algorithm effectiveness through exploiting the knowledge blindness of neural network. Our approach centers around a machine learning algorithm utilized for preparing arbitrary quantum states in a semiconductor double quantum dot system, a system characterized by highly constrained control degrees of freedom. By leveraging stochastic prediction generated by the neural network, we are able to guide the optimization process to escape local optima. Notably, unlike previous methodologies that employ reinforcement learning to identify pulse patterns, we adopt a training approach akin to supervised learning, ultimately using it to dynamically design the pulse sequence. This approach not only streamlines the learning process but also constrains the size of neural network, thereby improving the efficiency of algorithm.
翻訳日:2023-07-28 15:12:08 公開日:2023-07-27
# GaitMorph: 離散コードの最適転送による歩行変換

GaitMorph: Transforming Gait by Optimally Transporting Discrete Codes ( http://arxiv.org/abs/2307.14713v1 )

ライセンス: Link先を確認
Adrian Cosma, Emilian Radoi(参考訳) 歩行の方法である歩行は、監視、マーケティング、セキュリティに使用される信頼できる生体認証であることが証明されている。 この分野の有望な新しい方向性は、自律的な学習アプローチを通じて、明示的な人間のアノテーションなしで歩行認識システムを訓練することである。 このような方法は、データ変動を誘発し、さらなる歩行変動をシミュレートするために、同じ歩行シーケンスに対する強い拡張に強く依存する。 現在のデータ拡張スキームはヒューリスティックであり、単純な時間的および空間的歪みしか提供できないため、必要なデータ変動を提供することができない。 本研究では,入力歩行系列の歩行変動を変化させる新しい手法であるgaitmorphを提案する。 提案手法では,非ラベルデータを利用した歩行骨格列の高速圧縮モデルの訓練を行い,識別関連特徴を保存した離散かつ解釈可能な潜伏空間を構築する。 さらに, 最適輸送理論に基づく離散符号帳上の潜在輸送写像を学習し, 変動間の歩行列を形作る手法を提案する。 我々は広範囲な実験を行い、この手法が入力シーケンスに対する追加のビューを合成するのに適していることを示す。

Gait, the manner of walking, has been proven to be a reliable biometric with uses in surveillance, marketing and security. A promising new direction for the field is training gait recognition systems without explicit human annotations, through self-supervised learning approaches. Such methods are heavily reliant on strong augmentations for the same walking sequence to induce more data variability and to simulate additional walking variations. Current data augmentation schemes are heuristic and cannot provide the necessary data variation as they are only able to provide simple temporal and spatial distortions. In this work, we propose GaitMorph, a novel method to modify the walking variation for an input gait sequence. Our method entails the training of a high-compression model for gait skeleton sequences that leverages unlabelled data to construct a discrete and interpretable latent space, which preserves identity-related features. Furthermore, we propose a method based on optimal transport theory to learn latent transport maps on the discrete codebook that morph gait sequences between variations. We perform extensive experiments and show that our method is suitable to synthesize additional views for an input sequence.
翻訳日:2023-07-28 15:11:51 公開日:2023-07-27
# グラフからテキストへの生成モデルの評価

Evaluating Generative Models for Graph-to-Text Generation ( http://arxiv.org/abs/2307.14712v1 )

ライセンス: Link先を確認
Shuzhou Yuan and Michael F\"arber(参考訳) 大規模言語モデル(LLM)は、グラフからテキストへの生成タスクに広く使われている。 しかし、LLMを微調整するプロセスには、かなりのトレーニングリソースとアノテーション作業が必要である。 本稿では,ゼロショット設定でグラフデータから記述テキストを生成する生成モデルの有用性について検討する。 具体的には、GPT-3とChatGPTを2つのグラフ・テキスト・データセット上で評価し、その性能をT5やBARTのような微調整LLMモデルと比較する。 その結果, 生成モデルは, アジェンダデータセットとwebnlgデータセットでそれぞれ10.57点, 11.08点のbleuスコアが得られる。 しかし, 誤り解析の結果, 生成モデルは実体間の意味的関係の理解に苦慮し, 幻覚や無関係な情報を含むテキストを生成する傾向にあることが明らかとなった。 誤り解析の一環として,マシン生成テキストの検出とマクロf1スコアの達成にbertを用いる。 生成モデルによって生成されたテキストを公開しました。

Large language models (LLMs) have been widely employed for graph-to-text generation tasks. However, the process of finetuning LLMs requires significant training resources and annotation work. In this paper, we explore the capability of generative models to generate descriptive text from graph data in a zero-shot setting. Specifically, we evaluate GPT-3 and ChatGPT on two graph-to-text datasets and compare their performance with that of finetuned LLM models such as T5 and BART. Our results demonstrate that generative models are capable of generating fluent and coherent text, achieving BLEU scores of 10.57 and 11.08 for the AGENDA and WebNLG datasets, respectively. However, our error analysis reveals that generative models still struggle with understanding the semantic relations between entities, and they also tend to generate text with hallucinations or irrelevant information. As a part of error analysis, we utilize BERT to detect machine-generated text and achieve high macro-F1 scores. We have made the text generated by generative models publicly available.
翻訳日:2023-07-28 15:11:32 公開日:2023-07-27
# 超限定合成画像を用いた事前学習型視覚変換器

Pre-training Vision Transformers with Very Limited Synthesized Images ( http://arxiv.org/abs/2307.14710v1 )

ライセンス: Link先を確認
Ryo Nakamura1, Hirokatsu Kataoka, Sora Takashima, Edgar Josafat Martinez Noriega, Rio Yokota and Nakamasa Inoue(参考訳) フォーミュラ駆動型教師あり学習(FDSL)はフラクタルなどの数式から生成される合成画像に依存する事前学習法である。 FDSLの以前の研究は、このような合成データセット上で事前学習された視覚変換器は、幅広い下流タスクで競合する精度が得られることを示した。 これらの合成画像は、それらを生成する数学的公式のパラメータに従って分類される。 本研究では、FDSLにおける同じカテゴリの異なるインスタンスを生成するプロセスは、データ拡張の一形態と見なすことができると仮定する。 インスタンスをデータ拡張に置き換えることで、この仮説を検証する。 実験の結果,この一インスタンスフラクタルデータベース(OFDB)は,インスタンスが明示的に生成された元のデータセットよりも優れた性能を示した。 さらに、OFDBを21,000のカテゴリにスケールアップし、ImageNet-1kファインチューニングでImageNet-21kで事前トレーニングされたモデルと一致するか、あるいは超えるかを示す。 OFDBのイメージ数は21k、ImageNet-21kは14Mである。 これにより、より小さなデータセットで事前トレーニングされたビジョントランスフォーマーの新たな可能性が開ける。

Formula-driven supervised learning (FDSL) is a pre-training method that relies on synthetic images generated from mathematical formulae such as fractals. Prior work on FDSL has shown that pre-training vision transformers on such synthetic datasets can yield competitive accuracy on a wide range of downstream tasks. These synthetic images are categorized according to the parameters in the mathematical formula that generate them. In the present work, we hypothesize that the process for generating different instances for the same category in FDSL, can be viewed as a form of data augmentation. We validate this hypothesis by replacing the instances with data augmentation, which means we only need a single image per category. Our experiments shows that this one-instance fractal database (OFDB) performs better than the original dataset where instances were explicitly generated. We further scale up OFDB to 21,000 categories and show that it matches, or even surpasses, the model pre-trained on ImageNet-21k in ImageNet-1k fine-tuning. The number of images in OFDB is 21k, whereas ImageNet-21k has 14M. This opens new possibilities for pre-training vision transformers with much smaller datasets.
翻訳日:2023-07-28 15:11:15 公開日:2023-07-27
# 最適化トラジェクトリ蒸留による医用画像の分類適応型クロスドメイン適応

Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via Optimization Trajectory Distillation ( http://arxiv.org/abs/2307.14709v1 )

ライセンス: Link先を確認
Jianan Fan, Dongnan Liu, Hang Chang, Heng Huang, Mei Chen, and Weidong Cai(参考訳) 自動医療画像解析の成功は、大規模かつ専門的な訓練セットに依存する。 非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。 しかし、それらは一般的に、ソースドメインとターゲットドメインの間の同一のラベルセットを仮定したクローズドセット適応設定の下で動作し、分類学的不整合のためにデータセットにまたがる新しいクラスが一般的に存在する臨床実践では過度に制限されている。 ドメインシフトと非一貫性ラベル集合の両方に取り組むためのいくつかの方法が提示されているが、これらの2つの問題の共通的な特徴を考慮に入れず、ネットワークトレーニングにおける学習ダイナミクスを検討する。 本研究では,新しい視点から2つの技術的課題に取り組むための統一的アプローチである最適化軌道蒸留を提案する。 勾配空間の低位の性質を活用し、信頼性の高い情報源から得られた外部指導により、不十分な注釈付きドメインとクラスの学習ダイナミクスを規則化する双流蒸留アルゴリズムを考案する。 本手法は,適応型クロスドメイン適応シナリオにおける主要な障害であるネットワーク最適化における不適切なナビゲーションの問題を解決する。 提案手法は, 臨床的, 開放的意義のある様々なエンドポイントに向けて, 様々なタスクで広範囲に評価する。 その結果,従来の方法よりも効果と改善が示された。

The success of automated medical image analysis depends on large-scale and expert-annotated training sets. Unsupervised domain adaptation (UDA) has been raised as a promising approach to alleviate the burden of labeled data collection. However, they generally operate under the closed-set adaptation setting assuming an identical label set between the source and target domains, which is over-restrictive in clinical practice where new classes commonly exist across datasets due to taxonomic inconsistency. While several methods have been presented to tackle both domain shifts and incoherent label sets, none of them take into account the common characteristics of the two issues and consider the learning dynamics along network training. In this work, we propose optimization trajectory distillation, a unified approach to address the two technical challenges from a new perspective. It exploits the low-rank nature of gradient space and devises a dual-stream distillation algorithm to regularize the learning dynamics of insufficiently annotated domain and classes with the external guidance obtained from reliable sources. Our approach resolves the issue of inadequate navigation along network optimization, which is the major obstacle in the taxonomy adaptive cross-domain adaptation scenario. We evaluate the proposed method extensively on several tasks towards various endpoints with clinical and open-world significance. The results demonstrate its effectiveness and improvements over previous methods.
翻訳日:2023-07-28 15:10:58 公開日:2023-07-27
# プラズモンによる分子集合体のコヒーレント集団振動

Plasmon mediated coherent population oscillations in molecular aggregates ( http://arxiv.org/abs/2307.14708v1 )

ライセンス: Link先を確認
Daniel Timmer, Moritz Gittinger, Thomas Quenzel, Sven Stephan, Yu Zhang, Marvin F. Schumacher, Arne L\"utzen, Martin Silies, Sergei Tretiak, Jin-Hui Zhong, Antonietta De Sio and Christoph Lienau(参考訳) 量子エミッタの強いコヒーレント結合と光場の真空揺らぎは、ナノ材料の光学的および輸送的特性を操作する機会を与え、超感度全光スイッチからポラリトン凝縮の生成まで、潜在的な応用が考えられる。 しばしば、環境条件におけるユビキタスデコヒーレンス過程はこれらのカップリングを、相互作用系の量子力学がいまだに理解できないような短い時間スケールに制限する。 顕著な例は強い結合を持つ励起子-プラズモン系であり、これまではほとんど線形光学分光法で研究されてきた。 ここでは、超高速2次元電子分光法を用いて、金ナノスリットアレイの空間的構造を持つプラズモニック場に結合したj-アグリゲーション励起子の量子ダイナミクスを調べる。 プラズモン駆動型コヒーレント励起子集団の室温中距離移動を反映したリッチコヒーレントRabi発振ダイナミクスを観察した。 これにより、真空場へのカップリングによって物質励起のコヒーレント輸送を操作する新たな機会が開かれる。

The strong coherent coupling of quantum emitters to vacuum fluctuations of the light field offers opportunities for manipulating the optical and transport properties of nanomaterials, with potential applications ranging from ultrasensitive all-optical switching to creating polariton condensates. Often, ubiquitous decoherence processes at ambient conditions limit these couplings to such short time scales that the quantum dynamics of the interacting system remains elusive. Prominent examples are strongly coupled exciton-plasmon systems, which, so far, have mostly been investigated by linear optical spectroscopy. Here, we use ultrafast two-dimensional electronic spectroscopy to probe the quantum dynamics of J-aggregate excitons collectively coupled to the spatially structured plasmonic fields of a gold nanoslit array. We observe rich coherent Rabi oscillation dynamics reflecting a plasmon-driven coherent exciton population transfer over mesoscopic distances at room temperature. This opens up new opportunities to manipulate the coherent transport of matter excitations by coupling to vacuum fields.
翻訳日:2023-07-28 15:10:36 公開日:2023-07-27
# 視覚注意モジュールによる高ダイナミックレンジイメージング

High Dynamic Range Imaging via Visual Attention Modules ( http://arxiv.org/abs/2307.14705v1 )

ライセンス: Link先を確認
Ali Reza Omrani, Davide Moroni(参考訳) 高ダイナミックレンジ(hdr)イメージング手法のおかげで、写真撮影のスコープは近年大きく変化している。 より具体的には、このような手法は、低ダイナミックレンジ(LDR)画像からの通常のカメラの制限による現実世界の失われた光度を再構築しようとするものである。 また,この話題における最先端の手法は良好であるが,露光の違いに主眼を置き,画像情報抽出にはあまり注意を払わない。 そこで本研究では,視覚的注意モジュール (VAM) によって抽出された各画像の最も目に見える領域から情報を取り込むことが可能な新たなモデルを提案する。 特に、ディープラーニングアーキテクチャに基づくモデルでは、抽出された領域を利用して最終的なHDR画像を生成する。 その結果,本手法は最先端アルゴリズムのほとんどを上回っていた。

Thanks to High Dynamic Range (HDR) imaging methods, the scope of photography has seen profound changes recently. To be more specific, such methods try to reconstruct the lost luminosity of the real world caused by the limitation of regular cameras from the Low Dynamic Range (LDR) images. Additionally, although the State-Of-The-Art methods in this topic perform well, they mainly concentrate on combining different exposures and have less attention to extracting the informative parts of the images. Thus, this paper aims to introduce a new model capable of incorporating information from the most visible areas of each image extracted by a visual attention module (VAM), which is a result of a segmentation strategy. In particular, the model, based on a deep learning architecture, utilizes the extracted areas to produce the final HDR image. The results demonstrate that our method outperformed most of the State-Of-The-Art algorithms.
翻訳日:2023-07-28 15:10:05 公開日:2023-07-27
# 量子コンピューティングは大規模な構成空間の一様ランダムサンプリングを改善するか? (プレプリント)

Can Quantum Computing Improve Uniform Random Sampling of Large Configuration Spaces? (Preprint) ( http://arxiv.org/abs/2307.14703v1 )

ライセンス: Link先を確認
Joshua Ammermann, Tim Bittner, Domenik Eichhorn, Ina Schaefer, Christoph Seidl(参考訳) ソフトウェア製品ラインは、高度に構成可能なシステムの変数をモデル化する。 すべての有効な構成(設定スペース)の完全な探索は、最悪の場合の機能数で指数関数的に成長すると実現不可能である。 実際には,ソフトウェアテストやハードウェア検証に使用可能な,代表的な構成のサンプルがほとんどない。 現代のコンピュータの擬似ランダム性は、これらのサンプルに統計的バイアスをもたらす。 量子コンピューティングは、本質的にランダムな量子物理効果に基づく、真のランダムで均一な構成サンプリングを可能にする。 重ね合わせで構成空間全体を符号化し、1つのランダムなサンプルを測定する手法を提案する。 本手法は,複数のサンプルに対する一様性を示し,そのスケールを異なる特徴モデルで検討する。 我々は、現在および将来の量子ハードウェアに関する一様ランダムサンプリングのための量子コンピューティングの可能性と限界について論じる。

A software product line models the variability of highly configurable systems. Complete exploration of all valid configurations (the configuration space) is infeasible as it grows exponentially with the number of features in the worst case. In practice, few representative configurations are sampled instead, which may be used for software testing or hardware verification. Pseudo-randomness of modern computers introduces statistical bias into these samples. Quantum computing enables truly random, uniform configuration sampling based on inherently random quantum physical effects. We propose a method to encode the entire configuration space in a superposition and then measure one random sample. We show the method's uniformity over multiple samples and investigate its scale for different feature models. We discuss the possibilities and limitations of quantum computing for uniform random sampling regarding current and future quantum hardware.
翻訳日:2023-07-28 15:09:39 公開日:2023-07-27
# FLARE:Universal Adversarial Masksを用いた深部強化学習エージェントの指紋化

FLARE: Fingerprinting Deep Reinforcement Learning Agents using Universal Adversarial Masks ( http://arxiv.org/abs/2307.14751v1 )

ライセンス: Link先を確認
Buse G. A. Tekgul, N. Asokan(参考訳) 疑わしいDeep Reinforcement Learning(DRL)ポリシーが、他の(被害者)ポリシーの不正コピーであるかどうかを検証するための最初の指紋認証機構であるFLAREを提案する。 まず,非伝達性で普遍的な敵マスク(摂動)を見つけることで,被害者の方針から修正版への移行を成功させるが,個別に訓練された方針には適用できない敵の例を生成できることを示す。 フレアはこれらのマスクを指紋として使用し、そのようなマスクによって引き起こされた状態に対する行動合意値を測定することにより、盗まれたdrlポリシーの真の所有権を検証する。 実験により,FLAREが有効であること(盗難コピーに対する100%のアクション合意)と,独立政策を誤認しないこと(偽陽性)が示唆された。 flareはモデル修正攻撃にも頑健であり、エージェントのパフォーマンスに悪影響を及ぼすことなく、よりインフォームドな敵に簡単に回避できない。 また,drlポリシーの特徴から,すべての普遍的な敵用マスクが指紋の候補であるとは限らない。 DRL問題と逐次決定過程の時空間的ダイナミクスは、DRLポリシーの決定境界をより困難にし、また、その幾何学を捉える普遍マスクを探索する。

We propose FLARE, the first fingerprinting mechanism to verify whether a suspected Deep Reinforcement Learning (DRL) policy is an illegitimate copy of another (victim) policy. We first show that it is possible to find non-transferable, universal adversarial masks, i.e., perturbations, to generate adversarial examples that can successfully transfer from a victim policy to its modified versions but not to independently trained policies. FLARE employs these masks as fingerprints to verify the true ownership of stolen DRL policies by measuring an action agreement value over states perturbed via such masks. Our empirical evaluations show that FLARE is effective (100% action agreement on stolen copies) and does not falsely accuse independent policies (no false positives). FLARE is also robust to model modification attacks and cannot be easily evaded by more informed adversaries without negatively impacting agent performance. We also show that not all universal adversarial masks are suitable candidates for fingerprints due to the inherent characteristics of DRL policies. The spatio-temporal dynamics of DRL problems and sequential decision-making process make characterizing the decision boundary of DRL policies more difficult, as well as searching for universal masks that capture the geometry of it.
翻訳日:2023-07-28 15:01:57 公開日:2023-07-27
# Retrieval-augmented Pseudo文生成によるアノテーションなし画像キャプションの探索

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation ( http://arxiv.org/abs/2307.14750v1 )

ライセンス: Link先を確認
Zhiyuan Li and Dongnan Liu and Heng Wang and Chaoyi Zhang and Weidong Cai(参考訳) 近年,注釈付き画像文対のない画像キャプタの訓練が注目を集めている。 以前のアプローチは、コーパスのミスマッチから文章をクロールし、与えられた画像に擬似アノテーションとしてアライメントするか、外部のテキストペアを使ってキャプションを事前トレーニングするかの2つの戦略に分類できる。 しかし、ペアの品質問題により調整設定は性能限界に達し、事前学習にはかなりの計算資源が必要である。 これらの課題に対処するため,我々は,大規模な事前学習モデル(LPM)からの事前知識を監督として活用し,その有効性を高めるために検索プロセスを統合する,新たな戦略「LPM+検索強化学習」を提案する。 具体的には,RaPSG(Retrieval-augmented Pseudo Sentence Generation)を導入し,不一致コーパスから関連性の高い短い領域記述を抽出し,異なる表現の擬似文を生成するとともに,LPMによる高品質な文を生成する。 さらに、モデル最適化を容易にするために、流速フィルタとCLIP誘導学習目標を導入する。 実験の結果,練習可能なパラメータの0.3%(1.3b vs 33m)しか利用せず,サイダースコア78.1 (+5.1) を達成することで,somaプリトレーニングモデル (flamingo3b) を上回った。 重要なことは、Flamingo3Bのための312Mイメージテキストペアの必要性など)外部データセット上での計算コストのかかる事前学習プロセスの必要性をなくすことである。 さらに,単純な拡張により,生成した擬似文を弱い監督としてデプロイすることで,1%の半教師付き画像キャプションベンチマークを93.4ciderスコア (+8.9) まで向上させることができることを示した。

Training an image captioner without annotated image-sentence pairs has gained traction in recent years. Previous approaches can be categorized into two strategies: crawling sentences from mismatching corpora and aligning them with the given images as pseudo annotations, or pre-training the captioner using external image-text pairs. However, the aligning setting seems to reach its performance limit due to the quality problem of pairs, and pre-training requires significant computational resources. To address these challenges, we propose a new strategy ``LPM + retrieval-augmented learning" where the prior knowledge from large pre-trained models (LPMs) is leveraged as supervision, and a retrieval process is integrated to further reinforce its effectiveness. Specifically, we introduce Retrieval-augmented Pseudo Sentence Generation (RaPSG), which adopts an efficient approach to retrieve highly relevant short region descriptions from the mismatching corpora and use them to generate a variety of pseudo sentences with distinct representations as well as high quality via LPMs. In addition, a fluency filter and a CLIP-guided training objective are further introduced to facilitate model optimization. Experimental results demonstrate that our method surpasses the SOTA pre-training model (Flamingo3B) by achieving a CIDEr score of 78.1 (+5.1) while utilizing only 0.3% of its trainable parameters (1.3B VS 33M). Importantly, our approach eliminates the need of computationally expensive pre-training processes on external datasets (e.g., the requirement of 312M image-text pairs for Flamingo3B). We further show that with a simple extension, the generated pseudo sentences can be deployed as weak supervision to boost the 1% semi-supervised image caption benchmark up to 93.4 CIDEr score (+8.9) which showcases the versatility and effectiveness of our approach.
翻訳日:2023-07-28 15:01:33 公開日:2023-07-27
# GANを用いた意味的画像補完と拡張

Semantic Image Completion and Enhancement using GANs ( http://arxiv.org/abs/2307.14748v1 )

ライセンス: Link先を確認
Priyansh Saxena, Raahat Gupta, Akshat Maheshwari, and Saumil Maheshwari(参考訳) セマンティックなインペイントや画像補完は、画像意味論に基づく画像の任意の大きな欠落領域を推測するタスクを暗示する。 画像ピクセルの予測にはハイレベルなコンテキストの表示が必要となるため、データの破損の修正や入力画像からオブジェクト全体を削除することに関心が持たれる画像補完よりもかなり難しい。 一方、画像の強調は、望ましくないノイズや画像からのぼやけを排除し、画像の詳細の多くを維持しようとする。 効率的な画像補完・拡張モデルにより、画像中の劣化領域やマスキング領域を復元し、さらに精細化して出力画像の品質を向上させることができる。 Generative Adversarial Networks (GAN) は、画像補完作業に有用であることが判明した。 本章では、基礎となるGANアーキテクチャと、画像補完タスクにどのように使用できるかについて論じる。

Semantic inpainting or image completion alludes to the task of inferring arbitrary large missing regions in images based on image semantics. Since the prediction of image pixels requires an indication of high-level context, this makes it significantly tougher than image completion, which is often more concerned with correcting data corruption and removing entire objects from the input image. On the other hand, image enhancement attempts to eliminate unwanted noise and blur from the image, along with sustaining most of the image details. Efficient image completion and enhancement model should be able to recover the corrupted and masked regions in images and then refine the image further to increase the quality of the output image. Generative Adversarial Networks (GAN), have turned out to be helpful in picture completion tasks. In this chapter, we will discuss the underlying GAN architecture and how they can be used used for image completion tasks.
翻訳日:2023-07-28 15:00:59 公開日:2023-07-27
# ウィスパーをリアルタイム転写システムに変える

Turning Whisper into Real-Time Transcription System ( http://arxiv.org/abs/2307.14743v1 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Raj Dabre, Ond\v{r}ej Bojar(参考訳) Whisperは最新の多言語音声認識および翻訳モデルの一つであるが、リアルタイムの文字起こしには設計されていない。 本稿では,実時間音声認識の実装であるwhisper-streamingを用いて,whisper-likeモデルの翻訳を行う。 Whisper-Streamingは、ローカル契約ポリシーとセルフアダプティブレイテンシを使って、ストリーミングの書き起こしを可能にする。 そこで本研究では,不測の長文音声認識テストセットの画質と3.3秒のレイテンシを実現するとともに,そのロバスト性と実用的なユーザビリティを多言語会議において実証する。

Whisper is one of the recent state-of-the-art multilingual speech recognition and translation models, however, it is not designed for real time transcription. In this paper, we build on top of Whisper and create Whisper-Streaming, an implementation of real-time speech transcription and translation of Whisper-like models. Whisper-Streaming uses local agreement policy with self-adaptive latency to enable streaming transcription. We show that Whisper-Streaming achieves high quality and 3.3 seconds latency on unsegmented long-form speech transcription test set, and we demonstrate its robustness and practical usability as a component in live transcription service at a multilingual conference.
翻訳日:2023-07-28 15:00:43 公開日:2023-07-27
# GPTを利用した複雑なEDAソフトウェアのための新しいインタラクションパラダイム

New Interaction Paradigm for Complex EDA Software Leveraging GPT ( http://arxiv.org/abs/2307.14740v1 )

ライセンス: Link先を確認
Boyu Han, Xinyu Wang, Yifan Wang, Junyu Yan, Yidong Tian(参考訳) 電子設計自動化(EDA)の分野では、KiCad、Cadence、Altium Designerといったプロ向けソフトウェアが、ますます広範な設計機能を提供している。 しかし、複雑な命令構造と学習曲線は、特に初歩的なプリント基板(PCB)設計者にとって障壁となる。 これにより、従来のドキュメントやビデオ、オンラインフォーラム以外の直感的な学習方法が欠如しているために、様々な設計目的のために適切な機能やプラグインを選択するのが困難になる。 この課題に対処するため、SmartonAlという名前のEDAソフトウェアのための人工知能(AI)インタラクションアシストプラグインがここで開発され、KiCadも最初の例である。 SmartonAIはHuggingGPTフレームワークにインスパイアされ、タスク計画と実行を容易にするためにGPTやBERTといった大きな言語モデルを採用している。 SmartonAIはデザイナからの要求を受け、タスクのブレークダウンを実行し、ヘルプ文書の分析や異なるプラグインの実行などの関連するサブタスクを効率的に実行し、SmartonAl自体とソフトウェアの両方で組み込みのスキーマおよびPCB操作機能を活用する。 予備的な結果から,SmartonAIは複雑なコマンドを直感的な言語による対話に単純化することで,PCB設計プロセスを大幅に効率化できることが示された。 ChatGPTの強力な言語機能とKiCadの豊富な設計機能を活用することで、プラグインは複雑なEDAソフトウェアとユーザフレンドリなインタラクションのギャップを効果的に埋めることができます。 一方、SmartonAIを支える新しいパラダイムは、他の複雑なソフトウェアシステムにも拡張できる。

In the rapidly growing field of electronic design automation (EDA), professional software such as KiCad, Cadence , and Altium Designer provide increasingly extensive design functionalities. However, the intricate command structure and high learning curve create a barrier, particularly for novice printed circuit board (PCB) designers. This results in difficulties in selecting appropriate functions or plugins for varying design purposes, compounded by the lack of intuitive learning methods beyond traditional documentation, videos, and online forums. To address this challenge, an artificial intelligence (AI) interaction assist plugin for EDA software named SmartonAl is developed here, also KiCad is taken as the first example. SmartonAI is inspired by the HuggingGPT framework and employs large language models, such as GPT and BERT, to facilitate task planning and execution. On receiving a designer request, SmartonAI conducts a task breakdown and efficiently executes relevant subtasks, such as analysis of help documentation paragraphs and execution of different plugins, along with leveraging the built-in schematic and PCB manipulation functions in both SmartonAl itself and software. Our preliminary results demonstrate that SmartonAI can significantly streamline the PCB design process by simplifying complex commands into intuitive language-based interactions. By harnessing the powerful language capabilities of ChatGPT and the rich design functions of KiCad, the plugin effectively bridges the gap between complex EDA software and user-friendly interaction. Meanwhile, the new paradigm behind SmartonAI can also extend to other complex software systems, illustrating the immense potential of AI-assisted user interfaces in advancing digital interactions across various domains.
翻訳日:2023-07-28 15:00:29 公開日:2023-07-27
# ブラインド画像品質評価のためのテスト時間適応

Test Time Adaptation for Blind Image Quality Assessment ( http://arxiv.org/abs/2307.14735v1 )

ライセンス: Link先を確認
Subhadeep Roy, Shankhanil Mitra, Soma Biswas and Rajiv Soundararajan(参考訳) ブラインド画像品質評価(iqa)アルゴリズムの設計は大幅に改善されているが、トレーニングとテストシナリオの分散シフトは、推論時にこれらのメソッドのパフォーマンス低下につながることが多い。 これは、テスト時間適応(TTA)技術の研究を動機付け、推論時のパフォーマンスを改善する。 TTAに使われている既存の補助的タスクや損失関数は、事前訓練されたモデルの品質適応には関係しないかもしれない。 本研究は,視覚障害者のためのTTAを実現するために,バッチとサンプルレベルの2つの新しい品質関連補助タスクを導入する。 特に,バッチレベルでの相対的損失とサンプルレベルでの相対的ランク損失を導入し,モデルの品質を意識し,対象データに適応させる。 実験の結果,実験結果から得られた少数の画像を用いても,ソースモデルのバッチ正規化統計を更新することにより,性能の大幅な向上が期待できることがわかった。

While the design of blind image quality assessment (IQA) algorithms has improved significantly, the distribution shift between the training and testing scenarios often leads to a poor performance of these methods at inference time. This motivates the study of test time adaptation (TTA) techniques to improve their performance at inference time. Existing auxiliary tasks and loss functions used for TTA may not be relevant for quality-aware adaptation of the pre-trained model. In this work, we introduce two novel quality-relevant auxiliary tasks at the batch and sample levels to enable TTA for blind IQA. In particular, we introduce a group contrastive loss at the batch level and a relative rank loss at the sample level to make the model quality aware and adapt to the target data. Our experiments reveal that even using a small batch of images from the test distribution helps achieve significant improvement in performance by updating the batch normalization statistics of the source model.
翻訳日:2023-07-28 14:59:58 公開日:2023-07-27
# サッカー1-vs-1ショットテイキング状況における最適決定のための戦略的枠組み:機械学習,理論ベースモデリング,ゲーム理論の統合的アプローチ

A Strategic Framework for Optimal Decisions in Football 1-vs-1 Shot-Taking Situations: An Integrated Approach of Machine Learning, Theory-Based Modeling, and Game Theory ( http://arxiv.org/abs/2307.14732v1 )

ライセンス: Link先を確認
Calvin C. K. Yeung and Keisuke Fujii(参考訳) 2つの対立するエージェント間の複雑な相互作用は、機械学習、ゲーム理論、および他のアプリケーションドメインの領域で頻繁に発生する。 戦略を定量的に分析することは、意思決定の客観的な基礎を提供することができる。 そのような重要なシナリオの1つは、フットボールにおけるショットテイクであり、攻撃者がボールを撃つかパスすべきか、ディフェンダーがショットをブロックしようとするべきかなどの決定は、試合の結果において重要な役割を果たす。 しかし、現在そのような状況を分析するための効果的なデータ駆動型および/または理論に基づくアプローチは存在しない。 この問題に対処するため,ゲーム理論に基づくシナリオ分析を行う新しいフレームワークを提案し,機械学習(ML)モデルで期待される利得を推定し,理論に基づくショットブロックモデルを用いてMLモデルの付加的特徴を抽出した。 従来、成功または失敗(1または0)はペイオフとして使用され、成功ショット(ゴール)はサッカーでは極めて稀である。 そこで本研究では,被写体に対するxsot(シュート・オン・ターゲット)指標の期待確率を,ゴールがなくてもプレイヤーの行動を評価するために提案する。 実験では,本フレームワークをベースラインモデルと短縮モデルと比較して検証した。 さらに,xSOTと既存の指標との間に高い相関関係が認められた。 この情報のアライメントは、xSOTが貴重な洞察を提供することを示している。 最後に、例示として、w杯2022の最適戦略を研究し、ユーロ2020のショット状況を分析した。

Complex interactions between two opposing agents frequently occur in domains of machine learning, game theory, and other application domains. Quantitatively analyzing the strategies involved can provide an objective basis for decision-making. One such critical scenario is shot-taking in football, where decisions, such as whether the attacker should shoot or pass the ball and whether the defender should attempt to block the shot, play a crucial role in the outcome of the game. However, there are currently no effective data-driven and/or theory-based approaches to analyzing such situations. To address this issue, we proposed a novel framework to analyze such scenarios based on game theory, where we estimate the expected payoff with machine learning (ML) models, and additional features for ML models were extracted with a theory-based shot block model. Conventionally, successes or failures (1 or 0) are used as payoffs, while a success shot (goal) is extremely rare in football. Therefore, we proposed the Expected Probability of Shot On Target (xSOT) metric to evaluate players' actions even if the shot results in no goal; this allows for effective differentiation and comparison between different shots and even enables counterfactual shot situation analysis. In our experiments, we have validated the framework by comparing it with baseline and ablated models. Furthermore, we have observed a high correlation between the xSOT and existing metrics. This alignment of information suggests that xSOT provides valuable insights. Lastly, as an illustration, we studied optimal strategies in the World Cup 2022 and analyzed a shot situation in EURO 2020.
翻訳日:2023-07-28 14:59:43 公開日:2023-07-27
# 医用画像分類における無声障害の理解

Understanding Silent Failures in Medical Image Classification ( http://arxiv.org/abs/2307.14729v1 )

ライセンス: Link先を確認
Till J. Bungert, Levin Kobelke and Paul F. Jaeger(参考訳) 医療応用における分類システムの信頼性確保のためには, サイレント障害の防止が重要である。 これは、そもそも失敗を避けるのに十分な堅牢な分類器を設計するか、あるいは信頼性スコアリング関数(CSF)を使用して残りの障害を検出することで達成できる。 画像分類における障害の主な原因は、トレーニングデータとデプロイメントデータ間の分散シフトである。 医用画像におけるサイレント障害予防の現状を理解するため,4つのバイオメディカルタスクにおける各種CSFと多種多様な分布シフトを比較した総合的な分析を行った。 ベンチマークしたcsfはいずれもサイレント障害を確実に防止できないため,データ障害の根本原因を深く理解する必要があると結論づけた。 そこで本稿では,遅延空間クラスタリングを用いてシフトや障害を可視化するインタラクティブな解析ツールであるsf-visualsを紹介する。 様々な例に基づき、このツールは医学領域における分類システムの安全な適用の要件に対する研究者の洞察を得るのにどのように役立つのかを実証する。 オープンソースのベンチマークとツールは以下のとおりである。

To ensure the reliable use of classification systems in medical applications, it is crucial to prevent silent failures. This can be achieved by either designing classifiers that are robust enough to avoid failures in the first place, or by detecting remaining failures using confidence scoring functions (CSFs). A predominant source of failures in image classification is distribution shifts between training data and deployment data. To understand the current state of silent failure prevention in medical imaging, we conduct the first comprehensive analysis comparing various CSFs in four biomedical tasks and a diverse range of distribution shifts. Based on the result that none of the benchmarked CSFs can reliably prevent silent failures, we conclude that a deeper understanding of the root causes of failures in the data is required. To facilitate this, we introduce SF-Visuals, an interactive analysis tool that uses latent space clustering to visualize shifts and failures. On the basis of various examples, we demonstrate how this tool can help researchers gain insight into the requirements for safe application of classification systems in the medical domain. The open-source benchmark and tool are at: https://github.com/IML-DKFZ/sf-visuals.
翻訳日:2023-07-28 14:59:15 公開日:2023-07-27
# 軽紫外発散を有する一般化スピンボソンモデルの自己共役性と領域

Self-adjointness and domain of generalized spin-boson models with mild ultraviolet divergences ( http://arxiv.org/abs/2307.14727v1 )

ライセンス: Link先を確認
Sascha Lill, Davide Lonigro(参考訳) 紫外偏光形状因子を持つ大規模一般化スピンボソンモデルの厳密な構成について述べる。 このクラスは、ボソン場と相互作用する任意のが有限の準位を持つ多くの非恒等原子の様々なモデルから構成される。 紫外線の発散は軽度であり、自己エネルギーの再正常化は不要である。 我々の構成は、A. Posilicanoによる最近の結果に基づいており、これはまた、ハミルトニアンに対する自己随伴性の領域に対する明示的な公式を記述できる。

We provide a rigorous construction of a large class of generalized spin-boson models with ultraviolet-divergent form factors. This class comprises various models of many possibly non-identical atoms with arbitrary but finite numbers of levels, interacting with a boson field. Ultraviolet divergences are assumed to be mild, such that no self-energy renormalization is necessary. Our construction is based on recent results by A. Posilicano, which also allow us to state an explicit formula for the domain of self-adjointness for our Hamiltonians.
翻訳日:2023-07-28 14:58:57 公開日:2023-07-27
# P2C: 単一部分クラウドからの自己監視ポイントクラウド補完

P2C: Self-Supervised Point Cloud Completion from Single Partial Clouds ( http://arxiv.org/abs/2307.14726v1 )

ライセンス: Link先を確認
Ruikai Cui, Shi Qiu, Saeed Anwar, Jiawei Liu, Chaoyue Xing, Jing Zhang, Nick Barnes(参考訳) ポイント雲の完成は、部分的な観測に基づいて完全な形状を復元することを目的としている。 既存の手法では、学習のために完全な点雲か、同じ物体の複数の部分的観測が必要である。 従来のアプローチとは対照的に、パーシャル2コンプリート(P2C)は、オブジェクトごとに1つの不完全なポイントクラウドのみからなるトレーニングサンプルを使用してポイントクラウドオブジェクトを補完する最初のセルフ教師付きフレームワークである。 具体的には、不完全な点雲を入力としてローカルパッチにグループ化し、異なる部分オブジェクトから事前情報を学習することでマスクパッチを予測する。 また,完備性を制限せずに形状ミスマッチを正則化する領域認識シャムハ距離を提案し,正規一貫性制約を考案し,局所平面性仮定を取り入れ,復元された形状表面の連続完備化を促す。 このようにして、P2Cは地上の真実として複数の観測や完全点雲を必要としない。 その代わり、構造的な手がかりはカテゴリ固有のデータセットから学習され、オブジェクトの部分点クラウドが完成する。 合成シェープネットデータと実世界のScanNetデータの両方に対するアプローチの有効性を実証し、P2Cが完全な形状で訓練された手法に匹敵する結果が得られることを示した。 コードはhttps://github.com/CuiRuikai/Partial2Completeで入手できる。

Point cloud completion aims to recover the complete shape based on a partial observation. Existing methods require either complete point clouds or multiple partial observations of the same object for learning. In contrast to previous approaches, we present Partial2Complete (P2C), the first self-supervised framework that completes point cloud objects using training samples consisting of only a single incomplete point cloud per object. Specifically, our framework groups incomplete point clouds into local patches as input and predicts masked patches by learning prior information from different partial objects. We also propose Region-Aware Chamfer Distance to regularize shape mismatch without limiting completion capability, and devise the Normal Consistency Constraint to incorporate a local planarity assumption, encouraging the recovered shape surface to be continuous and complete. In this way, P2C no longer needs multiple observations or complete point clouds as ground truth. Instead, structural cues are learned from a category-specific dataset to complete partial point clouds of objects. We demonstrate the effectiveness of our approach on both synthetic ShapeNet data and real-world ScanNet data, showing that P2C produces comparable results to methods trained with complete shapes, and outperforms methods learned with multiple partial observations. Code is available at https://github.com/CuiRuikai/Partial2Complete.
翻訳日:2023-07-28 14:58:48 公開日:2023-07-27
# 教師なし画像分類のためのコントラスト的知識融合

Contrastive Knowledge Amalgamation for Unsupervised Image Classification ( http://arxiv.org/abs/2307.14781v1 )

ライセンス: Link先を確認
Shangde Gao, Yichao Fu, Ke Liu, Yuqiang Han(参考訳) ナレッジ・アマルガメーション (KA) は, それぞれのタスクに特化している複数の教師モデルから, 共同目的を扱うためのコンパクトな学生モデルを学ぶことを目的としている。 現在の方法は,共通表現空間における教師と生徒の疎結合に重点が置かれており,不均一な教師群から適切な判断境界を学習することが困難になっている。 また,従来の研究におけるKLのばらつきは,教師と生徒の確率分布の差異を最小限に抑えるだけであり,教師の本質的な特性を無視している。 そこで本研究では,クラス間結合とクラス間分離を実現するために,コントラスト損失とアライメント損失を導入する新しいコントラスト知識融合(cka)フレームワークを提案する。 このアライメント損失は、共通表現空間における教師/学生モデルのサンプルレベル分布の差異を最小限に抑えるために導入され、さらに、学生はタスクレベルアマルガメーションにおいて、ソフトターゲットによる異種非教師付き分類タスクを効率的に柔軟に学習する。 ベンチマークに関する大規模な実験は、特定のタスクと複数のタスクのアマルガメーションにおけるCKAの一般化能力を示す。 包括的アブレーション研究は、我々のckaに対するさらなる洞察を与える。

Knowledge amalgamation (KA) aims to learn a compact student model to handle the joint objective from multiple teacher models that are are specialized for their own tasks respectively. Current methods focus on coarsely aligning teachers and students in the common representation space, making it difficult for the student to learn the proper decision boundaries from a set of heterogeneous teachers. Besides, the KL divergence in previous works only minimizes the probability distribution difference between teachers and the student, ignoring the intrinsic characteristics of teachers. Therefore, we propose a novel Contrastive Knowledge Amalgamation (CKA) framework, which introduces contrastive losses and an alignment loss to achieve intra-class cohesion and inter-class separation.Contrastive losses intra- and inter- models are designed to widen the distance between representations of different classes. The alignment loss is introduced to minimize the sample-level distribution differences of teacher-student models in the common representation space.Furthermore, the student learns heterogeneous unsupervised classification tasks through soft targets efficiently and flexibly in the task-level amalgamation. Extensive experiments on benchmarks demonstrate the generalization capability of CKA in the amalgamation of specific task as well as multiple tasks. Comprehensive ablation studies provide a further insight into our CKA.
翻訳日:2023-07-28 14:53:16 公開日:2023-07-27
# 量子コヒーレンスによる共鳴相互作用

Resonance interaction due to quantum coherence ( http://arxiv.org/abs/2307.14780v1 )

ライセンス: Link先を確認
Jiawei Hu, Hongwei Yu(参考訳) 2つの原子間の相互作用エネルギーは、2つの原子系の量子状態に依存する。 本稿では、原子が単一励起状態のある種のコヒーレント重ね合わせ状態にあるとき、2つの原子間の定常共鳴相互作用エネルギーが存在することを実証する。 相互作用はファインマン図形の意味でツリーレベル古典的である。 この論文では量子古典性(quantum classicality)と呼ばれる量を定義し、その非ゼロ性は相互作用の存在を保証する。 原子間相互作用が2原子系の状態の量子の性質に依存することは、ライドバーグ原子でテストできる可能性がある。

The interaction energy between two atoms is crucially dependent on the quantum state of the two-atom system. In this paper, it is demonstrated that a steady resonance interaction energy between two atoms exists when the atoms are in a certain type of coherent superposition of single-excitation states. The interaction is tree-level classical in the sense of the Feynman diagrams. A quantity called quantum classicality is defined in the present paper, whose nonzero-ness ensures the existence of this interaction. The dependence of the interatomic interaction on the quantum nature of the state of the two-atom system may potentially be tested with Rydberg atoms.
翻訳日:2023-07-28 14:52:53 公開日:2023-07-27
# MATNilm: 限定ラベルデータによるマルチアプライアンスタスク非侵入負荷モニタリング

MATNilm: Multi-appliance-task Non-intrusive Load Monitoring with Limited Labeled Data ( http://arxiv.org/abs/2307.14778v1 )

ライセンス: Link先を確認
Jing Xiong, Tianqi Hong, Dongbo Zhao, and Yu Zhang(参考訳) 非侵入負荷監視(NILM)は、家全体の電力使用信号の合計を分散することにより、各種家電の状況と消費電力を特定する。 効率的かつ正確な負荷監視は、ユーザプロファイルの設定、インテリジェントな家庭用エネルギー管理、ピーク負荷シフトを容易にする。 これは、電力分配ネットワークの全体的な効率を改善することによって、エンドユーザとユーティリティの両方にとって有益である。 既存のアプローチは主に、各アプライアンス用の個別モデルの開発に焦点を当てている。 これらのアプローチは一般的に、収集が難しい大量の家庭用ラベルデータに依存します。 本稿では,ラベル付きデータによる分散性能を高める訓練効率のよいサンプル拡張(SA)方式を用いたマルチアプライアンス・タスク・フレームワークを提案する。 各アプライアンスに対して、回帰および分類タスクのための共有階層分割構造を開発する。 また,全機器の時空間相関を捉えるための2次元アテンション機構も提案する。 1日間のトレーニングデータと限られたアプライアンス操作プロファイルだけで、提案されたsaアルゴリズムは、完全なデータセットでトレーニングする場合と同等のテスト性能を達成できる。 シミュレーションの結果,提案手法は多くのベースラインモデルよりも大幅に性能が向上した。 相対誤差は平均で50\%以上削減できる。 この作業のコードはhttps://github.com/jxiong22/matnilmで入手できる。

Non-intrusive load monitoring (NILM) identifies the status and power consumption of various household appliances by disaggregating the total power usage signal of an entire house. Efficient and accurate load monitoring facilitates user profile establishment, intelligent household energy management, and peak load shifting. This is beneficial for both the end-users and utilities by improving the overall efficiency of a power distribution network. Existing approaches mainly focus on developing an individual model for each appliance. Those approaches typically rely on a large amount of household-labeled data which is hard to collect. In this paper, we propose a multi-appliance-task framework with a training-efficient sample augmentation (SA) scheme that boosts the disaggregation performance with limited labeled data. For each appliance, we develop a shared-hierarchical split structure for its regression and classification tasks. In addition, we also propose a two-dimensional attention mechanism in order to capture spatio-temporal correlations among all appliances. With only one-day training data and limited appliance operation profiles, the proposed SA algorithm can achieve comparable test performance to the case of training with the full dataset. Finally, simulation results show that our proposed approach features a significantly improved performance over many baseline models. The relative errors can be reduced by more than 50\% on average. The codes of this work are available at https://github.com/jxiong22/MATNilm
翻訳日:2023-07-28 14:52:44 公開日:2023-07-27
# pCTフュージョン:外部LiDAR点雲セグメンテーションにおけるセマンティックアウェアロスを用いたポイントコンボリューション・トランスフォーマー融合

pCTFusion: Point Convolution-Transformer Fusion with Semantic Aware Loss for Outdoor LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2307.14777v1 )

ライセンス: Link先を確認
Abhishek Kuriyal, Vaibhav Kumar, Bharat Lohani(参考訳) LiDARの生成する点雲は屋外環境の知覚に不可欠である。 ポイントクラウドのセグメンテーションは多くのアプリケーションに必須である。 従来の研究は、セマンティックセグメンテーションアーキテクチャにおいて個別に自己注意と畳み込み(局所的な注意)メカニズムの使用に焦点を当ててきた。 しかしながら、これらの注意機構の学習された表現を組み合わせることでパフォーマンスを向上させる作業は限られている。 さらに、コンボリューションとセルフアテンションを組み合わせた既存の研究は、大点雲の処理には実用的でないグローバルな注意に依存している。 これらの課題に対処するため,本研究では,カーネルに基づく畳み込みと自己アテンション機構を組み合わせた新しいアーキテクチャであるpctfusionを提案する。 提案するアーキテクチャは,エンコーダブロックの階層的位置に基づいて,局所的および大域的な2種類の自己アテンション機構を用いる。 さらに、既存の損失関数は点の意味的および位置的重要性を考慮せず、特に鋭いクラス境界において精度を低下させる。 そこで本研究では,近傍における点の意味分布に基づく重み付けを割り当てる,ポイントワイズ幾何異方性(pga)と呼ばれる新しい注意に基づく損失関数をモデル化した。 提案アーキテクチャはSemanticKITTIの屋外データセットで評価され,最先端アーキテクチャと比較して5~7%の性能向上を示した。 結果は特に、クラス不均衡、スペースの欠如、隣り合わせの機能符号化によってしばしば誤って分類される、マイナーなクラスを奨励している。 これらの開発手法は、複雑なデータセットのセグメンテーションに活用でき、lidar point cloudの実世界のアプリケーションを動かすことができる。

LiDAR-generated point clouds are crucial for perceiving outdoor environments. The segmentation of point clouds is also essential for many applications. Previous research has focused on using self-attention and convolution (local attention) mechanisms individually in semantic segmentation architectures. However, there is limited work on combining the learned representations of these attention mechanisms to improve performance. Additionally, existing research that combines convolution with self-attention relies on global attention, which is not practical for processing large point clouds. To address these challenges, this study proposes a new architecture, pCTFusion, which combines kernel-based convolutions and self-attention mechanisms for better feature learning and capturing local and global dependencies in segmentation. The proposed architecture employs two types of self-attention mechanisms, local and global, based on the hierarchical positions of the encoder blocks. Furthermore, the existing loss functions do not consider the semantic and position-wise importance of the points, resulting in reduced accuracy, particularly at sharp class boundaries. To overcome this, the study models a novel attention-based loss function called Pointwise Geometric Anisotropy (PGA), which assigns weights based on the semantic distribution of points in a neighborhood. The proposed architecture is evaluated on SemanticKITTI outdoor dataset and showed a 5-7% improvement in performance compared to the state-of-the-art architectures. The results are particularly encouraging for minor classes, often misclassified due to class imbalance, lack of space, and neighbor-aware feature encoding. These developed methods can be leveraged for the segmentation of complex datasets and can drive real-world applications of LiDAR point cloud.
翻訳日:2023-07-28 14:52:23 公開日:2023-07-27
# シングルビューポートレートデータセットからフルヘッド3D GANを学習する

Learning Full-Head 3D GANs from a Single-View Portrait Dataset ( http://arxiv.org/abs/2307.14770v1 )

ライセンス: Link先を確認
Yiqian Wu, Hao Xu, Xiangjun Tang, Hongbo Fu, Xiaogang Jin(参考訳) 33d対応の顔生成器は、一般的に2d実生活の顔画像データセットで訓練される。 それでも、既存の顔認識手法は、さまざまなカメラアングルから取得した顔データを抽出するのに苦労することが多い。 さらに,身体に多様なポーズを呈する眼内画像は,3D認識ジェネレータの高次元的課題をもたらすため,完全な首と肩領域を含むデータの利用が困難である。 したがって、これらの顔画像データセットは、しばしば正面近傍の顔データしか含まないため、3D対応の顔生成装置が \textit{full-head} 3D のポートレートを構築するのが困難である。 この目的のために、まずデータセット {$\it{360}^{\circ}$}-\textit{Portrait}-\textit{HQ} (\textit{$\it{360}^{\circ}$PHQ}) を作成する。 次に,ボディーポーズの自己学習を伴うボディー・ポジショニングによるボディー・ポジブルな\textit{$\it{360}^{\circ}$phq}データセットから正準3dアバター分布を学習する最初の3d対応フルヘッド・ポートレート生成器である \textit{3dportraitgan} を提案する。 本モデルでは,全カメラアングル({360}^{\circ}$)からフルヘッドの3D表現で画像を生成することができる。 メッシュ誘導変形場をボリュームレンダリングに組み込んで変形結果を生成し,本方式のカノニカルジェネレータを用いて,データセットのボディポーズ分布に適合したポートレート画像を生成する。 2つのポーズ予測器をフレームワークに統合し、より正確なボディポーズを予測し、データセットにおける不正確なボディポーズの問題に対処する。 提案手法は,全カメラアングルから完全形状のポートレート画像を生成し,正確なポートレートボディポーズを予測できることを示す。

33D-aware face generators are commonly trained on 2D real-life face image datasets. Nevertheless, existing facial recognition methods often struggle to extract face data captured from various camera angles. Furthermore, in-the-wild images with diverse body poses introduce a high-dimensional challenge for 3D-aware generators, making it difficult to utilize data that contains complete neck and shoulder regions. Consequently, these face image datasets often contain only near-frontal face data, which poses challenges for 3D-aware face generators to construct \textit{full-head} 3D portraits. To this end, we first create the dataset {$\it{360}^{\circ}$}-\textit{Portrait}-\textit{HQ} (\textit{$\it{360}^{\circ}$PHQ}), which consists of high-quality single-view real portraits annotated with a variety of camera parameters {(the yaw angles span the entire $360^{\circ}$ range)} and body poses. We then propose \textit{3DPortraitGAN}, the first 3D-aware full-head portrait generator that learns a canonical 3D avatar distribution from the body-pose-various \textit{$\it{360}^{\circ}$PHQ} dataset with body pose self-learning. Our model can generate view-consistent portrait images from all camera angles (${360}^{\circ}$) with a full-head 3D representation. We incorporate a mesh-guided deformation field into volumetric rendering to produce deformed results to generate portrait images that conform to the body pose distribution of the dataset using our canonical generator. We integrate two pose predictors into our framework to predict more accurate body poses to address the issue of inaccurately estimated body poses in our dataset. Our experiments show that the proposed framework can generate view-consistent, realistic portrait images with complete geometry from all camera angles and accurately predict portrait body pose.
翻訳日:2023-07-28 14:51:52 公開日:2023-07-27
# グロスフリー手話翻訳:ビジュアル言語事前学習の改善

Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining ( http://arxiv.org/abs/2307.14768v1 )

ライセンス: Link先を確認
Benjia Zhou and Zhigang Chen and Albert Clap\'es and Jun Wan and Yanyan Liang and Sergio Escalera and Zhen Lei and Du Zhang(参考訳) 手話翻訳(SLT)は、視覚的なジェスチャー言語からテキストへの翻訳を含む、ドメイン横断的な性質のため難しい課題である。 従来の多くの手法では、SLTを促進するためにグロスシーケンスという中間表現を使用しており、手話認識(SLR)の2段階のタスクに変換され、次に手話翻訳(SLT)が続く。 しかし、中級光沢表現における情報ボトルネックと相まって、光沢注釈付き手話データの不足は、SLTタスクのさらなる発展を妨げている。 この課題に対処するために,視覚言語事前学習(GFSLT-VLP)に基づく新しいGross-Free SLTを提案する。 私たちのアプローチには2つの段階があります 一 コントラスト言語画像事前学習(CLIP)とマスク付き自己指導学習を統合して、視覚表現とテキスト表現のセマンティックギャップを橋渡しし、マスク付き文章を復元する事前タスクを作成すること。 i) 事前学習したVisual Encoder と Text Decoder のパラメータを第1段階から継承する encoder-decoder-like 構造でエンドツーエンドアーキテクチャを構築する。 これらの新しいデザインのシームレスな組み合わせは、堅牢な手話表現を形成し、光沢のない手話翻訳を大幅に改善する。 特にPHOENIX14Tデータセット(+5)とCSL-Dailyデータセット(+3)のBLEU-4スコアに関して、最先端のGloss-free SLT法と比較して前例のない改善を実現した。 さらに,本手法は,Gloss-based法と比較した場合,PHOENIX14Tデータセットの競合結果も達成する。 私たちのコードはhttps://github.com/zhoubenjia/GFSLT-VLPで公開されています。

Sign Language Translation (SLT) is a challenging task due to its cross-domain nature, involving the translation of visual-gestural language to text. Many previous methods employ an intermediate representation, i.e., gloss sequences, to facilitate SLT, thus transforming it into a two-stage task of sign language recognition (SLR) followed by sign language translation (SLT). However, the scarcity of gloss-annotated sign language data, combined with the information bottleneck in the mid-level gloss representation, has hindered the further development of the SLT task. To address this challenge, we propose a novel Gloss-Free SLT based on Visual-Language Pretraining (GFSLT-VLP), which improves SLT by inheriting language-oriented prior knowledge from pre-trained models, without any gloss annotation assistance. Our approach involves two stages: (i) integrating Contrastive Language-Image Pre-training (CLIP) with masked self-supervised learning to create pre-tasks that bridge the semantic gap between visual and textual representations and restore masked sentences, and (ii) constructing an end-to-end architecture with an encoder-decoder-like structure that inherits the parameters of the pre-trained Visual Encoder and Text Decoder from the first stage. The seamless combination of these novel designs forms a robust sign language representation and significantly improves gloss-free sign language translation. In particular, we have achieved unprecedented improvements in terms of BLEU-4 score on the PHOENIX14T dataset (>+5) and the CSL-Daily dataset (>+3) compared to state-of-the-art gloss-free SLT methods. Furthermore, our approach also achieves competitive results on the PHOENIX14T dataset when compared with most of the gloss-based methods. Our code is available at https://github.com/zhoubenjia/GFSLT-VLP.
翻訳日:2023-07-28 14:51:14 公開日:2023-07-27
# 逐次シフト検出器の実用化に向けて

Towards Practicable Sequential Shift Detectors ( http://arxiv.org/abs/2307.14758v1 )

ライセンス: Link先を確認
Oliver Cobb and Arnaud Van Looveren(参考訳) デプロイされた機械学習モデルの性能に対する分散シフトの有害な影響に対する認識が増大している。 その結果、関連するコストが蓄積される前にこれらの変化を検出することへの関心が高まっている。 しかし、シーケンシャルシフト検出器の実用的展開において重要なデシデラタは、一般的に既存の作業で見過ごされ、広く採用されることを妨げている。 3つのデシダータを識別し、その満足度に関連する既存の作品を強調し、将来の研究に影響を及ぼす方向を推奨する。

There is a growing awareness of the harmful effects of distribution shift on the performance of deployed machine learning models. Consequently, there is a growing interest in detecting these shifts before associated costs have time to accumulate. However, desiderata of crucial importance to the practicable deployment of sequential shift detectors are typically overlooked by existing works, precluding their widespread adoption. We identify three such desiderata, highlight existing works relevant to their satisfaction, and recommend impactful directions for future research.
翻訳日:2023-07-28 14:50:41 公開日:2023-07-27
# 伝送線パルス中の光子はどこにありますか。

Where are the photons in a transmission-line pulse? ( http://arxiv.org/abs/2307.14756v1 )

ライセンス: Link先を確認
Evangelos Varvelis, Debjyoti Biswas, and David P. DiVincenzo(参考訳) 短パルスの一次元電磁パルスの光学的記述を,特に伝送線路の言語を用いて開発する。 任意の波形発生器を用いた量子技術の現在の実践は、マイクロ波TEM誘導構造(同軸ケーブルまたはコプラナー導波管)において非常に短い、少数の周期のパルスを非常に低い温度設定で容易に生成することができる。 これらの系は、真空が短時間に置換された純粋なコヒーレントな量子状態を生成する限界に達し、したがって空間範囲が短いことを議論する。 パルスが双極子、すなわちパルスの積分電圧がゼロであるとき、状態は単一モードの有限変位によって記述できる。 したがって、特定の平均光子の数は存在するが、周波数も位置も明確に定義されていない。 Paley-Wiener の定理により、このモードの2成分光子 '波動関数' は、それを定義する真空変位が有界であるとしても、厳密には空間上の有界ではない。 この波動関数の成分は、特定の方向に移動するパルスの場合、複素値であり、実部と虚部はヒルベルト変換によって関連付けられる。 これらは通信理論の「分析信号」に似ている。 パルスが一極性の場合、光学的記述は不可能であり、光子番号は発散すると考えられる。 我々は、光子カウンタと量子非破壊検出器は、いくつかの例のパルスで光子を最適に変換し、検出しなければならない特性を考察し、量子暗号における非常に短いパルスの適用に対するこの最適化の結果について論じる。

We develop a photonic description of short, one-dimensional electromagnetic pulses, specifically in the language of electrical transmission lines. Current practice in quantum technology, using arbitrary waveform generators, can readily produce very short, few-cycle pulses in microwave TEM guided structures (coaxial cables or coplanar waveguides) in a very low noise, low temperature setting. We argue that these systems attain the limit of producing pure coherent quantum states, in which the vacuum has been displaced for a short time, and therefore short spatial extent. When the pulse is bipolar, that is, the integrated voltage of the pulse is zero, then the state can be described by the finite displacement of a single mode. Therefore there is a definite mean number of photons, but which have neither a well defined frequency nor position. Due to the Paley-Wiener theorem, the two-component photon 'wavefunction' of this mode is not strictly bounded in space even if the vacuum displacement that defines it is bounded. This wavefunction's components are, for the case of pulses moving in a specific direction, complex valued, with the real and imaginary parts related by a Hilbert transform. They are thus akin to the 'analytic signals' of communication theory. When the pulse is unipolar no photonic description is possible -- the photon number can be considered to be divergent. We consider properties that photon counters and quantum non-demolition detectors must have to optimally convert and detect the photons in several example pulses, and we discuss some consequence of this optimization for the application of very short pulses in quantum cryptography.
翻訳日:2023-07-28 14:50:33 公開日:2023-07-27
# Fair Machine Unlearning: 格差を緩和しながらデータを削除する

Fair Machine Unlearning: Data Removal while Mitigating Disparities ( http://arxiv.org/abs/2307.14754v1 )

ライセンス: Link先を確認
Alex Oesterling, Jiaqi Ma, Flavio P. Calmon, Hima Lakkaraju(参考訳) 企業による個人情報の収集・利用に関する意識が高まるにつれて、企業データセットのキュレーションに消費者が積極的に参加することの重要性が高まっている。 これを踏まえて、GDPR(General Data Protection Regulation)のようなデータガバナンスフレームワークは、個人が個人データを組織が使用するデータベースやモデルから削除するように要求するための重要な原則として、忘れられる権利を概説している。 学習要求毎にモデルをスクラッチから再トレーニングするという計算効率の非効率に対処するために,実際に忘れることを実現するために,いくつかのマシンアンラーニング手法が提案されている。 オンライン再トレーニングの効果的な代替手段であるが、フェアネスのような現実世界のアプリケーションにとって重要な他の特性にどのように影響するかは不明である。 本研究では,グループフェアネスを保ちながら,有効かつ効率的にデータインスタンスを解放できる最初のフェアマシンアンラーニング手法を提案する。 我々は,公平性目標を維持しつつ,データインスタンスを明確化できることを実証する理論的結果を導出する。 実世界のデータセットを用いた広範囲な実験では、公平性を保ちながら、未学習データインスタンスにおける本手法の有効性を強調した。

As public consciousness regarding the collection and use of personal information by corporations grows, it is of increasing importance that consumers be active participants in the curation of corporate datasets. In light of this, data governance frameworks such as the General Data Protection Regulation (GDPR) have outlined the right to be forgotten as a key principle allowing individuals to request that their personal data be deleted from the databases and models used by organizations. To achieve forgetting in practice, several machine unlearning methods have been proposed to address the computational inefficiencies of retraining a model from scratch with each unlearning request. While efficient online alternatives to retraining, it is unclear how these methods impact other properties critical to real-world applications, such as fairness. In this work, we propose the first fair machine unlearning method that can provably and efficiently unlearn data instances while preserving group fairness. We derive theoretical results which demonstrate that our method can provably unlearn data instances while maintaining fairness objectives. Extensive experimentation with real-world datasets highlight the efficacy of our method at unlearning data instances while preserving fairness.
翻訳日:2023-07-28 14:50:00 公開日:2023-07-27
# 1次元ナノフォトニック導波路に結合した量子ビット鎖を通る単一光子輸送の動的理論 マルコフ近似を超えて

Dynamical theory of single-photon transport through a qubit chain coupled to a one-dimensional nanophotonic waveguide. Beyond the Markovian approximation ( http://arxiv.org/abs/2307.14752v1 )

ライセンス: Link先を確認
Ya. S. Greenberg, O. A. Chuikin, A. A. Shtygashev, A. G. Moiseev(参考訳) 1次元(1次元)フォトニック導波路の連続モードに結合した線形量子ビット鎖を流れる単一光子パルスのダイナミクスについて検討した。 量子ビットの振幅と透過スペクトルと反射スペクトルの時間依存力学理論を導出する。 正の周波数に対してのみ存在する光子量子ビットカップリングの必要性はシステムのダイナミクスを大きく変えることができることを示した。 まず、光子を介する量子ビット間の双極子-双極子相互作用が、それらの間の位相コヒーレンスを破る。 第2に、透過スペクトルと反射スペクトルのスペクトル線は入射パルスの形状に大きく依存する。 我々はこの理論を1量子系と2量子系に適用する。 これらの2つのケースでは、量子ビットの振幅と光子放射スペクトルの時間的無限大の明示的な表現が得られる。 入射ガウス波パケットに対して、伝送光と反射光の直線形状を計算する。

We study the dynamics of a single-photon pulse traveling through a linear qubit chain coupled to continuum modes in a one-dimensional (1D) photonic waveguide. We derive a time-dependent dynamical theory for qubits' amplitudes and for transmitted and reflected spectra. We show that the requirement for the photon-qubit coupling to exist only for positive frequencies can significantly change the dynamics of the system. First, it leads to the additional photon-mediated dipole-dipole interaction between qubits which results in the violation of the phase coherence between them. Second, the spectral lines of transmitted and reflected spectra crucially depend on the shape of the incident pulse. We apply our theory to one-qubit and two-qubit systems. For these two cases, we obtain the explicit expressions for the qubits' amplitudes and for the photon radiation spectra as time tends to infinity. For the incident Gaussian wave packet we calculate the line shapes of transmitted and reflected photons.
翻訳日:2023-07-28 14:49:40 公開日:2023-07-27
# 簡易コンクリートドロップアウト --細粒度分類のための帰属マスク生成の改善-

Simplified Concrete Dropout -- Improving the Generation of Attribution Masks for Fine-grained Classification ( http://arxiv.org/abs/2307.14825v1 )

ライセンス: Link先を確認
Dimitri Korsch, Maha Shadaydeh, Joachim Denzler(参考訳) 細粒度分類は分類問題の特定の場合であり、視覚的な外観を共有し、微妙な違いしか区別できない物体を分類することを目的としている。 動物の自動監視システムにおいて、動物種や個体を決定するために細かな分類モデルが配置されることが多い。 モデルの決定の正確な視覚的な説明は、系統的エラーを分析するのに不可欠である。 注意または勾配に基づく手法は、分類決定に最も寄与する画像の領域を特定するために一般的に用いられる。 これらの手法は粗末すぎるか騒がしい説明をもたらし、微妙な視覚的な違いを確実に識別するには適さない。 しかし、摂動に基づく手法は、分類結果に因果関係のある画素を正確に識別することができる。 ドロップアウトアルゴリズム(FIDO)は,その1つである。 具体的なドロップアウト(cd)を利用して帰属マスクのセットをサンプリングし、分類モデルの出力に基づいてサンプリングパラメータを更新する。 このアルゴリズムの既知の問題は勾配推定のばらつきであり、著者らはサンプリングパラメータのミニバッチ更新によってこれまで軽減してきた。 本稿では,cdサンプリングの簡略化と小型バッチサイズへの依存の低減により,これらの計算不安定を回避できる解を提案する。 第一に、推定値の品質を損なうことなく、より小さなミニバッチサイズでパラメータを推定できるが、計算の労力を削減できる。 さらに,本ソリューションはより微細でコヒーレントな属性マスクを生成する。 最後に,得られた帰属マスクを用いて,モデルの微調整をすることなく,訓練モデルの分類性能を向上させる。

Fine-grained classification is a particular case of a classification problem, aiming to classify objects that share the visual appearance and can only be distinguished by subtle differences. Fine-grained classification models are often deployed to determine animal species or individuals in automated animal monitoring systems. Precise visual explanations of the model's decision are crucial to analyze systematic errors. Attention- or gradient-based methods are commonly used to identify regions in the image that contribute the most to the classification decision. These methods deliver either too coarse or too noisy explanations, unsuitable for identifying subtle visual differences reliably. However, perturbation-based methods can precisely identify pixels causally responsible for the classification result. Fill-in of the dropout (FIDO) algorithm is one of those methods. It utilizes the concrete dropout (CD) to sample a set of attribution masks and updates the sampling parameters based on the output of the classification model. A known problem of the algorithm is a high variance in the gradient estimates, which the authors have mitigated until now by mini-batch updates of the sampling parameters. This paper presents a solution to circumvent these computational instabilities by simplifying the CD sampling and reducing reliance on large mini-batch sizes. First, it allows estimating the parameters with smaller mini-batch sizes without losing the quality of the estimates but with a reduced computational effort. Furthermore, our solution produces finer and more coherent attribution masks. Finally, we use the resulting attribution masks to improve the classification performance of a trained model without additional fine-tuning of the model.
翻訳日:2023-07-28 14:42:24 公開日:2023-07-27
# 残留リカレントネットワークにおける誘導バイアスとしてのフェーディングメモリ

Fading memory as inductive bias in residual recurrent networks ( http://arxiv.org/abs/2307.14823v1 )

ライセンス: Link先を確認
Igor Dubinin, Felix Effenberger(参考訳) 残余接続はアーキテクチャに基づく帰納バイアスとして提案されており、バックプロパゲーションアルゴリズムを用いてトレーニングすると、爆発や消滅の問題を緩和し、フィードフォワードおよびリカレントネットワーク(RNN)におけるタスク性能を向上させる。 しかし、RNNの残余接続が、そのダイナミクスやメモリ特性に与える影響についてはほとんど分かっていない。 本稿では,弱結合残差再帰ネットワーク(wcrnn)を導入し,残差接続によりリアプノフ指数が明確に定義され,フェージングメモリの特性の研究を可能にする。 WCRNNの残余接続が,一連のベンチマークタスクにおける性能,ネットワークダイナミクス,メモリ特性に与える影響について検討する。 残差接続は,ネットワーク表現性が増大する効果的な帰納的バイアスを生じさせることを示した。 特に 残った関係は (i)カオスのエッジに近接してネットワークのダイナミクスが生まれる。 (ii) ネットワークがデータの特徴的スペクトル特性に乗じることができるようにし、 (iii)異種記憶特性の結果として実用的表現性が高まることが示される。 さらに、我々の結果が非線形残差にどのように拡張できるかを実証し、エルマン RNN に使用できる弱結合残差初期化スキームを導入する。

Residual connections have been proposed as architecture-based inductive bias to mitigate the problem of exploding and vanishing gradients and increase task performance in both feed-forward and recurrent networks (RNNs) when trained with the backpropagation algorithm. Yet, little is known about how residual connections in RNNs influence their dynamics and fading memory properties. Here, we introduce weakly coupled residual recurrent networks (WCRNNs) in which residual connections result in well-defined Lyapunov exponents and allow for studying properties of fading memory. We investigate how the residual connections of WCRNNs influence their performance, network dynamics, and memory properties on a set of benchmark tasks. We show that several distinct forms of residual connections yield effective inductive biases that result in increased network expressivity. In particular, residual connections that (i) result in network dynamics at the proximity of the edge of chaos, (ii) allow networks to capitalize on characteristic spectral properties of the data, and (iii) result in heterogeneous memory properties are shown to increase practical expressivity. In addition, we demonstrate how our results can be extended to non-linear residuals and introduce a weakly coupled residual initialization scheme that can be used for Elman RNNs
翻訳日:2023-07-28 14:42:01 公開日:2023-07-27
# よい言葉は何か - 自動評価は機能するのか?

What Makes a Good Paraphrase: Do Automated Evaluations Work? ( http://arxiv.org/abs/2307.14818v1 )

ライセンス: Link先を確認
Anna Moskvina, Bhushan Kotnis, Chris Catacata, Michael Janz, Nasrin Saef(参考訳) パラフレージング(paraphrasing)とは、概念や意味を異なる言葉で表現する作業である。 しかし、受け入れられる言い回しと見なすには、どのぐらい異なるべきなのか? パラフレーズの品質を評価するために、自動メトリクスのみを使用できるのでしょうか? 我々は,ドイツ語データセットの実験を行い,自動的および専門的な言語評価を行うことにより,これらの疑問に答えようとしている。

Paraphrasing is the task of expressing an essential idea or meaning in different words. But how different should the words be in order to be considered an acceptable paraphrase? And can we exclusively use automated metrics to evaluate the quality of a paraphrase? We attempt to answer these questions by conducting experiments on a German data set and performing automatic and expert linguistic evaluation.
翻訳日:2023-07-28 14:41:43 公開日:2023-07-27
# 参照生産のモデル:どうやって時間テストに耐えられるのか?

Models of reference production: How do they withstand the test of time? ( http://arxiv.org/abs/2307.14817v1 )

ライセンス: Link先を確認
Fahime Same, Guanyi Chen, Kees van Deemter(参考訳) 近年,NLP研究の多くは性能改善に重点を置いている。 本研究では,NLPの言語学的・科学的側面に着目した。 我々は、文脈における参照表現(REG-in-context)を生成するタスクをケーススタディとして使用し、10年以上前にこの問題に対処した英語における共有タスクの集合であるGRECから分析を開始する。 モデルの性能を,(1)より現実的なデータセット上で評価し,(2)より高度な手法を用いて評価すればどうなるか尋ねる。 異なる評価指標と特徴選択実験を用いてモデルをテストする。 その結果,GRECは,コーパスの選択や評価指標の影響が大きいため,人間の参照生産を模倣するモデルの信頼性評価を提供することができないことがわかった。 また,事前学習した言語モデルは従来の機械学習モデルよりもコーパスの選択に依存しないため,より堅牢なクラス予測が可能であることも示唆した。

In recent years, many NLP studies have focused solely on performance improvement. In this work, we focus on the linguistic and scientific aspects of NLP. We use the task of generating referring expressions in context (REG-in-context) as a case study and start our analysis from GREC, a comprehensive set of shared tasks in English that addressed this topic over a decade ago. We ask what the performance of models would be if we assessed them (1) on more realistic datasets, and (2) using more advanced methods. We test the models using different evaluation metrics and feature selection experiments. We conclude that GREC can no longer be regarded as offering a reliable assessment of models' ability to mimic human reference production, because the results are highly impacted by the choice of corpus and evaluation metrics. Our results also suggest that pre-trained language models are less dependent on the choice of corpus than classic Machine Learning models, and therefore make more robust class predictions.
翻訳日:2023-07-28 14:41:38 公開日:2023-07-27
# ハイブリッドASPによる半導体製造プロセスの多目的スケジューリング(拡張バージョン)

Hybrid ASP-based multi-objective scheduling of semiconductor manufacturing processes (Extended version) ( http://arxiv.org/abs/2307.14799v1 )

ライセンス: Link先を確認
Mohammed M. S. El-Kholany, Ramsha Ali, Martin Gebser(参考訳) 現代の半導体製造では、数百の操作からなる複雑な製造プロセスが伴い、ロットの放出から完成まで数ヶ月かかる。 これらのプロセスで使用されるハイテクマシンは多種多様であり、個々のウエハ、ロット、バッチを複数段階で運用し、製品固有のセットアップと特別なメンテナンス手順を必要とする。 この状況は、複雑な生産プロセスやマシンが少ない従来のジョブショップスケジューリングシナリオと異なり、主に高度に組み合わせられるが抽象的なスケジューリング問題の解決に重点を置いている。 本研究は, フレキシブルマシン処理, セットアップ, バッチ処理, 保守操作を取り入れた, 差分論理を用いたハイブリッドアンサーセットプログラミングを用いて, 特定の要求をモデル化することにより, 現実的な半導体製造プロセスのスケジューリングに対処する。 半導体製造プロセスが局所的にグリーディ・ヒューリスティックや独立して特定の機械群割り当てを最適化する既存の手法とは異なり、複数の最適化目標を満たした大規模スケジューリングの可能性を検討する。

Modern semiconductor manufacturing involves intricate production processes consisting of hundreds of operations, which can take several months from lot release to completion. The high-tech machines used in these processes are diverse, operate on individual wafers, lots, or batches in multiple stages, and necessitate product-specific setups and specialized maintenance procedures. This situation is different from traditional job-shop scheduling scenarios, which have less complex production processes and machines, and mainly focus on solving highly combinatorial but abstract scheduling problems. In this work, we address the scheduling of realistic semiconductor manufacturing processes by modeling their specific requirements using hybrid Answer Set Programming with difference logic, incorporating flexible machine processing, setup, batching and maintenance operations. Unlike existing methods that schedule semiconductor manufacturing processes locally with greedy heuristics or by independently optimizing specific machine group allocations, we examine the potentials of large-scale scheduling subject to multiple optimization objectives.
翻訳日:2023-07-28 14:41:21 公開日:2023-07-27
# 量子機械学習におけるパラメタライズド量子回路とその近似容量

Parametrized Quantum Circuits and their approximation capacities in the context of quantum machine learning ( http://arxiv.org/abs/2307.14792v1 )

ライセンス: Link先を確認
Alberto Manzano, David Dechant, Jordi Tura, Vedran Dunjko(参考訳) パラメトリズド量子回路(pqc)は、固定ゲートとパラメトリズドゲートの両方からなる量子回路である。 最近の量子機械学習(qml)のアプローチでは、pqcは本質的にユビキタスであり、古典的なニューラルネットワークに類似した役割を果たす。 それらは様々なタイプのデータを学習するために使用され、pqcが十分に深く作られ、データが豊富になった場合、一般化エラーは消滅し、モデルが分散の本質的な特徴を捉えると期待されている。 L^2$ 距離の PQC による2乗可積分関数の近似性を証明する結果は存在するが、他の函数空間や他の距離での近似は、あまり研究されていない。 本研究では, pqc が連続関数, $p$ 可積分関数, $h^k$ ソボレフ空間の空間を近似できることを示す。 さらに,異なる関数空間と距離を接続する一般化境界を開発する。 これらの結果はpqcsの利用に関する探索的クラスの理論の厳密な基礎を与える。 微分方程式の解法のような PQC の新たなポテンシャル利用の解法である。 さらに、ユーザのニーズに合ったPQCと損失関数を設計する方法について、新たな洞察を与えてくれます。

Parametrized quantum circuits (PQC) are quantum circuits which consist of both fixed and parametrized gates. In recent approaches to quantum machine learning (QML), PQCs are essentially ubiquitous and play the role analogous to classical neural networks. They are used to learn various types of data, with an underlying expectation that if the PQC is made sufficiently deep, and the data plentiful, the generalisation error will vanish, and the model will capture the essential features of the distribution. While there exist results proving the approximability of square-integrable functions by PQCs under the $L^2$ distance, the approximation for other function spaces and under other distances has been less explored. In this work we show that PQCs can approximate the space of continuous functions, $p$-integrable functions and the $H^k$ Sobolev spaces under specific distances. Moreover, we develop generalisation bounds that connect different function spaces and distances. These results provide a rigorous basis for the theory of explored classes of uses of PQCs. Such as for solving new potential uses of PQCs such as solving differential equations. Further, they provide us with new insight on how to design PQCs and loss functions which better suit the specific needs of the users.
翻訳日:2023-07-28 14:41:01 公開日:2023-07-27
# 同様に、光と文脈自由クラスタに基づく軌道予測

Likely, Light, and Accurate Context-Free Clusters-based Trajectory Prediction ( http://arxiv.org/abs/2307.14788v1 )

ライセンス: Link先を確認
Tiago Rodrigues de Almeida and Oscar Martinez Mozos(参考訳) 道路交通網の自律システムは、未来を予見するために不確実性に対応するインテリジェントなメカニズムを必要とする。 本稿では, 軌道予測のための多段確率的手法を提案する。変位空間への軌道変換, 変位時系列のクラスタリング, 軌道提案, ランキング提案である。 本稿では,従来の手法よりも分散シフトに優れた自己条件付きGANという,より深い特徴クラスタリング手法を提案する。 さらに,ニューラルネットワークよりも効率的かつ高精度な生成軌道に確率を割り当てるための,距離に基づく新たなランキング提案を提案する。 システム全体は、最も可能性の高い軌道を比較する際にポイント推定器と同様に実行しながら、人間および道路エージェントの軌道データにおけるコンテキストフリーな深層生成モデルを超える。

Autonomous systems in the road transportation network require intelligent mechanisms that cope with uncertainty to foresee the future. In this paper, we propose a multi-stage probabilistic approach for trajectory forecasting: trajectory transformation to displacement space, clustering of displacement time series, trajectory proposals, and ranking proposals. We introduce a new deep feature clustering method, underlying self-conditioned GAN, which copes better with distribution shifts than traditional methods. Additionally, we propose novel distance-based ranking proposals to assign probabilities to the generated trajectories that are more efficient yet accurate than an auxiliary neural network. The overall system surpasses context-free deep generative models in human and road agents trajectory data while performing similarly to point estimators when comparing the most probable trajectory.
翻訳日:2023-07-28 14:40:40 公開日:2023-07-27
# 双方向誘導学習による深度認識型深度分割

Towards Deeply Unified Depth-aware Panoptic Segmentation with Bi-directional Guidance Learning ( http://arxiv.org/abs/2307.14786v1 )

ライセンス: Link先を確認
Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He, Jin-Peng Lan, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) Depth-Aware Panoptic segmentationは、意味論的および幾何学的理解とより堅牢なシーン解釈を組み合わせたコンピュータビジョンにおける新たなトピックである。 最近の研究は、この課題に取り組むために統一されたフレームワークを追求しているが、ほとんどは2つの個別の学習タスクとして扱う。 本論文では,同一のオブジェクトクエリを用いたセグメント単位の分割と深さ推定を行う,奥行き認識汎視セグメンテーションのための深い統一フレームワークを提案する。 さらに,2つのタスク間のギャップを狭めるために,潜在表現を用いてシーン幾何学をオブジェクトクエリに統合可能な幾何学的クエリ拡張手法を設計する。 さらに,相互関係を生かしてクロスタスク特徴学習を容易にする双方向指導学習手法を提案する。 本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。 さらに,不完全な監督ラベルの下でも,指導学習のアプローチが性能向上をもたらすことを示す。

Depth-aware panoptic segmentation is an emerging topic in computer vision which combines semantic and geometric understanding for more robust scene interpretation. Recent works pursue unified frameworks to tackle this challenge but mostly still treat it as two individual learning tasks, which limits their potential for exploring cross-domain information. We propose a deeply unified framework for depth-aware panoptic segmentation, which performs joint segmentation and depth estimation both in a per-segment manner with identical object queries. To narrow the gap between the two tasks, we further design a geometric query enhancement method, which is able to integrate scene geometry into object queries using latent representations. In addition, we propose a bi-directional guidance learning approach to facilitate cross-task feature learning by taking advantage of their mutual relations. Our method sets the new state of the art for depth-aware panoptic segmentation on both Cityscapes-DVPS and SemKITTI-DVPS datasets. Moreover, our guidance learning approach is shown to deliver performance improvement even under incomplete supervision labels.
翻訳日:2023-07-28 14:40:26 公開日:2023-07-27
# エンド・ツー・エンドのセマンティクスロールラベリングモデルによるアスペクトベースの感情改善

Improving Aspect-Based Sentiment with End-to-End Semantic Role Labeling Model ( http://arxiv.org/abs/2307.14785v1 )

ライセンス: Link先を確認
Pavel P\v{r}ib\'a\v{n} and Ond\v{r}ej Pra\v{z}\'ak(参考訳) 本稿では,意味的役割ラベル(SRL)モデルから抽出した意味情報を活用することにより,アスペクトベース感性分析(ABSA)の性能向上を目的とした一連のアプローチを提案する。 本稿では,トランスフォーマーの隠蔽状態における構造的意味情報の大部分を効果的にキャプチャする,エンドツーエンドのセマンティックロールラベルモデルを提案する。 このエンドツーエンドモデルは、セマンティック情報を組み込んだ新しいモデルに適していると考えています。 ELECTRA小モデルを用いて,提案したモデルを英語とチェコ語で評価した。 組み合わせたモデルにより、両言語でのABSA性能が向上する。 さらに,チェコのABSAで最先端の成果を得た。

This paper presents a series of approaches aimed at enhancing the performance of Aspect-Based Sentiment Analysis (ABSA) by utilizing extracted semantic information from a Semantic Role Labeling (SRL) model. We propose a novel end-to-end Semantic Role Labeling model that effectively captures most of the structured semantic information within the Transformer hidden state. We believe that this end-to-end model is well-suited for our newly proposed models that incorporate semantic information. We evaluate the proposed models in two languages, English and Czech, employing ELECTRA-small models. Our combined models improve ABSA performance in both languages. Moreover, we achieved new state-of-the-art results on the Czech ABSA.
翻訳日:2023-07-28 14:40:08 公開日:2023-07-27
# Emotion4MIDI: 歌詞ベースの感情ラベル付きシンボリック音楽データセット

Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset ( http://arxiv.org/abs/2307.14783v1 )

ライセンス: Link先を確認
Serkan Sulun, Pedro Oliveira, Paula Viana(参考訳) 12kのMIDI曲からなる大規模感情ラベル付きシンボル音楽データセットを提案する。 このデータセットを作成するために、まずGoEmotionsデータセット上で感情分類モデルをトレーニングし、ベースラインの半分の大きさのモデルで最先端の結果を得た。 次に、これらのモデルを2つの大規模MIDIデータセットの歌詞に適用した。 我々のデータセットは、幅広いきめ細かい感情をカバーし、音楽と感情の関連性を探究するための貴重なリソースを提供し、特に特定の感情に基づいて音楽を生成するモデルを開発する。 推論、トレーニングされたモデル、データセットのコードはオンラインで利用可能です。

We present a new large-scale emotion-labeled symbolic music dataset consisting of 12k MIDI songs. To create this dataset, we first trained emotion classification models on the GoEmotions dataset, achieving state-of-the-art results with a model half the size of the baseline. We then applied these models to lyrics from two large-scale MIDI datasets. Our dataset covers a wide range of fine-grained emotions, providing a valuable resource to explore the connection between music and emotions and, especially, to develop models that can generate music based on specific emotions. Our code for inference, trained models, and datasets are available online.
翻訳日:2023-07-28 14:39:56 公開日:2023-07-27
# IML-ViT:視覚変換器による画像操作位置決め

IML-ViT: Image Manipulation Localization by Vision Transformer ( http://arxiv.org/abs/2307.14863v1 )

ライセンス: Link先を確認
Xiaochen Ma, Bo Du, Xianggen Liu, Ahmed Y. Al Hammadi, Jizhe Zhou(参考訳) 高度な画像改ざん技術は、マルチメディアの信頼性にますます挑戦し、画像操作ローカライゼーション(IML)の開発につながっている。 しかし、優れたIMLモデルを作る理由は何ですか? 答えは、アーティファクトをキャプチャする方法にあります。 爆発するアーティファクトは、操作された領域と認証領域の間に非意味的な不一致を抽出する必要がある。 自己着脱機構は当然のことながら、トランスフォーマーが最適候補である。 さらに、アーティファクトは画像解像度に敏感で、マルチスケール機能で増幅され、操作境界で巨大です。 そこで,前者の質問に対する回答を,高分解能のvitの構築,マルチスケール特徴抽出機能,操作エッジ管理として定式化する。 我々は、この単純だが効果的なViTパラダイムをIML-ViTと呼び、IMLの新しいベンチマークとなる大きな可能性を秘めている。 5つのベンチマークデータセットの大規模な実験により、我々のモデルは最先端の操作ローカライゼーション手法よりも優れていた。 コードとモデルは \url{https://github.com/SunnyHaze/IML-ViT} で入手できる。

Advanced image tampering techniques are increasingly challenging the trustworthiness of multimedia, leading to the development of Image Manipulation Localization (IML). But what makes a good IML model? The answer lies in the way to capture artifacts. Exploiting artifacts requires the model to extract non-semantic discrepancies between the manipulated and authentic regions, which needs to compare differences between these two areas explicitly. With the self-attention mechanism, naturally, the Transformer is the best candidate. Besides, artifacts are sensitive to image resolution, amplified under multi-scale features, and massive at the manipulation border. Therefore, we formulate the answer to the former question as building a ViT with high-resolution capacity, multi-scale feature extraction capability, and manipulation edge supervision. We term this simple but effective ViT paradigm as the IML-ViT, which has great potential to become a new benchmark for IML. Extensive experiments on five benchmark datasets verified our model outperforms the state-of-the-art manipulation localization methods. Code and models are available at \url{https://github.com/SunnyHaze/IML-ViT}
翻訳日:2023-07-28 14:34:28 公開日:2023-07-27
# 深層学習モデルを用いた結核診断のためのデジタル・アナログ胸部X線画像の比較評価

Comparative Evaluation of Digital and Analog Chest Radiographs to Identify Tuberculosis using Deep Learning Model ( http://arxiv.org/abs/2307.14859v1 )

ライセンス: Link先を確認
Subhankar Chattoraj, Bhargava Reddy, Manoj Tadepalli, Preetham Putha(参考訳) 目的:Chest X-ray(CXR)は肺の異常を検出するための必要不可欠なツールであり、年間20億回以上の画像が世界中で撮影されている。 しかし、tbの正確かつタイムリーな診断は未解決の目標である。 低所得国ではtbの発生率が最も高く、ポータブルで自動化され、信頼性の高いソリューションの必要性が求められる。 本研究では,デジタルおよびアナログcxrにおけるdlベースデバイスの性能を比較した。 評価されたdlベースのデバイスは、リソース制約設定に使用できる。 方法:2020年4月から2021年3月までにインド各地から計1万本のCXR DICOM(.dcm)と3台の携帯電話(Samsung S8、iPhone 8、iPhone XS)で入手したフィルムの印刷写真が回顧的に収集された。 結果:1万個の胸部X線を用いて,TBの放射線学的徴候を同定した。 元のDICOMsデータセットで結核の徴候を検出するためのqXRのAUCは0.928で、感度は0.841、感度は0.806であった。 最適な閾値では、元のDICOMと3台の携帯電話のAUCの違いは0.024 (2.55%)、0.048 (5.10%)、0.038 (1.91%)である。 最小差は、デジタルおよびアナログcxrにおけるtbの放射線標識の同定におけるdlベースの装置のロバスト性を示す。

Purpose:Chest X-ray (CXR) is an essential tool and one of the most prescribed imaging to detect pulmonary abnormalities, with a yearly estimate of over 2 billion imaging performed worldwide. However, the accurate and timely diagnosis of TB remains an unmet goal. The prevalence of TB is highest in low-middle-income countries, and the requirement of a portable, automated, and reliable solution is required. In this study, we compared the performance of DL-based devices on digital and analog CXR. The evaluated DL-based device can be used in resource-constraint settings. Methods: A total of 10,000 CXR DICOMs(.dcm) and printed photos of the films acquired with three different cellular phones - Samsung S8, iPhone 8, and iPhone XS along with their radiological report were retrospectively collected from various sites across India from April 2020 to March 2021. Results: 10,000 chest X-rays were utilized to evaluate the DL-based device in identifying radiological signs of TB. The AUC of qXR for detecting signs of tuberculosis on the original DICOMs dataset was 0.928 with a sensitivity of 0.841 at a specificity of 0.806. At an optimal threshold, the difference in the AUC of three cellular smartphones with the original DICOMs is 0.024 (2.55%), 0.048 (5.10%), and 0.038 (1.91%). The minimum difference demonstrates the robustness of the DL-based device in identifying radiological signs of TB in both digital and analog CXR.
翻訳日:2023-07-28 14:34:07 公開日:2023-07-27
# 乾式大気境界層の生成対流パラメトリゼーション

Generative convective parametrization of dry atmospheric boundary layer ( http://arxiv.org/abs/2307.14857v1 )

ライセンス: Link先を確認
Florian Heyder and Juan Pedro Mellado and J\"org Schumacher(参考訳) 乱流パラメトリゼーションは、キロスケールの地球系モデルにおいて必要不可欠な構成要素である。 ポテンシャル温度や湿度などの保存特性の平均鉛直勾配がほぼゼロの対流境界層では、乱流フラックスを渦拡散によって平均鉛直勾配に関連付ける標準的なアンサッツは、大気境界層における通常非対称な上下流の質量流束パラメトリゼーションによって拡張されなければならない。 本稿では,生成的逆ネットワークに基づく乾燥対流境界層に対するパラメトリゼーションを提案する。 このモデルは、ディアドルフの古典的混合層理論に続く自己相似層成長の物理学を取り入れている。 これにより、生成機械学習アルゴリズムのトレーニングデータベースを強化し、境界層内の異なる高さにおける合成生成乱流場の予測統計を大幅に改善する。 アルゴリズムトレーニングは完全に3次元の直接数値シミュレーションデータに基づいている。 確率的パラメトリゼーションと異なり, モデルでは, 浮力変動, 鉛直速度, 浮力フラックスの非ゲージ過渡統計量から, 安定なトップ領域に浸透する高速熱を捉えることができる。 生成アルゴリズムの結果は, 標準2等式あるいはマルチプルム確率的質量流束スキームと一致した。 現在のパラメトリゼーションは、他のモデル閉包では得られない乱流対流の顆粒型水平構造を提供する。 我々の研究は、湿潤対流、上部海混合、恒星内部の対流などの他の自然流における効率的なデータ駆動対流パラメトリゼーションへの道を開いた。

Turbulence parametrizations will remain a necessary building block in kilometer-scale Earth system models. In convective boundary layers, where the mean vertical gradients of conserved properties such as potential temperature and moisture are approximately zero, the standard ansatz which relates turbulent fluxes to mean vertical gradients via an eddy diffusivity has to be extended by mass flux parametrizations for the typically asymmetric up- and downdrafts in the atmospheric boundary layer. In this work, we present a parametrization for a dry convective boundary layer based on a generative adversarial network. The model incorporates the physics of self-similar layer growth following from the classical mixed layer theory by Deardorff. This enhances the training data base of the generative machine learning algorithm and thus significantly improves the predicted statistics of the synthetically generated turbulence fields at different heights inside the boundary layer. The algorithm training is based on fully three-dimensional direct numerical simulation data. Differently to stochastic parametrizations, our model is able to predict the highly non-Gaussian transient statistics of buoyancy fluctuations, vertical velocity, and buoyancy flux at different heights thus also capturing the fastest thermals penetrating into the stabilized top region. The results of our generative algorithm agree with standard two-equation or multi-plume stochastic mass-flux schemes. The present parametrization provides additionally the granule-type horizontal organization of the turbulent convection which cannot be obtained in any of the other model closures. Our work paves the way to efficient data-driven convective parametrizations in other natural flows, such as moist convection, upper ocean mixing, or convection in stellar interiors.
翻訳日:2023-07-28 14:33:40 公開日:2023-07-27
# ロバストなFew-Shot学習者としてのSeq2Seqモデルの可能性

Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners ( http://arxiv.org/abs/2307.14856v1 )

ライセンス: Link先を確認
Jihyeon Lee, Dain Kim, Doohae Jung, Boseop Kim, Kyoung-Woon On(参考訳) 微調整よりも大きな利点を持つインコンテキスト学習は、主にデコーダのみのモデルで観察されるが、エンコーダデコーダ(seq2seq)モデルは重み付け更新に依存するメソッドに優れている。 近年,Seq2seqモデルによる少数ショット学習の実現可能性を示す研究がいくつかあるが,これは要約や翻訳などのSeq2seqアーキテクチャによく適合するタスクに限られている。 これらの初期研究に触発されて、幅広いタスクにおけるデコーダのみおよびエンコーダ-デコーダモデルのコンテキスト内数ショット学習能力の比較を行った。 さらに,Seq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。 注目すべきことに,本手法はデコーダのみのモデルよりも6倍大きく,従来のSeq2seqモデルに比べて性能が大幅に向上する。 適切な構成とプロンプト設計により、Seq2seqモデルは幅広いアプリケーションに対して非常に効果的な数ショット学習者になれると仮定する。

In-context learning, which offers substantial advantages over fine-tuning, is predominantly observed in decoder-only models, while encoder-decoder (i.e., seq2seq) models excel in methods that rely on weight updates. Recently, a few studies have demonstrated the feasibility of few-shot learning with seq2seq models; however, this has been limited to tasks that align well with the seq2seq architecture, such as summarization and translation. Inspired by these initial studies, we provide a first-ever extensive experiment comparing the in-context few-shot learning capabilities of decoder-only and encoder-decoder models on a broad range of tasks. Furthermore, we propose two methods to more effectively elicit in-context learning ability in seq2seq models: objective-aligned prompting and a fusion-based approach. Remarkably, our approach outperforms a decoder-only model that is six times larger and exhibits significant performance improvements compared to conventional seq2seq models across a variety of settings. We posit that, with the right configuration and prompt design, seq2seq models can be highly effective few-shot learners for a wide spectrum of applications.
翻訳日:2023-07-28 14:33:08 公開日:2023-07-27
# フォトニック反断熱量子最適化アルゴリズム

Photonic counterdiabatic quantum optimization algorithm ( http://arxiv.org/abs/2307.14853v1 )

ライセンス: Link先を確認
Pranav Chandarana, Koushik Paul, Mikel Garcia-de-Andoin, Yue Ban, Mikel Sanz, Xi Chen(参考訳) 本稿では,フォトニック量子コンピューティングのためのハイブリッド量子古典近似最適化アルゴリズムを提案する。 逆ダイアバティックプロトコルにインスパイアされたアルゴリズムは、アダイアバティックプロトコルと比較して最適化に必要な量子演算を大幅に削減する。 この削減により、量子コンピューティングの短期的時代において、非凸連続最適化と可算無限整数計画に対処できる。 包括的ベンチマークにより,本手法は,収束性と実装性の観点から,既存の最先端ハイブリッド型断熱量子アルゴリズムよりも優れていることを実証する。 驚くべきことに、このアルゴリズムは実用的な実験的な実現を提供し、高次演算の必要性を回避し、実験的な制約を克服する。 8モードナノフォトニック量子チップの原理実証実験を行い,アルゴリズムの有効性と潜在的影響を実証した。

We propose a hybrid quantum-classical approximate optimization algorithm for photonic quantum computing, specifically tailored for addressing continuous-variable optimization problems. Inspired by counterdiabatic protocols, our algorithm significantly reduces the required quantum operations for optimization as compared to adiabatic protocols. This reduction enables us to tackle non-convex continuous optimization and countably infinite integer programming within the near-term era of quantum computing. Through comprehensive benchmarking, we demonstrate that our approach outperforms existing state-of-the-art hybrid adiabatic quantum algorithms in terms of convergence and implementability. Remarkably, our algorithm offers a practical and accessible experimental realization, bypassing the need for high-order operations and overcoming experimental constraints. We conduct proof-of-principle experiments on an eight-mode nanophotonic quantum chip, successfully showcasing the feasibility and potential impact of the algorithm.
翻訳日:2023-07-28 14:32:45 公開日:2023-07-27
# arcgpt: 実世界のアーカイブアプリケーション用にカスタマイズされた大規模言語モデル

ArcGPT: A Large Language Model Tailored for Real-world Archival Applications ( http://arxiv.org/abs/2307.14852v1 )

ライセンス: Link先を確認
Shitou Zhang, Jingrui Hou, Siyuan Peng, Zuchao Li, Qibiao Hu, Ping Wang(参考訳) アーカイブは情報と知識の保存において重要な役割を担い、そのようなデータの指数関数的な成長は、アーカイブ情報資源の管理と活用のために効率的で自動化されたツールを必要とする。 アーカイブアプリケーションは、処理と分析が困難な大量のデータを管理する。 LLMは様々な領域で顕著な進歩を遂げているが、LLMに合わせた公開アーカイブは存在しない。 このギャップに対処し、arcgptを私たちの知識に導入し、arcgptフィールドに合わせた最初の汎用llmを紹介します。 実世界のアーキバルタスクにおけるモデル性能を向上させるため、ArcGPTは大規模で広範なアーキバルドメインデータに基づいて事前訓練されている。 ArcGPTと並行して,実世界の4つのアーカイブタスクからなるベンチマークであるAMBLEをリリースする。 AMBLEの評価は、ArcGPTが既存の最先端モデルより優れており、効果的なアーカイブデータ管理における大きな進歩であることを示している。 最終的にarcgptは、アーカイブコミュニティによりよいサービスを提供し、アーキビストが集合的な情報と知識を保存し活用する重要な役割を担っている。

Archives play a crucial role in preserving information and knowledge, and the exponential growth of such data necessitates efficient and automated tools for managing and utilizing archive information resources. Archival applications involve managing massive data that are challenging to process and analyze. Although LLMs have made remarkable progress in diverse domains, there are no publicly available archives tailored LLM. Addressing this gap, we introduce ArcGPT, to our knowledge, the first general-purpose LLM tailored to the archival field. To enhance model performance on real-world archival tasks, ArcGPT has been pre-trained on massive and extensive archival domain data. Alongside ArcGPT, we release AMBLE, a benchmark comprising four real-world archival tasks. Evaluation on AMBLE shows that ArcGPT outperforms existing state-of-the-art models, marking a substantial step forward in effective archival data management. Ultimately, ArcGPT aims to better serve the archival community, aiding archivists in their crucial role of preserving and harnessing our collective information and knowledge.
翻訳日:2023-07-28 14:32:31 公開日:2023-07-27
# トルコ語母語識別

Turkish Native Language Identification ( http://arxiv.org/abs/2307.14850v1 )

ライセンス: Link先を確認
Ahmet Yavuz Uluslu and Gerold Schneider(参考訳) 本稿では,トルコ語に対するNative Language Identification (NLI)の最初の応用について述べる。 NLIは、著者の最初の言語を様々な言語で分析することで予測する。 ほとんどのNLI研究は英語に重点を置いているが、トルコ語にまで範囲を広げている。 我々は,最近構築されたトルコ語学習者コーパスを用いて,3つの構文的特徴(CFG生成規則,助詞n-gram,関数語)とL2テキストの組み合わせを用いて,これらの課題の有効性を実証した。

In this paper, we present the first application of Native Language Identification (NLI) for the Turkish language. NLI involves predicting the writer's first language by analysing their writing in different languages. While most NLI research has focused on English, our study extends its scope to Turkish. We used the recently constructed Turkish Learner Corpus and employed a combination of three syntactic features (CFG production rules, part-of-speech n-grams and function words) with L2 texts to demonstrate their effectiveness in this task.
翻訳日:2023-07-28 14:32:13 公開日:2023-07-27
# 密度レンズによるグラフ分類の反事実的説明

Counterfactual Explanations for Graph Classification Through the Lenses of Density ( http://arxiv.org/abs/2307.14849v1 )

ライセンス: Link先を確認
Carlo Abrate, Giulia Preti, Francesco Bonchi(参考訳) カウンターファクトな例は、単純で理解可能なポストホックな説明を生み出す効果的なアプローチとして現れてきた。 グラフ分類の文脈において、以前の研究は、グラフの最も基本的な単位、すなわち既存の辺を取り除いたり、既存の辺を追加したりすることで、反事実的な説明を作ることに重点を置いてきた。 本稿では,このような説明言語がきめ細かすぎると仮定し,三角形を閉じる傾向,モチーフの存在,組織を密集したモジュールにすることなど,現実世界の複雑なネットワークの主な特徴に注意を向ける。 そこで我々は,グラフ分類器のインスタンスレベルの対実的説明を生成するための一般密度に基づく対実的検索フレームワークを定義した。 特に、この一般的なフレームワークの2つの特異なインスタンス化を示す: 三角形の開閉による反ファクトグラフの探索法と、最大傾きによって駆動される方法である。 また、ノードの特定の分類を含む高密度なサブストラクチャの他の概念を利用するために、一般手法をインスタンス化する方法についても論じる。 提案手法の有効性を7つの脳ネットワークデータセットで評価し, 広く利用されている指標に基づいて生成した反事実文を比較した。 その結果,多目的かつ解釈可能な反事実的説明法を定義するためには,密度のような意味的関係のある変化の単位を採用することが不可欠であることが確認された。

Counterfactual examples have emerged as an effective approach to produce simple and understandable post-hoc explanations. In the context of graph classification, previous work has focused on generating counterfactual explanations by manipulating the most elementary units of a graph, i.e., removing an existing edge, or adding a non-existing one. In this paper, we claim that such language of explanation might be too fine-grained, and turn our attention to some of the main characterizing features of real-world complex networks, such as the tendency to close triangles, the existence of recurring motifs, and the organization into dense modules. We thus define a general density-based counterfactual search framework to generate instance-level counterfactual explanations for graph classifiers, which can be instantiated with different notions of dense substructures. In particular, we show two specific instantiations of this general framework: a method that searches for counterfactual graphs by opening or closing triangles, and a method driven by maximal cliques. We also discuss how the general method can be instantiated to exploit any other notion of dense substructures, including, for instance, a given taxonomy of nodes. We evaluate the effectiveness of our approaches in 7 brain network datasets and compare the counterfactual statements generated according to several widely-used metrics. Results confirm that adopting a semantic-relevant unit of change like density is essential to define versatile and interpretable counterfactual explanation methods.
翻訳日:2023-07-28 14:32:05 公開日:2023-07-27
# フィードフォワードを用いた浅回路による状態形成

State preparation by shallow circuits using feed forward ( http://arxiv.org/abs/2307.14840v1 )

ライセンス: Link先を確認
Harry Buhrman, Marten Folkertsma, Bruno Loff, Niels M. P. Neumann(参考訳) フォールトトレラントな量子計算を実現するためには、まず1または2キュービットの量子ゲートを(可能ならば並列に)実行する4つのステップを繰り返す必要がある。 次に、qubitsのサブセット上でシンドロームを測定する。 第三に、(もしあれば)どのエラーが発生したかを決めるために、速い古典計算を実行する。 第4に,誤差に応じて補正ステップを適用する。 その後、手順は次のゲート列で繰り返される。 これら4つのステップが成功するためには、ゲートのエラーレートが一定のしきい値以下である必要がある。 残念ながら、現在の量子ハードウェアのエラー率はいまだに高すぎる。 一方、現在の量子ハードウェアプラットフォームは、これらの4つのステップを念頭に設計されている。 本研究では, フォールトトレラント計算を行なわずに, 1キュービットゲートと近傍2キュービットゲートを実行する, 短い, 一定の深さの量子回路を強化するために, この4ステップ方式を用いる。 そこで本研究では,局所交互量子古典計算(LAQCC)と呼ばれる計算モデルについて検討する。 このモデルでは、量子ビットは近接する隣り合う相互作用を許容するグリッドに配置され、量子回路は中間測定値と一定深さであり、古典的なコントローラはこれらの中間測定結果の対数深度計算を行い、将来の量子演算を制御する。 このモデルは、NISQ時代の量子アルゴリズムと完全なフォールトトレラント量子計算の間に自然に適合する。 LAQCC回路は、一定の深さの量子回路では達成できない長範囲の相互作用を生成できることを示す。 これらのゲートにより、任意の数の状態、w状態およびディッキン状態に対する一様重ね合わせのための3つの新しい状態準備プロトコルを作成する。

In order to achieve fault-tolerant quantum computation, we need to repeat the following sequence of four steps: First, perform 1 or 2 qubit quantum gates (in parallel if possible). Second, do a syndrome measurement on a subset of the qubits. Third, perform a fast classical computation to establish which errors have occurred (if any). Fourth, depending on the errors, we apply a correction step. Then the procedure repeats with the next sequence of gates. In order for these four steps to succeed, we need the error rate of the gates to be below a certain threshold. Unfortunately, the error rates of current quantum hardware are still too high. On the other hand, current quantum hardware platforms are designed with these four steps in mind. In this work we make use of this four-step scheme not to carry out fault-tolerant computations, but to enhance short, constant-depth, quantum circuits that perform 1 qubit gates and nearest-neighbor 2 qubit gates. To explore how this can be useful, we study a computational model which we call Local Alternating Quantum Classical Computations (LAQCC). In this model, qubits are placed in a grid allowing nearest neighbor interactions; the quantum circuits are of constant depth with intermediate measurements; a classical controller can perform log-depth computations on these intermediate measurement outcomes to control future quantum operations. This model fits naturally between quantum algorithms in the NISQ era and full fledged fault-tolerant quantum computation. We show that LAQCC circuits can create long-ranged interactions, which constant-depth quantum circuits cannot achieve, and use it to construct a range of useful multi-qubit gates. With these gates, we create three new state preparation protocols for a uniform superposition over an arbitrary number of states, W-states and Dicke states.
翻訳日:2023-07-28 14:31:41 公開日:2023-07-27
# 核化正規化流れ

Kernelised Normalising Flows ( http://arxiv.org/abs/2307.14839v1 )

ライセンス: Link先を確認
Eshant English, Matthias Kirchler, Christoph Lippert(参考訳) 正規化フローは、その可逆的アーキテクチャによって特徴づけられる生成モデルである。 しかし、可逆性の必要性は表現力に制約を課し、十分な結果を得るために多くのパラメータと革新的な設計が必要となる。 フローベースモデルは、主に表現的設計のためにニューラルネットベースの変換に依存しているが、代替変換法は注目されている。 本稿では,カーネルをフレームワークに統合した新しいカーネル正規化フローパラダイムであるFerumal Flowを紹介する。 その結果,カーネル化フローは,パラメータ効率を維持しつつ,ニューラルネットワークベースのフローと比較して,競合性や優れた結果が得られることがわかった。 カーネル化されたフローは、特に低データレシエーションにおいて優れており、スパースデータ可用性のあるアプリケーションで柔軟な非パラメトリック密度推定を可能にする。

Normalising Flows are generative models characterised by their invertible architecture. However, the requirement of invertibility imposes constraints on their expressiveness, necessitating a large number of parameters and innovative architectural designs to achieve satisfactory outcomes. Whilst flow-based models predominantly rely on neural-network-based transformations for expressive designs, alternative transformation methods have received limited attention. In this work, we present Ferumal flow, a novel kernelised normalising flow paradigm that integrates kernels into the framework. Our results demonstrate that a kernelised flow can yield competitive or superior results compared to neural network-based flows whilst maintaining parameter efficiency. Kernelised flows excel especially in the low-data regime, enabling flexible non-parametric density estimation in applications with sparse data availability.
翻訳日:2023-07-28 14:31:10 公開日:2023-07-27
# 病理画像分類のためのテキスト誘導基礎モデル適応

Text-guided Foundation Model Adaptation for Pathological Image Classification ( http://arxiv.org/abs/2307.14901v1 )

ライセンス: Link先を確認
Yunkun Zhang, Jin Gao, Mu Zhou, Xiaosong Wang, Yu Qiao, Shaoting Zhang, Dequan Wang(参考訳) 近年のコンピュータビジョンと自然言語処理の基礎モデルの増加は、多モード臨床データを利用して、強力な一般化性を持つ大規模モデルを訓練する視点を開きつつある。 しかし、病理画像データセットには、しばしば生物医学的なテキストアノテーションやエンリッチメントが欠けている。 データ効率のよい画像診断をバイオメディカルテキスト知識の使用から導くことは大きな関心事となる。 本稿では,病的画像分類を改善するために,画像とテキストの埋め込み(CITE)を接続することを提案する。 CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。 PatchGastric胃腫瘍画像データセットの広範な実験を通じて、CITEはトレーニングデータが少ない場合に、各種ベースラインと比較して先行的な性能を発揮することを示した。 CITEは、ドメイン内のテキスト知識を活用して、データ効率の良い病理画像分類を強化する洞察を提供する。 コードはhttps://github.com/Yunkun-Zhang/CITEで入手できる。

The recent surge of foundation models in computer vision and natural language processing opens up perspectives in utilizing multi-modal clinical data to train large models with strong generalizability. Yet pathological image datasets often lack biomedical text annotation and enrichment. Guiding data-efficient image diagnosis from the use of biomedical text knowledge becomes a substantial interest. In this paper, we propose to Connect Image and Text Embeddings (CITE) to enhance pathological image classification. CITE injects text insights gained from language models pre-trained with a broad range of biomedical texts, leading to adapt foundation models towards pathological image understanding. Through extensive experiments on the PatchGastric stomach tumor pathological image dataset, we demonstrate that CITE achieves leading performance compared with various baselines especially when training data is scarce. CITE offers insights into leveraging in-domain text knowledge to reinforce data-efficient pathological image classification. Code is available at https://github.com/Yunkun-Zhang/CITE.
翻訳日:2023-07-28 14:22:44 公開日:2023-07-27
# 検索型テキスト選択によるクラス不均衡データの分類

Retrieval-based Text Selection for Addressing Class-Imbalanced Data in Classification ( http://arxiv.org/abs/2307.14899v1 )

ライセンス: Link先を確認
Sareh Ahmadi, Aditya Shah, Edward Fox(参考訳) 本稿では,人的資源の制約によるアノテーションの数に制限がある場合に,検索手法を用いたテキスト分類におけるアノテーションの集合の選択の問題に対処する。 さらに対処される課題は、厳しいクラス不均衡を反映して、少数のポジティブなインスタンスを持つバイナリカテゴリを扱うことだ。 アノテーションが長期間にわたって発生する状況では、アノテーションを付加するテキストの選択はバッチで行うことができ、以前のアノテーションは次のセットの選択を導く。 これらの課題に対処するため, SHAPを用いてElasticsearchとセマンティック検索のための高品質なクエリセットを構築し, クラス不均衡に寄与するアノテーションのための最適なテキストセットを特定することを提案する。 このアプローチは、肥満と糖尿病の管理を支援する研究に携わる参加者によって構築された、将来の出来事を記述した一連の手がかりテキストに基づいてテストされる。 本稿では,アノテーションのためのテキストセットの選択と,高品質な分類器の構築に有効な方法を提案する。 ベクトル検索、セマンティック検索、機械学習分類器を統合して、優れたソリューションを実現します。 本実験は,二進分類におけるマイノリティクラスに対するF1スコアの改善を実証した。

This paper addresses the problem of selecting of a set of texts for annotation in text classification using retrieval methods when there are limits on the number of annotations due to constraints on human resources. An additional challenge addressed is dealing with binary categories that have a small number of positive instances, reflecting severe class imbalance. In our situation, where annotation occurs over a long time period, the selection of texts to be annotated can be made in batches, with previous annotations guiding the choice of the next set. To address these challenges, the paper proposes leveraging SHAP to construct a quality set of queries for Elasticsearch and semantic search, to try to identify optimal sets of texts for annotation that will help with class imbalance. The approach is tested on sets of cue texts describing possible future events, constructed by participants involved in studies aimed to help with the management of obesity and diabetes. We introduce an effective method for selecting a small set of texts for annotation and building high-quality classifiers. We integrate vector search, semantic search, and machine learning classifiers to yield a good solution. Our experiments demonstrate improved F1 scores for the minority classes in binary classification.
翻訳日:2023-07-28 14:22:28 公開日:2023-07-27
# 自己指導型学習の混合

Mixture of Self-Supervised Learning ( http://arxiv.org/abs/2307.14897v1 )

ライセンス: Link先を確認
Aristo Renaldo Ruslim, Novanto Yudistira, Budi Darma Setiawan(参考訳) 自己教師付き学習は、ラベルを使わずに画像の特徴を学習でき、教師付き学習で使用される限られたラベル付きデータセットを克服できるため、一般的な方法である。 自己教師付き学習は、特定のタスクに適用される前にモデルでトレーニングされるプリテキストタスクを使用することで機能する。 画像認識の分野における自己教師あり学習において、例えば回転予測、ジグソーパズルの解解、画像上の相対位置の予測などに用いられるプリテキストタスクの例がある。 以前の研究では、プリテキストタスクとして1つのタイプの変換しか使用していなかった。 これは、複数のプリテキストタスクが使用されるかどうか、そしてすべてのプリテキストタスクを結合するためにゲーティングネットワークを使用するかにどのように影響するかという疑問を提起する。 そこで本研究では,複数の変換をプリテキストタスクとして用いた画像分類を改良するGated Self-Supervised Learning法を提案し,各プリテキストタスクを組み合わせる際に,Mixture of Expertアーキテクチャをゲーティングネットワークとして使用することにより,モデルが自動的に学習し,より有用な分類拡張に集中できるようにする。 提案手法の性能は,CIFARの不均衡データセット分類,逆摂動,Tiny-Imagenetデータセット分類,半教師付き学習など,いくつかのシナリオで検証する。 さらに,画像分類に影響を及ぼす重要な特徴を識別し,各クラスのデータを適切に分離する手法として,Grad-CAMおよびT-SNE分析がある。 私たちのコードはhttps://github.com/aristorenaldo/G-SSLにあります

Self-supervised learning is popular method because of its ability to learn features in images without using its labels and is able to overcome limited labeled datasets used in supervised learning. Self-supervised learning works by using a pretext task which will be trained on the model before being applied to a specific task. There are some examples of pretext tasks used in self-supervised learning in the field of image recognition, namely rotation prediction, solving jigsaw puzzles, and predicting relative positions on image. Previous studies have only used one type of transformation as a pretext task. This raises the question of how it affects if more than one pretext task is used and to use a gating network to combine all pretext tasks. Therefore, we propose the Gated Self-Supervised Learning method to improve image classification which use more than one transformation as pretext task and uses the Mixture of Expert architecture as a gating network in combining each pretext task so that the model automatically can study and focus more on the most useful augmentations for classification. We test performance of the proposed method in several scenarios, namely CIFAR imbalance dataset classification, adversarial perturbations, Tiny-Imagenet dataset classification, and semi-supervised learning. Moreover, there are Grad-CAM and T-SNE analysis that are used to see the proposed method for identifying important features that influence image classification and representing data for each class and separating different classes properly. Our code is in https://github.com/aristorenaldo/G-SSL
翻訳日:2023-07-28 14:22:09 公開日:2023-07-27
# W$ボソン対生成におけるベル不等式試験のための新しい観測器

New observables for testing Bell inequalities in $W$ boson pair production ( http://arxiv.org/abs/2307.14895v1 )

ライセンス: Link先を確認
Qi Bi, Qing-Hong Cao, Kun Cheng, Hao Zhang(参考訳) W^\pm$ペア系のベル不等式を角相関で測定すると, ディレプトン崩壊モードの運動的再構成のあいまいさに悩まされることがわかった。 さらに,$w^\pm$ 対系のベル不等式を初めてテストするための現実的な可観測性を提供するため,w$ ボソンの線形偏極の測定に基づくベル観測器の新たなセットを提案する。

We show that testing Bell inequalities in $W^\pm$ pair systems by measuring their angular correlation suffers from the ambiguity in kinetical reconstruction of the di-lepton decay mode. We further propose a new set of Bell observables based on the measurement of the linear polarization of the $W$ bosons, providing a realistic observable to test Bell inequalities in $W^\pm$ pair systems for the first time.
翻訳日:2023-07-28 14:21:41 公開日:2023-07-27
# マルチエージェントのみを信頼するベースベースモデルチェック(ロングバージョン)

Base-based Model Checking for Multi-Agent Only Believing (long version) ( http://arxiv.org/abs/2307.14893v1 )

ライセンス: Link先を確認
Tiago de Lima, Emiliano Lorini and Fran\c{c}ois Schwarzentruber(参考訳) 本稿では,信仰基盤の活用を前提としたマルチエージェント言語に関する新しいセマンティクスを提案し,この言語の公式と,その動的拡張を私的信念拡張演算子で自動的にチェックする方法を示す。 本稿では,QBFの削減に依存するモデル検査のためのPSPACEアルゴリズムと,状態空間の探索に依存する専用アルゴリズムを提案する。 本稿では,QBFに基づくアルゴリズムの実装と実例による計算時間に関する実験結果について述べる。

We present a novel semantics for the language of multi-agent only believing exploiting belief bases, and show how to use it for automatically checking formulas of this language and of its dynamic extension with private belief expansion operators. We provide a PSPACE algorithm for model checking relying on a reduction to QBF and alternative dedicated algorithm relying on the exploration of the state space. We present an implementation of the QBF-based algorithm and some experimental results on computation time in a concrete example.
翻訳日:2023-07-28 14:21:32 公開日:2023-07-27
# 高周波駆動と非マルコフ性に基づく極小量子ヒートポンプ

A minimal quantum heat pump based on high-frequency driving and non-Markovianity ( http://arxiv.org/abs/2307.14892v1 )

ライセンス: Link先を確認
Manuel L. Alamo, Francesco Petiziol, Andr\'e Eckardt(参考訳) 2つのトンネル結合型量子ドットからなる量子ヒートポンプの最小構成を提案し、それぞれが単一レベルをホストし、それぞれが異なるフェルミオン貯水池に結合する。 動作原理は非マルコフ系-バス結合と誘導共振結合の両方に依存している。 本稿では,Floquet-Born-Markov理論と組み合わせた反応座標写像を用いて,その性能を特徴付ける。

We propose a minimal setup for a quantum heat pump, consisting of two tunnel-coupled quantum dots, each hosting a single level and each being coupled to a different fermionic reservoir. The working principle relies on both non-Markovian system-bath coupling and driving induced resonant coupling. We describe the system using a reaction-coordinate mapping in combination with Floquet-Born-Markov theory and characterize its performance.
翻訳日:2023-07-28 14:21:24 公開日:2023-07-27
# 自律運転のための多モード3次元人体姿勢推定法

Weakly Supervised Multi-Modal 3D Human Body Pose Estimation for Autonomous Driving ( http://arxiv.org/abs/2307.14889v1 )

ライセンス: Link先を確認
Peter Bauer, Arij Bouazizi, Ulrich Kressel, Fabian B. Flohr(参考訳) 正確な3次元ポーズ推定(3D HPE)は、自動運転車(AV)が決定を下し、重要な道路シナリオで積極的に対応できるようにするために不可欠である。 人-コンピュータインタラクション、ロボティクス、スポーツ、医療分析など、よく制御された実験室環境で収集されたデータに基づいて、3D HPEの結果が得られた。 それでも、正確な3Dポーズアノテーションを得ることによる課題と、他のドメインからのデータの適合性の制限により、3D HPEメソッドのAVへの転送は研究の注目を集めている。 カメラとLiDARデータを高レベルなセンサーで融合させることにより,AV環境での3次元HPEの簡易かつ効率的な制御手法を提案する。 この弱い教師付き設定は、2d/3dキーポイントラベルを用いずに、lidarから生成された擬似ラベルと画像投影を用いてターゲットデータセットのトレーニングを可能にする。 当社の手法は, Waymo Open Datasetにおいて, 弱教師付き設定で最大13%$\sim$13%の最先端結果より優れ, 教師付き設定で最先端結果を達成する。

Accurate 3D human pose estimation (3D HPE) is crucial for enabling autonomous vehicles (AVs) to make informed decisions and respond proactively in critical road scenarios. Promising results of 3D HPE have been gained in several domains such as human-computer interaction, robotics, sports and medical analytics, often based on data collected in well-controlled laboratory environments. Nevertheless, the transfer of 3D HPE methods to AVs has received limited research attention, due to the challenges posed by obtaining accurate 3D pose annotations and the limited suitability of data from other domains. We present a simple yet efficient weakly supervised approach for 3D HPE in the AV context by employing a high-level sensor fusion between camera and LiDAR data. The weakly supervised setting enables training on the target datasets without any 2D/3D keypoint labels by using an off-the-shelf 2D joint extractor and pseudo labels generated from LiDAR to image projections. Our approach outperforms state-of-the-art results by up to $\sim$ 13% on the Waymo Open Dataset in the weakly supervised setting and achieves state-of-the-art results in the supervised setting.
翻訳日:2023-07-28 14:21:16 公開日:2023-07-27
# MESED: きめ細かいセマンティッククラスとハード負のエンティティを備えたマルチモーダルエンティティセット拡張データセット

MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities ( http://arxiv.org/abs/2307.14878v1 )

ライセンス: Link先を確認
Yangning Li, Tingwei Lu, Yinghui Li, Tianyu Yu, Shulin Huang, Hai-Tao Zheng, Rui Zhang, Jun Yuan(参考訳) Entity Set Expansion (ESE)タスクは、いくつかのシードエンティティを同じセマンティッククラスに属する新しいエンティティで拡張することを目的としている。 従来のESE法はモノモダリティ(すなわちリテラルモダリティ)に基づいており、これは(1)細かな意味的差異を持つ負の実体のような現実世界の複雑な実体を扱うのに苦労する。 (2) 匿名エンティティ。 (3)多面体。 (4)ロングテールエンティティ。 これらの課題は、モデルが複数のモーダルから情報を統合してエンティティを表現するマルチモーダルエンティティセット拡張(MESE)を提案することを促す。 直観的には、ese に対するマルチモーダル情報の利点は3つある:(1)異なるモーダル性は補完的な情報を提供できる。 (2) マルチモーダル情報は、同じ意味クラスまたはエンティティの共通の視覚特性を介して統一された信号を提供する。 (3)マルチモーダル情報は同義語のためのロバストなアライメント信号を提供する。 MESEにおけるモデルの性能を評価し,さらなる研究を促進するために,大規模かつ精巧な手動キャリブレーションを備えたEMSのための最初のマルチモーダルデータセットであるMESEDデータセットを構築した。 4つのマルチモーダル事前学習タスクで事前学習される強力なマルチモーダルモデルマルチエクスパンを提案する。 MESEDに関する広範な実験と分析は、データセットの品質とMultiExpanの有効性を示し、今後の研究の方向性を示している。

The Entity Set Expansion (ESE) task aims to expand a handful of seed entities with new entities belonging to the same semantic class. Conventional ESE methods are based on mono-modality (i.e., literal modality), which struggle to deal with complex entities in the real world such as: (1) Negative entities with fine-grained semantic differences. (2) Synonymous entities. (3) Polysemous entities. (4) Long-tailed entities. These challenges prompt us to propose Multi-modal Entity Set Expansion (MESE), where models integrate information from multiple modalities to represent entities. Intuitively, the benefits of multi-modal information for ESE are threefold: (1) Different modalities can provide complementary information. (2) Multi-modal information provides a unified signal via common visual properties for the same semantic class or entity. (3) Multi-modal information offers robust alignment signal for synonymous entities. To assess the performance of model in MESE and facilitate further research, we constructed the MESED dataset which is the first multi-modal dataset for ESE with large-scale and elaborate manual calibration. A powerful multi-modal model MultiExpan is proposed which is pre-trained on four multimodal pre-training tasks. The extensive experiments and analyses on MESED demonstrate the high quality of the dataset and the effectiveness of our MultiExpan, as well as pointing the direction for future research.
翻訳日:2023-07-28 14:20:53 公開日:2023-07-27
# フレームの特徴復元による効果的な行動認識

Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration ( http://arxiv.org/abs/2307.14866v1 )

ライセンス: Link先を確認
Harry Cheng and Yangyang Guo and Liqiang Nie and Zhiyong Cheng and Mohan Kankanhalli(参考訳) 効果的なビデオアクション認識モデルのトレーニングは、特に限られたリソース予算の下で、重要な計算上の課題をもたらす。 現在の手法は主にモデルのサイズを減らすか、事前訓練されたモデルを利用するか、様々なバックボーンアーキテクチャへの適応性を制限することを目的としている。 本稿は,多くのアプローチで広く用いられているオーバーサンプリングフレームの問題について検討するが,あまり注目されていない。 潜在的な解決策としてフレームが少ないにもかかわらず、このアプローチはしばしばパフォーマンスが大幅に低下する。 この問題に対処するために,2つのスパースサンプリングおよび隣接するビデオフレームの中間機能を復元する新しい手法を提案する。 この特徴回復技術は、ViTのようなリソース集約型画像エンコーダと比較して、計算要求の無視的な増加をもたらす。 提案手法の有効性を評価するため,Kinetics-400,ActivityNet,UCF-101,HMDB-51の4つの公開データセットについて広範な実験を行った。 提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。 さらに,本手法は,ゼロショット設定下でのモデルの一般化能力の向上にも有効である。

Training an effective video action recognition model poses significant computational challenges, particularly under limited resource budgets. Current methods primarily aim to either reduce model size or utilize pre-trained models, limiting their adaptability to various backbone architectures. This paper investigates the issue of over-sampled frames, a prevalent problem in many approaches yet it has received relatively little attention. Despite the use of fewer frames being a potential solution, this approach often results in a substantial decline in performance. To address this issue, we propose a novel method to restore the intermediate features for two sparsely sampled and adjacent video frames. This feature restoration technique brings a negligible increase in computational requirements compared to resource-intensive image encoders, such as ViT. To evaluate the effectiveness of our method, we conduct extensive experiments on four public datasets, including Kinetics-400, ActivityNet, UCF-101, and HMDB-51. With the integration of our method, the efficiency of three commonly used baselines has been improved by over 50%, with a mere 0.5% reduction in recognition accuracy. In addition, our method also surprisingly helps improve the generalization ability of the models under zero-shot settings.
翻訳日:2023-07-28 14:20:26 公開日:2023-07-27
# sentinel-2画像融合のためのフルレゾリューショントレーニングフレームワーク

A full-resolution training framework for Sentinel-2 image fusion ( http://arxiv.org/abs/2307.14864v1 )

ライセンス: Link先を確認
Matteo Ciotola, Mario Ragosta, Giovanni Poggi, Giuseppe Scarpa(参考訳) 本研究は、10m帯と20m帯の融合によるsentinel-2画像の超解像のためのディープラーニングモデルを訓練するための新しい教師なしフレームワークを提案する。 提案手法は,教師付き事例におけるトレーニングデータ生成に必要な分解能低下プロセスを回避する。 一方,ネットワーク予測と入力コンポーネントの融合のサイクル一貫性を考慮に入れた適切な損失が提案されている。 その教師なしの性質にもかかわらず,予備実験では,提案手法が教師なしアプローチと比較して有望な結果を示している。 さらに、提案する損失の構成により、得られた訓練されたネットワークは、マルチレゾリューション分析手法のクラスに分類できる。

This work presents a new unsupervised framework for training deep learning models for super-resolution of Sentinel-2 images by fusion of its 10-m and 20-m bands. The proposed scheme avoids the resolution downgrade process needed to generate training data in the supervised case. On the other hand, a proper loss that accounts for cycle-consistency between the network prediction and the input components to be fused is proposed. Despite its unsupervised nature, in our preliminary experiments the proposed scheme has shown promising results in comparison to the supervised approach. Besides, by construction of the proposed loss, the resulting trained network can be ascribed to the class of multi-resolution analysis methods.
翻訳日:2023-07-28 14:20:05 公開日:2023-07-27
# Wave Matrix Lindbladization I: Markovian Dynamics シミュレーションのための量子プログラム

Wave Matrix Lindbladization I: Quantum Programs for Simulating Markovian Dynamics ( http://arxiv.org/abs/2307.14932v1 )

ライセンス: Link先を確認
Dhrumil Patel and Mark M. Wilde(参考訳) 密度行列指数(英: density Matrix Exponentiation)は、ハミルトニアンが量子状態として利用できるとき、ハミルトニアン力学をシミュレートする技法である。 本稿では,よく知られたlindblad master方程式によって制御されるマルコフ力学をシミュレートする手法の自然な例を示す。 この目的のために、まずlindblad演算子$l$を量子状態$\psi$にエンコードする入力モデルを提案する。 次に、状態$\psi$の$n$コピーにアクセスすると、そのタスクは、時間$t$に対して対応するMarkovianのダイナミクスをシミュレートする。 そこで本研究では,波行列リンドブレード化と呼ばれる量子アルゴリズムを提案し,そのサンプル複雑性について検討する。 このアルゴリズムは、目標ダイナミクスを達成するために$n = o(t^2/\varepsilon)$サンプルを使用しており、近似誤差は$o(\varepsilon)$である。

Density Matrix Exponentiation is a technique for simulating Hamiltonian dynamics when the Hamiltonian to be simulated is available as a quantum state. In this paper, we present a natural analogue to this technique, for simulating Markovian dynamics governed by the well known Lindblad master equation. For this purpose, we first propose an input model in which a Lindblad operator $L$ is encoded into a quantum state $\psi$. Then, given access to $n$ copies of the state $\psi$, the task is to simulate the corresponding Markovian dynamics for time $t$. We propose a quantum algorithm for this task, called Wave Matrix Lindbladization, and we also investigate its sample complexity. We show that our algorithm uses $n = O(t^2/\varepsilon)$ samples of $\psi$ to achieve the target dynamics, with an approximation error of $O(\varepsilon)$.
翻訳日:2023-07-28 14:14:37 公開日:2023-07-27
# グラフに基づくポリフォニック・マルチトラック音楽生成

Graph-based Polyphonic Multitrack Music Generation ( http://arxiv.org/abs/2307.14928v1 )

ライセンス: Link先を確認
Emanuele Cosenza, Andrea Valenti, Davide Bacciu(参考訳) グラフは多声多トラックのシンボリック音楽のモデル化に利用することができ、音符、和音、セクション全体は音調とリズムの関係によって音楽階層の異なるレベルでリンクされる。 それにもかかわらず、音楽生成のための深層学習システムの文脈におけるグラフ表現を考慮した作品が不足している。 本稿では,音楽に新たなグラフ表現を導入し,音楽の構造的前提に適合する階層的アーキテクチャを用いて,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを導入することにより,このギャップを埋める。 グラフの構造と内容を切り離すことで、特定の時間にどの楽器が演奏されるかを指定することにより、生成を条件付けることができる。 これは、音楽の共創という文脈において、人間とコンピュータの相互作用の新しい形態への扉を開く。 既存のmidiデータセット上でモデルをトレーニングした後、実験により、このモデルが魅力的な短い長い音楽シーケンスを生成でき、その間を現実的に補間でき、トーナルでリズム的に一貫性のある音楽を生成できることが示されている。 最後に、埋め込みの可視化により、モデルが既知の音楽概念に従って潜在空間を整理できることが示される。

Graphs can be leveraged to model polyphonic multitrack symbolic music, where notes, chords and entire sections may be linked at different levels of the musical hierarchy by tonal and rhythmic relationships. Nonetheless, there is a lack of works that consider graph representations in the context of deep learning systems for music generation. This paper bridges this gap by introducing a novel graph representation for music and a deep Variational Autoencoder that generates the structure and the content of musical graphs separately, one after the other, with a hierarchical architecture that matches the structural priors of music. By separating the structure and content of musical graphs, it is possible to condition generation by specifying which instruments are played at certain times. This opens the door to a new form of human-computer interaction in the context of music co-creation. After training the model on existing MIDI datasets, the experiments show that the model is able to generate appealing short and long musical sequences and to realistically interpolate between them, producing music that is tonally and rhythmically consistent. Finally, the visualization of the embeddings shows that the model is able to organize its latent space in accordance with known musical concepts.
翻訳日:2023-07-28 14:14:16 公開日:2023-07-27
# 2つのHPCシステムにおける材料セグメンテーションのためのディープラーニングモデルのベンチマーク性能

Benchmarking Performance of Deep Learning Model for Material Segmentation on Two HPC Systems ( http://arxiv.org/abs/2307.14921v1 )

ライセンス: Link先を確認
Warren R. Williams, S. Ross Glandon, Luke L. Morris, Jing-Ru C. Cheng(参考訳) HPCシステムのパフォーマンスベンチマークは、パフォーマンスの向上と、これらのシステムを管理するジョブスケジューラの改善を可能にする情報の提供を目的としている。 我々は,機械学習モデルを利用したベンチマークツールを開発し,材料セグメンテーション解析を行う間,GPUアクセラレーションノードのパフォーマンスデータを収集する。 このベンチマークでは、MMdnnツールキットとMINC-2500データセットを使用して、CaffeからPyTorchに変換されたMLモデルを使用している。 パフォーマンスデータは2つのERDC DSRCシステム、OnyxとVulcaniteで収集される。 このデータによると、vulcaniteは多数のベンチマークでモデルタイムが速いが、onyxよりもパフォーマンスを遅くする可能性のあるいくつかの環境要因の影響を受けやすい。 対照的に、onyxのモデル時間はベンチマーク間で一貫しています。

Performance Benchmarking of HPC systems is an ongoing effort that seeks to provide information that will allow for increased performance and improve the job schedulers that manage these systems. We develop a benchmarking tool that utilizes machine learning models and gathers performance data on GPU-accelerated nodes while they perform material segmentation analysis. The benchmark uses a ML model that has been converted from Caffe to PyTorch using the MMdnn toolkit and the MINC-2500 dataset. Performance data is gathered on two ERDC DSRC systems, Onyx and Vulcanite. The data reveals that while Vulcanite has faster model times in a large number of benchmarks, and it is also more subject to some environmental factors that can cause performances slower than Onyx. In contrast the model times from Onyx are consistent across benchmarks.
翻訳日:2023-07-28 14:13:57 公開日:2023-07-27
# GET3D--制約のないイメージコレクションからGET3Dを学習する

GET3D--: Learning GET3D from Unconstrained Image Collections ( http://arxiv.org/abs/2307.14918v1 )

ライセンス: Link先を確認
Fanghua Yu, Xintao Wang, Zheyuan Li, Yan-Pei Cao, Ying Shan and Chao Dong(参考訳) 効率的な3dモデル生成技術に対する需要は指数関数的に増大しており、手作業による3dモデルの作成は時間がかかり、専門的な専門知識を必要とする。 生成モデルは2d画像から3dテクスチャ形状を作成する可能性を示したが、現実のシナリオでよく定義されたカメラ分布がないため、3d産業での適用性は限られており、その結果低品質の形状となる。 この制限を克服するため,2次元画像から直接テクスチャ化された3次元形状を生成する最初の方法であるGET3D--を提案する。GET3D--は,カメラ上の6次元外部変化をキャプチャする3次元形状生成器と学習可能なカメラサンプリング器を備える。 さらに,形状生成器とカメラサンプラーを統一したフレームワークで安定して最適化する新しいトレーニングスケジュールを提案する。 学習可能なカメラサンプラーを用いて外部のバリエーションを制御することにより, 明快なテクスチャでアライメント形状を生成できる。 広範囲な実験により、get3d--は6dカメラのポーズ分布に正確に適合し、合成データとリアルデータの両方で高品質な形状を生成する。

The demand for efficient 3D model generation techniques has grown exponentially, as manual creation of 3D models is time-consuming and requires specialized expertise. While generative models have shown potential in creating 3D textured shapes from 2D images, their applicability in 3D industries is limited due to the lack of a well-defined camera distribution in real-world scenarios, resulting in low-quality shapes. To overcome this limitation, we propose GET3D--, the first method that directly generates textured 3D shapes from 2D images with unknown pose and scale. GET3D-- comprises a 3D shape generator and a learnable camera sampler that captures the 6D external changes on the camera. In addition, We propose a novel training schedule to stably optimize both the shape generator and camera sampler in a unified framework. By controlling external variations using the learnable camera sampler, our method can generate aligned shapes with clear textures. Extensive experiments demonstrate the efficacy of GET3D--, which precisely fits the 6D camera pose distribution and generates high-quality shapes on both synthetic and realistic unconstrained datasets.
翻訳日:2023-07-28 14:13:44 公開日:2023-07-27
# NSA: ネットワーク信頼を高める自然主義的支援文書

NSA: Naturalistic Support Artifact to Boost Network Confidence ( http://arxiv.org/abs/2307.14917v1 )

ライセンス: Link先を確認
Abhijith Sharma, Phil Munz, Apurva Narayan(参考訳) ビジュアルAIシステムは、現実世界の自然および合成物理的腐敗に対して脆弱である。 このような汚職はしばしば予期せず発生し、モデルの性能を変化させる。 近年、主に敵の攻撃に焦点が当てられている。 しかし、自然の腐敗(例えば、雪、霧、ほこり)は視覚AIシステムに対する全知的な脅威であり、同様に重要視されるべきである。 多くの既存の研究は、自然腐敗に対する堅牢なモデルを訓練するための興味深い解決策を提案している。 これらの作業は、追加のモデルトレーニングコストを伴う画像強化を活用するか、あるいは不審なパッチを現場に配置して非逆例を設計する。 本研究では,頑健な予測のための自然主義支援人工物(NSA)の構想を提案する。 NSAは、モデルパラメータがアクセス不能で、シーンにアーティファクトを追加することが不可能なシナリオで有効であることが示されている。 NSAは、DC-GANを用いたアーティファクトトレーニングによって生成された自然なオブジェクトであり、現場での視覚的忠実度が高い。 我々は、Imagenetteデータセット上の自然汚職に対してテストを行い、予測信頼度を4倍に改善した。 また、NSAが敵の精度を平均8倍に向上する能力を示す。 最後に、我々はNSAの正当性マップを用いて質的に分析し、予測信頼性を向上させる方法を理解する。

Visual AI systems are vulnerable to natural and synthetic physical corruption in the real-world. Such corruption often arises unexpectedly and alters the model's performance. In recent years, the primary focus has been on adversarial attacks. However, natural corruptions (e.g., snow, fog, dust) are an omnipresent threat to visual AI systems and should be considered equally important. Many existing works propose interesting solutions to train robust models against natural corruption. These works either leverage image augmentations, which come with the additional cost of model training, or place suspicious patches in the scene to design unadversarial examples. In this work, we propose the idea of naturalistic support artifacts (NSA) for robust prediction. The NSAs are shown to be beneficial in scenarios where model parameters are inaccessible and adding artifacts in the scene is feasible. The NSAs are natural looking objects generated through artifact training using DC-GAN to have high visual fidelity in the scene. We test against natural corruptions on the Imagenette dataset and observe the improvement in prediction confidence score by four times. We also demonstrate NSA's capability to increase adversarial accuracy by 8\% on average. Lastly, we qualitatively analyze NSAs using saliency maps to understand how they help improve prediction confidence.
翻訳日:2023-07-28 14:13:21 公開日:2023-07-27
# PAN 2023におけるARC-NLP: 書き起こしスタイル検出のための遷移焦点自然言語推論

ARC-NLP at PAN 2023: Transition-Focused Natural Language Inference for Writing Style Detection ( http://arxiv.org/abs/2307.14913v1 )

ライセンス: Link先を確認
Izzet Emre Kucukkaya, Umitcan Sahin, Cagri Toraman(参考訳) マルチライティングスタイル検出のタスクは、所定のテキスト文書におけるライティングスタイル変更の任意の位置を見つけることを目的としている。 2つの連続する段落がペアリングされる自然言語推論問題としてタスクを定式化する。 提案手法は,タスクの入力トークンを切断しながら,段落間の遷移に焦点を当てる。 バックボーンモデルとして、トレーニング中にウォームアップフェーズの異なるTransformerベースのエンコーダを使用します。 実験では、ベースラインや他の提案モデルバージョンを上回るモデルバージョンを提出します。 容易かつ中程度の設定では,DeBERTaとウォームアップトレーニングを併用したトランジッション中心の自然言語推論と,ハードセットアップのためのトランジッションなしのモデルを提出する。

The task of multi-author writing style detection aims at finding any positions of writing style change in a given text document. We formulate the task as a natural language inference problem where two consecutive paragraphs are paired. Our approach focuses on transitions between paragraphs while truncating input tokens for the task. As backbone models, we employ different Transformer-based encoders with warmup phase during training. We submit the model version that outperforms baselines and other proposed model versions in our experiments. For the easy and medium setups, we submit transition-focused natural language inference based on DeBERTa with warmup training, and the same model without transition for the hard setup.
翻訳日:2023-07-28 14:13:03 公開日:2023-07-27
# PAN 2023におけるARC-NLP: トリガー検出のための階層的長文分類

ARC-NLP at PAN 2023: Hierarchical Long Text Classification for Trigger Detection ( http://arxiv.org/abs/2307.14912v1 )

ライセンス: Link先を確認
Umitcan Sahin, Izzet Emre Kucukkaya, Cagri Toraman(参考訳) fanfictionは、確立された架空の宇宙の中で人気のある創造的な文章セットであり、オンライン上でかなりの支持を得ている。 しかし, このコミュニティでは, 参加者の幸福と安全の確保が重要な課題となっている。 読者に感情的な苦痛やトラウマを引き起こす可能性のある素材であるトリガーコンテンツの検出は、大きな課題となる。 本稿では,PAN CLEF 2023におけるトリガー検出共有タスクに対するアプローチについて述べる。 そこで我々は,Transformerベースの言語モデル上での繰り返しを用いた階層モデルを構築した。 提案手法では,まず,長い文書を小さなセグメントに分割し,トランスフォーマーモデルを微調整する。 次に,複数のLSTMモデルの入力として,複数ラベル設定でのトリガ検出に使用される微調整トランスフォーマーモデルから特徴埋め込みを抽出する。 本モデルでは, PAN CLEF 2023で共有される基準値よりも高いF1マクロスコア0.372, F1マイクロスコア0.736を達成する。

Fanfiction, a popular form of creative writing set within established fictional universes, has gained a substantial online following. However, ensuring the well-being and safety of participants has become a critical concern in this community. The detection of triggering content, material that may cause emotional distress or trauma to readers, poses a significant challenge. In this paper, we describe our approach for the Trigger Detection shared task at PAN CLEF 2023, where we want to detect multiple triggering content in a given Fanfiction document. For this, we build a hierarchical model that uses recurrence over Transformer-based language models. In our approach, we first split long documents into smaller sized segments and use them to fine-tune a Transformer model. Then, we extract feature embeddings from the fine-tuned Transformer model, which are used as input in the training of multiple LSTM models for trigger detection in a multi-label setting. Our model achieves an F1-macro score of 0.372 and F1-micro score of 0.736 on the validation set, which are higher than the baseline results shared at PAN CLEF 2023.
翻訳日:2023-07-28 14:12:50 公開日:2023-07-27
# 3次元病理標本の効率的な分析のための弱修正AI

Weakly Supervised AI for Efficient Analysis of 3D Pathology Samples ( http://arxiv.org/abs/2307.14907v1 )

ライセンス: Link先を確認
Andrew H. Song, Mane Williams, Drew F.K. Williamson, Guillaume Jaume, Andrew Zhang, Bowen Chen, Robert Serafin, Jonathan T.C. Liu, Alex Baras, Anil V. Parwani, Faisal Mahmood(参考訳) ヒト組織とその構成細胞は、基本的に3次元の微小環境を形成する。 しかし、病理診断の標準化には、顕微鏡的評価のための2次元(2次元)セクションの選択、サンプリングバイアスと誤診のリスクが伴う。 このような大規模な3dデータの手作業と計算による評価は、これまでのところ非実用的で、あるいは患者レベルの臨床的洞察を提供することができない。 本稿では,様々な画像モダリティから3次元組織像を処理し,患者の予後を予測するディープラーニングプラットフォームである,ボリュームブロック解析(MAMBA)のためのModality-Agnostic Multiple Case Learningを提案する。 アーカイブされた前立腺癌標本を光線顕微鏡またはマイクロコンピュータ断層撮影で撮影し,得られた3dデータセットを用いてmambaによる5年間の生化学的再発成績に基づいてリスク階層化ネットワークを訓練した。 3dブロックベースアプローチにより、mambaは、受信者の動作特性曲線 (auc) の下の領域を 0.86 と 0.74 で達成し、従来の2dシングルスライスベースの予後予測 (auc 0.79 と 0.57) よりも優れている。 さらに, 組織体積が大きくなることで予後が向上し, サンプリングバイアスによるリスク予測のばらつきが軽減され, 異種3次元形態の広さを捉える価値が示唆された。 研究者や臨床医による3D空間生物学と病理学の急速な発展と導入により、MAMBAは臨床決定支援のための3D弱教師付き学習のための汎用的で効率的なフレームワークを提供し、予後と治療反応のための新しい3D形態学的バイオマーカーを明らかにするのに役立つ。

Human tissue and its constituent cells form a microenvironment that is fundamentally three-dimensional (3D). However, the standard-of-care in pathologic diagnosis involves selecting a few two-dimensional (2D) sections for microscopic evaluation, risking sampling bias and misdiagnosis. Diverse methods for capturing 3D tissue morphologies have been developed, but they have yet had little translation to clinical practice; manual and computational evaluations of such large 3D data have so far been impractical and/or unable to provide patient-level clinical insights. Here we present Modality-Agnostic Multiple instance learning for volumetric Block Analysis (MAMBA), a deep-learning-based platform for processing 3D tissue images from diverse imaging modalities and predicting patient outcomes. Archived prostate cancer specimens were imaged with open-top light-sheet microscopy or microcomputed tomography and the resulting 3D datasets were used to train risk-stratification networks based on 5-year biochemical recurrence outcomes via MAMBA. With the 3D block-based approach, MAMBA achieves an area under the receiver operating characteristic curve (AUC) of 0.86 and 0.74, superior to 2D traditional single-slice-based prognostication (AUC of 0.79 and 0.57), suggesting superior prognostication with 3D morphological features. Further analyses reveal that the incorporation of greater tissue volume improves prognostic performance and mitigates risk prediction variability from sampling bias, suggesting the value of capturing larger extents of heterogeneous 3D morphology. With the rapid growth and adoption of 3D spatial biology and pathology techniques by researchers and clinicians, MAMBA provides a general and efficient framework for 3D weakly supervised learning for clinical decision support and can help to reveal novel 3D morphological biomarkers for prognosis and therapeutic response.
翻訳日:2023-07-28 14:12:29 公開日:2023-07-27
# 最適化負サンプリングと損失関数を用いたセッションベース変圧器勧告のスケーリング

Scaling Session-Based Transformer Recommendations using Optimized Negative Sampling and Loss Functions ( http://arxiv.org/abs/2307.14906v1 )

ライセンス: Link先を確認
Timo Wilm, Philipp Normann, Sophie Baumeister, Paul-Vincent Kobow(参考訳) この作業では、Optimized Negative-Samplingを使用したスケーラブルなセッションベースのTransformer RecommenderであるTRONを導入する。 SASRecやGRU4Rec+のような一般的なモデルのスケーラビリティと性能の制限により、TRONはトップkのネガティブサンプリングとリストワイズ損失関数を統合して、推奨精度を高める。 関連する大規模eコマースデータセットの評価によると、TRONはSASRecと同様のトレーニング速度を維持しながら、現在の手法の推奨品質を改善している。 ライブA/Bテストでは、SASRecよりも18.14%クリックスルー率が上昇し、実際の環境でのTRONの可能性を強調した。 さらなる研究のために、私たちはhttps://github.com/otto-de/tronでソースコードにアクセスし、匿名化されたデータセットをhttps://github.com/otto-de/recsys-datasetで提供します。

This work introduces TRON, a scalable session-based Transformer Recommender using Optimized Negative-sampling. Motivated by the scalability and performance limitations of prevailing models such as SASRec and GRU4Rec+, TRON integrates top-k negative sampling and listwise loss functions to enhance its recommendation accuracy. Evaluations on relevant large-scale e-commerce datasets show that TRON improves upon the recommendation quality of current methods while maintaining training speeds similar to SASRec. A live A/B test yielded an 18.14% increase in click-through rate over SASRec, highlighting the potential of TRON in practical settings. For further research, we provide access to our source code at https://github.com/otto-de/TRON and an anonymized dataset at https://github.com/otto-de/recsys-dataset.
翻訳日:2023-07-28 14:11:25 公開日:2023-07-27
# CodeLens: コード表現を視覚化するインタラクティブツール

CodeLens: An Interactive Tool for Visualizing Code Representations ( http://arxiv.org/abs/2307.14902v1 )

ライセンス: Link先を確認
Yuejun Guo and Seifeddine Bettaieb and Qiang Hu and Yves Le Traon and Qiang Tang(参考訳) 汎用的な入力形式でソースコードを表現することは、例えば機械学習アルゴリズムを用いて情報を抽出するなど、ソフトウェアエンジニアリングタスクを自動化するために重要である。 コード表現を視覚化することで、人間の専門家がコードに対する直感的な洞察を得ることができる。 残念ながら、今日現在、異なるタイプのコード表現を同時に視覚化できる普遍的なツールは存在しない。 本稿では,様々な表現方法をサポートし,開発者の理解と探索を支援するビジュアルインタラクション環境を提供するツールであるcodelensを紹介する。 CodeLensは、Java、Python、JavaScriptなどの複数のプログラミング言語をサポートし、トークンのシーケンス、抽象構文木(AST)、データフローグラフ(DFG)、制御フローグラフ(CFG)を含む4種類のコード表現をサポートするように設計されている。 CodeLensを使用することで、開発者は特定のコード表現を素早く視覚化し、コードモデルの表現された入力を取得することができる。 CodeLensのWebベースのインターフェースはhttp://www.codelens.orgで公開されている。 デモビデオはhttp://www.codelens.org/demo.com/で見ることができる。

Representing source code in a generic input format is crucial to automate software engineering tasks, e.g., applying machine learning algorithms to extract information. Visualizing code representations can further enable human experts to gain an intuitive insight into the code. Unfortunately, as of today, there is no universal tool that can simultaneously visualise different types of code representations. In this paper, we introduce a tool, CodeLens, which provides a visual interaction environment that supports various representation methods and helps developers understand and explore them. CodeLens is designed to support multiple programming languages, such as Java, Python, and JavaScript, and four types of code representations, including sequence of tokens, abstract syntax tree (AST), data flow graph (DFG), and control flow graph (CFG). By using CodeLens, developers can quickly visualize the specific code representation and also obtain the represented inputs for models of code. The Web-based interface of CodeLens is available at http://www.codelens.org. The demonstration video can be found at http://www.codelens.org/demo.
翻訳日:2023-07-28 14:11:07 公開日:2023-07-27
# アクティブ粒子系における局所支配力バランスの学習

Learning locally dominant force balances in active particle systems ( http://arxiv.org/abs/2307.14970v1 )

ライセンス: Link先を確認
Dominik Sturm, Suryanarayana Maddu, Ivo F. Sbalzarini(参考訳) 自己組織型アクティブ粒子系におけるマクロパターン形成を説明する局所支配的力バランスを学習するために,教師なしクラスタリングとスパーシティプロモーティング推論アルゴリズムの組み合わせを用いた。 自己推進粒子間の微視的相互作用による巨視的パターンの自己組織的出現は, 広く観察できる。 流体力学理論は、この現象の物理的基礎をよりよく理解するのに役立つが、活性粒子系の自己組織構造を形成、制御、維持する十分な局所的な相互作用の集合を同定することは、依然として困難である。 本研究では,アスターや移動密度帯などの多種多様なパターンを生じる自己推進粒子の古典的流体力学モデルについて検討する。 データ駆動解析により, 密度勾配による局所的なアライメント相互作用によって伝播帯が形成される一方で, 強い粒子相互作用から生じるスプレイ誘起負圧縮機構によって定常状態のアスタが形成されることが示された。 また, 粒子の速度が局所密度の影響を受けるシステムにおいて, パターン形成の類似の物理原理を明らかにする。 これにより,モデル間の物理的共通点を明らかにすることができる。 データから推定された物理メカニズムは、解析的スケーリングの議論や実験的な観察とよく一致している。

We use a combination of unsupervised clustering and sparsity-promoting inference algorithms to learn locally dominant force balances that explain macroscopic pattern formation in self-organized active particle systems. The self-organized emergence of macroscopic patterns from microscopic interactions between self-propelled particles can be widely observed nature. Although hydrodynamic theories help us better understand the physical basis of this phenomenon, identifying a sufficient set of local interactions that shape, regulate, and sustain self-organized structures in active particle systems remains challenging. We investigate a classic hydrodynamic model of self-propelled particles that produces a wide variety of patterns, like asters and moving density bands. Our data-driven analysis shows that propagating bands are formed by local alignment interactions driven by density gradients, while steady-state asters are shaped by a mechanism of splay-induced negative compressibility arising from strong particle interactions. Our method also reveals analogous physical principles of pattern formation in a system where the speed of the particle is influenced by local density. This demonstrates the ability of our method to reveal physical commonalities across models. The physical mechanisms inferred from the data are in excellent agreement with analytical scaling arguments and experimental observations.
翻訳日:2023-07-28 14:03:16 公開日:2023-07-27
# キラル真空空洞における角運動依存性スペクトルシフト

Angular Momentum-Dependent Spectral Shift in Chiral Vacuum Cavities ( http://arxiv.org/abs/2307.14964v1 )

ライセンス: Link先を確認
Qing-Dong Jiang(参考訳) 先行するキャビティ量子電磁力学のユニタリ変換に基づいて、カイラル真空空洞内の量子揺らぎによって誘起される原子のスペクトルシフトを調べる。 注目すべきは、有界状態のスペクトルの角運動量依存的なシフトが興味深いことである。 提案手法は従来の摂動計算を超え, 強い結合限界においても有効である。 さらに, 回転波近似を使わずに, 一般中心ポテンシャルの強結合限界におけるカイラル真空ラビ振動を計算するための空洞相互作用図を定式化する。 この研究で明らかになった異常スペクトルシフトは、基本的および実用的重要性の両方を持ち、実験で容易に観察できる。

Based on a previously proposed unitary transformation for cavity quantum electrodynamics, we investigate the spectral shift of an atom induced by quantum fluctuations in a chiral vacuum cavity. Remarkably, we find an intriguing angular momentum-dependent shift in the spectra of bound states. Our approach surpasses conventional perturbative calculations and remains valid even in the strong-coupling limit. In addition, we establish a cavity-interaction picture for calculating the chiral vacuum Rabi oscillation in the strong-coupling limit for a generic central potential, without using the rotating wave approximation. The anomalous spectral shift revealed in this study possesses both fundamental and practical significance and could be readily observed in experiments.
翻訳日:2023-07-28 14:02:56 公開日:2023-07-27
# 高バランス医用画像分類のための自己教師付き事前処理によるフェデレートモデルアグリゲーション

Federated Model Aggregation via Self-Supervised Priors for Highly Imbalanced Medical Image Classification ( http://arxiv.org/abs/2307.14959v1 )

ライセンス: Link先を確認
Marawan Elbatel, Hualiang Wang, Robert Mart\'i, Huazhu Fu, Xiaomeng Li(参考訳) 医学分野では、連合学習は一般的に、皮膚病変や消化器画像など、高度に不均衡なデータセットを扱う。 既存の非バランスなデータセット下でのフェデレーション手法は主に、人口、発見、スキャナーが異なるため、医療画像に生じるクラス内変異を組み込むことなく、グローバルモデルを最適化することに焦点を当てている。 本稿では,公用自己監督型補助ネットワークによるクラス間変動について検討する。 具体的には、MoCo-V2のような共有事前学習モデルを用いることで、各クライアントに局所的に一貫したばらつきを測定する。 これらの結果に基づき, 自己教師付き事前 (mas) による動的バランスモデルアグリゲーションを導出し, グローバルモデルの最適化を導く。 Fed-MASは、高度に堅牢で偏りのないグローバルモデルに向けた効果的なモデルアグリゲーションのための異なる局所学習手法で利用することができる。 私たちのコードは \url{https://github.com/xmed-lab/Fed-MAS} で利用可能です。

In the medical field, federated learning commonly deals with highly imbalanced datasets, including skin lesions and gastrointestinal images. Existing federated methods under highly imbalanced datasets primarily focus on optimizing a global model without incorporating the intra-class variations that can arise in medical imaging due to different populations, findings, and scanners. In this paper, we study the inter-client intra-class variations with publicly available self-supervised auxiliary networks. Specifically, we find that employing a shared auxiliary pre-trained model, like MoCo-V2, locally on every client yields consistent divergence measurements. Based on these findings, we derive a dynamic balanced model aggregation via self-supervised priors (MAS) to guide the global model optimization. Fed-MAS can be utilized with different local learning methods for effective model aggregation toward a highly robust and unbiased global model. Our code is available at \url{https://github.com/xmed-lab/Fed-MAS}.
翻訳日:2023-07-28 14:02:44 公開日:2023-07-27
# 連続監視量子系の逐次仮説検証

Sequential hypothesis testing for continuously-monitored quantum systems ( http://arxiv.org/abs/2307.14954v1 )

ライセンス: Link先を確認
G. Gasbarri, M. Bilkis, E. Roda-Salichs, and J. Calsamiglia(参考訳) 我々は、連続的に監視されている量子系を考察し、測定信号を生成する。 このようなデータストリームから、基盤となるシステムのダイナミクスに関する情報を推測する必要がある。 ここでは、仮説テストの問題に焦点をあて、信号がリアルタイムで分析されるシーケンシャル戦略の利用を推し進め、基礎となる仮説を所定の成功確率で特定できれば、実験を迅速に終了させることができる。 停止時間挙動を解析して逐次テストの性能を解析し,所定の所定の測定時間に基づいて,現在使用されている戦略よりもかなり有利であることを示す。

We consider a quantum system that is being continuously monitored, giving rise to a measurement signal. From such a stream of data, information needs to be inferred about the underlying system's dynamics. Here we focus on hypothesis testing problems and put forward the usage of sequential strategies where the signal is analyzed in real time, allowing the experiment to be concluded as soon as the underlying hypothesis can be identified with a certified prescribed success probability. We analyze the performance of sequential tests by studying the stopping-time behavior, showing a considerable advantage over currently-used strategies based on a fixed predetermined measurement time.
翻訳日:2023-07-28 14:02:26 公開日:2023-07-27
# データセット辞書学習によるwasserstein空間におけるマルチソースドメイン適応

Multi-Source Domain Adaptation through Dataset Dictionary Learning in Wasserstein Space ( http://arxiv.org/abs/2307.14953v1 )

ライセンス: Link先を確認
Eduardo Fernandes Montesuma, Fred Ngol\`e Mboula, Antoine Souloumiac(参考訳) 本稿では、複数のラベル付きソースドメインからラベルなしターゲットドメインへの知識転送時のデータ分散シフトを軽減することを目的としたマルチソースドメイン適応(MSDA)の解決を目指す。 本稿では,辞書学習と最適トランスポートに基づく新しいmsdaフレームワークを提案する。 我々はMSDAの各ドメインを経験的分布と解釈する。 したがって、各領域を経験的分布である辞書原子のwasserstein barycenterとして表現する。 ミニバッチによる学習のための新しいアルゴリズムDaDiLを提案する。 (i)原子分布 (ii) 偏心座標の行列。 対象ドメインのラベル付きサンプルを再構成したDaDil-Rと,原子分布から学習した分類器のアンサンブルに基づくDaDiL-Eの2つの新しい手法を提案する。 この手法をcaltech-office,office 31,crwuの3つのベンチマークで評価し,従来の最先端技術を3.15%,2.29%,7.71%の分類性能で改善した。 最後に、学習した原子のワッサーシュタイン殻の補間によって、ターゲット領域に一般化可能なデータが得られることを示す。

This paper seeks to solve Multi-Source Domain Adaptation (MSDA), which aims to mitigate data distribution shifts when transferring knowledge from multiple labeled source domains to an unlabeled target domain. We propose a novel MSDA framework based on dictionary learning and optimal transport. We interpret each domain in MSDA as an empirical distribution. As such, we express each domain as a Wasserstein barycenter of dictionary atoms, which are empirical distributions. We propose a novel algorithm, DaDiL, for learning via mini-batches: (i) atom distributions; (ii) a matrix of barycentric coordinates. Based on our dictionary, we propose two novel methods for MSDA: DaDil-R, based on the reconstruction of labeled samples in the target domain, and DaDiL-E, based on the ensembling of classifiers learned on atom distributions. We evaluate our methods in 3 benchmarks: Caltech-Office, Office 31, and CRWU, where we improved previous state-of-the-art by 3.15%, 2.29%, and 7.71% in classification performance. Finally, we show that interpolations in the Wasserstein hull of learned atoms provide data that can generalize to the target domain.
翻訳日:2023-07-28 14:02:13 公開日:2023-07-27
# 階層的非ベイジアン学習によるネットワークフォールトトレラントとビザンチンレジリエントな社会学習

Network Fault-tolerant and Byzantine-resilient Social Learning via Collaborative Hierarchical Non-Bayesian Learning ( http://arxiv.org/abs/2307.14952v1 )

ライセンス: Link先を確認
Connor Mclaughlin, Matthew Ding, Denis Edogmus, Lili Su(参考訳) ネットワーク規模が拡大するにつれて、既存の完全分散ソリューションは、(1)遅い情報伝達、(2)ネットワーク通信障害、(3)外部敵攻撃といった現実世界の課題に遅れ始めています。 本稿では,階層型システムアーキテクチャに注目し,通信障害や敵攻撃に対して脆弱なネットワーク上の非ベイズ学習の問題に対処する。 ネットワーク通信ではパケットドロップのリンク障害を考慮した。 まず,パケットドロップリンクの頻繁な障害に拘わらず,平均コンセンサスを達成できる階層的頑健なプッシュサムアルゴリズムを提案する。 パラメータサーバと任意に選択されたネットワーク代表との間にスパース情報融合ルールを提供する。 次に、kullback-leibler(kl)の発散を近位関数とする2つの平均化更新でコンセンサス更新ステップをインターリーブし、証明可能な収束保証を有するパケット投下フォールトトレラント非ベイズ学習アルゴリズムを得る。 外部の敵攻撃では、侵入されたエージェントが悪意ある校正されたメッセージを他のエージェント(エージェントとパラメータサーバの両方を含む)に送信できるビザンチン攻撃を考える。 ビザンツのコンセンサスの次元性の呪いを避けるため、複数のダイナミクスを実行することで非バイエルン学習問題を解き、それぞれがスカラー入力を伴うビザンツのコンセンサスのみを含む。 サブネットワーク間のレジリエント情報伝達を容易にするため,パラメータサーバでは,新たなビザンチンレジリエントゴシピング型ルールを用いる。

As the network scale increases, existing fully distributed solutions start to lag behind the real-world challenges such as (1) slow information propagation, (2) network communication failures, and (3) external adversarial attacks. In this paper, we focus on hierarchical system architecture and address the problem of non-Bayesian learning over networks that are vulnerable to communication failures and adversarial attacks. On network communication, we consider packet-dropping link failures. We first propose a hierarchical robust push-sum algorithm that can achieve average consensus despite frequent packet-dropping link failures. We provide a sparse information fusion rule between the parameter server and arbitrarily selected network representatives. Then, interleaving the consensus update step with a dual averaging update with Kullback-Leibler (KL) divergence as the proximal function, we obtain a packet-dropping fault-tolerant non-Bayesian learning algorithm with provable convergence guarantees. On external adversarial attacks, we consider Byzantine attacks in which the compromised agents can send maliciously calibrated messages to others (including both the agents and the parameter server). To avoid the curse of dimensionality of Byzantine consensus, we solve the non-Bayesian learning problem via running multiple dynamics, each of which only involves Byzantine consensus with scalar inputs. To facilitate resilient information propagation across sub-networks, we use a novel Byzantine-resilient gossiping-type rule at the parameter server.
翻訳日:2023-07-28 14:01:53 公開日:2023-07-27
# 事前知識制約を神経odeに統合する自己適応的ペナルティ法

A Self-Adaptive Penalty Method for Integrating Prior Knowledge Constraints into Neural ODEs ( http://arxiv.org/abs/2307.14940v1 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L. L. Ferr\'as(参考訳) 自然システムの連続力学は神経常微分方程式(ニューラルオデム)を用いて効果的にモデル化されている。 しかし、正確で有意義な予測には、モデルがこれらのシステムを支配する基礎となる規則や法則に従うことが不可欠である。 本研究では,制約付き自然系のモデリングを可能にするニューラルネットワークの自己適応型ペナルティアルゴリズムを提案する。 提案する自己適応ペナルティ関数はペナルティパラメータを動的に調整することができる。 事前知識の明示的な導入は、Neural ODEベースのモデルの解釈可能性を高めるのに役立つ。 提案手法は, 人口増加, 化学反応の進化, 減衰調和振動子運動という3つの自然系を事前の知識制約でモデル化することによって検証する。 数値実験と他のペナルティニューラルODEアプローチと<emph{vanilla}ニューラルODEとの比較により,制約された自然系のモデル化におけるニューラルODEに対する自己適応ペナルティアルゴリズムの有効性が示された。 さらに、自己適応型ペナルティアプローチは、信頼性と有意義な予測を備えたより正確で堅牢なモデルを提供する。

The continuous dynamics of natural systems has been effectively modelled using Neural Ordinary Differential Equations (Neural ODEs). However, for accurate and meaningful predictions, it is crucial that the models follow the underlying rules or laws that govern these systems. In this work, we propose a self-adaptive penalty algorithm for Neural ODEs to enable modelling of constrained natural systems. The proposed self-adaptive penalty function can dynamically adjust the penalty parameters. The explicit introduction of prior knowledge helps to increase the interpretability of Neural ODE -based models. We validate the proposed approach by modelling three natural systems with prior knowledge constraints: population growth, chemical reaction evolution, and damped harmonic oscillator motion. The numerical experiments and a comparison with other penalty Neural ODE approaches and \emph{vanilla} Neural ODE, demonstrate the effectiveness of the proposed self-adaptive penalty algorithm for Neural ODEs in modelling constrained natural systems. Moreover, the self-adaptive penalty approach provides more accurate and robust models with reliable and meaningful predictions.
翻訳日:2023-07-28 14:01:27 公開日:2023-07-27
# ニューラルネットワークフィードバックループの効率的な相互作用認識区間解析

Efficient Interaction-Aware Interval Analysis of Neural Network Feedback Loops ( http://arxiv.org/abs/2307.14938v1 )

ライセンス: Link先を確認
Saber Jafarpour and Akash Harapanahalli and Samuel Coogan(参考訳) 本稿では,ニューラルネットワーク制御システムのインターバル到達性に関する計算効率の高いフレームワークを提案する。 私たちのアプローチは、ニューラルネットワークコントローラとオープンループシステムの包含機能に基づいています。 我々は、最先端のニューラルネットワーク検証者がニューラルネットワークの包含関数を生成できることを観察する。 本稿では,システムとニューラルネットワークコントローラ間の相互作用を捉えるのに特に適する関数ヤコビアンの境界に基づく,オープンループダイナミクスのための新しい包含関数のクラスを紹介し,解析する。 次に、任意の動的システムに対して、インクルージョン関数を用いて、元のシステムの2倍の状態を持つ埋め込みシステムを構築する。 この埋め込みシステムの単一の軌道は到達可能な集合の超矩形超近似を与える。 次に,システムとコントローラの相互作用を異なる方法で考慮したニューラルネット制御力学系のための閉ループ埋め込みシステムを構築するための2つのアプローチを提案する。 相互接続に基づくアプローチは、ニューラルネットワーク包摂機能をオープンループ埋め込みシステムに置換することで、各座標の最悪の進化を別々に説明できる。 インタラクションベースのアプローチでは、新しく導入されたJacobianベースの包摂関数のクラスを使用して、システムとコントローラの間の一階の相互作用を完全にキャプチャする。 最後に,そのアプローチを,‘texttt{ReachMM}’というPythonフレームワークで実装し,既存のベンチマークにおいて,既存の手法よりも優れていることを示す。 また、最大200ドルの状態を持つ車両小隊の例で、我々の手法のスケーラビリティを実証する。

In this paper, we propose a computationally efficient framework for interval reachability of neural network controlled systems. Our approach builds upon inclusion functions for the neural network controller and the open-loop system. We observe that many state-of-the-art neural network verifiers can produce inclusion functions for neural networks. We introduce and analyze a new class of inclusion functions for the open-loop dynamics based on bounds of the function Jacobian that is particularly suitable for capturing the interactions between systems and neural network controllers. Next, for any dynamical system, we use inclusion functions to construct an embedding system with twice the number of states as the original system. We show that a single trajectory of this embedding system provides hyper-rectangular over-approximations of reachable sets. We then propose two approaches for constructing a closed-loop embedding system for a neural network controlled dynamical system that accounts for the interaction between the system and the controller in different ways. The interconnection-based approach accounts for the worst-case evolution of each coordinate separately by substituting the neural network inclusion function into the open-loop embedding system. The interaction-based approach uses the newly introduced class of Jacobian-based inclusion functions to fully capture first-order interactions between the system and the controller. Finally, we implement our approach in a Python framework called \texttt{ReachMM} and show that on several existing benchmarks, our methods outperform the existing approaches in the literature. We also demonstrate the scalability of our method on a vehicle platooning example with up to $200$ states.
翻訳日:2023-07-28 14:01:07 公開日:2023-07-27
# pangu-coder2: ランキングフィードバックによるコード用大規模言語モデルの拡張

PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback ( http://arxiv.org/abs/2307.14936v1 )

ライセンス: Link先を確認
Bo Shen, Jiaxin Zhang, Taihong Chen, Daoguang Zan, Bing Geng, An Fu, Muhan Zeng, Ailun Yu, Jichuan Ji, Jingyang Zhao, Yuenan Guo, Qianxiang Wang(参考訳) コードのための大規模言語モデル(Code LLM)が盛んである。 新しい強力なモデルが毎週リリースされ、コード生成タスクで顕著なパフォーマンスを示している。 教師付き微調整, 指導チューニング, 強化学習など, 事前訓練済みのコードLLMのコード生成性能を向上させるための様々な手法が提案されている。 本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。 このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。 さらに、CoderEvalとLeetCodeベンチマークの広範な評価により、PanGu-Coder2が以前のすべてのCode LLMより一貫して優れていることを示す。

Large Language Models for Code (Code LLM) are flourishing. New and powerful models are released on a weekly basis, demonstrating remarkable performance on the code generation task. Various approaches have been proposed to boost the code generation performance of pre-trained Code LLMs, such as supervised fine-tuning, instruction tuning, reinforcement learning, etc. In this paper, we propose a novel RRTF (Rank Responses to align Test&Teacher Feedback) framework, which can effectively and efficiently boost pre-trained large language models for code generation. Under this framework, we present PanGu-Coder2, which achieves 62.20% pass@1 on the OpenAI HumanEval benchmark. Furthermore, through an extensive evaluation on CoderEval and LeetCode benchmarks, we show that PanGu-Coder2 consistently outperforms all previous Code LLMs.
翻訳日:2023-07-28 14:00:42 公開日:2023-07-27
# desbordanteによるデータ品質問題を解決するデモ

Solving Data Quality Problems with Desbordante: a Demo ( http://arxiv.org/abs/2307.14935v1 )

ライセンス: Link先を確認
George Chernishev, Michael Polyntsov, Anton Chizhov, Kirill Stupakov, Ilya Shchuckin, Alexander Smirnov, Maxim Strutovsky, Alexey Shlyonskikh, Mikhail Firsov, Stepan Manannikov, Nikita Bobrov, Daniil Goncharov, Ilia Barutkin, Vladislav Shalnev, Kirill Muraviev, Anna Rakhmukova, Dmitriy Shcheka, Anton Chernikov, Mikhail Vyrodov, Kurbatov Yaroslav, Maxim Fofanov, Belokonnyi Sergei, Anosov Pavel, Arthur Saliou, Eduard Gaisin, Kirill Smirnov(参考訳) データプロファイリングは、現代のデータ駆動産業において不可欠なプロセスである。 その重要なコンポーネントの1つは、関数依存、データ制約、アソシエーションルールなどを含む複雑な統計の発見と検証である。 しかし、複雑な統計に焦点を絞った既存のデータプロファイリングシステムは、現代のデータサイエンティストが使用するツールと適切に統合されていない。 これにより、業界におけるこれらのツールの採用に大きな障壁が生まれます。 さらに、既存のシステムは産業レベルのワークロードを念頭に置いて作られていない。 最後に、なぜあるパターンが見つからないのかという記述的な説明を提供することを意図していない。 特定のパターンがデータに基づいて情報的決定を下さない理由を理解することが不可欠であるため、重要な問題である。 そのため、これらのパターンは事実上薄い空気で保たれており、適用範囲は比較的限られており、広く広く使われることは稀である。 同時に、このプレゼンテーションで示すように、多くの古典的なデータ品質問題を解決するために、複雑な統計を効率的に使うことができる。 Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。 産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。 さらに、マイニングだけでなく、様々なコストのかかる操作をc++コアにオフロードすることで、シームレスなpython統合を提供する。 このデモンストレーションでは、エンドユーザーが異なるデータ品質の問題を解決するいくつかのシナリオを示す。 具体的には,タイポ検出,データ重複,データ異常検出シナリオを紹介する。

Data profiling is an essential process in modern data-driven industries. One of its critical components is the discovery and validation of complex statistics, including functional dependencies, data constraints, association rules, and others. However, most existing data profiling systems that focus on complex statistics do not provide proper integration with the tools used by contemporary data scientists. This creates a significant barrier to the adoption of these tools in the industry. Moreover, existing systems were not created with industrial-grade workloads in mind. Finally, they do not aim to provide descriptive explanations, i.e. why a given pattern is not found. It is a significant issue as it is essential to understand the underlying reasons for a specific pattern's absence to make informed decisions based on the data. Because of that, these patterns are effectively rest in thin air: their application scope is rather limited, they are rarely used by the broader public. At the same time, as we are going to demonstrate in this presentation, complex statistics can be efficiently used to solve many classic data quality problems. Desbordante is an open-source data profiler that aims to close this gap. It is built with emphasis on industrial application: it is efficient, scalable, resilient to crashes, and provides explanations. Furthermore, it provides seamless Python integration by offloading various costly operations to the C++ core, not only mining. In this demonstration, we show several scenarios that allow end users to solve different data quality problems. Namely, we showcase typo detection, data deduplication, and data anomaly detection scenarios.
翻訳日:2023-07-28 14:00:26 公開日:2023-07-27
# TransNormerを1750億のパラメータにスケールアップする

Scaling TransNormer to 175 Billion Parameters ( http://arxiv.org/abs/2307.14995v1 )

ライセンス: Link先を確認
Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han, Yunshen Wei, Baohong Lv, Fei Yuan, Xiao Luo, Yu Qiao, Yiran Zhong(参考訳) 従来のソフトマックスアテンションモデルよりも精度と効率の両面で優れる最初の線形アテンションベースLarge Language Model (LLM) であるTransNormerLLMを提案する。 トランスノルメルムは、位置埋め込み、線形注意加速度、ゲーティング機構、テンソル正規化、推論加速度、安定化といった高度な修正を行うことで、以前の線形注意アーキテクチャから進化する。 具体的には、LRPEと指数減衰を用いて、トークン間のグローバルな相互作用を保ちながら、注意希釈の問題を避ける。 さらに,線形注意を2倍以上高速化し,メモリ使用量を4倍に短縮する最先端技術であるlightning attentionを提案する。 TransNormerの性能をさらに向上するため,スムーズなトレーニングのためのゲーティング機構と,モデルを高速化するための新しいテンソル正規化スキームを活用し,20%を超える印象的な加速を実現した。 さらに,シーケンス長に関係なく,数値的安定性と一貫した推論速度を保証するロバスト推論アルゴリズムを開発し,トレーニングと推論の両方において優れた効率を示す。 スケーラビリティは私たちのモデル設計の中心であり、大規模クラスタへのシームレスなデプロイを可能にし、より広範なモデルへの拡張を容易にします。 モデル設計の厳密な検証は、我々の自己コンパイルコーパスに関する一連の包括的な実験を通じて達成され、サイズは6TBを超え、2兆以上のトークンを含んでいる。 データの品質と妥当性を確保するために、収集したデータをフィルタリングする新しい自己洗浄戦略を実装します。 我々の事前訓練されたモデルは、効率的なLLMにおけるコミュニティの進歩を促進するためにリリースされます。

We present TransNormerLLM, the first linear attention-based Large Language Model (LLM) that outperforms conventional softmax attention-based models in terms of both accuracy and efficiency. TransNormerLLM evolves from the previous linear attention architecture TransNormer by making advanced modifications that include positional embedding, linear attention acceleration, gating mechanism, tensor normalization, inference acceleration and stabilization. Specifically, we use LRPE together with an exponential decay to avoid attention dilution issues while allowing the model to retain global interactions between tokens. Additionally, we propose Lightning Attention, a cutting-edge technique that accelerates linear attention by more than twice in runtime and reduces memory usage by a remarkable four times. To further enhance the performance of TransNormer, we leverage a gating mechanism to smooth training and a new tensor normalization scheme to accelerate the model, resulting in an impressive acceleration of over 20%. Furthermore, we have developed a robust inference algorithm that ensures numerical stability and consistent inference speed, regardless of the sequence length, showcasing superior efficiency during both training and inference stages. Scalability is at the heart of our model's design, enabling seamless deployment on large-scale clusters and facilitating expansion to even more extensive models, all while maintaining outstanding performance metrics. Rigorous validation of our model design is achieved through a series of comprehensive experiments on our self-collected corpus, boasting a size exceeding 6TB and containing over 2 trillion tokens. To ensure data quality and relevance, we implement a new self-cleaning strategy to filter our collected data. Our pre-trained models will be released to foster community advancements in efficient LLMs.
翻訳日:2023-07-28 13:55:14 公開日:2023-07-27
# thinker: 計画と行動を学ぶ

Thinker: Learning to Plan and Act ( http://arxiv.org/abs/2307.14993v1 )

ライセンス: Link先を確認
Stephen Chung, Ivan Anokhin, David Krueger(参考訳) 本稿では,強化学習エージェントが学習世界モデルと自律的に対話し,活用できる新しい手法であるThinkerアルゴリズムを提案する。 思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。 これらのモデル-インタラクションアクションは、エージェントが環境内で実行する最終アクションを選択する前に、世界モデルに代替計画を提案することによって、計画を実行することができる。 このアプローチは、エージェントが自律的に計画の仕方を学べることによって、手作りの計画アルゴリズムの必要性を排除し、可視化によるエージェントの計画の解釈を容易にする。 本稿では,ソコバンとアタリ2600ベンチマークのゲームにおいて,実験結果によるアルゴリズムの有効性を実証する。 thinkerアルゴリズムで訓練されたエージェントの可視化は、よりよいアクションを選択するために世界モデルと効果的に計画することを学んだことを示している。 アルゴリズムの一般性は、強化学習に世界モデルをどのように使用できるか、そしてエージェントの意思決定プロセスにどのように計画がシームレスに統合されるか、という新しい研究方向を開く。

We propose the Thinker algorithm, a novel approach that enables reinforcement learning agents to autonomously interact with and utilize a learned world model. The Thinker algorithm wraps the environment with a world model and introduces new actions designed for interacting with the world model. These model-interaction actions enable agents to perform planning by proposing alternative plans to the world model before selecting a final action to execute in the environment. This approach eliminates the need for hand-crafted planning algorithms by enabling the agent to learn how to plan autonomously and allows for easy interpretation of the agent's plan with visualization. We demonstrate the algorithm's effectiveness through experimental results in the game of Sokoban and the Atari 2600 benchmark, where the Thinker algorithm achieves state-of-the-art performance and competitive results, respectively. Visualizations of agents trained with the Thinker algorithm demonstrate that they have learned to plan effectively with the world model to select better actions. The algorithm's generality opens a new research direction on how a world model can be used in reinforcement learning and how planning can be seamlessly integrated into an agent's decision-making process.
翻訳日:2023-07-28 13:54:25 公開日:2023-07-27
# 大規模言語モデルを用いた多言語コード共進化

Multilingual Code Co-Evolution Using Large Language Models ( http://arxiv.org/abs/2307.14991v1 )

ライセンス: Link先を確認
Jiyang Zhang, Pengyu Nie, Junyi Jessy Li, Milos Gligoric(参考訳) 多くのソフトウェアプロジェクトは複数のプログラミング言語でapiとアルゴリズムを実装している。 開発者が他のプログラミング言語の実装に対する変更(バグ修正や新機能など)が、タイムリーかつエラーなく伝播されることを保証する必要があるため、そのようなプロジェクトのメンテナンスは面倒である。 絶え間なく変化するソフトウェアの世界では、ルールベースの翻訳ツール(トランスパイラ)または機械学習モデルを使用して、ある言語から別の言語へのコード翻訳を行う。 コードベース全体をひとつの言語から別の言語に翻訳することは、開発者の作業方法ではない。 本稿では,大きな言語モデル(LLM)を用いて,あるプログラミング言語から別の言語へのコード変更を翻訳する,新しいタスクを目標とする。 私たちは、このタスクに取り組むために、Codeditorと呼ばれる最初のLLMを設計し、実装しました。 Codeditorは、明示的にコード変更を編集シーケンスとしてモデル化し、プログラミング言語間の変更を関連付けることを学ぶ。 Codeditorを評価するために、2つのプログラミング言語(JavaとC#)で同様の機能を実装する8組のオープンソースソフトウェアプロジェクトから、6,613のコード変更のコーパスを収集しました。 その結果、codeditorは、一般的に使用されるすべての自動メトリクスに対して、最先端のアプローチよりも大きなマージンを持つことがわかった。 私たちの研究によると、Codeditorは既存の世代ベースのモデルと相補的であり、それらの組み合わせによってさらにパフォーマンスが向上します。

Many software projects implement APIs and algorithms in multiple programming languages. Maintaining such projects is tiresome, as developers have to ensure that any change (e.g., a bug fix or a new feature) is being propagated, timely and without errors, to implementations in other programming languages. In the world of ever-changing software, using rule-based translation tools (i.e., transpilers) or machine learning models for translating code from one language to another provides limited value. Translating each time the entire codebase from one language to another is not the way developers work. In this paper, we target a novel task: translating code changes from one programming language to another using large language models (LLMs). We design and implement the first LLM, dubbed Codeditor, to tackle this task. Codeditor explicitly models code changes as edit sequences and learns to correlate changes across programming languages. To evaluate Codeditor, we collect a corpus of 6,613 aligned code changes from 8 pairs of open-source software projects implementing similar functionalities in two programming languages (Java and C#). Results show that Codeditor outperforms the state-of-the-art approaches by a large margin on all commonly used automatic metrics. Our work also reveals that Codeditor is complementary to the existing generation-based models, and their combination ensures even greater performance.
翻訳日:2023-07-28 13:53:53 公開日:2023-07-27
# 超高分解能広視野量子ダイヤモンド顕微鏡

Super-resolution enabled widefield quantum diamond microscopy ( http://arxiv.org/abs/2307.14990v1 )

ライセンス: Link先を確認
Feng Xu, Jialong Chen, Yong Hou, Juan Cheng, Tony KC Hui, Shih-Chi Chen, Zhiqin Chu(参考訳) 広視野量子ダイヤモンド顕微鏡(WQDM)は、Kohler-illuminationに基づく量子センシングの分野で広く採用されているが、実際には避けられない光損傷や不満足な空間分解能といった問題によって制限されている。 本稿では,デジタルマイクロミラーデバイス(DMD)を用いた超高分解能WQDMの設計と開発を行う。 高速にプログラム可能な照明パターンを用いて,細胞試料中のナノダイアモンドをイメージングする際に光毒性を緩和する方法を初めて実証した。 例として、従来のWQDMと区別できない2つのナノダイヤモンドの超解像量子センシング測定を行った。 dmdを搭載したwqdmは、量子センシングソリューションとの優れた互換性を示すだけでなく、高撮像速度、高分解能、低光毒性、高信号対バックグラウンド比の強力な利点を示し、生体医学などの分野に応用するための有能なツールである。

Widefield quantum diamond microscopy (WQDM) based on Kohler-illumination has been widely adopted in the field of quantum sensing, however, practical applications are still limited by issues such as unavoidable photodamage and unsatisfied spatial-resolution. Here, we design and develop a super-resolution enabled WQDM using a digital micromirror device (DMD)-based structured illumination microscopy. With the rapidly programmable illumination patterns, we have firstly demonstrated how to mitigate phototoxicity when imaging nanodiamonds in cell samples. As a showcase, we have performed the super-resolved quantum sensing measurements of two individual nanodiamonds not even distinguishable with conventional WQDM. The DMD-powered WQDM presents not only excellent compatibility with quantum sensing solutions, but also strong advantages in high imaging speed, high resolution, low phototoxicity, and enhanced signal-to-background ratio, making it a competent tool to for applications in demanding fields such as biomedical science.
翻訳日:2023-07-28 13:53:23 公開日:2023-07-27
# 曲面符号の復号化アルゴリズム

Decoding algorithms for surface codes ( http://arxiv.org/abs/2307.14989v1 )

ライセンス: Link先を確認
Antonio deMarti iOlius, Patricio Fuentes, Rom\'an Or\'us, Pedro M. Crespo and Josu Etxezarreta Martinez(参考訳) 量子技術は古典的な方法で計算が難しい問題を解く可能性がある。 残念ながら、量子情報の不安定な性質はエラーを起こしやすい。 このため、量子誤り訂正は、量子情報を信頼できるものにし、フォールトトレラント量子コンピューティングの究極の目標を実現するための貴重なツールである。 表面符号は、2次元のアーキテクチャ、局所演算のみの要求、量子ノイズに対する高い耐性を考えると、誤り訂正量子ビットを構築する最も有望な候補である。 復号アルゴリズムは、任意の誤り訂正スキームの不可欠な要素であり、量子情報に影響を及ぼす誤差の正確な推定を生成することを任務としている。 アルゴリズムのデコーディングの重要な側面は、量子状態が時間経過とともに追加のエラーに直面するため、その速度である。 これは、複雑さと逆を犠牲にしてデコードのパフォーマンスが改善されるという、connundrumのようなトレードオフをもたらす。 本稿では,最先端表面コード復号アルゴリズムに関する詳細な議論を行う。 これらの手法の中核となる操作は、改善された結果の約束を示す既存の変種と共に記述される。 さらに,復号化性能,誤り訂正能力,復号化複雑性の両面を比較した。 コードデコードに関する既存のソフトウェアツールのレビューも提供されている。

Quantum technologies have the potential to solve computationally hard problems that are intractable via classical means. Unfortunately, the unstable nature of quantum information makes it prone to errors. For this reason, quantum error correction is an invaluable tool to make quantum information reliable and enable the ultimate goal of fault-tolerant quantum computing. Surface codes currently stand as the most promising candidates to build error corrected qubits given their two-dimensional architecture, a requirement of only local operations, and high tolerance to quantum noise. Decoding algorithms are an integral component of any error correction scheme, as they are tasked with producing accurate estimates of the errors that affect quantum information, so that it can subsequently be corrected. A critical aspect of decoding algorithms is their speed, since the quantum state will suffer additional errors with the passage of time. This poses a connundrum-like tradeoff, where decoding performance is improved at the expense of complexity and viceversa. In this review, a thorough discussion of state-of-the-art surface code decoding algorithms is provided. The core operation of these methods is described along with existing variants that show promise for improved results. In addition, both the decoding performance, in terms of error correction capability, and decoding complexity, are compared. A review of the existing software tools regarding surface code decoding is also provided.
翻訳日:2023-07-28 13:53:00 公開日:2023-07-27
# インクリメンタル計算可能なニューラルネットワーク:動的入力の効率的な推論

Incrementally-Computable Neural Networks: Efficient Inference for Dynamic Inputs ( http://arxiv.org/abs/2307.14988v1 )

ライセンス: Link先を確認
Or Sharir and Anima Anandkumar(参考訳) ディープラーニングは、センサーデータやユーザ入力といった動的入力を効率的に処理するという課題に直面することが多い。 例えば、ドキュメントが編集されると、AI書き込みアシスタントが提案をリアルタイムで更新する必要がある。 知識の蒸留、刈り取り、量子化といった圧縮技術でも、毎回モデルを再実行することは高価です。 代わりに、インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。 しかし、従来のアーキテクチャの密結合はインクリメンタルな計算において大きな障害となり、小さな入力でもネットワークを通してカスケードされ、情報の再利用が制限される。 これに対処するために、ベクトル量子化を用いてネットワーク内の中間値の識別を行い、隠れたニューロンに対するノイズや不要な修正をフィルタリングし、それらの値の再利用を容易にする。 このアプローチをトランスフォーマーアーキテクチャに適用し、修正された入力の分数に比例する複雑性を持つ効率的な漸進的推論アルゴリズムを作成する。 OPT-125M事前訓練言語モデルの適応実験は、文書分類において同等の精度を示し、アトミック編集のシーケンス処理には12.1X (median) の演算を少なくする。

Deep learning often faces the challenge of efficiently processing dynamic inputs, such as sensor data or user inputs. For example, an AI writing assistant is required to update its suggestions in real time as a document is edited. Re-running the model each time is expensive, even with compression techniques like knowledge distillation, pruning, or quantization. Instead, we take an incremental computing approach, looking to reuse calculations as the inputs change. However, the dense connectivity of conventional architectures poses a major obstacle to incremental computation, as even minor input changes cascade through the network and restrict information reuse. To address this, we use vector quantization to discretize intermediate values in the network, which filters out noisy and unnecessary modifications to hidden neurons, facilitating the reuse of their values. We apply this approach to the transformers architecture, creating an efficient incremental inference algorithm with complexity proportional to the fraction of the modified inputs. Our experiments with adapting the OPT-125M pre-trained language model demonstrate comparable accuracy on document classification while requiring 12.1X (median) fewer operations for processing sequences of atomic edits.
翻訳日:2023-07-28 13:52:40 公開日:2023-07-27
# 非相対論的場の量子論における固有状態上の点境界

Pointwise bounds on eigenstates in non-relativistic quantum field theory ( http://arxiv.org/abs/2307.14986v1 )

ライセンス: Link先を確認
M. Griesemer and V. Ku{\ss}maul(参考訳) 本稿では,非常に穏やかな劣調和条件に従うベクトル値ソボレフ関数の減算推定について述べる。 我々の結果はスカラー値の場合のよく知られた部分解推定を一般化し改善し、さらに最も重要なことに、非相対論的量子場理論のモデルに適用する:ネルソンおよびパウリ=フィエルツモデルの固有状態に対して、リプシッツ函数の項の$L^2$-指数境界が対応する点偏微分境界を意味することを示す。

In this paper, we establish subsolution estimates for vector-valued Sobolev functions obeying a very mild subharmonicity condition. Our results generalize and improve a well-known subsolution estimate in the scalar-valued case, and, most importantly, they apply to models from non-relativistic quantum field theory: for eigenstates of the Nelson and Pauli-Fierz models we show that an $L^2$-exponential bound in terms of a Lipschitz function implies the corresponding pointwise exponential bound.
翻訳日:2023-07-28 13:52:18 公開日:2023-07-27
# MapNeRF:ドライビングビューシミュレーションのためのニューラルラジアンスフィールドへのマッププリエントの導入

MapNeRF: Incorporating Map Priors into Neural Radiance Fields for Driving View Simulation ( http://arxiv.org/abs/2307.14981v1 )

ライセンス: Link先を確認
Chenming Wu, Jiadai Sun, Zhelun Shen and Liangjun Zhang(参考訳) カメラセンサーのシミュレーションは自動運転にとって重要な課題だ。 神経放射場は、駆動シミュレーションにおいて光リアリスティックなビューの合成には例外的であるが、外挿されたビューの生成には失敗している。 本稿では,道路のセマンティックな整合性を持つ軌道外駆動ビューを合成するために,地図先行情報をニューラルラジアンス場に組み込むことを提案する。 重要な洞察は、地図情報は不確実性を持つ放射場の訓練を導く事前の手段として利用することができるということである。 具体的には、粗面を不確定な情報として利用し、未知のカメラポーズからの不確かさを伴う密度場とワープ深さを監視し、複数視点の一貫性を確保する。 実験の結果,車載カメラシミュレーションにおいて,分散ビューにおける意味的一貫性が得られた。

Simulating camera sensors is a crucial task in autonomous driving. Although neural radiance fields are exceptional at synthesizing photorealistic views in driving simulations, they still fail in generating extrapolated views. This paper proposes to incorporate map priors into neural radiance fields to synthesize out-of-trajectory driving views with semantic road consistency. The key insight is that map information can be utilized as a prior to guide the training of the radiance fields with uncertainty. Specifically, we utilize the coarse ground surface as uncertain information to supervise the density field and warp depth with uncertainty from unknown camera poses to ensure multi-view consistency. Experimental results demonstrate that our approach can produce semantic consistency in deviated views for vehicle camera simulation.
翻訳日:2023-07-28 13:52:05 公開日:2023-07-27
# 量子ジャミングは、マクロスケールに量子力学をもたらす

Quantum jamming brings quantum mechanics to macroscopic scales ( http://arxiv.org/abs/2307.14979v1 )

ライセンス: Link先を確認
Maurizio Fagotti(参考訳) 軸対称の量子スピン=$\frac{1}{2}$鎖は通常、回転軸に沿って向き付けられたスピンに付随する準粒子によって記述される。 速度論的制約は、異なる準粒子種を分離することで、十分な密度で立ち往生し、ジャミングの量子類似性を実現することによって、そのような記述を豊かにすることができる。 単純な速度論的制約を満たす相互作用の族を同定し、それらから構築されたジェネリック翻訳不変モデルを検討する。 ジャム状態における局所的アンジャム摂動後のダイナミクスについて検討する。 通常の非拘束系の力学にマッピングできることが示されるが、写像の非局所性は現象自体が現れるスケールを変化させる。 準粒子の散乱、境界状態の形成、固有状態の局在は、全てマクロスケールで見ることができる。 対称性が存在するか否かによって、ジャム状態の顕微鏡的詳細は、限界効果か強い効果のいずれかを持つことがわかった。 前者の場合、または初期状態がほぼ均質である場合、積状態でさえも巨視的量子状態になることを示す。

A quantum spin-$\frac{1}{2}$ chain with an axial symmetry is normally described by quasiparticles associated with the spins oriented along the axis of rotation. Kinetic constraints can enrich such a description by setting apart different species of quasiparticles, which can get stuck at high enough density, realising the quantum analogue of jamming. We identify a family of interactions satisfying simple kinetic constraints and consider generic translationally invariant models built up from them. We study dynamics following a local unjamming perturbation in a jammed state. We show that they can be mapped into dynamics of ordinary unconstrained systems, but the nonlocality of the mapping changes the scales at which the phenomena manifest themselves. Scattering of quasiparticles, formation of bound states, eigenstate localisation become all visible at macroscopic scales. Depending on whether a symmetry is present or not, the microscopic details of the jammed state turn out to have either a marginal or a strong effect. In the former case or when the initial state is almost homogeneous, we show that even a product state is turned into a macroscopic quantum state.
翻訳日:2023-07-28 13:51:48 公開日:2023-07-27
# take-a-photo:ポイントクラウドモデルの3dから2d生成前トレーニング

Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models ( http://arxiv.org/abs/2307.14971v1 )

ライセンス: Link先を確認
Ziyi Wang, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) MAEによるマスク画像モデリングの圧倒的な傾向により、生成事前学習は2次元視覚における基本モデルの性能を高める驚くべき可能性を示している。 しかし、3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質は、生成前のトレーニングのさらなる発展を妨げている。 本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。 本稿では,前訓練方式としてクロスアテンション機構を用いて異なるポーズから視点画像を生成することを提案する。 ビューイメージの生成は、ポイントクラウドよりも正確な監督を行うため、3dバックボーンがポイントクラウドの幾何学的構造と立体的関係をより詳細に理解できるように支援する。 提案した3D-to-2D生成前訓練法は,従来の事前訓練法よりも優れていた。 また,scanobjectnn分類やshapenetpartセグメンテーションタスクを微調整する場合,アーキテクチャ指向アプローチの性能向上や最先端の性能向上にも有効である。 コードはhttps://github.com/wangzy22/tapで入手できる。

With the overwhelming trend of mask image modeling led by MAE, generative pre-training has shown a remarkable potential to boost the performance of fundamental models in 2D vision. However, in 3D vision, the over-reliance on Transformer-based backbones and the unordered nature of point clouds have restricted the further development of generative pre-training. In this paper, we propose a novel 3D-to-2D generative pre-training method that is adaptable to any point cloud model. We propose to generate view images from different instructed poses via the cross-attention mechanism as the pre-training scheme. Generating view images has more precise supervision than its point cloud counterpart, thus assisting 3D backbones to have a finer comprehension of the geometrical structure and stereoscopic relations of the point cloud. Experimental results have proved the superiority of our proposed 3D-to-2D generative pre-training over previous pre-training methods. Our method is also effective in boosting the performance of architecture-oriented approaches, achieving state-of-the-art performance when fine-tuning on ScanObjectNN classification and ShapeNetPart segmentation tasks. Code is available at https://github.com/wangzy22/TAP.
翻訳日:2023-07-28 13:51:32 公開日:2023-07-27
# 新しい情報伝達境界を用いた消散型ボソニックハミルトン学習

Dissipation-enabled bosonic Hamiltonian learning via new information-propagation bounds ( http://arxiv.org/abs/2307.15026v1 )

ライセンス: Link先を確認
Tim M\"obus, Andreas Bluhm, Matthias C. Caro, Albert H. Werner, Cambyse Rouz\'e(参考訳) 信頼性の高い量子技術は、基盤となるシステムを支配するダイナミクスの知識を必要とする。 この量子デバイスや実験を連続的に特徴づけてベンチマークする問題は、ハミルトン学習問題と呼ばれる。 マルチキュービットシステムとは対照的に、ボソニックシステムのダイナミクスの学習保証は、ほとんど未解決のままである。 格子上に配置されたモードを持つ多項式として与えられる$m$-mode Hamiltonian に対して、有限次元設定からの学習戦略がボソニック設定にまで拡張され、実験側でのコヒーレン状態とヘテロダイン検出のみを必要とすることを保証する粒子数演算子の観点から単純なモーメント基準を確立する。 高い成功確率では、ハミルトンのすべての係数を精度$\varepsilon$に学習し、合計の進化時間$\mathcal{O}(\varepsilon^{-2}\log(m))$を使用する。 提案プロトコルは, 非線形多光子駆動散逸プロセスによって安定化された猫量子ビットを含む最近の量子誤り補正方式と類似した, 散逸正則化, ヘテロダイン測定などの実験的資源を包含する。 解析の重要なステップとして,光子駆動散逸と組み合わせた消滅と生成演算子において有界次数の任意のボソニックハミルトニアンが生成する進化のために,我々のモーメント基準と新しいリーブ・ロビンソン型を確立した。 我々の研究は、ボソニック・ハミルトニアンの幅広いクラスが単純な量子実験から効率的に学習できることを示し、ボソニック・リーブ・ロビンソン境界は独立に連続変数系の進化を研究するための汎用的なツールとなるかもしれない。

Reliable quantum technology requires knowledge of the dynamics governing the underlying system. This problem of characterizing and benchmarking quantum devices or experiments in continuous time is referred to as the Hamiltonian learning problem. In contrast to multi-qubit systems, learning guarantees for the dynamics of bosonic systems have hitherto remained mostly unexplored. For $m$-mode Hamiltonians given as polynomials in annihilation and creation operators with modes arranged on a lattice, we establish a simple moment criterion in terms of the particle number operator which ensures that learning strategies from the finite-dimensional setting extend to the bosonic setting, requiring only coherent states and heterodyne detection on the experimental side. We then propose an enhanced procedure based on added dissipation that even works if the Hamiltonian time evolution violates this moment criterion: With high success probability it learns all coefficients of the Hamiltonian to accuracy $\varepsilon$ using a total evolution time of $\mathcal{O}(\varepsilon^{-2}\log(m))$. Our protocol involves the experimentally reachable resources of projected coherent state preparation, dissipative regularization akin to recent quantum error correction schemes involving cat qubits stabilized by a nonlinear multi-photon driven dissipation process, and heterodyne measurements. As a crucial step in our analysis, we establish our moment criterion and a new Lieb-Robinson type bound for the evolution generated by an arbitrary bosonic Hamiltonian of bounded degree in the annihilation and creation operators combined with photon-driven dissipation. Our work demonstrates that a broad class of bosonic Hamiltonians can be efficiently learned from simple quantum experiments, and our bosonic Lieb-Robinson bound may independently serve as a versatile tool for studying evolutions on continuous variable systems.
翻訳日:2023-07-28 13:43:39 公開日:2023-07-27
# SuperCLUE: 総合的な中国語大言語モデルベンチマーク

SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark ( http://arxiv.org/abs/2307.15020v1 )

ライセンス: Link先を確認
Liang Xu, Anqi Li, Lei Zhu, Hang Xue, Changtai Zhu, Kangkang Zhao, Haonan He, Xuanwei Zhang, Qiyue Kang, Zhenzhong Lan(参考訳) 大規模言語モデル(LLM)は、人間の日常生活に組み込む可能性を示している。 したがって、実際のシナリオにおけるLLMの性能を評価する上で、ユーザの好みは最も重要な基準である。 しかし、既存のベンチマークは主に、実際のアプリケーションにおけるモデルの能力の理解を制限するマルチチョイス質問を用いたモデルの精度の測定に重点を置いている。 このギャップを埋めるために、中国の総合ベンチマークSuperCLUEを提案しています。 SuperCLUEには、LCMバトルプラットフォーム(CArena)から派生した実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問の3つのサブタスクが含まれている。 本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。 同時に、お互いを補完して実際のユーザの好みを予測することもできる。 また、GPT-4は、中国語の文脈におけるオープンエンド質問に対する人間の嗜好を自動的に評価する信頼性の高い判断であることを示す。 私たちのベンチマークはhttps://www.cluebenchmarks.comでリリースされる予定です。

Large language models (LLMs) have shown the potential to be integrated into human daily lives. Therefore, user preference is the most critical criterion for assessing LLMs' performance in real-world scenarios. However, existing benchmarks mainly focus on measuring models' accuracy using multi-choice questions, which limits the understanding of their capabilities in real applications. We fill this gap by proposing a comprehensive Chinese benchmark SuperCLUE, named after another popular Chinese LLM benchmark CLUE. SuperCLUE encompasses three sub-tasks: actual users' queries and ratings derived from an LLM battle platform (CArena), open-ended questions with single and multiple-turn dialogues (OPEN), and closed-ended questions with the same stems as open-ended single-turn ones (CLOSE). Our study shows that accuracy on closed-ended questions is insufficient to reflect human preferences achieved on open-ended ones. At the same time, they can complement each other to predict actual user preferences. We also demonstrate that GPT-4 is a reliable judge to automatically evaluate human preferences on open-ended questions in a Chinese context. Our benchmark will be released at https://www.CLUEbenchmarks.com
翻訳日:2023-07-28 13:43:02 公開日:2023-07-27
# ディープフェイク検出のための自己監督グラフ変換器

Self-Supervised Graph Transformer for Deepfake Detection ( http://arxiv.org/abs/2307.15019v1 )

ライセンス: Link先を確認
Aminollah Khormali, and Jiann-Shiun Yuan(参考訳) ディープフェイク検出手法は、特定のデータセット内の偽造を認識できる有望な結果を示しており、トレーニングとテストは、インディストリビューションデータセット上で行われる。 しかし、その性能は見当たらないサンプルを提示すると著しく低下する。 その結果、信頼性の高いディープフェイク検出システムは、一般的な検出性能を保証するために、偽造タイプ、外観、品質に不公平でなければならない。 クロスデータセットの一般化を強化する様々な試みにもかかわらず、特にビデオ圧縮やぼやけなどの一般的な後処理の摂動に対してテストする場合、この問題は依然として困難である。 そこで本研究では, 共通汚職に耐えつつ, 特徴説明可能性を実現する, 自己指導型事前学習モデルを活用したディープフェイク検出フレームワークを提案する。 このフレームワークは、自己指導型コントラスト学習手法を介して事前訓練された視覚的トランスフォーマーアーキテクチャに基づく特徴抽出器と、トランスフォーマー識別器と結合されたグラフ畳み込みネットワークと、操作された領域をよりよく理解し、モデルの決定を説明するグラフトランスフォーマー関連マップの3つの主要なコンポーネントから構成される。 提案手法の有効性を評価するため,データ分散性能,クロスデータセット,クロスマニピュレーション一般化,一般的なポストプロダクション摂動に対する堅牢性など,いくつかの挑戦的な実験を行った。 その結果,現在の最先端手法を超越したディープフェイク検出フレームワークの有効性が実証された。

Deepfake detection methods have shown promising results in recognizing forgeries within a given dataset, where training and testing take place on the in-distribution dataset. However, their performance deteriorates significantly when presented with unseen samples. As a result, a reliable deepfake detection system must remain impartial to forgery types, appearance, and quality for guaranteed generalizable detection performance. Despite various attempts to enhance cross-dataset generalization, the problem remains challenging, particularly when testing against common post-processing perturbations, such as video compression or blur. Hence, this study introduces a deepfake detection framework, leveraging a self-supervised pre-training model that delivers exceptional generalization ability, withstanding common corruptions and enabling feature explainability. The framework comprises three key components: a feature extractor based on vision Transformer architecture that is pre-trained via self-supervised contrastive learning methodology, a graph convolution network coupled with a Transformer discriminator, and a graph Transformer relevancy map that provides a better understanding of manipulated regions and further explains the model's decision. To assess the effectiveness of the proposed framework, several challenging experiments are conducted, including in-data distribution performance, cross-dataset, cross-manipulation generalization, and robustness against common post-production perturbations. The results achieved demonstrate the remarkable effectiveness of the proposed deepfake detection framework, surpassing the current state-of-the-art approaches.
翻訳日:2023-07-28 13:42:38 公開日:2023-07-27
# 個人フェデレーションデータ分析のためのsamplable匿名アグリゲーション

Samplable Anonymous Aggregation for Private Federated Data Analysis ( http://arxiv.org/abs/2307.15017v1 )

ライセンス: Link先を確認
Kunal Talwar, Shan Wang, Audra McMillan, Vojta Jina, Vitaly Feldman, Bailey Basile, Aine Cahill, Yi Sheng Chan, Mike Chatzidakis, Junye Chen, Oliver Chick, Mona Chitnis, Suman Ganta, Yusuf Goren, Filip Granqvist, Kristine Guo, Frederic Jacobs, Omid Javidbakht, Albert Liu, Richard Low, Dan Mascenik, Steve Myers, David Park, Wonhee Park, Gianni Parsa, Tommy Pauly, Christian Priebe, Rehan Rishi, Guy Rothblum, Michael Scaria, Linmao Song, Congzheng Song, Karl Tarbe, Sebastian Vogt, Luke Winstrom, Shundong Zhou(参考訳) 各デバイスがプライベートデータを保持した場合、プライベート統計とプライベートフェデレーション学習のためのスケーラブルなプロトコルを設計する問題を再検討する。 最初のコントリビューションは、複数のよく使われるアルゴリズムを効率的に実装できるシンプルなプリミティブを提案し、それに関連する強い信頼の前提を必要とせずに、中央設定でそれに近いプライバシー会計を可能にすることです。 次に,このプリミティブを実装し,提案するシステムのセキュリティ解析を行うシステムアーキテクチャを提案する。

We revisit the problem of designing scalable protocols for private statistics and private federated learning when each device holds its private data. Our first contribution is to propose a simple primitive that allows for efficient implementation of several commonly used algorithms, and allows for privacy accounting that is close to that in the central setting without requiring the strong trust assumptions it entails. Second, we propose a system architecture that implements this primitive and perform a security analysis of the proposed system.
翻訳日:2023-07-28 13:42:12 公開日:2023-07-27
# Google Bardのビジュアル理解はどんなものか? オープンチャレンジに関する実証的研究

How Good is Google Bard's Visual Understanding? An Empirical Study on Open Challenges ( http://arxiv.org/abs/2307.15016v1 )

ライセンス: Link先を確認
Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan, Luc Van Gool(参考訳) GoogleのBardは、会話型AIの分野で、OpenAIのChatGPTの強力なライバルとして登場した。 特に最近bardは、会話中のテキストプロンプトと並行してビジュアル入力を処理するようにアップデートされた。 Bardのテキスト入力処理における印象的なトラックレコードを考えると、テキスト質問による視覚データ(画像)の理解と解釈の能力を探求する。 この調査は、bardや他の来るべきマルチモーダル生成モデル、特に正確な視覚と言語理解を必要とする複雑なコンピュータビジョン問題に対する新しい洞察と挑戦を披露する可能性を秘めている。 具体的には,Bardの性能を総合的に評価するために,正規,カモフラージュ,医療,水中およびリモートセンシングデータを含む15種類のタスクシナリオに着目した。 私たちの主要な発見は、Bardがいまだにこれらのビジョンシナリオで苦労していることを示している。 この経験的研究は、将来のモデルを進める上で有益であることが証明され、きめ細かいビジュアルデータの理解と解釈の能力が向上することを期待している。 私たちのプロジェクトはhttps://github.com/htqin/GoogleBard-VisUnderstandでリリースされています。

Google's Bard has emerged as a formidable competitor to OpenAI's ChatGPT in the field of conversational AI. Notably, Bard has recently been updated to handle visual inputs alongside text prompts during conversations. Given Bard's impressive track record in handling textual inputs, we explore its capabilities in understanding and interpreting visual data (images) conditioned by text questions. This exploration holds the potential to unveil new insights and challenges for Bard and other forthcoming multi-modal Generative models, especially in addressing complex computer vision problems that demand accurate visual and language understanding. Specifically, in this study, we focus on 15 diverse task scenarios encompassing regular, camouflaged, medical, under-water and remote sensing data to comprehensively evaluate Bard's performance. Our primary finding indicates that Bard still struggles in these vision scenarios, highlighting the significant gap in vision-based understanding that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, leading to enhanced capabilities in comprehending and interpreting fine-grained visual data. Our project is released on https://github.com/htqin/GoogleBard-VisUnderstand
翻訳日:2023-07-28 13:42:02 公開日:2023-07-27
# eavesdropper's classical shadowsによる監視量子力学の学習可能性遷移

Learnability transitions in monitored quantum dynamics via eavesdropper's classical shadows ( http://arxiv.org/abs/2307.15011v1 )

ライセンス: Link先を確認
Matteo Ippoliti and Vedika Khemani(参考訳) 計測された量子力学は、最近、平衡から離れた量子多体系の相構造のためのリッチドメインとして出現した。 本研究では,量子多体系ではなく,古典的測定結果にアクセス可能な盗聴者の視点からダイナミクスを観察した。 量子システムから古典的な計測記録(情報パワー)への情報フローの測定は、測定誘起相転移(MIPT)に対応して相転移することを示す。 この遷移は、監視されたダイナミクスと任意の古典的計算資源の完全な古典的記述を与えると、システムの未知の初期量子状態の性質を学習するeavesdropperの(in)能力を決定する。 この学習可能性遷移を、盗聴者がこの問題に適用可能な古典的シャドウプロトコルを定義することで具体化し、MIPTが様々なシャドウ推定タスクのサンプル複雑性の遷移として現れ、低測定フェーズでは困難になることを示す。 パウリ期待値(miptが典型的なパウリ作用素の最適学習可能性の点として現れる)、多体忠実性、u(1)$対称力学における大域電荷の3つの応用に注目した。 我々の研究は学習可能性の傘の下でmiptの異なる表現を統一し、古典的影を通してこの概念を一般的な操作的意味を与える。

Monitored quantum dynamics -- unitary evolution interspersed with measurements -- has recently emerged as a rich domain for phase structure in quantum many-body systems away from equilibrium. Here we study monitored dynamics from the point of view of an eavesdropper who has access to the classical measurement outcomes, but not to the quantum many-body system. We show that a measure of information flow from the quantum system to the classical measurement record -- the informational power -- undergoes a phase transition in correspondence with the measurement-induced phase transition (MIPT). This transition determines the eavesdropper's (in)ability to learn properties of an unknown initial quantum state of the system, given a complete classical description of the monitored dynamics and arbitrary classical computational resources. We make this learnability transition concrete by defining classical shadows protocols that the eavesdropper may apply to this problem, and show that the MIPT manifests as a transition in the sample complexity of various shadow estimation tasks, which become harder in the low-measurement phase. We focus on three applications of interest: Pauli expectation values (where we find the MIPT appears as a point of optimal learnability for typical Pauli operators), many-body fidelity, and global charge in $U(1)$-symmetric dynamics. Our work unifies different manifestations of the MIPT under the umbrella of learnability and gives this notion a general operational meaning via classical shadows.
翻訳日:2023-07-28 13:41:42 公開日:2023-07-27
# 物理貯留層計算のための高調波合成活性粒子

Harnessing Synthetic Active Particles for Physical Reservoir Computing ( http://arxiv.org/abs/2307.15010v1 )

ライセンス: Link先を確認
Xiangzun Wang, Frank Cichos(参考訳) 情報の処理は、膨大な複雑さを持つアクティブなプロセスのネットワークによって実現される生きたシステムの不可欠な性質である。 彼らは現代の機械学習の多くの変種にインスピレーションを与えており、そのうちの1つは貯水池コンピューティングであり、ノードのネットワークをフェードメモリで刺激することで計算と複雑な予測が可能になる。 貯水池はコンピュータハードウェア上に実装されているが、機械振動子、スピン、バクテリアといった従来の物理基板にも実装されている。 ここでは, 活性および受動的成分から自然にノイズの多い非線形力学単位へ自己組織する, 合成能動マイクロ粒子システムによる物理貯水池計算について述べる。 ユニットの自己組織化と動的応答は、受動標的へのマイクロスウィマーの遅れた推進の結果である。 遅延応答による自己結合を伴うそのような単位の貯水池は、マイクロスウィマーのブラウン運動による強い雑音にもかかわらず予測タスクを行うことができる。 効率の良いノイズ抑圧を実現するために,歴史的貯蓄状態を用いた特殊なアーキテクチャを導入する。 本研究は, 合成自己組織化能動粒子系における情報処理の研究の道を開くものである。

The processing of information is an indispensable property of living systems realized by networks of active processes with enormous complexity. They have inspired many variants of modern machine learning one of them being reservoir computing, in which stimulating a network of nodes with fading memory enables computations and complex predictions. Reservoirs are implemented on computer hardware, but also on unconventional physical substrates such as mechanical oscillators, spins, or bacteria often summarized as physical reservoir computing. Here we demonstrate physical reservoir computing with a synthetic active microparticle system that self-organizes from an active and passive component into inherently noisy nonlinear dynamical units. The self-organization and dynamical response of the unit is the result of a delayed propulsion of the microswimmer to a passive target. A reservoir of such units with a self-coupling via the delayed response can perform predictive tasks despite the strong noise resulting from Brownian motion of the microswimmers. To achieve efficient noise suppression, we introduce a special architecture that uses historical reservoir states for output. Our results pave the way for the study of information processing in synthetic self-organized active particle systems.
翻訳日:2023-07-28 13:41:17 公開日:2023-07-27
# 検証可能な特徴属性:ポストホック説明可能性と独立解釈可能性の間の橋渡し

Verifiable Feature Attributions: A Bridge between Post Hoc Explainability and Inherent Interpretability ( http://arxiv.org/abs/2307.15007v1 )

ライセンス: Link先を確認
Usha Bhalla, Suraj Srinivas, Himabindu Lakkaraju(参考訳) 機械学習モデルをさまざまな現実世界のアプリケーションに展開する機会が増えるにつれ、研究者や実践者たちもモデル行動の説明の必要性を強調している。 この目的のために、モデルを説明するための2つの幅広い戦略が以前の文献で概説されている。 ポストホックな説明法では、複雑なブラックボックスモデルの振る舞いを、モデル予測に不可欠な特徴を強調して説明するが、先行研究では、これらの説明は忠実でない可能性を示しており、さらにその検証が不可能である。 特に、与えられた帰属が基礎となるモデルに関して正しいかどうかを評価することは非自明である。 一方、真に解釈可能なモデルは、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避し、その説明は自然に忠実で検証可能であるが、表現力の制限により予測性能が劣ることが多い。 本研究では,ブラックボックスモデルから自然に忠実で検証可能な特徴属性をもたらすモデルに変換するVerifiability Tuning(VerT)を提案することによって,上記の戦略間のギャップを埋めることを目的とする。 まず,検証可能性を理解するための形式的理論的枠組みを導入し,標準モデルによる帰属を検証できないことを示す。 次に、このフレームワークを利用して、完全に訓練されたブラックボックスモデルから検証可能なモデルと特徴属性を構築する方法を提案する。 最後に, 半合成および実世界のデータセットに関する広範な実験を行い, 1) 正確で検証可能な説明を出力し, (2) 説明を意図したオリジナルのブラックボックスモデルに忠実なVerTが生成することを示す。

With the increased deployment of machine learning models in various real-world applications, researchers and practitioners alike have emphasized the need for explanations of model behaviour. To this end, two broad strategies have been outlined in prior literature to explain models. Post hoc explanation methods explain the behaviour of complex black-box models by highlighting features that are critical to model predictions; however, prior work has shown that these explanations may not be faithful, and even more concerning is our inability to verify them. Specifically, it is nontrivial to evaluate if a given attribution is correct with respect to the underlying model. Inherently interpretable models, on the other hand, circumvent these issues by explicitly encoding explanations into model architecture, meaning their explanations are naturally faithful and verifiable, but they often exhibit poor predictive performance due to their limited expressive power. In this work, we aim to bridge the gap between the aforementioned strategies by proposing Verifiability Tuning (VerT), a method that transforms black-box models into models that naturally yield faithful and verifiable feature attributions. We begin by introducing a formal theoretical framework to understand verifiability and show that attributions produced by standard models cannot be verified. We then leverage this framework to propose a method to build verifiable models and feature attributions out of fully trained black-box models. Finally, we perform extensive experiments on semi-synthetic and real-world datasets, and show that VerT produces models that (1) yield explanations that are correct and verifiable and (2) are faithful to the original black-box models they are meant to explain.
翻訳日:2023-07-28 13:41:00 公開日:2023-07-27
# KNNを用いたテキスト分類におけるGzip vs. bag-of-words

Gzip versus bag-of-words for text classification with KNN ( http://arxiv.org/abs/2307.15002v1 )

ライセンス: Link先を確認
Juri Opitz(参考訳) KNNベースのテキスト分類(gzip)における圧縮距離の有効性は近年注目されている。 本報告では, より簡単な方法で類似あるいはより良い効率が達成でき, テキスト圧縮は不要であることを示す。 実際、単純な 'bag-of-words' マッチングは、同等またはより良い精度を達成でき、より効率的である。

The effectiveness of compression distance in KNN-based text classification ('gzip') has recently garnered lots of attention. In this note, we show that similar or better effectiveness can be achieved with simpler means, and text compression may not be necessary. Indeed, we find that a simple 'bag-of-words' matching can achieve similar or better accuracy, and is more efficient.
翻訳日:2023-07-28 13:40:31 公開日:2023-07-27
# 中性原子アーキテクチャの制約下での量子回路の分解とルーティング

Decomposing and Routing Quantum Circuits Under Constraints for Neutral Atom Architectures ( http://arxiv.org/abs/2307.14996v1 )

ライセンス: Link先を確認
Natalia Nottingham, Michael A. Perlin, Ryan White, Hannes Bernien, Frederic T. Chong, and Jonathan M. Baker(参考訳) 量子コンピューティングは、急速に進化する量子ハードウェア技術によって定義され、高いゲートエラー率、大量のノイズ、短いコヒーレンス時間と組み合わせられた時代である。 これらの制限を克服するには、基盤となるハードウェア技術の強みと弱みを考慮したシステムレベルのアプローチが必要である。 しかし、中性原子のネイティブゲートセットへのコンパイルに先立ち、中性原子デバイスのためのハードウェア対応コンパイラ技術はほとんど存在しない。 特に、現在の中性原子ハードウェアは局所アドレッシングを介して特定の単一ビット回転をサポートしていないため、回路を多数のゲートに分解する必要があることが多く、長い回路長と全体の忠実度は低い。 我々は,中性原子量子コンピュータにおける局所アドレス性の制限を克服するための最初のコンパイラを提案する。 本稿では,複数のアーキテクチャにおいてゲート実行コストを支配するグローバルゲートの総パルス面積を最適化することに着目し,回路を中性原子ネイティブゲート集合に分解するアルゴリズムを提案する。 さらに、高コストのゲート分解の代替として原子移動を探求し、多くの量子回路にとって大きなオーバーヘッドであり続けるルーティングによる大幅な高速化を得る。 私たちの分解最適化では、グローバルゲートの実行時間とシングルキュービットゲートの実行時間の最大3.5倍と2.9倍のスピードアップを実現しています。 atom移動ルーティングアルゴリズムと組み合わせると、コンパイラは最大10倍の回路長削減を実現し、忠実度が約2倍向上しました。 我々は,中性原子技術の発展に伴い,コンパイラ戦略が様々なハードウェアレベルのパラメータに適用可能であることを示す。

Quantum computing is in an era defined by rapidly evolving quantum hardware technologies, combined with persisting high gate error rates, large amounts of noise, and short coherence times. Overcoming these limitations requires systems-level approaches that account for the strengths and weaknesses of the underlying hardware technology. Yet few hardware-aware compiler techniques exist for neutral atom devices, with no prior work on compiling to the neutral atom native gate set. In particular, current neutral atom hardware does not support certain single-qubit rotations via local addressing, which often requires the circuit to be decomposed into a large number of gates, leading to long circuit durations and low overall fidelities. We propose the first compiler designed to overcome the challenges of limited local addressibility in neutral atom quantum computers. We present algorithms to decompose circuits into the neutral atom native gate set, with emphasis on optimizing total pulse area of global gates, which dominate gate execution costs in several current architectures. Furthermore, we explore atom movement as an alternative to expensive gate decompositions, gaining immense speedup with routing, which remains a huge overhead for many quantum circuits. Our decomposition optimizations result in up to ~3.5x and ~2.9x speedup in time spent executing global gates and time spent executing single-qubit gates, respectively. When combined with our atom movement routing algorithms, our compiler achieves up to ~10x reduction in circuit duration, with over ~2x improvement in fidelity. We show that our compiler strategies can be adapted for a variety of hardware-level parameters as neutral atom technology continues to develop.
翻訳日:2023-07-28 13:40:24 公開日:2023-07-27
# 正規化マスクチューニング:事前学習型視覚言語モデルにおける隠れた知識の発見

Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language Models ( http://arxiv.org/abs/2307.15049v1 )

ライセンス: Link先を確認
Kecheng Zheng, Wei Wu, Ruili Feng, Kai Zhu, Jiawei Liu, Deli Zhao, Zheng-Jun Zha, Wei Chen, Yujun Shen(参考訳) プロンプトチューニングとアダプタチューニングは、事前学習された視覚言語モデル(VLM)を様々な下流タスクに転送する大きな可能性を示している。 本研究では,学習可能な選択によってネットワークパラメータをマスキングする,正則化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。 神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング前の段階では隠されていると論じる。 有用な知識を光に戻すために、まず、与えられた下流タスクに重要なパラメータのセットを特定し、次に各パラメータにバイナリマスクをアタッチし、最後にパラメータを凍結して下流データ上のマスクを最適化する。 マスク更新時に,パラメータ選択を正則化する新しい勾配ドロップアウト戦略を導入し,モデルが古い知識を忘れ,下流データにオーバーフィットすることを防止する。 11のデータセットにおける実験結果から,従来の方法よりも一貫性のある優越性が示された。 平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。 さらに,提案手法は既存のパラメータ効率の高いチューニング手法と相乗的であり,それらの性能を向上させることができる。 プロジェクトページはこちら(https://wuw2019.github.io/rmt/)。

Prompt tuning and adapter tuning have shown great potential in transferring pre-trained vision-language models (VLMs) to various downstream tasks. In this work, we design a new type of tuning method, termed as regularized mask tuning, which masks the network parameters through a learnable selection. Inspired by neural pathways, we argue that the knowledge required by a downstream task already exists in the pre-trained weights but just gets concealed in the upstream pre-training stage. To bring the useful knowledge back into light, we first identify a set of parameters that are important to a given downstream task, then attach a binary mask to each parameter, and finally optimize these masks on the downstream data with the parameters frozen. When updating the mask, we introduce a novel gradient dropout strategy to regularize the parameter selection, in order to prevent the model from forgetting old knowledge and overfitting the downstream data. Experimental results on 11 datasets demonstrate the consistent superiority of our method over previous alternatives. It is noteworthy that we manage to deliver 18.73% performance improvement compared to the zero-shot CLIP via masking an average of only 2.56% parameters. Furthermore, our method is synergistic with most existing parameter-efficient tuning methods and can boost the performance on top of them. Project page can be found here (https://wuw2019.github.io/RMT/).
翻訳日:2023-07-28 13:34:57 公開日:2023-07-27
# キャビティ媒介分子の絡み合いと光の非古典状態の生成

Cavity-Mediated Molecular Entanglement and Generation of Non-Classical States of Light ( http://arxiv.org/abs/2307.15047v1 )

ライセンス: Link先を確認
Davis M. Welakuh, Spyros Tserkis, Scott E. Smart, Prineha Narang(参考訳) 量子力学系における絡み合いの生成と制御は、ほぼ全ての量子応用の重要な要素である。 分子システムは有望な候補であり、多くの自由度を標的とすることができる。 しかし,システム間絡み合い機構の知識は限られている。 本研究では,弱いコヒーレント場によって駆動されるキャビティモードと強いカップリングにより分子の振動自由度間の絡み合いが生じることを実証する。 両分子系では、エンタングルメントはキャビティと分子システムの間に生じるだけでなく、分子間にも生じることが示されている。 この過程はまた、分子系の絡み合いを利用した潜在的な経路を提供する非古典的な光状態を生成する。

The generation and control of entanglement in a quantum mechanical system is a critical element of nearly all quantum applications. Molecular systems are a promising candidate, with numerous degrees of freedom able to be targeted. However, knowledge of inter-system entanglement mechanisms in such systems is limited. In this work, we demonstrate the generation of entanglement between vibrational degrees of freedom in molecules via strong coupling to a cavity mode driven by a weak coherent field. In a bi-molecular system, we show entanglement can not only be generated between the cavity and molecular system, but also between molecules. This process also results in the generation of non-classical states of light, providing potential pathways for harnessing entanglement in molecular systems.
翻訳日:2023-07-28 13:34:34 公開日:2023-07-27
# アラビア語オフライン手書きテキスト認識のためのトランスフォーマティブに基づくアプローチ

A Transformer-based Approach for Arabic Offline Handwritten Text Recognition ( http://arxiv.org/abs/2307.15045v1 )

ライセンス: Link先を確認
Saleh Momeni and Bagher BabaAli(参考訳) 手書き文字認識は、パターン認識と機械学習の分野において困難で重要な問題であり、アプリケーションは幅広い領域にまたがる。 本稿では,オフラインでアラビア語の手書き文字を認識するという課題に注目する。 既存のアプローチでは、画像の特徴抽出に畳み込みニューラルネットワーク、時間的モデリングに繰り返しニューラルネットワーク、テキスト生成に使用される接続性時間的分類の組み合わせが一般的である。 しかし、これらの手法は再帰的ニューラルネットワークの逐次的性質のために並列化の欠如に苦しむ。 さらに、これらのモデルでは言語規則を考慮できないため、処理後の段階で外部言語モデルを使用することで精度を高める必要がある。 これらの問題を克服するために,Transformer Transducerと標準シーケンス・ツー・シーケンス・トランスフォーマーという2つの代替アーキテクチャを導入し,その性能を精度と速度で比較する。 私たちのアプローチは言語依存をモデル化することができ、注意機構のみに依存するので、より並列化可能で、より複雑ではありません。 我々は画像理解と言語モデリングの両方に事前訓練されたトランスフォーマーを用いる。 アラビアKHATTデータセットを用いた評価の結果,提案手法はオフラインのアラビア文字を認識するための最先端の手法よりも優れていることがわかった。

Handwriting recognition is a challenging and critical problem in the fields of pattern recognition and machine learning, with applications spanning a wide range of domains. In this paper, we focus on the specific issue of recognizing offline Arabic handwritten text. Existing approaches typically utilize a combination of convolutional neural networks for image feature extraction and recurrent neural networks for temporal modeling, with connectionist temporal classification used for text generation. However, these methods suffer from a lack of parallelization due to the sequential nature of recurrent neural networks. Furthermore, these models cannot account for linguistic rules, necessitating the use of an external language model in the post-processing stage to boost accuracy. To overcome these issues, we introduce two alternative architectures, namely the Transformer Transducer and the standard sequence-to-sequence Transformer, and compare their performance in terms of accuracy and speed. Our approach can model language dependencies and relies only on the attention mechanism, thereby making it more parallelizable and less complex. We employ pre-trained Transformers for both image understanding and language modeling. Our evaluation on the Arabic KHATT dataset demonstrates that our proposed method outperforms the current state-of-the-art approaches for recognizing offline Arabic handwritten text.
翻訳日:2023-07-28 13:34:24 公開日:2023-07-27
# 言語モデルに対する普遍的および移動可能な敵攻撃

Universal and Transferable Adversarial Attacks on Aligned Language Models ( http://arxiv.org/abs/2307.15043v1 )

ライセンス: Link先を確認
Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson(参考訳) アウト・オブ・ボックス」な大規模言語モデルは、多くの不快なコンテンツを生成することができるため、最近の研究は、望ましくない生成を防ぐためにこれらのモデルを調整することに注力している。 LLMに対するいわゆる「ジェイルブレイク(jailbreak)」の回避にはいくつかの成功があったが、これらの攻撃には重大な人間の創発が必要であり、実際は脆弱である。 本稿では,協調した言語モデルに不利な振る舞いを生じさせる簡易かつ効果的な攻撃手法を提案する。 特に,本手法では,LLM が好ましくないコンテンツを生成するための広範囲なクエリにアタッチすると,モデルが肯定的な応答を生成する確率を最大化することを目的としている(回答を拒むのではなく)。 しかし,本手法は手動工学に頼らず,グリーディと勾配に基づく探索手法を組み合わせることで,これらの接尾辞を自動生成し,過去の自動プロンプト生成手法を改良する。 意外なことに、我々のアプローチによって生成された敵のプロンプトは、ブラックボックスや公開LLMなど、かなり転送可能である。 具体的には、複数のプロンプト(例えば、さまざまな種類の反対コンテンツを要求するクエリ)と複数のモデル(この場合、Vicuna-7Bと13B)で敵攻撃接尾辞を訓練する。 これにより、結果として生じる攻撃サフィックスは、チャットgpt、bard、claude、およびllama-2-chat、pythia、falconなどのオープンソースllmに対して、公開インターフェースの不快なコンテンツを誘導することができる。 全体として、この研究は、協調言語モデルに対する敵対的攻撃の最先端性を著しく向上させ、そのようなシステムが不適切な情報を生成できないかという重要な疑問を提起する。 コードはgithub.com/llm-attacks/llm-attacksで入手できる。

Because "out-of-the-box" large language models are capable of generating a great deal of objectionable content, recent work has focused on aligning these models in an attempt to prevent undesirable generation. While there has been some success at circumventing these measures -- so-called "jailbreaks" against LLMs -- these attacks have required significant human ingenuity and are brittle in practice. In this paper, we propose a simple and effective attack method that causes aligned language models to generate objectionable behaviors. Specifically, our approach finds a suffix that, when attached to a wide range of queries for an LLM to produce objectionable content, aims to maximize the probability that the model produces an affirmative response (rather than refusing to answer). However, instead of relying on manual engineering, our approach automatically produces these adversarial suffixes by a combination of greedy and gradient-based search techniques, and also improves over past automatic prompt generation methods. Surprisingly, we find that the adversarial prompts generated by our approach are quite transferable, including to black-box, publicly released LLMs. Specifically, we train an adversarial attack suffix on multiple prompts (i.e., queries asking for many different types of objectionable content), as well as multiple models (in our case, Vicuna-7B and 13B). When doing so, the resulting attack suffix is able to induce objectionable content in the public interfaces to ChatGPT, Bard, and Claude, as well as open source LLMs such as LLaMA-2-Chat, Pythia, Falcon, and others. In total, this work significantly advances the state-of-the-art in adversarial attacks against aligned language models, raising important questions about how such systems can be prevented from producing objectionable information. Code is available at github.com/llm-attacks/llm-attacks.
翻訳日:2023-07-28 13:34:03 公開日:2023-07-27
# tedi: 長期運動合成のための時間的エンタングル拡散

TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis ( http://arxiv.org/abs/2307.15042v1 )

ライセンス: Link先を確認
Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka(参考訳) 少量の増分で試料を合成する拡散過程の段階的な性質は、画像合成において前例のない品質を示し、最近モーション領域で研究されたデノイジン拡散確率モデル(ddpm)の重要な要素である。 本研究では,動き列の時間軸に漸進拡散の概念(拡散時間軸に沿って動作)を適用することを提案する。 私たちのキーとなる考え方は、DDPMフレームワークを拡張して、時間的に異なるデノイングをサポートし、2つの軸を絡み合わせることです。 特殊な定式化を用いて, 任意に長いフレーム列を自動生成するポーズの組を含む動きバッファを反復的にデノベートする。 定常拡散時間軸では、各拡散ステップでは、フレームがバッファの先頭から削除された新しいクリーンなフレームを生成し、それに加えられた新しく描画されたノイズベクトルを生成するように、運動の時間軸のみを増加させる。 この新しいメカニズムは、キャラクターアニメーションや他のドメインへの応用により、長期動作合成のための新しいフレームワークへの道を開く。

The gradual nature of a diffusion process that synthesizes samples in small increments constitutes a key ingredient of Denoising Diffusion Probabilistic Models (DDPM), which have presented unprecedented quality in image synthesis and been recently explored in the motion domain. In this work, we propose to adapt the gradual diffusion concept (operating along a diffusion time-axis) into the temporal-axis of the motion sequence. Our key idea is to extend the DDPM framework to support temporally varying denoising, thereby entangling the two axes. Using our special formulation, we iteratively denoise a motion buffer that contains a set of increasingly-noised poses, which auto-regressively produces an arbitrarily long stream of frames. With a stationary diffusion time-axis, in each diffusion step we increment only the temporal-axis of the motion such that the framework produces a new, clean frame which is removed from the beginning of the buffer, followed by a newly drawn noise vector that is appended to it. This new mechanism paves the way towards a new framework for long-term motion synthesis with applications to character animation and other domains.
翻訳日:2023-07-28 13:33:25 公開日:2023-07-27
# オンライン連続記憶のためのスパース量子ホップフィールドネットワーク

A Sparse Quantized Hopfield Network for Online-Continual Memory ( http://arxiv.org/abs/2307.15040v1 )

ライセンス: Link先を確認
Nick Alonso and Jeff Krichmar(参考訳) 脳とディープニューラルネットワークの重要な違いは、学習方法である。 神経系は、ノイズのあるデータポイントのストリームが非独立で同じ分散(非i.i.d.)方法で提示されるオンラインで学習する。 さらに、脳のシナプス可塑性はシナプスに関連する情報にのみ依存する。 一方、ディープネットワークは、通常非ローカルな学習アルゴリズムを使用し、オフライン、非ノイズ、すなわち設定で訓練される。 ニューラルネットワークが脳と同じ制約の下でどのように学習するかを理解することは、神経科学とニューロモルフィックコンピューティングのオープンな問題である。 この問題に対する標準的なアプローチはまだ確立されていない。 本稿では,オンラインの最大後進学習アルゴリズムを用いて学習する離散グラフィカルモデルが,そのようなアプローチを提供できることを示す。 我々は、スパース量子ホップフィールドネットワーク(SQHN)と呼ばれる新しいニューラルネットワークにこの種のモデルを実装する。 我々は、SQHNが、連想メモリタスクにおける最先端のニューラルネットワークより優れており、オンラインの設定ではこれらのモデルより優れており、ノイズの多い入力で効率的に学習し、新しいエピソードメモリタスクのベースラインよりも優れていることを示す。

An important difference between brains and deep neural networks is the way they learn. Nervous systems learn online where a stream of noisy data points are presented in a non-independent, identically distributed (non-i.i.d.) way. Further, synaptic plasticity in the brain depends only on information local to synapses. Deep networks, on the other hand, typically use non-local learning algorithms and are trained in an offline, non-noisy, i.i.d. setting. Understanding how neural networks learn under the same constraints as the brain is an open problem for neuroscience and neuromorphic computing. A standard approach to this problem has yet to be established. In this paper, we propose that discrete graphical models that learn via an online maximum a posteriori learning algorithm could provide such an approach. We implement this kind of model in a novel neural network called the Sparse Quantized Hopfield Network (SQHN). We show that SQHNs outperform state-of-the-art neural networks on associative memory tasks, outperform these models in online, non-i.i.d. settings, learn efficiently with noisy inputs, and are better than baselines on a novel episodic memory task.
翻訳日:2023-07-28 13:33:05 公開日:2023-07-27
# 混合精度によるフーリエニューラル演算子の高速化

Speeding up Fourier Neural Operators via Mixed Precision ( http://arxiv.org/abs/2307.15034v1 )

ライセンス: Link先を確認
Colin White, Renbo Tu, Jean Kossaifi, Gennady Pekhimenko, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) フーリエニューラル作用素 (FNO) は偏微分方程式 (PDE) 解作用素の代理写像を学習する強力な手法である。 高解像度のデータポイントを必要とする多くの現実世界アプリケーションにとって、トレーニング時間とメモリ使用量は重大なボトルネックとなる。 標準ニューラルネットワークには混合精度トレーニング技術があるが、有限次元の実数値データ型には適用できないため、(複素値)フーリエ領域や関数空間において重要な動作を行うfnoには直接適用できない。 一方、フーリエ変換はすでに近似(離散化誤差のため)であるため、完全精度で演算を行う必要はない。 この作品では、 (i)フルかつ混合精度のFNOのためのプロファイルメモリとランタイム。 (ii)fnoの混合精密訓練の数値的安定性についての研究、及び (iii)navier-stokes方程式とdarcy流方程式のトレーニング時間とメモリ使用量を大幅に削減するトレーニングルーチン(最大34%)を考案する。 最近提案されたテンソル化FNO(Kossaifi et al., 2023)と組み合わせることで、このモデルの性能は向上し、オリジナルのFNOよりも大幅に向上した。

The Fourier neural operator (FNO) is a powerful technique for learning surrogate maps for partial differential equation (PDE) solution operators. For many real-world applications, which often require high-resolution data points, training time and memory usage are significant bottlenecks. While there are mixed-precision training techniques for standard neural networks, those work for real-valued datatypes on finite dimensions and therefore cannot be directly applied to FNO, which crucially operates in the (complex-valued) Fourier domain and in function spaces. On the other hand, since the Fourier transform is already an approximation (due to discretization error), we do not need to perform the operation at full precision. In this work, we (i) profile memory and runtime for FNO with full and mixed-precision training, (ii) conduct a study on the numerical stability of mixed-precision training of FNO, and (iii) devise a training routine which substantially decreases training time and memory usage (up to 34%), with little or no reduction in accuracy, on the Navier-Stokes and Darcy flow equations. Combined with the recently proposed tensorized FNO (Kossaifi et al., 2023), the resulting model has far better performance while also being significantly faster than the original FNO.
翻訳日:2023-07-28 13:32:45 公開日:2023-07-27
# GANインバージョンによる多面体塗装と編集

Diverse Inpainting and Editing with GAN Inversion ( http://arxiv.org/abs/2307.15033v1 )

ライセンス: Link先を確認
Ahmet Burak Yildirim, Hamza Pehlivan, Bahri Batuhan Bilecen, Aysegul Dundar(参考訳) 近年の逆転法により、実画像はStyleGANの潜在空間に逆転することができ、よく訓練されたGANモデルのセマンティックにリッチな特徴表現により、これらの画像に対して多数の編集が可能であることが示されている。 しかし,高忠実度復元と編集性とのトレードオフにより,画像の逆転が困難であることも広く研究されている。 本稿では,より困難な課題に取り組み,消去された画像をGANの潜伏空間に逆転させ,リアルな塗り絵や編集を行う。 さらに,逆潜時符号を異なる潜時サンプルで拡張することにより,多彩な塗布を実現する。 具体的には,消去画像からのエンコード特徴とランダムサンプルからのstyleganのマッピング特徴を組み合わせたエンコーダとミキシングネットワークの学習を提案する。 ミキシングネットワークが両方の入力を利用するように促すため、新しい設定で生成されたデータを用いてネットワークを訓練する。 また,塗布部と消色部の色の不整合を防止するために,高次の特徴を利用する。 広範な実験を行い,最先端のインバージョン法とインパインティング法との比較を行った。 質的指標と視覚的比較は大幅な改善を示している。

Recent inversion methods have shown that real images can be inverted into StyleGAN's latent space and numerous edits can be achieved on those images thanks to the semantically rich feature representations of well-trained GAN models. However, extensive research has also shown that image inversion is challenging due to the trade-off between high-fidelity reconstruction and editability. In this paper, we tackle an even more difficult task, inverting erased images into GAN's latent space for realistic inpaintings and editings. Furthermore, by augmenting inverted latent codes with different latent samples, we achieve diverse inpaintings. Specifically, we propose to learn an encoder and mixing network to combine encoded features from erased images with StyleGAN's mapped features from random samples. To encourage the mixing network to utilize both inputs, we train the networks with generated data via a novel set-up. We also utilize higher-rate features to prevent color inconsistencies between the inpainted and unerased parts. We run extensive experiments and compare our method with state-of-the-art inversion and inpainting methods. Qualitative metrics and visual comparisons show significant improvements.
翻訳日:2023-07-28 13:32:24 公開日:2023-07-27
# シーンテキスト検出のための適応セグメンテーションネットワーク

Adaptive Segmentation Network for Scene Text Detection ( http://arxiv.org/abs/2307.15029v1 )

ライセンス: Link先を確認
Guiqin Zhao(参考訳) 深層畳み込みセグメンテーションアルゴリズムにインスパイアされたシーンテキスト検出器は、データセットのパフォーマンス天井を着実に破壊する。 しかし、これらの手法はしばしばしきい値選択のボトルネックに遭遇し、極端なアスペクト比を持つテキストインスタンスでは性能が劣る。 本稿では,セグメンテーションに基づくテキスト検出のための背景画素とテキスト画素を区別するセグメンテーション閾値を自動的に学習し,さらに時間を要する手動パラメータ調整を低減させる。 また,グローバル情報強化機能ピラミッドネットワーク (ge-fpn) を設計し,マクロサイズと極端アスペクト比でテキストをキャプチャする。 GE-FPNの後、テキストインスタンスをさらに洗練するためにカスケード最適化構造を導入する。 最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応セグメンテーションネットワーク(ASNet)を設計する。 提案したASNetは, ICDAR 2015, MSRA-TD500, ICDAR 2017 MLT, CTW1500の4つのテキスト検出ベンチマークにおいて, 最先端のパフォーマンスを達成できることを示した。 アブレーション実験は,我々の貢献の有効性も検証した。

Inspired by deep convolution segmentation algorithms, scene text detectors break the performance ceiling of datasets steadily. However, these methods often encounter threshold selection bottlenecks and have poor performance on text instances with extreme aspect ratios. In this paper, we propose to automatically learn the discriminate segmentation threshold, which distinguishes text pixels from background pixels for segmentation-based scene text detectors and then further reduces the time-consuming manual parameter adjustment. Besides, we design a Global-information Enhanced Feature Pyramid Network (GE-FPN) for capturing text instances with macro size and extreme aspect ratios. Following the GE-FPN, we introduce a cascade optimization structure to further refine the text instances. Finally, together with the proposed threshold learning strategy and text detection structure, we design an Adaptive Segmentation Network (ASNet) for scene text detection. Extensive experiments are carried out to demonstrate that the proposed ASNet can achieve the state-of-the-art performance on four text detection benchmarks, i.e., ICDAR 2015, MSRA-TD500, ICDAR 2017 MLT and CTW1500. The ablation experiments also verify the effectiveness of our contributions.
翻訳日:2023-07-28 13:32:03 公開日:2023-07-27
# コミュニティの規模と相互接続によるオンラインプラットフォームの集中度測定

Measuring Centralization of Online Platforms Through Size and Interconnection of Communities ( http://arxiv.org/abs/2307.15027v1 )

ライセンス: Link先を確認
Milo Z. Trujillo, Laurent H\'ebert-Dufresne, James Bagrow(参考訳) 集中型モデレーションと計算は標的攻撃によって簡単に破壊できるため、分散アーキテクチャはオンラインプラットフォームに堅牢で柔軟な構造を提供する。 しかし、分散アーキテクチャを提供するプラットフォームは、ユーザが分散的な方法でそれを使用することを保証しておらず、社会技術ネットワークの集中度を測定することは容易ではない。 本稿では,コミュニティの排除によってコミュニティ間の縁が乱される回数の観点から,コミュニティの影響を特徴づける手法を提案する。 本手法は, 地域社会技術ネットワークの2部構成に適する「集中化」を慎重に定義し, 地域社会規模の分布を調べるなど, より自明な手法の欠如を実証する。 この手法を用いて,複数の社会技術プラットフォーム – Mastodon, gitコードホスティングサーバ, BitChute, Usenet, Voat – の構造を比較し,相互接続されているが分散化されたgitサーバから,Mastodonサーバの効果的に集中的な利用,さらには非接続のVoatサブバースのマルチスケールハイブリッドネットワーク構造に至るまで,さまざまな構造を見出す。 社会技術的プラットフォームのエコシステムが多様化するにつれて、基盤となる技術だけに焦点を当てるだけでなく、技術的なインフラを通じたユーザのインタラクション構造も考慮することが重要になる。

Decentralized architecture offers a robust and flexible structure for online platforms, since centralized moderation and computation can be easy to disrupt with targeted attacks. However, a platform offering a decentralized architecture does not guarantee that users will use it in a decentralized way, and measuring the centralization of socio-technical networks is not an easy task. In this paper we introduce a method of characterizing community influence in terms of how many edges between communities would be disrupted by a community's removal. Our approach provides a careful definition of "centralization" appropriate in bipartite user-community socio-technical networks, and demonstrates the inadequacy of more trivial methods for interrogating centralization such as examining the distribution of community sizes. We use this method to compare the structure of multiple socio-technical platforms -- Mastodon, git code hosting servers, BitChute, Usenet, and Voat -- and find a range of structures, from interconnected but decentralized git servers to an effectively centralized use of Mastodon servers, as well as multiscale hybrid network structures of disconnected Voat subverses. As the ecosystem of socio-technical platforms diversifies, it becomes critical to not solely focus on the underlying technologies but also consider the structure of how users interact through the technical infrastructure.
翻訳日:2023-07-28 13:31:39 公開日:2023-07-27
# 自己監督型視覚音響マッチング

Self-Supervised Visual Acoustic Matching ( http://arxiv.org/abs/2307.15064v1 )

ライセンス: Link先を確認
Arjun Somayazulu, Changan Chen, Kristen Grauman(参考訳) 音響マッチングは、ターゲット音響環境に録音されたような音声クリップを再合成することを目的としている。 既存の方法は、ソースとターゲット環境の両方でオーディオが観測されるペアトレーニングデータへのアクセスを前提としているが、これはトレーニングデータの多様性を制限するか、あるいはペアサンプルを作成するためにシミュレーションデータやヒューリスティックを使用する必要がある。 本研究では,対象のシーン画像と音声のみを含む視覚的音響マッチングに対する自己教師型アプローチを提案する。 提案手法は, 室内音響をアンタングル化し, ターゲット環境に再合成する手法である。条件付きGANフレームワークと, 残音情報の残音レベルを定量化するための新しい計量法である。 In-theld Webデータまたはシミュレートされたデータを使用したトレーニングでは、複数の挑戦的なデータセットと、さまざまな現実世界のオーディオおよび環境において、最先端のデータセットよりも優れています。

Acoustic matching aims to re-synthesize an audio clip to sound as if it were recorded in a target acoustic environment. Existing methods assume access to paired training data, where the audio is observed in both source and target environments, but this limits the diversity of training data or requires the use of simulated data or heuristics to create paired samples. We propose a self-supervised approach to visual acoustic matching where training samples include only the target scene image and audio -- without acoustically mismatched source audio for reference. Our approach jointly learns to disentangle room acoustics and re-synthesize audio into the target environment, via a conditional GAN framework and a novel metric that quantifies the level of residual acoustic information in the de-biased audio. Training with either in-the-wild web data or simulated data, we demonstrate it outperforms the state-of-the-art on multiple challenging datasets and a wide variety of real-world audio and environments.
翻訳日:2023-07-28 13:23:25 公開日:2023-07-27
# 適応するか適応しないか? 意味セグメンテーションのためのリアルタイム適応

To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2307.15063v1 )

ライセンス: Link先を確認
Marc Botet Colomer, Pier Luigi Dovesi, Theodoros Panagiotakopoulos, Joao Frederico Carvalho, Linus H\"arenstam-Nielsen, Hossein Azizpour, Hedvig Kjellstr\"om, Daniel Cremers, Matteo Poggi(参考訳) セマンティックセグメンテーションのためのオンラインドメイン適応の目標は、突然の気象イベントなど、デプロイメント中に発生する予期せぬドメイン変更に対処することだ。 しかし、ブルートフォース適応に伴う高い計算コストにより、このパラダイムは現実世界のアプリケーションでは実現不可能である。 本稿では,リアルタイムドメイン適応のためのハードウェア・アウェア Modular Least Expensive TrainingフレームワークHAMLETを提案する。 我々のアプローチには、ハードウェア対応のバックプロパゲーションオーケストレーションエージェント(HAMT)と、モデルがいつ、どのように適合するかをアクティブに制御できる専用のドメインシフト検出器が含まれている。 これらの進歩により、我々は1つのコンシューマグレードGPU上で29FPS以上で同時にセマンティックセグメンテーションを行うことができる。 このフレームワークの精度と速度のトレードオフを,実験結果を通じてOnDAおよびShiftベンチマークで実証した。

The goal of Online Domain Adaptation for semantic segmentation is to handle unforeseeable domain changes that occur during deployment, like sudden weather events. However, the high computational costs associated with brute-force adaptation make this paradigm unfeasible for real-world applications. In this paper we propose HAMLET, a Hardware-Aware Modular Least Expensive Training framework for real-time domain adaptation. Our approach includes a hardware-aware back-propagation orchestration agent (HAMT) and a dedicated domain-shift detector that enables active control over when and how the model is adapted (LT). Thanks to these advancements, our approach is capable of performing semantic segmentation while simultaneously adapting at more than 29FPS on a single consumer-grade GPU. Our framework's encouraging accuracy and speed trade-off is demonstrated on OnDA and SHIFT benchmarks through experimental results.
翻訳日:2023-07-28 13:23:07 公開日:2023-07-27
# ランダム階層グラフにおける量子ウォークの指数的高速化

Exponential speedups for quantum walks in random hierarchical graphs ( http://arxiv.org/abs/2307.15062v1 )

ライセンス: Link先を確認
Shankar Balasubramanian, Tongyang Li, Aram Harrow(参考訳) 量子アルゴリズムの指数的スピードアップは知られていないが、これらはさらに少ないファミリーに分類される傾向がある。 一般化に抵抗するスピードアップの1つは、Childs, Cleve, Deotto, Farhi, Gutmann, Spielman が溶接木グラフを横切るために量子ウォークを使うことである。 これを階層グラフの大規模なクラスに一般化する方法を示し、そこで頂点は$d$次元格子に従って配置される `supervertices' にグループ化される。 スーパーバーチスは異なるサイズを持ち、スーパーバーチス間のエッジは構成頂点間のランダム接続に対応する。 これらのグラフ上の量子ウォークのヒット時間は、特定の乱れた強結合ハミルトニアンにおけるゼロモードの局在特性と関連している。 スピードアップは、下層の次元とランダムグラフモデルによって、スーパーポリノミカルから指数関数まで様々である。 また,これらの階層グラフを具体的に実現し,グラフスカラー化を用いた効率的な量子トラバース時間を用いたグラフ構築法を提案する。

There are few known exponential speedups for quantum algorithms and these tend to fall into even fewer families. One speedup that has mostly resisted generalization is the use of quantum walks to traverse the welded-tree graph, due to Childs, Cleve, Deotto, Farhi, Gutmann, and Spielman. We show how to generalize this to a large class of hierarchical graphs in which the vertices are grouped into ``supervertices'' which are arranged according to a $d$-dimensional lattice. Supervertices can have different sizes, and edges between supervertices correspond to random connections between their constituent vertices. The hitting times of quantum walks on these graphs are related to the localization properties of zero modes in certain disordered tight binding Hamiltonians. The speedups range from superpolynomial to exponential, depending on the underlying dimension and the random graph model. We also provide concrete realizations of these hierarchical graphs, and introduce a general method for constructing graphs with efficient quantum traversal times using graph sparsification.
翻訳日:2023-07-28 13:22:52 公開日:2023-07-27
# RoboDepth Challenge:ロバスト深さ推定に向けた手法と進歩

The RoboDepth Challenge: Methods and Advancements Towards Robust Depth Estimation ( http://arxiv.org/abs/2307.15061v1 )

ライセンス: Link先を確認
Lingdong Kong and Yaru Niu and Shaoyuan Xie and Hanjiang Hu and Lai Xing Ng and Benoit R. Cottereau and Ding Zhao and Liangjun Zhang and Hesheng Wang and Wei Tsang Ooi and Ruijie Zhu and Ziyang Song and Li Liu and Tianzhu Zhang and Jun Yu and Mohan Jing and Pengwei Li and Xiaohua Qi and Cheng Jin and Yingfeng Chen and Jie Hou and Jie Zhang and Zhen Kan and Qiang Ling and Liang Peng and Minglei Li and Di Xu and Changpeng Yang and Yuanqi Yao and Gang Wu and Jian Kuai and Xianming Liu and Junjun Jiang and Jiamian Huang and Baojun Li and Jiale Chen and Shuang Zhang and Sun Ao and Zhenyu Li and Runze Chen and Haiyong Luo and Fang Zhao and Jingze Yu(参考訳) 危険気象条件,センサ故障,騒音汚染などのod(out-of-distribution)シナリオ下での正確な深さ推定は,安全クリティカルな用途に望ましい。 しかし、既存の深度推定システムは、必然的に現実世界の腐敗や摂動に悩まされ、そのような場合の信頼性の高い深度予測に苦慮している。 本稿では,頑健なOoD深度推定を容易にすることを目的とした学術コンペであるRoboDepth Challengeの優勝ソリューションを要約する。 この問題は、新たに確立されたKITTI-CとNYUDepth2-Cベンチマークに基づいて開発された。 2つのスタンドアローンのトラックをホストし,それぞれロバストな自己教師付きおよびロバストな完全教師付き深さ推定を重視した。 200人を超える参加者のうち、9つの独特で最高のソリューションが登場し、空間領域と周波数領域の強化、マスク付き画像モデリング、画像復元と超高解像度化、対向訓練、拡散に基づくノイズ抑圧、視覚言語による事前学習、学習モデルエンハンスブル、階層的特徴強化など、新しい設計がなされている。 各設計の背後にある理論的根拠をよりよく理解するために、広範囲な実験分析と洞察的な観察が示される。 この課題が,堅牢で信頼性の高い深さ推定に関する今後の研究の基盤となることを願っています。 データセット、競争ツールキット、ワークショップ記録、優勝チームのソースコードは、チャレンジウェブサイトで公開されている。

Accurate depth estimation under out-of-distribution (OoD) scenarios, such as adverse weather conditions, sensor failure, and noise contamination, is desirable for safety-critical applications. Existing depth estimation systems, however, suffer inevitably from real-world corruptions and perturbations and are struggled to provide reliable depth predictions under such cases. In this paper, we summarize the winning solutions from the RoboDepth Challenge -- an academic competition designed to facilitate and advance robust OoD depth estimation. This challenge was developed based on the newly established KITTI-C and NYUDepth2-C benchmarks. We hosted two stand-alone tracks, with an emphasis on robust self-supervised and robust fully-supervised depth estimation, respectively. Out of more than two hundred participants, nine unique and top-performing solutions have appeared, with novel designs ranging from the following aspects: spatial- and frequency-domain augmentations, masked image modeling, image restoration and super-resolution, adversarial training, diffusion-based noise suppression, vision-language pre-training, learned model ensembling, and hierarchical feature enhancement. Extensive experimental analyses along with insightful observations are drawn to better understand the rationale behind each design. We hope this challenge could lay a solid foundation for future research on robust and reliable depth estimation and beyond. The datasets, competition toolkit, workshop recordings, and source code from the winning teams are publicly available on the challenge website.
翻訳日:2023-07-28 13:22:33 公開日:2023-07-27
# MARS: 自律運転のためのインスタンス対応,モジュール型,リアリスティックシミュレータ

MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving ( http://arxiv.org/abs/2307.15058v1 )

ライセンス: Link先を確認
Zirui Wu, Tianyu Liu, Liyi Luo, Zhide Zhong, Jianteng Chen, Hongmin Xiao, Chao Hou, Haozhe Lou, Yuantao Chen, Runyi Yang, Yuxin Huang, Xiaoyu Ye, Zike Yan, Yongliang Shi, Yiyi Liao, Hao Zhao(参考訳) 今日では、自動運転車は通常のケースではスムーズに運転でき、現実的なセンサーシミュレーションは、残りのコーナーケースをシミュレーションすることで解決する上で重要な役割を果たすことが広く認識されている。 そこで本研究ではneural radiance fields (nerfs)に基づく自律運転シミュレータを提案する。 既存の作業と比較すると,その特徴は3つある。 シミュレータは,インスタンスの静的特性(サイズや外観など)と動的特性(軌道など)を別々に制御できるように,フォアグラウンドインスタンスとバックグラウンド環境を独立したネットワークと別々にモデル化する。 (2) モジュール。 我々のシミュレーターは、最新のNeRF関連バックボーン、サンプリング戦略、入力モダリティ等を柔軟に切り替えることができる。 我々はこのモジュラー設計が、NeRFに基づく自動運転シミュレーションの学術的進歩と産業展開を促進することを期待している。 (3)現実主義。 我々のシミュレーターは、最高のモジュール選択を条件に、最先端のフォトリアリズムを新たに設定した。 私たちのシミュレータはオープンソースですが、ほとんどのシミュレータはオープンソースではありません。 プロジェクトページ: https://open-air-sun.github.io/mars/

Nowadays, autonomous cars can drive smoothly in ordinary cases, and it is widely recognized that realistic sensor simulation will play a critical role in solving remaining corner cases by simulating them. To this end, we propose an autonomous driving simulator based upon neural radiance fields (NeRFs). Compared with existing works, ours has three notable features: (1) Instance-aware. Our simulator models the foreground instances and background environments separately with independent networks so that the static (e.g., size and appearance) and dynamic (e.g., trajectory) properties of instances can be controlled separately. (2) Modular. Our simulator allows flexible switching between different modern NeRF-related backbones, sampling strategies, input modalities, etc. We expect this modular design to boost academic progress and industrial deployment of NeRF-based autonomous driving simulation. (3) Realistic. Our simulator set new state-of-the-art photo-realism results given the best module selection. Our simulator will be open-sourced while most of our counterparts are not. Project page: https://open-air-sun.github.io/mars/.
翻訳日:2023-07-28 13:22:09 公開日:2023-07-27
# PointOdyssey: 長期追跡のための大規模合成データセット

PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking ( http://arxiv.org/abs/2307.15055v1 )

ライセンス: Link先を確認
Yang Zheng and Adam W. Harley and Bokui Shen and Gordon Wetzstein and Leonidas J. Guibas(参考訳) 我々は,長期細粒度追跡アルゴリズムの訓練と評価のために,大規模合成データセットとデータ生成フレームワークであるpointodysseyを紹介する。 私たちの目標は、自然主義的な動きの長いビデオに重きを置くことによって、最先端の芸術を前進させることです。 自然主義の目標に向けて,実世界のモーションキャプチャデータを用いて変形可能な文字をアニメーションし,モーションキャプチャ環境に適合する3dシーンを構築し,実映像で構造から運動まで抽出した軌跡を用いてカメラ視点を描画する。 我々は、キャラクターの外観、動きのプロファイル、材料、照明、3Dアセット、大気効果をランダムにすることで、組合せの多様性を生み出す。 私たちのデータセットには104の動画が含まれており、平均2000フレームが使われています。 既存のメソッドはデータセットのスクラッチからトレーニングでき、公開された変種よりも優れています。 最後に,PIPの点追跡手法を改良し,その時間的受容領域を大幅に拡張し,PointOdysseyおよび2つの実世界のベンチマークの性能を向上する。 私たちのデータとコードは、https://pointodyssey.comで公開されています。

We introduce PointOdyssey, a large-scale synthetic dataset, and data generation framework, for the training and evaluation of long-term fine-grained tracking algorithms. Our goal is to advance the state-of-the-art by placing emphasis on long videos with naturalistic motion. Toward the goal of naturalism, we animate deformable characters using real-world motion capture data, we build 3D scenes to match the motion capture environments, and we render camera viewpoints using trajectories mined via structure-from-motion on real videos. We create combinatorial diversity by randomizing character appearance, motion profiles, materials, lighting, 3D assets, and atmospheric effects. Our dataset currently includes 104 videos, averaging 2,000 frames long, with orders of magnitude more correspondence annotations than prior work. We show that existing methods can be trained from scratch in our dataset and outperform the published variants. Finally, we introduce modifications to the PIPs point tracking method, greatly widening its temporal receptive field, which improves its performance on PointOdyssey as well as on two real-world benchmarks. Our data and code are publicly available at: https://pointodyssey.com
翻訳日:2023-07-28 13:21:51 公開日:2023-07-27
# 因果探究の幾何学的表記法

A Geometric Notion of Causal Probing ( http://arxiv.org/abs/2307.15054v1 )

ライセンス: Link先を確認
Cl\'ement Guerner, Anej Svete, Tianyu Liu, Alexander Warstadt, Ryan Cotterell(参考訳) 大規模言語モデルは、予測を行うためにテキストの実数値表現に依存する。 これらの表現には、モデルが訓練したデータから得た情報が含まれており、言語特性の知識や、性別に基づく人口統計バイアスの形式が含まれる。 増大する仕事体は、表現空間の部分空間への直交射影を用いるような概念に関する情報を考えてきた。 我々は,言語モデルの表現空間の部分空間における内在的情報の形式的定義を提案することにより,この作業に寄与する。 部分空間の成分とその直交補集合を独立に扱うことにより,スプリアス相関(kumar et al., 2022)の失敗モードを回避する反事実的アプローチを提案する。 部分空間における情報の対実的概念は因果的概念のサブ空間によって最適化されていることを示す。 さらに,この介入により,表現の概念成分の値を操作することで,概念制御生成を試みることができる。 経験的に、r-lace (ravfogel et al., 2022) は、我々の枠組みの約半分の概念情報を含む1次元部分空間を返す。 我々の因果制御による介入は、少なくとも1つのモデルにおいて、R-LACEで返される部分空間は、生成された単語の概念値を精度良く操作できることを示している。

Large language models rely on real-valued representations of text to make their predictions. These representations contain information learned from the data that the model has trained on, including knowledge of linguistic properties and forms of demographic bias, e.g., based on gender. A growing body of work has considered information about concepts such as these using orthogonal projections onto subspaces of the representation space. We contribute to this body of work by proposing a formal definition of intrinsic information in a subspace of a language model's representation space. We propose a counterfactual approach that avoids the failure mode of spurious correlations (Kumar et al., 2022) by treating components in the subspace and its orthogonal complement independently. We show that our counterfactual notion of information in a subspace is optimizing by an causal concept subspace. Furthermore, this intervention allows us to attempt concept controlled generation by manipulating the value of the conceptual component of a representation. Empirically, we find that R-LACE (Ravfogel et al., 2022) returns a one-dimensional subspace containing roughly half of total concept information under our framework. Our causal controlled intervention shows that, for at least one model, the subspace returned by R-LACE can be used to manipulate the concept value of the generated word with precision.
翻訳日:2023-07-28 13:21:31 公開日:2023-07-27
# 上位$レコメンデーションのためのオフライン評価指標としての(非正規化)累積ゲインについて

On (Normalised) Discounted Cumulative Gain as an Offline Evaluation Metric for Top-$n$ Recommendation ( http://arxiv.org/abs/2307.15053v1 )

ライセンス: Link先を確認
Olivier Jeunen, Ivan Potapov, Aleksei Ustimenko(参考訳) 推奨へのアプローチは一般的に2つの方法で評価される: (1)(シミュレーションされた)オンライン実験、しばしばゴールドスタンダードと見なされる、または(2)オンライン実験の結果を近似するオフライン評価手順である。 いくつかのオフライン評価指標が文献で採用されており、インフォメーション検索の分野で広く使われているランキング指標にインスパイアされている。 (ノーマル化) ディスカウント累積利得(英語版)(ndcg)は経験的研究で広く採用されているような指標の一つであり、より高い(n)dcg値は、長年にわたってトップ$n$レコメンデーションの最先端技術として新しい方法を示すために用いられてきた。 我々の研究は、このアプローチを批判的に考察し、そのような指標がオンライン実験のゴールドスタンダードの成果をいつ期待できるかを調査する。 我々は,DCGをオンライン報酬の偏りのない推定指標とみなすために必要な仮定を正式に提示し,この指標を第一原理から導出する。 重要なことは、計量の正規化は、DCGが非バイアスである場合でも、それらの正規化されたDCGによる競合メソッドのランク付けが相対的な順序を逆転できるという点において矛盾することを示している。 大規模レコメンデーションプラットフォーム上で行ったオフライン実験とオンライン実験の相関分析により,我々の偏見のないDCG推定値とオンライン報酬との相関関係が,指標固有の仮定に違反した場合でも強く示された。 この文はもはや正規化された変種を定めておらず、nDCGの実用性は制限される可能性があることを示唆している。

Approaches to recommendation are typically evaluated in one of two ways: (1) via a (simulated) online experiment, often seen as the gold standard, or (2) via some offline evaluation procedure, where the goal is to approximate the outcome of an online experiment. Several offline evaluation metrics have been adopted in the literature, inspired by ranking metrics prevalent in the field of Information Retrieval. (Normalised) Discounted Cumulative Gain (nDCG) is one such metric that has seen widespread adoption in empirical studies, and higher (n)DCG values have been used to present new methods as the state-of-the-art in top-$n$ recommendation for many years. Our work takes a critical look at this approach, and investigates when we can expect such metrics to approximate the gold standard outcome of an online experiment. We formally present the assumptions that are necessary to consider DCG an unbiased estimator of online reward and provide a derivation for this metric from first principles, highlighting where we deviate from its traditional uses in IR. Importantly, we show that normalising the metric renders it inconsistent, in that even when DCG is unbiased, ranking competing methods by their normalised DCG can invert their relative order. Through a correlation analysis between off- and on-line experiments conducted on a large-scale recommendation platform, we show that our unbiased DCG estimates strongly correlate with online reward, even when some of the metric's inherent assumptions are violated. This statement no longer holds for its normalised variant, suggesting that nDCG's practical utility may be limited.
翻訳日:2023-07-28 13:21:11 公開日:2023-07-27
# 透明面とミラー面の学習深度推定

Learning Depth Estimation for Transparent and Mirror Surfaces ( http://arxiv.org/abs/2307.15052v1 )

ライセンス: Link先を確認
Alex Costanzino, Pierluigi Zama Ramirez, Matteo Poggi, Fabio Tosi, Stefano Mattoccia, Luigi Di Stefano(参考訳) 透明またはミラー(ToM)表面の深さを推定することは、センサー、アルゴリズム、またはディープネットワークにとって難しい課題である。 本稿では,ニューラルネットワークを用いた表面の深度を,地平線アノテーションを必要とせずに正確に推定する簡単なパイプラインを提案する。 画像中のToMオブジェクトをインペイントし、単眼深度推定モデルで処理することで、信頼できる擬似ラベルを得る方法について明らかにする。 これらのラベルは、既存のモノクロまたはステレオネットワークを微調整して、tomサーフェスに対処する方法を学ぶのに使うことができる。 Boosterデータセットの実験結果は、非常に単純な提案によって実現された劇的な改善を示している。

Inferring the depth of transparent or mirror (ToM) surfaces represents a hard challenge for either sensors, algorithms, or deep networks. We propose a simple pipeline for learning to estimate depth properly for such surfaces with neural networks, without requiring any ground-truth annotation. We unveil how to obtain reliable pseudo labels by in-painting ToM objects in images and processing them with a monocular depth estimation model. These labels can be used to fine-tune existing monocular or stereo networks, to let them learn how to deal with ToM surfaces. Experimental results on the Booster dataset show the dramatic improvements enabled by our remarkably simple proposal.
翻訳日:2023-07-28 13:20:37 公開日:2023-07-27
# 言語モデルを用いた患者とのマッチングの試み

Matching Patients to Clinical Trials with Large Language Models ( http://arxiv.org/abs/2307.15051v1 )

ライセンス: Link先を確認
Qiao Jin, Zifeng Wang, Charalampos S. Floudas, Jimeng Sun, Zhiyong Lu(参考訳) 臨床試験は医薬品開発やエビデンスに基づく医学の発展に不可欠であるが、その成功は患者採用の課題によってしばしば妨げられる。 本研究は,大規模言語モデル (llm) の患者や紹介医の適切な臨床治験の特定を支援する可能性について,広範な選択から検討する。 具体的には,詳細な説明を加えて基準レベルの適格性を予測するためのllmsを用いた新しいアーキテクチャであるtrialgptを紹介する。 以上より,TrialGPTは184例および18,238例の公用コホートで評価した。 実験の結果,TrialGPTは高い基準レベルの予測精度を忠実な説明で達成した。 第2に、総合試行レベルのトライアルgptスコアは、専門家の適格アノテーションと高い相関がある。 第三に、これらのスコアは臨床試験のランク付けに有効であり、資格のない候補を除外する。 我々の誤り分析は、現在のLLMが医療知識の制限とドメイン固有のコンテキスト理解のためにまだいくつかの誤りを犯していることを示唆している。 にもかかわらず、LLMの解説能力は非常に貴重である。 将来の研究は、こうしたaiアシスタントを現実世界の設定で通常のトライアルマッチングワークフローに統合し、効率を向上させる方法が保証されている。

Clinical trials are vital in advancing drug development and evidence-based medicine, but their success is often hindered by challenges in patient recruitment. In this work, we investigate the potential of large language models (LLMs) to assist individual patients and referral physicians in identifying suitable clinical trials from an extensive selection. Specifically, we introduce TrialGPT, a novel architecture employing LLMs to predict criterion-level eligibility with detailed explanations, which are then aggregated for ranking and excluding candidate clinical trials based on free-text patient notes. We evaluate TrialGPT on three publicly available cohorts of 184 patients and 18,238 annotated clinical trials. The experimental results demonstrate several key findings: First, TrialGPT achieves high criterion-level prediction accuracy with faithful explanations. Second, the aggregated trial-level TrialGPT scores are highly correlated with expert eligibility annotations. Third, these scores prove effective in ranking clinical trials and exclude ineligible candidates. Our error analysis suggests that current LLMs still make some mistakes due to limited medical knowledge and domain-specific context understanding. Nonetheless, we believe the explanatory capabilities of LLMs are highly valuable. Future research is warranted on how such AI assistants can be integrated into the routine trial matching workflow in real-world settings to improve its efficiency.
翻訳日:2023-07-28 13:20:26 公開日:2023-07-27
# 感情自動体験者認識

Automatic Emotion Experiencer Recognition ( http://arxiv.org/abs/2305.16731v4 )

ライセンス: Link先を確認
Maximilian Wegge and Roman Klinger(参考訳) 感情分析における最も顕著なサブタスクは感情分類であり、例えばソーシャルメディアの投稿のように、カテゴリをテキスト単位に割り当てる。 しかし、社会科学からの多くの研究質問は、ポストの著者の感情を検知するだけでなく、誰がテキストで感情を記述しているかを理解することを必要とする。 このタスクは、テキストで記述された人物を抽出して感情、理由、そして誰に向かって経験することを目的とした感情ロールラベリングによって取り組まれる。 しかし、答えるべき主な疑問が、どの感情を感じるかであるなら、これは過度に洗練される可能性がある。 このような設定のためのターゲットとなるアプローチは、おそらく知覚される感情について、感情経験者による言及(いわゆる「エモーター」)を分類することである。 このタスクは、上記のすべてのエンティティ名がエモターであるとは限らないため、名前付きエンティティ認識と似ている。 emoterアノテーションを備えたデータはごく最近利用可能になったが、そのような言及を検出する実験はまだ行われていない。 本稿では,タスクの難しさを理解するためのベースライン実験を行う。 金の言及が得られない場合,経験者固有の感情分類とパイプラインにおける評価検出への影響をさらに評価する。 テキストにおける経験者検出は.82の精度と.56のリコール(f1 =.66)の難しい課題である。 これらの結果は、エモスタスパンと感情/評価予測を共同でモデル化する将来の仕事の動機付けとなる。

The most prominent subtask in emotion analysis is emotion classification; to assign a category to a textual unit, for instance a social media post. Many research questions from the social sciences do, however, not only require the detection of the emotion of an author of a post but to understand who is ascribed an emotion in text. This task is tackled by emotion role labeling which aims at extracting who is described in text to experience an emotion, why, and towards whom. This could, however, be considered overly sophisticated if the main question to answer is who feels which emotion. A targeted approach for such setup is to classify emotion experiencer mentions (aka "emoters") regarding the emotion they presumably perceive. This task is similar to named entity recognition of person names with the difference that not every mentioned entity name is an emoter. While, very recently, data with emoter annotations has been made available, no experiments have yet been performed to detect such mentions. With this paper, we provide baseline experiments to understand how challenging the task is. We further evaluate the impact on experiencer-specific emotion categorization and appraisal detection in a pipeline, when gold mentions are not available. We show that experiencer detection in text is a challenging task, with a precision of .82 and a recall of .56 (F1 =.66). These results motivate future work of jointly modeling emoter spans and emotion/appraisal predictions.
翻訳日:2023-07-28 11:35:12 公開日:2023-07-27
# ロングテール認識問題における重みバランスの検討

Exploring Weight Balancing on Long-Tailed Recognition Problem ( http://arxiv.org/abs/2305.16573v4 )

ライセンス: Link先を確認
Naoya Hasegawa, Issei Sato(参考訳) サンプルサイズが意図的に調整されない限り,データセット内のクラス毎のサンプルサイズ分布が一般的に指数関数的であるため,クラス毎のサンプルサイズが重く歪んだ長いデータにおける認識問題は近年重要になっている。 これらの問題に対処するために様々なアプローチが考案された。 近年,有名な古典的正規化手法と二段階訓練を組み合わせた重みバランスが提案されている。 その単純さにもかかわらず、様々な方法で考案された既存の手法に対する高い性能で知られている。 しかし、このアプローチが長期データに有効である理由については理解されていない。 本研究では,各訓練段階における神経崩壊と錐体効果に着目した手法を分析し,重量減少とクロスエントロピー損失による特徴抽出器のフィッシャーの判別比の増加と,体重減少とクラスバランス損失による暗黙のロジット調整に分解できることを見出した。 分析により,精度を高めつつ訓練段階の数を1つに減らすことにより,より簡便な訓練方法が得られた。

Recognition problems in long-tailed data, where the sample size per class is heavily skewed, have recently gained importance because the distribution of the sample size per class in a dataset is generally exponential unless the sample size is intentionally adjusted. Various approaches have been devised to address these problems. Recently, weight balancing, which combines well-known classical regularization techniques with two-stage training, has been proposed. Despite its simplicity, it is known for its high performance against existing methods devised in various ways. However, there is a lack of understanding as to why this approach is effective for long-tailed data. In this study, we analyze the method focusing on neural collapse and cone effect at each training stage and find that it can be decomposed into the increase in Fisher's discriminant ratio of the feature extractor caused by weight decay and cross entropy loss and implicit logit adjustment caused by weight decay and class-balanced loss. Our analysis shows that the training method can be further simplified by reducing the number of training stages to one while increasing accuracy.
翻訳日:2023-07-28 11:34:49 公開日:2023-07-27
# factor fields: ニューラルフィールドとそれ以降の統一フレームワーク

Factor Fields: A Unified Framework for Neural Fields and Beyond ( http://arxiv.org/abs/2302.01226v3 )

ライセンス: Link先を確認
Anpei Chen, Zexiang Xu, Xinyue Wei, Siyu Tang, Hao Su, Andreas Geiger(参考訳) 信号のモデル化と表現のための新しいフレームワークであるファクタフィールドを提案する。 因子場は信号を因子の積に分解し、それぞれが変換された入力座標を操作する古典的または神経的場表現によって表される。 この分解により、NeRF、Plenoxels、EG3D、Instant-NGP、TensoRFなどの最近の信号表現を統一したフレームワークが得られる。 さらに,本論文の2番目の貢献である「ディクショナリーフィールド(Dictionary Field)」のような,強力な新しい信号表現の作成を可能にする。 本実験は, 従来の高速再構成法と比較して, 近似品質, コンパクト性, トレーニング時間の改善につながることを示す。 実験により,2次元画像回帰タスクにおける画像の近似精度,3次元符号付き距離場再構築時の幾何学的品質,放射場再構成タスクのコンパクト性の向上を実現した。 さらに、DiFは、トレーニング中に信号間でベースを共有することで、画像/3Dシーンの可視化を可能にし、スパース観測による画像の回帰や、少数ショットの放射野再構成といったユースケースに大きく貢献する。

We present Factor Fields, a novel framework for modeling and representing signals. Factor Fields decomposes a signal into a product of factors, each represented by a classical or neural field representation which operates on transformed input coordinates. This decomposition results in a unified framework that accommodates several recent signal representations including NeRF, Plenoxels, EG3D, Instant-NGP, and TensoRF. Additionally, our framework allows for the creation of powerful new signal representations, such as the "Dictionary Field" (DiF) which is a second contribution of this paper. Our experiments show that DiF leads to improvements in approximation quality, compactness, and training time when compared to previous fast reconstruction methods. Experimentally, our representation achieves better image approximation quality on 2D image regression tasks, higher geometric quality when reconstructing 3D signed distance fields, and higher compactness for radiance field reconstruction tasks. Furthermore, DiF enables generalization to unseen images/3D scenes by sharing bases across signals during training which greatly benefits use cases such as image regression from sparse observations and few-shot radiance field reconstruction.
翻訳日:2023-07-28 11:34:28 公開日:2023-07-27
# deep bradley-terry rating: 目立たない項目のメトリクスなしでプロパティを見積もる

Deep Bradley-Terry Rating: Estimate Properties Without Metric of Unseen Items ( http://arxiv.org/abs/2307.13709v2 )

ライセンス: Link先を確認
Satoru Fujii(参考訳) 実世界の多くの特性、例えば競争環境における望ましさや強みは直接観察できないため、評価は困難である。 この困難な問題に対処するために、先行研究は主に、ペア比較データセットにのみ現れる、既知のアイテム、特にスポーツ選手の強さを推定することに焦点を当ててきた。 本稿では、学習データに必ずしも存在しない未知のアイテムの特性を評価するための新しいMLフレームワークであるDeep Bradley-Terry Rating(DBTR)を紹介する。 従来のBradley-Terryモデルとニューラルネットワーク構造をシームレスに統合する。 また,このアーキテクチャを不公平な非対称環境に対してさらに一般化する。 実験分析においてDBTRはこれらの特性の所望の定量化をうまく学習した。

Many properties in the real world, such as desirability or strength in competitive environment, can't be directly observed, which makes them difficult to evaluate. To deal with this challenging problem, prior works have primarily focused on estimating those properties of known items, especially the strength of sports players, only of those who appears in paired comparison dataset. In this paper, we introduce Deep Bradley-Terry Rating (DBTR), a novel ML framework to evaluate any properties of unknown items, not necessarily present in the training data. Our method seamlessly integrates traditional Bradley-Terry model with a neural network structure. We also generalizes this architecture further for asymmetric environment with unfairness, which is much more common in real world settings. In our experimental analysis, DBTR successfully learned desired quantification of those properties.
翻訳日:2023-07-28 11:30:45 公開日:2023-07-27
# ラジオロジー自然言語処理のための大規模言語モデルの評価

Evaluating Large Language Models for Radiology Natural Language Processing ( http://arxiv.org/abs/2307.13693v2 )

ライセンス: Link先を確認
Zhengliang Liu, Tianyang Zhong, Yiwei Li, Yutong Zhang, Yi Pan, Zihao Zhao, Peixin Dong, Chao Cao, Yuxiao Liu, Peng Shu, Yaonai Wei, Zihao Wu, Chong Ma, Jiaqi Wang, Sheng Wang, Mengyue Zhou, Zuowei Jiang, Chunlin Li, Jason Holmes, Shaochen Xu, Lu Zhang, Haixing Dai, Kai Zhang, Lin Zhao, Yuanhao Chen, Xu Liu, Peilong Wang, Pingkun Yan, Jun Liu, Bao Ge, Lichao Sun, Dajiang Zhu, Xiang Li, Wei Liu, Xiaoyan Cai, Xintao Hu, Xi Jiang, Shu Zhang, Xin Zhang, Tuo Zhang, Shijie Zhao, Quanzheng Li, Hongtu Zhu, Dinggang Shen, Tianming Liu(参考訳) 大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。 LLMは多くの領域に革命をもたらし、医療分野に大きな影響を与えた。 大規模な言語モデルはこれまで以上に豊富であり、これらのモデルの多くは英語と中国語の両方に熟達したバイリンガル機能を持っている。 しかし、これらのモデルの総合的な評価は行われていない。 この評価の欠如は放射線学におけるNLPの文脈において特に顕著である。 本研究は, 放射線学NLPの重要な構成要素である放射線学レポートの解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。 具体的には,放射線学的所見から印象を導き出す能力を評価する。 この評価の結果は、これらのLSMの性能、強度、弱点に関する重要な洞察を与え、医療領域内での実践的応用を示す。

The rise of large language models (LLMs) has marked a pivotal shift in the field of natural language processing (NLP). LLMs have revolutionized a multitude of domains, and they have made a significant impact in the medical field. Large language models are now more abundant than ever, and many of these models exhibit bilingual capabilities, proficient in both English and Chinese. However, a comprehensive evaluation of these models remains to be conducted. This lack of assessment is especially apparent within the context of radiology NLP. This study seeks to bridge this gap by critically evaluating thirty two LLMs in interpreting radiology reports, a crucial component of radiology NLP. Specifically, the ability to derive impressions from radiologic findings is assessed. The outcomes of this evaluation provide key insights into the performance, strengths, and weaknesses of these LLMs, informing their practical applications within the medical domain.
翻訳日:2023-07-28 11:30:32 公開日:2023-07-27
# デュエット:効率的でスケーラブルなヒブリド・ネウラル・リレーション・アンダースタンディング

Duet: efficient and scalable hybriD neUral rElation undersTanding ( http://arxiv.org/abs/2307.13494v3 )

ライセンス: Link先を確認
Kaixin Zhang, Hongzhi Wang, Yabin Lu, Ziqi Li, Chang Shu, Yu Yan, Donghua Yang(参考訳) 学習された濃度推定法は従来の手法に比べて高精度である。 学習した方法の中で、クエリ駆動アプローチは、データとワークロードのドリフトの問題に長い間直面する。 クエリ駆動手法とハイブリッド方式の両方がこの問題を回避するために提案されているが、それらのうちの最先端技術でさえ高いトレーニングと推定コスト、限られたスケーラビリティ、不安定性、高濃度および高次元テーブル上の長期分布問題に悩まされており、これは学習された濃度推定器の実践的応用に大きな影響を及ぼす。 本稿では,これらの問題のほとんどが,広く用いられているプログレッシブサンプリングによるものであることを実証する。 本稿では, 自己回帰モデルに述語を導入し, サンプリングや非微分可能プロセスなしに, 濃度を直接推定する安定かつ効率的でスケーラブルなハイブリッド手法であるDuetを提案し, 推定複雑性をナルーやUAEと比較して$O(n)$から$O(1)$に低減できるだけでなく, 高濃度および高次元テーブル上で高い精度を実現する。 実験の結果、Duetは上記のすべての設計目標を達成でき、より実用的であり、GPU上のほとんどの学習した手法よりもCPU上での推論コストが低いことがわかった。

Learned cardinality estimation methods have achieved high precision compared to traditional methods. Among learned methods, query-driven approaches face the data and workload drift problem for a long time. Although both query-driven and hybrid methods are proposed to avoid this problem, even the state-of-art of them suffer from high training and estimation costs, limited scalability, instability, and long-tailed distribution problem on high cardinality and high dimensional tables, which seriously affects the practical application of learned cardinality estimators. In this paper, we prove that most of these problems are directly caused by the widely used progressive sampling. We solve this problem by introducing predicates into the autoregressive model and propose Duet, a stable, efficient, and scalable hybrid method to estimate cardinality directly without sampling or any non-differentiable process, which can not only reduces the inference complexity from $O(n)$ to $O(1)$ compared to Naru and UAE but also achieve higher accuracy on high cardinality and high dimensional tables. Experimental results show that Duet can achieve all the design goals above and be much more practical and even has a lower inference cost on CPU than that of most learned methods on GPU.
翻訳日:2023-07-28 11:30:17 公開日:2023-07-27
# 自己教師付き音声表現を用いた聴覚障害者の非侵入知性予測

Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals using Self Supervised Speech Representations ( http://arxiv.org/abs/2307.13423v2 )

ライセンス: Link先を確認
George Close, Thomas Hain, Stefan Goetze(参考訳) 自己教師付き音声表現(ssr)は、例えば、音声品質予測のための特徴抽出器(sq)のような、通常または聴覚障害のあるユーザのための音声強調システムの評価および訓練に関連する多くの音声処理タスクにうまく適用されている。 しかしながら、なぜ、どのように品質関連の情報が適切にエンコードされているのかについての正確な知識は、いまだによく分かっていない。 本研究では,SQ評価の非侵襲的予測手法を,難聴者に対する信頼度予測に拡張する。 自己教師付き表現は、非侵入予測モデルの入力特徴として有用であり、より複雑なシステムに対する競合性能を達成する。 Clarity Prediction Challenge 1リスナーとエンハンスメントシステムによるパフォーマンスの詳細な分析は、未知のシステムや(聴覚障害のある)個人への一般化を可能にするために、より多くのデータが必要であることを示唆している。

Self-supervised speech representations (SSSRs) have been successfully applied to a number of speech-processing tasks, e.g. as feature extractor for speech quality (SQ) prediction, which is, in turn, relevant for assessment and training speech enhancement systems for users with normal or impaired hearing. However, exact knowledge of why and how quality-related information is encoded well in such representations remains poorly understood. In this work, techniques for non-intrusive prediction of SQ ratings are extended to the prediction of intelligibility for hearing-impaired users. It is found that self-supervised representations are useful as input features to non-intrusive prediction models, achieving competitive performance to more complex systems. A detailed analysis of the performance depending on Clarity Prediction Challenge 1 listeners and enhancement systems indicates that more data might be needed to allow generalisation to unknown systems and (hearing-impaired) individuals
翻訳日:2023-07-28 11:29:54 公開日:2023-07-27
# より長くより良いコンテキスト理解でモデルを強化する

Empower Your Model with Longer and Better Context Comprehension ( http://arxiv.org/abs/2307.13365v2 )

ライセンス: Link先を確認
Yifei Gao, Lei Wang, Jun Fang, Longhua Hu, Jun Cheng(参考訳) 近年、多数のLarge Language Models (LLM) が出現し、AIの実装は新しい時代に入った。 これらのモデルの能力と構造を無視すると、LLMは比較的小さなサイズで、より長くより複雑なコンテキストの理解を深める必要性が高まっている。 モデルはしばしば、理解能力を超えた文列を処理し、オフトピー的あるいはカオス的応答をもたらすときに上限となる。 最近のいくつかの研究は様々な方法でこの問題に対処しようとしているが、"なぜモデルが自身の能力に補償や強化ができないのか"に焦点を合わせることは滅多にない。 本稿では,LSMにおける情報伝達の性質を徹底的に検討し,注意遷移と呼ばれる新しい手法を提案する。 このテクニックはモデルに、最小限の追加のトレーニングや生成に影響を及ぼすことで、より長く、より良いコンテキスト理解を達成する権限を与えます。 LLaMa-7bモデルを用いて800年から1900年までのコンテキストトークン長を持つXSumデータセットについて実験を行った。 結果, gpt4で評価した結果に比べ, 実質的な改善が得られた。

Recently, with the emergence of numerous Large Language Models (LLMs), the implementation of AI has entered a new era. Irrespective of these models' own capacity and structure, there is a growing demand for LLMs to possess enhanced comprehension of longer and more complex contexts with relatively smaller sizes. Models often encounter an upper limit when processing sequences of sentences that extend beyond their comprehension capacity and result in off-topic or even chaotic responses. While several recent works attempt to address this issue in various ways, they rarely focus on "why models are unable to compensate or strengthen their capabilities on their own". In this paper, we thoroughly investigate the nature of information transfer within LLMs and propose a novel technique called Attention Transition. This technique empowers models to achieve longer and better context comprehension with minimal additional training or impact on generation fluency. Our experiments are conducted on the challenging XSum dataset using LLaMa-7b model with context token length ranging from 800 to 1900. Results demonstrate that we achieve substantial improvements compared with the original generation results evaluated by GPT4.
翻訳日:2023-07-28 11:29:36 公開日:2023-07-27
# RRAML:強化された検索強化機械学習

RRAML: Reinforced Retrieval Augmented Machine Learning ( http://arxiv.org/abs/2307.12798v3 )

ライセンス: Link先を確認
Andrea Bacciu, Florin Cuconasu, Federico Siciliano, Fabrizio Silvestri, Nicola Tonellotto, Giovanni Trappolini(参考訳) 大規模言語モデル(LLM)の出現は機械学習と関連分野に革命をもたらし、人間の言語を理解し、生成し、操作する際、顕著な能力を示している。 しかし、APIベースのテキストプロンプトによる従来の使用法は、コンテキスト制約や外部ソースの可用性に関して一定の制限を課している。 これらの課題に対処するため,Reinforced Retrieval Augmented Machine Learning (RRAML) と呼ばれる新しいフレームワークを提案する。 RRAMLは、LLMの推論機能と、巨大なユーザが提供するデータベースから目的に構築された検索者によって取得されたサポート情報を統合する。 近年の強化学習の進歩を活かし,本手法はいくつかの課題を効果的に解決する。 まず、LSM勾配にアクセスする必要性を回避する。 第2に,本手法は,モデルへのアクセス制限や計算強度の制限などにより実用的でない場合が多いため,特定のタスクに対するllmの再トレーニングの負担を軽減する。 さらに,検索者のタスクを推論者とシームレスにリンクし,幻覚を緩和し,無関係を低減し,検索された文書を損なう可能性がある。 この論文で概説された研究議題は、幅広いエンティティに対するllmへのアクセスと利用を民主化し、aiの分野に大きな影響を与える可能性があると信じている。

The emergence of large language models (LLMs) has revolutionized machine learning and related fields, showcasing remarkable abilities in comprehending, generating, and manipulating human language. However, their conventional usage through API-based text prompt submissions imposes certain limitations in terms of context constraints and external source availability. To address these challenges, we propose a novel framework called Reinforced Retrieval Augmented Machine Learning (RRAML). RRAML integrates the reasoning capabilities of LLMs with supporting information retrieved by a purpose-built retriever from a vast user-provided database. By leveraging recent advancements in reinforcement learning, our method effectively addresses several critical challenges. Firstly, it circumvents the need for accessing LLM gradients. Secondly, our method alleviates the burden of retraining LLMs for specific tasks, as it is often impractical or impossible due to restricted access to the model and the computational intensity involved. Additionally we seamlessly link the retriever's task with the reasoner, mitigating hallucinations and reducing irrelevant, and potentially damaging retrieved documents. We believe that the research agenda outlined in this paper has the potential to profoundly impact the field of AI, democratizing access to and utilization of LLMs for a wide range of entities.
翻訳日:2023-07-28 11:29:19 公開日:2023-07-27
# 物体検出のための深層直接学習スパイクニューラルネットワーク

Deep Directly-Trained Spiking Neural Networks for Object Detection ( http://arxiv.org/abs/2307.11411v3 )

ライセンス: Link先を確認
Qiaoyi Su and Yuhong Chou and Yifan Hu and Jianing Li and Shijie Mei and Ziyang Zhang and Guoqi Li(参考訳) スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、時空間力学で情報をエンコードする脳誘発エネルギー効率モデルである。 近年, 直接訓練された深層SNNは, 極めて少ない時間ステップで, 分類タスクの高性能化に成功している。 しかし、オブジェクト検出の回帰タスクを直接訓練したSNNを設計する方法はまだ難しい問題である。 そこで本研究では,オブジェクト検出のためのSNNフレームワークであるEMS-YOLOを提案する。 具体的には、電力消費の少ない直接学習SNNの深さを効果的に拡張できるフルスパイク残差ブロック EMS-ResNet を設計する。 さらに、理論的には、EMS-ResNetは勾配の消失や爆発を避けることができると証明する。 その結果,提案手法は,最先端のANN-SNN変換手法(少なくとも500タイムステップ)よりも極めて少ない時間ステップ(4タイムステップのみ)で優れていた。 このモデルでは,フレームベースCOCOデータセットとイベントベースGen1データセットの5.83倍のエネルギーを消費しながら,同じアーキテクチャでANNに匹敵する性能を実現することができた。

Spiking neural networks (SNNs) are brain-inspired energy-efficient models that encode information in spatiotemporal dynamics. Recently, deep SNNs trained directly have shown great success in achieving high performance on classification tasks with very few time steps. However, how to design a directly-trained SNN for the regression task of object detection still remains a challenging problem. To address this problem, we propose EMS-YOLO, a novel directly-trained SNN framework for object detection, which is the first trial to train a deep SNN with surrogate gradients for object detection rather than ANN-SNN conversion strategies. Specifically, we design a full-spike residual block, EMS-ResNet, which can effectively extend the depth of the directly-trained SNN with low power consumption. Furthermore, we theoretically analyze and prove the EMS-ResNet could avoid gradient vanishing or exploding. The results demonstrate that our approach outperforms the state-of-the-art ANN-SNN conversion methods (at least 500 time steps) in extremely fewer time steps (only 4 time steps). It is shown that our model could achieve comparable performance to the ANN with the same architecture while consuming 5.83 times less energy on the frame-based COCO Dataset and the event-based Gen1 Dataset.
翻訳日:2023-07-28 11:28:59 公開日:2023-07-27
# TimeTuner: 時系列予測の時間表現と非現実的説明

TimeTuner: Diagnosing Time Representations for Time-Series Forecasting with Counterfactual Explanations ( http://arxiv.org/abs/2307.09916v3 )

ライセンス: Link先を確認
Jianing Hao, Qing Shi, Yilin Ye, and Wei Zeng(参考訳) ディープラーニング(DL)アプローチは、複雑なDLモデルを設計するための多くの取り組みとともに、時系列予測にますます使われています。 近年の研究では、dlの成功は効果的なデータ表現に起因しており、機能工学と表現学習の分野を育んでいることが示されている。 しかし、機能学習の自動化アプローチは通常、事前知識の導入、変数間の相互作用の特定、モデルの信頼性を保証するための評価指標の選択に限られる。 これらの制約を改善するために,本論文では,モデル行動が局所的相関,定常性,時系列表現の粒度とどのように関連しているかをアナリストが理解するための新しいビジュアル分析フレームワークであるTimeTunerを提案する。 まず, 時系列表現と多変量特徴, モデル予測の関係を関連づけるために, 反事実的説明を利用する。 次に,分割型相関行列と分岐二変量ストライプを含む複数の協調ビューを設計し,ユーザが変換選択プロセスに踏み込み,特徴空間をナビゲートし,モデル性能を推論するためのインタラクションセットを提供する。 平滑化とサンプリングの2つの変換方法でタイムチューナーをインスタンス化し,実世界の太陽黒点と多変量大気汚染物質の時系列予測への適用性を示す。 ドメインエキスパートからのフィードバックは、我々のシステムが時系列表現を特徴づけ、機能エンジニアリングプロセスを導くのに役立つことを示している。

Deep learning (DL) approaches are being increasingly used for time-series forecasting, with many efforts devoted to designing complex DL models. Recent studies have shown that the DL success is often attributed to effective data representations, fostering the fields of feature engineering and representation learning. However, automated approaches for feature learning are typically limited with respect to incorporating prior knowledge, identifying interactions among variables, and choosing evaluation metrics to ensure that the models are reliable. To improve on these limitations, this paper contributes a novel visual analytics framework, namely TimeTuner, designed to help analysts understand how model behaviors are associated with localized correlations, stationarity, and granularity of time-series representations. The system mainly consists of the following two-stage technique: We first leverage counterfactual explanations to connect the relationships among time-series representations, multivariate features and model predictions. Next, we design multiple coordinated views including a partition-based correlation matrix and juxtaposed bivariate stripes, and provide a set of interactions that allow users to step into the transformation selection process, navigate through the feature space, and reason the model performance. We instantiate TimeTuner with two transformation methods of smoothing and sampling, and demonstrate its applicability on real-world time-series forecasting of univariate sunspots and multivariate air pollutants. Feedback from domain experts indicates that our system can help characterize time-series representations and guide the feature engineering processes.
翻訳日:2023-07-28 11:28:39 公開日:2023-07-27
# 説明可能で言語非依存なllmに向けて:大規模言語のシンボリックリバースエンジニアリング

Towards Explainable and Language-Agnostic LLMs: Symbolic Reverse Engineering of Language at Scale ( http://arxiv.org/abs/2306.00017v4 )

ライセンス: Link先を確認
Walid S. Saba(参考訳) 大規模言語モデル(llm)は、undenia-blyが多くの人工知能(ai)に対する信念を変えたマイルストーンを達成した。 しかし、深層ニューラルネットワークの下位アーキテクチャの副産物である真の言語理解に関しては、これらのLLMには多くの制限がある。 さらに、それらのサブシンボリックな性質のため、これらのモデルが言語がどのように機能するかに関する知識は、常に何十億ものマイクロファチュア(重み)に埋もれてしまう。 これらの制約に対処するため、我々は記号表現の強さとLLMの成功の鍵となるもの、すなわち大規模言語におけるボトムアップ・リバースエンジニアリングの成功を組み合わせることを提案する。 このように、我々はボトムアップな言語リバースエンジニアリングをシンボリックな設定で議論する。 このプロジェクトのヒントは、何人かの著者によって提案されており、このプロジェクトをどのように達成できるかについて、いくつかの詳細を議論している。

Large language models (LLMs) have achieved a milestone that undenia-bly changed many held beliefs in artificial intelligence (AI). However, there remains many limitations of these LLMs when it comes to true language understanding, limitations that are a byproduct of the under-lying architecture of deep neural networks. Moreover, and due to their subsymbolic nature, whatever knowledge these models acquire about how language works will always be buried in billions of microfeatures (weights), none of which is meaningful on its own, making such models hopelessly unexplainable. To address these limitations, we suggest com-bining the strength of symbolic representations with what we believe to be the key to the success of LLMs, namely a successful bottom-up re-verse engineering of language at scale. As such we argue for a bottom-up reverse engineering of language in a symbolic setting. Hints on what this project amounts to have been suggested by several authors, and we discuss in some detail here how this project could be accomplished.
翻訳日:2023-07-28 11:27:46 公開日:2023-07-27
# 低深度凸ユニタリ進化によるオープン量子系のシミュレーション

Simulation of Open Quantum Systems via Low-Depth Convex Unitary Evolutions ( http://arxiv.org/abs/2307.14325v2 )

ライセンス: Link先を確認
Joseph Peetz, Scott E. Smart, Spyros Tserkis, Prineha Narang(参考訳) 量子デバイス上で物理システムをシミュレーションすることは、量子技術の最も有望な応用の1つである。 オープン量子システムをシミュレートする現在の量子アプローチは、通常、アンシラ量子ビットと広範囲に制御されたシーケンスを必要とするため、nisq時代のデバイスでは事実上困難である。 本研究では,ランダムユニタリチャネルと呼ばれるオープンシステムダイナミクスのクラスをシミュレートするためのハイブリッド量子古典的手法を提案する。 これらのチャネルは自然に一連の凸ユニタリ進化に分解され、効率的にサンプリングされ独立した回路として実行される。 このメソッドは深いアンシラフレームワークを必要としないため、低ノイズコストで実装できる。 我々は、開量子システムのシミュレーションを数十キュービットまで実装し、大きなチャネルランクで実装する。

Simulating physical systems on quantum devices is one of the most promising applications of quantum technology. Current quantum approaches to simulating open quantum systems are still practically challenging on NISQ-era devices, because they typically require ancilla qubits and extensive controlled sequences. In this work, we propose a hybrid quantum-classical approach for simulating a class of open system dynamics called random-unitary channels. These channels naturally decompose into a series of convex unitary evolutions, which can then be efficiently sampled and run as independent circuits. The method does not require deep ancilla frameworks and thus can be implemented with lower noise costs. We implement simulations of open quantum systems up to dozens of qubits and with large channel rank.
翻訳日:2023-07-28 11:21:31 公開日:2023-07-27
# RNN-Tロスにさよなら: 音声認識のための新しいCIFベースのトランスデューサアーキテクチャ

Say Goodbye to RNN-T Loss: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition ( http://arxiv.org/abs/2307.14132v2 )

ライセンス: Link先を確認
Tian-Hao Zhang, Dinghao Zhou, Guiping Zhong, Baoxiang Li(参考訳) RNN-Tモデルは、入力オーディオとターゲットシーケンス間の長さアライメントを実現するために、RNN-T損失に依存するASRで広く使われている。 しかし、実装の複雑さとrnn-t損失のアライメントに基づく最適化ターゲットは、それぞれ計算冗長性と予測ネットワークの役割を減少させる。 本稿では,CIF(Continuous Integrate-and-Fire)機構をRNN-Tモデルに組み込んだCIF-Transducer(CIF-T)という新しいモデルを提案する。 このようにして、RNN-T損失は放棄され、計算量が減少し、予測ネットワークがより重要な役割を果たす。 また,Funnel-CIF,Context Blocks,Unified Gating and Bilinear Pooling joint network,およびパフォーマンス向上のための補助的トレーニング戦略についても紹介する。 178時間AISHELL-1と10000時間WnetSpeechデータセットの実験は、CIF-TがRNN-Tモデルと比較して計算オーバーヘッドの少ない最先端の結果を達成することを示した。

RNN-T models are widely used in ASR, which rely on the RNN-T loss to achieve length alignment between input audio and target sequence. However, the implementation complexity and the alignment-based optimization target of RNN-T loss lead to computational redundancy and a reduced role for predictor network, respectively. In this paper, we propose a novel model named CIF-Transducer (CIF-T) which incorporates the Continuous Integrate-and-Fire (CIF) mechanism with the RNN-T model to achieve efficient alignment. In this way, the RNN-T loss is abandoned, thus bringing a computational reduction and allowing the predictor network a more significant role. We also introduce Funnel-CIF, Context Blocks, Unified Gating and Bilinear Pooling joint network, and auxiliary training strategy to further improve performance. Experiments on the 178-hour AISHELL-1 and 10000-hour WenetSpeech datasets show that CIF-T achieves state-of-the-art results with lower computational overhead compared to RNN-T models.
翻訳日:2023-07-28 11:21:17 公開日:2023-07-27
# creative birds: 自己監督型single-view 3dスタイルトランスファー

Creative Birds: Self-Supervised Single-View 3D Style Transfer ( http://arxiv.org/abs/2307.14127v2 )

ライセンス: Link先を確認
Renke Wang, Guimin Que, Shuo Chen, Xiang Li, Jun Li, Jian Yang(参考訳) 本稿では, 形状とテクスチャを両立させたユニークな3Dオブジェクトを生成する, 単一視点3Dスタイルのトランスファー手法を提案する。 提案手法は鳥の3dメッシュ形状とテクスチャを2枚の単一視点画像から生成することを目的としている。 そこで本研究では,dual residual gated network(drgnet)とmulti-layer perceptron(mlp)を組み合わせた新しい形状伝達生成器を提案する。 drgnetは共有座標ゲートユニットを用いてソースおよびターゲット画像の特徴を抽出し、mlpは3dメッシュを構築するための空間座標を生成する。 また,セマンティクスuvセグメンテーションを用いたテクスチャスタイル転送を実装するセマンティクスuvテクスチャ転送モジュールも導入し,セマンティクス領域の意味的意味の一貫性を保証する。 このモジュールは多くの既存のアプローチに広く適用できる。 最後に,識別可能なレンダラーを用いて新しい3次元鳥を構築する。 CUBデータセットの実験結果から,本手法が一視点3Dスタイル転送タスクにおける最先端性能を実現することが確認された。 コードはhttps://github.com/wrk226/creative_birdsで入手できる。

In this paper, we propose a novel method for single-view 3D style transfer that generates a unique 3D object with both shape and texture transfer. Our focus lies primarily on birds, a popular subject in 3D reconstruction, for which no existing single-view 3D transfer methods have been developed.The method we propose seeks to generate a 3D mesh shape and texture of a bird from two single-view images. To achieve this, we introduce a novel shape transfer generator that comprises a dual residual gated network (DRGNet), and a multi-layer perceptron (MLP). DRGNet extracts the features of source and target images using a shared coordinate gate unit, while the MLP generates spatial coordinates for building a 3D mesh. We also introduce a semantic UV texture transfer module that implements textural style transfer using semantic UV segmentation, which ensures consistency in the semantic meaning of the transferred regions. This module can be widely adapted to many existing approaches. Finally, our method constructs a novel 3D bird using a differentiable renderer. Experimental results on the CUB dataset verify that our method achieves state-of-the-art performance on the single-view 3D style transfer task. Code is available in https://github.com/wrk226/creative_birds.
翻訳日:2023-07-28 11:20:57 公開日:2023-07-27
# 歯科放射線画像セグメンテーションのための拡散モデルによる事前訓練

Pre-Training with Diffusion models for Dental Radiography segmentation ( http://arxiv.org/abs/2307.14066v2 )

ライセンス: Link先を確認
J\'er\'emy Rousseau, Christian Alaka, Emma Covili, Hippolyte Mayard, Laura Misrachi, Willy Au(参考訳) 医用ラジオグラフィーのセグメンテーション、特に歯科用ラジオグラフィーは、特定の専門知識と労働集約的なアノテーションを必要とするラベル付けのコストによって非常に制限されている。 本研究では,分散確率モデル(ddpm)を用いた意味セグメンテーションのための素早い事前学習手法を提案する。 当社の直接的なアプローチはラベル効率の面で目覚ましいパフォーマンスを達成し,事前トレーニングとダウンストリームタスク間のアーキテクチャ変更は必要としない。 DDPMトレーニングの目的を利用して,まずUnetを事前訓練し,次にセグメント化タスクで得られたモデルを微調整する。 歯科用ラジオグラフィーのセグメンテーション実験の結果,提案手法は最先端の事前訓練法と競合することが示された。

Medical radiography segmentation, and specifically dental radiography, is highly limited by the cost of labeling which requires specific expertise and labor-intensive annotations. In this work, we propose a straightforward pre-training method for semantic segmentation leveraging Denoising Diffusion Probabilistic Models (DDPM), which have shown impressive results for generative modeling. Our straightforward approach achieves remarkable performance in terms of label efficiency and does not require architectural modifications between pre-training and downstream tasks. We propose to first pre-train a Unet by exploiting the DDPM training objective, and then fine-tune the resulting model on a segmentation task. Our experimental results on the segmentation of dental radiographs demonstrate that the proposed method is competitive with state-of-the-art pre-training methods.
翻訳日:2023-07-28 11:20:34 公開日:2023-07-27
# 3dセマンティックサブスペーストラバーサ : 形状編集機能付き3d生成モデルの実現

3D Semantic Subspace Traverser: Empowering 3D Generative Model with Shape Editing Capability ( http://arxiv.org/abs/2307.14051v2 )

ライセンス: Link先を確認
Ruowei Wang, Yu Liu, Pei Su, Jianwei Zhang, Qijun Zhao(参考訳) 形状生成は、3dコンテンツ作成のための様々な表現として3d形状を生成する実践である。 従来の3次元形状生成の研究は、意味情報の重要性を考慮せずに、形状の質と構造に焦点を合わせてきた。 したがって、このような生成モデルは、しばしば、形状構造の意味的一貫性を維持したり、生成中の形状の意味的属性を操作できない。 本稿では,カテゴリ固有の3次元形状の生成と編集に意味属性を利用する3Dセマンティックサブスペーストラバーサという新しい意味生成モデルを提案する。 提案手法は3次元形状表現として暗黙関数を利用し,新しい潜在空間GANと線形部分空間モデルを組み合わせて,局所潜在空間における意味的次元を探索する。 部分空間の各次元は特定の意味属性に対応し、それらの次元の係数をトラバースすることで生成された形状の属性を編集することができる。 実験の結果,提案手法は複雑な構造を持つ妥当な形状を生成でき,意味属性の編集が可能となった。 コードとトレーニングされたモデルはhttps://github.com/trepangcat/3d_semantic_subspace_traverserで入手できる。

Shape generation is the practice of producing 3D shapes as various representations for 3D content creation. Previous studies on 3D shape generation have focused on shape quality and structure, without or less considering the importance of semantic information. Consequently, such generative models often fail to preserve the semantic consistency of shape structure or enable manipulation of the semantic attributes of shapes during generation. In this paper, we proposed a novel semantic generative model named 3D Semantic Subspace Traverser that utilizes semantic attributes for category-specific 3D shape generation and editing. Our method utilizes implicit functions as the 3D shape representation and combines a novel latent-space GAN with a linear subspace model to discover semantic dimensions in the local latent space of 3D shapes. Each dimension of the subspace corresponds to a particular semantic attribute, and we can edit the attributes of generated shapes by traversing the coefficients of those dimensions. Experimental results demonstrate that our method can produce plausible shapes with complex structures and enable the editing of semantic attributes. The code and trained models are available at https://github.com/TrepangCat/3D_Semantic_Subspace_Traverser
翻訳日:2023-07-28 11:20:18 公開日:2023-07-27
# RPG-Palm:パルププリント認識のための実データ生成

RPG-Palm: Realistic Pseudo-data Generation for Palmprint Recognition ( http://arxiv.org/abs/2307.14016v2 )

ライセンス: Link先を確認
Lei Shen, Jianlong Jin, Ruixin Zhang, Huaen Li, Kai Zhao, Yingyi Zhang, Jingyun Zhang, Shouhong Ding, Yang Zhao, Wei Jia(参考訳) Palmprintは最近、プライバシーにやさしく安定したバイオメトリックスであるため、認識アプリケーションに大きな可能性を示している。 しかし、大規模な公開palmprintデータセットの欠如は、palmprint認識のさらなる研究と開発を制限している。 本稿では,パームプリントを大量のIDで合成する新しい現実的な擬似パルムプリント生成(RPG)モデルを提案する。 まず,クラス内多様性を改善する条件変調生成器を提案する。 次に,非ペアトレーニングに対するid一貫性を確保するために,id認識損失を提案する。 我々は、アイデンティティ独立を保証するため、B'ezier palm creases生成戦略をさらに改善する。 広範な実験結果から,合成前訓練は認識モデルの性能を著しく向上させることが示された。 例えば、我々のモデルは、1:1$と1:3$のオープンセットプロトコルの下でtar@far=1e-6の観点で、最先端のb\'ezierpalmを$5\%$と$14\%$で改善します。 実際のトレーニングデータのうち10〜%しかアクセスしない場合、本手法はarcfaceを100〜%の実際のトレーニングデータで上回っており、実データなしのpalmprint認識に近いことを示している。

Palmprint recently shows great potential in recognition applications as it is a privacy-friendly and stable biometric. However, the lack of large-scale public palmprint datasets limits further research and development of palmprint recognition. In this paper, we propose a novel realistic pseudo-palmprint generation (RPG) model to synthesize palmprints with massive identities. We first introduce a conditional modulation generator to improve the intra-class diversity. Then an identity-aware loss is proposed to ensure identity consistency against unpaired training. We further improve the B\'ezier palm creases generation strategy to guarantee identity independence. Extensive experimental results demonstrate that synthetic pretraining significantly boosts the recognition model performance. For example, our model improves the state-of-the-art B\'ezierPalm by more than $5\%$ and $14\%$ in terms of TAR@FAR=1e-6 under the $1:1$ and $1:3$ Open-set protocol. When accessing only $10\%$ of the real training data, our method still outperforms ArcFace with $100\%$ real training data, indicating that we are closer to real-data-free palmprint recognition.
翻訳日:2023-07-28 11:19:56 公開日:2023-07-27
# 不均一な多エージェント協調

Heterogeneous Embodied Multi-Agent Collaboration ( http://arxiv.org/abs/2307.13957v2 )

ライセンス: Link先を確認
Xinzhu Liu, Di Guo, Huaping Liu(参考訳) 近年,複雑な室内視覚環境においてマルチエージェントエンボディタスクが研究されている。 複数のエージェント間のコラボレーションは作業効率を向上し、実用的な価値を持つ。 しかし、既存の研究のほとんどは均質なマルチエージェントタスクに焦点を当てている。 均質なエージェントと比較して、異質なエージェントはそれぞれの能力を活用して対応するサブタスクを割り当て、複雑なタスクを完了させる。 不均一なマルチエージェントタスクは現実のシナリオでは一般的であり、異種エージェント間のコラボレーション戦略は解決すべき課題であり、重要な問題である。 本研究では,異種エージェント間の協調について検討するため,異なる能力を持つ複数の異種エージェントが協調してミスプレース物体を検出し,妥当な場所に配置する,異種エージェント間タイディングアップタスクを提案する。 適切なタスク計画を実行し、タスク全体を完了するために、エージェントがそれぞれの能力の最大限の活用を要求するため、これは要求の多いタスクである。 そこで本研究では,複数の部屋を有する集合住宅において, procthor-10k に基づくマルチエージェント・タイディングアップベンチマークデータセットを構築する。 提案手法は,ミスプレース物体検出,合理的レセプタクル予測,ハンドシェイクに基づくグループコミュニケーション機構に基づく階層的決定モデルを提案する。 提案モデルの有効性を示すため, 大規模な実験を行った。 プロジェクトのWebサイトと実験のビデオはhttps://hetercol.github.io/で見ることができる。

Multi-agent embodied tasks have recently been studied in complex indoor visual environments. Collaboration among multiple agents can improve work efficiency and has significant practical value. However, most of the existing research focuses on homogeneous multi-agent tasks. Compared with homogeneous agents, heterogeneous agents can leverage their different capabilities to allocate corresponding sub-tasks and cooperate to complete complex tasks. Heterogeneous multi-agent tasks are common in real-world scenarios, and the collaboration strategy among heterogeneous agents is a challenging and important problem to be solved. To study collaboration among heterogeneous agents, we propose the heterogeneous multi-agent tidying-up task, in which multiple heterogeneous agents with different capabilities collaborate with each other to detect misplaced objects and place them in reasonable locations. This is a demanding task since it requires agents to make the best use of their different capabilities to conduct reasonable task planning and complete the whole task. To solve this task, we build a heterogeneous multi-agent tidying-up benchmark dataset in a large number of houses with multiple rooms based on ProcTHOR-10K. We propose the hierarchical decision model based on misplaced object detection, reasonable receptacle prediction, as well as the handshake-based group communication mechanism. Extensive experiments are conducted to demonstrate the effectiveness of the proposed model. The project's website and videos of experiments can be found at https://hetercol.github.io/.
翻訳日:2023-07-28 11:19:36 公開日:2023-07-27
# EasyNet:3Dインダストリアル異常検出のための簡易ネットワーク

EasyNet: An Easy Network for 3D Industrial Anomaly Detection ( http://arxiv.org/abs/2307.13925v2 )

ライセンス: Link先を確認
Ruitao Chen, Guoyang Xie, Jiaqi Liu, Jinbao Wang, Ziqi Luo, Jinfan Wang, Feng Zheng(参考訳) 3d異常検出は産業生産(im)におけるコンピュータビジョンの新たな課題である。 近年,多くの高度なアルゴリズムが公表されているが,そのほとんどがIMのニーズを満たすことはできない。 欠点はいくつかある。 一 アルゴリズムが大規模な事前訓練されたモデルに大きく依存するため、生産ラインへの展開が困難であること。 二 記憶バンクの過多による記憶オーバヘッドの大幅な増加 三 推論速度は、リアルタイムでは達成できない。 To overcome these issues, we propose an easy and deployment-friendly network (called EasyNet) without using pre-trained models and memory banks: firstly, we design a multi-scale multi-modality feature encoder-decoder to accurately reconstruct the segmentation maps of anomalous regions and encourage the interaction between RGB images and depth images; secondly, we adopt a multi-modality anomaly segmentation network to achieve a precise anomaly map; thirdly, we propose an attention-based information entropy fusion module for feature fusion during inference, making it suitable for real-time deployment. 大規模な実験により、EasyNetは事前訓練されたモデルやメモリバンクを使わずに92.6%の異常検出AUROCを実現している。 さらに、EasyNetは既存の方法よりも高速で、Tesla V100 GPU上で94.55 FPSのフレームレートを持つ。

3D anomaly detection is an emerging and vital computer vision task in industrial manufacturing (IM). Recently many advanced algorithms have been published, but most of them cannot meet the needs of IM. There are several disadvantages: i) difficult to deploy on production lines since their algorithms heavily rely on large pre-trained models; ii) hugely increase storage overhead due to overuse of memory banks; iii) the inference speed cannot be achieved in real-time. To overcome these issues, we propose an easy and deployment-friendly network (called EasyNet) without using pre-trained models and memory banks: firstly, we design a multi-scale multi-modality feature encoder-decoder to accurately reconstruct the segmentation maps of anomalous regions and encourage the interaction between RGB images and depth images; secondly, we adopt a multi-modality anomaly segmentation network to achieve a precise anomaly map; thirdly, we propose an attention-based information entropy fusion module for feature fusion during inference, making it suitable for real-time deployment. Extensive experiments show that EasyNet achieves an anomaly detection AUROC of 92.6% without using pre-trained models and memory banks. In addition, EasyNet is faster than existing methods, with a high frame rate of 94.55 FPS on a Tesla V100 GPU.
翻訳日:2023-07-28 11:19:14 公開日:2023-07-27
# EMAのスケール方法

How to Scale Your EMA ( http://arxiv.org/abs/2307.13813v2 )

ライセンス: Link先を確認
Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb(参考訳) バッチサイズ間のトレーニングダイナミクスを維持することは、バッチサイズとウォールクロック時間のトレードオフを可能にするため、実用的な機械学習にとって重要なツールである。 このトレードオフは通常、例えば確率的勾配勾配勾配において、バッチサイズと線形に学習率をスケールするスケーリングルールによって実現される。 実用的な機械学習のためのもう1つの重要なツールは、指数移動平均(Exponential moving Average, EMA)モデルである。 このモデルEMAは、教師付き学習の堅牢性と一般化性を改善し、擬似ラベルを安定化させ、自己監督学習(SSL)のための学習信号を提供する。 以前の作業では、モデルのemaを最適化から切り離して扱い、バッチサイズとモデルパフォーマンスの異なるトレーニングダイナミクスを生み出した。 本研究では、モデルEMAの存在下での最適化のためのスケーリングルールを提供し、その妥当性を様々なアーキテクチャ、最適化、データモダリティにわたって示す。 また、モデルEMAがターゲットモデルの最適化に寄与するルールの有効性を示し、EMAベースの擬似ラベルとSSLメソッドを小規模かつ大規模なバッチサイズで訓練することを可能にする。 SSLでは、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にします。

Preserving training dynamics across batch sizes is an important tool for practical machine learning as it enables the trade-off between batch size and wall-clock time. This trade-off is typically enabled by a scaling rule, for example, in stochastic gradient descent, one should scale the learning rate linearly with the batch size. Another important tool for practical machine learning is the model Exponential Moving Average (EMA), which is a model copy that does not receive gradient information, but instead follows its target model with some momentum. This model EMA can improve the robustness and generalization properties of supervised learning, stabilize pseudo-labeling, and provide a learning signal for Self-Supervised Learning (SSL). Prior works have treated the model EMA separately from optimization, leading to different training dynamics across batch sizes and lower model performance. In this work, we provide a scaling rule for optimization in the presence of model EMAs and demonstrate its validity across a range of architectures, optimizers, and data modalities. We also show the rule's validity where the model EMA contributes to the optimization of the target model, enabling us to train EMA-based pseudo-labeling and SSL methods at small and large batch sizes. For SSL, we enable training of BYOL up to batch size 24,576 without sacrificing performance, optimally a 6$\times$ wall-clock time reduction.
翻訳日:2023-07-28 11:18:56 公開日:2023-07-27
# ファジィマッチング器の漏洩に関する包括的解析

A Comprehensive Analysis on the Leakage of Fuzzy Matchers ( http://arxiv.org/abs/2307.13717v2 )

ライセンス: Link先を確認
Axel Durbet, Paul-Marie Grollemund, Kevin Thiry-Atighehchi(参考訳) 本稿では,しきい値に基づく難読化距離(ファジィマッチング)に着目し,距離評価中の情報漏洩の包括的解析を行う。 漏洩はマルウェアの感染や、サイドチャネル攻撃や部分的に難読化された設計によって例示される、弱いプライバシー保護マッチの使用によって起こりうる。 我々は、情報漏洩シナリオの完全なカタログと、データプライバシに関するセキュリティへの影響を提供する。 それぞれのシナリオは、計算コストの観点から影響が表される一般的な攻撃につながるため、セキュリティレベルに対する上限の確立が可能になる。

This paper provides a comprehensive analysis of information leakage during distance evaluation, with an emphasis on threshold-based obfuscated distance (i.e., Fuzzy Matcher). Leakage can occur due to a malware infection or the use of a weakly privacy-preserving matcher, exemplified by side channel attacks or partially obfuscated designs. We provide an exhaustive catalog of information leakage scenarios as well as their impacts on the security concerning data privacy. Each of the scenarios leads to generic attacks whose impacts are expressed in terms of computational costs, hence allowing the establishment of upper bounds on the security level.
翻訳日:2023-07-28 11:18:31 公開日:2023-07-27