このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230312となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 自己教師付き表現学習による機能的知識伝達 Functional Knowledge Transfer with Self-supervised Representation Learning ( http://arxiv.org/abs/2304.01354v1 ) ライセンス: Link先を確認 | Prakash Chandra Chhipa, Muskan Chopra, Gopal Mengi, Varun Gupta, Richa Upadhyay, Meenakshi Subhash Chippa, Kanjar De, Rajkumar Saini, Seiichi Uchida and Marcus Liwicki | (参考訳) 本研究では,機能的知識伝達の方向における自己指導型表現学習の未探索ユーザビリティについて検討する。
本研究では,自己指導型学習課題と教師付き学習課題の協調最適化により,機能的知識伝達を実現する。
自己教師付き学習の最近の進歩は大量のデータを使用し、小規模データセットへの応用の制約となっている。
この研究は、人間に指導されたタスク学習を、ジャスト・イン・タイムで学習することで強化する、シンプルで効果的な共同トレーニングフレームワークを共有している。
異なる視覚領域、Intel Image、CIFAR、APTOSの3つの公開データセットの実験では、共同最適化時の分類タスクのパフォーマンス改善が一貫した追跡結果を示している。
定性解析は学習表現の堅牢性もサポートする。
ソースコードとトレーニングされたモデルはgithubから入手できる。 This work investigates the unexplored usability of self-supervised representation learning in the direction of functional knowledge transfer. In this work, functional knowledge transfer is achieved by joint optimization of self-supervised learning pseudo task and supervised learning task, improving supervised learning task performance. Recent progress in self-supervised learning uses a large volume of data, which becomes a constraint for its applications on small-scale datasets. This work shares a simple yet effective joint training framework that reinforces human-supervised task learning by learning self-supervised representations just-in-time and vice versa. Experiments on three public datasets from different visual domains, Intel Image, CIFAR, and APTOS, reveal a consistent track of performance improvements on classification tasks during joint optimization. Qualitative analysis also supports the robustness of learnt representations. Source code and trained models are available on GitHub. | 翻訳日:2023-04-16 22:33:18 公開日:2023-03-12 |
# GPT-3を介したオートフォーマライゼーションによるDiproche CNLの改良 Improving the Diproche CNL through autoformalization via GPT-3 ( http://arxiv.org/abs/2303.17513v1 ) ライセンス: Link先を確認 | Merlin Carl | (参考訳) diprocheシステムは、ドイツ語の制御された断片で書かれたテキストの自動証明チェッカーであり、初めて証明を学生に紹介する授業におけるディダクティカルな応用のために設計された。
最初のバージョンでは、prolog形式化ルーチンが書かれた制御された自然言語を使用していた。
本稿では,Diprocheの文脈において,大規模言語モデルによる自動形式化の促進の可能性について検討する。 The Diproche system is an automated proof checker for texts written in a controlled fragment of German, designed for didactical applications in classes introducing students to proofs for the first time. The first version of the system used a controlled natural language for which a Prolog formalization routine was written. In this paper, we explore the possibility of prompting large language models for autoformalization in the context of Diproche, with encouraging first results. | 翻訳日:2023-04-02 18:11:21 公開日:2023-03-12 |
# 高度化された局所探索による技術者のルーティングとスケジューリング問題 Enhanced Iterated local search for the technician routing and scheduling problem ( http://arxiv.org/abs/2303.13532v1 ) ライセンス: Link先を確認 | Ala-Eddine Yahiaoui, Sohaib Afifi and Hamid Afifi | (参考訳) フランス、ドイツ、イギリスを含む欧州諸国の公共施設のほとんどは、1950年から1980年にかけて再建計画中に建設された。
このような重要なインフラの劣化により、ここ数十年で比較的高価になっている。
保守作業のコストのかなりの部分は技術スタッフに費やされている。
したがって、運用コストの最適化には、利用可能な労働力の最適利用が不可欠である。
これには、技術的な介入の計画、ワークロードの分散、生産性の向上などが含まれる。
本稿では,技術者のルーティングとタスクのスケジューリングに焦点をあてる。
我々は,この目的のために,TRSP(Technician routing and scheduling problem)と呼ばれる作業スケジューリング問題の変種に対処する。
この問題は、交通インフラ(鉄道や道路網)、電気通信、下水施設など、様々な分野で応用されている。
TRSPを解決するために,拡張反復局所探索(eILS)手法を提案する。
ILSの強化は、まず、ローカルサーチオペレータのセットとTRSPのための除去・修復ヒューリスティックを組み込んだ強化手順を含む。
次に、摂動段階において4つの異なるメカニズムが用いられる。
最後に、エリートな解の集合は、局所最適の近傍を広範囲に探索し、探索空間探索中に多様化を高めるために用いられる。
提案手法の性能を評価するため,文献からのベンチマーク結果に基づいて実験を行い,既存の手法と比較した。
その結果,本手法は文献の3倍の差である全体ギャップに到達し,優れた結果を得た。
さらに、eilsは、リーズナブルな計算時間を維持しつつ、合計56ドルのうち34ドルのインスタンスで最もよく知られたソリューションを改善した。 Most public facilities in the European countries, including France, Germany, and the UK, were built during the reconstruction projects between 1950 and 1980. Owing to the deteriorating state of such vital infrastructure has become relatively expensive in the recent decades. A significant part of the maintenance operation costs is spent on the technical staff. Therefore, the optimal use of the available workforce is essential to optimize the operation costs. This includes planning technical interventions, workload balancing, productivity improvement, etc. In this paper, we focus on the routing of technicians and scheduling of their tasks. We address for this purpose a variant of the workforce scheduling problem called the technician routing and scheduling problem (TRSP). This problem has applications in different fields, such as transportation infrastructure (rail and road networks), telecommunications, and sewage facilities. To solve the TRSP, we propose an enhanced iterated local search (eILS) approach. The enhancement of the ILS firstly includes an intensification procedure that incorporates a set of local search operators and removal-repair heuristics crafted for the TRSP. Next, four different mechanisms are used in the perturbation phase. Finally, an elite set of solutions is used to extensively explore the neighborhood of local optima as well as to enhance diversification during search space exploration. To measure the performance of the proposed method, experiments were conducted based on benchmark instances from the literature, and the results obtained were compared with those of an existing method. Our method achieved very good results, since it reached the best overall gap, which is three times lower than that of the literature. Furthermore, eILS improved the best-known solution for $34$ instances among a total of $56$ while maintaining reasonable computational times. | 翻訳日:2023-03-31 16:37:06 公開日:2023-03-12 |
# 階層的プロセスモデルを発見する:イベントクラスタリングに基づくアプローチ Discovering Hierarchical Process Models: an Approach Based on Events Clustering ( http://arxiv.org/abs/2303.13531v1 ) ライセンス: Link先を確認 | Antonina K. Begicheva, Irina A. Lomazova, Roman A. Nesterov | (参考訳) プロセスマイニング(英: Process mining)は、自動生成されたイベントログに基づくプロセスモデルの発見と分析を扱うコンピュータ科学の分野である。
現在、多くの企業が最適化とプロセス改善にこの技術を使っている。
しかし、発見済みのプロセスモデルは、あまりに詳細で、洗練され、専門家が理解するのが難しい場合があります。
本稿では,低レベルのイベントログから階層的なビジネスプロセスモデルを発見すること,すなわち情報システムのイベントログに格納された情報に基づいて,より読みやすく理解しやすいプロセスモデルの自動合成の問題を考える。
より構造化され、より読みやすいプロセスモデルの発見は、異なる視点からプロセスマイニング研究の枠組みで集中的に研究されている。
本稿では,二段階ワークフローネットとして表現される階層的プロセスモデルを検出するアルゴリズムを提案する。
このアルゴリズムは、事前に定義されたイベントのイラスタリングに基づいており、クラスタは、ネットの最上位の高レベルトランジションに対応するサブプロセスを定義する。
既存のソリューションとは異なり、このアルゴリズムはプロセス制御フローに制限を課さず、並行処理と反復を可能にする。 Process mining is a field of computer science that deals with discovery and analysis of process models based on automatically generated event logs. Currently, many companies use this technology for optimization and improving their processes. However, a discovered process model may be too detailed, sophisticated and difficult for experts to understand. In this paper, we consider the problem of discovering a hierarchical business process model from a low-level event log, i.e., the problem of automatic synthesis of more readable and understandable process models based on information stored in event logs of information systems. Discovery of better structured and more readable process models is intensively studied in the frame of process mining research from different perspectives. In this paper, we present an algorithm for discovering hierarchical process models represented as two-level workflow nets. The algorithm is based on predefined event ilustering so that the cluster defines a sub-process corresponding to a high-level transition at the top level of the net. Unlike existing solutions, our algorithm does not impose restrictions on the process control flow and allows for concurrency and iteration. | 翻訳日:2023-03-31 16:36:43 公開日:2023-03-12 |
# ChatGPTのゼロショットテキスト・トゥ・SQL機能に関する総合評価 A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability ( http://arxiv.org/abs/2303.13547v1 ) ライセンス: Link先を確認 | Aiwei Liu, Xuming Hu, Lijie Wen, Philip S. Yu | (参考訳) 本稿では,ChatGPT の Text-to-SQL 能力の包括的解析を行った。
大規模な対話型言語モデルChatGPTの出現と,会話能力とコード生成の両面での優れた能力を考えると,テキスト・トゥ・SQLのパフォーマンスを評価することを試みた。
我々は、異なる言語、設定、シナリオを持つ12のベンチマークデータセットで実験を行い、その結果、ChatGPTが強いテキスト-SQL機能を持つことを示した。
現状のSOTA(State-of-the-art)モデルのパフォーマンスとはまだ差があるが、実験がゼロショットシナリオで行われたことを考えると、ChatGPTのパフォーマンスは印象的だ。
特に、adveta (rpl) のシナリオでは、zero-shot chatgpt はスパイダーデータセットの微調整を必要とする sota モデルよりも4.1\%優れており、実用用途での使用の可能性を示している。
関連分野のさらなる研究を支援するため、ChatGPTが生成したデータをhttps://github.com/THU-BPM/chatgpt-sql.comで公開しました。 This paper presents the first comprehensive analysis of ChatGPT's Text-to-SQL ability. Given the recent emergence of large-scale conversational language model ChatGPT and its impressive capabilities in both conversational abilities and code generation, we sought to evaluate its Text-to-SQL performance. We conducted experiments on 12 benchmark datasets with different languages, settings, or scenarios, and the results demonstrate that ChatGPT has strong text-to-SQL abilities. Although there is still a gap from the current state-of-the-art (SOTA) model performance, considering that the experiment was conducted in a zero-shot scenario, ChatGPT's performance is still impressive. Notably, in the ADVETA (RPL) scenario, the zero-shot ChatGPT even outperforms the SOTA model that requires fine-tuning on the Spider dataset by 4.1\%, demonstrating its potential for use in practical applications. To support further research in related fields, we have made the data generated by ChatGPT publicly available at https://github.com/THU-BPM/chatgpt-sql. | 翻訳日:2023-03-31 16:26:50 公開日:2023-03-12 |
# 真の量子力学的レジームに対するゆらぎ定理 Fluctuation theorems for genuine quantum mechanical regimes ( http://arxiv.org/abs/2211.16179v3 ) ライセンス: Link先を確認 | Thales Augusto Barbosa Pinto Silva and Renato Moreira Angelo | (参考訳) 非平衡熱力学に対する議論の余地のない関連性の中で、ゆらぎ定理は量子熱力学の枠組みに一般化され、そのような文脈において仕事の概念が重要な役割を果たす。
典型的なアプローチは、仕事を確率変数として扱うことと、決定論的ダイナミクスを持つ古典的装置として作用するシステムから成り立っている。
ここでは、量子機械の分野での技術進歩に触発されて、作用系が量子領域に入ることを許されたときの揺らぎ定理の修正を求める。
これには、動的に作用するシステムを含み、実行されるシステムと非古典的な状態を共有することが含まれる。
さらに,このプログラムに機械的視点を取り入れた作業観察可能という概念を取り入れた。
単純性のために、弾性結合を持つ2粒子系の自律力学を理論的プラットフォームとして選択する。
いくつかの特定の過程に対して、量子および古典的な統計アリーナ内のいくつかのゆらぎ定理を導出する。
量子的な結果では、エンタングルメントや量子コヒーレンスとともに、慣性は機械的平衡への経路を規制するので重要な役割を担っていることが分かる。 Of indisputable relevance for non-equilibrium thermodynamics, fluctuations theorems have been generalized to the framework of quantum thermodynamics, with the notion of work playing a key role in such contexts. The typical approach consists of treating work as a stochastic variable and the acting system as an eminently classical device with a deterministic dynamics. Inspired by technological advances in the field of quantum machines, here we look for corrections to work fluctuations theorems when the acting system is allowed to enter the quantum domain. This entails including the acting system in the dynamics and letting it share a nonclassical state with the system acted upon. Moreover, favoring a mechanical perspective to this program, we employ a concept of work observable. For simplicity, we choose as theoretical platform the autonomous dynamics of a two-particle system with an elastic coupling. For some specific processes, we derive several fluctuation theorems within both the quantum and classical statistical arenas. In the quantum results, we find that, along with entanglement and quantum coherence, aspects of inertia also play a significant role since they regulate the route to mechanical equilibrium. | 翻訳日:2023-03-25 03:45:36 公開日:2023-03-12 |
# Wavelet Scattering Transformと1D-CNNによる心室および異常PCGの検出 Heart Murmur and Abnormal PCG Detection via Wavelet Scattering Transform & a 1D-CNN ( http://arxiv.org/abs/2303.11423v1 ) ライセンス: Link先を確認 | Ahmed Patwa, Muhammad Mahboob Ur Rahman, Tareq Y. Al-Naffouri | (参考訳) この研究は、深層学習(DL)技術を活用して、心電図(PCG)記録から自動的かつ正確な心筋腫瘍検出を行う。
1d畳み込みニューラルネットワーク(cnn)、long short-term memory(lstm)、recurrent neural network(rnn)、convolutional rnn(c-rnn)の3つのカスタムニューラルネットワークをトレーニングし、テストするために、physionet online databaseの2つのパブリックpcgデータセット(circor digiscope 2022データセットとpcg 2016データセット)を利用する。
提案手法では,まず2つのデータセットの事前処理を行い,NNのデータの準備を行う。
主な前処理ステップは、雑音のみのセグメントの再ラベル化、データ正規化、ウェーブレット散乱変換を用いたPCGセグメントの時間周波数解析である。
実装した3つのNNの性能を評価するために,PCG 2022データセットを用いた4つの実験,PCG 2016データセットを用いた4つの実験を行った。
われわれのカスタム1D-CNNは、他の2つのNN(LSTM-RNNとC-RNN)と最先端のNNを上回っている。
具体的には,実験E1(PCG 2022データセットを用いたミュール検出)では,82.28%の精度,83.81%の重み付き精度,65.79%のF1スコア,90.79%の動作特性曲線が得られた。
実験E2(PCG 2022データセットで未知のクラスを除去したマウス検出)では,1D-CNNモデルは87.05%,F1スコア87.72%,AUROC94.4%の精度を達成した。
実験用E3(PCG 2022データセットとセグメントの再ラベルを用いたMurmur detection)では,82.86%の精度,86.30%の重み付き精度,81.87%のF1スコア,93.45%のAUROCが得られた。
E4(PCG 2016データセットを用いた異常PCG検出)の実験では、1D-CNNモデルは96.30%、F1スコア96.29%、AUROC98.17%の精度を達成した。 This work leverages deep learning (DL) techniques in order to do automatic and accurate heart murmur detection from phonocardiogram (PCG) recordings. Two public PCG datasets (CirCor Digiscope 2022 dataset and PCG 2016 dataset) from Physionet online database are utilized to train and test three custom neural networks (NN): a 1D convolutional neural network (CNN), a long short-term memory (LSTM) recurrent neural network (RNN), and a convolutional RNN (C-RNN). Under our proposed method, we first do pre-processing on both datasets in order to prepare the data for the NNs. Key pre-processing steps include the following: denoising, segmentation, re-labeling of noise-only segments, data normalization, and time-frequency analysis of the PCG segments using wavelet scattering transform. To evaluate the performance of the three NNs we have implemented, we conduct four experiments, first three using PCG 2022 dataset, and fourth using PCG 2016 dataset. It turns out that our custom 1D-CNN outperforms other two NNs (LSTM- RNN and C-RNN) as well as the state-of-the-art. Specifically, for experiment E1 (murmur detection using original PCG 2022 dataset), our 1D-CNN model achieves an accuracy of 82.28%, weighted accuracy of 83.81%, F1-score of 65.79%, and and area under receive operating charactertic (AUROC) curve of 90.79%. For experiment E2 (mumur detection using PCG 2022 dataset with unknown class removed), our 1D-CNN model achieves an accuracy of 87.05%, F1-score of 87.72%, and AUROC of 94.4%. For experiment E3 (murmur detection using PCG 2022 dataset with re-labeling of segments), our 1D-CNN model achieves an accuracy of 82.86%, weighted accuracy of 86.30%, F1-score of 81.87%, and AUROC of 93.45%. For experiment E4 (abnormal PCG detection using PCG 2016 dataset), our 1D-CNN model achieves an accuracy of 96.30%, F1-score of 96.29% and AUROC of 98.17%. | 翻訳日:2023-03-25 03:27:19 公開日:2023-03-12 |
# 束縛された絡み合った状態を検出するために、相互に偏りのない基底はいくつ必要か? How many mutually unbiased bases are needed to detect bound entangled states? ( http://arxiv.org/abs/2108.01109v2 ) ライセンス: Link先を確認 | Joonwoo Bae, Anindita Bera, Dariusz Chru\'sci\'nski, Beatrix C. Hiesmayr, Daniel McNulty | (参考訳) 実用の観点からは、できるだけ少ない測定で量子状態の絡み合いを検証する方法を開発するのが有利である。
本稿では,二分体$(d\times d)$-dimensional状態における有界絡み検出に必要な相互非バイアス基底(MUB)の最小数,すなわち部分転位下で正となる絡み合い状態について検討する。
特に,測定回数が$d/2+1$以上であれば,相互に偏りのない基底からなる絡み合い目撃者のクラスが有界絡みを検出できることを示す。
これは他の検出方法に比べて大幅に改善され、完全な量子状態トモグラフィや$d+1$ mubsの完全な測定よりもかなり少ないリソースを必要とする。
我々のアプローチは、絡み合いの目撃者の(非)分解性の部分的特徴化に基づいている。
非分解性は相補的な可観測物の選択によらず保持されるMBUの普遍的な性質であることを示し、その測定数と目撃者の構造が有界絡みの検出において重要な役割を担っていることを見出した。 From a practical perspective it is advantageous to develop methods that verify entanglement in quantum states with as few measurements as possible. In this paper we investigate the minimal number of mutually unbiased bases (MUBs) needed to detect bound entanglement in bipartite $(d\times d)$-dimensional states, i.e. entangled states that are positive under partial transposition. In particular, we show that a class of entanglement witnesses composed of mutually unbiased bases can detect bound entanglement if the number of measurements is greater than $d/2+1$. This is a substantial improvement over other detection methods, requiring significantly fewer resources than either full quantum state tomography or measuring a complete set of $d+1$ MUBs. Our approach is based on a partial characterisation of the (non-)decomposability of entanglement witnesses. We show that non-decomposability is a universal property of MUBs, which holds regardless of the choice of complementary observables, and we find that both the number of measurements and the structure of the witness play an important role in the detection of bound entanglement. | 翻訳日:2023-03-20 03:03:04 公開日:2023-03-12 |
# 初期瞬間近傍における量子化 Quantization in the neighborhood of the initial instant ( http://arxiv.org/abs/2303.08236v1 ) ライセンス: Link先を確認 | Zahir Belhadi | (参考訳) 本稿では,特異系を定量化する手法を提案する。
これは定数積分法 (Belhadi et al. (2014)) の拡張であり、これは正確な可解系の場合のみ適用できる。
本手法では,テイラー展開の助けを借りて初期瞬間にディラックブラケットを判定し,その共分散を用いていつでもブラケットを推定する。
また, 自己双対モデルと渦巻きスピノリアル場という2つの系を考察することで, このアプローチを説明する。
キーワード:量子化、特異系、積分定数、リウヴィル作用素、テイラー展開。 In this paper, we present an approach to quantize singular systems. This is an extension of the constant integration method (Belhadi et al. (2014)) which is applicable only for the case of exactly solvable systems. In our approach, we determine Dirac brackets at the initial instant with the help of Taylor expansion, and using their covariance, we deduce the brackets at any time. We also illustrate our approach by studying two systems: the self-dual model and the Dirac spinorial field. Keywords : quantization, singular systems, integration constants, Liouville operator, Taylor expansion. | 翻訳日:2023-03-16 18:36:44 公開日:2023-03-12 |
# 場の量子論における積分定数法 The integration constants method in quantum field theory ( http://arxiv.org/abs/2303.08799v1 ) ライセンス: Link先を確認 | Zahir Belhadi | (参考訳) 近年、Belhadi と al. (2014) は積分定数(CI法)を用いて基本変数間のブラケットの計算に基づいて古典可溶性システムを定量化する新しい手法を開発した。
本稿では, このアプローチを, 完全に可溶な制約付きハミルトニアン系に応用する。
量子場理論の応用として、マヨラナ・ニュートリノ、光円錐上のスカラー場、o(2)非線形シグマモデル、カイラルボソン理論を完成させる。
キーワード:量子化、制約付きシステム、場理論、可溶性システム、積分定数。 Recently, Belhadi and al. (2014) developed a new approach to quantize classical soluble systems based on the calculation of brackets among fundamental variables using the constants of integration (CI method). In this paper, we will apply this approach in some exactly soluble constrained Hamiltonian systems. We will complete our work with some applications in quantum field theory : Majorana neutrino, the scalar field on the light-cone, the O(2) nonlinear sigma model and the chiral boson theory. Key words : Quantization, constrainted systems, field theory, soluble systems, integration constants. | 翻訳日:2023-03-16 12:44:03 公開日:2023-03-12 |
# 自動運転における衝突回避のための逐次空間ネットワーク Sequential Spatial Network for Collision Avoidance in Autonomous Driving ( http://arxiv.org/abs/2303.07352v1 ) ライセンス: Link先を確認 | Haichuan Li, Liguo Zhou, Zhenshan Bing, Marzana Khatun, Rolf Jung, Alois Knoll | (参考訳) いくつかの自動運転戦略が自動運転車、特に衝突回避領域に適用されている。
衝突回避の目的は、自走車(av)の軌道を調整して、周囲の車両の軌道との交差や重なりを避けることである。
ResNet, YOLOなどの高度な視覚アルゴリズムは, 地域的特徴を正確にかつ迅速に捉える能力から, 視覚タスクにおいて優れた性能を発揮した, ターゲット検査, 分類, その他のタスクのために設計されている。
しかし, 異なるタスクの変動により, 上記のモデルでは小領域の捕捉性能は良好であるが, 入力画像の局所的特徴を相互に関連付けるには不十分である。
本稿では,この問題を解決することを目的として,CNNの地域的特徴を捉えつつ,注意の変動を利用した地域間の特徴相関を確立するアルゴリズムを開発する。
最後に、我々のモデルは、他のビジョンモデルと比較してL5Kitのテストセットでより良いパフォーマンスを達成する。
平均衝突回数は運転距離10000フレームあたり19.4であり、衝突回避の成功率を大幅に向上させる。 Several autonomous driving strategies have been applied to autonomous vehicles, especially in the collision avoidance area. The purpose of collision avoidance is achieved by adjusting the trajectory of autonomous vehicles (AV) to avoid intersection or overlap with the trajectory of surrounding vehicles. A large number of sophisticated vision algorithms have been designed for target inspection, classification, and other tasks, such as ResNet, YOLO, etc., which have achieved excellent performance in vision tasks because of their ability to accurately and quickly capture regional features. However, due to the variability of different tasks, the above models achieve good performance in capturing small regions but are still insufficient in correlating the regional features of the input image with each other. In this paper, we aim to solve this problem and develop an algorithm that takes into account the advantages of CNN in capturing regional features while establishing feature correlation between regions using variants of attention. Finally, our model achieves better performance in the test set of L5Kit compared to the other vision models. The average number of collisions is 19.4 per 10000 frames of driving distance, which greatly improves the success rate of collision avoidance. | 翻訳日:2023-03-15 17:57:40 公開日:2023-03-12 |
# 自律清掃のためのマルチロボットハイブリッドタスクアロケーションの実現に向けて Towards Practical Multi-Robot Hybrid Tasks Allocation for Autonomous Cleaning ( http://arxiv.org/abs/2303.06531v1 ) ライセンス: Link先を確認 | Yabin Wang, Xiaopeng Hong, Zhiheng Ma, Baoxing Qin, Zhou Su | (参考訳) タスク割り当ては、複数のロボットが協力して広い領域を掃除するマルチロボット自律清掃システムにおいて重要な役割を果たす。
しかし、これまでの研究にはいくつかの問題がある。
最近の研究のほとんどは、不確定な作業環境でのハイブリッドタスクを考慮せずに、掃除ロボットにおける決定論的単一タスク割り当てに焦点を当てている。
さらに、関連する研究のためのデータセットやベンチマークが不足している。
本稿では,これらの問題に対処して,不確実な自律清掃システムに対するマルチロボットハイブリッドタスクの割り当てに寄与する。
まず, 清掃環境における不確実性をロバスト最適化によりモデル化し, ハイブリッド清掃作業順序やロボットの能力など, 実用的な制約を持つ新しいロバスト型混合整数線形計画モデルを提案する。
第2に,床計画から作成した100インスタンスのデータセットを,手作業による2次元画像と3次元モデルで構築する。
第3に,従来の3つの最適化手法と深層強化学習に基づく解法を用いて,収集データセットの総合的な結果を提供する。
評価の結果,提案手法はマルチロボットクリーニングタスクの割り当ての必要性を満たしており,ロバストソルバは追加コストの少ない最悪の場合からシステムを保護できることがわかった。
ベンチマークは、https://github.com/iamwangyabin/Multi-robot-Cleaning-Task-Allocation}で公開される。 Task allocation plays a vital role in multi-robot autonomous cleaning systems, where multiple robots work together to clean a large area. However, there are several problems in relevant research to date. Most current studies mainly focus on deterministic, single-task allocation for cleaning robots, without considering hybrid tasks in uncertain working environments. Moreover, there is a lack of datasets and benchmarks for relevant research. In this paper, we contribute to multi-robot hybrid-task allocation for uncertain autonomous cleaning systems by addressing these problems. First, we model the uncertainties in the cleaning environment via robust optimization and propose a novel robust mixed-integer linear programming model with practical constraints including hybrid cleaning task order and robot's ability. Second, we establish a dataset of 100 instances made from floor plans, each of which has 2D manually-labeled images and a 3D model. Third, we provide comprehensive results on the collected dataset using three traditional optimization approaches and a deep reinforcement learning-based solver. The evaluation results show that our formulation meets the needs of multi-robot cleaning task allocation and the robust solver can protect the system from the worst cases with little additional cost. The benchmark will be available at {https://github.com/iamwangyabin/Multi-robot-Cleaning-Task-Allocation}. | 翻訳日:2023-03-14 18:34:01 公開日:2023-03-12 |
# 深層学習におけるバッチの正規化 Making Batch Normalization Great in Federated Deep Learning ( http://arxiv.org/abs/2303.06530v1 ) ライセンス: Link先を確認 | Jike Zhong, Hong-You Chen, Wei-Lun Chao | (参考訳) バッチ正規化(BN)は、現代のディープニューラルネットワーク(DNN)において、集中トレーニング中の安定性の向上と収束の高速化に一般的に使用されている。
非IID分散データを用いたフェデレートラーニング(FL)において、以前の研究は、BNを用いたトレーニングが、トレーニングとテストの間のBN統計のミスマッチによりパフォーマンスを阻害することを示した。
したがって、群正規化(GN)は BN の代替として FL でよく用いられる。
しかし、さまざまなFL設定に関する実証研究から、BNとGNの間に一貫した勝者は見つからない。
これにより、FLにおける正規化レイヤの使用を再考する。
適切な処理を行うと、BNは幅広いFL設定で高い競争力を持つことができ、追加の訓練や通信コストは不要である。
この研究が将来のflの実用的利用と理論的分析に有用な参考となることを願っている。 Batch Normalization (BN) is commonly used in modern deep neural networks (DNNs) to improve stability and speed up convergence during centralized training. In federated learning (FL) with non-IID decentralized data, previous works observed that training with BN could hinder performance due to the mismatch of the BN statistics between training and testing. Group Normalization (GN) is thus more often used in FL as an alternative to BN. However, from our empirical study across various FL settings, we see no consistent winner between BN and GN. This leads us to revisit the use of normalization layers in FL. We find that with proper treatments, BN can be highly competitive across a wide range of FL settings, and this requires no additional training or communication costs. We hope that our study could serve as a valuable reference for future practical usage and theoretical analysis in FL. | 翻訳日:2023-03-14 18:33:36 公開日:2023-03-12 |
# 一般コンパレータに対するデータ依存レギュレーションの完全フィードバックと帯域フィードバック Data Dependent Regret Guarantees Against General Comparators for Full or Bandit Feedback ( http://arxiv.org/abs/2303.06526v1 ) ライセンス: Link先を確認 | Kaan Gokcesu, Hakan Gokcesu | (参考訳) 本研究は, 逆オンライン学習問題について検討し, 完全専門家フィードバックと包括的フィードバック設定の両方において, 完全オンライン・アルゴリズム・フレームワークを構築した。
本研究では,一般比較器に対するアルゴリズムの期待性能について検討し,様々な問題シナリオに適用する。
我々のアルゴリズムは普遍的な予測の観点から機能し、使用する性能指標は任意のコンパレータ列に対する期待された後悔であり、これは我々の損失と競合する損失列との差である。
コンペティションクラスは固定アームの選択、スイッチング・バンディット、コンテキスト・バンディット、周期的バンディット、その他の興味ある競技を含むように設計されている。
コンペティションクラスのシーケンスは一般的に特定のアプリケーションによって決定され、それに応じて設計されるべきである。
我々のアルゴリズムは損失シーケンスに関する予備情報も不要であり、完全にオンラインである。
その性能境界はデータ依存であり、損失のアフィン変換は正規化された後悔に影響を与えない。 We study the adversarial online learning problem and create a completely online algorithmic framework that has data dependent regret guarantees in both full expert feedback and bandit feedback settings. We study the expected performance of our algorithm against general comparators, which makes it applicable for a wide variety of problem scenarios. Our algorithm works from a universal prediction perspective and the performance measure used is the expected regret against arbitrary comparator sequences, which is the difference between our losses and a competing loss sequence. The competition class can be designed to include fixed arm selections, switching bandits, contextual bandits, periodic bandits or any other competition of interest. The sequences in the competition class are generally determined by the specific application at hand and should be designed accordingly. Our algorithm neither uses nor needs any preliminary information about the loss sequences and is completely online. Its performance bounds are data dependent, where any affine transform of the losses has no effect on the normalized regret. | 翻訳日:2023-03-14 18:33:22 公開日:2023-03-12 |
# 非定常帯域問題に対するエネルギー正規化RNN Energy Regularized RNNs for Solving Non-Stationary Bandit Problems ( http://arxiv.org/abs/2303.06552v1 ) ライセンス: Link先を確認 | Michael Rotman, Lior Wolf | (参考訳) 我々は,報酬が非定常であり,過去の行動や過去の状況に依存する可能性があるマルチアームのバンディット問題を考える。
提案手法の核心には,これらのシーケンスをモデル化するリカレントニューラルネットワークを用いる。
探索と利用のバランスをとるために,ニューラルネットワークが特定の行動を支援する上で自信過剰になることを防ぐエネルギー最小化用語を提案する。
この用語は、ネットワークによって割り当てられた最大確率と最小確率の間のギャップを確実に制限する。
種々の実験において,本手法はロッティング帯域のサブプロブレムを解く方法と同じくらい有効であり,様々なベンチマーク問題の直感的な拡張を解くことができることを示す。
実装はhttps://github.com/rotmanmi/Energy-Regularized-RNNで公開しています。 We consider a Multi-Armed Bandit problem in which the rewards are non-stationary and are dependent on past actions and potentially on past contexts. At the heart of our method, we employ a recurrent neural network, which models these sequences. In order to balance between exploration and exploitation, we present an energy minimization term that prevents the neural network from becoming too confident in support of a certain action. This term provably limits the gap between the maximal and minimal probabilities assigned by the network. In a diverse set of experiments, we demonstrate that our method is at least as effective as methods suggested to solve the sub-problem of Rotting Bandits, and can solve intuitive extensions of various benchmark problems. We share our implementation at https://github.com/rotmanmi/Energy-Regularized-RNN. | 翻訳日:2023-03-14 18:25:35 公開日:2023-03-12 |
# グラフニューラルネットワーク分割画像間の空間対応 Spatial Correspondence between Graph Neural Network-Segmented Images ( http://arxiv.org/abs/2303.06550v1 ) ライセンス: Link先を確認 | Qian Li, Yunguan Fu, Qianye Yang, Zhijiang Du, Hongjian Yu, Yipeng Hu | (参考訳) 頂点と辺のグラフで表される解剖学的構造を予測することにより、医用画像セグメンテーションのためにグラフニューラルネットワーク(GNN)が提案されている。
そのようなグラフの1つは、関心のある解剖学的領域の参照を表すために、固定サイズと接続性で事前に定義されている。
この研究は、2つ以上の画像のセグメント化中に暗黙的に維持される空間対応を確立するための共通トポロジを持つこれらのGNNのポテンシャルを探求する。
CT画像における局所椎体サブリージョンの登録例を例に,GNNをベースとしたセグメンテーションは,セグメンテーションクラスに限らず,画像間の干渉的に興味深い構造を精度良く,信頼性の高い位置決めが可能であることを実験的に示した。
平均目標登録誤差は2.2$\pm$1.3 mmと2.7$\pm$1.4 mmで、ホールドアウトテストイメージを基準に整列させ、2つのテストイメージを整列させることは、試験された非学習および学習ベースの登録アルゴリズムよりもかなり低かった。
さらなるアブレーション研究は、もともとセグメンテーション目的のネットワークの個々のコンポーネントとそのトレーニングアルゴリズムから、登録パフォーマンスへの貢献を評価する。
提案手法は,非グリッドグラフ上での変位平滑性制約や点距離最小化など,既存の登録手法と方法論的類似性を共有しており,セグメンテーションと登録の両方に有益であった。
したがって、テンプレートベースのGNNセグメンテーションは、他の専用の登録アルゴリズムを使わずに、アプリケーション内の空間対応を効果的に確立できる。 Graph neural networks (GNNs) have been proposed for medical image segmentation, by predicting anatomical structures represented by graphs of vertices and edges. One such type of graph is predefined with fixed size and connectivity to represent a reference of anatomical regions of interest, thus known as templates. This work explores the potentials in these GNNs with common topology for establishing spatial correspondence, implicitly maintained during segmenting two or more images. With an example application of registering local vertebral sub-regions found in CT images, our experimental results showed that the GNN-based segmentation is capable of accurate and reliable localization of the same interventionally interesting structures between images, not limited to the segmentation classes. The reported average target registration errors of 2.2$\pm$1.3 mm and 2.7$\pm$1.4 mm, for aligning holdout test images with a reference and for aligning two test images, respectively, were by a considerable margin lower than those from the tested non-learning and learning-based registration algorithms. Further ablation studies assess the contributions towards the registration performance, from individual components in the originally segmentation-purposed network and its training algorithm. The results highlight that the proposed segmentation-in-lieu-of-registration approach shares methodological similarities with existing registration methods, such as the use of displacement smoothness constraint and point distance minimization albeit on non-grid graphs, which interestingly yielded benefits for both segmentation and registration. We, therefore, conclude that the template-based GNN segmentation can effectively establish spatial correspondence in our application, without any other dedicated registration algorithms. | 翻訳日:2023-03-14 18:25:13 公開日:2023-03-12 |
# CoT-MISR:マルチイメージ超解像のための畳み込み変換器 CoT-MISR:Marrying Convolution and Transformer for Multi-Image Super-Resolution ( http://arxiv.org/abs/2303.06548v1 ) ライセンス: Link先を確認 | Mingming Xiu and Yang Nie and Qing Song and Chun Liu | (参考訳) 画像復元の手法として、画像超解像は当初広く研究されてきた。
低解像度の画像を変換して高解像度の画像情報を復元する方法は、研究者たちが研究している問題である。
初期の物理変換法では、これらの方法で生成された高解像度画像は、常に情報不足の深刻な問題を抱えており、エッジや詳細は十分に回復できない。
ハードウェア技術や数学の発展に伴い、画像の超解像タスクには、直接的奥行き学習モデル、残留チャネルアテンションネットワーク、双方向抑制ネットワーク、変圧器ネットワークモジュールを備えたtrネットワークなど、奥行き学習手法が用いられるようになり、徐々に良好な結果が得られた。
マルチグラフ超解像の研究において、マルチグラフ超解像データセットの確立により、畳み込みモデルからトランスフォーマーモデルへの進化を経験し、超解像の品質が継続的に改善されている。
しかし、純粋な畳み込みや純粋な tr ネットワークは、低解像度の画像情報を利用することができない。
そこで我々は,新しいエンドツーエンドのCoT-MISRネットワークを提案する。
CoT-MISRネットワークは、畳み込みとtrの利点を利用して、ローカルおよびグローバルな情報を補完する。
等パラメータのデータセットの検証は,cot-misrネットワークが最適スコア指数に達したことを示している。 As a method of image restoration, image super-resolution has been extensively studied at first. How to transform a low-resolution image to restore its high-resolution image information is a problem that researchers have been exploring. In the early physical transformation methods, the high-resolution pictures generated by these methods always have a serious problem of missing information, and the edges and details can not be well recovered. With the development of hardware technology and mathematics, people begin to use in-depth learning methods for image super-resolution tasks, from direct in-depth learning models, residual channel attention networks, bi-directional suppression networks, to tr networks with transformer network modules, which have gradually achieved good results. In the research of multi-graph super-resolution, thanks to the establishment of multi-graph super-resolution dataset, we have experienced the evolution from convolution model to transformer model, and the quality of super-resolution has been continuously improved. However, we find that neither pure convolution nor pure tr network can make good use of low-resolution image information. Based on this, we propose a new end-to-end CoT-MISR network. CoT-MISR network makes up for local and global information by using the advantages of convolution and tr. The validation of dataset under equal parameters shows that our CoT-MISR network has reached the optimal score index. | 翻訳日:2023-03-14 18:24:32 公開日:2023-03-12 |
# ユニバーサルビジョン言語オムニ教師付きセグメンテーションに向けて Towards Universal Vision-language Omni-supervised Segmentation ( http://arxiv.org/abs/2303.06547v1 ) ライセンス: Link先を確認 | Bowen Dong, Jiaxi Gu, Jianhua Han, Hang Xu, Wangmeng Zuo | (参考訳) 既存のオープンワールドのユニバーサルセグメンテーションアプローチは、通常、CLIPと事前計算された提案マスクを利用して、オープンワールドセグメンテーションタスクを提案分類として扱う。
しかし、
1)これらの作品は、エンドツーエンドで普遍的なセグメンテーションを処理できない。
2) panopticデータセットの限られたスケールは、 thingsクラスのオープンワールドセグメンテーション能力を制限する。
本稿では、VLOSS(Vision-Language Omni-Supervised Segmentation)を提案する。
VLOSSは、CLIPテキストエンコーダを備えたMask2Formerユニバーサルセグメンテーションフレームワークから始まる。
オープンワールドセグメンテーション能力を向上させるために,全教師データ(panoptic segmentation data,object detection data,image-text pairs data)をトレーニングに活用し,オープンワールドセグメンテーション能力を強化し,セグメンテーション精度を向上させる。
トレーニング効率の向上と全教師ありデータのパワーの完全解放のために,fpn型エンコーダ,スイッチ可能なトレーニング技術,正の分類損失など,いくつかの高度な技術を提案する。
VLOSSは、提案手法によるエンドツーエンドの訓練方法から、様々なオープンワールドセグメンテーションタスクに適用できるが、さらなる適応はできない。
異なるオープンワールドパノプティクスおよびインスタンスセグメンテーションベンチマークの実験結果から、VLOSSの有効性が示された。
特にパラメータが少ないため、Swin-Tinyのバックボーンを持つVLOSSは、LVIS v1データセットのマスクAPでMaskCLIPを約2%上回る。 Existing open-world universal segmentation approaches usually leverage CLIP and pre-computed proposal masks to treat open-world segmentation tasks as proposal classification. However, 1) these works cannot handle universal segmentation in an end-to-end manner, and 2) the limited scale of panoptic datasets restricts the open-world segmentation ability on things classes. In this paper, we present Vision-Language Omni-Supervised Segmentation (VLOSS). VLOSS starts from a Mask2Former universal segmentation framework with CLIP text encoder. To improve the open-world segmentation ability, we leverage omni-supervised data (i.e., panoptic segmentation data, object detection data, and image-text pairs data) into training, thus enriching the open-world segmentation ability and achieving better segmentation accuracy. To better improve the training efficiency and fully release the power of omni-supervised data, we propose several advanced techniques, i.e., FPN-style encoder, switchable training technique, and positive classification loss. Benefiting from the end-to-end training manner with proposed techniques, VLOSS can be applied to various open-world segmentation tasks without further adaptation. Experimental results on different open-world panoptic and instance segmentation benchmarks demonstrate the effectiveness of VLOSS. Notably, with fewer parameters, our VLOSS with Swin-Tiny backbone surpasses MaskCLIP by ~2% in terms of mask AP on LVIS v1 dataset. | 翻訳日:2023-03-14 18:24:08 公開日:2023-03-12 |
# ブロックチェーンによる信頼性の高いデータ共有 - 基本,アプリケーション,課題 Blockchain-Empowered Trustworthy Data Sharing: Fundamentals, Applications, and Challenges ( http://arxiv.org/abs/2303.06546v1 ) ライセンス: Link先を確認 | Linh T. Nguyen, Lam Duc Nguyen, Thong Hoang, Dilum Bandara, Qin Wang, Qinghua Lu, Xiwei Xu, Liming Zhu, Petar Popovski, and Shiping Chen | (参考訳) さまざまなデータ共有プラットフォームが登場し、オープンデータに対する公的な需要が高まり、特定のデータをオープンにする法律が制定されている。
これらのプラットフォームの多くは不透明なままであり、データの正確性、証明と系統、プライバシーへの影響、同意管理、データプロバイダに対する公正なインセンティブの欠如など、多くの疑問につながります。
透明性、不変性、非監査性、分散化プロパティによって、ブロックチェーンはこれらの質問に答えて、データ共有プラットフォームへの信頼を高めることができない。
しかしながら、ブロックチェーンは、パフォーマンス、スケーラビリティ、高コストのために、ビッグデータの4つのV(ボリューム、多様性、速度、妥当性)を扱うのが得意ではない。
ブロックチェーンベースの信頼できるデータ共有ソリューションを提案する多くの関連著作があるため、それらの共有メカニズム、共有サービス、サービスの品質、アプリケーションに関して、これらの技術やプラットフォームを理解し、選択する上での混乱と困難が高まっている。
本稿では,ブロックチェーンベースのデータ共有アーキテクチャとアプリケーションを網羅的に調査し,そのギャップを埋める。
まず、ブロックチェーンの基礎を示し、現在のデータ共有技術の課題について議論する。
第2に,ブロックチェーンとデータ共有の収束に注目して,この状況を明確に示すとともに,ブロックチェーンベースのデータ共有のための参照アーキテクチャを提案する。
第3に、医療やスマートグリッドから輸送や脱炭に至るまで、ブロックチェーンベースのデータ共有の産業的応用について論じる。
各アプリケーションに対して、ブロックチェーンベースのデータ共有のデプロイで学んだ教訓を提供します。
最後に,研究課題と研究の方向性について論じる。 Various data-sharing platforms have emerged with the growing public demand for open data and legislation mandating certain data to remain open. Most of these platforms remain opaque, leading to many questions about data accuracy, provenance and lineage, privacy implications, consent management, and the lack of fair incentives for data providers. With their transparency, immutability, non-repudiation, and decentralization properties, blockchains could not be more apt to answer these questions and enhance trust in a data-sharing platform. However, blockchains are not good at handling the four Vs of big data (i.e., volume, variety, velocity, and veracity) due to their limited performance, scalability, and high cost. Given many related works proposes blockchain-based trustworthy data-sharing solutions, there is increasing confusion and difficulties in understanding and selecting these technologies and platforms in terms of their sharing mechanisms, sharing services, quality of services, and applications. In this paper, we conduct a comprehensive survey on blockchain-based data-sharing architectures and applications to fill the gap. First, we present the foundations of blockchains and discuss the challenges of current data-sharing techniques. Second, we focus on the convergence of blockchain and data sharing to give a clear picture of this landscape and propose a reference architecture for blockchain-based data sharing. Third, we discuss the industrial applications of blockchain-based data sharing, ranging from healthcare and smart grid to transportation and decarbonization. For each application, we provide lessons learned for the deployment of Blockchain-based data sharing. Finally, we discuss research challenges and open research directions. | 翻訳日:2023-03-14 18:23:43 公開日:2023-03-12 |
# 単一正のラベルによる横時間接地に向けて Towards Diverse Temporal Grounding under Single Positive Labels ( http://arxiv.org/abs/2303.06545v1 ) ライセンス: Link先を確認 | Hao Zhou, Chongyang Zhang, Yanjun Chen, Chuanping Hu | (参考訳) 時間的接地は、言語クエリによって、未トリミングビデオ内の記述されたイベントのモーメントを検索することを目的としている。
通常、既存のメソッドはアノテーションが正確でユニークであると仮定するが、あるクエリは多くの場合、複数のモーメントを記述することがある。
したがって、単に1-vs-oneマッピングタスクとして、シングルラベルアノテーションにマッチしようとすると、最適化中に必然的に偽陰性が発生する。
本研究では,この課題を単一正のラベル条件下での一対多最適化問題として再検討する。
ラベルのないモーメントは負ではなく観測されないと考えられており、複数のモーメント検索を支援するために潜在的正のモーメントをマイニングする。
本稿では、主に正モーメント推定(PME)モジュールと多種多様なモーメント回帰(DMR)モジュールからなる、DTG-SPLと呼ばれる新しい時間的時間的接地フレームワークを提案する。
PMEはセマンティック・リコンストラクション情報と期待された正の正の正の正の定式化を利用して、潜在的正の瞬間をオンラインで発見する。
これらの擬似陽性の監督の下で、DMRは異なるユーザに対応する様々な瞬間を同時にローカライズすることができる。
フレームワーク全体がエンドツーエンドの最適化と高速な推論を可能にします。
Charades-STA と ActivityNet Captions の広範囲な実験により,本手法はシングルラベルとマルチラベルの両方の指標において優れた性能を発揮することが示された。 Temporal grounding aims to retrieve moments of the described event within an untrimmed video by a language query. Typically, existing methods assume annotations are precise and unique, yet one query may describe multiple moments in many cases. Hence, simply taking it as a one-vs-one mapping task and striving to match single-label annotations will inevitably introduce false negatives during optimization. In this study, we reformulate this task as a one-vs-many optimization problem under the condition of single positive labels. The unlabeled moments are considered unobserved rather than negative, and we explore mining potential positive moments to assist in multiple moment retrieval. In this setting, we propose a novel Diverse Temporal Grounding framework, termed DTG-SPL, which mainly consists of a positive moment estimation (PME) module and a diverse moment regression (DMR) module. PME leverages semantic reconstruction information and an expected positive regularization to uncover potential positive moments in an online fashion. Under the supervision of these pseudo positives, DMR is able to localize diverse moments in parallel that meet different users. The entire framework allows for end-to-end optimization as well as fast inference. Extensive experiments on Charades-STA and ActivityNet Captions show that our method achieves superior performance in terms of both single-label and multi-label metrics. | 翻訳日:2023-03-14 18:23:19 公開日:2023-03-12 |
# データシフト下における多層パーセプトロンRRライレー分類器のインフォーマティブ正規化 Informative regularization for a multi-layer perceptron RR Lyrae classifier under data shift ( http://arxiv.org/abs/2303.06544v1 ) ライセンス: Link先を確認 | Francisco P\'erez-Galarce and Karim Pichara and Pablo Huijse and M\'arcio Catelan and Domingo Mery | (参考訳) 過去数十年間、機械学習は時系列調査から知識を処理し抽出するための貴重なモデルとアルゴリズムを提供してきた。
異なる分類器が提案され、優れた標準として実行されている。
それにもかかわらず、ラベル付きトレーニングセットにおけるデータシフト問題に取り組んだ論文は少なく、トレーニングセット内のデータ分散とテストセットのミスマッチが発生した場合に発生する。
この欠点は、見えないデータの予測性能を損なう可能性がある。
そこで本研究では,rr lyrae分類のための多層パーセプトロンの訓練中にシフト問題を緩和するために,情報正規化とアドホックなトレーニング手順に基づくスケーラブルで適応性の高いアプローチを提案する。
特徴量の範囲を収集し,情報正規化成分のモデル化に用いた先行知識の記号表現を構築する。
同時に、ニューラルネットワークにこの知識を統合するための2ステップのバックプロパゲーションアルゴリズムを設計し、各エポックに1ステップを適用して分類誤差を最小化し、もう1ステップを正規化を保証する。
本アルゴリズムは各損失関数に対するパラメータのサブセット(マスク)を定義する。
このアプローチは、トレーニング中のこれらの損失関数(データから学ぶことと専門家の知識を学ぶこと)間のトレードオフに起因する、忘れることの効果を扱う。
RRリレー星に対する最近提案されたシフトベンチマークセットを用いて実験を行い、より信頼性の高い分類器によってベースラインモデルよりも最大3倍高い性能を示した。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。 In recent decades, machine learning has provided valuable models and algorithms for processing and extracting knowledge from time-series surveys. Different classifiers have been proposed and performed to an excellent standard. Nevertheless, few papers have tackled the data shift problem in labeled training sets, which occurs when there is a mismatch between the data distribution in the training set and the testing set. This drawback can damage the prediction performance in unseen data. Consequently, we propose a scalable and easily adaptable approach based on an informative regularization and an ad-hoc training procedure to mitigate the shift problem during the training of a multi-layer perceptron for RR Lyrae classification. We collect ranges for characteristic features to construct a symbolic representation of prior knowledge, which was used to model the informative regularizer component. Simultaneously, we design a two-step back-propagation algorithm to integrate this knowledge into the neural network, whereby one step is applied in each epoch to minimize classification error, while another is applied to ensure regularization. Our algorithm defines a subset of parameters (a mask) for each loss function. This approach handles the forgetting effect, which stems from a trade-off between these loss functions (learning from data versus learning expert knowledge) during training. Experiments were conducted using recently proposed shifted benchmark sets for RR Lyrae stars, outperforming baseline models by up to 3\% through a more reliable classifier. Our method provides a new path to incorporate knowledge from characteristic features into artificial neural networks to manage the underlying data shift problem. | 翻訳日:2023-03-14 18:22:54 公開日:2023-03-12 |
# MetaUE:水中画像強調のためのモデルベースメタラーニング MetaUE: Model-based Meta-learning for Underwater Image Enhancement ( http://arxiv.org/abs/2303.06543v1 ) ライセンス: Link先を確認 | Zhenwei Zhang and Haorui Yan and Ke Tang and Yuping Duan | (参考訳) 水中画像の復元における課題は、多様な劣化要因の存在と地上真理画像の欠如である。
合成水中画像ペアは、不適切なデータ観測の問題を克服するために使用できるが、過剰フィッティングと拡張劣化をもたらす可能性がある。
本稿では,様々な水中シナリオでクリーンイメージを復元するためのモデルベース深層学習手法を提案する。
より具体的には、クリーン画像、背景光、送信マップをそれぞれ推定するために、多変量畳み込みニューラルネットワークモデルを構築した。
また、水中画像モデルに基づいて変数を密に統合する効率的な損失関数も設計されている。
メタラーニング戦略は、様々な水中環境をカバーする様々な種類の劣化を含む合成水中データセットの事前学習モデルを得るために使用される。
事前訓練されたモデルは、実際の水中データセット上で微調整され、metaueと呼ばれる信頼性の高い水中画像拡張モデルを得る。
数値実験により, 事前学習モデルでは, 青色, 緑, 黄色などの水中減衰画像の色劣化を除去できるほど, 高い一般化能を有することが示された。
微調整により、モデルは異なる水中データセットに適応でき、その結果は最先端の水中画像復元方法より優れている。
すべてのコードとデータは、 \url{https://github.com/Duanlab123/MetaUE}で利用可能です。 The challenges in recovering underwater images are the presence of diverse degradation factors and the lack of ground truth images. Although synthetic underwater image pairs can be used to overcome the problem of inadequately observing data, it may result in over-fitting and enhancement degradation. This paper proposes a model-based deep learning method for restoring clean images under various underwater scenarios, which exhibits good interpretability and generalization ability. More specifically, we build up a multi-variable convolutional neural network model to estimate the clean image, background light and transmission map, respectively. An efficient loss function is also designed to closely integrate the variables based on the underwater image model. The meta-learning strategy is used to obtain a pre-trained model on the synthetic underwater dataset, which contains different types of degradation to cover the various underwater environments. The pre-trained model is then fine-tuned on real underwater datasets to obtain a reliable underwater image enhancement model, called MetaUE. Numerical experiments demonstrate that the pre-trained model has good generalization ability, allowing it to remove the color degradation for various underwater attenuation images such as blue, green and yellow, etc. The fine-tuning makes the model able to adapt to different underwater datasets, the enhancement results of which outperform the state-of-the-art underwater image restoration methods. All our codes and data are available at \url{https://github.com/Duanlab123/MetaUE}. | 翻訳日:2023-03-14 18:22:27 公開日:2023-03-12 |
# AutoOptLib:MATLABにおけるメタヒューリスティック最適化アルゴリズムの自動設計ライブラリ AutoOptLib: A Library of Automatically Designing Metaheuristic Optimization Algorithms in MATLAB ( http://arxiv.org/abs/2303.06536v1 ) ライセンス: Link先を確認 | Qi Zhao, Bai Yan, Taiwei Hu, Xianglong Chen, Yuhui Shi | (参考訳) メタヒューリスティックアルゴリズムは、マルチモダリティ、離散化、大規模、多目的性などの最適化問題に挑戦するための広く認識された解法である。
メタヒューリスティックアルゴリズムの自動設計は、アルゴリズムの設計選択を考案、構築、検証するために、今日の増大するコンピューティングリソースを活用する。
従来の手作業による設計よりもはるかに少ない専門知識、労働資源、時間コストを必要とする。
さらに、コンピュータパワーで設計選択を完全に探究することで、自動設計は人間レベルの設計に到達し、さらには人間の問題解決と比べて性能が向上する可能性がある。
これらの大きな利点は、自動設計技術への関心と発展を惹きつけた。
オープンソースソフトウェアは、技術への関心の高まりと開発に対応して不可欠である。
そこで我々は,メタヒューリスティックアルゴリズムを自動設計するMATLABライブラリAutoOptLibを開発した。
autooptlibは、初めて、以下のものを含む設計プロセス全体をサポートする。
1)連続的,離散的,置換的問題に対するアルゴリズム的コンポーネントが多数存在する。
2)多様なアルゴリズム構造を進化させるフレキシブルアルゴリズム表現
3)異なる実験・応用シナリオのための様々な設計目標と設計手法、
4)実用性とアクセシビリティのための有用な実験ツールとグラフィックユーザインタフェース(gui)。
本稿ではまず,AutoOptLibライブラリの重要な機能とアーキテクチャを紹介する。
次に、コマンドまたはGUIでライブラリの使い方を説明します。
さらにパラメータ重要度分析やベンチマーク比較など、追加の用途や実験ツールについても解説する。
最後に,AutoOptLibの効率と実用性を検証する学術的・海賊的応用について述べる。 Metaheuristic algorithms are widely-recognized solvers for challenging optimization problems with multi-modality, discretization, large-scale, multi-objectivity, etc. Automatically designing metaheuristic algorithms leverages today's increasing computing resources to conceive, build up, and verify the design choices of algorithms. It requires much less expertise, labor resources, and time cost than the traditional manual design. Furthermore, by fully exploring the design choices with computing power, automated design is potential to reach or even surpass human-level design, subsequently gaining enhanced performance compared with human problem-solving. These significant advantages have attracted increasing interest and development in the automated design techniques. Open source software is indispensable in response to the increasing interest and development of the techniques. To this end, we have developed a MATLAB library, AutoOptLib, to automatically design metaheuristic algorithms. AutoOptLib, for the first time, provides throughout support to the whole design process, including: 1) plenty of algorithmic components for continuous, discrete, and permutation problems, 2) flexible algorithm representation for evolving diverse algorithm structures, 3) various design objectives and design techniques for different experimentation and application scenarios, and 4) useful experimental tools and graphic user interface (GUI) for practicability and accessibility. In this paper, we first introduce the key features and architecture of the AutoOptLib library. We then illustrate how to use the library by either command or GUI. We further describe additional uses and experimental tools, including parameter importance analysis and benchmark comparison. Finally, we present academic and piratical applications of AutoOptLib, which verifies its efficiency and practicability. | 翻訳日:2023-03-14 18:21:58 公開日:2023-03-12 |
# メタヒューリスティックアルゴリズムの自動設計に関する調査 A Survey on Automated Design of Metaheuristic Algorithms ( http://arxiv.org/abs/2303.06532v1 ) ライセンス: Link先を確認 | Qi Zhao, Qiqi Duan, Bai Yan, Shi Cheng, Yuhui Shi | (参考訳) メタヒューリスティックなアルゴリズムは,問題構造や問題領域に依存しない探索を行う能力から,学界や産業から広く注目を集めている。
多くの場合、人間の専門家は目標とする問題を解決するアルゴリズムを手動で調整するよう要求される。
手動の調整プロセスは手間がかかり、エラーが発生しやすく、集中的な専門知識を必要とする。
これにより、人間の介入が少ないメタヒューリスティックアルゴリズムの自動設計に対する関心や要求が高まる。
この自動設計によって、より広い範囲の研究者や実践者が高性能なアルゴリズムを利用できるようになり、計算能力を活用して潜在的な設計選択を完全に探求することで、自動設計は人間レベルの設計に到達したり、超えたりすることができる。
本稿では,メタヒューリスティックアルゴリズムの自動設計の形式化,方法論,課題,研究動向について,この分野における共通基盤と代表的手法に関する調査を行った。
本調査では,メタヒューリスティックアルゴリズムの自動設計の概念をまず提示し,自動設計プロセスを設計空間,設計戦略,性能評価戦略,対象問題といった4つの部分に抽象化して分類する。
次に,分類学の4つの部分に関するテクニックを概観し,それぞれの強み,弱み,課題,ユーザビリティについて論じる。
最後に,この分野の研究動向を紹介する。 Metaheuristic algorithms have attracted wide attention from academia and industry due to their capability of conducting search independent of problem structures and problem domains. Often, human experts are requested to manually tailor algorithms to fit for solving a targeted problem. The manual tailoring process may be laborious, error-prone, and require intensive specialized knowledge. This gives rise to increasing interests and demands for automated design of metaheuristic algorithms with less human intervention. The automated design could make high-performance algorithms accessible to a much broader range of researchers and practitioners; and by leveraging computing power to fully explore the potential design choices, automated design could reach or even surpass human-level design. This paper presents a broad picture of the formalization, methodologies, challenges, and research trends of automated design of metaheuristic algorithms, by conducting a survey on the common grounds and representative techniques in this field. In the survey, we first present the concept of automated design of metaheuristic algorithms and provide a taxonomy by abstracting the automated design process into four parts, i.e., design space, design strategies, performance evaluation strategies, and targeted problems. Then, we overview the techniques concerning the four parts of the taxonomy and discuss their strengths, weaknesses, challenges, and usability, respectively. Finally, we present research trends in this field. | 翻訳日:2023-03-14 18:21:39 公開日:2023-03-12 |
# 最適化除算アルゴリズムを用いた二乗楕円曲線の新しい空間効率量子アルゴリズム New Space-Efficient Quantum Algorithm for Binary Elliptic Curves using the Optimized Division Algorithm ( http://arxiv.org/abs/2303.06570v1 ) ライセンス: Link先を確認 | Hyeonhak Kim, Seokhie Hong | (参考訳) 前回の研究では、楕円曲線離散対数問題(ecdlp)を解くために量子資源が具体的に推定された。
[1]において、量子アルゴリズムは2次楕円曲線に対して最適化され、主な最適化対象は論理量子ビットの数であった。
分割アルゴリズムは主に[1]で最適化された。
本稿では,より少ない数の量子ビットを用いた2値場上の量子分割アルゴリズムを提案する。
2^n$ のフィールドの要素に対して、$\lceil n/2 \rceil - 1$ qubits を節約できるが、これは 8n^2+4n-12+(16n-8)\lfloor\log(n)\rfloor$ toffoli gates を使う代わりに、バイナリ楕円曲線に対するより空間効率の良い量子アルゴリズムとなる。 In previous research, quantum resources were concretely estimated for solving Elliptic Curve Discrete Logarithm Problem(ECDLP). In [1], the quantum algorithm was optimized for the binary elliptic curves and the main optimization target was the number of the logical qubits. The division algorithm was mainly optimized in [1] since every ancillary qubit is used in the division algorithm. In this paper, we suggest a new quantum division algorithm on the binary field which uses a smaller number of qubits. For elements in a field of $2^n$, we can save $\lceil n/2 \rceil - 1$ qubits instead of using $8n^2+4n-12+(16n-8)\lfloor\log(n)\rfloor$ more Toffoli gates, which leads to a more space-efficient quantum algorithm for binary elliptic curves. | 翻訳日:2023-03-14 18:15:26 公開日:2023-03-12 |
# 物体検出に基づくサルスイングカウントアルゴリズム A Monkey Swing Counting Algorithm Based on Object Detection ( http://arxiv.org/abs/2303.06567v1 ) ライセンス: Link先を確認 | Hao Chen, Zhe-Ming Lu, and Jie Liu | (参考訳) 本稿では,深層学習に基づく猿振計数アルゴリズムを提案する。
現在、サル検出に関する論文はほとんどなく、サルのスイングカウントに関する論文も少なくなっている。
この研究は、このギャップに焦点を当て、深層学習によって頭を振る猿の数を数えようとしている。
本稿では従来のターゲット検出アルゴリズムをさらに拡張する。
対象物検出の結果を分析することで,サルの行動を一定時間にわたって局所化する。
本稿では,サルの頭部揺動を計測する作業を分析し,猿の頭部揺動を正確に記述する基準を提案する。
この標準の指導のもと,本論文の猿の動き動画50本のうち,頭振り回数は94%に達した。 This paper focuses on proposing a deep learning-based monkey swing counting algorithm. Nowadays, there are very few papers on monkey detection, and even fewer papers on monkey swing counting. This research focuses on this gap and attempts to count the number of monkeys swinging their heads by deep learning. This paper further extends the traditional target detection algorithm. By analyzing the results of object detection, we localize the monkey's actions over a period of time. This paper analyzes the task of counting monkey head swings, and proposes the standard that accurately describes a monkey swinging its head. Under the guidance of this standard, the head-swing count in 50 monkey movement videos in this paper has achieved 94%. | 翻訳日:2023-03-14 18:15:06 公開日:2023-03-12 |
# 抽象的多文書要約のための圧縮不均質グラフ Compressed Heterogeneous Graph for Abstractive Multi-Document Summarization ( http://arxiv.org/abs/2303.06565v1 ) ライセンス: Link先を確認 | Miao Li, Jianzhong Qi, Jey Han Lau | (参考訳) multi-document summarization (mds) は、関連文書の要約を生成することを目的としている。
エンコーダ-デコーダアーキテクチャを拡張したmdsモデルであるhgsumを提案する。文書の異なる意味単位(例えば、単語と文)を表現するために異種グラフを組み込む。
これは、グラフの異なるエッジタイプを考慮せず、文書内の関係の多様性を捉えない既存のMDSモデルとは対照的である。
不均一グラフにおける文書のキー情報と関係のみを保持するため、HGSUMはグラフプーリングを使用して入力グラフを圧縮する。
また,hgsumに圧縮学習を指導するために,圧縮されたグラフと,訓練中の接地要約から構築されたグラフとの類似性を最大化する追加目標を導入する。
HGSUMは、グラフ類似性と標準のクロスエントロピー目的を備えたエンドツーエンドで訓練されている。
Multi-NEWS, WCEP-100, ARXIVによる実験結果から, HGSUMは最先端のMDSモデルより優れていることが示された。
私たちのモデルと実験のコードは、https://github.com/oaimli/hgsum.com/で利用可能です。 Multi-document summarization (MDS) aims to generate a summary for a number of related documents. We propose HGSUM, an MDS model that extends an encoder-decoder architecture, to incorporate a heterogeneous graph to represent different semantic units (e.g., words and sentences) of the documents. This contrasts with existing MDS models which do not consider different edge types of graphs and as such do not capture the diversity of relationships in the documents. To preserve only key information and relationships of the documents in the heterogeneous graph, HGSUM uses graph pooling to compress the input graph. And to guide HGSUM to learn compression, we introduce an additional objective that maximizes the similarity between the compressed graph and the graph constructed from the ground-truth summary during training. HGSUM is trained end-to-end with graph similarity and standard cross-entropy objectives. Experimental results over MULTI-NEWS, WCEP-100, and ARXIV show that HGSUM outperforms state-of-the-art MDS models. The code for our model and experiments is available at: https://github.com/oaimli/HGSum. | 翻訳日:2023-03-14 18:14:55 公開日:2023-03-12 |
# ContraNorm: オーバースムーシングとBeyondに関する対照的な学習視点 ContraNorm: A Contrastive Learning Perspective on Oversmoothing and Beyond ( http://arxiv.org/abs/2303.06562v1 ) ライセンス: Link先を確認 | Xiaojun Guo, Yifei Wang, Tianqi Du, Yisen Wang | (参考訳) オーバースムーシング(Oversmoothing)は、幅広いグラフニューラルネットワーク(GNN)とトランスフォーマーにおいて一般的な現象であり、レイヤーの数が増えるにつれてパフォーマンスが悪化する。
表現が一点に収束する完全崩壊の観点から過度に滑らかな表現を特徴づける代わりに、表現が狭い円錐の中に置かれる次元崩壊のより一般的な視点に飛び込む。
したがって,次元崩壊防止におけるコントラスト学習の有効性に着想を得て,contranormと呼ばれる新しい正規化層を提案する。
直感的には、ContraNormは埋め込み空間における表現を暗黙的に破壊し、より均一な分布とわずかに次元の崩壊をもたらす。
理論的解析において、ContraNormは特定の条件下での完全崩壊と次元崩壊を緩和できることを示す。
提案する正規化層は,パラメータオーバーヘッドが無視できるGNNやTransformerに容易に統合できる。
提案したContraNormの有効性を実世界の様々なデータセットで実証した。
実装はhttps://github.com/PKU-ML/ContraNorm.comで公開しています。 Oversmoothing is a common phenomenon in a wide range of Graph Neural Networks (GNNs) and Transformers, where performance worsens as the number of layers increases. Instead of characterizing oversmoothing from the view of complete collapse in which representations converge to a single point, we dive into a more general perspective of dimensional collapse in which representations lie in a narrow cone. Accordingly, inspired by the effectiveness of contrastive learning in preventing dimensional collapse, we propose a novel normalization layer called ContraNorm. Intuitively, ContraNorm implicitly shatters representations in the embedding space, leading to a more uniform distribution and a slighter dimensional collapse. On the theoretical analysis, we prove that ContraNorm can alleviate both complete collapse and dimensional collapse under certain conditions. Our proposed normalization layer can be easily integrated into GNNs and Transformers with negligible parameter overhead. Experiments on various real-world datasets demonstrate the effectiveness of our proposed ContraNorm. Our implementation is available at https://github.com/PKU-ML/ContraNorm. | 翻訳日:2023-03-14 18:14:38 公開日:2023-03-12 |
# 2層ニューラルネットワークの初期凝縮の位相図 Phase Diagram of Initial Condensation for Two-layer Neural Networks ( http://arxiv.org/abs/2303.06561v1 ) ライセンス: Link先を確認 | Zhengan Chen, Yuqing Li, Tao Luo, Zhangchen Zhou, Zhi-Qin John Xu | (参考訳) ニューラルネットワークが様々な初期化のスケールで異なる行動を示す現象は、深層学習研究において謎のままである。
本稿では、Luoらによる初期の研究を基にした。
~\cite{luo2021phase},二層ニューラルネットワークの初期凝縮の位相図を示す。
凝縮は、ニューラルネットワークの重みベクトルがトレーニングプロセス中に孤立した方向に集中する現象であり、ニューラルネットワークがより良い一般化能力を持つことを可能にする非線形学習プロセスの特徴である。
我々のフェーズダイアグラムは、ニューラルネットワークのダイナミックな状態と、初期化に関連するハイパーパラメータの選択への依存を包括的に理解するのに役立ちます。
さらに,初期訓練段階において,小さな初期化が凝縮につながるメカニズムを詳細に示す。 The phenomenon of distinct behaviors exhibited by neural networks under varying scales of initialization remains an enigma in deep learning research. In this paper, based on the earlier work by Luo et al.~\cite{luo2021phase}, we present a phase diagram of initial condensation for two-layer neural networks. Condensation is a phenomenon wherein the weight vectors of neural networks concentrate on isolated orientations during the training process, and it is a feature in non-linear learning process that enables neural networks to possess better generalization abilities. Our phase diagram serves to provide a comprehensive understanding of the dynamical regimes of neural networks and their dependence on the choice of hyperparameters related to initialization. Furthermore, we demonstrate in detail the underlying mechanisms by which small initialization leads to condensation at the initial training stage. | 翻訳日:2023-03-14 18:14:19 公開日:2023-03-12 |
# 2つの遠方励起原子からの遅延誘起自然暗黒状態発生 Delay-induced spontaneous dark state generation from two distant excited atoms ( http://arxiv.org/abs/2303.06559v1 ) ライセンス: Link先を確認 | William Alvarez-Giron, Pablo Solano, Kanu Sinha, Pablo Barberis-Blostein | (参考訳) 遅延の存在下で1次元導波路に結合した2つの完全励起2レベル原子の集団的非マルコフダイナミクスについて検討した。
逆アトミックアンサンブルがその放出を促進するために同期する、よく知られた超蛍光現象と同様に、原子間分離によって原子を絡み合った暗黒状態へと同期させる「サブ蛍光」効果が存在することを実証する。
結果は遠方量子エミッタ間の自発的絡み合い発生機構を示す長距離量子ネットワークと関連している。 We investigate the collective non-Markovian dynamics of two fully excited two-level atoms coupled to a one-dimensional waveguide in the presence of delay. We demonstrate that analogous to the well-known superfluorescence phenomena, where an inverted atomic ensemble synchronizes to enhance its emission, there is a `subfluorescence' effect that synchronizes the atoms into an entangled dark state depending on the interatomic separation. Our results are pertinent to long-distance quantum networks, presenting a mechanism for spontaneous entanglement generation between distant quantum emitters. | 翻訳日:2023-03-14 18:14:07 公開日:2023-03-12 |
# 非サイン連結閉リーマン多様体上のガウス核は必ずしも正定値ではない Gaussian kernels on non-simply-connected closed Riemannian manifolds are never positive definite ( http://arxiv.org/abs/2303.06558v1 ) ライセンス: Link先を確認 | Siran Li | (参考訳) ガウス核 $\exp\left\{-\lambda d_g^2(\bullet, \bullet)\right\}$ on any-simply-connected closed riemann manifold $(\mathcal{m},g)$, ここで $d_g$ は測地距離であるが、任意の$\lambda > 0$ に対して正定値ではなく、da costa-mostajeran-ortega による最近の preprint~[9] の解析と、リーマン幾何学における古典比較定理を組み合わせる。 We show that the Gaussian kernel $\exp\left\{-\lambda d_g^2(\bullet, \bullet)\right\}$ on any non-simply-connected closed Riemannian manifold $(\mathcal{M},g)$, where $d_g$ is the geodesic distance, is not positive definite for any $\lambda > 0$, combining analyses in the recent preprint~[9] by Da Costa--Mostajeran--Ortega and classical comparison theorems in Riemannian geometry. | 翻訳日:2023-03-14 18:13:58 公開日:2023-03-12 |
# 解釈可能な機械学習モデルによるハリケーン避難の予測 Predicting Hurricane Evacuation Decisions with Interpretable Machine Learning Models ( http://arxiv.org/abs/2303.06557v1 ) ライセンス: Link先を確認 | Yuran Sun, Shih-Kai Huang, Xilei Zhao | (参考訳) 気候変動による人口増加の影響は、大規模なハリケーン避難の課題をエスカレートさせる。
ハリケーンの準備と対応戦略は、予測された世帯の避難決定の正確さとスケジュールに大きく依存するが、心理学駆動の線形モデルを含む現在の研究は、実際はいくつかの重要な制限を残している。
そこで本研究は, 人口動態や資源関連予測者によって構成される世帯の避難判断を, 心理的要因に依存した現在のモデルと比較し, 新たな予測手法を提案する。
一方、解析可能な機械学習手法により非線形性(一変量および二変量閾値効果)を自動的に説明できる拡張ロジスティック回帰(ELR)モデルを開発し、結果の精度を確保する。
具体的には、臨界しきい値を特定し、透明なモデル構造を構築し、ロバスト性を固めるために、非線形検出のために低深さ決定木を選択する。
次に,Huricanes Katrina と Rita の後に収集された経験的データセットを用いて,新しい方法論の実践性を検討する。
その結果、拡張ロジスティック回帰(ELR)モデルは、モデル適合性における世帯の避難決定の変動と、以前の線形モデルと比較して予測能力を説明する上で最も説得力のある性能を示した。
提案手法は,避難交通需要の推定を時間的かつ正確な方法で改善するための,緊急管理当局のための新しいツールと枠組みを提供する可能性を示唆する。 The aggravating effects of climate change and the growing population in hurricane-prone areas escalate the challenges in large-scale hurricane evacuations. While hurricane preparedness and response strategies vastly rely on the accuracy and timeliness of the predicted households' evacuation decisions, current studies featuring psychological-driven linear models leave some significant limitations in practice. Hence, the present study proposes a new methodology for predicting households' evacuation decisions constructed by easily accessible demographic and resource-related predictors compared to current models with a high reliance on psychological factors. Meanwhile, an enhanced logistic regression (ELR) model that could automatically account for nonlinearities (i.e., univariate and bivariate threshold effects) by an interpretable machine learning approach is developed to secure the accuracy of the results. Specifically, low-depth decision trees are selected for nonlinearity detection to identify the critical thresholds, build a transparent model structure, and solidify the robustness. Then, an empirical dataset collected after Hurricanes Katrina and Rita is hired to examine the practicability of the new methodology. The results indicate that the enhanced logistic regression (ELR) model has the most convincing performance in explaining the variation of the households' evacuation decision in model fit and prediction capability compared to previous linear models. It suggests that the proposed methodology could provide a new tool and framework for the emergency management authorities to improve the estimation of evacuation traffic demands in a timely and accurate manner. | 翻訳日:2023-03-14 18:13:39 公開日:2023-03-12 |
# DOMINO: 時間依存現象による視覚因果推論 DOMINO: Visual Causal Reasoning with Time-Dependent Phenomena ( http://arxiv.org/abs/2303.06556v1 ) ライセンス: Link先を確認 | Jun Wang and Klaus Mueller | (参考訳) 変数間の因果関係を決定するためにビジュアルアナリティクスを使用する最近の取り組みは、主に反事実の概念に基づいている。
このように、導出された静的因果ネットワークは、時間の影響を指標として考慮しない。
しかし、因果関係の時間的遅延を知ることは、アクションがいつどのように行われるべきかを指示するので重要である。
しかし、静的因果関係と同様に、観測時系列データから因果関係を導出することは、設計された実験とは対照的に、単純なプロセスではない。
人間の洞察から、つながりを壊し、エラーを解決できるのです。
そこで我々は,人間が時間遅延の窓に関連する因果関係の発見に参加することのできる視覚分析手法を提案する。
具体的には、論理に基づく因果関係の確立した手法を活用し、分析者が潜在的な原因の重要性を検証し、その影響をある効果に対して測定できるようにする。
さらに,効果が他の効果の原因となる可能性があるため,本手法で検出した時間的原因・影響関係を視覚フロー図に集約し,時間的因果ネットワークの発見を可能にする。
本手法の有効性を示すために,DOMINOというプロトタイプシステムを構築し,実世界のデータセットを用いたケーススタディを多数実施した。
最後に,実運用シナリオにおけるシステムの有用性に関するフィードバックを得るために,異なる科学領域の人間アナリストといくつかの評価を行うために,ドミノを用いた。 Current work on using visual analytics to determine causal relations among variables has mostly been based on the concept of counterfactuals. As such the derived static causal networks do not take into account the effect of time as an indicator. However, knowing the time delay of a causal relation can be crucial as it instructs how and when actions should be taken. Yet, similar to static causality, deriving causal relations from observational time-series data, as opposed to designed experiments, is not a straightforward process. It can greatly benefit from human insight to break ties and resolve errors. We hence propose a set of visual analytics methods that allow humans to participate in the discovery of causal relations associated with windows of time delay. Specifically, we leverage a well-established method, logic-based causality, to enable analysts to test the significance of potential causes and measure their influences toward a certain effect. Furthermore, since an effect can be a cause of other effects, we allow users to aggregate different temporal cause-effect relations found with our method into a visual flow diagram to enable the discovery of temporal causal networks. To demonstrate the effectiveness of our methods we constructed a prototype system named DOMINO and showcase it via a number of case studies using real-world datasets. Finally, we also used DOMINO to conduct several evaluations with human analysts from different science domains in order to gain feedback on the utility of our system in practical scenarios. | 翻訳日:2023-03-14 18:13:19 公開日:2023-03-12 |
# 1変圧器は大規模多モード拡散における全分布をフィッティングする One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale ( http://arxiv.org/abs/2303.06555v1 ) ライセンス: Link先を確認 | Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, Jun Zhu | (参考訳) 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
私たちの重要な洞察は -- 限界、条件、ジョイント分布の拡散モデルを学ぶことは、摂動レベル(すなわち時間ステップ)が異なるモダリティで異なる摂動データのノイズを予測するものとして統一できる。
統一された視点に触発されて、UniDiffuserは元の拡散モデルに対する最小限の変更で全ての分布を同時に学習し、単一のモダリティの代わりに全てのモダリティでデータを摂動し、異なるモダリティで個々のタイムステップを入力し、単一のモダリティの代わりに全てのモダリティのノイズを予測する。
UniDiffuserは、異なるモードの入力タイプを扱う拡散モデルのための変換器によってパラメータ化される。
大規模なペア画像テキストデータに基づいて、UniDiffuserは画像、テキスト、テキスト・トゥ・イメージ、画像・ツー・テキスト、画像・テキストのペア生成を行うことができる。
特に、UniDiffuserは、すべてのタスクにおいて知覚的に現実的なサンプルを生成することができ、その定量的結果(例えば、FIDとCLIPスコア)は、既存の汎用モデルよりも優れているだけでなく、代表タスク(例えば、テキストから画像生成)において、bespokenモデル(例えば、安定拡散とDALL-E2)に匹敵する。 This paper proposes a unified diffusion framework (dubbed UniDiffuser) to fit all distributions relevant to a set of multi-modal data in one model. Our key insight is -- learning diffusion models for marginal, conditional, and joint distributions can be unified as predicting the noise in the perturbed data, where the perturbation levels (i.e. timesteps) can be different for different modalities. Inspired by the unified view, UniDiffuser learns all distributions simultaneously with a minimal modification to the original diffusion model -- perturbs data in all modalities instead of a single modality, inputs individual timesteps in different modalities, and predicts the noise of all modalities instead of a single modality. UniDiffuser is parameterized by a transformer for diffusion models to handle input types of different modalities. Implemented on large-scale paired image-text data, UniDiffuser is able to perform image, text, text-to-image, image-to-text, and image-text pair generation by setting proper timesteps without additional overhead. In particular, UniDiffuser is able to produce perceptually realistic samples in all tasks and its quantitative results (e.g., the FID and CLIP score) are not only superior to existing general-purpose models but also comparable to the bespoken models (e.g., Stable Diffusion and DALL-E 2) in representative tasks (e.g., text-to-image generation). | 翻訳日:2023-03-14 18:12:54 公開日:2023-03-12 |
# コントラスト学習によるアプリケーション問題の積極的な優先順位付け Proactive Prioritization of App Issues via Contrastive Learning ( http://arxiv.org/abs/2303.06586v1 ) ライセンス: Link先を確認 | Moghis Fereidouni, Adib Mosharrof, Umar Farooq, AB Siddique | (参考訳) モバイルアプリストアは、ユーザーレビューという形で膨大な量のデータを生成しており、これはユーザー要求と感情の膨大な源泉である。
しかし、一般的な問題や感情を捉えているレビューはごく少数のみであり、著名なレビューを自動的に識別する必要がある。
残念なことに、テキストランキングや人気予測における既存の作業のほとんどは、他の信号が利用できる社会的コンテキストに焦点を当てている。
そこで本研究では,著名なレビューを識別することで,アプリの問題を積極的に優先順位付けするフレームワークであるppriorを提案する。
投稿と異なり、ユーザーのソーシャルネットワーク機能は利用できないため、高い評価の予測は難しい。
さらに、多数のユーザレビューがほとんど、あるいは全く投票されないため、クラス不均衡の問題もある。
PPriorはトレーニング済みのT5モデルを採用し、3段階で動作する。
フェーズ1は、事前訓練されたt5モデルをユーザーレビューデータに自己教師ありの方法で適応させる。
フェーズ2では、コントラストトレーニングを利用して、ユーザレビューの汎用的でタスクに依存しない表現を学ぶ。
第3段階は半径近傍分類器 t o m ake t he final predictions を用いる。
このフェーズでは、スケーラビリティと効率的な検索にFAISSインデックスも使用しています。
広範な実験を行うため、Google Playから2100万以上のユーザレビューの大規模なデータセットを取得しました。
本研究は,いくつかの最先端手法と比較し,提案フレームワークの有効性を実証する。
さらに、著名なレビューを予測するPPriorの精度は、経験豊富なアプリ開発者のものと同等である。 Mobile app stores produce a tremendous amount of data in the form of user reviews, which is a huge source of user requirements and sentiments; such reviews allow app developers to proactively address issues in their apps. However, only a small number of reviews capture common issues and sentiments which creates a need for automatically identifying prominent reviews. Unfortunately, most existing work in text ranking and popularity prediction focuses on social contexts where other signals are available, which renders such works ineffective in the context of app reviews. In this work, we propose a new framework, PPrior, that enables proactive prioritization of app issues through identifying prominent reviews (ones predicted to receive a large number of votes in a given time window). Predicting highly-voted reviews is challenging given that, unlike social posts, social network features of users are not available. Moreover, there is an issue of class imbalance, since a large number of user reviews receive little to no votes. PPrior employs a pre-trained T5 model and works in three phases. Phase one adapts the pre-trained T5 model to the user reviews data in a self-supervised fashion. In phase two, we leverage contrastive training to learn a generic and task-independent representation of user reviews. Phase three uses radius neighbors classifier t o m ake t he final predictions. This phase also uses FAISS index for scalability and efficient search. To conduct extensive experiments, we acquired a large dataset of over 2.1 million user reviews from Google Play. Our experimental results demonstrate the effectiveness of the proposed framework when compared against several state-of-the-art approaches. Moreover, the accuracy of PPrior in predicting prominent reviews is comparable to that of experienced app developers. | 翻訳日:2023-03-14 18:06:13 公開日:2023-03-12 |
# 騒音環境における意図分類精度の向上 Improving the Intent Classification accuracy in Noisy Environment ( http://arxiv.org/abs/2303.06585v1 ) ライセンス: Link先を確認 | Mohamed Nabih Ali, Alessio Brutti, Daniele Falavigna | (参考訳) インテント分類は、最近科学界の注目を集めた音声言語理解分野の基本課題であり、主にエンドツーエンドのニューラルモデルによるアプローチの可能性からである。
これにより、中間のステップ、すなわち自動音声認識の使用を避けることができ、背景雑音や自発的な音声、ユーザの発話スタイルなどによる誤りの伝播が図られる。
実シナリオに適用可能な解の開発に向けて,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対する環境騒音および関連ノイズ低減手法の検討が興味深い。
本稿では,Wave-U-Netをベースとした時間領域音声強調ソリューションと,異なる学習戦略を考慮した意図分類器を組み合わせた,流音音声コマンドデータセットの雑音バージョンを実験する。
実験の結果, 本課題では, 音声強調法の使用により, 雑音下での分類精度が大幅に向上することが明らかとなった。 Intent classification is a fundamental task in the spoken language understanding field that has recently gained the attention of the scientific community, mainly because of the feasibility of approaching it with end-to-end neural models. In this way, avoiding using intermediate steps, i.e. automatic speech recognition, is possible, thus the propagation of errors due to background noise, spontaneous speech, speaking styles of users, etc. Towards the development of solutions applicable in real scenarios, it is interesting to investigate how environmental noise and related noise reduction techniques to address the intent classification task with end-to-end neural models. In this paper, we experiment with a noisy version of the fluent speech command data set, combining the intent classifier with a time-domain speech enhancement solution based on Wave-U-Net and considering different training strategies. Experimental results reveal that, for this task, the use of speech enhancement greatly improves the classification accuracy in noisy conditions, in particular when the classification model is trained on enhanced signals. | 翻訳日:2023-03-14 18:05:48 公開日:2023-03-12 |
# システム環境量子モデルの完全ダイナミクスに対する複素離散化近似 Complex Discretization approximation for the complete dynamics of system-environment quantum models ( http://arxiv.org/abs/2303.06584v1 ) ライセンス: Link先を確認 | H. T. Cui, Y. A. Yan, M. Qin, and X. X. Yi | (参考訳) 連続体における環境の離散化近似は再帰に苦しむため、オープンダイナミクスの計算は非効率的で費用がかかる。
この欠陥を克服するために, 離散化近似を複素平面に一般化する。
その結果、環境における離散モードは複雑になる。
したがって、決定された実効ハミルトニアンは非エルミート的であり、系の散逸ダイナミクスを適切に表現している。
例示として、2つの完全可解モデル、すなわち一般化されたオーブリー・アンド・r\'{e}-ハーパーモデルにおけるデファッションモデルと単一励磁開力学におけるオープンダイナミクスは、現在の方法によって再検討される。
この手法は, システムのオープンダイナミクスを高い効率で正確に記述できることが判明した。
さらに、非局在化-局在化遷移のロバスト性とモビリティエッジに着目した一般化 Aubry-Andr\'{e}-Harper モデルの開力学に関するさらなる研究は、計算において正確な方法で要求される現在の方法によって提供される。 The discretization approximation for the environment in continuum suffers from the recurrence, which make the computation of the open dynamics inefficient and expensive. In order to conquer this defect, the discretization approximation is generalized into the complex plane in this paper. As a result, the discrete modes in environment becomes complex. The determined effective total Hamiltonian is thus non-Hermitian, which depicts properly the dissipative dynamics of system. As illustrations, the open dynamics in two exactly solvable models, i.e., dephasing model and the single-excitation open dynamics in the generalized Aubry-Andr\'{e}-Harper model, is reexamined by the current method. It is found that the method can provide accurate description for the open dynamics of systems in high efficiency. In addition, a further study on the open dynamics of the generalized Aubry-Andr\'{e}-Harper model, focusing on the robustness of delocalization-localization transition and the mobility edge, is provided by the current method, that is demanded in computation by the exact way. | 翻訳日:2023-03-14 18:05:32 公開日:2023-03-12 |
# マスクの場所学習によるマスクオートエンコーダの改良 Improving Masked Autoencoders by Learning Where to Mask ( http://arxiv.org/abs/2303.06583v1 ) ライセンス: Link先を確認 | Haijian Chen, Wendong Zhang, Yunbo Wang, Xiaokang Yang | (参考訳) マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
通常、ランダムマスクのイメージパッチ上に構築され、それらの間の情報密度の変化を無視する。
質問は、ランダムサンプリングよりもマスキング戦略が優れているか、どうやって学習できるのか、ということです。
この問題を経験的に研究し,まず,マスクサンプリングにおけるオブジェクト中心の優先順位の導入が学習表現を著しく改善できることを見出した。
この観測から着想を得たAutoMAEは、Gumbel-Softmaxを用いて、対向的に訓練されたマスクジェネレータとマスク誘導画像モデリングプロセスの相互接続を行う。
このようにして,異なる画像に対して高い情報密度を持つパッチを適応的に発見し,画像再構成から得られた情報ゲインと実際の学習困難とのバランスをさらに高めることができる。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。 Masked image modeling is a promising self-supervised learning method for visual data. It is typically built upon image patches with random masks, which largely ignores the variation of information density between them. The question is: Is there a better masking strategy than random sampling and how can we learn it? We empirically study this problem and initially find that introducing object-centric priors in mask sampling can significantly improve the learned representations. Inspired by this observation, we present AutoMAE, a fully differentiable framework that uses Gumbel-Softmax to interlink an adversarially-trained mask generator and a mask-guided image modeling process. In this way, our approach can adaptively find patches with higher information density for different images, and further strike a balance between the information gain obtained from image reconstruction and its practical training difficulty. In our experiments, AutoMAE is shown to provide effective pretraining models on standard self-supervised benchmarks and downstream tasks. | 翻訳日:2023-03-14 18:05:10 公開日:2023-03-12 |
# 汎用医療aiに向けて : 継続的学習医療基盤モデル Towards General Purpose Medical AI: Continual Learning Medical Foundation Model ( http://arxiv.org/abs/2303.06580v1 ) ライセンス: Link先を確認 | Huahui Yi, Ziyuan Qin, Qicheng Lao, Wei Xu, Zekun Jiang, Dequan Wang, Shaoting Zhang, Kang Li | (参考訳) 現実シナリオにおける必然的領域とタスクの相違は、医学データのための事前訓練された深層モデルの一般化性能を損なう可能性がある。
そこで我々は、下流ドメイン/タスクにシームレスに適応できる汎用医療AIシステムを構築するべきだと大胆に提案する。
ドメイン/タスク適応処理は通常、対象データに対する追加のラベル付け作業を含むため、学習した知識を転送するコストを削減するために、データ効率の適応アルゴリズムを設計する必要がある。
最近の研究により、視覚言語モデル(vlms)は、並外れたクロスドメイン能力を持つ効率的な学習者であることが判明した。
そこで本研究では,vlmを総合的な医療ai構築のための医療基盤モデルとして活用し,vlmを訓練し,クロスドメインおよびクロスタスクテストセットにおける一般化性能を評価するための3つの機械学習パラダイム,すなわちドメイン/タスク特化学習,ジョイントラーニング,継続学習を徹底的に検討する。
逐次訓練における破滅的な忘れを緩和するため,リハーサル学習を採用し,一般化能力の面で急激な向上を図った。
簡単に言うと、我々の実証的な証拠は、継続学習が医療基盤モデルのための実践的で効率的な学習パラダイムである可能性を示唆している。
そして私たちは、実験的な証拠を基盤として、医療基盤モデルへの道のりをさらに探ることができることを願っています。 Inevitable domain and task discrepancies in real-world scenarios can impair the generalization performance of the pre-trained deep models for medical data. Therefore, we audaciously propose that we should build a general-purpose medical AI system that can be seamlessly adapted to downstream domains/tasks. Since the domain/task adaption procedures usually involve additional labeling work for the target data, designing a data-efficient adaption algorithm is desired to save the cost of transferring the learned knowledge. Our recent work found that vision-language models (VLMs) are efficient learners with extraordinary cross-domain ability. Therefore, in this work, we further explore the possibility of leveraging pre-trained VLMs as medical foundation models for building general-purpose medical AI, where we thoroughly investigate three machine-learning paradigms, i.e., domain/task-specialized learning, joint learning, and continual learning, for training the VLMs and evaluate their generalization performance on cross-domain and cross-task test sets. To alleviate the catastrophic forgetting during sequential training, we employ rehearsal learning and receive a sharp boost in terms of generalization capability. In a nutshell, our empirical evidence suggests that continual learning may be a practical and efficient learning paradigm for the medical foundation model. And we hope researchers can use our empirical evidence as basement to further explore the path toward medical foundation model. | 翻訳日:2023-03-14 18:04:52 公開日:2023-03-12 |
# 量子ウォークに基づくparrondoの量子探索ゲーム Parrondo's game of quantum search based on quantum walk ( http://arxiv.org/abs/2303.06579v1 ) ライセンス: Link先を確認 | Taisuke Hosaka and Norio Konno | (参考訳) Parrondoが考案したParrondoゲームは、2つの負けたゲームが2つの負けたゲームの適切な組み合わせによって勝利したゲームを生成することを意味する。
この状況をパロンドパラドックス(parrondo paradox)と呼ぶ。
量子ウォークに基づくParrondoゲームと量子ウォークによる探索アルゴリズムは,それぞれ広く研究されている。
本稿では,両モデルを組み合わせた量子ウォークに基づく量子探索のパロンドゲームを提案する。
さらに,数値シミュレーションによりParrondoのパラドックスが存在することを確認した。
その後、パラドックスが生じる範囲は、頂点が偶数、頂点が1つある周期の原点について対称であることを示す。 The Parrondo game, devised by Parrondo, means that two losing games can produce a winning game by a suitable combination of two losing games. This situation is called the Parrondo paradox. The Parrondo game based on quantum walk and the search algorithm via quantum walk have been widely studied, respectively. This paper newly presents a Parrondo game of quantum search based on quantum walk by combining both models. Moreover we confirm that Parrondo's paradox exists for our model by numerical simulations. Afterwards we show the range in which the paradox occurs is symmetric about the origin on cycles with even vertices and one marked vertex. | 翻訳日:2023-03-14 18:04:29 公開日:2023-03-12 |
# スケール対応2段階高ダイナミックレンジイメージング Scale-aware Two-stage High Dynamic Range Imaging ( http://arxiv.org/abs/2303.06575v1 ) ライセンス: Link先を確認 | Hui Li, Xuyang Yao, Wuyuan Xie, Miaohui Wang | (参考訳) 画像翻訳問題としてのDeep High Dynamic Range(HDR)イメージングは、光フローアライメントを明示することなく、優れた性能を実現している。
しかし、コンテンツアソシエーションの曖昧さ、特に飽和や大規模な動きによる課題は残る。
本研究では, ゴースト問題に対処し, 飽和領域における詳細性を高めるため, 高品質なゴーストフリーHDR画像を生成するための2段階高ダイナミックレンジイメージングフレームワーク(STHDR)を提案する。
スケールアウェア技術と2段階融合戦略は、HDR合成性能を段階的に効果的に向上させることができる。
具体的には,機能アライメントと2段階融合からなる。
機能アライメントにおいて,非アライメント機能のうち有用な情報を有効利用し,ゴーストや飽和を避けるために,空間修正モジュール(SCM)を提案する。
機能融合の第1段階では,ゴーストがほとんどない予備核融合結果が得られる。
第2段階では,第1ステージの結果をアライメントした特徴で要約し,残留物をさらに低減し,全体的な品質を向上させる。
典型的なテストデータセットの大規模な実験結果は、速度と品質の観点から提案したSTHDRの有効性を検証した。 Deep high dynamic range (HDR) imaging as an image translation issue has achieved great performance without explicit optical flow alignment. However, challenges remain over content association ambiguities especially caused by saturation and large-scale movements. To address the ghosting issue and enhance the details in saturated regions, we propose a scale-aware two-stage high dynamic range imaging framework (STHDR) to generate high-quality ghost-free HDR image. The scale-aware technique and two-stage fusion strategy can progressively and effectively improve the HDR composition performance. Specifically, our framework consists of feature alignment and two-stage fusion. In feature alignment, we propose a spatial correct module (SCM) to better exploit useful information among non-aligned features to avoid ghosting and saturation. In the first stage of feature fusion, we obtain a preliminary fusion result with little ghosting. In the second stage, we conflate the results of the first stage with aligned features to further reduce residual artifacts and thus improve the overall quality. Extensive experimental results on the typical test dataset validate the effectiveness of the proposed STHDR in terms of speed and quality. | 翻訳日:2023-03-14 18:04:20 公開日:2023-03-12 |
# 非自己回帰テキスト生成のための拡散モデル:調査 Diffusion Models for Non-autoregressive Text Generation: A Survey ( http://arxiv.org/abs/2303.06574v1 ) ライセンス: Link先を確認 | Yifan Li, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen | (参考訳) 非自己回帰(NAR)テキスト生成は、推論遅延を大幅に低減するが、生成精度を犠牲にする自然言語処理の分野で大きな注目を集めている。
近年,narテキスト生成に潜伏型可変生成モデルのクラスである拡散モデルが導入され,生成品質が向上している。
本稿では,NARテキスト生成における拡散モデルの最近の進歩を概観する。
背景として,まず拡散モデルとテキスト拡散モデルの一般定義を提示し,ナル生成のメリットについて考察する。
コアコンテンツとして,既存のテキスト拡散作業において2つの主流拡散モデルを導入し,拡散過程の重要な設計について検討する。
さらに,テキスト拡散モデルにおける事前学習言語モデル(PLM)の利用について検討し,テキストデータの最適化手法を導入する。
最後に,いくつかの有望な方向性について議論し,本論文をまとめる。
本研究の目的は,NAR生成のためのテキスト拡散モデルに関する研究の体系的な参照を提供することである。 Non-autoregressive (NAR) text generation has attracted much attention in the field of natural language processing, which greatly reduces the inference latency but has to sacrifice the generation accuracy. Recently, diffusion models, a class of latent variable generative models, have been introduced into NAR text generation, showing improved generation quality. In this survey, we review the recent progress in diffusion models for NAR text generation. As the background, we first present the general definition of diffusion models and the text diffusion models, and then discuss their merits for NAR generation. As the core content, we further introduce two mainstream diffusion models in existing text diffusion works, and review the key designs of the diffusion process. Moreover, we discuss the utilization of pre-trained language models (PLMs) for text diffusion models and introduce optimization techniques for text data. Finally, we discuss several promising directions and conclude this paper. Our survey aims to provide researchers with a systematic reference of related research on text diffusion models for NAR generation. | 翻訳日:2023-03-14 18:04:02 公開日:2023-03-12 |
# 連続視覚制御と予測のための予測経験リプレイ Predictive Experience Replay for Continual Visual Control and Forecasting ( http://arxiv.org/abs/2303.06572v1 ) ライセンス: Link先を確認 | Wendong Zhang, Geng Chen, Xiangming Zhu, Siyu Gao, Yunbo Wang, Xiaokang Yang | (参考訳) 非定常環境における物理力学の学習は、視覚的な入力を伴うモデルベース強化学習(MBRL)にとって難しいが不可欠な課題である。
エージェントは、以前の知識を忘れずに、新しいタスクに一貫して適応する必要がある。
本稿では,視覚力学モデリングのための新しい連続学習手法を提案し,視覚制御と予測におけるその効果について検討する。
キーとなる仮定は、理想的な世界モデルが、エージェントが世界モデルから想像された軌道に基づいてマルチタスク学習方法でポリシーを最適化できる非鍛造環境シミュレータを提供することである。
そこで我々はまず,タスク固有のダイナミクスをガウシアンの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
最後に,これらの手法を連続RLに拡張し,探索・保守的行動学習手法による値推定問題にさらに対処する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
また,進化する領域を持つ映像予測データセットにおける時空間ダイナミクスの欠落を効果的に緩和することが示されている。 Learning physical dynamics in a series of non-stationary environments is a challenging but essential task for model-based reinforcement learning (MBRL) with visual inputs. It requires the agent to consistently adapt to novel tasks without forgetting previous knowledge. In this paper, we present a new continual learning approach for visual dynamics modeling and explore its efficacy in visual control and forecasting. The key assumption is that an ideal world model can provide a non-forgetting environment simulator, which enables the agent to optimize the policy in a multi-task learning manner based on the imagined trajectories from the world model. To this end, we first propose the mixture world model that learns task-specific dynamics priors with a mixture of Gaussians, and then introduce a new training strategy to overcome catastrophic forgetting, which we call predictive experience replay. Finally, we extend these methods to continual RL and further address the value estimation problems with the exploratory-conservative behavior learning approach. Our model remarkably outperforms the naive combinations of existing continual learning and visual RL algorithms on DeepMind Control and Meta-World benchmarks with continual visual control tasks. It is also shown to effectively alleviate the forgetting of spatiotemporal dynamics in video prediction datasets with evolving domains. | 翻訳日:2023-03-14 18:03:47 公開日:2023-03-12 |
# 一般化可能な視覚言語モデルのための勾配制御メタプロンプト学習 Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models ( http://arxiv.org/abs/2303.06571v1 ) ライセンス: Link先を確認 | Juncheng Li, Minghe Gao, Longhui Wei, Siliang Tang, Wenqiao Zhang, Mengze Li, Wei Ji, Qi Tian, Tat-Seng Chua, Yueting Zhuang | (参考訳) 最近登場したパラダイムであるプロンプトチューニングは,‘soft prompts’を学習して,凍結したプレトレーニングモデルを条件付けすることで,強力な視覚言語プレトレーニングモデルによるパラメーターとデータによるダウンストリームタスクへの適応を可能にする。
迅速なチューニング性能が初期化に敏感であり、優れた初期化を見つけるのに時間がかかるため、事前学習モデルの高速適応能力が制限されるという、数発のシナリオでは特に問題となる。
さらに、学習可能なプロンプトトークンは限られたトレーニングサンプルに過度に適合するため、プロンプトチューニングは事前トレーニングモデルの一般化性を損なう可能性がある。
これらの問題に対処するために,適応性を向上させるための効率的なソフトプロンプト初期化と,ラベルなし画像テキスト事前学習データのみを用いたメタラーニングパラダイムにおける強力なクロスドメイン一般化性のための軽量な勾配調整関数を組み合わせた,新しいグラデーション調整メタプロンプト学習(gram)フレームワークを提案する。
GRAMは特定のプロンプトチューニングメソッドを設計するのではなく、モデルに依存しない方法で様々なプロンプトチューニングメソッドに簡単に組み込むことができ、包括的な実験により、GRAMはいくつかの設定(ショットラーニング、クロスドメインの一般化、クロスデータセットの一般化など)でそれらを一貫した改善をもたらすことが示された。
さらに、実験により、GRAMはテキストおよび視覚的プロンプトチューニングの直交的手法を相互に強化された方法で動作させることを可能にし、ユニモーダル・プロンプトチューニング法よりも優れた一般化性を提供する。 Prompt tuning, a recently emerging paradigm, enables the powerful vision-language pre-training models to adapt to downstream tasks in a parameter -- and data -- efficient way, by learning the ``soft prompts'' to condition frozen pre-training models. Though effective, it is particularly problematic in the few-shot scenario, where prompt tuning performance is sensitive to the initialization and requires a time-consuming process to find a good initialization, thus restricting the fast adaptation ability of the pre-training models. In addition, prompt tuning could undermine the generalizability of the pre-training models, because the learnable prompt tokens are easy to overfit to the limited training samples. To address these issues, we introduce a novel Gradient-RegulAted Meta-prompt learning (GRAM) framework that jointly meta-learns an efficient soft prompt initialization for better adaptation and a lightweight gradient regulating function for strong cross-domain generalizability in a meta-learning paradigm using only the unlabeled image-text pre-training data. Rather than designing a specific prompt tuning method, our GRAM can be easily incorporated into various prompt tuning methods in a model-agnostic way, and comprehensive experiments show that GRAM brings about consistent improvement for them in several settings (i.e., few-shot learning, cross-domain generalization, cross-dataset generalization, etc.) over 11 datasets. Further, experiments show that GRAM enables the orthogonal methods of textual and visual prompt tuning to work in a mutually-enhanced way, offering better generalizability beyond the uni-modal prompt tuning methods. | 翻訳日:2023-03-14 18:03:25 公開日:2023-03-12 |
# 合成体験リプレイ Synthetic Experience Replay ( http://arxiv.org/abs/2303.06614v1 ) ライセンス: Link先を確認 | Cong Lu, Philip J. Ball, Jack Parker-Holder | (参考訳) 過去10年の主なテーマは、大規模なニューラルネットワークと大規模なデータセットを組み合わせることで、素晴らしい結果が得られることだ。
deep reinforcement learning(rl)では、このパラダイムは経験リプレイを通じて一般的に実現され、過去の経験のデータセットがポリシやバリュー関数のトレーニングに使用される。
しかし、教師付き学習や自己教師型学習とは異なり、RLエージェントは、しばしば制限される独自のデータを集める必要がある。
したがって、ディープラーニングのメリットを享受することは困難であり、トレーニング開始時に小さなニューラルネットワークでさえ過度に適合する可能性がある。
本研究では,生成モデルにおける最近の大きな進歩を活かし,エージェントの収集した経験を任意に評価する拡散型アプローチであるsynthe(synther)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
オフライン設定では、小さなオフラインデータセットをアップサンプリングする場合と、追加の合成データで大規模ネットワークをトレーニングする場合の両方で、大幅な改善が観察される。
さらに、SynthERはオンラインエージェントが以前よりもはるかに高い更新とデータの比率でトレーニングできるので、アルゴリズムの変更なしにサンプル効率が大幅に向上する。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると考えている。 A key theme in the past decade has been that when large neural networks and large datasets combine they can produce remarkable results. In deep reinforcement learning (RL), this paradigm is commonly made possible through experience replay, whereby a dataset of past experiences is used to train a policy or value function. However, unlike in supervised or self-supervised learning, an RL agent has to collect its own data, which is often limited. Thus, it is challenging to reap the benefits of deep learning, and even small neural networks can overfit at the start of training. In this work, we leverage the tremendous recent progress in generative modeling and propose Synthetic Experience Replay (SynthER), a diffusion-based approach to arbitrarily upsample an agent's collected experience. We show that SynthER is an effective method for training RL agents across offline and online settings. In offline settings, we observe drastic improvements both when upsampling small offline datasets and when training larger networks with additional synthetic data. Furthermore, SynthER enables online agents to train with a much higher update-to-data ratio than before, leading to a large increase in sample efficiency, without any algorithmic changes. We believe that synthetic training data could open the door to realizing the full potential of deep learning for replay-based RL algorithms from limited data. | 翻訳日:2023-03-14 17:56:31 公開日:2023-03-12 |
# 構文インフォームド・アテンションによる検索音声対話システムの改善 Improve Retrieval-based Dialogue System via Syntax-Informed Attention ( http://arxiv.org/abs/2303.06605v1 ) ライセンス: Link先を確認 | Tengtao Song, Nuo Chen, Ji Jiang, Zhihong Zhu, Yuexian Zou | (参考訳) 文脈発話によって提供される豊富な情報からマッチング特徴を効率的に抽出する要求が高いため、マルチターン応答選択は難しい課題である。
依存構造などの構文情報をニューラルモデルに組み込むことで、文の理解を深めることができるため、このような手法はNLPタスクで広く用いられている。
構文情報はモデルが満足できる結果を得るのに役立つが、その検索ベースの対話システムへの応用は十分に検討されていない。
一方、従来の研究は文内構文のみに重点を置いており、対話が通常複数の文を含むマルチターン応答のタスクには満足できない。
そこで本研究では,文内構文情報と文間構文情報の両方を考慮したSIA, Syntax-Informed Attentionを提案する。
前者は、アノテーションツリー内のトークンと対応する依存物の間にのみ注意範囲を制限するが、後者は、構文上重要なトークンに対して、クロス発話ペアに注意を向ける。
提案手法を3種類のベンチマークで評価し,提案手法の対話応答選択における汎用性を示す実験結果を得た。 Multi-turn response selection is a challenging task due to its high demands on efficient extraction of the matching features from abundant information provided by context utterances. Since incorporating syntactic information like dependency structures into neural models can promote a better understanding of the sentences, such a method has been widely used in NLP tasks. Though syntactic information helps models achieved pleasing results, its application in retrieval-based dialogue systems has not been fully explored. Meanwhile, previous works focus on intra-sentence syntax alone, which is far from satisfactory for the task of multi-turn response where dialogues usually contain multiple sentences. To this end, we propose SIA, Syntax-Informed Attention, considering both intra- and inter-sentence syntax information. While the former restricts attention scope to only between tokens and corresponding dependents in the syntax tree, the latter allows attention in cross-utterance pairs for those syntactically important tokens. We evaluate our method on three widely used benchmarks and experimental results demonstrate the general superiority of our method on dialogue response selection. | 翻訳日:2023-03-14 17:56:09 公開日:2023-03-12 |
# 粒子損失に対するハイブリッド量子干渉計を用いたロバスト位相計測 Robust phase metrology with hybrid quantum interferometers against particle losses ( http://arxiv.org/abs/2303.06604v1 ) ライセンス: Link先を確認 | X. N. Feng, D. He, L. F. Wei | (参考訳) 絡み合いは、高感度な量子力学を実現するための重要な量子資源である。
しかし、量子絡み合った状態の急激なデコヒーレンス(英語版)は、避けられない環境ノイズのため、実質的に測定感度の急激な低下をもたらす。
このような困難を克服するために,振動子の振動に符号化されたパラメータの適切な正確な推定を実現するために,スピンオシレータハイブリッド量子干渉計を提案する。
Differing from the conventional two-mode quantum interferometers input by the two-mode NOON state or entangled coherent states (ECS), whose achievable sensitivities are strongly limited by the decoherence of the entangled vibrational states, we demonstrate that the present interferometer, input by a spin-dependent two-mode entangled state, possesses a manifest advantage, i.e., the measurement sensitivity of the estimated parameter is not influenced by the decoherence from the spin-oscillator entanglement.
これは、スピンオシレータの不整合演算を適用することにより、もともと振動度で符号化された推定パラメータの情報をスピン度に効果的に転送し、正確なスピン状態人口測定により感度的に推定できるためである。
その結果,提案するハイブリッド量子干渉計は振動モードの粒子損失に対して明らかなロバスト性を有することがわかった。
興味深いことに、達成された位相測定感度は、2つのモードのうちの1つで比較的多くの粒子損失が発生しても、sqlを上回ることができる。
スピンオシレータハイブリッド量子干渉計の応用の可能性についても論じる。 Entanglement is an important quantum resource to achieve high sensitive quantum metrology. However, the rapid decoherence of quantum entangled states, due to the unavoidable environment noise, result in practically the unwanted sharp drop of the measurement sensitivity. To overcome such a difficulty, here we propose a spin-oscillator hybrid quantum interferometer to achieve the desirable precise estimation of the parameter encoded in the vibrations of the oscillator. Differing from the conventional two-mode quantum interferometers input by the two-mode NOON state or entangled coherent states (ECS), whose achievable sensitivities are strongly limited by the decoherence of the entangled vibrational states, we demonstrate that the present interferometer, input by a spin-dependent two-mode entangled state, possesses a manifest advantage, i.e., the measurement sensitivity of the estimated parameter is not influenced by the decoherence from the spin-oscillator entanglement. This is because that, by applying a spin-oscillator disentangled operation, the information of the estimated parameter encoded originally in the vibrational degrees can be effectively transferred into the spin degree and then can be sensitively estimated by the precise spin-state population measurements. As consequence, the proposed hybrid quantum interferometer possesses a manifest robustness against the particle losses of the vibrational modes. Interestingly, the achieved phase measurement sensitivity can still surpass the SQL obviously, even if relatively large number of particle loss occurs in one of the two modes. The potential application of the proposed spin-oscillator hybrid quantum interferometer is also discussed. | 翻訳日:2023-03-14 17:55:52 公開日:2023-03-12 |
# フェデレーション学習におけるバックドアを適応的に識別するマルチメトリックス Multi-metrics adaptively identifies backdoors in Federated learning ( http://arxiv.org/abs/2303.06601v1 ) ライセンス: Link先を確認 | Siquan Huang, Yijiang Li, Chong Chen, Leyu Shi, and Ying Gao | (参考訳) フェデレーテッドラーニング(FL)の分散性とプライバシ保護の性質は、特定の逆長入力に対する結果モデルの振る舞いを操作することを目的としたバックドアアタックに対して脆弱である。
しかし、統計的差異に基づく既存の防御は、特に悪質な勾配が良性なものに似ている場合や、データが非常に非独立で同一に分散している場合(非IID)、特定の攻撃に対してのみ効果を発揮する。
本稿では,距離に基づく防御手法を再考し,その発見を行う。
一 ユークリッド距離が高次元において無意味となること。
二 多様な特性を有する悪質な勾配は、単一の計量で特定できない。
そこで本研究では,マルチメトリックと動的重み付けを用いた簡易かつ効果的な防御戦略を提案し,バックドアを適応的に識別する。
さらに,攻撃設定やデータ分布に対する事前の前提に依存せず,良質な性能にはほとんど影響しない。
本手法の有効性を評価するために,様々な攻撃条件下で異なるデータセットを包括的に実験し,最善の防御性能を得る。
例えば,Edge-case PGDの難易度では36%のバックドア精度が得られ,従来の防御よりも有意に優れていた。
また,本手法は,良性性能を犠牲にすることなく,幅広い非iid度に適応できることを示した。 The decentralized and privacy-preserving nature of federated learning (FL) makes it vulnerable to backdoor attacks aiming to manipulate the behavior of the resulting model on specific adversary-chosen inputs. However, most existing defenses based on statistical differences take effect only against specific attacks, especially when the malicious gradients are similar to benign ones or the data are highly non-independent and identically distributed (non-IID). In this paper, we revisit the distance-based defense methods and discover that i) Euclidean distance becomes meaningless in high dimensions and ii) malicious gradients with diverse characteristics cannot be identified by a single metric. To this end, we present a simple yet effective defense strategy with multi-metrics and dynamic weighting to identify backdoors adaptively. Furthermore, our novel defense has no reliance on predefined assumptions over attack settings or data distributions and little impact on benign performance. To evaluate the effectiveness of our approach, we conduct comprehensive experiments on different datasets under various attack settings, where our method achieves the best defensive performance. For instance, we achieve the lowest backdoor accuracy of 3.06% under the difficult Edge-case PGD, showing significant superiority over previous defenses. The results also demonstrate that our method can be well-adapted to a wide range of non-IID degrees without sacrificing the benign performance. | 翻訳日:2023-03-14 17:55:31 公開日:2023-03-12 |
# 非直交多重アクセス強化マルチユーザセマンティックコミュニケーション Non-orthogonal multiple access enhanced multi-user semantic communication ( http://arxiv.org/abs/2303.06597v1 ) ライセンス: Link先を確認 | Weizhi Li, Haotai Liang, Chen Dong, Xiaodong Xu, Ping Zhang and Kaijun Liu | (参考訳) 意味コミュニケーションは新しいパラダイムであり、研究者の幅広い関心を惹きつけている。
その重要な側面の1つは、実用的ネットワーク環境への応用をさらに促進できるマルチユーザー意味コミュニケーション理論である。
エンド・ツー・エンドの単一ユーザ・セマンティック・トランスミッションの設計に焦点が当てられているが,NOMASC(Non-orthogonal multiple access)に基づくマルチユーザ・セマンティック・コミュニケーションシステムを提案する。
提案システムは,ソース情報の多様なモダリティを持つ複数ユーザの意味変換をサポートする。
ハードウェアの高要求を回避するため、セマンティックエンコーダの最後に非対称量子化器を用い、連続した全解像度セマンティック特徴を識別する。
さらに、離散特徴を自己学習シンボルにマッピングし、受信機でインテリジェントマルチユーザ検出(mud)を実現するために、ニューラルネットワークモデルを提案する。
シミュレーションの結果,提案方式は複数のユーザ信号の非直交伝送において良好に動作し,他の手法,特にSNRにおいて性能に優れていた。
さらに、様々なシミュレーション設定とミスマッチテストシナリオにおいて高いロバスト性を有する。 Semantic communication serves as a novel paradigm and attracts the broad interest of researchers. One critical aspect of it is the multi-user semantic communication theory, which can further promote its application to the practical network environment. While most existing works focused on the design of end-to-end single-user semantic transmission, a novel non-orthogonal multiple access (NOMA)-based multi-user semantic communication system named NOMASC is proposed in this paper. The proposed system can support semantic tranmission of multiple users with diverse modalities of source information. To avoid high demand for hardware, an asymmetric quantizer is employed at the end of the semantic encoder for discretizing the continuous full-resolution semantic feature. In addition, a neural network model is proposed for mapping the discrete feature into self-learned symbols and accomplishing intelligent multi-user detection (MUD) at the receiver. Simulation results demonstrate that the proposed system holds good performance in non-orthogonal transmission of multiple user signals and outperforms the other methods, especially at low-to-medium SNRs. Moreover, it has high robustness under various simulation settings and mismatched test scenarios. | 翻訳日:2023-03-14 17:55:10 公開日:2023-03-12 |
# amodal in-class instance segmentation:新しいデータセットとベンチマーク Amodal Intra-class Instance Segmentation: New Dataset and Benchmark ( http://arxiv.org/abs/2303.06596v1 ) ライセンス: Link先を確認 | Jiayang Ao, Qiuhong Ke, Krista A. Ehinger | (参考訳) 現実的なシーンのイメージは、しばしば、互いに密接な関係にあるクラス内オブジェクトを含んでおり、オブジェクトの隠された部分を解析する必要のあるアモーダルな知覚タスクを困難にしている。
ロボット把持システムなどの下流タスクでは重要であるが,詳細なアノテーションを用いた大規模アモーダルデータセットの欠如により,クラス内オクルージョンを明示的にモデル化することは困難である。
本稿では,複数のマスク,アモーダルバウンディングボックス,2次順序関係,インスタンスと背景の完全な外観を付与した,クラス内閉塞シナリオの255k画像を含む,イメージアモーダル補完タスクのための新しいアモーダルデータセットを提案する。
また,クラス内オクルージョンシナリオ用に特別に設計されたアモーダルインスタンスセグメンテーションに対して,レイヤプリエントを用いた点教師付きスキームを提案する。
実験により, 弱教師付きアプローチは, sota完全教師付き手法よりも優れており, また, 合成画像と実画像の両方においてクラス内咬合の場合, 層先行設計は顕著な性能改善を示した。 Images of realistic scenes often contain intra-class objects that are heavily occluded from each other, making the amodal perception task that requires parsing the occluded parts of the objects challenging. Although important for downstream tasks such as robotic grasping systems, the lack of large-scale amodal datasets with detailed annotations makes it difficult to model intra-class occlusions explicitly. This paper introduces a new amodal dataset for image amodal completion tasks, which contains over 255K images of intra-class occlusion scenarios, annotated with multiple masks, amodal bounding boxes, dual order relations and full appearance for instances and background. We also present a point-supervised scheme with layer priors for amodal instance segmentation specifically designed for intra-class occlusion scenarios. Experiments show that our weakly supervised approach outperforms the SOTA fully supervised methods, while our layer priors design exhibits remarkable performance improvements in the case of intra-class occlusion in both synthetic and real images. | 翻訳日:2023-03-14 17:54:49 公開日:2023-03-12 |
# グラフデータにおけるGromov-Wasserstein緩和のための収束単ループアルゴリズム A Convergent Single-Loop Algorithm for Relaxation of Gromov-Wasserstein in Graph Data ( http://arxiv.org/abs/2303.06595v1 ) ライセンス: Link先を確認 | Jiajin Li, Jianheng Tang, Lemin Kong, Huikang Liu, Jia Li, Anthony Man-Cho So and Jose Blanchet | (参考訳) 本稿では,gromov-wasserstein (gw) 距離に対する近似解を提供する単一ループアルゴリズムであるbregman alternating projectioned gradient (bapg) 法を提案する。
本稿では,結合マップの実現可能性にいくつかの妥協はあるものの,精度と計算効率のバランスをとる新しい緩和手法を提案する。
本解析は,gw問題の最適性残差に基づいて,gw問題の臨界点集合と点の距離を推定するためのluo-tseng誤差境界条件を満たした観測に基づく。
この観測により,BAPG の固定点集合と GW の臨界点集合との間の距離を近似的に推定できる。
さらに、穏やかな技術的仮定の下では、BAPGがその固定点集合に収束することを示すことができる。
BAPGの有効性は、グラフアライメントやパーティションタスクにおける包括的な数値実験を通じて検証され、ソリューションの品質と壁面時間の両方において既存の手法よりも優れている。 In this work, we present the Bregman Alternating Projected Gradient (BAPG) method, a single-loop algorithm that offers an approximate solution to the Gromov-Wasserstein (GW) distance. We introduce a novel relaxation technique that balances accuracy and computational efficiency, albeit with some compromises in the feasibility of the coupling map. Our analysis is based on the observation that the GW problem satisfies the Luo-Tseng error bound condition, which relates to estimating the distance of a point to the critical point set of the GW problem based on the optimality residual. This observation allows us to provide an approximation bound for the distance between the fixed-point set of BAPG and the critical point set of GW. Moreover, under a mild technical assumption, we can show that BAPG converges to its fixed point set. The effectiveness of BAPG has been validated through comprehensive numerical experiments in graph alignment and partition tasks, where it outperforms existing methods in terms of both solution quality and wall-clock time. | 翻訳日:2023-03-14 17:54:30 公開日:2023-03-12 |
# ChatGPT Asks, BLIP-2 Answers: リッチなビジュアル記述に向けた自動質問 ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions ( http://arxiv.org/abs/2303.06594v1 ) ライセンス: Link先を確認 | Deyao Zhu, Jun Chen, Kilichbek Haydarov, Xiaoqian Shen, Wenxuan Zhang, Mohamed Elhoseiny | (参考訳) 洞察力のある質問は、知識の獲得と世界の理解の拡大に不可欠です。
しかし、質問の重要性はAI研究においてほとんど見過ごされ、モデルは主に質問に答えるために開発された。
ChatGPTのような大規模言語モデル(LLM)の最近の進歩により、適切なプロンプトが提供されると、高品質な質問を行う能力が発見された。
この発見は、自動質問システムを開発する新しい機会を与える。
本稿では,画像キャプションに展開する新しい自動検索手法であるchatcaptionerを提案する。
ここでChatGPTは、強い視覚的質問応答モデルであるBLIP-2に画像に関する一連の情報的質問をするよう促される。
BLIP-2の回答から新たな視覚情報を取得することで、ChatCaptionerはよりリッチな画像記述を生成することができる。
我々は,COCO,Conceptual Caption,WikiArtなどのイメージキャプションデータセットを用いた人体評価を行い,ChatCaptionerとBLIP-2を比較した。
以上の結果から,ChatCaptionerの字幕は,最も画像情報を提供するために,人間の評価者から3倍の票を得た。
さらにChatCaptionerは、WordNetシンセットマッチングによって測定されたBLIP-2よりも画像内の53%多くのオブジェクトを識別する。
コードはhttps://github.com/Vision-CAIR/ChatCaptionerで入手できる。 Asking insightful questions is crucial for acquiring knowledge and expanding our understanding of the world. However, the importance of questioning has been largely overlooked in AI research, where models have been primarily developed to answer questions. With the recent advancements of large language models (LLMs) like ChatGPT, we discover their capability to ask high-quality questions when provided with a suitable prompt. This discovery presents a new opportunity to develop an automatic questioning system. In this paper, we introduce ChatCaptioner, a novel automatic-questioning method deployed in image captioning. Here, ChatGPT is prompted to ask a series of informative questions about images to BLIP-2, a strong vision question-answering model. By keeping acquiring new visual information from BLIP-2's answers, ChatCaptioner is able to generate more enriched image descriptions. We conduct human-subject evaluations on common image caption datasets such as COCO, Conceptual Caption, and WikiArt, and compare ChatCaptioner with BLIP-2 as well as ground truth. Our results demonstrate that ChatCaptioner's captions are significantly more informative, receiving three times as many votes from human evaluators for providing the most image information. Besides, ChatCaptioner identifies 53% more objects within the image than BLIP-2 alone measured by WordNet synset matching. Code is available at https://github.com/Vision-CAIR/ChatCaptioner | 翻訳日:2023-03-14 17:54:12 公開日:2023-03-12 |
# マルチモーダル処理のためのCLIPにおけるオーディオモダリティの調整 Accommodating Audio Modality in CLIP for Multimodal Processing ( http://arxiv.org/abs/2303.06591v1 ) ライセンス: Link先を確認 | Ludan Ruan, Anwen Hu, Yuqing Song, Liang Zhang, Sipeng Zheng, Qin Jin | (参考訳) マルチモーダル処理は、特にプレトレーニングの成功により、近年多くの注目を集めている。
しかし、この探索は主に視覚言語による事前学習に焦点を当てており、モデル設計と最適化を大幅に複雑にすることができる。
本稿では,最先端の視覚言語モデルクリップを拡張し,視覚言語音声マルチモーダル処理における音声モダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、音響モダリティの内部特性に加えて、オーディオと他のモダリティの相関について検討する。
さらに,言語情報と非言語情報の両方が一般的な音声で伝達されるため,異なるシナリオの異なる音声情報型を動的に学習する音声型トークンを設計する。
提案手法は,MSR-VTT,VATEX,Audiocapsのベンチマークデータセットを用いて,映像検索や動画キャプションなどの下流タスクで検証し,最先端のパフォーマンスを実現する。 Multimodal processing has attracted much attention lately especially with the success of pre-training. However, the exploration has mainly focused on vision-language pre-training, as introducing more modalities can greatly complicate model design and optimization. In this paper, we extend the stateof-the-art Vision-Language model CLIP to accommodate the audio modality for Vision-Language-Audio multimodal processing. Specifically, we apply inter-modal and intra-modal contrastive learning to explore the correlation between audio and other modalities in addition to the inner characteristics of the audio modality. Moreover, we further design an audio type token to dynamically learn different audio information type for different scenarios, as both verbal and nonverbal heterogeneous information is conveyed in general audios. Our proposed CLIP4VLA model is validated in different downstream tasks including video retrieval and video captioning, and achieves the state-of-the-art performance on the benchmark datasets of MSR-VTT, VATEX, and Audiocaps. | 翻訳日:2023-03-14 17:53:48 公開日:2023-03-12 |
# MobileRec: モバイルアプリ推奨のための大規模データセット MobileRec: A Large-Scale Dataset for Mobile Apps Recommendation ( http://arxiv.org/abs/2303.06588v1 ) ライセンス: Link先を確認 | M.H. Maqbool, Umar Farooq, Adib Mosharrof, A.B. Siddique, Hassan Foroosh | (参考訳) eコマースのウェブサイトで商品を推薦することから、ストリーミングプラットフォームで映画や音楽を提案することまで、私たちのデジタル生活においてレコメンデーションシステムはユビキタスになっています。
amazon product reviewsやmovielensといった既存のレコメンデーションデータセットは、それぞれのドメインにおけるレコメンデーションシステムの研究と開発を大いに促進した。
過去10年間でモバイルユーザとアプリケーション(別名アプリ)の数は指数関数的に増加したが、モバイルアプリのレコメンデーションシステムの研究は、製品や映画、ニュースのレコメンデーションとは対照的に、主に高品質のベンチマークデータセットが欠如していることから、大幅に制限されている。
アプリレコメンデーションシステムの研究を容易にするため,MobileRecと呼ばれる大規模データセットを導入した。
Google Play Storeでユーザの活動からMobileRecを構築した。
MobileRecには1930万のユーザインタラクション(アプリのユーザレビュー)があり、48のカテゴリに10万以上のユニークなアプリがある。
MobileRecは、合計0.7億人の異なるユーザーのシーケンシャルアクティビティを記録している。
これらのユーザはそれぞれ、5つ以下の異なるアプリと対話している。これは、ユーザ1人当たり1つのインタラクションしか記録していないモバイルアプリ上の以前のデータセットとは対照的だ。
さらに、mobilerecはユーザーの評価とインストールされたアプリの感情を示し、各アプリはアプリ名、カテゴリ、説明、全体的な評価などのリッチなメタデータを含んでいる。
我々は、mobilerecがいくつかの最先端推奨アプローチの比較研究を通じて、アプリのレコメンデーションのための優れたテストベッドとして機能できることを実証する。
定量的な結果は、他の研究者が結果を比較するための基準となる。
MobileRecデータセットはhttps://huggingface.co/datasets/recmeapp/mobilerecで入手できる。 Recommender systems have become ubiquitous in our digital lives, from recommending products on e-commerce websites to suggesting movies and music on streaming platforms. Existing recommendation datasets, such as Amazon Product Reviews and MovieLens, greatly facilitated the research and development of recommender systems in their respective domains. While the number of mobile users and applications (aka apps) has increased exponentially over the past decade, research in mobile app recommender systems has been significantly constrained, primarily due to the lack of high-quality benchmark datasets, as opposed to recommendations for products, movies, and news. To facilitate research for app recommendation systems, we introduce a large-scale dataset, called MobileRec. We constructed MobileRec from users' activity on the Google play store. MobileRec contains 19.3 million user interactions (i.e., user reviews on apps) with over 10K unique apps across 48 categories. MobileRec records the sequential activity of a total of 0.7 million distinct users. Each of these users has interacted with no fewer than five distinct apps, which stands in contrast to previous datasets on mobile apps that recorded only a single interaction per user. Furthermore, MobileRec presents users' ratings as well as sentiments on installed apps, and each app contains rich metadata such as app name, category, description, and overall rating, among others. We demonstrate that MobileRec can serve as an excellent testbed for app recommendation through a comparative study of several state-of-the-art recommendation approaches. The quantitative results can act as a baseline for other researchers to compare their results against. The MobileRec dataset is available at https://huggingface.co/datasets/recmeapp/mobilerec. | 翻訳日:2023-03-14 17:53:29 公開日:2023-03-12 |
# frugal computing --低炭素・持続可能なコンピューティングの必要性とゼロ炭素コンピューティングへの道 Frugal Computing -- On the need for low-carbon and sustainable computing and the path towards zero-carbon computing ( http://arxiv.org/abs/2303.06642v1 ) ライセンス: Link先を確認 | Wim Vanderbauwhede | (参考訳) 現在のコンピューティングからの排出量は世界全体の約4%である。
これは既に航空会社からの排出を上回っており、今後20年間で急上昇すると予想されている。
2040年までには、温暖化を1.5ドル^\circ$C以下に抑えるため、コンピューティングだけでは排出量の半分以上を占めることになる。
したがって、この計算エミッションの成長は持続不可能である。
コンピュータ機器の生産による排出は、その操作による排出を上回っているため、機器のエネルギー効率が高ければ、排出問題を悪化させることになる。
したがって、我々はコンピュータ機器の有用な寿命を延ばさなければならない。
社会として、計算資源を有限かつ貴重なものとして扱い、必要なときにのみ利用し、可能な限り効果的に活用する必要がある。
より少ないエネルギーと物質で目的を達成すること。 The current emissions from computing are almost 4% of the world total. This is already more than emissions from the airline industry and are projected to rise steeply over the next two decades. By 2040 emissions from computing alone will account for more than half of the emissions budget to keep global warming below 1.5$^\circ$C. Consequently, this growth in computing emissions is unsustainable. The emissions from production of computing devices exceed the emissions from operating them, so even if devices are more energy efficient producing more of them will make the emissions problem worse. Therefore we must extend the useful life of our computing devices. As a society we need to start treating computational resources as finite and precious, to be utilised only when necessary, and as effectively as possible. We need frugal computing: achieving our aims with less energy and material. | 翻訳日:2023-03-14 17:46:55 公開日:2023-03-12 |
# 拡張現実のための3次元点雲の適応的局所逆攻撃 Adaptive Local Adversarial Attacks on 3D Point Clouds for Augmented Reality ( http://arxiv.org/abs/2303.06641v1 ) ライセンス: Link先を確認 | Weiquan Liu, Shijun Zheng, Cheng Wang | (参考訳) 拡張現実(AR)の鍵となる技術として、3D認識と追跡は常に敵の例に弱いため、ARシステムに深刻なセキュリティリスクが生じる。
敵対的な例は、3Dニューラルネットワークモデルの堅牢性を改善し、ARシステムの安定性を高めるのに有用である。
現在、ほとんどの3d攻撃手法は、ポイント・クラウド全体を摂動させ、逆の例を生成するため、高い摂動コストと対応する物理世界の実物体の再構築が困難になる。
本稿では,3次元点群に適応的局所対向攻撃法(AL-Adv)を提案し,対向点群を生成する。
まず,3次元ネットワークモデルの脆弱性を分析し,入力点雲の突出領域,すなわち脆弱領域を抽出する。
次に,脆弱性領域を対象とする適応勾配攻撃アルゴリズムを提案する。
提案する攻撃アルゴリズムは、ポイントクラウドの3次元座標の異なる方向の異なる外乱を適応的に割り当てる。
実験の結果,本手法はグローバルアタック法よりも高い攻撃成功率を達成できることがわかった。
具体的には、AL-Advが生成した対向的な例は、良好な非受容性と少ない生成コストを示す。 As the key technology of augmented reality (AR), 3D recognition and tracking are always vulnerable to adversarial examples, which will cause serious security risks to AR systems. Adversarial examples are beneficial to improve the robustness of the 3D neural network model and enhance the stability of the AR system. At present, most 3D adversarial attack methods perturb the entire point cloud to generate adversarial examples, which results in high perturbation costs and difficulty in reconstructing the corresponding real objects in the physical world. In this paper, we propose an adaptive local adversarial attack method (AL-Adv) on 3D point clouds to generate adversarial point clouds. First, we analyze the vulnerability of the 3D network model and extract the salient regions of the input point cloud, namely the vulnerable regions. Second, we propose an adaptive gradient attack algorithm that targets vulnerable regions. The proposed attack algorithm adaptively assigns different disturbances in different directions of the three-dimensional coordinates of the point cloud. Experimental results show that our proposed method AL-Adv achieves a higher attack success rate than the global attack method. Specifically, the adversarial examples generated by the AL-Adv demonstrate good imperceptibility and small generation costs. | 翻訳日:2023-03-14 17:46:42 公開日:2023-03-12 |
# 年齢予測モデルの説明可能性に直面する課題:二つの様相のケーススタディ Challenges facing the explainability of age prediction models: case study for two modalities ( http://arxiv.org/abs/2303.06640v1 ) ライセンス: Link先を確認 | Mikolaj Spytek, Weronika Hryniewska-Guzik, Jaroslaw Zygierewicz, Jacek Rogala, Przemyslaw Biecek | (参考訳) 年齢の予測は、医療領域や犯罪学のようなハイインパクトな分野における様々な実践的な応用において難しい課題である。
モデルの増加とパフォーマンスの増加にもかかわらず、これらのモデルがどのように機能するかはほとんど分かっていません。
AIシステムの失敗例は、パフォーマンスだけでは不十分であることを示しているため、モデルの予測の理由を探索し説明するためには、新しい方法が必要である。
本稿では,脳波信号と肺X線の2つの特性に着目し,年齢予測にXAI(Explainable Artificial Intelligence)を用いることを検討した。
我々は、年齢予測モデルを共有し、これらのモダリティのモデルを説明する新しい手法のさらなる研究を促進する。 The prediction of age is a challenging task with various practical applications in high-impact fields like the healthcare domain or criminology. Despite the growing number of models and their increasing performance, we still know little about how these models work. Numerous examples of failures of AI systems show that performance alone is insufficient, thus, new methods are needed to explore and explain the reasons for the model's predictions. In this paper, we investigate the use of Explainable Artificial Intelligence (XAI) for age prediction focusing on two specific modalities, EEG signal and lung X-rays. We share predictive models for age to facilitate further research on new techniques to explain models for these modalities. | 翻訳日:2023-03-14 17:46:23 公開日:2023-03-12 |
# コンパスと定規から畳み込みと非線形へ : 単純な幾何推定課題を解いた単純なcnnを理解することの驚くべき難しさについて From Compass and Ruler to Convolution and Nonlinearity: On the Surprising Difficulty of Understanding a Simple CNN Solving a Simple Geometric Estimation Task ( http://arxiv.org/abs/2303.06638v1 ) ライセンス: Link先を確認 | Thomas Dag\`es, Michael Lindenbaum, Alfred M. Bruckstein | (参考訳) ニューラルネットワークは全能だが、まだ理解されていない。
重要なシステムにおける複雑性と利用の増加は、完全な解釈可能性に対する重要な課題を提起する。
本稿では、単純な畳み込みニューラルネットワークを用いて、1次元信号における中心パルスの半径、または2次元画像における中心円盤の半径を推定する。
驚くべきことに、訓練されたネットワークが学んだことを理解することは難しく、ある程度は直感に反する。
しかし、1次元の場合の深い理論的解析により、選択されたアーキテクチャ、各フィルタと非線形活性化関数の役割、およびモデルの重みによって取られる全ての値による制約を理解することができる。
ニューラルネットワークの2つの基本的な概念は、不変性の重要性と非線形活性化関数の形状である。 Neural networks are omnipresent, but remain poorly understood. Their increasing complexity and use in critical systems raises the important challenge to full interpretability. We propose to address a simple well-posed learning problem: estimating the radius of a centred pulse in a one-dimensional signal or of a centred disk in two-dimensional images using a simple convolutional neural network. Surprisingly, understanding what trained networks have learned is difficult and, to some extent, counter-intuitive. However, an in-depth theoretical analysis in the one-dimensional case allows us to comprehend constraints due to the chosen architecture, the role of each filter and of the nonlinear activation function, and every single value taken by the weights of the model. Two fundamental concepts of neural networks arise: the importance of invariance and of the shape of the nonlinear activation functions. | 翻訳日:2023-03-14 17:46:12 公開日:2023-03-12 |
# 解釈可能な画像分類のためのスキーマ推論 Schema Inference for Interpretable Image Classification ( http://arxiv.org/abs/2303.06635v1 ) ライセンス: Link先を確認 | Haofei Zhang, Mengqi Xue, Xiaokang Liu, Kaixuan Chen, Jie Song, Mingli Song | (参考訳) 本稿では,事前深層ニューラルネットワーク(dnn)フォワーディングスキームを再構築することにより,説明可能な予測を推論することを学ぶ,スキーマ推論(schema inference)と呼ばれる新しい推論パラダイムについて検討する。
従来のモデル推論パイプラインを、画像の抽出された視覚概念と予め計算されたシーン印象を関連付けるグラフマッチングポリシーに再構成し、印象マッチングによる人間の推論機構を例示する。
この目的のために、我々は、入力インスタンスの視覚的意味論と対象カテゴリの学習された抽象的想像をトポロジカルな関係グラフとしてモデル化する、提案するスキーマ推論概念の専用インスタンスとして、schemanetと呼ばれる精巧なアーキテクチャを考案する。
一方,視覚セマンティクスの構成的貢献をグローバルに捉え,活用するために,豊富なインタラクション情報を含むリレーショナルグラフを確立するために,schemanet の universal feat2graph スキームも導入する。
いくつかのベンチマークにおける理論解析と実験結果の両方が、提案するスキーマ推論が促進性能を達成し、一方、予測に繋がる帰納的過程を明確に示していることを示している。
私たちのコードはhttps://github.com/zhfeing/SchemaNet-PyTorch.comから入手可能です。 In this paper, we study a novel inference paradigm, termed as schema inference, that learns to deductively infer the explainable predictions by rebuilding the prior deep neural network (DNN) forwarding scheme, guided by the prevalent philosophical cognitive concept of schema. We strive to reformulate the conventional model inference pipeline into a graph matching policy that associates the extracted visual concepts of an image with the pre-computed scene impression, by analogy with human reasoning mechanism via impression matching. To this end, we devise an elaborated architecture, termed as SchemaNet, as a dedicated instantiation of the proposed schema inference concept, that models both the visual semantics of input instances and the learned abstract imaginations of target categories as topological relational graphs. Meanwhile, to capture and leverage the compositional contributions of visual semantics in a global view, we also introduce a universal Feat2Graph scheme in SchemaNet to establish the relational graphs that contain abundant interaction information. Both the theoretical analysis and the experimental results on several benchmarks demonstrate that the proposed schema inference achieves encouraging performance and meanwhile yields a clear picture of the deductive process leading to the predictions. Our code is available at https://github.com/zhfeing/SchemaNet-PyTorch. | 翻訳日:2023-03-14 17:45:57 公開日:2023-03-12 |
# 波動関数が自発的に崩壊した量子重力の1例 The case of Quantum Gravity with Spontaneous Collapse of the Wave Function ( http://arxiv.org/abs/2303.06633v1 ) ライセンス: Link先を確認 | Lajos Di\'osi | (参考訳) 半世紀ほど前、波動関数の普遍的自発的崩壊の概念が考えられたとき、これは標準非相対論的量子物理学を変える試みであった。
そのため、相対論的場の理論や量子重力群によって無視された。
自然崩壊社会の中心的な動機は、多くの人が悩んだ標準的崩壊対策を置き換えることである。
わずかな例外を除いて、場の理論と量子重力群を悩ませなかった。
量子場理論における一般相対性理論に関連した普遍的非可逆性の概念は、ホイーラー、ホーキングらによって、自発的崩壊の概念とは独立に始められた。
最近、2つの概念が融合し、互いに支持するようになった。 When about half a century ago the concept of universal spontaneous collapse of the wave function was conceived it was an attempt to alter standard non-relativistic quantum physics. As such, it was largely ignored by relativistic field theory and quantum gravity communities. A central motivation of spontaneous collapse community has been to replace the standard collapse-by-measurement that annoyed many. With few exceptions, it did not annoy the field theory and quantum gravity communities. Concept of certain general-relativity-related universal irreversibility in quantum field theory had been initiated very long ago by Wheeler, Hawking and a few others independently from the concept of spontaneous collapse. Lately the two concepts started to converge and support each other. | 翻訳日:2023-03-14 17:45:33 公開日:2023-03-12 |
# エンティティ解決のためのもうひとつのジェネリック設定:基本理論 Another Generic Setting for Entity Resolution: Basic Theory ( http://arxiv.org/abs/2303.06629v1 ) ライセンス: Link先を確認 | Xiuzhan Guo, Arthur Berrill, Ajinkya Kulkarni, Kostya Belezko, Min Luo | (参考訳) Benjellounら。
\cite{BGSWW} は Entity Resolution (ER) 問題を、同じ現実世界のオブジェクトを表すと判断されたエンティティレコードのマッチングとマージの一般的なプロセスとみなした。
彼らはエンティティレコードのマッチングとマージの機能をブラックボックスとして扱い、効率的なジェネリックERアルゴリズムを可能にする4つの重要な特性を導入した。
本稿では、マッチング関数とマージ関数が共有する性質、モデルマッチングと部分群群内のERのブラックボックスとのマージを、マッチング関数とマージ関数が満足する性質に基づいて検討し、部分群がERに対して別のジェネリックな設定を提供することを示す。
部分群体上の自然な部分順序は、部分群体がイデムポタンスとカテナリー結合性を満たすときに定義される。
部分群上の部分順序が与えられたとき、最小の上限と互換性(lu_{pg}$ および $cp_{pg}$)特性は等化、可換性、結合性、表現性と等価であり、部分演算の領域が反射的であるとき、部分順序は我々が定義する自然な性質である。
部分群体の偏性は、連結成分やその領域グラフのクランク被覆を用いて減少することができ、非可換部分群は、部分的べき等性半群のような構造を持つとき準同型に可換群に写像できる。
有限生成部分群 $(P,D,\circ)$ の条件がなくても、我々が懸念する ER は$P$ の完全元である。
もし$(P,D,\circ)$がイデムポタンスとカテナリーの連想性を満たすなら、ERは$P$の最大元であり、これは完全元であり、 \cite{BGSWW} で定義されるERを形成する。
さらに、推移的二項順序が存在するので、ER は ``sorting, selecting, and querying the element in a finitely generated partial groupoid とみなす。
" Benjelloun et al. \cite{BGSWW} considered the Entity Resolution (ER) problem as the generic process of matching and merging entity records judged to represent the same real world object. They treated the functions for matching and merging entity records as black-boxes and introduced four important properties that enable efficient generic ER algorithms. In this paper, we shall study the properties which match and merge functions share, model matching and merging black-boxes for ER in a partial groupoid, based on the properties that match and merge functions satisfy, and show that a partial groupoid provides another generic setting for ER. The natural partial order on a partial groupoid is defined when the partial groupoid satisfies Idempotence and Catenary associativity. Given a partial order on a partial groupoid, the least upper bound and compatibility ($LU_{pg}$ and $CP_{pg}$) properties are equivalent to Idempotence, Commutativity, Associativity, and Representativity and the partial order must be the natural one we defined when the domain of the partial operation is reflexive. The partiality of a partial groupoid can be reduced using connected components and clique covers of its domain graph, and a noncommutative partial groupoid can be mapped to a commutative one homomorphically if it has the partial idempotent semigroup like structures. In a finitely generated partial groupoid $(P,D,\circ)$ without any conditions required, the ER we concern is the full elements in $P$. If $(P,D,\circ)$ satisfies Idempotence and Catenary associativity, then the ER is the maximal elements in $P$, which are full elements and form the ER defined in \cite{BGSWW}. Furthermore, in the case, since there is a transitive binary order, we consider ER as ``sorting, selecting, and querying the elements in a finitely generated partial groupoid." | 翻訳日:2023-03-14 17:45:22 公開日:2023-03-12 |
# 視覚言語モデルの連続学習におけるゼロショット転送劣化の防止 Preventing Zero-Shot Transfer Degradation in Continual Learning of Vision-Language Models ( http://arxiv.org/abs/2303.06628v1 ) ライセンス: Link先を確認 | Zangwei Zheng, Mingyuan Ma, Kai Wang, Ziheng Qin, Xiangyu Yue, Yang You | (参考訳) 継続学習(CL)は、事前学習された視覚言語モデルが、再学習することなく、新しいまたは未学習のデータ分布に効率的に適応するのに役立つ。
それにもかかわらず、コントラスト言語-画像事前訓練(CLIP)モデルの継続トレーニングでは、壊滅的な忘れが原因でゼロショット転送能力は著しく低下する。
既存のCLメソッドは、以前のデータを再生することで忘れを軽減できる。
しかし、CLIPデータセットはプライベートであるため、replayメソッドはトレーニング済みデータセットにアクセスできない。
さらに、以前に学習した下流タスクのデータ再生はパフォーマンスを向上させることができるが、ゼロショットのパフォーマンスを犠牲にするコストがかかる。
この課題に対処するために、特徴空間とパラメータ空間の両方における視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法ZSCLを提案する。
機能領域では、現在のモデルと初期モデルの蒸留のために参照データセットが導入される。
参照データセットはセマンティックな多様性を持つべきであるが、ラベル付け、事前トレーニング、画像とテキストのペアに表示される必要はない。
パラメータ空間では、トレーニング中に重みを平均することで大きなパラメータシフトを防止する。
そこで本研究では,マルチドメインタスクインクリメンタルラーニング(MTIL)ベンチマークを提案する。
本手法は,従来のクラス増分学習設定とMTILの平均スコアを9.7%向上させる。
私たちのコードはhttps://github.com/Thunderbeee/ZSCLにあります。 Continual learning (CL) can help pre-trained vision-language models efficiently adapt to new or under-trained data distributions without re-training. Nevertheless, during the continual training of the Contrastive Language-Image Pre-training (CLIP) model, we observe that the model's zero-shot transfer ability significantly degrades due to catastrophic forgetting. Existing CL methods can mitigate forgetting by replaying previous data. However, since the CLIP dataset is private, replay methods cannot access the pre-training dataset. In addition, replaying data of previously learned downstream tasks can enhance their performance but comes at the cost of sacrificing zero-shot performance. To address this challenge, we propose a novel method ZSCL to prevent zero-shot transfer degradation in the continual learning of vision-language models in both feature and parameter space. In the feature space, a reference dataset is introduced for distillation between the current and initial models. The reference dataset should have semantic diversity but no need to be labeled, seen in pre-training, or matched image-text pairs. In parameter space, we prevent a large parameter shift by averaging weights during the training. We propose a more challenging Multi-domain Task Incremental Learning (MTIL) benchmark to evaluate different methods, where tasks are from various domains instead of class-separated in a single dataset. Our method outperforms other methods in the traditional class-incremental learning setting and the MTIL by 9.7% average score. Our code locates at https://github.com/Thunderbeee/ZSCL. | 翻訳日:2023-03-14 17:44:41 公開日:2023-03-12 |
# MWE as WSD: 単語センスの曖昧さによるマルチワード表現の同定 MWE as WSD: Solving Multiword Expression Identification with Word Sense Disambiguation ( http://arxiv.org/abs/2303.06623v1 ) ライセンス: Link先を確認 | Joshua Tanner and Jacob Hoffman | (参考訳) 近年のWSD(Word sense disambiguation)では,入力語や文脈に加えて,センスグロス(定義文)のエンコーディングを利用して性能を向上させる。
本研究では,単純なルールベース抽出パイプラインから生成したMWE候補をグロスとコンテキスト情報を用いて抽出するバイエンコーダモデルを訓練することにより,マルチワード表現(MWE)識別に適用可能であることを示す。
本手法を用いて,DIMUMデータセット上でのMWE識別とPARSEME 1.1英語データセットにおける競合結果の最先端化を実現した。
我々のモデルは、WSDを実行する能力のほとんどを保持しており、一つのモデルがこれらのタスクの両方にうまく適用できることを示しています。
さらに、MWE識別とWSDにポリエンコーダモデルを適用し、それらのタスクにおいて標準のポリエンコーダよりも優れる改良されたポリエンコーダアーキテクチャを導入する実験を行った。 Recent work in word sense disambiguation (WSD) utilizes encodings of the sense gloss (definition text), in addition to the input words and context, to improve performance. In this work we demonstrate that this approach can be adapted for use in multiword expression (MWE) identification by training a Bi-encoder model which uses gloss and context information to filter MWE candidates produced from a simple rule-based extraction pipeline. We achieve state-of-the-art results in MWE identification on the DiMSUM dataset, and competitive results on the PARSEME 1.1 English dataset using this method. Our model also retains most of its ability to perform WSD, demonstrating that a single model can successfully be applied to both of these tasks. Additionally, we experiment with applying Poly-encoder models to MWE identification and WSD, introducing a modified Poly-encoder architecture which outperforms the standard Poly-encoder on these tasks. | 翻訳日:2023-03-14 17:44:16 公開日:2023-03-12 |
# ステレオマッチングのための反復幾何符号化ボリューム Iterative Geometry Encoding Volume for Stereo Matching ( http://arxiv.org/abs/2303.06615v1 ) ライセンス: Link先を確認 | Gangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang | (参考訳) Recurrent All-Pairs Field Transforms (RAFT) は、マッチングタスクに大きな可能性を示している。
しかしながら、全ペア相関は非局所幾何学的知識を欠き、不適切な領域における局所曖昧性に取り組むのに苦労している。
本稿では,ステレオマッチングのための新しいディープネットワークアーキテクチャである反復幾何符号化ボリューム(igev-stereo)を提案する。
提案する igev-stereo は、ジオメトリとコンテキスト情報と局所マッチングの詳細をエンコードする複合幾何符号化ボリュームを構築し、それを反復インデックス化して不一致マップを更新する。
収束を高速化するため、我々はGEVを利用して、ConvGRUsイテレーションの正確な開始点を回帰する。
KITTI 2015において、IGEV-Stereoは、公表されたすべてのメソッドの中で$1^{st}$であり、トップ10メソッドの中で最速である。
さらにIGEV-Stereoは強力なクロスデータセットの一般化と高い推論効率を持つ。
また、IGEVをマルチビューステレオ(MVS)、すなわちIGEV-MVSに拡張し、DTUベンチマーク上で競合精度を達成する。
コードはhttps://github.com/gangweiX/IGEVで入手できる。 Recurrent All-Pairs Field Transforms (RAFT) has shown great potentials in matching tasks. However, all-pairs correlations lack non-local geometry knowledge and have difficulties tackling local ambiguities in ill-posed regions. In this paper, we propose Iterative Geometry Encoding Volume (IGEV-Stereo), a new deep network architecture for stereo matching. The proposed IGEV-Stereo builds a combined geometry encoding volume that encodes geometry and context information as well as local matching details, and iteratively indexes it to update the disparity map. To speed up the convergence, we exploit GEV to regress an accurate starting point for ConvGRUs iterations. On KITTI 2015, IGEV-Stereo ranks $1^{st}$ among all published methods and is the fastest among the top 10 methods. In addition, IGEV-Stereo has strong cross-dataset generalization as well as high inference efficiency. We also extend our IGEV to multi-view stereo (MVS), i.e. IGEV-MVS, which achieves competitive accuracy on DTU benchmark. Code is available at https://github.com/gangweiX/IGEV. | 翻訳日:2023-03-14 17:43:56 公開日:2023-03-12 |
# DINO-MC:マルチサイズのローカルクロップを用いたリモートセンシングのための自己教師型コントラスト学習 DINO-MC: Self-supervised Contrastive Learning for Remote Sensing Imagery with Multi-sized Local Crops ( http://arxiv.org/abs/2303.06670v1 ) ライセンス: Link先を確認 | Xinye Wanyan, Sachith Seneviratne, Shuchang Shen, Michael Kirley | (参考訳) リモートセンシング画像ラベリングのコスト性や利用可能な未ラベル画像量の多さから,手動アノテーションを使わずに特徴表現を学習できる自己教師型手法が注目されている。
先行研究はリモートセンシングタスクにおける自己教師あり学習を探求してきたが、ローカル・グローバル・アライメントに基づくプリテキストタスクは未検討のままである。
グローバル・ローカル・ビューアライメントに基づく知識蒸留による効果的な表現学習構造を持つdinoに触発され,リモートセンシング画像(sslr)上での自己教師あり学習に使用する2つの前文タスクを定式化した。
これらのタスクを用いて、SSLRSのマルチサイズビューと同様に、正の時間的コントラストの有効性を検討する。
さらに、DINOを拡張して、単一の固定サイズではなく、様々な大きさの作物の局所的なビューを利用するDINO-MCを提案する。
実験では,データセットの10%しか事前トレーニングしていない場合でも,複数のリモートセンシングタスクにおける art sslrs メソッドの既存状態と同等以上の性能を発揮するとともに,計算資源も少ないことを実証した。
すべてのコード、モデル、結果はhttps://github.com/WennyXY/DINO-MCで公開されている。 Due to the costly nature of remote sensing image labeling and the large volume of available unlabeled imagery, self-supervised methods that can learn feature representations without manual annotation have received great attention. While prior works have explored self-supervised learning in remote sensing tasks, pretext tasks based on local-global view alignment remain underexplored. Inspired by DINO, which employs an effective representation learning structure with knowledge distillation based on global-local view alignment, we formulate two pretext tasks for use in self-supervised learning on remote sensing imagery (SSLRS). Using these tasks, we explore the effectiveness of positive temporal contrast as well as multi-sized views on SSLRS. Moreover, we extend DINO and propose DINO-MC which uses local views of various sized crops instead of a single fixed size. Our experiments demonstrate that even when pre-trained on only 10% of the dataset, DINO-MC performs on par or better than existing state of the art SSLRS methods on multiple remote sensing tasks, while using less computational resources. All codes, models and results are available at https://github.com/WennyXY/DINO-MC. | 翻訳日:2023-03-14 17:38:34 公開日:2023-03-12 |
# Adv-Bot: ネットワーク侵入検知システムに対する現実的な逆ボットネット攻撃 Adv-Bot: Realistic Adversarial Botnet Attacks against Network Intrusion Detection Systems ( http://arxiv.org/abs/2303.06664v1 ) ライセンス: Link先を確認 | Islam Debicha, Benjamin Cochez, Tayeb Kenaza, Thibault Debatty, Jean-Michel Dricot, Wim Mees | (参考訳) 機械学習(ML)アルゴリズムの多くの利点のため、多くのアプリケーションがそれを組み込んでいる。
しかし、画像分類の分野における多くの研究により、MLは様々な敵攻撃によって騙される可能性があることが示されている。
これらの攻撃はMLアルゴリズム固有の脆弱性を利用する。
サイバーセキュリティの分野では、近年、侵入検知システムのような機械学習ベースのセキュリティシステムに対する攻撃の可能性について、多くの研究者が調査している。
この研究の大部分は、生のデータソースから抽出した特徴を用いてモデルを騙すことは可能であるが、そのような攻撃の実際の実装、すなわち理論から実践への逆変換を考慮に入れないことを実証している。
これらの敵攻撃の実際の実装は、実行がより困難になる様々な制約の影響を受けます。
本研究の目的は,ネットワークベースの侵入検知システム(NIDS)に対する攻撃,特に回避攻撃の実際の実現可能性を検討することであり,ブラックボックス設定で可能な限り多くの制約を仮定しながら,提案した敵アルゴリズムを用いてこれらのMLベースのIDSを騙すことが完全に可能であることを示した。
また、このような攻撃に対してMLベースのIDSを保護するための防御機構の設計が重要であるため、防御策が提示される。
この作業を評価するために、現実的なボットネットトラフィックトレースが使用される。
私たちの目標は、悪意のある機能をすべて実行しながら検出を回避できる、敵対的なボットネットトラフィックを作ることです。 Due to the numerous advantages of machine learning (ML) algorithms, many applications now incorporate them. However, many studies in the field of image classification have shown that MLs can be fooled by a variety of adversarial attacks. These attacks take advantage of ML algorithms' inherent vulnerability. This raises many questions in the cybersecurity field, where a growing number of researchers are recently investigating the feasibility of such attacks against machine learning-based security systems, such as intrusion detection systems. The majority of this research demonstrates that it is possible to fool a model using features extracted from a raw data source, but it does not take into account the real implementation of such attacks, i.e., the reverse transformation from theory to practice. The real implementation of these adversarial attacks would be influenced by various constraints that would make their execution more difficult. As a result, the purpose of this study was to investigate the actual feasibility of adversarial attacks, specifically evasion attacks, against network-based intrusion detection systems (NIDS), demonstrating that it is entirely possible to fool these ML-based IDSs using our proposed adversarial algorithm while assuming as many constraints as possible in a black-box setting. In addition, since it is critical to design defense mechanisms to protect ML-based IDSs against such attacks, a defensive scheme is presented. Realistic botnet traffic traces are used to assess this work. Our goal is to create adversarial botnet traffic that can avoid detection while still performing all of its intended malicious functionality. | 翻訳日:2023-03-14 17:38:11 公開日:2023-03-12 |
# SAR-UNet: 説明可能な Nowcasting タスクのための小さな注意残量 UNet SAR-UNet: Small Attention Residual UNet for Explainable Nowcasting Tasks ( http://arxiv.org/abs/2303.06663v1 ) ライセンス: Link先を確認 | Mathieu Renault, Siamak Mehrkanoon | (参考訳) データ駆動のナキャスティングモデルの正確性と説明性は、気象に依存した意思決定に依存する多くの社会経済分野において非常に重要である。
本稿では,降水量と雲の被覆を行うためのSAR-UNet (Small Attention Residual UNet) という新しいアーキテクチャを提案する。
ここでは、SmaAt-UNetはコアモデルとして使われ、奥行き分離可能な畳み込みと平行な残差接続を備える。
提案したSAR-UNetモデルは、2016年から2019年までのオランダの降水マップと、2017年から2018年までのフランスのクラウドカバーバイナリイメージの2つのデータセットで評価されている。
その結果,SAR-UNetは今後30~180分間の降水量および90分間の雲被覆量において,他の調査モデルよりも優れていた。
さらに,SAR-UNetモデルのエンコーダとデコーダパスの異なるレベルに応用し,入力画像の臨界領域と降水の中間表現をハイライトしたヒートマップを生成する視覚的説明手法であるGrad-CAMを用いて,提案モデルが生成した現在のキャストに関するさらなる知見を提供する。
grad-camによって生成されたヒートマップは、ネットワークアーキテクチャ全体に配置された複数の深さ分離可能なブロック内の残差接続と深さ分離可能な畳み込みとの間の相互作用を明らかにする。 The accuracy and explainability of data-driven nowcasting models are of great importance in many socio-economic sectors reliant on weather-dependent decision making. This paper proposes a novel architecture called Small Attention Residual UNet (SAR-UNet) for precipitation and cloud cover nowcasting. Here, SmaAt-UNet is used as a core model and is further equipped with residual connections, parallel to the depthwise separable convolutions. The proposed SAR-UNet model is evaluated on two datasets, i.e., Dutch precipitation maps ranging from 2016 to 2019 and French cloud cover binary images from 2017 to 2018. The obtained results show that SAR-UNet outperforms other examined models in precipitation nowcasting from 30 to 180 minutes in the future as well as cloud cover nowcasting in the next 90 minutes. Furthermore, we provide additional insights on the nowcasts made by our proposed model using Grad-CAM, a visual explanation technique, which is employed on different levels of the encoder and decoder paths of the SAR-UNet model and produces heatmaps highlighting the critical regions in the input image as well as intermediate representations to the precipitation. The heatmaps generated by Grad-CAM reveal the interactions between the residual connections and the depthwise separable convolutions inside of the multiple depthwise separable blocks placed throughout the network architecture. | 翻訳日:2023-03-14 17:37:46 公開日:2023-03-12 |
# 非自己回帰機械翻訳のための非巡回グラフのファジィアライメント Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2303.06662v1 ) ライセンス: Link先を確認 | Zhengrui Ma, Chenze Shao, Shangtong Gui, Min Zhang and Yang Feng | (参考訳) 非自己回帰翻訳(NAT)は、復号遅延を低減させるが、マルチモード問題による性能劣化に悩まされる。
近年、有向非巡回グラフの構造は、頂点間の依存性を導入することで多モード問題に取り組むNATにおいて大きな成功を収めている。
しかし、負の対数損失でトレーニングするには、参照トークンと頂点の間の厳密なアライメントが必要であり、複数の翻訳モダリティを扱う能力は弱まる。
本稿では,グラフ内のすべての経路が参照文とファジィに一致しているという見解を保持する。
我々は正確なアライメントを必要としないが、グラフと参照の間のファジィアライメントスコアを最大化するためにモデルを訓練する。
大規模なWMTベンチマーク実験により,本手法は翻訳性能を大幅に向上し,予測信頼性を向上し,生のトレーニングデータに基づいてNATの新たな技術状態を設定する。 Non-autoregressive translation (NAT) reduces the decoding latency but suffers from performance degradation due to the multi-modality problem. Recently, the structure of directed acyclic graph has achieved great success in NAT, which tackles the multi-modality problem by introducing dependency between vertices. However, training it with negative log-likelihood loss implicitly requires a strict alignment between reference tokens and vertices, weakening its ability to handle multiple translation modalities. In this paper, we hold the view that all paths in the graph are fuzzily aligned with the reference sentence. We do not require the exact alignment but train the model to maximize a fuzzy alignment score between the graph and reference, which takes captured translations in all modalities into account. Extensive experiments on major WMT benchmarks show that our method substantially improves translation performance and increases prediction confidence, setting a new state of the art for NAT on the raw training data. | 翻訳日:2023-03-14 17:37:21 公開日:2023-03-12 |
# Scavenger: MLトレーニングのコストとパフォーマンスを最適化するクラウドサービス Scavenger: A Cloud Service for Optimizing Cost and Performance of ML Training ( http://arxiv.org/abs/2303.06659v1 ) ライセンス: Link先を確認 | Sahil Tyagi, Prateek Sharma | (参考訳) クラウド仮想マシン(VM)のペイ・アズ・ユースの性質は、大規模なクラスタをスピンアップしてMLモデルをトレーニングすることを容易にしますが、バルーンのコストにもつながります。
クラウドプラットフォームが提供する100の仮想マシンサイズも、トレーニング用に‘right’クラウドクラスタ構成を選択するのを極めて困難にしている。
さらに、分散モデルトレーニングのトレーニング時間とコストはクラスタ構成に非常に敏感であり、大規模で複雑なトレードオフスペースを提供する。
本稿では,クラウド上での分散MLモデルトレーニングのトレーニング時間とコストを最適化するための,原則的かつ実用的な手法を開発する。
私たちの重要な洞察は、ワーカー数やバッチサイズといった最適なジョブ構成パラメータを選択する際に、並列性と統計効率の両方を考慮する必要があるということです。
従来の並列スケーリングの概念とSGDノイズに対する新たな洞察を組み合わせることで,クラスタ構成の異なる時間とコストを5%の誤差で正確に推定する。
トレーニングの繰り返しの性質とモデルを使用すれば、ブラックボックスのオンライン方法で最適なクラウド構成を検索できます。
当社のアプローチでは,トレーニング時間を2倍に短縮し,コストを50%以上削減しています。
オラクルベースのアプローチと比較して、我々のパフォーマンスモデルは2%以内の精度で検索が10%のオーバーヘッドを課す。 While the pay-as-you-go nature of cloud virtual machines (VMs) makes it easy to spin-up large clusters for training ML models, it can also lead to ballooning costs. The 100s of virtual machine sizes provided by cloud platforms also makes it extremely challenging to select the ``right'' cloud cluster configuration for training. Furthermore, the training time and cost of distributed model training is highly sensitive to the cluster configurations, and presents a large and complex tradeoff-space. In this paper, we develop principled and practical techniques for optimizing the training time and cost of distributed ML model training on the cloud. Our key insight is that both parallel and statistical efficiency must be considered when selecting the optimum job configuration parameters such as the number of workers and the batch size. By combining conventional parallel scaling concepts and new insights into SGD noise, our models accurately estimate the time and cost on different cluster configurations with < 5% error. Using the repetitive nature of training and our models, we can search for optimum cloud configurations in a black-box, online manner. Our approach reduces training times by 2 times and costs more more than 50%. Compared to an oracle-based approach, our performance models are accurate to within 2% such that the search imposes an overhead of just 10%. | 翻訳日:2023-03-14 17:37:02 公開日:2023-03-12 |
# 立体映像における色ミスマッチ:実世界データセットと深部補正法 Color Mismatches in Stereoscopic Video: Real-World Dataset and Deep Correction Method ( http://arxiv.org/abs/2303.06657v1 ) ライセンス: Link先を確認 | Egor Chistov, Nikita Alutis, Maxim Velikanov, Dmitriy Vatolin | (参考訳) カラーミスマッチ補正のための実世界の立体映像データセットを提案する。
ビームスプリッタを用いて実現される現実世界の歪みを含む。
我々のデータセットは他のどのデータセットよりも大きい。
人工および実世界のデータセットにおける8つの色ミスマッチ補正法を比較し,局所的手法は人工的歪みに最適であり,グローバル手法は実世界の歪みに最適であることを示した。
ステレオ画像における色ミスマッチ補正のための最新の局所ニューラルネットワーク法の改良により,人工的および実世界の歪みに対してより高速かつ優れた処理が可能となった。 We propose a real-world dataset of stereoscopic videos for color-mismatch correction. It includes real-world distortions achieved using a beam splitter. Our dataset is larger than any other for this task. We compared eight color-mismatch-correction methods on artificial and real-world datasets and showed that local methods are best suited to artificial distortions and that global methods are best suited to real-world distortions. Our efforts improved on the latest local neural-network method for color-mismatch correction in stereoscopic images, making it work faster and better on both artificial and real-world distortions. | 翻訳日:2023-03-14 17:36:21 公開日:2023-03-12 |
# 熱量子場理論における相対論的重イオン衝突の単一粒子スペクトル Single-Particle Spectra in Relativistic Heavy-Ion Collisions Within the Thermal Quantum Field Theory ( http://arxiv.org/abs/2303.06655v1 ) ライセンス: Link先を確認 | Dmitry Anchishkin | (参考訳) クーパー・フライレシピの量子一般化を提案する。
粒子と核の相対論的衝突から生じる単一粒子スペクトルは、熱量子場理論フレームワーク内で計算される。
考察の出発点は、空間的な超曲面から放出される粒子の初期値問題の解である。
以下のステップでは,火球媒質に付随する ' `smaller'' Green' 関数を用いて単一粒子スペクトルを得る。
この結果から, 粒子放出の具体例がいくつか検討されている。 A quantum generalization of the Cooper-Fry recipe is proposed. The single-particle spectrum arising from relativistic collisions of particles and nuclei is calculated within the thermal quantum field theory framework. The starting point of consideration is the solution of the initial-value problem of particle emission from a space-like hypersurface. In the following steps, we obtain the single-particle spectrum using the ``smaller'' Green's function associated with the fireball medium. Based on this result, several specific examples of particle emission are considered. | 翻訳日:2023-03-14 17:36:02 公開日:2023-03-12 |
# 2つの正則マルコフ決定過程:ロバストネスと正則化の等価性 Twice Regularized Markov Decision Processes: The Equivalence between Robustness and Regularization ( http://arxiv.org/abs/2303.06654v1 ) ライセンス: Link先を確認 | Esther Derman, Yevgeniy Men, Matthieu Geist, Shie Mannor | (参考訳) ロバストマルコフ決定プロセス(MDPs)は、システムダイナミクスの変更や部分的に知られている処理の処理を目的としている。
それらを解決するために、一般的には堅牢な最適化手法を用いる。
しかし、これは計算の複雑さを著しく増加させ、学習と計画の両方におけるスケーラビリティを制限します。
一方、正規化されたmdpは、時間の複雑さを損なうことなく、ポリシー学習においてより安定性を示す。
しかし、一般にモデル力学における不確実性は含まない。
本研究では,正規化を用いた堅牢なMDPの学習を目指す。
まず、正規化されたMDPは、不確実な報酬を持つ堅牢なMDPの特殊な例であることを示す。
したがって、報酬を損なうMDPのポリシーイテレーションは、正規化されたMDPと同じ時間複雑性を持つ。
我々はさらにこの関係を不確定な遷移を伴うmdpにも拡張する: これは値関数にさらに依存する正規化項をもたらす。
次に、正規化された MDP を 2 度正規化された MDP (\text{R}^2$ MDPs)、すなわち$\textit{both}$ の MDP に一般化する。
対応するベルマン演算子は、収束と一般化の保証によって計画と学習のスキームを導出することができ、それによって正規化に対する堅牢性が低下する。
この2次元のアドバンテージを表と物理ドメインで数値的に示し,$\text{r}^2$が連続環境において有効性を維持することを強調する。 Robust Markov decision processes (MDPs) aim to handle changing or partially known system dynamics. To solve them, one typically resorts to robust optimization methods. However, this significantly increases computational complexity and limits scalability in both learning and planning. On the other hand, regularized MDPs show more stability in policy learning without impairing time complexity. Yet, they generally do not encompass uncertainty in the model dynamics. In this work, we aim to learn robust MDPs using regularization. We first show that regularized MDPs are a particular instance of robust MDPs with uncertain reward. We thus establish that policy iteration on reward-robust MDPs can have the same time complexity as on regularized MDPs. We further extend this relationship to MDPs with uncertain transitions: this leads to a regularization term with an additional dependence on the value function. We then generalize regularized MDPs to twice regularized MDPs ($\text{R}^2$ MDPs), i.e., MDPs with $\textit{both}$ value and policy regularization. The corresponding Bellman operators enable us to derive planning and learning schemes with convergence and generalization guarantees, thus reducing robustness to regularization. We numerically show this two-fold advantage on tabular and physical domains, highlighting the fact that $\text{R}^2$ preserves its efficacy in continuous environments. | 翻訳日:2023-03-14 17:35:52 公開日:2023-03-12 |
# 3次元点雲分類ニューラルネットワークの中間層における隠れ意味論の解釈 Interpreting Hidden Semantics in the Intermediate Layers of 3D Point Cloud Classification Neural Network ( http://arxiv.org/abs/2303.06652v1 ) ライセンス: Link先を確認 | Weiquan Liu, Minghao Liu, Shijun Zheng, Cheng Wang | (参考訳) 3Dポイントクラウド分類ニューラルネットワークモデルが広く使用されているが、ニューロンとレイヤの活性化の詳細な解釈は依然として難しい。
本稿では,3Dポイントクラウド分類ニューラルネットワークの隠れセマンティクスを解釈するために,Relevance Flowという新しい手法を提案する。
中間層における活性化ニューロンのクラス関連性をバックプロパゲーション方式で提供し、ニューロンの活性化と入力ポイントを関連付けて各層の隠れセマンティクスを可視化する。
特に,3dポイントクラウド分類ニューラルネットワークは,中間層における平面レベルおよび部分レベルの隠れ意味論を学習し,正規およびiouを用いて,両レベルの隠れ意味論の一貫性を評価する。
さらに, 隠れセマンティクスを用いて, 3次元点群分類器を攻撃するための逆攻撃サンプルを生成する。
実験により,提案手法は3次元点クラウド分類ニューラルネットワークの隠れた意味をモデルnet40とshapenet上で明らかにし,ラベル無しで教師なし点クラウド部分セグメンテーションや3次元点クラウド分類器を攻撃できることを示した。 Although 3D point cloud classification neural network models have been widely used, the in-depth interpretation of the activation of the neurons and layers is still a challenge. We propose a novel approach, named Relevance Flow, to interpret the hidden semantics of 3D point cloud classification neural networks. It delivers the class Relevance to the activated neurons in the intermediate layers in a back-propagation manner, and associates the activation of neurons with the input points to visualize the hidden semantics of each layer. Specially, we reveal that the 3D point cloud classification neural network has learned the plane-level and part-level hidden semantics in the intermediate layers, and utilize the normal and IoU to evaluate the consistency of both levels' hidden semantics. Besides, by using the hidden semantics, we generate the adversarial attack samples to attack 3D point cloud classifiers. Experiments show that our proposed method reveals the hidden semantics of the 3D point cloud classification neural network on ModelNet40 and ShapeNet, which can be used for the unsupervised point cloud part segmentation without labels and attacking the 3D point cloud classifiers. | 翻訳日:2023-03-14 17:35:30 公開日:2023-03-12 |
# QBF解を用いた一般ブール式最小化 General Boolean Formula Minimization with QBF Solvers ( http://arxiv.org/abs/2303.06643v1 ) ライセンス: Link先を確認 | Eduardo Cal\`o, Jordi Levy | (参考訳) 命題公式の最小化は論理学における古典的な問題であり、その最初のアルゴリズムは1950年代にクワインとカルノーの業績によって遡る。
この分野のほとんどの以前の研究は、ハードウェア設計に応用された結合正規形(cnf)または分離正規形(dnf)における最小、あるいは準最小の式を得ることに重点を置いてきた。
本稿では,任意の形式で等価な公式を得る問題に関心を持ち,元の公式に存在しない接続性も許容する。
我々は主に、最小化アルゴリズムを適用して元の公式の自然言語翻訳を生成し、入力として短い等価値を使用することでより良い翻訳をもたらす。
近年、buchfuhrer と umans は(決定版)問題は $\sigma_2^p$-complete であることを証明した。
我々はその問題を解決するための3つの可能な(実践的な)アプローチを分析する。
まず、ブルト力を使い、サイズを増加させることで可能な全ての公式を生成し、それが元の公式と等価かどうかを全ての可能な変数割り当てをテストすることによって確認する。
第2に、SATソルバを用いて、すべての公式のTseitin符号を生成し、元の値をチェックする。
第3に、問題を量子ブール式(QBF)として符号化し、QBFソルバを使用する。
以上の結果から,qbfのアプローチは,他の2つを大きく上回っている。 The minimization of propositional formulae is a classical problem in logic, whose first algorithms date back at least to the 1950s with the works of Quine and Karnaugh. Most previous work in the area has focused on obtaining minimal, or quasi-minimal, formulae in conjunctive normal form (CNF) or disjunctive normal form (DNF), with applications in hardware design. In this paper, we are interested in the problem of obtaining an equivalent formula in any format, also allowing connectives that are not present in the original formula. We are primarily motivated in applying minimization algorithms to generate natural language translations of the original formula, where using shorter equivalents as input may result in better translations. Recently, Buchfuhrer and Umans have proved that the (decisional version of the) problem is $\Sigma_2^p$-complete. We analyze three possible (practical) approaches to solving the problem. First, using brute force, generating all possible formulae in increasing size and checking if they are equivalent to the original formula by testing all possible variable assignments. Second, generating the Tseitin coding of all the formulae and checking equivalence with the original using a SAT solver. Third, encoding the problem as a Quantified Boolean Formula (QBF), and using a QBF solver. Our results show that the QBF approach largely outperforms the other two. | 翻訳日:2023-03-14 17:35:10 公開日:2023-03-12 |
# ALIST: 推論、ストレージ、転送のための連想論理。
Web上の推論のためのLingua Franca ALIST: Associative Logic for Inference, Storage and Transfer. A Lingua Franca for Inference on the Web ( http://arxiv.org/abs/2303.06691v1 ) ライセンス: Link先を確認 | Kwabena Nuamah and Alan Bundy | (参考訳) 知識グラフの構築を支援するための最近の開発は、Webと組織の両方で、その作成が急速に増加した。
リレーショナルデータベース、APIなど、既存のデータソースに加え、これらの多様な知識ソースをクエリする技術に対する強い需要があります。
SPARQLのような形式的なクエリ言語は知識グラフを問合せするために存在するが、どの知識グラフを問合せする必要があるか、必要なリソースのユニークなリソース識別子を知る必要がある。
神経情報検索の代替手法は、知識グラフの内容をベクトル空間に埋め込むが、表現とクエリ表現性(回帰のような非自明な集約関数を扱うことができないなど)は提供できない。
このような表現の柔軟性を実現する言語フランカ、すなわち形式主義は、インテリジェントな自動エージェントが推論によって多様なデータソースを結合する能力を高めると信じている。
本研究は,多様な知識ソースのインテリジェントなフェデレーションクエリをサポートするためのフレキシブル表現(alist)を提案する。
本研究は,(1)知識グラフの特定の問合せ言語からクエリの表現を抽象化する形式化,(2)多様な知識ソースに対して非自明な推論を行うために動的にデータと関数(操作)をキュレートする表現,(3)sparqlクエリを含む表現形式化の多様性を表現する alists の表現性の実証,およびより一般的な一階述語論理表現を含む。 Recent developments in support for constructing knowledge graphs have led to a rapid rise in their creation both on the Web and within organisations. Added to existing sources of data, including relational databases, APIs, etc., there is a strong demand for techniques to query these diverse sources of knowledge. While formal query languages, such as SPARQL, exist for querying some knowledge graphs, users are required to know which knowledge graphs they need to query and the unique resource identifiers of the resources they need. Although alternative techniques in neural information retrieval embed the content of knowledge graphs in vector spaces, they fail to provide the representation and query expressivity needed (e.g. inability to handle non-trivial aggregation functions such as regression). We believe that a lingua franca, i.e. a formalism, that enables such representational flexibility will increase the ability of intelligent automated agents to combine diverse data sources by inference. Our work proposes a flexible representation (alists) to support intelligent federated querying of diverse knowledge sources. Our contribution includes (1) a formalism that abstracts the representation of queries from the specific query language of a knowledge graph; (2) a representation to dynamically curate data and functions (operations) to perform non-trivial inference over diverse knowledge sources; (3) a demonstration of the expressiveness of alists to represent the diversity of representational formalisms, including SPARQL queries, and more generally first-order logic expressions. | 翻訳日:2023-03-14 17:28:37 公開日:2023-03-12 |
# MizAR 60 for Mizar 50 MizAR 60 for Mizar 50 ( http://arxiv.org/abs/2303.06686v1 ) ライセンス: Link先を確認 | Jan Jakub\r{u}v, Karel Chvalovsk\'y, Zarathustra Goertzel, Cezary Kaliszyk, Mirek Ol\v{s}\'ak, Bartosz Piotrowski, Stephan Schulz, Martin Suda, Josef Urban | (参考訳) ミザール50周年記念として,ハンマー設定におけるミザーの定理の約60%を自動で証明するai/tpシステムを開発した。
また、自動プローバーが人間の記述したMizar証明で用いられる前提のみを使用することで助けられる場合、ミザーの定理の75%を自動で証明する。
これらの結果につながる手法と大規模実験について述べる。
具体的には、Eとヴァンパイアのプローバー、ENIGMAとDeepireの学習修正、学習ベースの前提選択方法、そして、ますます強力なAI/TPシステムをトレーニングすることで数百万のATP証明を成長させるインクリメンタルループが含まれる。
また、自動的に証明されたミザー問題の選択も提示する。 As a present to Mizar on its 50th anniversary, we develop an AI/TP system that automatically proves about 60\% of the Mizar theorems in the hammer setting. We also automatically prove 75\% of the Mizar theorems when the automated provers are helped by using only the premises used in the human-written Mizar proofs. We describe the methods and large-scale experiments leading to these results. This includes in particular the E and Vampire provers, their ENIGMA and Deepire learning modifications, a number of learning-based premise selection methods, and the incremental loop that interleaves growing a corpus of millions of ATP proofs with training increasingly strong AI/TP systems on them. We also present a selection of Mizar problems that were proved automatically. | 翻訳日:2023-03-14 17:28:10 公開日:2023-03-12 |
# 2枚の回転鏡を用いたラゲア・ガウシアンキャビティ光力学系におけるエンタングルメントの強化と量子ステアリング制御 Enhanced entanglement and controlling quantum steering in a Laguerre-Gaussian cavity optomechanical system with two rotating mirrors ( http://arxiv.org/abs/2303.06685v1 ) ライセンス: Link先を確認 | Amjad Sohail, Zaheer Abbas, Rizwan Ahmed, Aamir Shahzad, Naeem Akhtar and Jia-Xing Peng | (参考訳) ガウス量子ステアリングは、2つの絡み合った状態が非対称性を示す量子相関の一種である。
本稿では,コヒーレント光駆動光パラメトリック増幅器(opa)を用いたラゲア・ガウシアン(lg)回転空洞光学系の量子ステアリング制御と絡み合い強化のための効率的な理論スキームを提案する。
数値シミュレーションの結果,パラメトリックゲイン$\chi$,パラメトリック位相$\theta$,回転ミラー周波数などのシステムパラメータの操作はミラーミラーミラーとミラーキャビティの絡み合いを大幅に改善することがわかった。
両部交絡に加えて,ミラーキャビティミラー三部交絡を実現する。
もう一つの興味深い発見は、量子ステアリングの制御であり、様々なシステムパラメータについていくつかの結果を得た。
ステアリング指向性は主に2つの回転鏡の周波数によって決定される。
さらに、2つの回転鏡では、量子ステアリングは一方方向と両側の両方で非対称である。
その結果,本提案は非局所相関や絡み合い検証タスクの理解に役立つ可能性が示唆された。 Gaussian quantum steering is a type of quantum correlation in which two entangled states exhibit asymmetry. We present an efficient theoretical scheme for controlling quantum steering and enhancing entanglement in a Laguerre-Gaussian (LG) rotating cavity optomechanical system with an optical parametric amplifier (OPA) driven by coherent light. The numerical simulation results show that manipulating system parameters such as parametric gain $\chi$, parametric phase $\theta$, and rotating mirror frequency, among others, significantly improves mirror-mirror and mirror-cavity entanglement. In addition to bipartite entanglement, we achieve mirror-cavity-mirror tripartite entanglement. Another intriguing discovery is the control of quantum steering, for which we obtained several results by investigating it for various system parameters. We show that the steering directivity is primarily determined by the frequency of two rotating mirrors. Furthermore, for two rotating mirrors, quantum steering is found to be asymmetric both one-way and two-way. As a result, we can assert that the current proposal may help in the understanding of non-local correlations and entanglement verification tasks. | 翻訳日:2023-03-14 17:27:55 公開日:2023-03-12 |
# DDS2M:ハイパースペクトル画像復元のための自己監督型拡散比スペクトルモデル DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for Hyperspectral Image Restoration ( http://arxiv.org/abs/2303.06682v1 ) ライセンス: Link先を確認 | Yuchun Miao and Lefei Zhang and Liangpei Zhang and Dacheng Tao | (参考訳) 拡散モデルは、特にノイズの堅牢性の観点から、画像復元における印象的な性能のために最近注目されている。
しかしながら、既存の拡散ベースの手法は、大量のトレーニングデータに基づいて訓練され、非常によく分布するが、分布シフトの影響を受けやすい。
これは特にhsi(data-starved hyperspectral image)復元には不適切である。
この問題に対処するため、本研究では、逆拡散過程において、劣化したHSIを余分なトレーニングデータなしでのみ使用することにより、提案した変分拡散比スペクトルモデル(VS2M)のパラメータを推定することで機能する、HSI修復のための自己教師付き拡散モデル(Denoising Diffusion Spatio-Spectral Model (\texttt{DDS2M})を提案する。
VS2Mでは、ばらつき推論に基づく損失関数をカスタマイズして、トレーニングされていない空間およびスペクトルネットワークが後続分布を学習し、サンプリングチェーンの遷移として拡散過程の反転を支援する。
自己監督的な性質と拡散過程から、既存の拡散ベース法と比較して様々なHSIに対してより強力な一般化能力と、既存のHSI復元法に比べて耐雑音性を有する。
hsiデノイジング、ノイズの多いhsiコンプリート、および様々なhsis上の超解像に関する広範囲な実験は、既存のタスク固有の状態に対する \texttt{dds2m} の優位性を示している。 Diffusion models have recently received a surge of interest due to their impressive performance for image restoration, especially in terms of noise robustness. However, existing diffusion-based methods are trained on a large amount of training data and perform very well in-distribution, but can be quite susceptible to distribution shift. This is especially inappropriate for data-starved hyperspectral image (HSI) restoration. To tackle this problem, this work puts forth a self-supervised diffusion model for HSI restoration, namely Denoising Diffusion Spatio-Spectral Model (\texttt{DDS2M}), which works by inferring the parameters of the proposed Variational Spatio-Spectral Module (VS2M) during the reverse diffusion process, solely using the degraded HSI without any extra training data. In VS2M, a variational inference-based loss function is customized to enable the untrained spatial and spectral networks to learn the posterior distribution, which serves as the transitions of the sampling chain to help reverse the diffusion process. Benefiting from its self-supervised nature and the diffusion process, \texttt{DDS2M} enjoys stronger generalization ability to various HSIs compared to existing diffusion-based methods and superior robustness to noise compared to existing HSI restoration methods. Extensive experiments on HSI denoising, noisy HSI completion and super-resolution on a variety of HSIs demonstrate \texttt{DDS2M}'s superiority over the existing task-specific state-of-the-arts. | 翻訳日:2023-03-14 17:27:36 公開日:2023-03-12 |
# 超疎視型cbct再構成のための深部強度場学習 Learning Deep Intensity Field for Extremely Sparse-View CBCT Reconstruction ( http://arxiv.org/abs/2303.06681v1 ) ライセンス: Link先を確認 | Yiqun Lin, Zhongjin Luo, Wei Zhao, and Xiaomeng Li | (参考訳) Sparse-view cone-beam CT (CBCT) 再建は放射線線量削減と臨床応用のための重要な方向である。
従来のボクセルベースの生成方法はCTを離散ボクセルとして表現しており、3Dデコーダの使用により高いメモリ要求と空間解像度が制限される。
本稿では,ctボリュームを連続的な強度場として定式化し,超高速で超疎射影から高品質なcbct再構成を行う新しいdif-netを開発した。
CTの強度場は3次元空間点の連続関数と見なすことができる。
これにより、任意の3D点の強度値を所定のスパース投影から引き戻すように再構成することができる。
特に、DIF-Netは、異なる2Dプロジェクションビューからビュー特有の特徴を抽出する。
これらの特徴はその後、強度推定のための融合モジュールによって集約される。
特に、トレーニングやテストの効率を改善するために、何千ものポイントを並行して処理することができる。
実際に膝CBCTデータセットを収集し,DIF-Netのトレーニングと評価を行う。
広範な実験により,高画質,高空間解像度のcbctを1.6秒以内で再現できることが判明した。
私たちのコードはhttps://github.com/lyqun/DIF-Netで公開されます。 Sparse-view cone-beam CT (CBCT) reconstruction is an important direction to reduce radiation dose and benefit clinical applications. Previous voxel-based generation methods represent the CT as discrete voxels, resulting in high memory requirements and limited spatial resolution due to the use of 3D decoders. In this paper, we formulate the CT volume as a continuous intensity field and develop a novel DIF-Net to perform high-quality CBCT reconstruction from extremely sparse (fewer than 10) projection views at an ultrafast speed. The intensity field of a CT can be regarded as a continuous function of 3D spatial points. Therefore, the reconstruction can be reformulated as regressing the intensity value of an arbitrary 3D point from given sparse projections. Specifically, for a point, DIF-Net extracts its view-specific features from different 2D projection views. These features are subsequently aggregated by a fusion module for intensity estimation. Notably, thousands of points can be processed in parallel to improve efficiency during training and testing. In practice, we collect a knee CBCT dataset to train and evaluate DIF-Net. Extensive experiments show that our approach can reconstruct CBCT with high image quality and high spatial resolution from extremely sparse views within 1.6 seconds, significantly outperforming state-of-the-art methods. Our code will be available at https://github.com/lyqun/DIF-Net. | 翻訳日:2023-03-14 17:27:06 公開日:2023-03-12 |
# rotogbml: 勾配型メタラーニングのための分散の一般化に向けて RotoGBML: Towards Out-of-Distribution Generalization for Gradient-Based Meta-Learning ( http://arxiv.org/abs/2303.06679v1 ) ライセンス: Link先を確認 | Min Zhang, Zifeng Zhuang, Zhitao Wang, Donglin Wang, Wenbin Li | (参考訳) 勾配に基づくメタ学習(gbml)アルゴリズムは、学習したメタ知識を転送することで、新しいタスクに迅速に適応することができる。
しかし、現実の世界では、それらはしばしば、異なる分布からタスクがくる、アウト・オブ・ディストリビューション(OOD)の一般化問題に悩まされる。
OODはタスク勾配の大きさや方向の不整合を悪化させ、最小限のタスク勾配の和を最小化することにより、GBMLがメタ知識を最適化する上での課題をもたらす。
この問題に対処するために,OODタスク勾配を均質化する新しいアプローチであるRotoGBMLを提案する。
RotoGBMLは、様々な大きさを共通スケールに動的にバランスさせるために重み付けベクターを使用し、回転行列を用いて互いに近くで衝突する方向を回転させる。
オーバーヘッドを減らすために、ネットワークパラメータではなく、特徴と勾配を均質化する。
本研究では,非因果的特徴(例えば背景)の介入を避けるために,不変因果的特徴(例えば,オブジェクトの輪郭)を抽出するための不変自己情報(isi)モジュールを提案する。
最後に、これらの不変因果的特徴に基づいてタスク勾配が均質化される。
実験の結果,RotoGBMLは様々な画像分類ベンチマークにおいて,最先端の手法よりも優れていた。 Gradient-based meta-learning (GBML) algorithms are able to fast adapt to new tasks by transferring the learned meta-knowledge, while assuming that all tasks come from the same distribution (in-distribution, ID). However, in the real world, they often suffer from an out-of-distribution (OOD) generalization problem, where tasks come from different distributions. OOD exacerbates inconsistencies in magnitudes and directions of task gradients, which brings challenges for GBML to optimize the meta-knowledge by minimizing the sum of task gradients in each minibatch. To address this problem, we propose RotoGBML, a novel approach to homogenize OOD task gradients. RotoGBML uses reweighted vectors to dynamically balance diverse magnitudes to a common scale and uses rotation matrixes to rotate conflicting directions close to each other. To reduce overhead, we homogenize gradients with the features rather than the network parameters. On this basis, to avoid the intervention of non-causal features (e.g., backgrounds), we also propose an invariant self-information (ISI) module to extract invariant causal features (e.g., the outlines of objects). Finally, task gradients are homogenized based on these invariant causal features. Experiments show that RotoGBML outperforms other state-of-the-art methods on various few-shot image classification benchmarks. | 翻訳日:2023-03-14 17:26:46 公開日:2023-03-12 |
# PointPatchMix: Patch Scoringによるポイントクラウドの混合 PointPatchMix: Point Cloud Mixing with Patch Scoring ( http://arxiv.org/abs/2303.06678v1 ) ライセンス: Link先を確認 | Yi Wang, Jiaze Wang, Jinpeng Li, Zixu Zhao, Guangyong Chen, Anfeng Liu and Pheng-Ann Heng | (参考訳) データ拡張は、ディープニューラルネットワークにおけるオーバーフィットを軽減する効果的な正規化戦略であり、ポイントクラウドデータが比較的限定された3Dビジョンタスクにおいて重要な役割を果たす。
ミキシングベースの拡張はポイントクラウドに有望であるが、以前の手法ではブロックレベルまたはポイントレベルのいずれかのポイントクラウドを混合しており、多様なトレーニングサンプルの生成とポイントクラウドのローカル特性の保存のバランスを阻害している。
さらに、ポイントクラウドの各部分の重要度は十分に考慮されていないため、すべての部分が分類タスクに等しく寄与するわけではなく、重要でない情報や冗長な情報を含む部分もある。
これらの課題を克服するため,我々はpointpatchmixを提案する。pointpatchmixはパッチレベルでポイントクラウドを混合し,パッチスコアリングモジュールを統合して混合ポイントクラウドのコンテンツベースターゲットを生成する新しいアプローチである。
本手法はパッチレベルでの局所的な特徴を保存し,パッチスコアモジュールは事前学習した教師モデルからコンテンツに基づく重要度スコアに基づいて目標を割り当てる。
我々は、modelnet40とscanobjectnnという2つのベンチマークデータセットでpointpatchmixを評価し、合成データと実世界のデータセットの両方における様々なベースラインと、わずかなショット設定に対する大幅な改善を示す。
Point-MAE をベースラインとして,ScanObjectNN では86.3%,ModelNet40 では94.1% の精度で,従来の手法をかなり上回りました。
さらに,複数のアーキテクチャにまたがる強固な一般化を示し,ベースラインモデルの堅牢性を高める。 Data augmentation is an effective regularization strategy for mitigating overfitting in deep neural networks, and it plays a crucial role in 3D vision tasks, where the point cloud data is relatively limited. While mixing-based augmentation has shown promise for point clouds, previous methods mix point clouds either on block level or point level, which has constrained their ability to strike a balance between generating diverse training samples and preserving the local characteristics of point clouds. Additionally, the varying importance of each part of the point clouds has not been fully considered, cause not all parts contribute equally to the classification task, and some parts may contain unimportant or redundant information. To overcome these challenges, we propose PointPatchMix, a novel approach that mixes point clouds at the patch level and integrates a patch scoring module to generate content-based targets for mixed point clouds. Our approach preserves local features at the patch level, while the patch scoring module assigns targets based on the content-based significance score from a pre-trained teacher model. We evaluate PointPatchMix on two benchmark datasets, ModelNet40 and ScanObjectNN, and demonstrate significant improvements over various baselines in both synthetic and real-world datasets, as well as few-shot settings. With Point-MAE as our baseline, our model surpasses previous methods by a significant margin, achieving 86.3% accuracy on ScanObjectNN and 94.1% accuracy on ModelNet40. Furthermore, our approach shows strong generalization across multiple architectures and enhances the robustness of the baseline model. | 翻訳日:2023-03-14 17:26:22 公開日:2023-03-12 |
# LUKE-Graph:クローゼスタイル読解理解のためのGated Relational Graph Attentionを用いたトランスフォーマーベースアプローチ LUKE-Graph: A Transformer-based Approach with Gated Relational Graph Attention for Cloze-style Reading Comprehension ( http://arxiv.org/abs/2303.06675v1 ) ライセンス: Link先を確認 | Shima Foolad and Kourosh Kiani | (参考訳) 先行知識を組み込むことで,クローゼスタイルの機械読解における既存の事前学習モデルを改善することができ,近年では新たなトレンドとなっている。
特に、既存のモデルのほとんどは、BERTのような外部知識グラフ(KG)とトランスフォーマーベースのモデルを統合データ構造に統合している。
しかし、最も関係のある曖昧なエンティティをkgで選択し、最良のサブグラフを抽出することは、依然として課題である。
本稿では,外部KGを使わずに文書内のエンティティ間の直感的な関係に基づく異種グラフ構築モデルLUKE-Graphを提案する。
次にrgat(relational graph attention)ネットワークを用いて,事前学習したlukeモデルで符号化されたグラフの推論情報と文脈表現を融合する。
このようにして、LUKEを利用してエンティティ・アウェアな表現を導出し、グラフモデルを使って関係・アウェアな表現を活用できる。
さらに、グラフ畳み込み操作の質問情報を制御するゲーティング機構によりRGATを増強し、Gated-RGATを提案する。
これは人間の推論処理と非常によく似ています。なぜなら、常に質問情報に基づいて最適なエンティティ候補を選択するからです。
実験結果から,LUKE-Graph はコモンセンス推論を用いたReCoRDデータセット上での最先端性能を実現することが示された。 Incorporating prior knowledge can improve existing pre-training models in cloze-style machine reading and has become a new trend in recent studies. Notably, most of the existing models have integrated external knowledge graphs (KG) and transformer-based models, such as BERT into a unified data structure. However, selecting the most relevant ambiguous entities in KG and extracting the best subgraph remains a challenge. In this paper, we propose the LUKE-Graph, a model that builds a heterogeneous graph based on the intuitive relationships between entities in a document without using any external KG. We then use a Relational Graph Attention (RGAT) network to fuse the graph's reasoning information and the contextual representation encoded by the pre-trained LUKE model. In this way, we can take advantage of LUKE, to derive an entity-aware representation; and a graph model - to exploit relation-aware representation. Moreover, we propose Gated-RGAT by augmenting RGAT with a gating mechanism that regulates the question information for the graph convolution operation. This is very similar to human reasoning processing because they always choose the best entity candidate based on the question information. Experimental results demonstrate that the LUKE-Graph achieves state-of-the-art performance on the ReCoRD dataset with commonsense reasoning. | 翻訳日:2023-03-14 17:25:55 公開日:2023-03-12 |
# オブジェクト発見と検索としてのユニバーサルインスタンス認識 Universal Instance Perception as Object Discovery and Retrieval ( http://arxiv.org/abs/2303.06674v1 ) ライセンス: Link先を確認 | Bin Yan, Yi Jiang, Jiannan Wu, Dong Wang, Ping Luo, Zehuan Yuan, Huchuan Lu | (参考訳) すべてのインスタンス認識タスクは、カテゴリ名、言語表現、ターゲットアノテーションなどのクエリによって指定された特定のオブジェクトを見つけることを目的としているが、この完全なフィールドは複数の独立したサブタスクに分割されている。
本稿では,次世代の普遍的インスタンス知覚モデルであるuninextを提案する。
UNINEXTは、多様なインスタンス認識タスクを統一されたオブジェクト発見検索パラダイムに再構成し、入力プロンプトを単に変更することで、様々なタイプのオブジェクトを柔軟に知覚することができる。
この統一的な定式化は、(1)異なるタスクやラベル語彙からの膨大なデータを利用して、一般的なインスタンスレベルの表現を共同トレーニングすることが可能であり、特にトレーニングデータに欠けているタスクに有用である。
2) 統一モデルはパラメータ効率が高く、複数のタスクを同時に処理する際に冗長な計算を保存できる。
uninextは、古典的なイメージレベルタスク(オブジェクト検出とインスタンスセグメンテーション)、視覚と言語タスク(表現の理解とセグメンテーションを推論)、そして6つのビデオレベルのオブジェクトトラッキングタスクを含む、10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
コードはhttps://github.com/masterbin-iiau/uninextで入手できる。 All instance perception tasks aim at finding certain objects specified by some queries such as category names, language expressions, and target annotations, but this complete field has been split into multiple independent subtasks. In this work, we present a universal instance perception model of the next generation, termed UNINEXT. UNINEXT reformulates diverse instance perception tasks into a unified object discovery and retrieval paradigm and can flexibly perceive different types of objects by simply changing the input prompts. This unified formulation brings the following benefits: (1) enormous data from different tasks and label vocabularies can be exploited for jointly training general instance-level representations, which is especially beneficial for tasks lacking in training data. (2) the unified model is parameter-efficient and can save redundant computation when handling multiple tasks simultaneously. UNINEXT shows superior performance on 20 challenging benchmarks from 10 instance-level tasks including classical image-level tasks (object detection and instance segmentation), vision-and-language tasks (referring expression comprehension and segmentation), and six video-level object tracking tasks. Code is available at https://github.com/MasterBin-IIAU/UNINEXT. | 翻訳日:2023-03-14 17:25:31 公開日:2023-03-12 |
# SSGD:欠陥検出のためのスマートフォン画面ガラスデータセット SSGD: A smartphone screen glass dataset for defect detection ( http://arxiv.org/abs/2303.06673v1 ) ライセンス: Link先を確認 | Haonan Han, Rui Yang, Shuyan Li, Runze Hu and Xiu Li | (参考訳) タッチスクリーンを用いたインタラクティブデバイスは、日常の様々な面において一般的に使われており、タッチスクリーンガラスの高品質な製造需要が高まっている。
タッチスクリーンの自動生産ラインを最適化する効果的な欠陥検出技術を開発することが望ましいが、これらの技術の開発は、一般公開されたデータセットの欠如に苦しむ。
そこで本稿では,様々なシナリオで撮影された2504枚の画像からなる7種類の欠陥を含む専用タッチスクリーンガラス欠陥データセットを提案する。
さらに,提案するデータセット上でcnnおよびtransformerに基づく物体検出フレームワークをベンチマークし,高解像度画像における欠陥検出の課題を実証する。
Datasetとその関連コードはhttps://github.com/Yangr116/SSGDataset.comから入手できる。 Interactive devices with touch screen have become commonly used in various aspects of daily life, which raises the demand for high production quality of touch screen glass. While it is desirable to develop effective defect detection technologies to optimize the automatic touch screen production lines, the development of these technologies suffers from the lack of publicly available datasets. To address this issue, we in this paper propose a dedicated touch screen glass defect dataset which includes seven types of defects and consists of 2504 images captured in various scenarios.All data are captured with professional acquisition equipment on the fixed workstation. Additionally, we benchmark the CNN- and Transformer-based object detection frameworks on the proposed dataset to demonstrate the challenges of defect detection on high-resolution images. Dataset and related code will be available at https://github.com/Yangr116/SSGDataset. | 翻訳日:2023-03-14 17:25:10 公開日:2023-03-12 |
# 平均フィールドレジームにおけるエルマン型RNNのグローバル最適性 Global Optimality of Elman-type RNN in the Mean-Field Regime ( http://arxiv.org/abs/2303.06726v1 ) ライセンス: Link先を確認 | Andrea Agazzi, Jianfeng Lu, Sayan Mukherjee | (参考訳) 我々は,elman-type recurrent reural networks (rnns) の解析と平均場環境におけるトレーニングについて検討した。
具体的には,rnnの勾配降下訓練ダイナミクスを,大幅領域における対応する平均場定式化に収束させることを示す。
また、制限無限幅ダイナミクスの固定点は、重みの初期化に関するいくつかの仮定の下で、大域的に最適であることを示す。
平均場体制における広いRNNを用いた特徴学習の最適性を確立した。 We analyze Elman-type Recurrent Reural Networks (RNNs) and their training in the mean-field regime. Specifically, we show convergence of gradient descent training dynamics of the RNN to the corresponding mean-field formulation in the large width limit. We also show that the fixed points of the limiting infinite-width dynamics are globally optimal, under some assumptions on the initialization of the weights. Our results establish optimality for feature-learning with wide RNNs in the mean-field regime | 翻訳日:2023-03-14 17:19:34 公開日:2023-03-12 |
# 知識統合オートエンコーダモデル Knowledge-integrated AutoEncoder Model ( http://arxiv.org/abs/2303.06721v1 ) ライセンス: Link先を確認 | Teddy Lazebnik, Liron Simon-Keren | (参考訳) データエンコーディングは、ほとんどのデータ分析タスクにおいて共通かつ中心的な操作である。
計算過程の下流にある他のモデルの性能は、データ符号化の品質に大きく依存する。
データをエンコードする最も強力な方法のひとつは、ニューラルネットワークのAutoEncoder(AE)アーキテクチャを使用することだ。
しかし、AE の開発者は、通常は \textit{black box} テクニックとして扱われるため、生成した埋め込み空間に簡単に影響を及ぼすことができない。
本稿では,外部知識源を学習プロセスに統合し,より正確な結果が得られるようなaeモデルを開発するための新しい手法を提案する。
提案された 'methodNamefull{} (\methodName{}) モデルは、ドメイン固有の情報を利用して、サンプル間の所望距離と近傍特性が埋め込み空間で保存可能であることを確認する。
提案モデルは,3つの異なる分野の大規模データセットを用いて評価し,既存の9つの符号化モデルと比較した。
その結果、 \methodname{}モデルは、入力データと外部知識の間の基盤となる構造と関係を効果的に捉え、より有用な表現を生成することが示される。
これにより、復元精度の点で他のモデルよりもパフォーマンスが向上する。 Data encoding is a common and central operation in most data analysis tasks. The performance of other models, downstream in the computational process, highly depends on the quality of data encoding. One of the most powerful ways to encode data is using the neural network AutoEncoder (AE) architecture. However, the developers of AE are not able to easily influence the produced embedding space, as it is usually treated as a \textit{black box} technique, which makes it uncontrollable and not necessarily has desired properties for downstream tasks. In this paper, we introduce a novel approach for developing AE models that can integrate external knowledge sources into the learning process, possibly leading to more accurate results. The proposed \methodNamefull{} (\methodName{}) model is able to leverage domain-specific information to make sure the desired distance and neighborhood properties between samples are preservative in the embedding space. The proposed model is evaluated on three large-scale datasets from three different scientific fields and is compared to nine existing encoding models. The results demonstrate that the \methodName{} model effectively captures the underlying structures and relationships between the input data and external knowledge, meaning it generates a more useful representation. This leads to outperforming the rest of the models in terms of reconstruction accuracy. | 翻訳日:2023-03-14 17:19:28 公開日:2023-03-12 |
# 確率過程をシミュレートするための量子スペクトル法とモンテカルロへの応用 A quantum spectral method for simulating stochastic processes, with applications to Monte Carlo ( http://arxiv.org/abs/2303.06719v1 ) ライセンス: Link先を確認 | Adam Bouland, Aditi Dandapani and Anupam Prakash | (参考訳) 確率過程は物理学、数学、工学、金融において基本的な役割を果たす。
量子計算の潜在的な応用の1つは確率過程の近似特性を改善することである。
例えば、モンテカルロ推定のための量子アルゴリズムは、平均推定を改善するために確率過程の量子シミュレーションと振幅推定を組み合わせる。
本研究ではモンテカルロ法に適合する確率過程をシミュレーションする量子アルゴリズムについて検討する。
本稿では, 時間tにおけるプロセスの値を量子状態の振幅に格納し, プロセス軌跡の指数的に効率的な符号化を可能にする, 確率過程の 'analog'' 量子表現を導入する。
この表現は、量子フーリエ変換と組み合わされたこれらのプロセスのスペクトル特性を用いて、ある確率過程をシミュレートする非常に効率的な量子アルゴリズムを可能にする。
特に、ゲート複雑性$\text{polylog}(t)$を持つ量子回路を用いて分数ブラウン運動の時間ステップ$t$をシミュレートできることを示し、これはブラウン経路上の重ね合わせをコヒーレントに準備する。
すると、これを量子平均推定と組み合わせて、時間$O(\text{polylog}(T)\epsilon^{-c})$に対して3/2<c<2$ for certain variants of fractional Brownian motion, and classical Monte Carlo run in time $O(T\epsilon^{-2})$ and quantum mean estimation in time $O(T\epsilon^{-1})$とする。
その過程で、異なる分散のガウス振幅を持つ量子状態をコヒーレントにロードする効率的なアルゴリズムを与える。 Stochastic processes play a fundamental role in physics, mathematics, engineering and finance. One potential application of quantum computation is to better approximate properties of stochastic processes. For example, quantum algorithms for Monte Carlo estimation combine a quantum simulation of a stochastic process with amplitude estimation to improve mean estimation. In this work we study quantum algorithms for simulating stochastic processes which are compatible with Monte Carlo methods. We introduce a new ``analog'' quantum representation of stochastic processes, in which the value of the process at time t is stored in the amplitude of the quantum state, enabling an exponentially efficient encoding of process trajectories. We show that this representation allows for highly efficient quantum algorithms for simulating certain stochastic processes, using spectral properties of these processes combined with the quantum Fourier transform. In particular, we show that we can simulate $T$ timesteps of fractional Brownian motion using a quantum circuit with gate complexity $\text{polylog}(T)$, which coherently prepares the superposition over Brownian paths. We then show this can be combined with quantum mean estimation to create end to end algorithms for estimating certain time averages over processes in time $O(\text{polylog}(T)\epsilon^{-c})$ where $3/2<c<2$ for certain variants of fractional Brownian motion, whereas classical Monte Carlo runs in time $O(T\epsilon^{-2})$ and quantum mean estimation in time $O(T\epsilon^{-1})$. Along the way we give an efficient algorithm to coherently load a quantum state with Gaussian amplitudes of differing variances, which may be of independent interest. | 翻訳日:2023-03-14 17:19:05 公開日:2023-03-12 |
# BCSSN: 自律走行における衝突回避のための双方向小型空間分離型ネットワーク BCSSN: Bi-direction Compact Spatial Separable Network for Collision Avoidance in Autonomous Driving ( http://arxiv.org/abs/2303.06714v1 ) ライセンス: Link先を確認 | Haichuan Li, Liguo Zhou, Alois Knoll | (参考訳) 自動運転は研究開発の活発な領域であり、自動運転車における意思決定のための様々な戦略が検討されている。
ルールベースのシステム、決定木、マルコフ決定プロセス、ベイズネットワークは、交通条件の複雑さに対処し、衝突を避けるために使われる一般的な方法である。
しかし、ディープラーニングの出現とともに、多くの研究者が衝突回避性能を改善するためにcnnベースの手法に目を向けている。
いくつかのcnnベースの方法によって有望な結果が得られたにもかかわらず、シーケンシャルな画像間の相関を確立することができないと、しばしばより多くの衝突を引き起こす。
本稿では,注意の変種を用いて逐次画像中の領域間の特徴相関を確立することにより,限界を克服するcnnに基づく手法を提案する。
本手法は,地域特性の把握におけるcnnの利点を双方向lstmと組み合わせ,地域間の関係性を高める。
さらに,エンコーダを用いて計算効率を向上させる。
本手法では,カメラとLiDARセンサから生成した"Bird's Eye View"グラフを入力として,位置 (x, y) と頭部オフセット角度 (Yaw) をシミュレートし,将来の軌道を生成する。
実験の結果,提案手法は従来のビジョンベース戦略を上回っており,l5kitテストセットの走行距離1000マイルあたり平均3.7回しか衝突しないことがわかった。
これは衝突回避の成功率を大幅に改善し、自動運転に有望な解決策を提供する。 Autonomous driving has been an active area of research and development, with various strategies being explored for decision-making in autonomous vehicles. Rule-based systems, decision trees, Markov decision processes, and Bayesian networks have been some of the popular methods used to tackle the complexities of traffic conditions and avoid collisions. However, with the emergence of deep learning, many researchers have turned towards CNN-based methods to improve the performance of collision avoidance. Despite the promising results achieved by some CNN-based methods, the failure to establish correlations between sequential images often leads to more collisions. In this paper, we propose a CNN-based method that overcomes the limitation by establishing feature correlations between regions in sequential images using variants of attention. Our method combines the advantages of CNN in capturing regional features with a bi-directional LSTM to enhance the relationship between different local areas. Additionally, we use an encoder to improve computational efficiency. Our method takes "Bird's Eye View" graphs generated from camera and LiDAR sensors as input, simulates the position (x, y) and head offset angle (Yaw) to generate future trajectories. Experiment results demonstrate that our proposed method outperforms existing vision-based strategies, achieving an average of only 3.7 collisions per 1000 miles of driving distance on the L5kit test set. This significantly improves the success rate of collision avoidance and provides a promising solution for autonomous driving. | 翻訳日:2023-03-14 17:18:29 公開日:2023-03-12 |
# 非マルコフスピン環境下での冷蔵の改善 Improved refrigeration in presence of non-Markovian spin-environment ( http://arxiv.org/abs/2303.06712v1 ) ライセンス: Link先を確認 | Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen | (参考訳) 3つのキュービットからなる小さな量子冷凍機を、それぞれが環境と接触している状態で探索する。
1つは過渡冷却がある場合、もう1つは定常冷却と過渡冷却の両方が有効である場合である。
非マルコフ型貯水池で冷水槽に付着した浴槽を交換した場合, 過渡的な環境条件と平衡条件の両方において, マルコフ型環境よりも有意な利点があることが示される。
また,3量子ビット冷凍装置の非マルコフ浴による冷凍も検討した。
興味深いことに、定常温度は少なくとも2つのマルコフ環境が存在する場合にのみ到達するが、全ての場合において温度振動の異なる包絡が存在する。
また,1つ以上の非マルコフ貯水池に接続されたデバイスと,1つ以上の非マルコフ貯水池に接続された2ビットおよび1ビットの自己持続型デバイスとの比較を行った。
システム内の非マルコビアン性の量を定量化する尺度を提案する。
最後に, マルコフ騒音の存在下での冷凍モデルの研究を行い, 騒音強度の冷蔵に対する応答を解析した。
特に, 冷蔵が可能になるまでの騒音強度について検討した。 We explore a small quantum refrigerator consisting of three qubits each of which are kept in contact with an environment. We consider two settings: one is when there is necessarily transient cooling and the other is when both steady-state and transient cooling prevail. We show that there can be significant advantages than the Markovian environments case for both these settings in the transient regime and also in equilibrium if we replace the bath attached to the cold qubit by a non-Markovian reservoir. We also consider refrigeration with more than one non-Markovian bath of the three-qubit refrigerating device. Curiously, a steady temperature is reached only if there are at least two Markovian environments, although there are distinct envelopes of the temperature oscillations in all cases. We compare the device connected to one or more non-Markovian reservoirs with the case of all Markovian environs, as also with two- and single-qubit self-sustained devices connected to one or more non-Markovian baths. We propose a measure to quantify the amount of non-Markovianity in the systems. Finally, the refrigerator models are studied in presence of Markovian noise, and we analyse the response on the refrigeration of the noise strength. In particular, we find the noise strength until which refrigeration remains possible. | 翻訳日:2023-03-14 17:18:03 公開日:2023-03-12 |
# 不確実性を考慮した強化学習によるロボットエージェントの意思決定 Decision Making for Human-in-the-loop Robotic Agents via Uncertainty-Aware Reinforcement Learning ( http://arxiv.org/abs/2303.06710v1 ) ライセンス: Link先を確認 | Siddharth Singi, Zhanpeng He, Alvin Pan, Sandip Patel, Gunnar A. Sigurdsson, Robinson Piramuthu, Shuran Song, Matei Ciocarlie | (参考訳) ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。
要求が多すぎるとロボットがミスを犯しかねないが、要求が多すぎると専門家が過負荷になる。
本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントがタスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。
信頼度は、現在の状態からのリターンのばらつきを推定することによって算出される。
この推定は,ベルマン型再帰法を用いて,訓練中に反復的に改善できることを示す。
完全かつ部分的に観測可能な状態情報を含む個別のナビゲーション問題に対して,本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家の呼び出しを効果的に利用することを示す。 In a Human-in-the-Loop paradigm, a robotic agent is able to act mostly autonomously in solving a task, but can request help from an external expert when needed. However, knowing when to request such assistance is critical: too few requests can lead to the robot making mistakes, but too many requests can overload the expert. In this paper, we present a Reinforcement Learning based approach to this problem, where a semi-autonomous agent asks for external assistance when it has low confidence in the eventual success of the task. The confidence level is computed by estimating the variance of the return from the current state. We show that this estimate can be iteratively improved during training using a Bellman-like recursion. On discrete navigation problems with both fully- and partially-observable state information, we show that our method makes effective use of a limited budget of expert calls at run-time, despite having no access to the expert at training time. | 翻訳日:2023-03-14 17:17:42 公開日:2023-03-12 |
# retinexformer:低光度画像強調用1段retinexベースのトランス Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement ( http://arxiv.org/abs/2303.06705v1 ) ライセンス: Link先を確認 | Yuanhao Cai, Hao Bian, Jing Lin, Haoqian Wang, Radu Timofte, Yulun Zhang | (参考訳) 低照度画像を強化する場合、多くのディープラーニングアルゴリズムはretinex理論に基づいている。
しかし、Retinexモデルは、暗黒に隠されたり、ライトアッププロセスによって導入された汚職を考慮していない。
さらに、これらの手法は通常、面倒なマルチステージトレーニングパイプラインを必要とし、畳み込みニューラルネットワークに依存し、長距離依存関係をキャプチャする際の制限を示す。
本稿では,単純な一段階Retinex-based Framework (ORF) を定式化する。
ORFはまず照明情報を推定し、低照度画像を照らす。
我々は照明表現を利用した照明誘導変換器(IGT)を設計し、照明条件の異なる領域の非局所的な相互作用をモデル化する。
IGTをORFに接続することで、我々のアルゴリズムであるRetinexformerを得る。
我々のRetinexformerは7つのベンチマークで最先端の手法を大幅に上回っている。
低照度物体検出のユーザスタディと応用により,本手法の実用的価値も明らかにした。
コードと事前訓練されたモデルがリリースされる。 When enhancing low-light images, many deep learning algorithms are based on the Retinex theory. However, the Retinex model does not consider the corruptions hidden in the dark or introduced by the light-up process. Besides, these methods usually require a tedious multi-stage training pipeline and rely on convolutional neural networks, showing limitations in capturing long-range dependencies. In this paper, we formulate a simple yet principled One-stage Retinex-based Framework (ORF). ORF first estimates the illumination information to light up the low-light image and then restores the corruption to produce the enhanced image. We design an Illumination-Guided Transformer (IGT) that utilizes illumination representations to direct the modeling of non-local interactions of regions with different lighting conditions. By plugging IGT into ORF, we obtain our algorithm, Retinexformer. Comprehensive quantitative and qualitative experiments demonstrate that our Retinexformer significantly outperforms state-of-the-art methods on seven benchmarks. The user study and application on low-light object detection also reveal the latent practical values of our method. Codes and pre-trained models will be released. | 翻訳日:2023-03-14 17:17:24 公開日:2023-03-12 |
# 制約の未知パラメータによる予測+最適化のためのポストホック補正による分岐学習 Branch & Learn with Post-hoc Correction for Predict+Optimize with Unknown Parameters in Constraints ( http://arxiv.org/abs/2303.06698v1 ) ライセンス: Link先を確認 | Xinyi Hu, Jasper C.H. Lee, Jimmy H.M. Lee | (参考訳) 機械学習と制約付き最適化を組み合わせることで、Predict+Optimizeは、解決時に未知のパラメータを含む最適化問題に取り組む。
事前の作業は、目的のみに未知のケースに焦点を当てる。
新たに提案されたフレームワークは,不満足な予測の修正コストを考慮したロス関数であるPost-hoc Regretを導入することで,未知の制約を緩和するものだ。
ポストホックな後悔は微分不可能であるため、以前の仕事はその近似のみを計算する。
Post-hoc Regretの概念は一般的なものであるが、その具体的実装は線形プログラミング問題のみに適用される。
本稿では,簡単な条件を満たす再帰アルゴリズムにより解ける任意の最適化問題に対して,ポストホックレギュレットを正確に計算する方法を示す。
実験は、初期の近似アプローチと比較して、解の質が大幅に向上することを示している。
さらに,同じベンチマークのポストホックな後悔に使用される補正関数とペナルティ関数の異なる組み合わせによる経験的挙動を実験的に示す。
結果は、異なるアプリケーションシナリオで適切なポストホックレグレットを定義するための洞察を提供する。 Combining machine learning and constrained optimization, Predict+Optimize tackles optimization problems containing parameters that are unknown at the time of solving. Prior works focus on cases with unknowns only in the objectives. A new framework was recently proposed to cater for unknowns also in constraints by introducing a loss function, called Post-hoc Regret, that takes into account the cost of correcting an unsatisfiable prediction. Since Post-hoc Regret is non-differentiable, the previous work computes only its approximation. While the notion of Post-hoc Regret is general, its specific implementation is applicable to only packing and covering linear programming problems. In this paper, we first show how to compute Post-hoc Regret exactly for any optimization problem solvable by a recursive algorithm satisfying simple conditions. Experimentation demonstrates substantial improvement in the quality of solutions as compared to the earlier approximation approach. Furthermore, we show experimentally the empirical behavior of different combinations of correction and penalty functions used in the Post-hoc Regret of the same benchmarks. Results provide insights for defining the appropriate Post-hoc Regret in different application scenarios. | 翻訳日:2023-03-14 17:17:06 公開日:2023-03-12 |
# Traj-MAE:軌道予測のためのマスク付きオートエンコーダ Traj-MAE: Masked Autoencoders for Trajectory Prediction ( http://arxiv.org/abs/2303.06697v1 ) ライセンス: Link先を確認 | Hao Chen, Jiaze Wang, Kun Shao, Furui Liu, Jianye Hao, Chenyong Guan, Guangyong Chen and Pheng-Ann Heng | (参考訳) 軌道予測は、危険を予測して信頼性の高い自動運転システムを構築する上で重要な課題である。
鍵となる問題は、衝突することなく一貫した軌道予測を生成することである。
この課題を克服するために,運転環境におけるエージェントの複雑な挙動をよりよく表現する,軌道予測のための効率的なマスク付きオートエンコーダ(traj-mae)を提案する。
具体的には,軌道エンコーダとマップエンコーダの事前学習に多種多様なマスキング手法を用いており,複数の粒度から環境効果を活用しつつ,エージェント間の社会的・時間的情報を捕捉することができる。
複数のマスキング戦略でネットワークを事前学習する際に生じる破滅的な忘れの問題に対処するために,Traj-MAEが様々な戦略から有用かつ多様な情報を効率的に学習するのに役立つ連続的な事前学習フレームワークを導入する。
実験の結果,Traj-MAEは最先端手法と競合し,ベースラインモデルを大幅に上回る結果が得られた。 Trajectory prediction has been a crucial task in building a reliable autonomous driving system by anticipating possible dangers. One key issue is to generate consistent trajectory predictions without colliding. To overcome the challenge, we propose an efficient masked autoencoder for trajectory prediction (Traj-MAE) that better represents the complicated behaviors of agents in the driving environment. Specifically, our Traj-MAE employs diverse masking strategies to pre-train the trajectory encoder and map encoder, allowing for the capture of social and temporal information among agents while leveraging the effect of environment from multiple granularities. To address the catastrophic forgetting problem that arises when pre-training the network with multiple masking strategies, we introduce a continual pre-training framework, which can help Traj-MAE learn valuable and diverse information from various strategies efficiently. Our experimental results in both multi-agent and single-agent settings demonstrate that Traj-MAE achieves competitive results with state-of-the-art methods and significantly outperforms our baseline model. | 翻訳日:2023-03-14 17:16:50 公開日:2023-03-12 |
# 木復元ゲーム:強化学習を用いた系統再構築 The tree reconstruction game: phylogenetic reconstruction using reinforcement learning ( http://arxiv.org/abs/2303.06695v1 ) ライセンス: Link先を確認 | Dana Azouri, Oz Granit, Michael Alburquerque, Yishay Mansour, Tal Pupko and Itay Mayrose | (参考訳) 本研究では,系統樹の再構築に挑戦する強化学習アルゴリズムを提案する。
データを最もよく記述する木を探索することはアルゴリズム的に難しいため、現在の系統再構築のアルゴリズムはすべて様々なヒューリスティックを用いて実現可能である。
本研究では,最適な探索戦略を学習するために強化学習を用いることを実証し,最大木を予測するための新しいパラダイムを提供する。
提案手法では各ステップでの確率計算は必要とせず, 確率空間における上り坂移動に制限されない。
最大20配列のヌクレオチドアライメントによって定義された未知の環境上で, 未確認の実証データに対して, 開発した深部Q-ラーニングエージェントの使用を実証した。
その結果, 推定された系統の確率は, 広く使われているソフトウェアと類似していることがわかった。
したがって、各移動のみの進行を最適化するのではなく、探索空間内の一連の動きを最適化することが有益であるという概念実証が確立される。
これは,強化学習に基づく手法が系統形成に有望な方向性を与えることを示唆している。 We propose a reinforcement-learning algorithm to tackle the challenge of reconstructing phylogenetic trees. The search for the tree that best describes the data is algorithmically challenging, thus all current algorithms for phylogeny reconstruction use various heuristics to make it feasible. In this study, we demonstrate that reinforcement learning can be used to learn an optimal search strategy, thus providing a novel paradigm for predicting the maximum-likelihood tree. Our proposed method does not require likelihood calculation with every step, nor is it limited to greedy uphill moves in the likelihood space. We demonstrate the use of the developed deep-Q-learning agent on a set of unseen empirical data, namely, on unseen environments defined by nucleotide alignments of up to 20 sequences. Our results show that the likelihood scores of the inferred phylogenies are similar to those obtained from widely-used software. It thus establishes a proof-of-concept that it is beneficial to optimize a sequence of moves in the search-space, rather than optimizing the progress made in every single move only. This suggests that a reinforcement-learning based method provides a promising direction for phylogenetic reconstruction. | 翻訳日:2023-03-14 17:16:30 公開日:2023-03-12 |
# 概念モデリングと人工知能:体系的マッピング研究 Conceptual Modeling and Artificial Intelligence: A Systematic Mapping Study ( http://arxiv.org/abs/2303.06758v1 ) ライセンス: Link先を確認 | Dominik Bork and Syed Juned Ali and Ben Roelens | (参考訳) 概念モデリング(CM)では、人間は理解とコミュニケーションの手段として現実の抜粋を表現し、機械による処理を行う。
人工知能(AI)は、パターンの自動識別やエンティティの分類に大量のデータに適用される。
CMは理解しやすく明示的な知識表現を生成するが、AIアルゴリズムの結果はしばしばこれらの性質を欠いている。
近年,CMとAIの連携傾向が出現している。
本研究は,この学際研究分野がどのように構成され,相互利益は,学間研究と今後の研究の方向性によって得られるかを示す。 In conceptual modeling (CM), humans apply abstraction to represent excerpts of reality for means of understanding and communication, and processing by machines. Artificial Intelligence (AI) is applied to vast amounts of data to automatically identify patterns or classify entities. While CM produces comprehensible and explicit knowledge representations, the outcome of AI algorithms often lacks these qualities while being able to extract knowledge from large and unstructured representations. Recently, a trend toward intertwining CM and AI emerged. This systematic mapping study shows how this interdisciplinary research field is structured, which mutual benefits are gained by the intertwining, and future research directions. | 翻訳日:2023-03-14 17:10:10 公開日:2023-03-12 |
# 同周波数信号ポート、200mhz帯域、高ダイナミックレンジを有するジョセフソンパラメトリック循環器 Josephson parametric circulator with same-frequency signal ports, 200 MHz bandwidth, and high dynamic range ( http://arxiv.org/abs/2303.06757v1 ) ライセンス: Link先を確認 | Randy Kwende, Theodore White, Ofer Naaman | (参考訳) 2次chebyshevネットワークを用いて3ポートジョセフソンパラメトリック循環器を50オームに一致させた。
このデバイスは、同じ周波数で2つの信号ポートで動作し、単一の周波数で2つの相外ポンプのみを使用する。
その結果、アイソレータとして動作した場合、ポンプと信号の位相コヒーレンスを必要としないため、標準分散キュービット読み出し設定への統合要件が単純化される。
パラメトリック結合と高ダイナミックレンジを提供するrf-SQUIDアレイのバランスの取れたブリッジに基づいてパラメトリックカプラを利用する。
両ポンプ間の周波数と相対位相の関数として,その全3x3 S行列を計測して特徴付けする。
200MHzの信号帯域で最大15dBの非相互性、ポートマッチが10dB以上、挿入損失が0.6dB以下、飽和電力が-80dBm以上である。 We demonstrate a 3-port Josephson parametric circulator, matched to 50 Ohm using second order Chebyshev networks. The device notably operates with two of its signal ports at the same frequency and uses only two out-of-phase pumps at a single frequency. As a consequence, when operated as an isolator it does not require phase coherence between the pumps and the signal, thus simplifying the requirements for its integration into standard dispersive qubit readout setups. The device utilizes parametric couplers based on a balanced bridge of rf-SQUID arrays, which offer purely parametric coupling and high dynamic range. We characterize the device by measuring its full 3x3 S-matrix as a function of frequency and the relative phase between the two pumps. We find up to 15 dB nonreciprocity over a 200 MHz signal band, port match better than 10 dB, low insertion loss of 0.6 dB, and saturation power exceeding -80 dBm. | 翻訳日:2023-03-14 17:09:57 公開日:2023-03-12 |
# 部分分割多様体からの局所量子符号 Local Quantum Codes from Subdivided Manifolds ( http://arxiv.org/abs/2303.06755v1 ) ライセンス: Link先を確認 | Elia Portnoy | (参考訳) $n \ge 3$ に対して、$V$ qubits, distance $V^{\frac{n-1}{n}}$, and dimension $V^{\frac{n-2}{n}}$, to a $polylog(V)$ factor で局所的な量子符号の存在を示す。
距離はポリログ係数まで最適である。
この次元は、ポリログ係数までの距離に対しても最適である。
この証明は漸近的に良い量子符号の存在、フリードマン・ヘイスティングスによるコードから多様体を構築する手順、グロモフ・ガスによる定量的埋め込み定理を組み合わせる。 For $n \ge 3$, we demonstrate the existence of quantum codes which are local in dimension $n$ with $V$ qubits, distance $V^{\frac{n-1}{n}}$, and dimension $V^{\frac{n-2}{n}}$, up to a $polylog(V)$ factor. The distance is optimal up to the polylog factor. The dimension is also optimal for this distance up to the polylog factor. The proof combines the existence of asymptotically good quantum codes, a procedure to build a manifold from a code by Freedman-Hastings, and a quantitative embedding theorem by Gromov-Guth. | 翻訳日:2023-03-14 17:09:39 公開日:2023-03-12 |
# 署名リフティングによる量子プロクラステネータ保護 : 暗号通貨を事例として Protecting Quantum Procrastinators with Signature Lifting: A Case Study in Cryptocurrencies ( http://arxiv.org/abs/2303.06754v1 ) ライセンス: Link先を確認 | Or Sattath and Shai Wyborski | (参考訳) 広く使われている暗号スキームの量子脆弱性に対する現在の解決策は、量子攻撃が実現される前に、ユーザを量子後スキームに移行することである。
この作業では、量子プロクラシネータ(量子後暗号への移行に失敗したユーザ)を保護する。
デジタル署名の文脈でこの問題に対処するために、我々は、ある性質を満たすプリ量子署名スキームを同じ鍵を使用するポスト量子署名スキームに持ち上げる、シグネチャリフトと呼ばれる手法を導入する。
この性質は、秘密鍵から公開鍵を引き出すために、量子後片道関数が「途中で」使われるというものである。
署名解除の構成は、ポスト量子デジタル署名スキームPicnic(Chase et al., CCS'17)に大きく依存しています。
我々の主なケーススタディは暗号通貨であり、この性質は2つのシナリオで成り立っている: 公開キーが鍵デリバティブ関数を介して生成される場合、または公開キー自体の代わりに公開キーハッシュが投稿される場合。
我々は,量子敵の存在下において,量子以前のコインを安全に使用するための多くの暗号通貨に適用可能なシグネチャ昇降法に基づく修正を提案する。
ECDSA公開鍵が秘密にされている(特に、HDウォレットが生成したアドレスに格納されているすべてのコインを処理している)クエンタム以前の硬貨に限らず、また、取引の投稿のためにポストクエンタム硬貨へのアクセスや副支払いを必要としない。 Current solutions to quantum vulnerabilities of widely used cryptographic schemes involve migrating users to post-quantum schemes before quantum attacks become feasible. This work deals with protecting quantum procrastinators: users that failed to migrate to post-quantum cryptography in time. To address this problem in the context of digital signatures, we introduce a technique called signature lifting, that allows us to lift a deployed pre-quantum signature scheme satisfying a certain property to a post-quantum signature scheme that uses the same keys. Informally, the said property is that a post-quantum one-way function is used "somewhere along the way" to derive the public-key from the secret-key. Our constructions of signature lifting relies heavily on the post-quantum digital signature scheme Picnic (Chase et al., CCS'17). Our main case-study is cryptocurrencies, where this property holds in two scenarios: when the public-key is generated via a key-derivation function or when the public-key hash is posted instead of the public-key itself. We propose a modification, based on signature lifting, that can be applied in many cryptocurrencies for securely spending pre-quantum coins in presence of quantum adversaries. Our construction improves upon existing constructions in two major ways: it is not limited to pre-quantum coins whose ECDSA public-key has been kept secret (and in particular, it handles all coins that are stored in addresses generated by HD wallets), and it does not require access to post-quantum coins or using side payments to pay for posting the transaction. | 翻訳日:2023-03-14 17:09:24 公開日:2023-03-12 |
# 6次元物体ポーズ推定のためのモジュールワイズネットワーク量子化 Module-Wise Network Quantization for 6D Object Pose Estimation ( http://arxiv.org/abs/2303.06753v1 ) ライセンス: Link先を確認 | Saqib Javed, Andrew Price, Yinlin Hu, Mathieu Salzmann | (参考訳) コラボレーティブロボティクスや宇宙船ランデブーのような多くのエッジアプリケーションは、6dオブジェクトのポーズ推定の恩恵を受けるが、組み込みプラットフォームでそうしなければならない。
残念ながら、既存の6Dポーズ推定ネットワークは、そのような状況では配置するには大きすぎるため、信頼性を維持しながら圧縮されなければならない。
本研究では,そのようなネットワークを定量化する手法を提案する。
より正確には、一様かつ混合精度の量子化とは対照的に、典型的な6次元ポーズ推定フレームワークのモジュラ構造を考慮に入れたモジュール単位の量子化戦略を導入する。
これらのモジュールを一意に圧縮することは、均一かつ混合精度の量子化技術より優れていることを示す。
さらに,モジュールワイド量子化が精度向上につながることを示す実験を行った。
我々は,最新のZebraPoseを含む,異なるデータセット,量子化手法,ネットワークアーキテクチャを用いたアプローチの汎用性を示す。 Many edge applications, such as collaborative robotics and spacecraft rendezvous, can benefit from 6D object pose estimation, but must do so on embedded platforms. Unfortunately, existing 6D pose estimation networks are typically too large for deployment in such situations and must therefore be compressed, while maintaining reliable performance. In this work, we present an approach to doing so by quantizing such networks. More precisely, we introduce a module-wise quantization strategy that, in contrast to uniform and mixed-precision quantization, accounts for the modular structure of typical 6D pose estimation frameworks. We demonstrate that uniquely compressing these modules outperforms uniform and mixed-precision quantization techniques. Moreover, our experiments evidence that module-wise quantization can lead to a significant accuracy boost. We showcase the generality of our approach using different datasets, quantization methodologies, and network architectures, including the recent ZebraPose. | 翻訳日:2023-03-14 17:08:55 公開日:2023-03-12 |
# 補助符号化による画像再スケーリングの限界化 Raising The Limit Of Image Rescaling Using Auxiliary Encoding ( http://arxiv.org/abs/2303.06747v1 ) ライセンス: Link先を確認 | Chenzhong Yin, Zhihong Pan, Xin Zhou, Le Kang and Paul Bogdan | (参考訳) 潜在変数 $z$ の正規分布と高分解能 (hr) 画像の条件分布の変換を学習することにより, invertible neural network (inn) を用いた正規化フローモデルが広く研究され, 低分解能 (lr) 入力が得られた。
近年、IRNのような画像再スケーリングモデルでは、画像アップスケーリングのパフォーマンス限界を、ダウンスケーリングとアップスケーリングのステップを同時に最適化することで、INNの双方向性を活用している。
遅延変数$z$のランダムサンプリングは多彩なフォトリアリスティック画像を生成するのに有用であるが、HR画像の正確な復元がより重要である場合、画像再スケーリングには適さない。
そこで,z$をランダムにサンプリングする場合,画像再スケーリング性能の限界を押し上げるために,補助符号化モジュールを提案する。
既存の画像ファイルフォーマットで容易にサポートされているダウンスケールのLR画像に符号化された潜在変数を格納する2つのオプションを提案する。
1つはアルファチャネルとして保存され、もう1つはイメージヘッダ内のメタデータとして保存され、対応するモジュールはそれぞれ-aと-mと表記される。
IRN や DLV-IRN など,異なるベースラインモデルにおいて,再スケーリング性能の限界を高くする上での有効性を示すため,ネットワークアーキテクチャの最適変更について検討した。 Normalizing flow models using invertible neural networks (INN) have been widely investigated for successful generative image super-resolution (SR) by learning the transformation between the normal distribution of latent variable $z$ and the conditional distribution of high-resolution (HR) images gave a low-resolution (LR) input. Recently, image rescaling models like IRN utilize the bidirectional nature of INN to push the performance limit of image upscaling by optimizing the downscaling and upscaling steps jointly. While the random sampling of latent variable $z$ is useful in generating diverse photo-realistic images, it is not desirable for image rescaling when accurate restoration of the HR image is more important. Hence, in places of random sampling of $z$, we propose auxiliary encoding modules to further push the limit of image rescaling performance. Two options to store the encoded latent variables in downscaled LR images, both readily supported in existing image file format, are proposed. One is saved as the alpha-channel, the other is saved as meta-data in the image header, and the corresponding modules are denoted as suffixes -A and -M respectively. Optimal network architectural changes are investigated for both options to demonstrate their effectiveness in raising the rescaling performance limit on different baseline models including IRN and DLV-IRN. | 翻訳日:2023-03-14 17:08:40 公開日:2023-03-12 |
# 心エコー図における心筋梗塞検出のための心筋変位のアンサンブル学習 Ensemble Learning of Myocardial Displacements for Myocardial Infarction Detection in Echocardiography ( http://arxiv.org/abs/2303.06744v1 ) ライセンス: Link先を確認 | Nguyen Tuan, Phi Nguyen, Dai Tran, Hung Pham, Quang Nguyen, Thanh Le, Hanh Van, Bach Do, Phuong Tran, Vinh Le, Thuy Nguyen, Long Tran, Hieu Pham | (参考訳) 心筋梗塞 (mi) の早期発見と局在は, 経時的治療による心障害の重症度を低下させる。
近年,深層学習技術は心エコー画像におけるMIの検出を約束している。
しかし, セグメンテーション精度がMI分類性能に与える影響や, アンサンブル学習アプローチの潜在的なメリットについて検討はされていない。
本研究では,複数のセグメンテーションモデルの特徴を組み合わせて,アンサンブル学習を活用し,mi分類性能を向上させるロバストな手法を提案する。
本手法は,複数のセグメンテーションモデルからの心筋セグメント変位特性を組み合わせ,MIのリスクを推定するために典型的な分類器に入力する。
提案手法をベトナムの局所臨床現場から実施したhmc-quデータセット (109 echocardiograms) とe-hospitalデータセット (60 echocardiograms) の2つのデータセットで検証した。
モデル性能は精度,感度,特異性に基づいて評価した。
提案手法はmiの検出に優れた性能を示した。
その結果,提案手法は最先端の機能ベース手法よりも優れていた。
循環器科医や技術者が客観的評価を行い、作業者の主観性への依存度を減らすためのツールとして、臨床現場での使用可能性を決定するには、さらなる研究が必要である。
私たちの研究コードはgithubのhttps://github.com/vinuni-vishc/mi-detection-echoで入手できます。 Early detection and localization of myocardial infarction (MI) can reduce the severity of cardiac damage through timely treatment interventions. In recent years, deep learning techniques have shown promise for detecting MI in echocardiographic images. However, there has been no examination of how segmentation accuracy affects MI classification performance and the potential benefits of using ensemble learning approaches. Our study investigates this relationship and introduces a robust method that combines features from multiple segmentation models to improve MI classification performance by leveraging ensemble learning. Our method combines myocardial segment displacement features from multiple segmentation models, which are then input into a typical classifier to estimate the risk of MI. We validated the proposed approach on two datasets: the public HMC-QU dataset (109 echocardiograms) for training and validation, and an E-Hospital dataset (60 echocardiograms) from a local clinical site in Vietnam for independent testing. Model performance was evaluated based on accuracy, sensitivity, and specificity. The proposed approach demonstrated excellent performance in detecting MI. The results showed that the proposed approach outperformed the state-of-the-art feature-based method. Further research is necessary to determine its potential use in clinical settings as a tool to assist cardiologists and technicians with objective assessments and reduce dependence on operator subjectivity. Our research codes are available on GitHub at https://github.com/vinuni-vishc/mi-detection-echo. | 翻訳日:2023-03-14 17:08:14 公開日:2023-03-12 |
# 音声自己監督モデルを用いた高速推論のための微調整手法の比較研究 Fine-tuning Strategies for Faster Inference using Speech Self-Supervised Models: A Comparative Study ( http://arxiv.org/abs/2303.06740v1 ) ライセンス: Link先を確認 | Salah Zaiem, Robin Algayres, Titouan Parcollet, Slim Essid and Mirco Ravanelli | (参考訳) 自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この文脈では、下流のasrエラー率を下げるために、より大きな自己教師付き特徴抽出器が重要であることが示されている。
したがって、より長い推測でより良いパフォーマンスが認められるかもしれない。
この記事では、SSLエンコーダに必要な計算量を削減し、高速な推論を実現するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
我々は、多くの既存のテクニックを共通のASR設定に適応させ、それらをベンチマークし、性能低下と推論時間の増加を示す。
興味深いことに、十分な下流データを与えると、入力シーケンスの単純なダウンサンプリングが、低いパフォーマンス低下と高い計算節約の両方で他の方法よりも優れ、計算量は61.3%減少し、わずか 0.81 に増加した。
最後に,データセットの条件変化に対するロバスト性を分析し,データセットサイズに対する感度を明らかにする。 Self-supervised learning (SSL) has allowed substantial progress in Automatic Speech Recognition (ASR) performance in low-resource settings. In this context, it has been demonstrated that larger self-supervised feature extractors are crucial for achieving lower downstream ASR error rates. Thus, better performance might be sanctioned with longer inferences. This article explores different approaches that may be deployed during the fine-tuning to reduce the computations needed in the SSL encoder, leading to faster inferences. We adapt a number of existing techniques to common ASR settings and benchmark them, displaying performance drops and gains in inference times. Interestingly, we found that given enough downstream data, a simple downsampling of the input sequences outperforms the other methods with both low performance drops and high computational savings, reducing computations by 61.3% with an WER increase of only 0.81. Finally, we analyze the robustness of the comparison to changes in dataset conditions, revealing sensitivity to dataset size. | 翻訳日:2023-03-14 17:07:50 公開日:2023-03-12 |
# Swin Transformer と Saliency Map を用いた内視鏡分類モデル Endoscopy Classification Model Using Swin Transformer and Saliency Map ( http://arxiv.org/abs/2303.06736v1 ) ライセンス: Link先を確認 | Zahra Sobhaninia, Nasrin Abharian, Nader Karimi, Shahram Shirani, Shadrokh Samavi | (参考訳) 内視鏡検査は大腸癌の早期診断に有用である。
しかし、それは内科医の専門知識を必要とし、時間を要するプロセスである。
本研究では,内視鏡画像分類における学習手法(ローカル・グローバル・ビュー)の2つの側面を考察した,新しいマルチラベル分類手法を提案する。
このモデルはswainトランスフォーマーブランチとcnnブランチとして改良されたvgg16モデルで構成されている。
cnnブランチの学習プロセスを支援するために、モデルは塩分マップと内視鏡画像を採用し、それらを結合する。
本手法は,局所的および大域的特徴を活かし,内視鏡的医用画像に対して良好に機能することを示す。
さらに,提案手法が最先端技術よりも優れていることを示す定量的評価を行った。 Endoscopy is a valuable tool for the early diagnosis of colon cancer. However, it requires the expertise of endoscopists and is a time-consuming process. In this work, we propose a new multi-label classification method, which considers two aspects of learning approaches (local and global views) for endoscopic image classification. The model consists of a Swin transformer branch and a modified VGG16 model as a CNN branch. To help the learning process of the CNN branch, the model employs saliency maps and endoscopy images and concatenates them. The results demonstrate that this method performed well for endoscopic medical images by utilizing local and global features of the images. Furthermore, quantitative evaluations prove the proposed method's superiority over state-of-the-art works. | 翻訳日:2023-03-14 17:07:33 公開日:2023-03-12 |
# WSI登録による既存のアノテーションの有用性の向上 Increasing the usefulness of already existing annotations through WSI registration ( http://arxiv.org/abs/2303.06727v1 ) ライセンス: Link先を確認 | Philippe Weitz, Viktoria Sartor, Balazs Acs, Stephanie Robertson, Daniel Budelmann, Johan Hartman, Mattias Rantalainen | (参考訳) 計算病理学の手法は、病的診断の再現性と精度と同様に、精密医療へのアクセスを改善する可能性がある。
特に免疫組織化学的(ihc)染色組織切片の全スライド像(wsis)の解析は,計算病理学的手法の恩恵を受けることができた。
しかし、IHC WSIsにおけるKI67などのバイオマーカーの評価は、しばしば浸潤癌の領域の検出を必要とする。
がん検出モデルの訓練には、しばしばアノテーションが必要である。
現在、がん領域は、通常、ヘマトキシリンとエオシン(H&E)染色組織セクションのWSIにアノテートされている。
本研究では,H&E の WSI で作成されたアノテーションを IHC に登録する可能性を検討する。
2人の病理学者が272人の乳癌症例のwsisに浸潤癌の領域を注記した。
いずれの場合も、一致したH&EとKI67 WSIが利用可能であり、544 WSIに浸潤性癌アノテーションがある。
54例からなる検査セットにおいて、h&eからki67 wsisに登録されたアノテーションで訓練された癌検出cnnは、キャリブレーションにおいてわずかに異なるが、ki67 wsisで直接作成したアノテーションで訓練された癌検出モデルに比べ、性能に差がないことが判明した。
ki67アノテーションでトレーニングされたモデルの平均スライドレベルaurocは0.974 [0.964, 0.982]、登録アノテーションでトレーニングされたモデルでは0.974 [0.965, 0.982]である。
これは、wsi 登録が ihc 固有のアノテーションの必要性を減らす可能性があることを示している。
これにより、既存のアノテーションの有用性が大幅に向上する可能性がある。 Computational pathology methods have the potential to improve access to precision medicine, as well as the reproducibility and accuracy of pathological diagnoses. Particularly the analysis of whole-slide-images (WSIs) of immunohistochemically (IHC) stained tissue sections could benefit from computational pathology methods. However, scoring biomarkers such as KI67 in IHC WSIs often necessitates the detection of areas of invasive cancer. Training cancer detection models often requires annotations, which is time-consuming and therefore costly. Currently, cancer regions are typically annotated in WSIs of haematoxylin and eosin (H&E) stained tissue sections. In this study, we investigate the possibility to register annotations that were made in H&E WSIs to their IHC counterparts. Two pathologists annotated regions of invasive cancer in WSIs of 272 breast cancer cases. For each case, a matched H&E and KI67 WSI are available, resulting in 544 WSIs with invasive cancer annotations. We find that cancer detection CNNs that were trained with annotations registered from the H&E to the KI67 WSIs only differ slightly in calibration but not in performance compared to cancer detection models trained on annotations made directly in the KI67 WSIs in a test set consisting of 54 cases. The mean slide-level AUROC is 0.974 [0.964, 0.982] for models trained with the KI67 annotations and 0.974 [0.965, 0.982] for models trained using registered annotations. This indicates that WSI registration has the potential to reduce the need for IHC-specific annotations. This could significantly increase the usefulness of already existing annotations. | 翻訳日:2023-03-14 17:07:21 公開日:2023-03-12 |
# 医用画像におけるランドマーク定位のための非同期分散フェデレーション生涯学習 Asynchronous Decentralized Federated Lifelong Learning for Landmark Localization in Medical Imaging ( http://arxiv.org/abs/2303.06783v1 ) ライセンス: Link先を確認 | Guangyao Zheng, Michael A. Jacobs, Vladimir Braverman, and Vishwa S. Parekh | (参考訳) フェデレーテッド・ラーニング(Federated Learning)は、機械学習分野における最近の開発で、デバイスが単一の場所やデバイスにデータを共有することなく、1つ以上のタスクでトレーニングすることができる。
しかし、このフレームワークでは、個々のモデルを1つに統合するために集中型グローバルモデルが必要であり、デバイスは同期的にトレーニングされる。
本稿では,分散学習の利点を継承し,集中ノードや同期トレーニングを必要とせず,複数のタスクを同時に学習できる非同期分散型一貫型生涯学習(ADFLL)手法を提案する。
したがって、従来の連合学習の潜在的な欠点を克服する。
脳腫瘍分画(brats)データセットにおいて、左室を複数の画像配列と画像配向に局在させる優れた性能を示す。
本フレームワークでは, 平均距離誤差7.81, 従来の全知識エージェントの平均距離誤差11.78, 従来の生涯学習エージェントよりも有意に(p=0.01), 8ラウンドのトレーニングで15.17の精度で, 平均距離誤差7.81を達成できる。
さらに、全てのAFFLLエージェントは従来のLLエージェントと同等または優れたパフォーマンスを持つ。
その結果,従来のRLエージェントと比較して性能と高速化に優れたAFDLLフレームワークを開発した。 Federated learning is a recent development in the machine learning area that allows a system of devices to train on one or more tasks without sharing their data to a single location or device. However, this framework still requires a centralized global model to consolidate individual models into one, and the devices train synchronously, which both can be potential bottlenecks for using federated learning. In this paper, we propose a novel method of asynchronous decentralized federated lifelong learning (ADFLL) method that inherits the merits of federated learning and can train on multiple tasks simultaneously without the need for a central node or synchronous training. Thus, overcoming the potential drawbacks of conventional federated learning. We demonstrate excellent performance on the brain tumor segmentation (BRATS) dataset for localizing the left ventricle on multiple image sequences and image orientation. Our framework allows agents to achieve the best performance with a mean distance error of 7.81, better than the conventional all-knowing agent's mean distance error of 11.78, and significantly (p=0.01) better than a conventional lifelong learning agent with a distance error of 15.17 after eight rounds of training. In addition, all ADFLL agents have comparable or better performance than a conventional LL agent. In conclusion, we developed an ADFLL framework with excellent performance and speed-up compared to conventional RL agents. | 翻訳日:2023-03-14 17:00:05 公開日:2023-03-12 |
# AidUI:ユーザインタフェースにおけるダークパターンの自動認識を目指して AidUI: Toward Automated Recognition of Dark Patterns in User Interfaces ( http://arxiv.org/abs/2303.06782v1 ) ライセンス: Link先を確認 | SM Hasan Mansur and Sabiha Salma and Damilola Awofisayo and Kevin Moran | (参考訳) 過去の研究では、uiダークパターン、あるいはエンドユーザが意図していなかったアクションを(知らないうちに)受け取ることができるユーザインターフェースの普及が示されている。
このような偽りのUIデザインは、個人情報の共有や財務損失などエンドユーザーに悪影響を及ぼす可能性がある。
ダークパターン分類法の開発に向けて大きな研究が進められているが、開発者とユーザは、これらの微妙なデザインモチーフを認識し、回避し、ナビゲートするためのガイダンスを現在欠いている。
しかしながら、暗いパターンの自動認識は難しい作業であり、単一のタイプのパターンのインスタンス化には多くの形式が必要になるため、大きな変動が生じる。
本稿では,現代のソフトウェアアプリケーションにおいて,一般的なUIのダークパターンが認識される範囲を理解するための第一歩を踏み出す。
これを実現するために,コンピュータビジョンと自然言語処理技術を用いた新しい自動化アプローチであるAidUIを導入し,アプリケーションスクリーンショット中の視覚的およびテキスト的手がかりのセットを認識し,その検出,分類,ローカライゼーションを可能にする。
このアプローチを評価するために、私たちはContextDPを構築しました。これは、モバイル175と301のダークパターンインスタンスを含む83のWeb UIスクリーンショットにまたがる、完全にローカライズされたUIダークパターンの現在の最大のデータセットです。
その結果,<AidUI</A>は0.66の精度,0.67のリコール,0.65のF1スコア,偽陽性の報告は少なく,IoUスコア~0.84で検出されたパターンをローカライズできることがわかった。
さらに、研究した暗黒パターンのかなりのサブセット(f1スコアが0.02以上)をかなり確実に検出することができ、今後の研究方向により追加パターンの検出が改善される可能性がある。 Past studies have illustrated the prevalence of UI dark patterns, or user interfaces that can lead end-users toward (unknowingly) taking actions that they may not have intended. Such deceptive UI designs can result in adverse effects on end users, such as oversharing personal information or financial loss. While significant research progress has been made toward the development of dark pattern taxonomies, developers and users currently lack guidance to help recognize, avoid, and navigate these often subtle design motifs. However, automated recognition of dark patterns is a challenging task, as the instantiation of a single type of pattern can take many forms, leading to significant variability. In this paper, we take the first step toward understanding the extent to which common UI dark patterns can be automatically recognized in modern software applications. To do this, we introduce AidUI, a novel automated approach that uses computer vision and natural language processing techniques to recognize a set of visual and textual cues in application screenshots that signify the presence of ten unique UI dark patterns, allowing for their detection, classification, and localization. To evaluate our approach, we have constructed ContextDP, the current largest dataset of fully-localized UI dark patterns that spans 175 mobile and 83 web UI screenshots containing 301 dark pattern instances. The results of our evaluation illustrate that \AidUI achieves an overall precision of 0.66, recall of 0.67, F1-score of 0.65 in detecting dark pattern instances, reports few false positives, and is able to localize detected patterns with an IoU score of ~0.84. Furthermore, a significant subset of our studied dark patterns can be detected quite reliably (F1 score of over 0.82), and future research directions may allow for improved detection of additional patterns. | 翻訳日:2023-03-14 16:59:41 公開日:2023-03-12 |
# マルチプレイヤーゲーム「はなび」におけるアドホックチーム協力の鍵となる行動差 Behavioral Differences is the Key of Ad-hoc Team Cooperation in Multiplayer Games Hanabi ( http://arxiv.org/abs/2303.06775v1 ) ライセンス: Link先を確認 | Hyeonchang Jeon and Kyung-Joong Kim | (参考訳) アドホックなチーム協力は、学習プロセスで見られていない他のプレイヤーと協力する問題である。
近年,他の選手との明示的なコミュニケーションを伴わずに協力する必要があるハナビの文脈において,この問題が検討されている。
強化学習(RL)プロセスに協力するセルフプレイ戦略は成功しているが、初期学習が完了すると、他の未確認エージェントと協力することができないという問題がある。
本稿では, アドホックなチームコラボレーションの結果を, 失敗, 成功, シナジーに分類し, 関連する失敗を分析した。
まず、RLを介して学習するエージェントは、それぞれ一つの戦略に収束するが、必ずしも同じ戦略ではなく、同じハイパーパラメータを使っても異なる戦略を展開できることを確認する。
第2に,行動の違いが大きいほど,階層的クラスタリングとピアソン相関を用いて実証したように,アドホックなチーム連携の失敗が顕著であることを確認した。
これらのエージェントは階層的クラスタリングによって異なるグループにグループ化されており、行動の違いとアドホックなチームパフォーマンスの相関関係は-0.978である。
本研究は,マルチプレイヤーゲームにおけるアドホックチームの協力を成功させるための重要な要因の理解を深める。 Ad-hoc team cooperation is the problem of cooperating with other players that have not been seen in the learning process. Recently, this problem has been considered in the context of Hanabi, which requires cooperation without explicit communication with the other players. While in self-play strategies cooperating on reinforcement learning (RL) process has shown success, there is the problem of failing to cooperate with other unseen agents after the initial learning is completed. In this paper, we categorize the results of ad-hoc team cooperation into Failure, Success, and Synergy and analyze the associated failures. First, we confirm that agents learning via RL converge to one strategy each, but not necessarily the same strategy and that these agents can deploy different strategies even though they utilize the same hyperparameters. Second, we confirm that the larger the behavioral difference, the more pronounced the failure of ad-hoc team cooperation, as demonstrated using hierarchical clustering and Pearson correlation. We confirm that such agents are grouped into distinctly different groups through hierarchical clustering, such that the correlation between behavioral differences and ad-hoc team performance is -0.978. Our results improve understanding of key factors to form successful ad-hoc team cooperation in multi-player games. | 翻訳日:2023-03-14 16:59:08 公開日:2023-03-12 |
# 自由空間光チャネルにおける古典量子信号の保護 Protecting Classical-Quantum Signals in Free Space Optical Channels ( http://arxiv.org/abs/2303.06773v1 ) ライセンス: Link先を確認 | E. Villase\~nor, M. S. Winnel, T. C. Ralph, R. Aguinaldo, J. Green, and R. Malaney | (参考訳) 乱れと追跡エラーにより、移動体トランシーバーを含む自由空間光学チャネルは信号の部分的損失または完全消去によって特徴づけられる。
本研究は、これらのチャネルを通過する信号を保護するための誤り訂正プロトコルを、アンシリーエンタングルド二部体状態で符号化する。
現実的チャネル条件下で保護を提供する能力の他に、我々のプロトコルには、エンコードされた信号の古典的情報と量子的情報の両方を包含する能力があります。
提案手法は,非符号化の直接伝送に対して,広範囲な損失と確率の消去に対して,送信されたコヒーレント状態の忠実性を改善する方法を示す。
さらに、信号符号化におけるアンシリー非ガウスエンタングルドバイパルタイト状態の使用を考慮し、これがいかに性能を高めるかを示す。
最後に,マルチモードの絡み合った状態など,より複雑な入力状態の伝送に対するプロトコルの適用について簡単に述べる。 Due to turbulence and tracking errors, free-space optical channels involving mobile transceivers are characterized by a signal's partial loss or complete erasure. This work presents an error correction protocol capable of protecting a signal passing through such channels by encoding it with an ancillary entangled bipartite state. Beyond its ability to offer protection under realistic channel conditions, novel to our protocol is its ability to encompass both classical and quantum information on the encoded signal. We show how, relative to non-encoded direct transmission, the protocol can improve the fidelity of transmitted coherent states over a wide range of losses and erasure probabilities. In addition, the use of ancillary non-Gaussian entangled bipartite states in the signal encoding is considered, showing how this can increase performance. Finally, we briefly discuss the application of our protocol to the transmission of more complex input states, such as multi-mode entangled states. | 翻訳日:2023-03-14 16:58:45 公開日:2023-03-12 |
# ステップ依存コインで2d$のローカライズを探求 Exploring $2d$ localization with a step dependent coin ( http://arxiv.org/abs/2303.06769v1 ) ライセンス: Link先を確認 | Kallol Sen | (参考訳) コイン演算子である \cite{zahed_2023} を一般化し、2d$ でローカライズを誘導するステップ依存の特徴を含む。
これは、局所化された歩行の分類にさらに使用できる確率分布から明らかである。
局所化はエントロピー測度からも明らかである。
3つの異なる尺度を計算し比較し
(a)位置と硬貨空間におけるシャノンエントロピー
(b)位置とスピン空間の間の絡み合いエントロピー、
c) ステップ依存の密度演算子のPOVMであり、独立したコインをステップする量子相対エントロピー。
シャノンエントロピーとエンタングルメントエントロピーは時間ステップの周期的および有界な関数である。
シャノンの零点とエンタングルメントエントロピーは波動関数の完全な局在を示す。
量子相対エントロピーと量子情報バリアンスは、ステップ依存とステップ独立ウォークが一致するゼロミニマを持つ同様の周期的特徴を示す。
最後に、ステップ依存コインをエネルギーの関数として数値的な局所化長(リアプノフ指数の逆)を計算し、近似摂動計算と比較し、ステップ依存コインをステップ依存コインの背景に摂動として配置する。
いずれの場合においても、局在長は運動量空間のほぼ同じ位置でピークとなる。 We generalize the coin operator of \cite{Zahed_2023}, to include a step dependent feature which induces localization in $2d$. This is evident from the probability distributions which can be further used to categorize the localized walks. Localization is also evident from the entropic measures. We compute and compare three distinct measures (a) Shannon Entropy in the position and coin space, (b) Entanglement entropy between position and spin space, and (c) Quantum Relative Entropy which is a POVM of density operators of the step dependent and step independent coins. Shannon Entropy and Entanglement Entropy are periodic and bounded functions of the time steps. The zeros of Shannon and Entanglement entropies signify a complete localization of the wave-function. The Quantum Relative Entropy and Quantum Information Variance exhibit a similar periodic feature with a zero minima where the step dependent and step independent walks coincide. Finally, we compute the numerical localization length (inverse of the Lyapunov Exponent) for the step dependent coin as a function of energy and compare with an approximate perturbative computation, where we put the step dependent coin as a perturbation in the background of a step independent coin. In both the instances, we find that the localization length peaks at approximately the same positions in the momentum space. | 翻訳日:2023-03-14 16:58:30 公開日:2023-03-12 |
# planner最適化問題:定式化とフレームワーク The Planner Optimization Problem: Formulations and Frameworks ( http://arxiv.org/abs/2303.06768v1 ) ライセンス: Link先を確認 | Yiyuan Lee, Katie Lee, David Hsu, Panpan Cai, Lydia E. Kavraki | (参考訳) プランナーのパフォーマンスを最大化するためには、計画のための内部パラメータを特定することが重要です。
しかし、問題インスタンスで条件付けられた内部パラメータの自動チューニングは、特に難しい。
最近の作業は、計画パラメータジェネレータの学習に焦点を当てているが、一貫した問題定義とソフトウェアフレームワークが欠けている。
本研究では,これらの問題を再利用可能な方法で特定・解決するための拡張性の高いソフトウェアフレームワークであるOpen Planner Optimization Framework(OPOF)とともに,統一プランナー最適化問題(POP)の定式化を提案する。 Identifying internal parameters for planning is crucial to maximizing the performance of a planner. However, automatically tuning internal parameters which are conditioned on the problem instance is especially challenging. A recent line of work focuses on learning planning parameter generators, but lack a consistent problem definition and software framework. This work proposes the unified planner optimization problem (POP) formulation, along with the Open Planner Optimization Framework (OPOF), a highly extensible software framework to specify and to solve these problems in a reusable manner. | 翻訳日:2023-03-14 16:58:08 公開日:2023-03-12 |