このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230329となっている論文です。

PDF登録状況(公開日: 20230329)

TitleAuthorsAbstract論文公表日・翻訳日
# FLCC: CSMA/CAによるIoMTの効率的な分散フェデレーション学習

FLCC: Efficient Distributed Federated Learning on IoMT over CSMA/CA ( http://arxiv.org/abs/2304.13549v1 )

ライセンス: Link先を確認
Abdelaziz Salama, Syed Ali Zaidi, Des McLernon, Mohammed M. H. Qazzaz(参考訳) federated learning(fl)は、プライバシ保護の有望なアプローチとして登場し、生のローカルデータではなく、ユーザとクラウドサーバ間のモデルパラメータの共有を可能にする。 FLアプローチは、いくつかの複雑なユースケースを解決するために、分散機械学習(ML)の基盤として採用されている。 FLは、分散無線ノード上で実装された通信とML性能の興味深い相互作用を示す。 ネットワークと学習のダイナミクスはどちらも重要な役割を担います。 本稿では,CSMA/CAを用いて送信をスケジュールするアドホックネットワーク上で,遠隔医療システムを改善するアプリケーションにおけるFLの性能について検討する。 我々のFL over CSMA/CA(FLCC)モデルは、無線ネットワークにおけるFLの分散実装の調整に必要なスループットを改善するために、信頼できないデバイスを排除し、周波数再利用と空間クラスタリング技術を活用するように設計されている。 提案モデルでは,仮想セルを用いた空間クラスタリングに基づいて周波数割り当てを行う。 各セルはFLサーバと専用キャリア周波数を割り当て、更新されたモデルのパラメータをセル内で交換する。 ネットワーク性能を評価するための2つの指標を示す。 1)干渉を最小限に抑えながら伝送を成功させる可能性、及び 2)ネットワークのダイナミクスを考慮した分散FLモデルの性能について検討した。 提案手法を,よく知られたMNISTデータセットを用いて評価を行った。 提案手法は,選択したユーザの基準を明示的に定義し,ロバストネットワークにおいて高い精度を達成するという点で,ベースラインflアルゴリズムよりも優れていることを示す。

Federated Learning (FL) has emerged as a promising approach for privacy preservation, allowing sharing of the model parameters between users and the cloud server rather than the raw local data. FL approaches have been adopted as a cornerstone of distributed machine learning (ML) to solve several complex use cases. FL presents an interesting interplay between communication and ML performance when implemented over distributed wireless nodes. Both the dynamics of networking and learning play an important role. In this article, we investigate the performance of FL on an application that might be used to improve a remote healthcare system over ad hoc networks which employ CSMA/CA to schedule its transmissions. Our FL over CSMA/CA (FLCC) model is designed to eliminate untrusted devices and harness frequency reuse and spatial clustering techniques to improve the throughput required for coordinating a distributed implementation of FL in the wireless network. In our proposed model, frequency allocation is performed on the basis of spatial clustering performed using virtual cells. Each cell assigns a FL server and dedicated carrier frequencies to exchange the updated model's parameters within the cell. We present two metrics to evaluate the network performance: 1) probability of successful transmission while minimizing the interference, and 2) performance of distributed FL model in terms of accuracy and loss while considering the networking dynamics. We benchmark the proposed approach using a well-known MNIST dataset for performance evaluation. We demonstrate that the proposed approach outperforms the baseline FL algorithms in terms of explicitly defining the chosen users' criteria and achieving high accuracy in a robust network.
翻訳日:2023-04-30 07:21:20 公開日:2023-03-29
# バックプロパゲーションとF結合

Backpropagation and F-adjoint ( http://arxiv.org/abs/2304.13820v1 )

ライセンス: Link先を確認
Ahmed Boughammoura(参考訳) 本稿では,深層ニューラルネットワーク(dnn)のモデル重み学習訓練において,フィードフォワードとフォワードの両方の伝播過程を研究するための簡潔な数学的枠組みを提案する。 著者が \cite{bougham2023} で示したバックプロパゲーションの2段階ルールの概念から着想を得て、バックプロパゲーションプロセスのより良い記述を目的としたF-アジョイントの概念を定義する。 特に、ディープニューラルネットワークアーキテクチャに関するF-プロパゲーションとF-アジョイントの概念を導入することにより、コスト/ロス関数に関連するバックプロパゲーションは、コスト関数の入力に関する部分微分に対して対応するF-パーパゲーションのF-アジョイントによって完全に特徴づけられることが証明される。

This paper presents a concise mathematical framework for investigating both feed-forward and backward propagation processes, during the training to learn model weights, of a deep neural network (DNN). Inspired from the idea of the two-step rule for back-propagation, presented by the author in \cite{bougham2023}, we define a notion of F-adjoint which is aimed at a better description of the backprpagation process. In particular, by introducing the notions of F-propagation and F-adjoint with respect to any deep neural network architecture, the backpropagation associated to any cost/loss function is proven to be completely characterized by the F-adjoint of the corresponding F-parpagation relatively to the partial derivative, with respect to the inputs, of the cost function.
翻訳日:2023-04-30 07:10:44 公開日:2023-03-29
# 科学の疑問:ChatGPTと複雑なシステムについて会話する

Questions of science: chatting with ChatGPT about complex systems ( http://arxiv.org/abs/2303.16870v1 )

ライセンス: Link先を確認
Nuno Crokidakis, Marcio Argollo de Menezes and Daniel O. Cajueiro(参考訳) 本稿では,コミュニティの理解の表現としてChatGPTを用いた複雑なシステム分野の概要を紹介する。 ChatGPTは、インターネットテキストの大きなデータセットから言語パターンとスタイルを学び、コミュニティで見られる共通の意見、アイデア、言語パターンを反映した回答を提供する。 私たちの調査は、教育と学習の両方、および研究トピックをカバーしています。 コミュニティのアイデアの源泉としてChatGPTの価値を認識している。

We present an overview of the complex systems field using ChatGPT as a representation of the community's understanding. ChatGPT has learned language patterns and styles from a large dataset of internet texts, allowing it to provide answers that reflect common opinions, ideas, and language patterns found in the community. Our exploration covers both teaching and learning, and research topics. We recognize the value of ChatGPT as a source for the community's ideas.
翻訳日:2023-04-16 22:40:23 公開日:2023-03-29
# deephive:swarmベースの最適化ポリシの自動発見のためのマルチエージェント強化学習アプローチ

DeepHive: A multi-agent reinforcement learning approach for automated discovery of swarm-based optimization policies ( http://arxiv.org/abs/2304.04751v1 )

ライセンス: Link先を確認
Eloghosa Ikponmwoba and Ope Owoyele(参考訳) 本稿では,高価なブラックボックス関数のグローバル最適化のためのSwarmベースの最適化設計手法を提案する。 提案手法では,効率的な最適化器の探索は強化学習の問題であり,その目的はグローバルな最適化に収束するために少数の関数評価を必要とする最適化ポリシーを見つけることである。 Swarm内の各エージェントの状態は、その現在の位置と設計空間内の関数値として定義され、エージェントは、目的関数の最終値に基づいて、報酬を最大化する好ましいアクションを取ることを学習する。 提案手法は様々なベンチマーク最適化関数上でテストされ、他のグローバル最適化手法の性能と比較される。 さらに, エージェント数を変化させる効果と, 訓練したエージェントの一般化能力について検討した。 その結果、他のオプティマイザよりも優れた性能を示し、エージェントの数が異なる場合の所望のスケーリング、そして、目に見えない関数に適用しても許容できる性能を示した。 より広いスケールで、結果はドメイン固有のオプティマイザの迅速な開発に期待を示しています。

We present an approach for designing swarm-based optimizers for the global optimization of expensive black-box functions. In the proposed approach, the problem of finding efficient optimizers is framed as a reinforcement learning problem, where the goal is to find optimization policies that require a few function evaluations to converge to the global optimum. The state of each agent within the swarm is defined as its current position and function value within a design space and the agents learn to take favorable actions that maximize reward, which is based on the final value of the objective function. The proposed approach is tested on various benchmark optimization functions and compared to the performance of other global optimization strategies. Furthermore, the effect of changing the number of agents, as well as the generalization capabilities of the trained agents are investigated. The results show superior performance compared to the other optimizers, desired scaling when the number of agents is varied, and acceptable performance even when applied to unseen functions. On a broader scale, the results show promise for the rapid development of domain-specific optimizers.
翻訳日:2023-04-16 22:25:01 公開日:2023-03-29
# 低忠実度データの精度向上のための数ショットグラフラプラシアンに基づくアプローチ

A few-shot graph Laplacian-based approach for improving the accuracy of low-fidelity data ( http://arxiv.org/abs/2304.04862v1 )

ライセンス: Link先を確認
Orazio Pinti and Assad A. Oberai(参考訳) 低忠実度データは一般的に安価に生成できるが不正確である。 一方、高忠実度データは正確だが入手には高価である。 多重忠実度法は、少数の高忠実度データを用いて、大規模な低忠実度データの精度を高める。 本稿では,低忠実度データを用いてグラフラプラシアンを構築し,その低階層スペクトルを計算する手法を提案する。 このスペクトルは、データをクラスタ化し、クラスタのcentroidに最も近いポイントを識別するために使用される。 そして、これらのキーポイントに対して高忠実度データを取得する。 その後、各低忠実度データ点を両忠実度データ点にマッピングする変換は、鍵点における両忠実度データと高忠実度データとの差を最小限に抑え、低忠実度データ分布の基盤構造を維持することにより決定される。 後者の目標は、グラフラプラシアンのスペクトル特性に再び依存することで達成される。 この方法は固体力学における問題と空気力学における問題に適用される。 どちらの場合も、この方法は少数の高忠実度データを用いて、大規模な低忠実度データの精度を大幅に向上させる。

Low-fidelity data is typically inexpensive to generate but inaccurate. On the other hand, high-fidelity data is accurate but expensive to obtain. Multi-fidelity methods use a small set of high-fidelity data to enhance the accuracy of a large set of low-fidelity data. In the approach described in this paper, this is accomplished by constructing a graph Laplacian using the low-fidelity data and computing its low-lying spectrum. This spectrum is then used to cluster the data and identify points that are closest to the centroids of the clusters. High-fidelity data is then acquired for these key points. Thereafter, a transformation that maps every low-fidelity data point to its bi-fidelity counterpart is determined by minimizing the discrepancy between the bi- and high-fidelity data at the key points, and to preserve the underlying structure of the low-fidelity data distribution. The latter objective is achieved by relying, once again, on the spectral properties of the graph Laplacian. This method is applied to a problem in solid mechanics and another in aerodynamics. In both cases, this methods uses a small fraction of high-fidelity data to significantly improve the accuracy of a large set of low-fidelity data.
翻訳日:2023-04-16 22:14:56 公開日:2023-03-29
# 画像生成モデルの定性的故障とディープフェイク検出への応用

Qualitative Failures of Image Generation Models and Their Application in Detecting Deepfakes ( http://arxiv.org/abs/2304.06470v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) 画像生成モデルと映像生成モデルがフォトリアリスティックな画像を作成する能力は前代未聞の高さに達しており、実像と偽像を区別することは多くの場合困難である。 しかし、この進歩にもかかわらず、生成した画像の品質と現実世界に見られるものとの間にはギャップが残っている。 そこで本稿では,画像生成モデルにおける質的欠点を5つのカテゴリに分類し,学術出版物とソーシャルメディアの双方から膨大な文献をレビューした。 これらの失敗を理解することによって、これらのモデルの改善が必要な領域を特定し、深い偽物を検出する戦略を開発することができる。 今日の社会におけるディープフェイクの流行は深刻な懸念であり、我々の発見は彼らのネガティブな影響を軽減するのに役立つ。

The ability of image and video generation models to create photorealistic images has reached unprecedented heights, making it difficult to distinguish between real and fake images in many cases. However, despite this progress, a gap remains between the quality of generated images and those found in the real world. To address this, we have reviewed a vast body of literature from both academic publications and social media to identify qualitative shortcomings in image generation models, which we have classified into five categories. By understanding these failures, we can identify areas where these models need improvement, as well as develop strategies for detecting deep fakes. The prevalence of deep fakes in today's society is a serious concern, and our findings can help mitigate their negative impact.
翻訳日:2023-04-16 21:58:00 公開日:2023-03-29
# NFT市場におけるジェンダーとレースバイアスの探索

Exploring Gender and Race Biases in the NFT Market ( http://arxiv.org/abs/2304.06484v1 )

ライセンス: Link先を確認
Howard Zhong, Mark Hamilton(参考訳) 非Fungible Tokens(NFT)は非交換可能な資産であり、通常はデジタルアートであり、ブロックチェーンに格納される。 予備研究により、女性や浅黒い肌のNFTは、男性や軽い肌のNFTよりも価値が低いことが判明した。 しかし、これらの研究はCryptoPunksコレクションのみを分析する。 我々は、CryptoPunksの価格における人種とジェンダーのバイアスの統計的意義を検証し、幅広いNFT市場におけるジェンダーバイアスの最初の研究を示す。 人種バイアスの証拠は見つかるが、性別バイアスは見当たらない。 我々の研究は、この新興市場におけるソーシャルエクイティの広範な研究を促進するために、ジェンダーラベル付きNFTコレクションのデータセットも導入している。

Non-Fungible Tokens (NFTs) are non-interchangeable assets, usually digital art, which are stored on the blockchain. Preliminary studies find that female and darker-skinned NFTs are valued less than their male and lighter-skinned counterparts. However, these studies analyze only the CryptoPunks collection. We test the statistical significance of race and gender biases in the prices of CryptoPunks and present the first study of gender bias in the broader NFT market. We find evidence of racial bias but not gender bias. Our work also introduces a dataset of gender-labeled NFT collections to advance the broader study of social equity in this emerging market.
翻訳日:2023-04-16 21:46:22 公開日:2023-03-29
# AI法における推定影響に関する定量的研究

Quantitative study about the estimated impact of the AI Act ( http://arxiv.org/abs/2304.06503v1 )

ライセンス: Link先を確認
Marc P. Hauer and Tobias D Krafft and Dr. Andreas Sesing-Wagenpfeil and Prof. Katharina Zweig(参考訳) 人工知能(AI Act)の調和したルールを規定する規則の提案により、欧州連合はAIシステム全体に適用する最初の規制文書を提供する。 規制が解釈の余地が多すぎることを恐れ、社会にほとんど利益をもたらすことを恐れる者もいるが、規制があまりに制限的であり、したがって進歩と革新を妨げ、EU内の企業の経済的成功を妨げると期待する者もいる。 体系的なアプローチがなければ、それが実際にAIの状況に与える影響を評価するのは難しい。 本稿では,2021年4月に公布されたAI法の最初の草案に適用される体系的アプローチを提案する。 我々は、ドイツのLernende SystemeプラットフォームがリストしているAI製品とプロジェクトのリストをコンパイルし、コンピュータ科学と法学の専門家とともにAI法に従って分類した。 本研究は,より具体的な定式化の必要性を示唆するものであり,いくつかの規定については,特定の場合に適用できるか否かが不明確であることが多い。 それとは別に、AI法によって規制されると見なされるAIシステムの約30%だけが、残りはリスクの低いものと分類されていることが判明した。 しかし、データベースは代表的ではないため、結果は最初の評価のみとなる。 提示されたプロセスはどのコレクションにも適用でき、規則が変更されるときも繰り返される。 これにより、規制が施行される前に過度または過度に規制される恐れを調査できる。

With the Proposal for a Regulation laying down harmonised rules on Artificial Intelligence (AI Act) the European Union provides the first regulatory document that applies to the entire complex of AI systems. While some fear that the regulation leaves too much room for interpretation and thus bring little benefit to society, others expect that the regulation is too restrictive and, thus, blocks progress and innovation, as well as hinders the economic success of companies within the EU. Without a systematic approach, it is difficult to assess how it will actually impact the AI landscape. In this paper, we suggest a systematic approach that we applied on the initial draft of the AI Act that has been released in April 2021. We went through several iterations of compiling the list of AI products and projects in and from Germany, which the Lernende Systeme platform lists, and then classified them according to the AI Act together with experts from the fields of computer science and law. Our study shows a need for more concrete formulation, since for some provisions it is often unclear whether they are applicable in a specific case or not. Apart from that, it turns out that only about 30\% of the AI systems considered would be regulated by the AI Act, the rest would be classified as low-risk. However, as the database is not representative, the results only provide a first assessment. The process presented can be applied to any collections, and also repeated when regulations are about to change. This allows fears of over- or under-regulation to be investigated before the regulations comes into effect.
翻訳日:2023-04-16 21:37:12 公開日:2023-03-29
# グラディエントデバイアスによるグラフ構造攻撃における不当な予算配分に向けて

Towards Reasonable Budget Allocation in Untargeted Graph Structure Attacks via Gradient Debias ( http://arxiv.org/abs/2304.00010v1 )

ライセンス: Link先を確認
Zihan Liu, Yun Luo, Lirong Wu, Zicheng Liu, Stan Z. Li(参考訳) 分類関連のタスクでクロスエントロピー損失関数を採用することは認知慣性になる。 グラフ構造に対する未目標攻撃では、攻撃目標から導出される勾配が摂動スキームを評価するための攻撃の基盤となる。 従来の手法ではノードレベルの分類モデルを攻撃する攻撃対象として負のクロスエントロピー損失を用いる。 しかし、未目標攻撃目標を構築するためのクロスエントロピー関数の適合性については、これまでも議論されてきた。 本稿では、予算配分の観点から、これまでの不合理な攻撃目標について論じる。 負のクロスエントロピーはラベル付きクラスに対する信頼度が低いノードから、これらのノードの予測されたクラスが誤っていたとしても、より顕著な勾配を生み出す傾向があることを理論的および実証的に示す。 これらの非効率な攻撃予算を解放するために,ノードの信頼度に影響を受けないグラフ構造の非重み付け勾配を生成する新しい攻撃目標に基づく,グラフ構造に対する非標的攻撃のための単純な攻撃モデルを提案する。 グレーボックス中毒攻撃実験を行い, 適切な予算配分を行うことで, 余分なハイパーパラメータを必要とせず, 勾配に基づくエッジ摂動の有効性を著しく向上できることを示した。

It has become cognitive inertia to employ cross-entropy loss function in classification related tasks. In the untargeted attacks on graph structure, the gradients derived from the attack objective are the attacker's basis for evaluating a perturbation scheme. Previous methods use negative cross-entropy loss as the attack objective in attacking node-level classification models. However, the suitability of the cross-entropy function for constructing the untargeted attack objective has yet been discussed in previous works. This paper argues about the previous unreasonable attack objective from the perspective of budget allocation. We demonstrate theoretically and empirically that negative cross-entropy tends to produce more significant gradients from nodes with lower confidence in the labeled classes, even if the predicted classes of these nodes have been misled. To free up these inefficient attack budgets, we propose a simple attack model for untargeted attacks on graph structure based on a novel attack objective which generates unweighted gradients on graph structures that are not affected by the node confidence. By conducting experiments in gray-box poisoning attack scenarios, we demonstrate that a reasonable budget allocation can significantly improve the effectiveness of gradient-based edge perturbations without any extra hyper-parameter.
翻訳日:2023-04-09 05:44:17 公開日:2023-03-29
# 信号処理と機械学習を用いた静止状態脳波によるパーキンソン病検出

Parkinsons Disease Detection via Resting-State Electroencephalography Using Signal Processing and Machine Learning Techniques ( http://arxiv.org/abs/2304.01214v1 )

ライセンス: Link先を確認
Krish Desai(参考訳) パーキンソン病(英: Parkinsons Disease、PD)は、ドーパミン作動性ニューロンの変性により運動障害を引き起こす神経変性疾患である。 PD患者は振動、剛性、視覚障害、ブラジキネジア、認知障害を経験している。 電子脳波検査(eeg)はpd患者に異常を示すが, 治療や薬剤による疾患の監視のために, 一貫性, 正確性, 全身的バイオマーカーの欠如が大きな課題である。 本研究では,15例のPD患者と16例の健常者から脳波データを収集した。 まず,複数の手法を用いて脳波信号を前処理し,多数の特徴抽出アルゴリズムを用いて関連特徴を抽出した。 その後、PD対HCの分類にいくつかの機械学習アルゴリズムを適用した。 ランダムフォレストアンサンブル学習法によって達成すべき最も重要な指標は,精度,精度,リコール,f1スコア,aucが97.5%,100%,95%,0.967,0.975であった。 本研究は,臨床診断における脳波によるPD異常の暴露を約束し,信号処理技術とMLアルゴリズムを用いて自動化し,健常者とPD患者の差を評価することを目的とした。

Parkinsons Disease (PD) is a neurodegenerative disorder resulting in motor deficits due to advancing degeneration of dopaminergic neurons. PD patients report experiencing tremor, rigidity, visual impairment, bradykinesia, and several cognitive deficits. Although Electroencephalography (EEG) indicates abnormalities in PD patients, one major challenge is the lack of a consistent, accurate, and systemic biomarker for PD in order to closely monitor the disease with therapeutic treatments and medication. In this study, we collected Electroencephalographic data from 15 PD patients and 16 Healthy Controls (HC). We first preprocessed every EEG signal using several techniques and extracted relevant features using many feature extraction algorithms. Afterwards, we applied several machine learning algorithms to classify PD versus HC. We found the most significant metrics to be achieved by the Random Forest ensemble learning approach, with an accuracy, precision, recall, F1 score, and AUC of 97.5%, 100%, 95%, 0.967, and 0.975, respectively. The results of this study show promise for exposing PD abnormalities using EEG during clinical diagnosis, and automating this process using signal processing techniques and ML algorithms to evaluate the difference between healthy individuals and PD patients.
翻訳日:2023-04-09 05:34:57 公開日:2023-03-29
# 多面体確率ハイブリッドシステムの抽象的確率的安定性解析

Abstraction-based Probabilistic Stability Analysis of Polyhedral Probabilistic Hybrid Systems ( http://arxiv.org/abs/2304.02647v1 )

ライセンス: Link先を確認
Spandan Das and Pavithra Prabhakar(参考訳) 本稿では,多面体包含物によって流れのダイナミクスが与えられる確率的ハイブリッドシステムのサブクラス,すなわち多面的確率的ハイブリッドシステム(pphs)の確率的安定性解析の問題を考える。 本稿では,有限マルコフ決定過程(mdp)を構築し,有限mdp上のある性質の検証により,pphの確率的安定性の満足度を保証する抽象的解析フレームワークを提案する。 さらに, MDP 上の対応する特性を検証する多項式時間アルゴリズムを提案する。 実験により, PPHSの様々な寸法と大きさの確率安定性の検証が可能であることを示す。

In this paper, we consider the problem of probabilistic stability analysis of a subclass of Stochastic Hybrid Systems, namely, Polyhedral Probabilistic Hybrid Systems (PPHS), where the flow dynamics is given by a polyhedral inclusion, the discrete switching between modes happens probabilistically at the boundaries of their invariant regions and the continuous state is not reset during switching. We present an abstraction-based analysis framework that consists of constructing a finite Markov Decision Processes (MDP) such that verification of certain property on the finite MDP ensures the satisfaction of probabilistic stability on the PPHS. Further, we present a polynomial-time algorithm for verifying the corresponding property on the MDP. Our experimental analysis demonstrates the feasibility of the approach in successfully verifying probabilistic stability on PPHS of various dimensions and sizes.
翻訳日:2023-04-09 05:25:09 公開日:2023-03-29
# ウェアラブル感情認識のためのトランスフォーマーに基づく自己教師型マルチモーダル表現学習

Transformer-based Self-supervised Multimodal Representation Learning for Wearable Emotion Recognition ( http://arxiv.org/abs/2303.17611v1 )

ライセンス: Link先を確認
Yujin Wu, Mohamed Daoudi, Ali Amad(参考訳) 近年,周囲の生理的信号に基づくウェアラブル感情認識が注目されている。 しかし,マルチモーダルデータを効果的に融合する方法は依然として課題である。 さらに、従来の完全教師付きアプローチは、制限されたラベル付きデータに過度に適合する。 以上の課題に対処するために,時間的畳み込みに基づくモーダル比エンコーダとトランスフォーマーに基づく共有エンコーダを用いて,効率的なマルチモーダル融合を実現する,ウェアラブル感情認識のための新たな自己教師付き学習(SSL)フレームワークを提案する。 5つの信号変換によってラベルが自動的に割り当てられ、提案するsslモデルはプリテキストタスクとして信号変換認識で事前学習され、感情に関連した下流タスクのための一般化されたマルチモーダル表現を抽出することができる。 評価のために、提案するsslモデルは、まず、大規模な自己収集型生理学的データセットで事前学習され、その結果得られたエンコーダは、3つの教師付き感情認識データセット上で凍結または微調整された。 最終的に、SSLベースの手法は、様々な感情分類タスクにおいて最先端の結果を得た。 一方,提案手法は,低データ環境における完全教師あり手法に比べて正確かつ堅牢であることが判明した。

Recently, wearable emotion recognition based on peripheral physiological signals has drawn massive attention due to its less invasive nature and its applicability in real-life scenarios. However, how to effectively fuse multimodal data remains a challenging problem. Moreover, traditional fully-supervised based approaches suffer from overfitting given limited labeled data. To address the above issues, we propose a novel self-supervised learning (SSL) framework for wearable emotion recognition, where efficient multimodal fusion is realized with temporal convolution-based modality-specific encoders and a transformer-based shared encoder, capturing both intra-modal and inter-modal correlations. Extensive unlabeled data is automatically assigned labels by five signal transforms, and the proposed SSL model is pre-trained with signal transformation recognition as a pretext task, allowing the extraction of generalized multimodal representations for emotion-related downstream tasks. For evaluation, the proposed SSL model was first pre-trained on a large-scale self-collected physiological dataset and the resulting encoder was subsequently frozen or fine-tuned on three public supervised emotion recognition datasets. Ultimately, our SSL-based method achieved state-of-the-art results in various emotion classification tasks. Meanwhile, the proposed model proved to be more accurate and robust compared to fully-supervised methods on low data regimes.
翻訳日:2023-04-03 16:34:52 公開日:2023-03-29
# フレキシブル確率論的ニューラルネットワークによる組込み天気予報後処理

Ensemble weather forecast post-processing with a flexible probabilistic neural network approach ( http://arxiv.org/abs/2303.17610v1 )

ライセンス: Link先を確認
Peter Mlakar, Janko Mer\v{s}e, Jana Faganeli Pucer(参考訳) 組み立て後の予測は、正確な確率予測を生成するための必要なステップである。 従来のポストプロセッシング手法はパラメトリック分布のパラメータを推定し、しばしば位置単位またはリード時間単位で計算する。 本稿では,すべての位置とリード時間の予測を共同で生成するニューラルネットワークに基づく新しい手法を提案する。 多くのポストプロセッシング手法の分布仮定を緩和するため,本手法では正規化フローをフレキシブルパラメトリック分布推定器として組み込んだ。 これにより,様々な予測分布を数学的に正確にモデル化することができる。 本手法の有効性をeuppbenchベンチマークを用いて実証し,西ヨーロッパのサブリージョンにおける駅の温度予測を行った。 提案手法は,従来の性能評価項目を抜いて,最新の性能をベンチマークで示す。 さらに,新しいポストプロセッシング手法の3つの変種を詳細に比較することにより,本手法がリード時間ごとのアプローチや分布的仮定によるアプローチに勝る理由を明らかにする。

Ensemble forecast post-processing is a necessary step in producing accurate probabilistic forecasts. Conventional post-processing methods operate by estimating the parameters of a parametric distribution, frequently on a per-location or per-lead-time basis. We propose a novel, neural network-based method, which produces forecasts for all locations and lead times, jointly. To relax the distributional assumption of many post-processing methods, our approach incorporates normalizing flows as flexible parametric distribution estimators. This enables us to model varying forecast distributions in a mathematically exact way. We demonstrate the effectiveness of our method in the context of the EUPPBench benchmark, where we conduct temperature forecast post-processing for stations in a sub-region of western Europe. We show that our novel method exhibits state-of-the-art performance on the benchmark, outclassing our previous, well-performing entry. Additionally, by providing a detailed comparison of three variants of our novel post-processing method, we elucidate the reasons why our method outperforms per-lead-time-based approaches and approaches with distributional assumptions.
翻訳日:2023-04-03 16:34:29 公開日:2023-03-29
# NOSTROMO:学んだ教訓,結論,今後の展開

NOSTROMO: Lessons learned, conclusions and way forward ( http://arxiv.org/abs/2303.18060v1 )

ライセンス: Link先を確認
Mayte Cano, Andr\'es Perillo, Juan Antonio L\'opez, Faustino Tello, Javier Poveda, Francisco C\^amara, Francisco Antunes, Christoffer Riis, Ian Crook, Abderrazak Tibichte, Sandrine Molton, David Mochol\'i, Ricardo Herranz, G\'erald Gurtner, Tatjana Boli\'c, Andrew Cook, Jovana Kuljanin, Xavier Prats(参考訳) このホワイトペーパーは、メタモデリングが航空交通管理(ATM)研究にもたらす価値を説明するものである。 メタモデリングを定義して、それができることとできないことを探ります。 SESARの基本的な知識は、Single European Sky ATM Researchプロジェクトにあると考えられている。 単一欧州スカイイニシアチブの技術柱としてのSESARの重要な要素は、特定のキーパフォーマンス指標(KPI)を通じて測定され、いわゆるSESAR「ソリューション」によって実施されるように改善をもたらすことである。 これらの「ソリューション」は、欧州のATMマスタープランに記載された運用およびパフォーマンスの改善に対応するために設計された、新規または改善された運用手順または技術である。

This White Paper sets out to explain the value that metamodelling can bring to air traffic management (ATM) research. It will define metamodelling and explore what it can, and cannot, do. The reader is assumed to have basic knowledge of SESAR: the Single European Sky ATM Research project. An important element of SESAR, as the technological pillar of the Single European Sky initiative, is to bring about improvements, as measured through specific key performance indicators (KPIs), and as implemented by a series of so-called SESAR 'Solutions'. These 'Solutions' are new or improved operational procedures or technologies, designed to meet operational and performance improvements described in the European ATM Master Plan.
翻訳日:2023-04-03 13:57:00 公開日:2023-03-29
# BERT4ETH:Ethereumフラッド検出のためのトレーニング済み変換器

BERT4ETH: A Pre-trained Transformer for Ethereum Fraud Detection ( http://arxiv.org/abs/2303.18138v1 )

ライセンス: Link先を確認
Sihao Hu, Zhen Zhang, Bingqiao Luo, Shengliang Lu, Bingsheng He, Ling Liu(参考訳) 様々な詐欺がethereumで拡散するので、これらの悪意のある活動に対して保護し、脆弱なユーザーを犠牲にしないようにすることが不可欠である。 現在の研究はグラフベースの不正検出アプローチのみに依存しているが、高度に繰り返し、歪んだ分散、異種ethereumトランザクションを扱うのに適していない可能性がある。 これらの課題に対処するために、ethereum上でさまざまな不正行為を検出するためのアカウント表現抽出器として機能するユニバーサルプリトレーニングトランスコーダbert4ethを提案する。 BERT4ETHは、Ethereumトランザクション固有の動的シーケンシャルパターンをキャプチャするTransformerの優れたモデリング機能を備えており、EthereumのBERTモデルを3つの実践的で効果的な戦略、すなわち反復性削減、スキュー緩和、異種性モデリングで事前トレーニングする際の課題に対処する。 実験により,BERT4ETHは,フィッシングアカウントの検出や匿名化タスクにおいて,最先端の手法よりも優れた性能を示した。 BERT4ETHのコードは以下の通りである。

As various forms of fraud proliferate on Ethereum, it is imperative to safeguard against these malicious activities to protect susceptible users from being victimized. While current studies solely rely on graph-based fraud detection approaches, it is argued that they may not be well-suited for dealing with highly repetitive, skew-distributed and heterogeneous Ethereum transactions. To address these challenges, we propose BERT4ETH, a universal pre-trained Transformer encoder that serves as an account representation extractor for detecting various fraud behaviors on Ethereum. BERT4ETH features the superior modeling capability of Transformer to capture the dynamic sequential patterns inherent in Ethereum transactions, and addresses the challenges of pre-training a BERT model for Ethereum with three practical and effective strategies, namely repetitiveness reduction, skew alleviation and heterogeneity modeling. Our empirical evaluation demonstrates that BERT4ETH outperforms state-of-the-art methods with significant enhancements in terms of the phishing account detection and de-anonymization tasks. The code for BERT4ETH is available at: https://github.com/git-disl/BERT4ETH.
翻訳日:2023-04-03 13:38:47 公開日:2023-03-29
# 今日の連続学習アルゴリズムはどの程度効率的か?

How Efficient Are Today's Continual Learning Algorithms? ( http://arxiv.org/abs/2303.18171v1 )

ライセンス: Link先を確認
Md Yousuf Harun, Jhair Gallardo, Tyler L. Hayes, Christopher Kanan(参考訳) Supervised Continual Learningでは、ラベル付きデータのストリームからディープニューラルネットワーク(DNN)を更新する。 ほとんどの研究は破滅的な忘れを克服することに重点を置いているが、継続的学習の背景にある大きな動機の1つは、トレーニングデータセットをスクラッチからトレーニングするのではなく、新しい情報でネットワークを効率的に更新できることだ。 最近の連続的な学習手法は破滅的な忘れ問題を主に解決しているが、これらのアルゴリズムの効率性にはほとんど注意が払われていない。 本稿では,近年のインクリメンタルなクラス学習手法について検討し,計算,メモリ,記憶の面では非常に非効率であることを示す。 スクラッチからトレーニングするよりも多くの計算を必要とするメソッドもあります! 連続学習が現実の応用性を持つためには、研究コミュニティはこれらのアルゴリズムが使用するリソースを無視できない。 破滅的な忘れを和らげるより連続的な学習がある。

Supervised Continual learning involves updating a deep neural network (DNN) from an ever-growing stream of labeled data. While most work has focused on overcoming catastrophic forgetting, one of the major motivations behind continual learning is being able to efficiently update a network with new information, rather than retraining from scratch on the training dataset as it grows over time. Despite recent continual learning methods largely solving the catastrophic forgetting problem, there has been little attention paid to the efficiency of these algorithms. Here, we study recent methods for incremental class learning and illustrate that many are highly inefficient in terms of compute, memory, and storage. Some methods even require more compute than training from scratch! We argue that for continual learning to have real-world applicability, the research community cannot ignore the resources used by these algorithms. There is more to continual learning than mitigating catastrophic forgetting.
翻訳日:2023-04-03 13:29:53 公開日:2023-03-29
# スマートな選択と選択モナド

Smart Choices and the Selection Monad ( http://arxiv.org/abs/2007.08926v8 )

ライセンス: Link先を確認
Martin Abadi and Gordon Plotkin(参考訳) 選択と結果として得られるコストと報酬の観点からシステムを記述することは、アルゴリズム設計者やプログラマがそれらの選択をどのように行うべきかを特定するのを解放することを約束する。 我々はこのアプローチをプログラミング言語の観点から研究する。 意思決定の抽象化をサポートする2つの小さな言語を定義しています。 私たちは操作的意味論と意味論の両方を与えます。 第2言語の場合、可能なプログラム値と期待される報酬との相関の程度が異なる3つの意味論的意味を考える。 オペレーショナルセマンティクスは、標準構成の通常のセマンティクスと、実行可能な実行戦略の空間上の最適化を組み合わせる。 記号意味論は、構成的であり、選択モナドに依存し、選択を処理し、報酬や確率といった他の効果を扱う補助モナドを追加する。 我々は、2つの意味論がすべての場合で一致するという妥当性定理を確立する。 また,様々な相関の度合いに対応する確率的ケースにおいて,観測概念の異なる基底型で完全な抽象化を証明した。 選択公理と報酬と確率を組み合わせることで、確率のない報酬の場合の基礎型における完全性を確立する。

Describing systems in terms of choices and their resulting costs and rewards offers the promise of freeing algorithm designers and programmers from specifying how those choices should be made; in implementations, the choices can be realized by optimization techniques and, increasingly, by machine-learning methods. We study this approach from a programming-language perspective. We define two small languages that support decision-making abstractions: one with choices and rewards, and the other additionally with probabilities. We give both operational and denotational semantics. In the case of the second language we consider three denotational semantics, with varying degrees of correlation between possible program values and expected rewards. The operational semantics combine the usual semantics of standard constructs with optimization over spaces of possible execution strategies. The denotational semantics, which are compositional, rely on the selection monad, to handle choice, augmented with an auxiliary monad to handle other effects, such as rewards or probability. We establish adequacy theorems that the two semantics coincide in all cases. We also prove full abstraction at base types, with varying notions of observation in the probabilistic case corresponding to the various degrees of correlation. We present axioms for choice combined with rewards and probability, establishing completeness at base types for the case of rewards without probability.
翻訳日:2023-03-31 18:57:07 公開日:2023-03-29
# hessian-aware saliencyを用いたグローバルビジョントランスフォーマーのプルーニング

Global Vision Transformer Pruning with Hessian-Aware Saliency ( http://arxiv.org/abs/2110.04869v2 )

ライセンス: Link先を確認
Huanrui Yang, Hongxu Yin, Maying Shen, Pavlo Molchanov, Hai Li, Jan Kautz(参考訳) トランスフォーマーは多くのタスクで最先端の結果をもたらす。 しかし、そのヒューリスティックな設計のアーキテクチャは推論中に膨大な計算コストを課す。 本研究は,視覚トランスフォーマー (vit) モデルの共通設計哲学に挑戦することを目的としており,モデル段階において,全体構造平滑化の最初の体系的試みを通じて,トランスフォーマーブロック間およびブロック内の異なる構造間でパラメータを再分配する。 多様な ViT 構造コンポーネントを扱えるようにすることで,すべてのレイヤや構造に匹敵する新しいヘッセン系構造プルーニング基準を導出します。 DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に活用する新しいパラメータ再配布が実現される。 ImageNet-1Kでは、NViT-Baseは2.6倍のFLOP削減、5.1倍のパラメータ削減、1.9倍の高速化を実現している。 より小さなNViT変種は、DeiT Small/Tiny変種と同じスループットで1%以上の精度向上を実現し、SWIN-Smallモデルよりも3.3倍のパラメータ削減を実現している。 これらの結果は、先行技術を大きく上回っている。 さらに、NViTのパラメータ再分配の洞察に基づいて、ViTモデルの高い照準性、ViTブロック内での異なる感度、および積み重ねられたViTブロック間の一意なパラメータ分布傾向を示す。 我々の知見は、市販の性能向上のためのより効率的なViTに対する、単純で効果的なパラメータ再分配ルールの実現可能性を提供する。

Transformers yield state-of-the-art results across many tasks. However, their heuristically designed architecture impose huge computational costs during inference. This work aims on challenging the common design philosophy of the Vision Transformer (ViT) model with uniform dimension across all the stacked blocks in a model stage, where we redistribute the parameters both across transformer blocks and between different structures within the block via the first systematic attempt on global structural pruning. Dealing with diverse ViT structural components, we derive a novel Hessian-based structural pruning criteria comparable across all layers and structures, with latency-aware regularization for direct latency reduction. Performing iterative pruning on the DeiT-Base model leads to a new architecture family called NViT (Novel ViT), with a novel parameter redistribution that utilizes parameters more efficiently. On ImageNet-1K, NViT-Base achieves a 2.6x FLOPs reduction, 5.1x parameter reduction, and 1.9x run-time speedup over the DeiT-Base model in a near lossless manner. Smaller NViT variants achieve more than 1% accuracy gain at the same throughput of the DeiT Small/Tiny variants, as well as a lossless 3.3x parameter reduction over the SWIN-Small model. These results outperform prior art by a large margin. Further analysis is provided on the parameter redistribution insight of NViT, where we show the high prunability of ViT models, distinct sensitivity within ViT block, and unique parameter distribution trend across stacked ViT blocks. Our insights provide viability for a simple yet effective parameter redistribution rule towards more efficient ViTs for off-the-shelf performance boost.
翻訳日:2023-03-31 18:47:28 公開日:2023-03-29
# 高次元最適制御問題とハミルトン・ヤコビPDEを解くためにmin-plus代数を用いたニューラルネットワークアーキテクチャ

Neural network architectures using min-plus algebra for solving certain high dimensional optimal control problems and Hamilton-Jacobi PDEs ( http://arxiv.org/abs/2105.03336v2 )

ライセンス: Link先を確認
J\'er\^ome Darbon and Peter M. Dower and Tingwei Meng(参考訳) 高次元最適制御問題と対応するハミルトン・ヤコビPDEを解くことは、制御工学において重要であるが難しい。 本稿では,高次元最適制御問題のクラスに対して,それぞれ値関数と最適制御を計算するために使用される2つの抽象ニューラルネットワークアーキテクチャを提案する。 2つの抽象アーキテクチャの数学的解析を提供する。 また、これらの抽象アーキテクチャのディープニューラルネットワーク実装を用いて計算した数値結果についても示す。 FPGA上で提案したニューラルネットワークアーキテクチャの予備実装は、CPUと比較して有望なスピードアップを示している。 この研究は、ニューラルネットワーク用に設計された効率的な専用ハードウェアを活用して、高次元最適制御問題とハミルトン・ヤコビPDEを解く方法である。

Solving high dimensional optimal control problems and corresponding Hamilton-Jacobi PDEs are important but challenging problems in control engineering. In this paper, we propose two abstract neural network architectures which are respectively used to compute the value function and the optimal control for certain class of high dimensional optimal control problems. We provide the mathematical analysis for the two abstract architectures. We also show several numerical results computed using the deep neural network implementations of these abstract architectures. A preliminary implementation of our proposed neural network architecture on FPGAs shows promising speed up compared to CPUs. This work paves the way to leverage efficient dedicated hardware designed for neural networks to solve high dimensional optimal control problems and Hamilton-Jacobi PDEs.
翻訳日:2023-03-31 18:46:05 公開日:2023-03-29
# AutoSDF:3Dコンプリート・レコンストラクション・ジェネレーションのための形状優先

AutoSDF: Shape Priors for 3D Completion, Reconstruction and Generation ( http://arxiv.org/abs/2203.09516v3 )

ライセンス: Link先を確認
Paritosh Mittal, Yen-Chi Cheng, Maneesh Singh and Shubham Tulsiani(参考訳) 強力な事前処理によって、不十分な情報で推論を実行できます。 本稿では, 形状完了, 復元, 生成などの多モード3次元課題を解決するために, 3次元形状の自動回帰前処理を提案する。 3次元形状上の分布を、離散化、低次元、シンボリックグリッドのような3次元形状の潜在表現上の非系列自己回帰分布としてモデル化する。 これにより,空間的に固定された問合せ位置の任意の集合からの情報に基づく3次元形状上の分布を表現できるため,任意の設定で形状完了を行うことができる(例えば,背脚の視点のみを付与した完全な椅子を生成する)。 また,学習した自己回帰前処理を,単一視点再構成や言語ベース生成といった条件付きタスクに活用できることを示す。 これは、最小ペアのデータで訓練された軽量モデルによって近似できるタスク固有なナイーブ条件を学習することで達成される。 提案手法の有効性を定量評価と定性評価の両方を用いて検証し,提案手法が個々のタスクに対して訓練された専門的最先端手法よりも優れていることを示す。 コードとビデオビジュアライゼーションを備えたプロジェクトページはhttps://yccyenchicheng.github.io/AutoSDF/で見ることができる。

Powerful priors allow us to perform inference with insufficient information. In this paper, we propose an autoregressive prior for 3D shapes to solve multimodal 3D tasks such as shape completion, reconstruction, and generation. We model the distribution over 3D shapes as a non-sequential autoregressive distribution over a discretized, low-dimensional, symbolic grid-like latent representation of 3D shapes. This enables us to represent distributions over 3D shapes conditioned on information from an arbitrary set of spatially anchored query locations and thus perform shape completion in such arbitrary settings (e.g., generating a complete chair given only a view of the back leg). We also show that the learned autoregressive prior can be leveraged for conditional tasks such as single-view reconstruction and language-based generation. This is achieved by learning task-specific naive conditionals which can be approximated by light-weight models trained on minimal paired data. We validate the effectiveness of the proposed method using both quantitative and qualitative evaluation and show that the proposed method outperforms the specialized state-of-the-art methods trained for individual tasks. The project page with code and video visualizations can be found at https://yccyenchicheng.github.io/AutoSDF/.
翻訳日:2023-03-31 18:39:34 公開日:2023-03-29
# 決定しきい値における公平な分類のための幾何学的修復

Geometric Repair for Fair Classification at Any Decision Threshold ( http://arxiv.org/abs/2203.07490v3 )

ライセンス: Link先を確認
Kweku Kwegyir-Aggrey, Jessica Dai, A. Feder Cooper, John Dickerson, Keegan Hines(参考訳) 我々は,教師付き機械学習型回帰器の処理後問題について検討し,任意の判定しきい値における公平な二項分類を最大化する。 具体的には,各グループのスコア分布間の統計的距離を減少させることで,すべてのしきい値に対する公平なパフォーマンスを一度に向上させ,精度を著しく低下させることなく達成できることを示す。 この目的のために,異なる保護群に対する分類の分布の類似度を捉える分布パリティの形式的尺度を導入する。 従来の研究とは対照的に、全ての閾値における人口統計学的均等性の研究に限られており、我々の測定は大規模な公正度尺度に適用されている。 我々の主な成果は、分布パリティを確実に最大化する最適輸送に基づく新しい後処理アルゴリズムを提案することである。 いくつかのフェアネスベンチマークの実験でこの結果を支持する。

We study the problem of post-processing a supervised machine-learned regressor to maximize fair binary classification at all decision thresholds. Specifically, we show that by decreasing the statistical distance between each group's score distributions, we can increase fair performance across all thresholds at once, and that we can do so without a significant decrease in accuracy. To this end, we introduce a formal measure of distributional parity, which captures the degree of similarity in the distributions of classifications for different protected groups. In contrast to prior work, which has been limited to studies of demographic parity across all thresholds, our measure applies to a large class of fairness metrics. Our main result is to put forward a novel post-processing algorithm based on optimal transport, which provably maximizes distributional parity. We support this result with experiments on several fairness benchmarks.
翻訳日:2023-03-31 18:39:11 公開日:2023-03-29
# 縦・多部位前臨床MRIによる脳保護剤評価のための画像ベースストローク評価

Computational Image-based Stroke Assessment for Evaluation of Cerebroprotectants with Longitudinal and Multi-site Preclinical MRI ( http://arxiv.org/abs/2203.05714v2 )

ライセンス: Link先を確認
Ryan P. Cabeen, Joseph Mandeville, Fahmeed Hyder, Basavaraju G. Sanganahalli, Daniel R. Thedens, Ali Arbab, Shuning Huang, Adnan Bibic, Erendiz Tarakci, Jelena Mihailovic, Andreia Morais, Jessica Lamb, Karisma Nagarkatti, Arthur W. Toga, Patrick Lyden, Cenk Ayata(参考訳) 脳卒中は世界有数の死因であるが、脳卒中予防薬のヒト患者への臨床試験からヒトへの移植は成功していない。 本研究では, 大規模前臨床検診の精度, スケーラビリティ, 展望を定量的に改善するための画像ベース評価ツールについて検討した。 脳卒中前臨床評価ネットワーク(span, multi-site, multi-arm, multi-stage study, multi-stage study of cerebroprotectant interventions)のための画像ベース脳卒中アウトカム定量化パイプラインを開発した。 中大脳動脈閉塞モデル(mcao)から縦断的に収集したマルチパラメータmriデータから脳卒中アウトカムを評価するために,最先端のアルゴリズムとデータ解析を組み合わせることで,脳梗塞容積,脳萎縮,ミッドラインシフト,データ品質の計測を行う。 我々は1,368個のスキャンにアプローチを適用し,損傷による病変範囲と縦断的変化の集団レベルを報告した。 我々は,脳卒中専門医のクラウドソーシングを用いて,同じ脳の皮質MRIスライスと組織切片のマニュアルアノテーションと比較し,本システムの有効性を検証した。 画像に基づく脳卒中評価の有効性とロバスト性を示す。 このパイプラインは、将来SPANや他のネットワークが実施する、現在進行中の歯列前臨床研究に有望なリソースを提供する可能性がある。

While ischemic stroke is a leading cause of death worldwide, there has been little success translating putative cerebroprotectants from rodent preclinical trials to human patients. We investigated computational image-based assessment tools for practical improvement of the quality, scalability, and outlook for large scale preclinical screening for potential therapeutic interventions in rodent models. We developed, evaluated, and deployed a pipeline for image-based stroke outcome quantification for the Stroke Preclinical Assessment Network (SPAN), a multi-site, multi-arm, multi-stage study evaluating a suite of cerebroprotectant interventions. Our fully automated pipeline combines state-of-the-art algorithmic and data analytic approaches to assess stroke outcomes from multi-parameter MRI data collected longitudinally from a rodent model of middle cerebral artery occlusion (MCAO), including measures of infarct volume, brain atrophy, midline shift, and data quality. We applied our approach to 1,368 scans and report population level results of lesion extent and longitudinal changes from injury. We validated our system by comparison with both manual annotations of coronal MRI slices and tissue sections from the same brain, using crowdsourcing from blinded stroke experts from the network. Our results demonstrate the efficacy and robustness of our image-based stroke assessments. The pipeline may provide a promising resource for ongoing rodent preclinical studies conducted by SPAN and other networks in the future.
翻訳日:2023-03-31 18:38:55 公開日:2023-03-29
# 計算仮定によるEPR対の並列自己検定

Parallel self-testing of EPR pairs under computational assumptions ( http://arxiv.org/abs/2201.13430v2 )

ライセンス: Link先を確認
Honghao Fu, Daochen Wang, Qi Zhao(参考訳) 自己テストは量子力学の基本的な特徴であり、古典的検証者が信頼できない量子デバイスに特定の状態の準備と測定を強制することができる。 標準的なアプローチでは、少なくとも2つの空間分離デバイスが想定されている。 近年,metger と vidick [quantum, 2021] は,単一の量子デバイスの epr 対を計算仮定で自己テストできることを示した。 本研究では,その結果を一般化し,n$ eprペアの最初の並列自己テストを行い,同一の計算仮定の下で単一デバイス環境で測定する。 提案手法は,poly$(N)$リソースを用いて,真正な量子デバイスによって1ドル近い確率で通過可能であることを示す。 さらに、最大$\epsilon$の確率でプロトコルに失敗する量子デバイスは、適切な意味で正直であることに近いpoly$(n,\epsilon)$でなければならないことを示した。 特に,計算量やアダマール基底測定のテンソル積上の任意の分布をテストでき,計算仮定の下でデバイスに依存しない量子鍵分布などの応用に適している。 さらに,従来の通信のみを用いて,単一クラウド量子コンピュータの任意の数の量子ビットを効率よく証明できるプロトコルの簡易版が初となる。

Self-testing is a fundamental feature of quantum mechanics that allows a classical verifier to force untrusted quantum devices to prepare certain states and perform certain measurements on them. The standard approach assumes at least two spatially separated devices. Recently, Metger and Vidick [Quantum, 2021] showed that a single EPR pair of a single quantum device can be self-tested under computational assumptions. In this work, we generalize their results to give the first parallel self-test of $N$ EPR pairs and measurements on them in the single-device setting under the same computational assumptions. We show that our protocol can be passed with probability negligibly close to $1$ by an honest quantum device using poly$(N)$ resources. Moreover, we show that any quantum device that fails our protocol with probability at most $\epsilon$ must be poly$(N,\epsilon)$-close to being honest in the appropriate sense. In particular, our protocol can test any distribution over tensor products of computational or Hadamard basis measurements, making it suitable for applications such as device-independent quantum key distribution under computational assumptions. Moreover, a simplified version of our protocol is the first that can efficiently certify an arbitrary number of qubits of a single cloud quantum computer using only classical communication.
翻訳日:2023-03-31 18:37:33 公開日:2023-03-29
# sept-angle合成波長干渉計

Swept-Angle Synthetic Wavelength Interferometry ( http://arxiv.org/abs/2205.10655v4 )

ライセンス: Link先を確認
Alankar Kotwal and Anat Levin and Ioannis Gkioulekas(参考訳) フルフィールドミクロンスケール3Dセンシングのための新しいイメージング技術であるスワップアングル合成波長干渉法を提案する。 従来の合成波長インターフェロメトリと同様に、2つの狭分割光学波長からなる光を使用し、その位相がシーン深度をエンコードするピクセル単位のインターフェロメトリー測定を行う。 さらに, 空間的に不連続な照明をエミュレートすることで, 干渉計測が収差や(サブ) 表面散乱に影響を受けず, 位相測定が損なうような新しいタイプの光源を用いる。 その結果得られた手法は、スキャニング干渉計の設定の破壊とフルフィールド干渉計の設定の速度とを組み合わせる。 総じて, 強い周囲光の下でも, フレームレート5Hz, 横方向および軸方向の分解能5μnで全フレーム深度を復元することができる。 実験的なプロトタイプを構築し、様々なオブジェクトをスキャンして、検査や製造における応用を表すオブジェクトや、難解な光散乱効果を含むオブジェクトを含む、これらの機能を実証する。

We present a new imaging technique, swept-angle synthetic wavelength interferometry, for full-field micron-scale 3D sensing. As in conventional synthetic wavelength interferometry, our technique uses light consisting of two narrowly-separated optical wavelengths, resulting in per-pixel interferometric measurements whose phase encodes scene depth. Our technique additionally uses a new type of light source that, by emulating spatially-incoherent illumination, makes interferometric measurements insensitive to aberrations and (sub)surface scattering, effects that corrupt phase measurements. The resulting technique combines the robustness to such corruptions of scanning interferometric setups, with the speed of full-field interferometric setups. Overall, our technique can recover full-frame depth at a lateral and axial resolution of 5 microns, at frame rates of 5 Hz, even under strong ambient light. We build an experimental prototype, and use it to demonstrate these capabilities by scanning a variety of objects, including objects representative of applications in inspection and fabrication, and objects that contain challenging light scattering effects.
翻訳日:2023-03-31 18:29:22 公開日:2023-03-29
# ラベル復元とグラフ分類のためのクラスタグラフマッチング

Clustered Graph Matching for Label Recovery and Graph Classification ( http://arxiv.org/abs/2205.03486v2 )

ライセンス: Link先を確認
Zhirui Li, Jesus Arroyo, Konstantinos Pantazis, Vince Lyzinski(参考訳) 頂点整列ネットワークと追加のラベルシャッフルネットワークが与えられた場合、頂点整列コレクションの信号を利用してシャッフルネットワークのラベルを復元する手法を提案する。 我々は,頂点整列したネットワークの平均値とシャッフルネットワークを異なるレベルの粒度でマッチングすることを検討する。 理論と実践の両方において、グラフが異なるネットワーククラスから来ている場合、ネットワークをクラスにクラスタリングし、新しいグラフをクラスタ平均にマッチさせることで、グローバル平均グラフとのマッチングよりも高い忠実度のパフォーマンスが得られることを実証する。 さらに、各クラスタ平均に対するグラフマッチング対象関数の最小化により、シャッフルされたグラフの頂点ラベルの分類と回復を同時に行う。 これらの理論の発展は、人間のコネクトームと一致する実データ実験によってさらに強化される。

Given a collection of vertex-aligned networks and an additional label-shuffled network, we propose procedures for leveraging the signal in the vertex-aligned collection to recover the labels of the shuffled network. We consider matching the shuffled network to averages of the networks in the vertex-aligned collection at different levels of granularity. We demonstrate both in theory and practice that if the graphs come from different network classes, then clustering the networks into classes followed by matching the new graph to cluster-averages can yield higher fidelity matching performance than matching to the global average graph. Moreover, by minimizing the graph matching objective function with respect to each cluster average, this approach simultaneously classifies and recovers the vertex labels for the shuffled graph. These theoretical developments are further reinforced via an illuminating real data experiment matching human connectomes.
翻訳日:2023-03-31 18:29:03 公開日:2023-03-29
# これらすべてを合成するための1つのモデル:データのインプテーションを欠くマルチコントラストマルチスケールトランスフォーマー

One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation ( http://arxiv.org/abs/2204.13738v3 )

ライセンス: Link先を確認
Jiang Liu, Srivathsa Pasumarthi, Ben Duffy, Enhao Gong, Keshav Datta, Greg Zaharchuk(参考訳) 多コントラストMRI(Multi-Contrast magnetic resonance imaging)は臨床で広く用いられている。 しかし、各画像コントラストの可用性は患者によって異なり、放射線医や自動画像解析アルゴリズムに課題が生じる。 この問題を解決する一般的なアプローチは、データインプテーションの欠如であり、既存のデータとのコントラストの欠如を合成することを目的としている。 いくつかの畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムが提案されているが、CNNモデルの基本的な制限、例えば、入力チャネルと出力チャネルの固定数の要件、長距離依存をキャプチャすることができないこと、解釈不能などである。 本研究では,データインプテーションの欠落をシーケンスからシーケンスへの学習問題として定式化し,入力コントラストの任意のサブセットを取り込んで,欠落したデータを合成するマルチコントラストマルチスケールトランス(mmt)を提案する。 MMTは、入力の階層的な表現を構築するマルチスケールトランスフォーマーエンコーダと、粗い方法で出力を生成するマルチスケールトランスフォーマーデコーダで構成される。 提案するマルチコントラストスウィントランスブロックは、正確な画像合成のために、コントラスト内およびコントラスト間依存性を効率的に捉えることができる。 さらに、MTMは、デコーダ内のトランスフォーマーブロックの組込みアテンションマップを解析することにより、異なる領域における各入力コントラストの重要性を理解することができるため、本質的に解釈可能である。 2つの大規模マルチコントラストMRIデータセットに対する大規模な実験により、MTTは最先端の手法を定量的に質的に優れていることが示された。

Multi-contrast magnetic resonance imaging (MRI) is widely used in clinical practice as each contrast provides complementary information. However, the availability of each imaging contrast may vary amongst patients, which poses challenges to radiologists and automated image analysis algorithms. A general approach for tackling this problem is missing data imputation, which aims to synthesize the missing contrasts from existing ones. While several convolutional neural networks (CNN) based algorithms have been proposed, they suffer from the fundamental limitations of CNN models, such as the requirement for fixed numbers of input and output channels, the inability to capture long-range dependencies, and the lack of interpretability. In this work, we formulate missing data imputation as a sequence-to-sequence learning problem and propose a multi-contrast multi-scale Transformer (MMT), which can take any subset of input contrasts and synthesize those that are missing. MMT consists of a multi-scale Transformer encoder that builds hierarchical representations of inputs combined with a multi-scale Transformer decoder that generates the outputs in a coarse-to-fine fashion. The proposed multi-contrast Swin Transformer blocks can efficiently capture intra- and inter-contrast dependencies for accurate image synthesis. Moreover, MMT is inherently interpretable as it allows us to understand the importance of each input contrast in different regions by analyzing the in-built attention maps of Transformer blocks in the decoder. Extensive experiments on two large-scale multi-contrast MRI datasets demonstrate that MMT outperforms the state-of-the-art methods quantitatively and qualitatively.
翻訳日:2023-03-31 18:28:02 公開日:2023-03-29
# ブラックホール情報損失パズル、物質-重力の絡み合いエントロピーと第二法則

The black hole information loss puzzle, matter-gravity entanglement entropy and the second law ( http://arxiv.org/abs/2206.07445v4 )

ライセンス: Link先を確認
Bernard S. Kay (York)(参考訳) 1974年のホーキングの発見以来、崩壊によって形成されたブラックホールが放射を放出し、最終的には消滅すると予想されている。 情報損失パズルと密接に関連しているのは、物理的エントロピーの客観的な概念を定義することであり、この過程を通じてユニタリティと一致する方法で増加する。 近年では、これは粗い粒度のエントロピーの概念によって解決されている。 我々は、物理的エントロピーは物質-重力の絡み合いエントロピーと同一視すべきであり、ブラックホールの崩壊と蒸発のシステムと、他の閉じたユニタリ進化系、特に宇宙全体のエントロピーの増加を説明することができると提案した。 これを実現するためには、ブラックホール蒸発の後期状態の物質-重力の絡み合いエントロピーが、新たに形成されたブラックホールのエントロピーよりも大きい必要がある。 我々は、これはおそらく(通常無視される)光子-重力相互作用によるものであると主張している。 ブラックホールの蒸発がわずかに透過可能な箱に入れることで遅くなると、大きなブラックホールが蒸発した後に残る放射線は、主にほぼ同じ数の光子と重力子が互いに絡み合っていて、新たに形成されたブラックホールのエントロピーよりも大きな光子-重力子エントロピーを持つ、という実証可能な議論がなされる。 このような箱がなくても、物質重力エントロピーは依然として増加し、後期状態は、ホーキングが放出した光子自身が放射した軟質重力子と高度に絡み合った(前例のない)光子の純粋な状態になる可能性がある。 それが本当かどうかを知るには、もっと作業が必要です。

Since Hawking's 1974 discovery, we expect that a black hole formed by collapse will emit radiation and eventually disappear. Closely related to the information loss puzzle is the challenge to define an objective notion of physical entropy which increases throughout this process in a way consistent with unitarity. In recent years, this has been addressed with certain notions of coarse grained entropy. We have suggested instead that physical entropy should be identified with matter-gravity entanglement entropy and that this may offer an explanation of entropy increase both for the black hole collapse and evaporation system and also for other closed unitarily evolving systems, notably the universe as a whole. For this to work, it would have to be that the matter-gravity entanglement entropy of the late-time state of black hole evaporation is larger than the entropy of the freshly formed black hole. We argue here that this is possibly the case due to (usually neglected) photon-graviton interactions. If black hole evaporation is slowed down by putting the black hole in a slightly permeable box, we give plausibility arguments that the radiation remaining after a large black hole has evaporated will (be pure and) mainly consist of roughly equal numbers of photons and gravitons entangled with one another -- with a photon-graviton entanglement entropy possibly greater than the entropy of the freshly formed black hole. It also seems possible that, even in the absence of such a box, the matter-gravity entanglement entropy might still increase and the late-time state again be a pure state of (predominantly) photons highly entangled with soft gravitons that the Hawking-emitted photons themselves had radiated. More work is needed to find out if it is indeed so.
翻訳日:2023-03-31 18:20:13 公開日:2023-03-29
# Detection Hub: 言語埋め込みにおけるクエリ適応によるオブジェクト検出データセットの統合

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding ( http://arxiv.org/abs/2206.03484v2 )

ライセンス: Link先を確認
Lingchen Meng, Xiyang Dai, Yinpeng Chen, Pengchuan Zhang, Dongdong Chen, Mengchen Liu, Jianfeng Wang, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang(参考訳) 複数のデータセットを組み合わせることで、多くのコンピュータビジョンタスクのパフォーマンスが向上する。 しかし、検出データセット間には2つの矛盾があるため、複数のデータセットを組み合わせたオブジェクト検出では同様の傾向は見られていない。 本稿では,これらの課題を,データセット認識とカテゴリ整合を備えた新しい設計(検出ハブ)によって解決する。 データセットの不一貫性を緩和するだけでなく、複数のデータセットをまたいで学習するためのコヒーレントなガイダンスを提供する。 特に、データセット認識設計は、オブジェクトクエリや検出ヘッドの畳み込みカーネルに適応するために使用されるデータセットの埋め込みを学ぶことで達成される。 データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換え、言語埋め込みのセマンティックコヒーレンスを活用することで、意味的に統一された空間に整合する。 Detection Hubは、オブジェクト検出に関する大きなデータの利点を満たす。 実験では、複数のデータセットのジョイントトレーニングが、各データセットでのトレーニングよりも大きなパフォーマンス向上を実現している。 Detection Hubはさらに、さまざまなデータセットを持つUODBベンチマークでSoTAのパフォーマンスを達成している。

Combining multiple datasets enables performance boost on many computer vision tasks. But similar trend has not been witnessed in object detection when combining multiple datasets due to two inconsistencies among detection datasets: taxonomy difference and domain gap. In this paper, we address these challenges by a new design (named Detection Hub) that is dataset-aware and category-aligned. It not only mitigates the dataset inconsistency but also provides coherent guidance for the detector to learn across multiple datasets. In particular, the dataset-aware design is achieved by learning a dataset embedding that is used to adapt object queries as well as convolutional kernels in detection heads. The categories across datasets are semantically aligned into a unified space by replacing one-hot category representations with word embedding and leveraging the semantic coherence of language embedding. Detection Hub fulfills the benefits of large data on object detection. Experiments demonstrate that joint training on multiple datasets achieves significant performance gains over training on each dataset alone. Detection Hub further achieves SoTA performance on UODB benchmark with wide variety of datasets.
翻訳日:2023-03-31 18:19:01 公開日:2023-03-29
# CLIP Rewardによるきめ細かい画像キャプション

Fine-grained Image Captioning with CLIP Reward ( http://arxiv.org/abs/2205.13115v2 )

ライセンス: Link先を確認
Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui, Mohit Bansal(参考訳) 現代の画像キャプションモデルは通常、テキストの類似性を訓練する。 しかしながら、公開データセットの参照キャプションは、最も有意義な共通オブジェクトをしばしば記述するので、テキスト類似性目標で訓練されたモデルは、他のものと区別する画像の特定の詳細な側面を無視しがちである。 より記述的で特徴的なキャプション生成に向けて,web から巨大な画像テキストペアをトレーニングしたマルチモーダルエンコーダ clip を用いて,マルチモーダル類似度を計算し,報酬関数として利用する。 また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。 これにより、報酬計算中に参照キャプションの必要性が完全に排除される。 記述的キャプションを包括的に評価するために,詳細な基準を持つキャプション評価のための新しいデータセットである finecapeval を紹介する。 テキスト・ツー・イメージ検索とFineCapEvalの実験では,提案したCLIP誘導モデルの方がCIDEr最適化モデルよりも顕著なキャプションを生成する。 また,CLIPテキストエンコーダの教師なし文法の微調整は,CLIP報酬の劣化問題を緩和することを示した。 最後に,アノテータが,様々な基準に従って,サイダーやmleの目標に対して,クリップ報酬を強く好む人間分析を示す。 コードとデータ:https://github.com/j-min/CLIP-Caption-Reward

Modern image captioning models are usually trained with text similarity objectives. However, since reference captions in public datasets often describe the most salient common objects, models trained with text similarity objectives tend to ignore specific and detailed aspects of an image that distinguish it from others. Toward more descriptive and distinctive caption generation, we propose using CLIP, a multimodal encoder trained on huge image-text pairs from web, to calculate multimodal similarity and use it as a reward function. We also propose a simple finetuning strategy of the CLIP text encoder to improve grammar that does not require extra text annotation. This completely eliminates the need for reference captions during the reward computation. To comprehensively evaluate descriptive captions, we introduce FineCapEval, a new dataset for caption evaluation with fine-grained criteria: overall, background, object, relations. In our experiments on text-to-image retrieval and FineCapEval, the proposed CLIP-guided model generates more distinctive captions than the CIDEr-optimized model. We also show that our unsupervised grammar finetuning of the CLIP text encoder alleviates the degeneration problem of the naive CLIP reward. Lastly, we show human analysis where the annotators strongly prefer the CLIP reward to the CIDEr and MLE objectives according to various criteria. Code and Data: https://github.com/j-min/CLIP-Caption-Reward
翻訳日:2023-03-31 18:18:11 公開日:2023-03-29
# 多次元量子ウォークと$k$-distinctnessへの応用

Multidimensional Quantum Walks, with Application to $k$-Distinctness ( http://arxiv.org/abs/2208.13492v2 )

ライセンス: Link先を確認
Stacey Jeffery and Sebastian Zur(参考訳) k$-distinctness の量子クエリの複雑性は、任意の定数 $k \geq 4$ に対して $o\left(n^{3/4-1/4(2^k-1)}\right)$ であることが知られているが、時間的複雑性の最高の上限は $\widetilde{o}\left(n^{1-1/k}\right)$ である。 新しい上限である$\widetilde{o}\left(n^{3/4-1/4(2^k-1)}\right)$を時間複雑性に与え、クエリの複雑さを多対数因子に一致させる。 この上限を達成するために,電気ネットワークフレームワークの拡張である量子ウォーク探索アルゴリズムを設計する新しい手法を提案する。 また,この新しい手法を用いて,溶接木問題の解法を$o(n)$クエリと$o(n^2)$ timeで示し,量子ウォークフレームワークが指数関数的な高速化を実現することを示す。

While the quantum query complexity of $k$-distinctness is known to be $O\left(n^{3/4-1/4(2^k-1)}\right)$ for any constant $k \geq 4$, the best previous upper bound on the time complexity was $\widetilde{O}\left(n^{1-1/k}\right)$. We give a new upper bound of $\widetilde{O}\left(n^{3/4-1/4(2^k-1)}\right)$ on the time complexity, matching the query complexity up to polylogarithmic factors. In order to achieve this upper bound, we give a new technique for designing quantum walk search algorithms, which is an extension of the electric network framework. We also show how to solve the welded trees problem in $O(n)$ queries and $O(n^2)$ time using this new technique, showing that the new quantum walk framework can achieve exponential speedups.
翻訳日:2023-03-31 18:10:00 公開日:2023-03-29
# 相互情報マシンによる微小分子生成の改善

Improving Small Molecule Generation using Mutual Information Machine ( http://arxiv.org/abs/2208.09016v2 )

ライセンス: Link先を確認
Danny Reidenbach and Micha Livne and Rajesh K. Ilango and Michelle Gill and Johnny Israeli(参考訳) 我々は、特定の制約下で望ましい性質を持つ新規な分子(例えば、参照分子との類似性)を見つけることを伴う、小さな分子の制御的生成のタスクに対処する。 ここでは,情報的かつクラスタ化された潜伏空間を学習する小型分子ドラッグ発見のための確率論的オートエンコーダであるMolMIMを紹介する。 MolMIMはMultual Information Machine (MIM)学習で訓練され、可変長SMILES文字列の固定長表現を提供する。 エンコーダ・デコーダモデルは不正なサンプルの ‘holes'' で表現を学習できるため, 密集した潜在空間を促進する訓練手順を新たに拡張し, 潜在コードのランダムな摂動から有効な分子をサンプリングする手法を提案する。 そこで本研究では,M MolMIM といくつかの可変サイズおよび固定サイズエンコーダデコーダモデルとの徹底的な比較を行い,妥当性,特異性,新規性の観点から,M MolMIM の優れた世代を実証する。 次に,CMA-ES, ナイーブなブラックボックスと勾配自由探索アルゴリズムを, プロパティ誘導分子最適化のタスクとして, MolMIM の潜在空間上で利用する。 本研究では,複数の制約付き単一特性最適化タスクと多目的最適化の課題により,これまでの成功率sotaを52%以上向上させた。 CMA-ES はベースライン最適化法としてよく用いられるが,本手法は遅延空間で類似分子をクラスター化する MolMIM の潜在表現に強く寄与する。 また,計算リミット方式では,M MolMIM が好適であることが示され,そのような場合の魅力的なモデルとなっている。

We address the task of controlled generation of small molecules, which entails finding novel molecules with desired properties under certain constraints (e.g., similarity to a reference molecule). Here we introduce MolMIM, a probabilistic auto-encoder for small molecule drug discovery that learns an informative and clustered latent space. MolMIM is trained with Mutual Information Machine (MIM) learning, and provides a fixed length representation of variable length SMILES strings. Since encoder-decoder models can learn representations with ``holes'' of invalid samples, here we propose a novel extension to the training procedure which promotes a dense latent space, and allows the model to sample valid molecules from random perturbations of latent codes. We provide a thorough comparison of MolMIM to several variable-size and fixed-size encoder-decoder models, demonstrating MolMIM's superior generation as measured in terms of validity, uniqueness, and novelty. We then utilize CMA-ES, a naive black-box and gradient free search algorithm, over MolMIM's latent space for the task of property guided molecule optimization. We achieve state-of-the-art results in several constrained single property optimization tasks as well as in the challenging task of multi-objective optimization, improving over previous success rate SOTA by more than 5\% . We attribute the strong results to MolMIM's latent representation which clusters similar molecules in the latent space, whereas CMA-ES is often used as a baseline optimization method. We also demonstrate MolMIM to be favourable in a compute limited regime, making it an attractive model for such cases.
翻訳日:2023-03-31 18:09:10 公開日:2023-03-29
# 低リソース多言語ニューラルマシン翻訳のための言語ファミリーアダプタ

Language-Family Adapters for Low-Resource Multilingual Neural Machine Translation ( http://arxiv.org/abs/2209.15236v3 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Dario Stojanovski, Alexander Fraser(参考訳) 自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。 自己教師付き事前訓練モデルは、機械翻訳のために1つまたは複数の言語ペアの並列データに基づいて微調整されることが多い。 マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。 各言語ペアに新しいアダプタをトレーニングしたり、事前訓練されたモデルを更新することなく、すべての言語ペアに単一のアダプタをトレーニングしたりする方法が提案されている。 しかし、前者は言語間の共有を許可せず、後者はすべての言語のパラメータを共有し、負の干渉の影響を受けやすい。 本稿では,mBART-50をベースとした言語対応アダプタを提案する。 提案手法は,英語から17種類の低リソース言語への翻訳において,平均的な翻訳スコアが向上する。 また,言語ファミリーアダプタは,事前学習中に認識できない言語に翻訳する効果的な方法であることを示す。

Large multilingual models trained with self-supervision achieve state-of-the-art results in a wide range of natural language processing tasks. Self-supervised pretrained models are often fine-tuned on parallel data from one or multiple language pairs for machine translation. Multilingual fine-tuning improves performance on low-resource languages but requires modifying the entire model and can be prohibitively expensive. Training a new adapter on each language pair or training a single adapter on all language pairs without updating the pretrained model has been proposed as a parameter-efficient alternative. However, the former does not permit any sharing between languages, while the latter shares parameters for all languages and is susceptible to negative interference. In this paper, we propose training language-family adapters on top of mBART-50 to facilitate cross-lingual transfer. Our approach outperforms related baselines, yielding higher translation scores on average when translating from English to 17 different low-resource languages. We also show that language-family adapters provide an effective method to translate to languages unseen during pretraining.
翻訳日:2023-03-31 18:00:15 公開日:2023-03-29
# スパース動的特徴の生成とパーキンソン病診断への応用

Sparse Dynamical Features generation, application to Parkinson's Disease diagnosis ( http://arxiv.org/abs/2210.11624v2 )

ライセンス: Link先を確認
Houssem Meghnoudj (1), Bogdan Robu (1), Mazen Alamir (1) ((1) Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, 38000 Grenoble, France)(参考訳) 本研究では,脳波信号(eeg)に基づくパーキンソン病(pd)の診断に焦点をあてた。 そこで本研究では,脳波の動態,頻度,時間的内容を利用して脳の機能に触発された新しいアプローチを提案する。 本手法は,n=50名を対象にした3オドボール聴覚課題中に記録された脳波信号を含むデータセット上で評価した。 2つの特徴を抽出し,LDA(Linear Discriminant Analysis)分類器を用いて直線で分離することにより,健常者から健常者を90 %$(p < 0.03)$の精度で分離することができる。 3つのチャンネルから情報を集約して投票することで、94%の精度、96%の感度、92%の特異性が得られる。 ネストしたLeave-One-Outクロスバリデーション手法を用いて評価を行い,データ漏洩問題を防止するとともに,バイアスの少ない評価を行った。 トレーニングに利用可能なデータの半分しか使用していないテストを含む,アプローチの有効性と堅牢性を評価するために,いくつかのテストを実施した。 この制約の下で、モデルは83.8 %の精度を達成する。

In this study we focus on the diagnosis of Parkinson's Disease (PD) based on electroencephalogram (EEG) signals. We propose a new approach inspired by the functioning of the brain that uses the dynamics, frequency and temporal content of EEGs to extract new demarcating features of the disease. The method was evaluated on a publicly available dataset containing EEG signals recorded during a 3-oddball auditory task involving N = 50 subjects, of whom 25 suffer from PD. By extracting two features, and separating them with a straight line using a Linear Discriminant Analysis (LDA) classifier, we can separate the healthy from the unhealthy subjects with an accuracy of 90 % $(p < 0.03)$ using a single channel. By aggregating the information from three channels and making them vote, we obtain an accuracy of 94 %, a sensitivity of 96 % and a specificity of 92 %. The evaluation was carried out using a nested Leave-One-Out cross-validation procedure, thus preventing data leakage problems and giving a less biased evaluation. Several tests were carried out to assess the validity and robustness of our approach, including the test where we use only half the available data for training. Under this constraint, the model achieves an accuracy of 83.8 %.
翻訳日:2023-03-31 17:49:55 公開日:2023-03-29
# パラメトリック増幅による捕捉2次元イオン結晶による量子シミュレーションとセンシングの改善に向けて

Towards Improved Quantum Simulations and Sensing with Trapped 2D Ion Crystals via Parametric Amplification ( http://arxiv.org/abs/2301.08195v3 )

ライセンス: Link先を確認
Matt Affolter, Wenchao Ge, Bryce Bullock, Shaun C. Burd, Kevin A. Gilmore, Jennifer F. Lilieholm, Allison L. Carter, John J. Bollinger(参考訳) コヒーレンスの改善は、量子シミュレーションとトラップイオンを用いたセンシング実験における根本的な課題である。 そこで我々は, スピン依存力で得られたイオンの運動パラメトリック励起により, 粒子のコヒーレントなスピン運動結合を増強する2つの異なるプロトコルの潜在的影響を, 実験的に検証し, 評価する。 実験はペニングトラップに閉じ込められた約100ドル^9$Be$^+$イオンの2次元結晶アレイ上で実施される。 中心モード周波数の約2倍のトラッピング電位を変調することにより、運動モードを圧縮し、スピンコヒーレンスを維持しながらスピン-モーションカップリングを増強する。 ストロボスコピックのプロトコルでは、基底状態の運動より下方で5.4 \pm 0.9$ dbの運動を計測し、理論では、最近実証されたプロトコル[science $\textbf{373}$, 673 (2021)]を使用して、小さな変位を測定する感度の10ドルのdbを予測している。 連続的スクイーズプロトコルを用いてパラメトリック結合強度を測定し,正確に測定する。 理論上、このプロトコルは、オフ共鳴光散乱によってシステム内で制限された量子スピンスクイーズを改善するために使用できる。 本研究では, 強いパラメトリック増幅と運動強調のトレードオフを, 中心周波数変動の形で数値的に説明し, 設定時の量子スピンスクイーズを改善する。

Improving coherence is a fundamental challenge in quantum simulation and sensing experiments with trapped ions. Here we discuss, experimentally demonstrate, and estimate the potential impacts of two different protocols that enhance, through motional parametric excitation, the coherent spin-motion coupling of ions obtained with a spin-dependent force. The experiments are performed on 2D crystal arrays of approximately one hundred $^9$Be$^+$ ions confined in a Penning trap. By modulating the trapping potential at close to twice the center-of-mass mode frequency, we squeeze the motional mode and enhance the spin-motion coupling while maintaining spin coherence. With a stroboscopic protocol, we measure $5.4 \pm 0.9$ dB of motional squeezing below the ground-state motion, from which theory predicts a $10$ dB enhancement in the sensitivity for measuring small displacements using a recently demonstrated protocol [Science $\textbf{373}$, 673 (2021)]. With a continuous squeezing protocol, we measure and accurately calibrate the parametric coupling strength. Theory suggests this protocol can be used to improve quantum spin squeezing, limited in our system by off-resonant light scatter. We illustrate numerically the trade-offs between strong parametric amplification and motional dephasing in the form of center-of-mass frequency fluctuations for improving quantum spin squeezing in our set-up.
翻訳日:2023-03-31 17:24:47 公開日:2023-03-29
# 不確実性定量化を用いた物理システムモデリングのための物理情報場理論

Physics-informed Information Field Theory for Modeling Physical Systems with Uncertainty Quantification ( http://arxiv.org/abs/2301.07609v2 )

ライセンス: Link先を確認
Alex Alberts, Ilias Bilionis(参考訳) データ駆動アプローチと物理知識は、システムをモデル化するための強力なテクニックである。 このようなモデルの目標は、測定を既知の物理法則と組み合わせることで、基礎となる分野を効率的に解くことである。 多くのシステムは、欠落パラメータ、ノイズデータ、不完全物理法則などの未知の要素を含むため、これは不確実な定量化問題として広くアプローチされている。 すべての変数を扱う一般的な手法は、一般に後部を近似するために使用される数値スキームに依存しており、そのような離散化に依存しない方法を持つことが望ましい。 情報場理論(IFT)は、必ずしもガウス的ではない分野の統計を行うために必要なツールを提供する。 IFT を物理インフォームド IFT (PIFT) に拡張し,フィールドを記述する物理法則に関する情報を符号化する。 このPIFTから派生した後部は任意の数値スキームとは独立であり、複数のモードをキャプチャできるため、不適切な問題の解が得られる。 Klein-Gordon方程式を含む解析的な例を通して、我々のアプローチを実証する。 次に, 確率勾配ランジュバン力学の変種を開発し, 関節後方からフィールド上およびモデルパラメータ上にサンプルを抽出した。 本手法は, モデル形式誤差の異なる数値例と非線形微分方程式を含む逆問題に適用する。 加算として、後部がモデル形式の不確実性を自動的に定量化できるメートル法を備える。 このため, 数値実験により, この手法は十分なデータが得られる物理の誤った表現に対しても頑健であることがわかった。 本手法は,物理が信頼できない場合に正しく識別できることを数値的に証明し,その場合,フィールドの学習を回帰問題として自動的に扱う。

Data-driven approaches coupled with physical knowledge are powerful techniques to model systems. The goal of such models is to efficiently solve for the underlying field by combining measurements with known physical laws. As many systems contain unknown elements, such as missing parameters, noisy data, or incomplete physical laws, this is widely approached as an uncertainty quantification problem. The common techniques to handle all the variables typically depend on the numerical scheme used to approximate the posterior, and it is desirable to have a method which is independent of any such discretization. Information field theory (IFT) provides the tools necessary to perform statistics over fields that are not necessarily Gaussian. We extend IFT to physics-informed IFT (PIFT) by encoding the functional priors with information about the physical laws which describe the field. The posteriors derived from this PIFT remain independent of any numerical scheme and can capture multiple modes, allowing for the solution of problems which are ill-posed. We demonstrate our approach through an analytical example involving the Klein-Gordon equation. We then develop a variant of stochastic gradient Langevin dynamics to draw samples from the joint posterior over the field and model parameters. We apply our method to numerical examples with various degrees of model-form error and to inverse problems involving nonlinear differential equations. As an addendum, the method is equipped with a metric which allows the posterior to automatically quantify model-form uncertainty. Because of this, our numerical experiments show that the method remains robust to even an incorrect representation of the physics given sufficient data. We numerically demonstrate that the method correctly identifies when the physics cannot be trusted, in which case it automatically treats learning the field as a regression problem.
翻訳日:2023-03-31 17:24:18 公開日:2023-03-29
# 視覚言語事前学習のためのフィルタリング, 蒸留, ハードネガティブ

Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training ( http://arxiv.org/abs/2301.02280v2 )

ライセンス: Link先を確認
Filip Radenovic, Abhimanyu Dubey, Abhishek Kadian, Todor Mihaylov, Simon Vandenhende, Yash Patel, Yi Wen, Vignesh Ramanathan, Dhruv Mahajan(参考訳) 大規模雑音データに対するコントラスト学習を訓練した視覚言語モデルが,ゼロショット認識問題に対してますます人気が高まっている。 本稿では,データセットノイズ,モデル初期化,トレーニング目標という,コントラスト型事前学習パイプラインの3つの側面を改善する。 まず,複雑性,動作,テキストスポッティング(cat)という,ゼロショットビジョン言語タスクにおける性能向上を実現しつつ,データセットサイズを大幅に削減する簡単なフィルタリング戦略を提案する。 次に,従来の作業に勝るものの,トレーニングの複雑さを増さないコントラッシブトレーニングにおいて,強い一助表現を活用するための概念蒸留法を提案する。 最後に,従来のコントラストアライメントの目標を変更し,複雑さを増すことなくハードネガティブスの重要性をアップサンプルする重要サンプリング手法を提案する。 29タスクの広範囲なゼロショットベンチマークでは、DHT(Distilled and Hard- negative Training)アプローチがベースラインと比較して20タスクを改善する。 さらに, ゼロショットとマイショットのギャップを橋渡しし, 先行作業よりも大幅に改善する新しい手法を提案する。 モデルはhttps://github.com/facebookresearch/dihtで入手できる。

Vision-language models trained with contrastive learning on large-scale noisy data are becoming increasingly popular for zero-shot recognition problems. In this paper we improve the following three aspects of the contrastive pre-training pipeline: dataset noise, model initialization and the training objective. First, we propose a straightforward filtering strategy titled Complexity, Action, and Text-spotting (CAT) that significantly reduces dataset size, while achieving improved performance across zero-shot vision-language tasks. Next, we propose an approach titled Concept Distillation to leverage strong unimodal representations for contrastive training that does not increase training complexity while outperforming prior work. Finally, we modify the traditional contrastive alignment objective, and propose an importance-sampling approach to up-sample the importance of hard-negatives without adding additional complexity. On an extensive zero-shot benchmark of 29 tasks, our Distilled and Hard-negative Training (DiHT) approach improves on 20 tasks compared to the baseline. Furthermore, for few-shot linear probing, we propose a novel approach that bridges the gap between zero-shot and few-shot performance, substantially improving over prior work. Models are available at https://github.com/facebookresearch/diht.
翻訳日:2023-03-31 17:23:31 公開日:2023-03-29
# 人工知能の心理学における「正しい答え」

"Correct answers" from the psychology of artificial intelligence ( http://arxiv.org/abs/2302.07267v4 )

ライセンス: Link先を確認
Peter S. Park, Philipp Schoenegger, Chongyang Zhu(参考訳) 我々は,M many Labs 2 複製プロジェクト (Klein et al., 2018) の14の心理学研究を OpenAI のtext-davinci-003 モデルで再現した。 分析可能な8つの研究のうち、GPTサンプルは元の結果の37.5%とM many Labs 2の結果の37.5%を複製した。 我々が「正しい答え」効果と呼ぶ予期せぬ現象のために、残りの6つの研究を分析できなかった。 GPT3.5の様々な実行は、政治的指向、経済的嗜好、判断、道徳哲学を、応答のゼロまたはほぼゼロのばらつき、すなわち「正しい答え」とみなす、曖昧な疑問に答えた。 これらの「正しい答え」のほとんどは、答えの選択の順序を変えるのに頑健ではなかった。 GPT3.5 は元の状態 (N=1,030, 99.6%) において保守的であり、逆順序条件 (N=1,030, 99.3%) ではリベラルであるとほぼ常に認識されていた。 gpt3.5のその後の質問に対する反応は、ポストホックな合理化を明らかにした。 しかし、自己報告のGPT保守派と自己報告のGPTリベラル派は、自己報告のGPTリベラル派の右寄りの偏見は弱かったものの、右寄りのMoral Foundationsを明らかにした。 このパターンは、主にインターネットベースのトレーニングデータにおける保守的なバイアスから学習されたと仮定する。 未来のAIモデルは、GPT3.5と同じインターネットデータに基づいて訓練される可能性があるため、私たちの結果は、仮説的なAIによる未来が、思考の多様性の低下に直面するのではないかという懸念を提起する。

We re-replicate 14 psychology studies from the Many Labs 2 replication project (Klein et al., 2018) with OpenAI's text-davinci-003 model, colloquially known as GPT3.5. Among the eight studies we could analyse, our GPT sample replicated 37.5% of the original results and 37.5% of the Many Labs 2 results. We could not analyse the remaining six studies, due to an unexpected phenomenon we call the "correct answer" effect. Different runs of GPT3.5 answered nuanced questions probing political orientation, economic preference, judgement, and moral philosophy with zero or near-zero variation in responses: with the supposedly "correct answer." Most but not all of these "correct answers" were robust to changing the order of answer choices. One exception occurred in the Moral Foundations Theory survey (Graham et al., 2009), for which GPT3.5 almost always identified as a conservative in the original condition (N=1,030, 99.6%) and as a liberal in the reverse-order condition (N=1,030, 99.3%). GPT3.5's responses to subsequent questions revealed post-hoc rationalisation; there was a relative bias in the direction of its previously reported political orientation. But both self-reported GPT conservatives and self-reported GPT liberals revealed right-leaning Moral Foundations, although the right-leaning bias of self-reported GPT liberals was weaker. We hypothesise that this pattern was learned from a conservative bias in the model's largely Internet-based training data. Since AI models of the future may be trained on much of the same Internet data as GPT3.5, our results raise concerns that a hypothetical AI-led future may be subject to a diminished diversity of thought.
翻訳日:2023-03-31 17:14:38 公開日:2023-03-29
# 六方晶窒化ホウ素中の量子エミッタを用いた量子鍵分布

Quantum Key Distribution Using a Quantum Emitter in Hexagonal Boron Nitride ( http://arxiv.org/abs/2302.06212v2 )

ライセンス: Link先を確認
Ali Al-Juboori, Helen Zhi Jie Zeng, Minh Anh Phan Nguyen, Xiaoyu Ai, Arne Laucht, Alexander Solntsev, Milos Toth, Robert Malaney, and Igor Aharonovich(参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、様々な潜在的な量子技術で広く実装される最も直接的な応用と考えられている。 QKDは、フォトンを情報キャリアとして使用することで、遠隔ユーザー間で秘密鍵を共有することができる。 進行中の取り組みは、現実のシナリオで効率的にデプロイできるように、堅牢でコンパクトな方法でこれらのプロトコルを実践することである。 固体材料の単一光子源(sps)はこの点で素候補である。 本稿では,自由空間で動作する六方晶窒化ボロン中の明るい単一光子源を用いて,室温で離散可変な量子鍵分布系を示す。 交換が容易な光子ソースシステムを使用して、100万ビットの長さの鍵を生成し、約70,000ビットの秘密鍵を量子ビットエラー率6%で実証し、$10^{-10}$の$\varepsilon$-securityを実現した。 本研究は,hBN欠陥で実現した有限鍵BB84QKDシステムの最初の証明である。

Quantum Key Distribution (QKD) is considered the most immediate application to be widely implemented amongst a variety of potential quantum technologies. QKD enables sharing secret keys between distant users, using photons as information carriers. An ongoing endeavour is to implement these protocols in practice in a robust, and compact manner so as to be efficiently deployable in a range of real-world scenarios. Single Photon Sources (SPS) in solid-state materials are prime candidates in this respect. Here, we demonstrate a room temperature, discrete-variable quantum key distribution system using a bright single photon source in hexagonal-boron nitride, operating in free-space. Employing an easily interchangeable photon source system, we have generated keys with one million bits length, and demonstrated a secret key of approximately 70,000 bits, at a quantum bit error rate of 6%, with $\varepsilon$-security of $10^{-10}$. Our work demonstrates the first proof of concept finite-key BB84 QKD system realised with hBN defects.
翻訳日:2023-03-31 17:14:05 公開日:2023-03-29
# スクイーズと励磁によるスウィントランスを用いた表情認識

Facial Expression Recognition using Squeeze and Excitation-powered Swin Transformers ( http://arxiv.org/abs/2301.10906v4 )

ライセンス: Link先を確認
Arpita Vats, Aman Chadha(参考訳) 顔の感情の解釈は人間のコミュニケーションにおいて重要な役割を担い、幸福、悲しみ、怒りなどの感情を表情や声のトーンを通じて認識することができる。 Facial Emotion Recognition (FER) は、コンピュータビジョンとAIに大きな関心を持つ分野であり、セキュリティ、広告、エンターテイメントなど幅広い学術的、商業的可能性を秘めている。 本稿では,swin vision transformers (swint) と squeeze and excitation block (se) に基づくferフレームワークを提案する。 我々のアプローチでは、SEとシャープネス認識最小化器(SAM)を備えたビジョントランスフォーマーを使用します。 我々の課題は、少量のデータを使って顔の感情を検出するSwinT設定に基づいた優れたFERモデルを作ることでした。 ハイブリッドデータセットを使用してモデルをトレーニングし、AffectNetデータセットのパフォーマンスを評価し、F1スコアの0.5420を達成しました。 私たちのモデルは、2022年欧州コンピュータビジョン会議(ECCV)と共同で開催されたABAWコンペティションの勝者よりも優れています。

The interpretation of facial emotions plays a crucial role in human communication, allowing people to recognize emotions such as happiness, sadness, and anger through facial expressions and vocal tones. Facial Emotion Recognition (FER) is an area of great interest in computer vision and AI, with extensive academic and commercial potential, including security, advertising, and entertainment. We present a FER framework based on Swin vision Transformers (SwinT) and squeeze and excitation block (SE), which utilizes a transformer model with an attention mechanism to address vision tasks. Our approach uses a vision transformer with SE and a sharpness-aware minimizer (SAM), as transformers typically require substantial data to be as efficient as other competitive models. Our challenge was to create a good FER model based on the SwinT configuration with the ability to detect facial emotions using a small amount of data. We used a hybrid dataset to train our model and evaluated its performance on the AffectNet dataset, achieving an F1-score of 0.5420. Our model outperformed the winner of the (ABAW) Competition, which was held in conjunction with the European Conference on Computer Vision (ECCV) 2022
翻訳日:2023-03-31 17:13:34 公開日:2023-03-29
# フェルミオン量子近似最適化アルゴリズム

Fermionic Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2301.10756v2 )

ライセンス: Link先を確認
Takuya Yoshioka, Keita Sasada, Yuichiro Nakano, and Keisuke Fujii(参考訳) 量子コンピュータは、グロバー適応探索や量子近似最適化アルゴリズム(QAOA)などのアルゴリズムを含む組合せ最適化問題を解くことを期待されている。 しかし、多くの組合せ最適化問題には、コスト関数にソフト制約として課される場合、最適化アルゴリズムの性能に悪影響を及ぼす制約が伴う。 本稿では,制約付き組合せ最適化問題を解くためのフェルミオン量子近似最適化アルゴリズム(fqaoa)を提案する。 特に、FQAOAは、フェルミオン粒子数保存を用いて、QAOA全体を通して本質的にそれらを強制する制約に対処する。 制約のある問題ハミルトニアンに対してドライバハミルトニアンを設計するための体系的なガイドラインを提供する。 初期状態は、ドライバーハミルトニアンの制約と基底状態を満たす状態の重ね合わせとして選択することができる。 この性質は、fqaoaが回路深度pの限界で量子断熱計算に還元され、トロッタ化量子断熱進化によって決定される固定角からパラメータを最適化した浅い回路でも性能が向上するため重要である。 本稿では,FQAOAがポートフォリオ最適化問題における既存手法に対して大きな性能上の優位性をもたらすことを示す。 さらに、ハミルトニアン設計ガイドラインはqaoaだけでなくグローバー適応探索や量子位相推定にも有用であり、制約付き組合せ最適化問題を解く。 フェミオン系のためのソフトウェアツールは、ノイズの多い中間量子コンピュータとフォールトトレラント量子コンピュータの両方で量子計算化学において開発されたため、FQAOAはこれらのツールを制約付き組合せ最適化問題に適用することができる。

Quantum computers are expected to accelerate solving combinatorial optimization problems, including algorithms such as Grover adaptive search and quantum approximate optimization algorithm (QAOA). However, many combinatorial optimization problems involve constraints which, when imposed as soft constraints in the cost function, can negatively impact the performance of the optimization algorithm. In this paper, we propose fermionic quantum approximate optimization algorithm (FQAOA) for solving combinatorial optimization problems with constraints. Specifically FQAOA tackle the constrains issue by using fermion particle number preservation to intrinsically impose them throughout QAOA. We provide a systematic guideline for designing the driver Hamiltonian for a given problem Hamiltonian with constraints. The initial state can be chosen to be a superposition of states satisfying the constraint and the ground state of the driver Hamiltonian. This property is important since FQAOA reduced to quantum adiabatic computation in the large limit of circuit depth p and improved performance, even for shallow circuits with optimizing the parameters starting from the fixed-angle determined by Trotterized quantum adiabatic evolution. We perform an extensive numerical simulation and demonstrates that proposed FQAOA provides substantial performance advantage against existing approaches in portfolio optimization problems. Furthermore, the Hamiltonian design guideline is useful not only for QAOA, but also Grover adaptive search and quantum phase estimation to solve combinatorial optimization problems with constraints. Since software tools for fermionic systems have been developed in quantum computational chemistry both for noisy intermediate-scale quantum computers and fault-tolerant quantum computers, FQAOA allows us to apply these tools for constrained combinatorial optimization problems.
翻訳日:2023-03-31 17:13:12 公開日:2023-03-29
# DejaVu: ディエンス予測を促進する条件付き再生学習

DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction ( http://arxiv.org/abs/2303.01573v2 )

ライセンス: Link先を確認
Shubhankar Borse, Debasmit Das, Hyojin Park, Hong Cai, Risheek Garrepalli, Fatih Porikli(参考訳) DejaVuは、条件付き画像再生をトレーニング中に追加の監視として活用し、セグメンテーション、深度推定、表面正規予測などの密集予測タスクのためのディープネットワークを改善する新しいフレームワークである。 まず,入力画像に冗長性を適用し,サンプリングや選択的周波数除去によって特定の構造情報を除去した。 次に,再現された画像と高密度予測を入力とし,欠落した構造情報を埋めて元の画像を再構成する条件付再生器を用いる。 修正画像では、境界のような構造的属性が壊れ、セマンティックコンテキストは大部分が保存される。 再生を可能にするために、条件生成器は他の入力源、すなわち密度の高い予測からの構造情報を必要とする。 このように、トレーニング中にこの条件付き再生目標を含めることで、DejaVuはその密集した予測に正確なシーン構造を埋め込むことを学ぶことを促す。 これにより、より明確な境界とより良い空間整合性を持つより正確な予測が導かれる。 追加計算を活用可能であれば、集中予測ネットワークに注意に基づく再生モジュールを組み込むように拡張して、精度をさらに向上させることができる。 Cityscapes、COCO、ADE20K、NYUD-v2、KITTIといった複数の密集予測ベンチマークに関する広範な実験を通じて、トレーニング中にDejaVuを用いることの有効性を実証する。

We present DejaVu, a novel framework which leverages conditional image regeneration as additional supervision during training to improve deep networks for dense prediction tasks such as segmentation, depth estimation, and surface normal prediction. First, we apply redaction to the input image, which removes certain structural information by sparse sampling or selective frequency removal. Next, we use a conditional regenerator, which takes the redacted image and the dense predictions as inputs, and reconstructs the original image by filling in the missing structural information. In the redacted image, structural attributes like boundaries are broken while semantic context is largely preserved. In order to make the regeneration feasible, the conditional generator will then require the structure information from the other input source, i.e., the dense predictions. As such, by including this conditional regeneration objective during training, DejaVu encourages the base network to learn to embed accurate scene structure in its dense prediction. This leads to more accurate predictions with clearer boundaries and better spatial consistency. When it is feasible to leverage additional computation, DejaVu can be extended to incorporate an attention-based regeneration module within the dense prediction network, which further improves accuracy. Through extensive experiments on multiple dense prediction benchmarks such as Cityscapes, COCO, ADE20K, NYUD-v2, and KITTI, we demonstrate the efficacy of employing DejaVu during training, as it outperforms SOTA methods at no added computation cost.
翻訳日:2023-03-31 17:06:28 公開日:2023-03-29
# MRET:ビデオ品質評価のためのマルチレゾリューショントランス

MRET: Multi-resolution Transformer for Video Quality Assessment ( http://arxiv.org/abs/2303.07489v2 )

ライセンス: Link先を確認
Junjie Ke, Tianhao Zhang, Yilin Wang, Peyman Milanfar, Feng Yang(参考訳) ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。 ビデオ認識タスクとは異なり、VQAタスクは入力解像度の変化に敏感である。 現在、UGCビデオの量は720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオで高周波の詳細を欠いている。 本稿では,高分解能な品質情報を保存する新しいNR-VQAフレームワークを提案する。 マルチレゾリューション入力表現と新しいマルチレゾリューションパッチサンプリング機構により,グローバルなビデオ合成と局所的な高レゾリューションの詳細の両方を包括的に見ることができる。 提案手法は,空間次元と時間次元の異なる粒度にわたる品質情報を効果的に集約し,入力解像度の変動に頑健なモデルを実現する。 提案手法は,大規模 UGC VQA データセット LSVQ と LSVQ-1080p と KoNViD-1k と LIVE-VQC を微調整することなく,最先端の性能を実現する。

No-reference video quality assessment (NR-VQA) for user generated content (UGC) is crucial for understanding and improving visual experience. Unlike video recognition tasks, VQA tasks are sensitive to changes in input resolution. Since large amounts of UGC videos nowadays are 720p or above, the fixed and relatively small input used in conventional NR-VQA methods results in missing high-frequency details for many videos. In this paper, we propose a novel Transformer-based NR-VQA framework that preserves the high-resolution quality information. With the multi-resolution input representation and a novel multi-resolution patch sampling mechanism, our method enables a comprehensive view of both the global video composition and local high-resolution details. The proposed approach can effectively aggregate quality information across different granularities in spatial and temporal dimensions, making the model robust to input resolution variations. Our method achieves state-of-the-art performance on large-scale UGC VQA datasets LSVQ and LSVQ-1080p, and on KoNViD-1k and LIVE-VQC without fine-tuning.
翻訳日:2023-03-31 16:56:04 公開日:2023-03-29
# 歪んだ余剰次元における絡み合いによる質量および質量重力の探索

Probing massless and massive gravitons via entanglement in a warped extra dimension ( http://arxiv.org/abs/2303.07371v2 )

ライセンス: Link先を確認
Shafaq Gulzar Elahi and Anupam Mazumdar(参考訳) 重力の量子の性質は、重力が古典的実体であれば不可能である2つの量子系の間の絡み合いを観測することで実験室で観測することができる。 本稿では,高次元,特に5次元反ド・ジッター時空(ads_5$)のゆがんだ余剰次元の効果を調べるための簡単な例を示す。 2つの量子調和振動子は、ads_5$に埋め込まれた3ブレーン(我々の4dワールド)上で距離$d$で保たれ、重力は5次元全てに伝播できると仮定する。 我々は、ゆがんだ幾何学で伝播する質量と巨大な重力を統合することで、効果的なポテンシャルを計算する。 静的ケースと非静的ケースの両方の位置と運動量状態の絡み合いを計算する。 エンタングルメントは4次元の質量を持たない重力よりも強くなり、現在はads_5$半径に依存する。 10-14}-10^{-15}$kgと${\cal o}(20)$ micronの重ね合わせで、非ガウス的重ね合わせ状態、例えば10-14}-10^{-15}$kgの空間的重ね合わせを準備すれば、オーダー${\cal o}(0.1)$のより大きな共起が得られることも示します。

Gravity's quantum nature can be probed in a laboratory by witnessing the entanglement between the two quantum systems, which cannot be possible if gravity is a classical entity. In this paper, we will provide a simple example where we can probe the effects of higher dimensions, in particular the warped extra dimension of five-dimensional Anti-de Sitter spacetime ($AdS_5$). We assume that the two quantum harmonic oscillators are kept at a distance $d$ on a 3-brane (our 4D world) embedded in $AdS_5$, while gravity can propagate in all five dimensions. We will compute the effective potential by integrating the massless and the massive gravitons which are propagating in the warped geometry. We will compute the entanglement between position and momentum states for both static and non-static cases. The entanglement enhances compared to the four-dimensional massless graviton, and it depends now on the $AdS_5$ radius. We will also show that if we would prepare non-Gaussian superposition states, e.g. spatial superposition of masses of order $10^{-14}-10^{-15}$kg with a superposition size of ${\cal O}(20)$ micron, we can yield larger concurrence of order ${\cal O}(0.1)$.
翻訳日:2023-03-31 16:55:36 公開日:2023-03-29
# Few-Shot 変圧器の仮設知識蒸留

Supervised Masked Knowledge Distillation for Few-Shot Transformers ( http://arxiv.org/abs/2303.15466v2 )

ライセンス: Link先を確認
Han Lin, Guangxing Han, Jiawei Ma, Shiyuan Huang, Xudong Lin, Shih-Fu Chang(参考訳) 視覚トランスフォーマー(vits)は、ローカル機能間の長距離依存関係をキャプチャすることで、多くのデータ冗長なコンピュータビジョンタスクで印象的なパフォーマンスを実現する。 しかし、少数のラベル付きデータしか持たない小さなデータセットのFSL設定では、ViTは過度に適合する傾向にあり、CNNのような誘導バイアスがないため、パフォーマンスが著しく低下する傾向にある。 FSLの以前の作業は、自己監督的な補助的損失の助けによって、または、監督された設定の下でラベル情報のデキスタイル的利用によって、そのような問題を避ける。 しかし、自己監督トランスフォーマーと監督された少数のトランスフォーマーの間のギャップは未埋めだ。 近年の自己監督型知識蒸留とマスク画像モデリング(MIM)の進歩に触発されて,ラベル情報を自己蒸留フレームワークに組み込んだ数ショットトランスフォーマーのための新しいスーパーバイザードマスケド知識蒸留モデル(SMKD)を提案する。 従来の自己監督手法と比較して,クラスおよびパッチトークンの双方において,クラス内知識の蒸留を可能にするとともに,クラス内画像間でのマスク付きパッチトークン再構築の課題を導入する。 4つの数ショット分類ベンチマークデータセットにおける実験結果から,単純な設計による手法は,従来の手法よりも大きなマージンを示し,新たな技術開始を達成した。 詳細なアブレーション研究により, モデルの各成分の有効性が確認された。 この論文のコードは、https://github.com/HL-hanlin/SMKD.comにある。

Vision Transformers (ViTs) emerge to achieve impressive performance on many data-abundant computer vision tasks by capturing long-range dependencies among local features. However, under few-shot learning (FSL) settings on small datasets with only a few labeled data, ViT tends to overfit and suffers from severe performance degradation due to its absence of CNN-alike inductive bias. Previous works in FSL avoid such problem either through the help of self-supervised auxiliary losses, or through the dextile uses of label information under supervised settings. But the gap between self-supervised and supervised few-shot Transformers is still unfilled. Inspired by recent advances in self-supervised knowledge distillation and masked image modeling (MIM), we propose a novel Supervised Masked Knowledge Distillation model (SMKD) for few-shot Transformers which incorporates label information into self-distillation frameworks. Compared with previous self-supervised methods, we allow intra-class knowledge distillation on both class and patch tokens, and introduce the challenging task of masked patch tokens reconstruction across intra-class images. Experimental results on four few-shot classification benchmark datasets show that our method with simple design outperforms previous methods by a large margin and achieves a new start-of-the-art. Detailed ablation studies confirm the effectiveness of each component of our model. Code for this paper is available here: https://github.com/HL-hanlin/SMKD.
翻訳日:2023-03-31 16:08:19 公開日:2023-03-29
# イオンと光空洞の分散結合における非線形性のフォッカー・プランク処理

Fokker-Planck treatment of nonlinearities in the dispersive coupling of an ion and an optical cavity ( http://arxiv.org/abs/2303.16936v1 )

ライセンス: Link先を確認
Alan Kahan, Leonardo Ermann, Marcos Saraceno, Cecilia Cormick(参考訳) 半古典的記述における異なる構成の不安定性を示すモデルとして, 分散系における光空洞と結合したイオンの研究を補完する。 我々のアプローチは相空間における途切れた進化に基づいており、完全量子力学的解が難しいが最も粗い半古典的アプローチでは本質的な現象を捉えることができない、特に興味深いパラメータ領域を探索することを目的としている。 我々は,量子進化の数値対角化による結果と比較し,その処理が系内の遷移の平滑化とわずかなシフトをもたらすが,局所化された半古典的近似よりも明らかに改善されることを確認した。

We complement previous studies of an ion coupled with an optical cavity in the dispersive regime, for a model which exhibits bistability of different configurations in the semiclassical description. Our approach is based on a truncated evolution in phase space and is intended to explore an especially interesting parameter region where the fully quantum-mechanical solution becomes hard but the crudest semiclassical approach fails to capture essential phenomena. We compare the results of our techniques with the ones from numerical diagonalization of the quantum evolution and find that although the treatment leads to a smoothening and a slight shift of the transitions in the system, it still provides a clear improvement over localized semiclassical approximations.
翻訳日:2023-03-31 15:41:36 公開日:2023-03-29
# 2+1)次元可逆フェルミオン状態とホフシュタッターの蝶の部分回転からの完全結晶的位相不変量

Complete crystalline topological invariants from partial rotations in (2+1)D invertible fermionic states and Hofstadter's butterfly ( http://arxiv.org/abs/2303.16919v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Naren Manjunath, Ryohei Kobayashi, Maissam Barkeshli(参考訳) 物質のトポロジカル相の理論は結晶対称性によってのみ保護される不変性を予測するが、一般に顕微鏡計算からどのように抽出するかは不明である。 ここで、${\text{o}}$ は (2+1)d の可逆フェルミオン状態における部分回転から高対称性点である、多体不変量 $\{\theta_{\text{o}}^{\pm}\}$ の組を抽出する方法を示す。 この結果は、以前の研究とは対照的に、磁場とチャーン数$C \neq 0$の存在に適用できる。 $\{\Theta_{\text{o}}^{\pm}\}$と$C$、キラル中心電荷$c_-$、および$\nu$は、対称性群$G = \text{U}(1) \times_\phi [\mathbb{Z}^2 \rtimes \mathbb{Z}_M]$で位相状態の完全な多体特徴づけを提供する。 さらに、これらの多体不変量は、追加の欠陥を挿入することなく、単一のバルク基底状態から得ることができる。 正方格子ホフスタッターモデルを用いて数値計算を行う。 注目すべきことに、これらの計算は共形場と位相場の理論の計算と一致し、$G$交差モジュラー$S, T$対称性欠陥の行列が重要な役割を果たす。 この結果はホフスタッターの蝶の新たな着色を提供し、離散シフトと量子化された電荷分極によって最近発見された着色を延ばした。

The theory of topological phases of matter predicts invariants protected only by crystalline symmetry, yet it has been unclear how to extract these from microscopic calculations in general. Here we show how to extract a set of many-body invariants $\{\Theta_{\text{o}}^{\pm}\}$, where ${\text{o}}$ is a high symmetry point, from partial rotations in (2+1)D invertible fermionic states. Our results apply in the presence of magnetic field and Chern number $C \neq 0$, in contrast to previous work. $\{\Theta_{\text{o}}^{\pm}\}$ together with $C$, chiral central charge $c_-$, and filling $\nu$ provide a complete many-body characterization of the topological state with symmetry group $G = \text{U}(1) \times_\phi [\mathbb{Z}^2 \rtimes \mathbb{Z}_M]$. Moreover, all these many-body invariants can be obtained from a single bulk ground state, without inserting additional defects. We perform numerical computations on the square lattice Hofstadter model. Remarkably, these match calculations from conformal and topological field theory, where $G$-crossed modular $S, T$ matrices of symmetry defects play a crucial role. Our results provide additional colorings of Hofstadter's butterfly, extending recently discovered colorings by the discrete shift and quantized charge polarization.
翻訳日:2023-03-31 15:41:23 公開日:2023-03-29
# ゲノミクスにおける特徴選択のための新しい深層学習とXAIに基づくアルゴリズム

A New Deep Learning and XAI-Based Algorithm for Features Selection in Genomics ( http://arxiv.org/abs/2303.16914v1 )

ライセンス: Link先を確認
Carlo Adornetto and Gianluigi Greco(参考訳) 機能ゲノミクスの分野では、機械学習とディープラーニングによる遺伝子発現プロファイルの分析が、多くの病気に対する有意義な洞察を与えている。 本稿では, 自動エンコーダの再構成能力とアドホックな説明可能な人工知能に基づくスコアを活用し, 診断, 予後, 精密医学の最も有意義な遺伝子を選択するために, ゲノムスケールデータの特徴選択を行う新しいアルゴリズムを提案する。 慢性リンパ性白血病データセットへの応用の結果は、さらなる医学的調査のための有意義な遺伝子群を同定し提案することにより、アルゴリズムの有効性を証明している。

In the field of functional genomics, the analysis of gene expression profiles through Machine and Deep Learning is increasingly providing meaningful insight into a number of diseases. The paper proposes a novel algorithm to perform Feature Selection on genomic-scale data, which exploits the reconstruction capabilities of autoencoders and an ad-hoc defined Explainable Artificial Intelligence-based score in order to select the most informative genes for diagnosis, prognosis, and precision medicine. Results of the application on a Chronic Lymphocytic Leukemia dataset evidence the effectiveness of the algorithm, by identifying and suggesting a set of meaningful genes for further medical investigation.
翻訳日:2023-03-31 15:40:48 公開日:2023-03-29
# ベイジアンハイパーヒューリスティックスを用いたフィードフォワードニューラルネットワークの訓練

Training Feedforward Neural Networks with Bayesian Hyper-Heuristics ( http://arxiv.org/abs/2303.16912v1 )

ライセンス: Link先を確認
Arn\'e Schreuder, Anna Bosman, Andries Engelbrecht, Christopher Cleghorn(参考訳) feedforward neural networks(ffnns)のトレーニングプロセスは、ネットワークをトレーニングする最良のヒューリスティックが、高レベルの確率ベースのヒューリスティックによって自動的に探される自動プロセスから恩恵を受けることができる。 本研究は、フィードフォワードニューラルネットワーク(FFNN)のトレーニングに使用される、新規な人口ベースベイズハイパーヒューリスティック(BHH)を紹介する。 BHHの性能は10の人気の低レベルヒューリスティックと比較され、それぞれ異なる検索動作を持つ。 選択されたヒューリスティックプールは古典的な勾配に基づくヒューリスティックとメタヒューリスティック(MH)で構成されている。 経験的プロセスは、異なる特性を持つ分類と回帰問題からなる14のデータセット上で実行される。 BHHはFFNNの訓練をうまく行うことができ、訓練プロセスの様々な段階でFFNNを訓練するための最良のヒューリスティックを見つけるための自動化された方法を提供する。

The process of training feedforward neural networks (FFNNs) can benefit from an automated process where the best heuristic to train the network is sought out automatically by means of a high-level probabilistic-based heuristic. This research introduces a novel population-based Bayesian hyper-heuristic (BHH) that is used to train feedforward neural networks (FFNNs). The performance of the BHH is compared to that of ten popular low-level heuristics, each with different search behaviours. The chosen heuristic pool consists of classic gradient-based heuristics as well as meta-heuristics (MHs). The empirical process is executed on fourteen datasets consisting of classification and regression problems with varying characteristics. The BHH is shown to be able to train FFNNs well and provide an automated method for finding the best heuristic to train the FFNNs at various stages of the training process.
翻訳日:2023-03-31 15:40:37 公開日:2023-03-29
# retclean:基盤モデルとデータレイクを用いた検索ベースのデータクリーニング

RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes ( http://arxiv.org/abs/2303.16909v1 )

ライセンス: Link先を確認
Mohammad Shahmeer Ahmad, Zan Ahmad Naeem, Mohamed Eltabakh, Mourad Ouzzani, Nan Tang(参考訳) 基礎モデル(ChatGPTなど)はデータをクリーンにできますか? 本稿では,ChatGPTがデータテーブル(scenario 1)内の特定のセルの修正を提案することによって,データのクリーニングを支援することを示す。 しかしChatGPTは、これまで遭遇したことのないデータセット(例えば、ローカルなエンタープライズデータ)や、ユーザーが提案されたクリーンな値のソースを説明する必要がある場合に苦労する可能性がある。 そこで我々は,ChatGPTのパワーをユーザが提供するデータレイクで補完する検索手法を開発した。 データレイクはまずインデックス化され、トップkの関連するタプルをユーザのクエリタプルに取得し、最後にChatGPTを利用して正しい値(scenario 2)を推測します。 それでも、外部ホストモデルであるchatgptとエンタープライズデータを共有することは、プライバシの理由から実現不可能かもしれない。 このシナリオを支援するために,ローカルにデプロイ可能なRoBERTaベースのファンデーションモデルを開発した。 少数の例で微調整することで、取得したタプル(scenario 3)に基づいて価値推論を効果的に行うことができる。 提案するシステムであるretcleanは,3つのシナリオをシームレスにサポートし,vldbのオーディエンスによるシステム探索と実験を可能にするユーザフレンドリなguiを提供する。

Can foundation models (such as ChatGPT) clean your data? In this proposal, we demonstrate that indeed ChatGPT can assist in data cleaning by suggesting corrections for specific cells in a data table (scenario 1). However, ChatGPT may struggle with datasets it has never encountered before (e.g., local enterprise data) or when the user requires an explanation of the source of the suggested clean values. To address these issues, we developed a retrieval-based method that complements ChatGPT's power with a user-provided data lake. The data lake is first indexed, we then retrieve the top-k relevant tuples to the user's query tuple and finally leverage ChatGPT to infer the correct value (scenario 2). Nevertheless, sharing enterprise data with ChatGPT, an externally hosted model, might not be feasible for privacy reasons. To assist with this scenario, we developed a custom RoBERTa-based foundation model that can be locally deployed. By fine-tuning it on a small number of examples, it can effectively make value inferences based on the retrieved tuples (scenario 3). Our proposed system, RetClean, seamlessly supports all three scenarios and provides a user-friendly GUI that enables the VLDB audience to explore and experiment with the system.
翻訳日:2023-03-31 15:40:23 公開日:2023-03-29
# ビーム設計問題に対するハイブリッドACO-CIアルゴリズム

Hybrid ACO-CI Algorithm for Beam Design problems ( http://arxiv.org/abs/2303.16908v1 )

ライセンス: Link先を確認
Ishaan R Kale, Mandar S Sapre, Ayush Khedkar, Kaustubh Dhamankar, Abhinav Anand, Aayushi Singh(参考訳) 様々な複雑な現実世界の問題が、いくつかの最適化手法の開発に影響を与えた。 本稿では,コホート・インテリジェンス(CI)アルゴリズムのサンプル空間削減手法を用いて,新しいハイブリッドバージョンのAnt Colon Optimization (ACO)法を開発した。 このアルゴリズムを開発し、標準ベンチマークテスト関数35を解いて精度をテストする。 さらに、このアルゴリズムの制約付きバージョンは、段差カンチレバービームとi断面ビームを含む2つの機械的設計問題を解決するために用いられる。 提案手法の有効性は,現在すでに使用されている現代アルゴリズムアプローチと比較して評価されている。 その結果,提案したハイブリッドACO-CIアルゴリズムは,所望の出力を生成するためにより少ない回数の反復を要し,計算時間を短縮することを示した。 ステップ式カンチレバービームの軽量化とIセクションビームの偏向の最小化のために、提案したハイブリッドACO-CIアルゴリズムは他の既存アルゴリズムと比較して最もよい結果を得た。 提案手法は, 工学, コンビネーション, 医療の領域を包含する, 多様な実世界の応用について検討できる。

A range of complicated real-world problems have inspired the development of several optimization methods. Here, a novel hybrid version of the Ant colony optimization (ACO) method is developed using the sample space reduction technique of the Cohort Intelligence (CI) Algorithm. The algorithm is developed, and accuracy is tested by solving 35 standard benchmark test functions. Furthermore, the constrained version of the algorithm is used to solve two mechanical design problems involving stepped cantilever beams and I-section beams. The effectiveness of the proposed technique of solution is evaluated relative to contemporary algorithmic approaches that are already in use. The results show that our proposed hybrid ACO-CI algorithm will take lesser number of iterations to produce the desired output which means lesser computational time. For the minimization of weight of stepped cantilever beam and deflection in I-section beam a proposed hybrid ACO-CI algorithm yielded best results when compared to other existing algorithms. The proposed work could be investigate for variegated real world applications encompassing domains of engineering, combinatorial and health care problems.
翻訳日:2023-03-31 15:39:59 公開日:2023-03-29
# 階層ベイズ学習におけるジョイントスパーシティの活用

Leveraging joint sparsity in hierarchical Bayesian learning ( http://arxiv.org/abs/2303.16954v1 )

ライセンス: Link先を確認
Jan Glaubitz and Anne Gelb(参考訳) 複数の測定ベクトルから結合スパースパラメータベクトルを推定するための階層的ベイズ学習手法を提案する。 本モデルでは,各パラメータベクトルと共通ガンマ分布ハイパーパラメータに対して条件付きガウス前駆体を用い,ジョイントスパーシティを強制する。 その結果,従来のベイズ推論手法と組み合わせて新しいアルゴリズム群を生成する。 マルチコイル磁気共鳴イメージングを応用した数値実験により, 階層ベイズ法を一貫して超越する手法が得られた。

We present a hierarchical Bayesian learning approach to infer jointly sparse parameter vectors from multiple measurement vectors. Our model uses separate conditionally Gaussian priors for each parameter vector and common gamma-distributed hyper-parameters to enforce joint sparsity. The resulting joint-sparsity-promoting priors are combined with existing Bayesian inference methods to generate a new family of algorithms. Our numerical experiments, which include a multi-coil magnetic resonance imaging application, demonstrate that our new approach consistently outperforms commonly used hierarchical Bayesian methods.
翻訳日:2023-03-31 15:32:32 公開日:2023-03-29
# 微分可能凸最適化を用いたメタラーニングパラメータ化一階最適化

Meta-Learning Parameterized First-Order Optimizers using Differentiable Convex Optimization ( http://arxiv.org/abs/2303.16952v1 )

ライセンス: Link先を確認
Tanmay Gautam, Samuel Pfrommer, Somayeh Sojoudi(参考訳) 機械学習と制御における従来の最適化手法は、一階更新ルールに大きく依存している。 特定のタスクに適したメソッドとハイパーパラメータを選択するには、しばしば試行錯誤や実践的な直観が必要となる。 我々は,インナーループ最適化ステップが微分可能凸最適化(dco)を解くメタラーニングフレームワークを提案することで,既存の更新ルールの幅広いファミリーを一般化する。 この手法の理論的魅力は,メタラーナーが類似したタスクに十分な露出を有することを考慮し,線形最小二乗問題の一段階の最適化を可能にすることにある。 dco更新規則の様々なインスタンス化を、様々な実験的な設定で従来のオプティマイザと比較する。

Conventional optimization methods in machine learning and controls rely heavily on first-order update rules. Selecting the right method and hyperparameters for a particular task often involves trial-and-error or practitioner intuition, motivating the field of meta-learning. We generalize a broad family of preexisting update rules by proposing a meta-learning framework in which the inner loop optimization step involves solving a differentiable convex optimization (DCO). We illustrate the theoretical appeal of this approach by showing that it enables one-step optimization of a family of linear least squares problems, given that the meta-learner has sufficient exposure to similar tasks. Various instantiations of the DCO update rule are compared to conventional optimizers on a range of illustrative experimental settings.
翻訳日:2023-03-31 15:32:21 公開日:2023-03-29
# ブラッグ原子干渉計のためのロバスト原子光学

Robust Atom Optics for Bragg Atom Interferometry ( http://arxiv.org/abs/2303.16950v1 )

ライセンス: Link先を確認
Garrett Louie, Zilin Chen, Tejas Deshpande, Timothy Kovachy(参考訳) 多光子ブラッグ回折は、原子波の高速でコヒーレントな運動量移動の強力な方法である。 しかし、レーザーノイズ、ドップラーデチューニング、雲の膨張は大きな運動量伝達(LMT)パルス列の効率を制限する。 数値量子最適制御により開発されたロバストブラッグパルスのシミュレーション研究を行う。 雑音および雲の不均一性下での最適パルス性能を解析し、lmtマッハ・ツェンダー干渉法シミュレーションにおける類似のガウス波および断熱速通路(arp)パルスと比較した。 最適化されたパルスは、広い範囲のノイズに対して頑健な人口移動と位相応答を維持し、熱原子雲と強度不均一性を持つLMT配列において優れたコントラストをもたらす。 大きな最適化lmt配列はガウスパルスよりも低いパルス領域を使用するため、自然放出損失の影響を受けにくい。 最適化されたシーケンスは、数十の$\hbar k$運動量分離と5倍以上のコントラストを維持し、より大きなLMTによる改善を提供する。 このようなパルスは、前例のない感度、コントラストの改善、熱い原子源によるブラッグ原子干渉計の動作を可能にする。

Multi-photon Bragg diffraction is a powerful method for fast, coherent momentum transfer of atom waves. However, laser noise, Doppler detunings, and cloud expansion limit its efficiency in large momentum transfer (LMT) pulse sequences. We present simulation studies of robust Bragg pulses developed through numerical quantum optimal control. Optimized pulse performance under noise and cloud inhomogeneities is analyzed and compared to analogous Gaussian and adiabatic rapid passage (ARP) pulses in simulated LMT Mach-Zehnder interferometry sequences. The optimized pulses maintain robust population transfer and phase response over a broader range of noise, resulting in superior contrast in LMT sequences with thermal atom clouds and intensity inhomogeneities. Large optimized LMT sequences use lower pulse area than Gaussian pulses, making them less susceptible to spontaneous emission loss. The optimized sequences maintain over five times better contrast with tens of $\hbar k$ momentum separation and offers more improvement with greater LMT. Such pulses could allow operation of Bragg atom interferometers with unprecedented sensitivity, improved contrast, and hotter atom sources.
翻訳日:2023-03-31 15:32:09 公開日:2023-03-29
# グリッド上のゲームのための簡潔QBF符号化(拡張版)

Concise QBF Encodings for Games on a Grid (extended version) ( http://arxiv.org/abs/2303.16949v1 )

ライセンス: Link先を確認
Irfansha Shaik and Jaco van de Pol(参考訳) qbfで2人プレイのゲームを正しく効率的にエンコーディングすることは、挑戦的でエラーやすい。 Tic-Tac-Toe,Connect-4,Domineering,Pursuer-Evader,Breakthroughなどのグリッドボード上でプレイされるゲームの簡潔な仕様と均一なエンコーディングを実現するため,計画領域におけるPDDLの成功に触発されたボードゲームドメイン定義言語(BDDL)を紹介した。 我々はBDDLからQBFへの効率的な翻訳を行い、境界深さの勝利戦略の存在を符号化する。 昇降符号化は, 基板位置を象徴的に扱い, 条件, 効果, 入賞構成の簡潔な定義を可能にする。 符号化のサイズは入力モデルと考慮された深さで線形に増加する。 このような汎用的アプローチの実現可能性を示すために、いくつかの既知のゲームにおける勝利戦略の臨界深さを計算するためにqbfソルバを用いる。 いくつかのゲームでは、最初のQBFエンコーディングを提供する。 SATベースの計画における計画検証とは異なり、QBFベースの勝利戦略の検証は困難である。 qbf証明書とインタラクティブゲームプレイを用いて、勝利戦略の検証方法を示す。

Encoding 2-player games in QBF correctly and efficiently is challenging and error-prone. To enable concise specifications and uniform encodings of games played on grid boards, like Tic-Tac-Toe, Connect-4, Domineering, Pursuer-Evader and Breakthrough, we introduce Board-game Domain Definition Language (BDDL), inspired by the success of PDDL in the planning domain. We provide an efficient translation from BDDL into QBF, encoding the existence of a winning strategy of bounded depth. Our lifted encoding treats board positions symbolically and allows concise definitions of conditions, effects and winning configurations, relative to symbolic board positions. The size of the encoding grows linearly in the input model and the considered depth. To show the feasibility of such a generic approach, we use QBF solvers to compute the critical depths of winning strategies for instances of several known games. For several games, our work provides the first QBF encoding. Unlike plan validation in SAT-based planning, validating QBF-based winning strategies is difficult. We show how to validate winning strategies using QBF certificates and interactive game play.
翻訳日:2023-03-31 15:31:48 公開日:2023-03-29
# 密集した自己教師付き学習の非結合化とデポジション化

De-coupling and De-positioning Dense Self-supervised Learning ( http://arxiv.org/abs/2303.16947v1 )

ライセンス: Link先を確認
Congpei Qiu, Tong Zhang, Wei Ke, Mathieu Salzmann, Sabine S\"usstrunk(参考訳) Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。 セグメンテーションマップとバウンディングボックスを用いて抽出した密集した特徴は,各オブジェクトに対してSSLを動作させることができるが,層深度やゼロパディングで増大する受容場から生じる結合や位置バイアスに悩まされていることを示す。 3つのデータ拡張戦略を導入し、それらを活用することで、この問題に対処します。 (i)物体の周囲の変化に対してネットワークを堅牢化することを目的とした分離モジュール、及び (ii)ネットワークが位置オブジェクト情報を破棄することを奨励するデポジションモジュール。 提案手法はcocoおよび新しい挑戦的ベンチマークであるopenimage-miniを用いて,オブジェクト分類,意味セグメンテーション,オブジェクト検出に有効であることを示す。 我々の広範な実験は、SOTA高密度SSL法と比較して、我々の方法のより優れた一般化を証明している。

Dense Self-Supervised Learning (SSL) methods address the limitations of using image-level feature representations when handling images with multiple objects. Although the dense features extracted by employing segmentation maps and bounding boxes allow networks to perform SSL for each object, we show that they suffer from coupling and positional bias, which arise from the receptive field increasing with layer depth and zero-padding. We address this by introducing three data augmentation strategies, and leveraging them in (i) a decoupling module that aims to robustify the network to variations in the object's surroundings, and (ii) a de-positioning module that encourages the network to discard positional object information. We demonstrate the benefits of our method on COCO and on a new challenging benchmark, OpenImage-MINI, for object classification, semantic segmentation, and object detection. Our extensive experiments evidence the better generalization of our method compared to the SOTA dense SSL methods
翻訳日:2023-03-31 15:31:28 公開日:2023-03-29
# nora:高連結ハミルトニアンの体積則エンタングル平衡状態に対するテンソルネットワーク ansatz

NoRA: A Tensor Network Ansatz for Volume-Law Entangled Equilibrium States of Highly Connected Hamiltonians ( http://arxiv.org/abs/2303.16946v1 )

ライセンス: Link先を確認
Val\'erie Bettaque, Brian Swingle(参考訳) 平均場量子スピングラスモデルやSachdev-Ye-Kitaev(SYK)モデルのような全対全相互作用を持つ量子モデルの基底状態構造により、体積法則の絡み合いと大きな基底状態の縮退を緩和できるテンソルネットワークアーキテクチャを提案する。 このアーキテクチャを非局所再正規化 ansatz (nora) と呼ぶのは、mera、dmera、分岐 meraネットワークの一般化であり、空間的局所性の制約を取り除いているからである。 アーキテクチャはSYKモデルの接地空間の絡み合いや複雑さを捉えるのに十分な表現性を持っているため、適切な変分アンザッツとなるが、SYKの詳細な研究は今後の研究に任せる。 さらに、テンソルがランダムクリフォードゲートである特別な場合のアーキテクチャについても検討する。 ここで、アーキテクチャはランダム安定化コードのエンコーディングマップと見なすことができる。 我々はSYKモデルにインスパイアされた一連の符号を導入し、高重量安定器のコストで一定速度と線形距離を選択できることを示した。 また、この符号族とSYK基底空間から形成される近似符号との潜在的な類似点についてもコメントする。

Motivated by the ground state structure of quantum models with all-to-all interactions such as mean-field quantum spin glass models and the Sachdev-Ye-Kitaev (SYK) model, we propose a tensor network architecture which can accomodate volume law entanglement and a large ground state degeneracy. We call this architecture the non-local renormalization ansatz (NoRA) because it can be viewed as a generalization of MERA, DMERA, and branching MERA networks with the constraints of spatial locality removed. We argue that the architecture is potentially expressive enough to capture the entanglement and complexity of the ground space of the SYK model, thus making it a suitable variational ansatz, but we leave a detailed study of SYK to future work. We further explore the architecture in the special case in which the tensors are random Clifford gates. Here the architecture can be viewed as the encoding map of a random stabilizer code. We introduce a family of codes inspired by the SYK model which can be chosen to have constant rate and linear distance at the cost of some high weight stabilizers. We also comment on potential similarities between this code family and the approximate code formed from the SYK ground space.
翻訳日:2023-03-31 15:31:13 公開日:2023-03-29
# ランダム量子回路のモーメントとロバスト量子複雑性について

On the moments of random quantum circuits and robust quantum complexity ( http://arxiv.org/abs/2303.16944v1 )

ライセンス: Link先を確認
Jonas Haferkamp(参考訳) 我々は、ランダムな量子回路において、ロバストな量子回路の複雑さの成長の新たな下限を証明している -- 単位値のu$を近似するために最小のゲート数である$c_{\delta}(u)$ -- 演算子ノルム距離で$\delta$という誤差まで -- 。 まず、$\delta=\theta(2^{-n})$ に対して、次の線形成長速度が証明される: $c_{\delta}\geq d/\mathrm{poly}(n)$ $d\leq 2^{n/2}$gates を持つ n$ qubits 上のランダム量子回路に対して、$c_{\delta}\geq d/\mathrm{poly}(n)$。 第二に、$ \delta=\Omega(1)$ に対して、複雑性の平方根成長を証明する: $C_{\delta}\geq \sqrt{d}/\mathrm{poly}(n)$ for all $d\leq 2^{n/2}$。 最後に、任意の$\delta$ に対して線型成長を示唆するランダムに描画されたブール関数のフーリエサポートに関する単純な予想を提供する。 これらの結果はランダム量子回路のモーメントの境界から導かれるが、ユニタリな$t$-designsの生成には既存の結果を使用しない。 代わりに、位相状態に作用する対角ユニタリ上で補助ランダムウォークのモーメントを拘束する。 特に、我々の証明は短く、自己完結している。

We prove new lower bounds on the growth of robust quantum circuit complexity -- the minimal number of gates $C_{\delta}(U)$ to approximate a unitary $U$ up to an error of $\delta$ in operator norm distance -- in random quantum circuits. First, for $\delta=\Theta(2^{-n})$, we prove a linear growth rate: $C_{\delta}\geq d/\mathrm{poly}(n)$ for random quantum circuits on $n$ qubits with $d\leq 2^{n/2}$ gates. Second, for $ \delta=\Omega(1)$, we prove a square-root growth of complexity: $C_{\delta}\geq \sqrt{d}/\mathrm{poly}(n)$ for all $d\leq 2^{n/2}$. Finally, we provide a simple conjecture regarding the Fourier support of randomly drawn Boolean functions that would imply linear growth for constant $\delta$. While these results follow from bounds on the moments of random quantum circuits, we do not make use of existing results on the generation of unitary $t$-designs. Instead, we bound the moments of an auxiliary random walk on the diagonal unitaries acting on phase states. In particular, our proof is comparably short and self-contained.
翻訳日:2023-03-31 15:30:51 公開日:2023-03-29
# T-FFTRadNet:生ADCレーダ信号からのスイニングビジョン変換器による物体検出

T-FFTRadNet: Object Detection with Swin Vision Transformers from Raw ADC Radar Signals ( http://arxiv.org/abs/2303.16940v1 )

ライセンス: Link先を確認
James Giroux, Martin Bouchard, Robert Laganiere(参考訳) 周波数変調連続波レーダを用いた物体検出は、自律システムの分野でますます普及している。 radarはlidarのような他のエミッションベースのセンサーで見られるのと同じ欠点を持たず、主に雨や雪などの気象条件によるリターン信号の劣化や損失である。 しかし、レーダーには、点雲のような標準的な放射ベースのディープラーニング表現には適さない特性がある。 レーダー点雲はスパースであるため、情報抽出は効率的ではない。 これを解決するために、より伝統的なデジタル信号処理パイプラインは高速フーリエ変換によって周波数領域に直在する入力を形成するように適応された。 一般的には、ディープラーニングアルゴリズムがオブジェクト検出を実行できる範囲アジマス-ドップラー立方体を形成するために3つの変換が使われた。 これはまた、複数のフーリエ変換と正規化の実行に関連する前処理コストという欠点もある。 複雑な変換層を利用したアナログ変換器からデジタル変換器への生レーダ入力の操作の可能性を検討する。 さらに, レーダー物体検出の分野に階層的なスウィンビジョントランスを導入し, 先行処理の異なる入力に対して, 異なるレーダ構成, すなわち, 送信機や受信機を比較的少なく, 高い数で操作する能力を示すとともに, 最新技術と同等以上の結果を得た。

Object detection utilizing Frequency Modulated Continous Wave radar is becoming increasingly popular in the field of autonomous systems. Radar does not possess the same drawbacks seen by other emission-based sensors such as LiDAR, primarily the degradation or loss of return signals due to weather conditions such as rain or snow. However, radar does possess traits that make it unsuitable for standard emission-based deep learning representations such as point clouds. Radar point clouds tend to be sparse and therefore information extraction is not efficient. To overcome this, more traditional digital signal processing pipelines were adapted to form inputs residing directly in the frequency domain via Fast Fourier Transforms. Commonly, three transformations were used to form Range-Azimuth-Doppler cubes in which deep learning algorithms could perform object detection. This too has drawbacks, namely the pre-processing costs associated with performing multiple Fourier Transforms and normalization. We explore the possibility of operating on raw radar inputs from analog to digital converters via the utilization of complex transformation layers. Moreover, we introduce hierarchical Swin Vision transformers to the field of radar object detection and show their capability to operate on inputs varying in pre-processing, along with different radar configurations, i.e. relatively low and high numbers of transmitters and receivers, while obtaining on par or better results than the state-of-the-art.
翻訳日:2023-03-31 15:30:30 公開日:2023-03-29
# neural architecture search benchmarksはうまく設計されているか? オペレーションの重要さを深く理解する

Are Neural Architecture Search Benchmarks Well Designed? A Deeper Look Into Operation Importance ( http://arxiv.org/abs/2303.16938v1 )

ライセンス: Link先を確認
Vasco Lopes, Bruno Degardin, Lu\'is A. Alexandre(参考訳) neural architecture search (nas)ベンチマークはnas法の開発と比較の能力を大幅に改善し、同時に何千ものトレーニングされたニューラルネットワークに関するメタ情報を提供することで計算オーバーヘッドを大幅に削減した。 しかし、表型ベンチマークには、公正な比較を妨げ、信頼できない結果をもたらすいくつかの欠点がある。 これらは通常、厳密な制約のある検索空間で小さな操作プールを提供することに焦点を当てている。 本研究では,NAS-Bench-101,NAS-Bench-201,TransNAS-Bench-101ベンチマークを用いて,その生成性および異なる操作が生成アーキテクチャの性能に与える影響を実験的に解析した。 性能範囲の上限に近いアーキテクチャを生成するためには,操作プールのサブセットのみが必要であることがわかった。 また、性能分布は負に歪み、上界範囲のアーキテクチャの密度が高い。 私たちは一貫して、畳み込み層がアーキテクチャのパフォーマンスに最も大きな影響を与えること、そして特定の操作の組み合わせがトップスコーリングアーキテクチャを好むことを見出しました。 これらの結果から,NAS-Bench-201, ImageNet16-120, TransNAS-Bench-101を直接検索すると, CIFAR-10のみの検索よりも信頼性の高い結果が得られることがわかった。 さらに,本研究では,今後のベンチマーク評価と設計について提案する。 評価の実行に使用されるコードはhttps://github.com/VascoLopes/NAS-Benchmark-Evaluationで公開されている。

Neural Architecture Search (NAS) benchmarks significantly improved the capability of developing and comparing NAS methods while at the same time drastically reduced the computational overhead by providing meta-information about thousands of trained neural networks. However, tabular benchmarks have several drawbacks that can hinder fair comparisons and provide unreliable results. These usually focus on providing a small pool of operations in heavily constrained search spaces -- usually cell-based neural networks with pre-defined outer-skeletons. In this work, we conducted an empirical analysis of the widely used NAS-Bench-101, NAS-Bench-201 and TransNAS-Bench-101 benchmarks in terms of their generability and how different operations influence the performance of the generated architectures. We found that only a subset of the operation pool is required to generate architectures close to the upper-bound of the performance range. Also, the performance distribution is negatively skewed, having a higher density of architectures in the upper-bound range. We consistently found convolution layers to have the highest impact on the architecture's performance, and that specific combination of operations favors top-scoring architectures. These findings shed insights on the correct evaluation and comparison of NAS methods using NAS benchmarks, showing that directly searching on NAS-Bench-201, ImageNet16-120 and TransNAS-Bench-101 produces more reliable results than searching only on CIFAR-10. Furthermore, with this work we provide suggestions for future benchmark evaluations and design. The code used to conduct the evaluations is available at https://github.com/VascoLopes/NAS-Benchmark-Evaluation.
翻訳日:2023-03-31 15:30:04 公開日:2023-03-29
# いつ、いつ、どこで? 自己監督型時空間グラウンド化 : ナラティブ・インストラクションによるマルチアクションビデオ

What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions ( http://arxiv.org/abs/2303.16990v1 )

ライセンス: Link先を確認
Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Daniel Kondermann, Samuel Thomas, Shih-Fu Chang, Rogerio Feris, James Glass, Hilde Kuehne(参考訳) 時空間的接地(英: spatio-temporal grounding)とは、時間と空間にイベントをローカライズするタスクである。 このタスクのモデルは通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。 本研究は,マルチモーダル・スーパーバイザリングの観点からこの課題に対処し,ゆるいビデオとサブタイトルのみに基づいて訓練された時空間的アクション・グルーディングの枠組みを提案する。 この目的のために我々は,粒度の細かい空間情報を活用する局所表現学習と,高レベルの表現をキャプチャし,両者を協調的に組み込むグローバル表現符号化を組み合わせる。 この課題を実生活環境で評価するために,5K以上のイベントに対して,高密度な時空間的接地アノテーションを提供するベンチマークデータセットを提案する。 提案手法と, 提案手法が, 時空間的, 時空間的および非トリム的多行動時空間的接地を含む様々な設定において, 現在のベースラインよりも改善することを示す。

Spatio-temporal grounding describes the task of localizing events in space and time, e.g., in video data, based on verbal descriptions only. Models for this task are usually trained with human-annotated sentences and bounding box supervision. This work addresses this task from a multimodal supervision perspective, proposing a framework for spatio-temporal action grounding trained on loose video and subtitle supervision only, without human annotation. To this end, we combine local representation learning, which focuses on leveraging fine-grained spatial information, with a global representation encoding that captures higher-level representations and incorporates both in a joint approach. To evaluate this challenging task in a real-life setting, a new benchmark dataset is proposed providing dense spatio-temporal grounding annotations in long, untrimmed, multi-action instructional videos for over 5K events. We evaluate the proposed approach and other methods on the proposed and standard downstream tasks showing that our method improves over current baselines in various settings, including spatial, temporal, and untrimmed multi-action spatio-temporal grounding.
翻訳日:2023-03-31 15:22:27 公開日:2023-03-29
# 低リソースダブルビンドへの適応--低リソースアフリカ言語における低計算方法の検討

Adapting to the Low-Resource Double-Bind: Investigating Low-Compute Methods on Low-Resource African Languages ( http://arxiv.org/abs/2303.16985v1 )

ライセンス: Link先を確認
Colin Leong, Herumb Shandilya, Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Joel Mathew, Abdul-Hakeem Omotayo, Oreen Yousuf, Zainab Akinjobi, Chris Chinenye Emezue, Shamsudeen Muhammad, Steven Kolawole, Younwoo Choi, Tosin Adewumi(参考訳) 多くの自然言語処理(NLP)タスクは、計算コストのかかる大量の事前訓練された言語モデルを使用する。 しかし、アフリカの言語のデータ不足問題に付加される高い計算資源へのアクセスは、これらの言語に関する実験の真の障壁となっている。 本研究では,この低リソース二重結合の文脈において,言語アダプタなどの低スループットアプローチの適用性について検討する。 言語アダプタは、データによって二重に拘束され、計算によって有用なモデルを構築することができるか? アフリカの言語に関する微調整実験を通じて,低リソースのアフリカNLPに対するコスト効率なアプローチとしての有効性を評価する。 自由計算資源のみを用いることで,計算資源に重きを置く膨大な事前学習言語モデルに対して,言語アダプタが同等の性能を達成できることを示す。 これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。

Many natural language processing (NLP) tasks make use of massively pre-trained language models, which are computationally expensive. However, access to high computational resources added to the issue of data scarcity of African languages constitutes a real barrier to research experiments on these languages. In this work, we explore the applicability of low-compute approaches such as language adapters in the context of this low-resource double-bind. We intend to answer the following question: do language adapters allow those who are doubly bound by data and compute to practically build useful models? Through fine-tuning experiments on African languages, we evaluate their effectiveness as cost-effective approaches to low-resource African NLP. Using solely free compute resources, our results show that language adapters achieve comparable performances to massive pre-trained language models which are heavy on computational resources. This opens the door to further experimentation and exploration on full-extent of language adapters capacities.
翻訳日:2023-03-31 15:22:03 公開日:2023-03-29
# malp: proactive scheme を用いたマニピュレーション・ローカライズ

MaLP: Manipulation Localization Using a Proactive Scheme ( http://arxiv.org/abs/2303.16976v1 )

ライセンス: Link先を確認
Vishal Asnani, Xi Yin, Tal Hassner, Xiaoming Liu(参考訳) 様々な生成モデル(GM)の生成品質の向上は、バイナリ操作検出を行うだけでなく、画像中の修正画素のローカライズも必要としている。 しかし、操作ローカライゼーションのためのパッシブな研究は、目に見えないGMに対する一般化性能の低下と属性修正を示している。 この問題に対処するため,我々はmalpと呼ばれる操作ローカライズのためのプロアクティブスキームを提案する。 学習テンプレートを追加することで実際の画像を暗号化する。 画像がGMによって操作される場合、テンプレートから保護を追加することでバイナリ検出だけでなく、GMによって修正されたピクセルの識別にも役立ちます。 このテンプレートは、2ブランチアーキテクチャで推定されるローカルおよびグローバルレベルの機能を活用することで学習される。 malpは従来のパッシブワークよりも優れたパフォーマンスを示す。 また,22種類のGM上でのMALPの一般化可能性を示すとともに,今後の操作ローカライゼーション研究のベンチマークを提供する。 最後に,MALPをGMの生成品質向上のための判別器として利用できることを示す。 私たちのモデル/コードはwww.github.com/vishal3477/pro_locで利用可能です。

Advancements in the generation quality of various Generative Models (GMs) has made it necessary to not only perform binary manipulation detection but also localize the modified pixels in an image. However, prior works termed as passive for manipulation localization exhibit poor generalization performance over unseen GMs and attribute modifications. To combat this issue, we propose a proactive scheme for manipulation localization, termed MaLP. We encrypt the real images by adding a learned template. If the image is manipulated by any GM, this added protection from the template not only aids binary detection but also helps in identifying the pixels modified by the GM. The template is learned by leveraging local and global-level features estimated by a two-branch architecture. We show that MaLP performs better than prior passive works. We also show the generalizability of MaLP by testing on 22 different GMs, providing a benchmark for future research on manipulation localization. Finally, we show that MaLP can be used as a discriminator for improving the generation quality of GMs. Our models/codes are available at www.github.com/vishal3477/pro_loc.
翻訳日:2023-03-31 15:21:49 公開日:2023-03-29
# EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証

EgoTV: Egocentric Task Verification from Natural Language Task Descriptions ( http://arxiv.org/abs/2303.16975v1 )

ライセンス: Link先を確認
Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai(参考訳) 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。 EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を含むマルチステップタスクに加えて、タスクの達成方法に関する部分的な詳細のみを含む抽象化されたタスク記述が含まれている。 また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。 EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。 コントリビューションには、EgoTVおよびCTVデータセットのリリースと、エゴセントリック補助剤の研究のためのNSGモデルが含まれている。

To enable progress towards egocentric agents capable of understanding everyday tasks specified in natural language, we propose a benchmark and a synthetic dataset called Egocentric Task Verification (EgoTV). EgoTV contains multi-step tasks with multiple sub-task decompositions, state changes, object interactions, and sub-task ordering constraints, in addition to abstracted task descriptions that contain only partial details about ways to accomplish a task. We also propose a novel Neuro-Symbolic Grounding (NSG) approach to enable the causal, temporal, and compositional reasoning of such tasks. We demonstrate NSG's capability towards task tracking and verification on our EgoTV dataset and a real-world dataset derived from CrossTask (CTV). Our contributions include the release of the EgoTV and CTV datasets, and the NSG model for future research on egocentric assistive agents.
翻訳日:2023-03-31 15:21:30 公開日:2023-03-29
# BEVERS: 自動ファクト検証のための汎用的でシンプルで高性能なフレームワーク

BEVERS: A General, Simple, and Performant Framework for Automatic Fact Verification ( http://arxiv.org/abs/2303.16974v1 )

ライセンス: Link先を確認
Mitchell DeHaven and Stephen Scott(参考訳) 近年、自動事実検証が人気を集めており、Fact extract and VER(FEVER)データセットは最も人気のあるトピックの一つである。 本研究では,FEVERデータセットのチューニングベースラインシステムであるBEVERSを紹介する。 パイプラインは文書検索,文選択,最終クレーム分類に標準的手法を用いているが,各コンポーネントに最適な性能を確保するためにかなりの労力を費やしている。 その結果、BEVERSは発行または未公開の全システムの中で、FEVERスコアとラベルの精度が最も高い。 また、このパイプラインを別の事実検証データセットであるScifactに適用し、そのデータセット上のすべてのシステムで最高のラベル精度を達成する。 完全なコードも利用可能にしています。

Automatic fact verification has become an increasingly popular topic in recent years and among datasets the Fact Extraction and VERification (FEVER) dataset is one of the most popular. In this work we present BEVERS, a tuned baseline system for the FEVER dataset. Our pipeline uses standard approaches for document retrieval, sentence selection, and final claim classification, however, we spend considerable effort ensuring optimal performance for each component. The results are that BEVERS achieves the highest FEVER score and label accuracy among all systems, published or unpublished. We also apply this pipeline to another fact verification dataset, Scifact, and achieve the highest label accuracy among all systems on that dataset as well. We also make our full code available.
翻訳日:2023-03-31 15:21:14 公開日:2023-03-29
# Queer in AI: コミュニティ主導の参加型AIのケーススタディ

Queer In AI: A Case Study in Community-Led Participatory AI ( http://arxiv.org/abs/2303.16972v1 )

ライセンス: Link先を確認
Organizers Of Queer in AI, Anaelia Ovalle, Arjun Subramonian, Ashwin Singh, Claas Voelcker, Danica J. Sutherland, Davide Locatelli, Eva Breznik, Filip Klubi\v{c}ka, Hang Yuan, Hetvi J, Huan Zhang, Jaidev Shriram, Kruno Lehman, Luca Soldaini, Maarten Sap, Marc Peter Deisenroth, Maria Leonor Pacheco, Maria Ryskina, Martin Mundt, Melvin Selim Atay, Milind Agarwal, Nyx McLean, Pan Xu, A Pranav, Raj Korpan, Ruchira Ray, Sarah Mathew, Sarthak Arora, St John, Tanvi Anand, Vishakha Agrawal, William Agnew, Yanan Long, Zijie J. Wang, Zeerak Talat, Avijit Ghosh, Nathaniel Dennler, Michael Noseworthy, Sharvani Jha, Emi Baylor, Aditya Joshi, Natalia Y. Bilenko, Andrew McNamara, Raphael Gontijo-Lopes, Alex Markham, Evyn D\v{o}ng, Jackie Kay, Manu Saraswat, Nikhil Vytla and Luke Stark(参考訳) 我々は、コミュニティ主導のAI参加設計のケーススタディとして、AIのQueerを提示する。 参加型デザインと交叉型テネットが, 長年にわたってこのコミュニティのプログラムを形作ってきたか検討した。 プロセスに現われたさまざまな課題について議論し、この組織が参加的原則と交差的原則を運用するに足りなかった方法を考察し、組織への影響を評価します。 queer in aiは、分散化に賛成する階層の拒否、queerコミュニティによる支援やプログラムの構築の成功、queerコミュニティ外のアクターや機関を変える努力を通じて、参加型の方法の実践者や理論家に対して、重要な教訓と洞察を提供する。 最後に、AIにおけるQueerのようなコミュニティが、AIへの参加の文化を育み、疎外された参加者を歓迎し、奨励し、貧弱で搾取的な参加の実践を批判し、個々の研究プロジェクト以外の機関に参加させることによって、AIの参加デザインにどのように貢献するかを理論化します。 aiの研究におけるqueerは、ai内の草の根の活性化と参加方法のケーススタディとして機能し、コミュニティ主導の参加方法と交叉的pr軸の可能性を示し、また参加方法の開発と使用研究者に挑戦、ケーススタディ、ニュアンス的な洞察を提供する。

We present Queer in AI as a case study for community-led participatory design in AI. We examine how participatory design and intersectional tenets started and shaped this community's programs over the years. We discuss different challenges that emerged in the process, look at ways this organization has fallen short of operationalizing participatory and intersectional principles, and then assess the organization's impact. Queer in AI provides important lessons and insights for practitioners and theorists of participatory methods broadly through its rejection of hierarchy in favor of decentralization, success at building aid and programs by and for the queer community, and effort to change actors and institutions outside of the queer community. Finally, we theorize how communities like Queer in AI contribute to the participatory design in AI more broadly by fostering cultures of participation in AI, welcoming and empowering marginalized participants, critiquing poor or exploitative participatory practices, and bringing participation to institutions outside of individual research projects. Queer in AI's work serves as a case study of grassroots activism and participatory methods within AI, demonstrating the potential of community-led participatory methods and intersectional praxis, while also providing challenges, case studies, and nuanced insights to researchers developing and using participatory methods.
翻訳日:2023-03-31 15:21:01 公開日:2023-03-29
# 多項分類におけるスパース・ジョイントシフト

Sparse joint shift in multinomial classification ( http://arxiv.org/abs/2303.16971v1 )

ライセンス: Link先を確認
Dirk Tasche(参考訳) スパースジョイントシフト (SJS) は, 一般データセットシフトの抽出可能なモデルとして提案され, 特徴量やラベルの辺縁分布, 後部確率, クラス条件特徴量の変化を引き起こす可能性がある。 ラベル観察なしでターゲットデータセットにSJSを適用すると、ラベルの有効な予測とクラスの事前確率の推定が生成される可能性がある。 本研究では,特徴集合からより大きな特徴集合へのSJSの伝達,目標分布下でのクラス後部確率の条件補正式,SJSの識別可能性,SJSと共変量シフトの関係について述べる。 さらに,最適解探索の妨げとなるsjsの特性を推定するために提案されたアルゴリズムの不整合を指摘する。

Sparse joint shift (SJS) was recently proposed as a tractable model for general dataset shift which may cause changes to the marginal distributions of features and labels as well as the posterior probabilities and the class-conditional feature distributions. Fitting SJS for a target dataset without label observations may produce valid predictions of labels and estimates of class prior probabilities. We present new results on the transmission of SJS from sets of features to larger sets of features, a conditional correction formula for the class posterior probabilities under the target distribution, identifiability of SJS, and the relationship between SJS and covariate shift. In addition, we point out inconsistencies in the algorithms which were proposed for estimating the characteristics of SJS, as they could hamper the search for optimal solutions.
翻訳日:2023-03-31 15:20:36 公開日:2023-03-29
# 物理に基づく問題に対するヒューリスティック探索:pddl+におけるangry birds

Heuristic Search For Physics-Based Problems: Angry Birds in PDDL+ ( http://arxiv.org/abs/2303.16967v1 )

ライセンス: Link先を確認
Wiktor Piotrowski, Yoni Sher, Sachin Grover, Roni Stern, Shiwali Mohan(参考訳) 本稿では、ドメインに依存しないプランナーと組合せ探索を用いて、確立されたAI課題であるAngry Birdsをプレイする方法について検討する。 このゲームをモデル化するために、我々はPDDL+(Durative ProcessとExogenous Eventをサポートする混合離散/連続ドメインのための計画言語)を使用する。 論文はモデルを説明し、問題の複雑さを減らす重要な設計決定を特定する。 さらに、ヒューリスティックスや推奨演算子に似た探索手法を含むいくつかのドメイン固有の拡張を提案する。 組み合わせ探索の複雑さを緩和する。 我々は、Angry Birdsの様々なレベルにおいて、その性能を専用ドメイン固有解法と比較することにより、我々のアプローチを評価する。 その結果、ドメイン固有の検索拡張を使わずとも、これらのドメイン固有のアプローチと、ほとんどのレベルで同等のパフォーマンスを示す。

This paper studies how a domain-independent planner and combinatorial search can be employed to play Angry Birds, a well established AI challenge problem. To model the game, we use PDDL+, a planning language for mixed discrete/continuous domains that supports durative processes and exogenous events. The paper describes the model and identifies key design decisions that reduce the problem complexity. In addition, we propose several domain-specific enhancements including heuristics and a search technique similar to preferred operators. Together, they alleviate the complexity of combinatorial search. We evaluate our approach by comparing its performance with dedicated domain-specific solvers on a range of Angry Birds levels. The results show that our performance is on par with these domain-specific approaches in most levels, even without using our domain-specific search enhancements.
翻訳日:2023-03-31 15:20:24 公開日:2023-03-29
# 教師付き学習のための公平性を考慮したデータ評価

Fairness-Aware Data Valuation for Supervised Learning ( http://arxiv.org/abs/2303.16963v1 )

ライセンス: Link先を確認
Jos\'e Pombal, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro(参考訳) データバリュエーション(Data valuation)は、トレーニングインスタンスの価値を所定の予測タスクに向けて研究するML分野である。 データバイアスは下流モデルの不公平性の主要な原因の1つであるが、データ評価におけるこれまでの研究は、トレーニングインスタンスがMLモデルの性能と公正性の両方にどのように影響するかを考慮していない。 そこで本研究では,データ評価フレームワークであるfairness-aware data vauation(fado)を提案する。 本稿では,既存の指標よりも計算効率のよい性能と公平性の両方を最大化するエントロピーに基づくデータ評価指標を提案する。 次に,不公平化前処理技術の基礎としてFADOを適用する方法を示す。 提案手法は,データ品質の深い理解が中心となるデータ中心の手法で公正性向上を実現する。

Data valuation is a ML field that studies the value of training instances towards a given predictive task. Although data bias is one of the main sources of downstream model unfairness, previous work in data valuation does not consider how training instances may influence both performance and fairness of ML models. Thus, we propose Fairness-Aware Data vauatiOn (FADO), a data valuation framework that can be used to incorporate fairness concerns into a series of ML-related tasks (e.g., data pre-processing, exploratory data analysis, active learning). We propose an entropy-based data valuation metric suited to address our two-pronged goal of maximizing both performance and fairness, which is more computationally efficient than existing metrics. We then show how FADO can be applied as the basis for unfairness mitigation pre-processing techniques. Our methods achieve promising results -- up to a 40 p.p. improvement in fairness at a less than 1 p.p. loss in performance compared to a baseline -- and promote fairness in a data-centric way, where a deeper understanding of data quality takes center stage.
翻訳日:2023-03-31 15:20:10 公開日:2023-03-29
# PartManip: クロスカテゴリ一般化可能なパート管理ポリシをポイントクラウド観測から学ぶ

PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations ( http://arxiv.org/abs/2303.16958v1 )

ライセンス: Link先を確認
Haoran Geng, Ziming Li, Yiran Geng, Jiayi Chen, Hao Dong, He Wang(参考訳) 一般化可能なオブジェクト操作ポリシーを学ぶことは、具体化エージェントが複雑な現実世界のシーンで動作するためには不可欠である。 異なるオブジェクトカテゴリの共有コンポーネントとして、部品は、操作ポリシーの一般化能力を高め、カテゴリ間のオブジェクト操作を実現する可能性がある。 本研究では,11のオブジェクトカテゴリ,494のオブジェクト,1432のタスクを6つのタスククラスで構成した,最初の大規模部分ベースのクロスカテゴリオブジェクト操作ベンチマークであるPartManipを構築した。 以前の研究と比較すると、我々のベンチマークはより多様で現実的であり、つまり、より多くのオブジェクトを持ち、スパースビューポイントクラウドを部品分割のようなオラクル情報なしで入力として使用する。 視覚ベースの政策学習の難しさに取り組むために,まず,提案する部分に基づく正準化と部分認識報酬を国ベースの専門家に訓練し,その知識を視覚ベースの学生に蒸留する。 さまざまなオブジェクトの多様性を克服するには、表現力に富んだバックボーンも不可欠です。 クロスカテゴリ一般化のために,ドメイン不変特徴抽出のためのドメイン逆学習を導入する。 シミュレーションにおける大規模な実験により、学習方針は、特に目に見えない対象カテゴリーにおいて、他の手法よりも大きなマージンで優れていることが示された。 また,本手法は実世界の新しい物体をうまく操作できることを実証する。

Learning a generalizable object manipulation policy is vital for an embodied agent to work in complex real-world scenes. Parts, as the shared components in different object categories, have the potential to increase the generalization ability of the manipulation policy and achieve cross-category object manipulation. In this work, we build the first large-scale, part-based cross-category object manipulation benchmark, PartManip, which is composed of 11 object categories, 494 objects, and 1432 tasks in 6 task classes. Compared to previous work, our benchmark is also more diverse and realistic, i.e., having more objects and using sparse-view point cloud as input without oracle information like part segmentation. To tackle the difficulties of vision-based policy learning, we first train a state-based expert with our proposed part-based canonicalization and part-aware rewards, and then distill the knowledge to a vision-based student. We also find an expressive backbone is essential to overcome the large diversity of different objects. For cross-category generalization, we introduce domain adversarial learning for domain-invariant feature extraction. Extensive experiments in simulation show that our learned policy can outperform other methods by a large margin, especially on unseen object categories. We also demonstrate our method can successfully manipulate novel objects in the real world.
翻訳日:2023-03-31 15:19:48 公開日:2023-03-29
# 意味論的模倣学習のための仕様ガイド型データ集約

Specification-Guided Data Aggregation for Semantically Aware Imitation Learning ( http://arxiv.org/abs/2303.17010v1 )

ライセンス: Link先を確認
Ameesh Shah, Jonathan DeCastro, John Gideon, Beyazit Yalcinkaya, Guy Rosman, Sanjit A. Seshia(参考訳) シミュレーションと形式的手法に基づく環境サンプリングの進歩により、自律運転など多くの安全クリティカルなシナリオにおいて、機械学習モデルの厳密な評価が可能となった。 これらの環境サンプリング技術の学習モデル改善への応用はまだ十分に活用されていない。 本研究では,新しい環境における専門家データを集約する手段として,仕様誘導サンプリング技術を活用することで,模倣学習モデルの改良手法を提案する。 具体的には、可能な環境の空間を意味的に類似した領域に分割する手段として正式な仕様セットを作成し、学習した模倣が専門家と最も異なる振る舞いをするこの分割の要素を特定する。 次に、これらの特定領域の環境に関する専門家データを集約し、専門家の行動セマンティクスをより正確に模倣する。 我々は、CARLA運転シミュレータにおける一連の実験でアプローチをインスタンス化し、我々のアプローチが他の環境サンプリング手法で学んだモデルよりも正確であることを示す。

Advancements in simulation and formal methods-guided environment sampling have enabled the rigorous evaluation of machine learning models in a number of safety-critical scenarios, such as autonomous driving. Application of these environment sampling techniques towards improving the learned models themselves has yet to be fully exploited. In this work, we introduce a novel method for improving imitation-learned models in a semantically aware fashion by leveraging specification-guided sampling techniques as a means of aggregating expert data in new environments. Specifically, we create a set of formal specifications as a means of partitioning the space of possible environments into semantically similar regions, and identify elements of this partition where our learned imitation behaves most differently from the expert. We then aggregate expert data on environments in these identified regions, leading to more accurate imitation of the expert's behavior semantics. We instantiate our approach in a series of experiments in the CARLA driving simulator, and demonstrate that our approach leads to models that are more accurate than those learned with other environment sampling methods.
翻訳日:2023-03-31 15:14:11 公開日:2023-03-29
# 病理組織学における画像から画像への変換法の比較評価

A comparative evaluation of image-to-image translation methods for stain transfer in histopathology ( http://arxiv.org/abs/2303.17009v1 )

ライセンス: Link先を確認
Igor Zingman, Sergio Frayle, Ivan Tankoyeu, Segrey Sukhanov, Fabian Heinemann(参考訳) image-to-image translation (i2i) メソッドは、オリジナル画像の内容を共有するが異なるスタイルを持つ人工画像を生成することができる。 GAN(Generative Adversarial Networks)ベースの手法の進歩により、I2I法は自然画像と区別できない人工画像の生成を可能にした。 病理組織学においてもi2i法が用いられており,in silico染色組織から異なる染色形態の人工画像を生成する。 この過程を染色転移と呼ぶ。 I2Iの変種数は常に増加しており、染色輸送に最も適したI2I法を適切に選択することが困難である。 本研究では,従来の3つのステンドトランスファー法と,ganベースの画像処理法を併用した9つのステンドトランスファー法を比較した。 この分析は、画像翻訳の品質、深層学習に基づく組織評価の適性の評価、および病理医による視覚的評価の相補的な定量的尺度に依存する。 本研究は,汚れ移動アプローチの強みと弱みを強調し,基礎となるi2iアルゴリズムの合理的な選択を可能にした。 H&EとMassonのTrichrome染色の間の染色のコード、データ、訓練されたモデルがオンラインで提供される。

Image-to-image translation (I2I) methods allow the generation of artificial images that share the content of the original image but have a different style. With the advances in Generative Adversarial Networks (GANs)-based methods, I2I methods enabled the generation of artificial images that are indistinguishable from natural images. Recently, I2I methods were also employed in histopathology for generating artificial images of in silico stained tissues from a different type of staining. We refer to this process as stain transfer. The number of I2I variants is constantly increasing, which makes a well justified choice of the most suitable I2I methods for stain transfer challenging. In our work, we compare twelve stain transfer approaches, three of which are based on traditional and nine on GAN-based image processing methods. The analysis relies on complementary quantitative measures for the quality of image translation, the assessment of the suitability for deep learning-based tissue grading, and the visual evaluation by pathologists. Our study highlights the strengths and weaknesses of the stain transfer approaches, thereby allowing a rational choice of the underlying I2I algorithms. Code, data, and trained models for stain transfer between H&E and Masson's Trichrome staining will be made available online.
翻訳日:2023-03-31 15:13:54 公開日:2023-03-29
# デコードアルゴリズムは対話応答にどのように情報を分配するか?

How do decoding algorithms distribute information in dialogue responses? ( http://arxiv.org/abs/2303.17006v1 )

ライセンス: Link先を確認
Saranya Venkatraman, He He and David Reitter(参考訳) 人間は、一様情報密度(uid)原則に従って、発話で情報を均等に分配する傾向がある。 我々は,復号アルゴリズムがこのUID原則を暗黙的に従うか否か,また,UIDに付着する条件が対話生成に望ましいかを検討する。 我々は、Persona-Chatデータセット上のGPT-2で異なる復号アルゴリズムを用いて応答を生成し、Amazon Mechanical Turkを用いて品質に関する人間の判断を収集する。 私たちはそれを見つけ (i)驚いたことに、モデル生成の応答は、人間の反応よりもずっとuidの原理に従っており、 (II)UDDを促進する復号アルゴリズムは高品質な応答を生成できない。 代わりに、情報密度の非均一性に対する制御は、非常に低・高次な応答の品質と相関する。 以上の結果から,'likelihood trap'問題に対する潜在的な解決策は,非一様応答の促進である可能性が示唆された。 ダイアログ履歴毎に複数の候補応答を含むデータセットと、人間の注釈付き品質評価は、https://huggingface.co/datasets/saranya132/dialog_uid_gpt2で利用可能です。

Humans tend to follow the Uniform Information Density (UID) principle by distributing information evenly in utterances. We study if decoding algorithms implicitly follow this UID principle, and under what conditions adherence to UID might be desirable for dialogue generation. We generate responses using different decoding algorithms with GPT-2 on the Persona-Chat dataset and collect human judgments on their quality using Amazon Mechanical Turk. We find that (i) surprisingly, model-generated responses follow the UID principle to a greater extent than human responses, and (ii) decoding algorithms that promote UID do not generate higher-quality responses. Instead, when we control for surprisal, non-uniformity of information density correlates with the quality of responses with very low/high surprisal. Our findings indicate that encouraging non-uniform responses is a potential solution to the ``likelihood trap'' problem (quality degradation in very high-likelihood text). Our dataset containing multiple candidate responses per dialog history along with human-annotated quality ratings is available at https://huggingface.co/datasets/saranya132/dialog_uid_gpt2.
翻訳日:2023-03-31 15:13:33 公開日:2023-03-29
# ロボットによる氷水境界探査のための高結合型ビジュアルDVL-慣性オドメトリー

Tightly-coupled Visual-DVL-Inertial Odometry for Robot-based Ice-water Boundary Exploration ( http://arxiv.org/abs/2303.17005v1 )

ライセンス: Link先を確認
Lin Zhao, Mingxi Zhou, Brice Loose(参考訳) AUV(Autonomous Underwater Vehicles)やROV(Remotely Operated Vehicles)などのロボット水中システムは、科学的な進歩のために氷水界面で生物地球化学データを収集するための有望なツールである。 しかし、状態推定、すなわちローカライゼーションは、特に水中を走行するロボットシステムにおいてよく知られた問題である。 本稿では,センサ故障に対するロバストな局所化精度を高めるために,密結合型多センサ融合フレームワークを提案する。 画像、ドップラー速度ログ(DVL)、慣性測定ユニット(IMU)、圧力センサを最先端のマルチステート制約カルマンフィルタ(MSCKF)に統合して状態推定を行う。 さらに、新しいキーフレームベースの状態クローン機構と新しいDVL支援機能拡張を示し、ローカライゼーション性能をさらに向上させる。 提案手法は,凍結氷下のフィールドで収集したデータセットを用いて検証し,他の6種類のセンサ融合装置と比較した。 全体として、キーフレーム有効化とDVL支援による特徴増強により、ルート平均二乗誤差が2m未満の場合に、走行距離が約200mの地上の真理経路と比較して最高の性能が得られる。

Robotic underwater systems, e.g., Autonomous Underwater Vehicles (AUVs) and Remotely Operated Vehicles (ROVs), are promising tools for collecting biogeochemical data at the ice-water interface for scientific advancements. However, state estimation, i.e., localization, is a well-known problem for robotic systems, especially, for the ones that travel underwater. In this paper, we present a tightly-coupled multi-sensors fusion framework to increase localization accuracy that is robust to sensor failure. Visual images, Doppler Velocity Log (DVL), Inertial Measurement Unit (IMU) and Pressure sensor are integrated into the state-of-art Multi-State Constraint Kalman Filter (MSCKF) for state estimation. Besides that a new keyframe-based state clone mechanism and a new DVL-aided feature enhancement are presented to further improve the localization performance. The proposed method is validated with a data set collected in the field under frozen ice, and the result is compared with 6 other different sensor fusion setups. Overall, the result with the keyframe enabled and DVL-aided feature enhancement yields the best performance with a Root-mean-square error of less than 2 m compared to the ground truth path with a total traveling distance of about 200 m.
翻訳日:2023-03-31 15:13:18 公開日:2023-03-29
# ブラジル大学入学試験におけるGPT-3.5およびGPT-4モデルの評価

Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams ( http://arxiv.org/abs/2303.17003v1 )

ライセンス: Link先を確認
Desnes Nunes, Ricardo Primi, Ramon Pires, Roberto Lotufo, and Rodrigo Nogueira(参考訳) 本研究の目的は,ブラジルの大学が広く採用している多分野の入学試験であるExame Nacional do Ensino M\'edio (ENEM) に代表される,多点検定における言語モデル(LM)の能力を検討することである。 この試験は、様々な領域の情報の理解を必要とする複数の分野の知識にまたがる可能性があるため、LMにとって難しい課題となる。 例えば、ある質問は統計学と生物学の両方の理解を必要とするかもしれない。 本研究は, GPT-3.5 モデルと GPT-4 モデルを用いて,2009-2017 年の試験で提示された質問に対する回答と,モデル訓練終了後に公開された 2022 テストに関する質問に対する回答を分析した。 さらに、Chain-of-Thought(CoT)の使用など、さまざまなプロンプト戦略がテストされた。 2022年版では、最高性能のモデルであるGPT-4が87%の精度を達成し、GPT-3.5を11ポイント上回った。 実験で使用されるコードとデータは、https://github.com/piresramon/gpt-4-enemで入手できる。

The present study aims to explore the capabilities of Language Models (LMs) in tackling high-stakes multiple-choice tests, represented here by the Exame Nacional do Ensino M\'edio (ENEM), a multidisciplinary entrance examination widely adopted by Brazilian universities. This exam poses challenging tasks for LMs, since its questions may span into multiple fields of knowledge, requiring understanding of information from diverse domains. For instance, a question may require comprehension of both statistics and biology to be solved. This work analyzed responses generated by GPT-3.5 and GPT-4 models for questions presented in the 2009-2017 exams, as well as for questions of the 2022 exam, which were made public after the training of the models was completed. Furthermore, different prompt strategies were tested, including the use of Chain-of-Thought (CoT) prompts to generate explanations for answers. On the 2022 edition, the best-performing model, GPT-4 with CoT, achieved an accuracy of 87%, largely surpassing GPT-3.5 by 11 points. The code and data used on experiments are available at https://github.com/piresramon/gpt-4-enem.
翻訳日:2023-03-31 15:12:54 公開日:2023-03-29
# G-不変グラフラプラシアン

The G-invariant graph Laplacian ( http://arxiv.org/abs/2303.17001v1 )

ライセンス: Link先を確認
Eitan Rosen and Yoel Shkolnisky(参考訳) グラフラプラシアンに基づく多様体上のデータに対するアルゴリズムは、次元減少、クラスタリング、デノナイジングといったタスクに有効であることが証明されている。 本研究では,データポイントが多様体上に存在するだけでなく,連続群の作用下でも閉であるようなデータセットを考える。 そのようなデータセットの例は、各体積を三次元空間で回転させることができる低次元多様体上の体積である。 G-不変グラフ Laplacian を導入し、グラフ Laplacian はデータセット上の群の作用を考慮し、グラフ Laplacian を一般化する。 標準グラフ Laplacian と同様に、G-不変グラフ Laplacian はデータ多様体上の Laplace-Beltrami 作用素に収束するが、収束速度は大幅に改善される。 さらに、G-不変グラフラプラシアンの固有函数は群要素とある種の行列の固有ベクトルの間のテンソル積の形式を認め、FFT型アルゴリズムを用いて効率的に計算できることを示す。 特殊ユニタリ群 SU(2) の作用の下で閉じたノイジー多様体上のデータをフィルタリングする問題に対する我々の構成とその利点を実証する。

Graph Laplacian based algorithms for data lying on a manifold have been proven effective for tasks such as dimensionality reduction, clustering, and denoising. In this work, we consider data sets whose data point not only lie on a manifold, but are also closed under the action of a continuous group. An example of such data set is volumes that line on a low dimensional manifold, where each volume may be rotated in three-dimensional space. We introduce the G-invariant graph Laplacian that generalizes the graph Laplacian by accounting for the action of the group on the data set. We show that like the standard graph Laplacian, the G-invariant graph Laplacian converges to the Laplace-Beltrami operator on the data manifold, but with a significantly improved convergence rate. Furthermore, we show that the eigenfunctions of the G-invariant graph Laplacian admit the form of tensor products between the group elements and eigenvectors of certain matrices, which can be computed efficiently using FFT-type algorithms. We demonstrate our construction and its advantages on the problem of filtering data on a noisy manifold closed under the action of the special unitary group SU(2).
翻訳日:2023-03-31 15:12:31 公開日:2023-03-29
# エキゾチック局所次元を用いた安定化符号

Stabilizer Codes with Exotic Local-dimensions ( http://arxiv.org/abs/2303.17000v1 )

ライセンス: Link先を確認
Lane G. Gunderman(参考訳) 従来の安定化符号は素電力ローカルディメンション上で動作する。 本研究では、局所次元不変条件を用いて安定化器の形式を拡張し、これらの標準局所次元から他のケースへ安定化器コードをインポートする。 特に,従来の安定化符号は相空間と離散位相空間の制約を考慮することで,アナログ連続変数符号に利用できることを示す。 これにより、この枠組みは従来の安定化符号と同等の基盤となる。 これに続いて、従来のアイデアを拡張して、もともと有限フィールドの局所次元で設計された安定化符号は、任意の整域環に対する$n$、$k$、$d$パラメータと同じコードに変換可能であることを示す。 これは理論上の関心事であり、局所次元が数学的環によってよりよく説明されるシステムに利用することができる。

Traditional stabilizer codes operate over prime power local-dimensions. In this work we extend the stabilizer formalism using the local-dimension-invariant setting to import stabilizer codes from these standard local-dimensions to other cases. In particular, we show that any traditional stabilizer code can be used for analog continuous-variable codes, and consider restrictions in phase space and discretized phase space. This puts this framework on equivalent footing as traditional stabilizer codes. Following this, using extensions of the prior ideas, we show that a stabilizer code originally designed with a finite field local-dimension can be transformed into a code with the same $n$, $k$, and $d$ parameters for any integral domain ring. This is of theoretical interest and can be of use for systems whose local-dimension is better described by mathematical rings, for which this permits the use of traditional stabilizer codes for protecting their information as well.
翻訳日:2023-03-31 15:12:11 公開日:2023-03-29
# PopSparse: IPU上のアクセラレーションブロックスパース行列乗算

PopSparse: Accelerated block sparse matrix multiplication on IPU ( http://arxiv.org/abs/2303.16999v1 )

ライセンス: Link先を確認
Zhiyi Li, Douglas Orr, Valeriu Ohan, Godfrey Da costa, Tom Murray, Adam Sanders, Deniz Beker, Dominic Masters(参考訳) sparsityを使った大規模ニューラルネットワークの実行における計算コストの削減は、ディープラーニングコミュニティに大きな注目を集めている。 FLOPとパラメータ数を削減し、許容されるタスク性能を維持しながら、多くの成功が達成されているが、実際のスピード改善を達成することは、特に低精度の数値フォーマットを使用したNVIDIA GPUのような汎用アクセラレータ(GPA)では、非常に困難である。 本稿では、ipusのユニークなハードウェア特性とデータで定義された任意のブロック構造の両方を活用することで、graphcore ipus上での高速スパース操作を可能にするライブラリpopsparseを紹介する。 静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。 本稿では, ブロックサイズ, 行列サイズ, 密度の異なる IPU 上でのこれらのモードの行列乗算のベンチマーク結果を示す。 以上の結果から,PopSparse の実装は IPU 上の行列乗算よりも行列サイズが大きく,ブロックサイズが大きい範囲で高速であることが示唆された。 さらに、一般に静的なスパーシリティは動的スパーシリティより優れる。 GPAに関するこれまでの研究は、非常に高いスパース性(典型的には99\%以上)でのみ高速化されているが、我々の静的スパース実装は、FP16のより低いスパース性(約90%)で等価な密度計算より優れていることを示す。

Reducing the computational cost of running large scale neural networks using sparsity has attracted great attention in the deep learning community. While much success has been achieved in reducing FLOP and parameter counts while maintaining acceptable task performance, achieving actual speed improvements has typically been much more difficult, particularly on general purpose accelerators (GPAs) such as NVIDIA GPUs using low precision number formats. In this work we introduce PopSparse, a library that enables fast sparse operations on Graphcore IPUs by leveraging both the unique hardware characteristics of IPUs as well as any block structure defined in the data. We target two different types of sparsity: static, where the sparsity pattern is fixed at compile-time; and dynamic, where it can change each time the model is run. We present benchmark results for matrix multiplication for both of these modes on IPU with a range of block sizes, matrix sizes and densities. Results indicate that the PopSparse implementations are faster than dense matrix multiplications on IPU at a range of sparsity levels with large matrix size and block size. Furthermore, static sparsity in general outperforms dynamic sparsity. While previous work on GPAs has shown speedups only for very high sparsity (typically 99\% and above), the present work demonstrates that our static sparse implementation outperforms equivalent dense calculations in FP16 at lower sparsity (around 90%).
翻訳日:2023-03-31 15:11:56 公開日:2023-03-29
# 空間性は不特定線形帯域学習に役立つか?

Does Sparsity Help in Learning Misspecified Linear Bandits? ( http://arxiv.org/abs/2303.16998v1 )

ライセンス: Link先を確認
Jialin Dong and Lin F. Yang(参考訳) 近年、線形不特定化バンディットの研究は、バンディットと強化学習(rl)における学習の難しさの興味深い影響を生み出している。 特に、du et al. (2020) は、たとえ学習者がバンドイットやrlの報酬を近似する$\mathbb{r}^d$ の線形特徴を与えられたとしても、$\varepsilon$ という一様誤差で、$o(\varepsilon)$-optimal なアクションを探索するには少なくとも $\omega(\exp(d))$ クエリを引く必要があることを示した。 さらに lattimore et al. (2020) は、分解された $o(\varepsilon\sqrt{d})$-optimal solution が $\operatorname{poly}(d/\varepsilon)$ クエリで学習可能であることを示した。 しかし、空間性のような基底構造パラメータの構造的仮定が$\varepsilon\sqrt{d}$障壁を破るかどうかは不明である。 本稿では、アルゴリズムが$o(\varepsilon^{-s}d^s)$アクションをクエリすることで、$o(\varepsilon)$-optimalアクションを得ることができることを示すことで、この問題に対処する。 次に、情報理論的な下限、すなわち$\omega(\exp(s))$を定め、もし誤差$ o(s^{\delta}\varepsilon)$ が$0<\delta<1$ であるなら、サンプル複雑性の上限がほぼタイトであることを示す。 また、$\delta\geq 1$に対して、線形な機能が"良い"ときや一般的な設定でも$\operatorname{poly}(s/\varepsilon)$クエリが可能であることをさらに示します。 これらの結果は,不特定バンディット学習において空間性がいかに有効であるかを概観し,不特定バンディット学習や強化学習において線形特徴がいつ有用であるかをより深く理解する。

Recently, the study of linear misspecified bandits has generated intriguing implications of the hardness of learning in bandits and reinforcement learning (RL). In particular, Du et al. (2020) show that even if a learner is given linear features in $\mathbb{R}^d$ that approximate the rewards in a bandit or RL with a uniform error of $\varepsilon$, searching for an $O(\varepsilon)$-optimal action requires pulling at least $\Omega(\exp(d))$ queries. Furthermore, Lattimore et al. (2020) show that a degraded $O(\varepsilon\sqrt{d})$-optimal solution can be learned within $\operatorname{poly}(d/\varepsilon)$ queries. Yet it is unknown whether a structural assumption on the ground-truth parameter, such as sparsity, could break the $\varepsilon\sqrt{d}$ barrier. In this paper, we address this question by showing that algorithms can obtain $O(\varepsilon)$-optimal actions by querying $O(\varepsilon^{-s}d^s)$ actions, where $s$ is the sparsity parameter, removing the $\exp(d)$-dependence. We then establish information-theoretical lower bounds, i.e., $\Omega(\exp(s))$, to show that our upper bound on sample complexity is nearly tight if one demands an error $ O(s^{\delta}\varepsilon)$ for $0<\delta<1$. For $\delta\geq 1$, we further show that $\operatorname{poly}(s/\varepsilon)$ queries are possible when the linear features are "good" and even in general settings. These results provide a nearly complete picture of how sparsity can help in misspecified bandit learning and provide a deeper understanding of when linear features are "useful" for bandit and reinforcement learning with misspecification.
翻訳日:2023-03-31 15:11:30 公開日:2023-03-29
# ContraSim - コントラスト学習に基づく類似度尺度

ContraSim -- A Similarity Measure Based on Contrastive Learning ( http://arxiv.org/abs/2303.16992v1 )

ライセンス: Link先を確認
Adir Rahamim, Yonatan Belinkov(参考訳) 最近の研究は、類似性に基づく分析を通じてニューラルネットワークの表現を比較し、異なる側面(アーキテクチャ、トレーニングデータなど)がモデルの内部表現にどのように影響するかを明らかにした。 類似度尺度の質は、通常、一致が期待される表現に高いスコアを割り当てることの成功によって評価される。 しかし、既存の類似度尺度は標準ベンチマークで平凡に実行される。 本研究では,コントラスト学習に基づく新しい類似度尺度であるContraSimを開発した。 一般的な閉形式類似度測度とは対照的に、ContraSimは類似例と異例の両方を用いてパラメータ化測度を学ぶ。 本手法は,標準層予測ベンチマークと,多言語ベンチマークと画像キャプチャベンチマークの2つのベンチマークを用いて,言語モデルと視覚モデルの両方を用いて,広範な実験評価を行う。 いずれの場合においても、contrasimは、難解な例を示しても、以前の類似度尺度よりもはるかに高い精度を達成し、以前の尺度では得られなかった新たな洞察を明らかにする。

Recent work has compared neural network representations via similarity-based analyses, shedding light on how different aspects (architecture, training data, etc.) affect models' internal representations. The quality of a similarity measure is typically evaluated by its success in assigning a high score to representations that are expected to be matched. However, existing similarity measures perform mediocrely on standard benchmarks. In this work, we develop a new similarity measure, dubbed ContraSim, based on contrastive learning. In contrast to common closed-form similarity measures, ContraSim learns a parameterized measure by using both similar and dissimilar examples. We perform an extensive experimental evaluation of our method, with both language and vision models, on the standard layer prediction benchmark and two new benchmarks that we introduce: the multilingual benchmark and the image-caption benchmark. In all cases, ContraSim achieves much higher accuracy than previous similarity measures, even when presented with challenging examples, and reveals new insights not captured by previous measures.
翻訳日:2023-03-31 15:10:45 公開日:2023-03-29
# DP-SGDの個人化プライバシ割り当て

Have it your way: Individualized Privacy Assignment for DP-SGD ( http://arxiv.org/abs/2303.17046v1 )

ライセンス: Link先を確認
Franziska Boenisch, Christopher M\"uhl, Adam Dziedzic, Roy Rinberg, Nicolas Papernot(参考訳) 異なるプライバシで機械学習モデルをトレーニングする場合、プライバシ予算を設定する。 この予算は、トレーニングセットにデータを提供することで、ユーザが直面する最大のプライバシー侵害を表している。 このアプローチは、異なるユーザのプライバシの期待が異なるため、限定的なものだ、と私たちは主張する。 したがって、すべての点で統一されたプライバシー予算を設定することは、一部のユーザーにとっては過度に保守的であるか、逆に他のユーザーにとっては十分に保護されていない。 本稿では,プライバシ予算の個別化を通じて,これらの選好を捉える。 その実用性を実証するために, 個別化された予算をサポートするDP-SGDの変種を導入する。 DP-SGDは、差分プライバシーを持つモデルをトレーニングするための標準的なアプローチである。 DP-SGD(Personalized DP-SGD:IDP-SGD)と呼ばれる,データサンプリングと勾配ノイズ発生機構を改良し,本手法に到達した。 IDP-SGDは、個々のユーザーやデータポイントの好みに合わせてプライバシー保証を提供するため、プライバシー利用トレードオフを実証的に改善する。

When training a machine learning model with differential privacy, one sets a privacy budget. This budget represents a maximal privacy violation that any user is willing to face by contributing their data to the training set. We argue that this approach is limited because different users may have different privacy expectations. Thus, setting a uniform privacy budget across all points may be overly conservative for some users or, conversely, not sufficiently protective for others. In this paper, we capture these preferences through individualized privacy budgets. To demonstrate their practicality, we introduce a variant of Differentially Private Stochastic Gradient Descent (DP-SGD) which supports such individualized budgets. DP-SGD is the canonical approach to training models with differential privacy. We modify its data sampling and gradient noising mechanisms to arrive at our approach, which we call Individualized DP-SGD (IDP-SGD). Because IDP-SGD provides privacy guarantees tailored to the preferences of individual users and their data points, we find it empirically improves privacy-utility trade-offs.
翻訳日:2023-03-31 15:03:35 公開日:2023-03-29
# ニューラルネットワークのトレーニングは固定次元におけるNPハードである

Training Neural Networks is NP-Hard in Fixed Dimension ( http://arxiv.org/abs/2303.17045v1 )

ライセンス: Link先を確認
Vincent Froese, Christoph Hertrich(参考訳) 本稿では,ReLUと線形しきい値活性化関数を考慮し,入力データの次元と隠れニューロン数に関する2層ニューラルネットワークのトレーニングのパラメータ化複雑性について検討する。 これらの問題の計算複雑性は近年何度も研究されているが、いくつかの疑問がまだ残っている。 Aroraらによる質問に答える。 [ICLR '18] と Khalife と Basu [IPCO '22] は、どちらの問題も2次元のNPハードであることを示し、定数次元の多項式時間アルゴリズムを除外している。 また、Froeseらによる質問にも答える。 [jair '22] 4つのrelus(または2つの線形しきい値ニューロン)のw[1]硬さをトレーニングエラーゼロで証明する。 最後に、ReLUの場合、ネットワークが凸写像を計算すると仮定された場合、ReLUの次元と次元の合計パラメータ数に対する固定パラメータのトラクタビリティを示す。 以上より,これらのパラメータの複雑さをほぼ完全に解決した。

We study the parameterized complexity of training two-layer neural networks with respect to the dimension of the input data and the number of hidden neurons, considering ReLU and linear threshold activation functions. Albeit the computational complexity of these problems has been studied numerous times in recent years, several questions are still open. We answer questions by Arora et al. [ICLR '18] and Khalife and Basu [IPCO '22] showing that both problems are NP-hard for two dimensions, which excludes any polynomial-time algorithm for constant dimension. We also answer a question by Froese et al. [JAIR '22] proving W[1]-hardness for four ReLUs (or two linear threshold neurons) with zero training error. Finally, in the ReLU case, we show fixed-parameter tractability for the combined parameter number of dimensions and number of ReLUs if the network is assumed to compute a convex map. Our results settle the complexity status regarding these parameters almost completely.
翻訳日:2023-03-31 15:03:17 公開日:2023-03-29
# 創発的キュービットによる toric コードモデルの拡張

Unfolding the Toric Code Model with Emergent Qubits ( http://arxiv.org/abs/2303.17044v1 )

ライセンス: Link先を確認
Brijesh Kumar(参考訳) 正確な構成による創発的量子ビットの考え方を示す。 厳密に toric のコードモデルを創発的な qubits の問題に変換し、すべての固有状態を正確に記述します。 この演習の副産物として、トーラスのモデルとシリンダーのオープンバージョンを紹介し、どちらも独立した創発的キュービットを完全に実現します。 トーリック符号やその他のモデルの正確な固有状態は、独立量子ビットにCNOTゲートを適用することによって実現できる。

We present the idea of emergent qubits by exact constructions. We rigorously transform the toric code model into a problem of emergent qubits, and write all its eigenstates exactly. As byproducts of this exercise, we introduce a punctured version of the model on torus and an open version on cylinder, both realizing independent emergent qubits perfectly. The exact eigenstates of the toric code and other models are shown to be realized by applying CNOT gates on independent qubits.
翻訳日:2023-03-31 15:02:58 公開日:2023-03-29
# 非観測文脈による確率的帯域学習

Federated Stochastic Bandit Learning with Unobserved Context ( http://arxiv.org/abs/2303.17043v1 )

ライセンス: Link先を確認
Jiabin Lin and Shana Moothedath(参考訳) 本研究では,mエージェントが異なるバンディトに直面し,協調して学習する,未知のコンテキストを持つ連帯確率的マルチアームコンテキストバンディットの問題について検討する。 コミュニケーションモデルは中央サーバから成り、エージェントは定期的に見積もりを中央サーバと共有し、後悔を最小化するために最適なアクションを選択することを学ぶ。 正確なコンテキストは観測不可能であり、エージェントはコンテキストの分布のみを観察していると仮定する。 このような状況は、例えば、コンテキスト自体がノイズ測定である場合や予測メカニズムに基づいて発生する。 我々のゴールは、エージェント間の協調学習を容易にして最適な行動列を選択し、累積報酬を最大化する分散フェデレーションアルゴリズムを開発することである。 特徴ベクトル変換を行うことにより,削除に基づくアルゴリズムを提案し,線形パラメトリ化報酬関数に対する後悔の束縛を証明する。 最後に,本アルゴリズムの性能を検証し,合成データと実世界の映画データセットの数値シミュレーションを用いて,他のベースライン手法と比較した。

We study the problem of federated stochastic multi-arm contextual bandits with unknown contexts, in which M agents are faced with different bandits and collaborate to learn. The communication model consists of a central server and the agents share their estimates with the central server periodically to learn to choose optimal actions in order to minimize the total regret. We assume that the exact contexts are not observable and the agents observe only a distribution of the contexts. Such a situation arises, for instance, when the context itself is a noisy measurement or based on a prediction mechanism. Our goal is to develop a distributed and federated algorithm that facilitates collaborative learning among the agents to select a sequence of optimal actions so as to maximize the cumulative reward. By performing a feature vector transformation, we propose an elimination-based algorithm and prove the regret bound for linearly parametrized reward functions. Finally, we validated the performance of our algorithm and compared it with another baseline approach using numerical simulations on synthetic data and on the real-world movielens dataset.
翻訳日:2023-03-31 15:02:49 公開日:2023-03-29
# 没入の秘密--オートシネマトグラフィーのためのアクター駆動型カメラ運動生成

The secret of immersion: actor driven camera movement generation for auto-cinematography ( http://arxiv.org/abs/2303.17041v1 )

ライセンス: Link先を確認
Xinyi Wu, Haohong Wang and Aggelos K. Katsaggelos(参考訳) 没入は映画作品を設計する際に重要な役割を果たすが、没入撮影の難しさはデザイナーが満足のいくアウトプットを作り出すことを妨げている。 本研究では,空間的,感情的,美的レベルを考慮した撮影没入感に寄与する特定の成分を解析し,これらの成分を高レベル評価機構に結合する。 そこで,このような没入機構を導いた3次元仮想環境において,アクター駆動のカメラ動作を生成できるganベースのカメラ制御システムを提案する。 生成フローにおけるエンコーダ・デコーダアーキテクチャは,感情因子に基づくカメラ軌道にキャラクタ動作を伝達する。 これにより、俳優とカメラの同期を物理的および心理的に行うことで、空間的および感情的な没入が保証される。 感情的な没入は、異なる精神状態を表現するためのカメラシェーキネスを制御する正規化を取り入れることでさらに強化される。 審美的没入を実現するため,合成カメラの軌跡を改良し,審美的フレーム構成を改善する。 自己監視調整装置に基づいて、調整されたカメラ配置は、美的規則に従って、適切なフレーム上の位置にキャラクタを投影することができる。 実験の結果,提案するカメラ制御システムは,細粒度の没入撮影に基づいて,定量的かつ質的に没入的映像を効率的に提供できることがわかった。 ライブの例は補足ビデオで見ることができる。

Immersion plays a vital role when designing cinematic creations, yet the difficulty in immersive shooting prevents designers to create satisfactory outputs. In this work, we analyze the specific components that contribute to cinematographic immersion considering spatial, emotional, and aesthetic level, while these components are then combined into a high-level evaluation mechanism. Guided by such a immersion mechanism, we propose a GAN-based camera control system that is able to generate actor-driven camera movements in the 3D virtual environment to obtain immersive film sequences. The proposed encoder-decoder architecture in the generation flow transfers character motion into camera trajectory conditioned on an emotion factor. This ensures spatial and emotional immersion by performing actor-camera synchronization physically and psychologically. The emotional immersion is further strengthened by incorporating regularization that controls camera shakiness for expressing different mental statuses. To achieve aesthetic immersion, we make effort to improve aesthetic frame compositions by modifying the synthesized camera trajectory. Based on a self-supervised adjustor, the adjusted camera placements can project the character to the appropriate on-frame locations following aesthetic rules. The experimental results indicate that our proposed camera control system can efficiently offer immersive cinematic videos, both quantitatively and qualitatively, based on a fine-grained immersive shooting. Live examples are shown in the supplementary video.
翻訳日:2023-03-31 15:02:32 公開日:2023-03-29
# 視覚的に配線されたNFT : 非触覚における吸気の役割を探る

Visually Wired NFTs: Exploring the Role of Inspiration in Non-Fungible Tokens ( http://arxiv.org/abs/2303.17031v1 )

ライセンス: Link先を確認
Lucio La Cava, Davide Costa, Andrea Tagarelli(参考訳) 非フランジブルトークン(nfts)への熱意は無数のクリエイターを惹きつけ、多くの創造的プロセスのように、潜在性や明示的なインスピレーションによって引き起こされるデジタル資産のビッグバンにつながった。 この研究は、視覚変換器とグラフベースのモデリングを利用して、NFT間の視覚的なインスピレーション現象を長年研究してきた。 私たちの目標は、視覚インスピレーションネットワークを形成する主な構造特性の公開、視覚インスピレーションとアセットパフォーマンスの相互関係の探索、インスピレーションプロセスに対する暗号の影響の調査、NFT間のインスピレーション関係の説明などです。 インスピレーションの広汎さが視覚的特徴空間の一時的な飽和、インスピレーションとインスピレーションの2分断が財務成績に及ぼす影響、市場とインスピレーションの波による本質的な自己調節機構の解明につながった。 私たちの仕事は、web3の進化のより広い視点を得るための出発点となり得る。

The fervor for Non-Fungible Tokens (NFTs) attracted countless creators, leading to a Big Bang of digital assets driven by latent or explicit forms of inspiration, as in many creative processes. This work exploits Vision Transformers and graph-based modeling to delve into visual inspiration phenomena between NFTs over the years. Our goals include unveiling the main structural traits that shape visual inspiration networks, exploring the interrelation between visual inspiration and asset performances, investigating crypto influence on inspiration processes, and explaining the inspiration relationships among NFTs. Our findings unveil how the pervasiveness of inspiration led to a temporary saturation of the visual feature space, the impact of the dichotomy between inspiring and inspired NFTs on their financial performance, and an intrinsic self-regulatory mechanism between markets and inspiration waves. Our work can serve as a starting point for gaining a broader view of the evolution of Web3.
翻訳日:2023-03-31 15:02:06 公開日:2023-03-29
# EPG-MGCN: Ego-Planning Guided Multi-Graph Convolutional Network for Heterogeneous Agent Trajectory Prediction

EPG-MGCN: Ego-Planning Guided Multi-Graph Convolutional Network for Heterogeneous Agent Trajectory Prediction ( http://arxiv.org/abs/2303.17027v1 )

ライセンス: Link先を確認
Zihao Sheng, Zilin Huang, Sikai Chen(参考訳) 複雑な交通環境で安全に運転するには、近くの異種交通機関(例えば、車両、歩行者、自転車など)の将来の軌道を正確に予測する必要がある。 インタラクティブな性質から、人間ドライバーは、異なる操作を実行する場合、将来の状況がどうなるか推測するのに慣れています。 インタラクションの影響を十分に活用するために,ego-planning guided multi-graph convolutional network (epg-mgcn) を提案する。 EPG-MGCNはまず、距離グラフ、可視グラフ、計画グラフ、カテゴリグラフの4つのグラフトポロジーを用いて、社会的相互作用をモデル化する。 そして、計画グラフとその後の計画誘導予測モジュールとでエゴ車両の計画情報を符号化し、軌道予測の不確実性を低減させる。 最後に、カテゴリ固有のゲートリカレントユニット(CS-GRU)エンコーダデコーダは、各種類のエージェントに対する将来のトラジェクトリを生成するように設計されている。 我々のネットワークは,ApolloScapeとNGSIMの2つの実世界の軌道データセットで評価されている。 実験の結果,提案したEPG-MGCNは既存手法と比較して最先端性能が得られた。

To drive safely in complex traffic environments, autonomous vehicles need to make an accurate prediction of the future trajectories of nearby heterogeneous traffic agents (i.e., vehicles, pedestrians, bicyclists, etc). Due to the interactive nature, human drivers are accustomed to infer what the future situations will become if they are going to execute different maneuvers. To fully exploit the impacts of interactions, this paper proposes a ego-planning guided multi-graph convolutional network (EPG-MGCN) to predict the trajectories of heterogeneous agents using both historical trajectory information and ego vehicle's future planning information. The EPG-MGCN first models the social interactions by employing four graph topologies, i.e., distance graphs, visibility graphs, planning graphs and category graphs. Then, the planning information of the ego vehicle is encoded by both the planning graph and the subsequent planning-guided prediction module to reduce uncertainty in the trajectory prediction. Finally, a category-specific gated recurrent unit (CS-GRU) encoder-decoder is designed to generate future trajectories for each specific type of agents. Our network is evaluated on two real-world trajectory datasets: ApolloScape and NGSIM. The experimental results show that the proposed EPG-MGCN achieves state-of-the-art performance compared to existing methods.
翻訳日:2023-03-31 15:01:41 公開日:2023-03-29
# システム予測器:解集合セマンティックスに基づく論理プログラムのグラウンドサイズ推定器

System Predictor: Grounding Size Estimator for Logic Programs under Answer Set Semantics ( http://arxiv.org/abs/2303.17018v1 )

ライセンス: Link先を確認
Daniel Bresnahan, Nicholas Hippen, Yuliya Lierler(参考訳) answer set programmingは、難解な組合せ探索問題を解決するための宣言型論理プログラミングパラダイムである。 異なる論理プログラムは同じ問題をエンコードできるが、その性能は様々である。 プログラムのどのバージョンがベストかを識別するのは必ずしも容易ではない。 本稿では,システム処理の性能に影響を与える指標であるプログラムの接地サイズを推定するためのシステム予測器(およびそのアルゴリズムバックエンド)を提案する。 提案手法は,解集合プログラミング書き換えツールプロジェクタとlpoptが生成する書き直しのガイドとして使用する場合の予測器の影響を評価する。 結果はこのアプローチの可能性を示している。

Answer set programming is a declarative logic programming paradigm geared towards solving difficult combinatorial search problems. While different logic programs can encode the same problem, their performance may vary significantly. It is not always easy to identify which version of the program performs the best. We present the system Predictor (and its algorithmic backend) for estimating the grounding size of programs, a metric that can influence a performance of a system processing a program. We evaluate the impact of Predictor when used as a guide for rewritings produced by the answer set programming rewriting tools Projector and Lpopt. The results demonstrate potential to this approach.
翻訳日:2023-03-31 15:01:15 公開日:2023-03-29
# hyperdiffusion: 重み空間拡散を伴う暗黙的神経場の生成

HyperDiffusion: Generating Implicit Neural Fields with Weight-Space Diffusion ( http://arxiv.org/abs/2303.17015v1 )

ライセンス: Link先を確認
Ziya Erko\c{c}, Fangchang Ma, Qi Shan, Matthias Nie{\ss}ner, Angela Dai(参考訳) 通常多層パーセプトロン(mlp)によってコードされる暗黙的神経場は、座標(例えばxyz)から信号(例えば符号付き距離)にマッピングされる。 しかし、規則的かつ明示的なグリッド構造が欠如しているため、新しいデータを合成するために暗黙の神経場に直接生成モデリングを適用することが困難になる。 そこで本研究では,暗黙的神経野の無条件生成モデリングのための新しいアプローチであるhyperdiffusionを提案する。 HyperDiffusion は MLP の重みを直接操作し、合成 MLP パラメータで符号化された新しい暗黙の場を生成する。 具体的には、MLPのコレクションは、まず個々のデータサンプルを忠実に表現するように最適化される。 その後、このMLP重み空間において拡散過程を訓練し、神経暗黙界の基底分布をモデル化する。 HyperDiffusionは、単一の統一フレームワーク内で3次元形状と4次元メッシュアニメーションをまたいだ複雑な信号の暗黙的かつコンパクトで高忠実な表現を拡散モデリングできる。

Implicit neural fields, typically encoded by a multilayer perceptron (MLP) that maps from coordinates (e.g., xyz) to signals (e.g., signed distances), have shown remarkable promise as a high-fidelity and compact representation. However, the lack of a regular and explicit grid structure also makes it challenging to apply generative modeling directly on implicit neural fields in order to synthesize new data. To this end, we propose HyperDiffusion, a novel approach for unconditional generative modeling of implicit neural fields. HyperDiffusion operates directly on MLP weights and generates new neural implicit fields encoded by synthesized MLP parameters. Specifically, a collection of MLPs is first optimized to faithfully represent individual data samples. Subsequently, a diffusion process is trained in this MLP weight space to model the underlying distribution of neural implicit fields. HyperDiffusion enables diffusion modeling over a implicit, compact, and yet high-fidelity representation of complex signals across 3D shapes and 4D mesh animations within one single unified framework.
翻訳日:2023-03-31 15:01:03 公開日:2023-03-29
# ChatGPT-4における概念物理推論の進歩

Advances in apparent conceptual physics reasoning in ChatGPT-4 ( http://arxiv.org/abs/2303.17012v1 )

ライセンス: Link先を確認
Colin G. West(参考訳) ChatGPTは、人間の会話をエミュレートする巨大なテキストコーパスに基づいて訓練された大きな言語モデルに基づいて構築されている。 Kortemeyer (2023) の最近の研究は、物理学の法則に関する明確なプログラミングを欠いていたが、ChatGPT-3.5 がある種の名目レベルで入門物理学のコースをパスし、ニュートン力学の力の概念に関する最小限の理解に近いものを登録できることを示した。 この研究はこれらの結果を再現し、最新バージョンのChatGPT-4が後者の文脈ではるかに高いスコアに達したことを示す。 実際、その反応は、非常に顕著な例外と制限を含む、専門家レベルの能力の完全な証明に非常に近い。 物理学教育と教育学の将来への影響について、簡単にコメントする。

ChatGPT is built on a large language model trained on an enormous corpus of human text to emulate human conversation. Despite lacking any explicit programming regarding the laws of physics, recent work by Kortemeyer (2023) has demonstrated that ChatGPT-3.5 could pass an introductory physics course at some nominal level and register something close to a minimal understanding of Newtonian Mechanics on the Force Concept Inventory. This work replicates those results and also demonstrates that the latest version, ChatGPT-4, has reached a much higher mark in the latter context. Indeed, its responses come quite close to perfectly demonstrating expert-level competence, with a few very notable exceptions and limitations. We briefly comment on the implications of this for the future of physics education and pedagogy.
翻訳日:2023-03-31 15:00:46 公開日:2023-03-29
# 意思決定型学習のための理想的な抽象化

Ideal Abstractions for Decision-Focused Learning ( http://arxiv.org/abs/2303.17062v1 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Stefano Ermon, Bryan Wilder, Eric Horvitz(参考訳) 本稿では,意思決定の効用構造を同定し,活用することにより,機械学習システムの抽象化を単純化する手法を提案する。 機械学習のタスクは一般的に高次元の出力空間(例えば、画像中の各ピクセルまたはグラフのノードの予測)が伴うが、より粗い出力は下流の意思決定(例えば、ピクセルの代わりに画像の領域)に十分であることが多い。 開発者はしばしば出力空間を手作業で抽象化するが、多くの抽象化が可能であり、モデルの出力空間の選択が下流の意思決定においてその有用性にどのように影響するかは不明である。 本稿では,決定関連情報の損失を最小限に抑えるために,出力空間を自動的に構成する手法を提案する。 幾何学的観点から、H-エントロピー感覚における決定関連情報の総損失を最小限に抑えるため、確率単純化の射影としてアルゴリズムのステップを定式化する。 重要なことは、抽象的な結果空間での学習は、データが少ないため、決定品質が大幅に向上する。 本手法は,ディープニューラルネットワークトレーニングのためのデータ取得と閉ループ山火事管理タスクの2つの領域で実証する。

We present a methodology for formulating simplifying abstractions in machine learning systems by identifying and harnessing the utility structure of decisions. Machine learning tasks commonly involve high-dimensional output spaces (e.g., predictions for every pixel in an image or node in a graph), even though a coarser output would often suffice for downstream decision-making (e.g., regions of an image instead of pixels). Developers often hand-engineer abstractions of the output space, but numerous abstractions are possible and it is unclear how the choice of output space for a model impacts its usefulness in downstream decision-making. We propose a method that configures the output space automatically in order to minimize the loss of decision-relevant information. Taking a geometric perspective, we formulate a step of the algorithm as a projection of the probability simplex, termed fold, that minimizes the total loss of decision-related information in the H-entropy sense. Crucially, learning in the abstracted outcome space requires less data, leading to a net improvement in decision quality. We demonstrate the method in two domains: data acquisition for deep neural network training and a closed-loop wildfire management task.
翻訳日:2023-03-31 14:53:05 公開日:2023-03-29
# 小データセット分類のためのテンソル型畳み込みニューラルネットワーク

A Tensor-based Convolutional Neural Network for Small Dataset Classification ( http://arxiv.org/abs/2303.17061v1 )

ライセンス: Link先を確認
Zhenhua Chen and David Crandall(参考訳) 隠れ表現を構造化したConvNetsに触発され,テンソルベースニューラルネットワークTCNNを提案する。 ConvNetsと異なり、TCNNはスカラーニューロンではなく構造化ニューロンで構成されており、基本的な操作はニューロンテンソル変換である。 部分と部分の関係を明示的にモデル化する他の構造化convnetとは異なり、それらの関係はtnnで暗黙的に学習される。 また、TNNの構造化ニューロンはベクトルや行列よりも上位テンソルである。 我々は、CIFAR10、CIFAR100、Tiny ImageNetのResNets、MobileNets、EfficientNets、RegNetsなど、現在の一般的なConvNetsと比較する。 実験の結果,TNNはパラメータの面で高い効率性を示した。 TCNNは、ConvNetsと比較して、MNISTに対するホワイトボックスの敵攻撃に対する堅牢性も高い。

Inspired by the ConvNets with structured hidden representations, we propose a Tensor-based Neural Network, TCNN. Different from ConvNets, TCNNs are composed of structured neurons rather than scalar neurons, and the basic operation is neuron tensor transformation. Unlike other structured ConvNets, where the part-whole relationships are modeled explicitly, the relationships are learned implicitly in TCNNs. Also, the structured neurons in TCNNs are high-rank tensors rather than vectors or matrices. We compare TCNNs with current popular ConvNets, including ResNets, MobileNets, EfficientNets, RegNets, etc., on CIFAR10, CIFAR100, and Tiny ImageNet. The experiment shows that TCNNs have higher efficiency in terms of parameters. TCNNs also show higher robustness against white-box adversarial attacks on MNIST compared to ConvNets.
翻訳日:2023-03-31 14:52:43 公開日:2023-03-29
# 混合音からの音源定位のための視聴覚グループ化ネットワーク

Audio-Visual Grouping Network for Sound Localization from Mixtures ( http://arxiv.org/abs/2303.17056v1 )

ライセンス: Link先を確認
Shentong Mo, Yapeng Tian(参考訳) 音源の定位は、ビデオ内の音源の位置を予測する典型的な挑戦的なタスクである。 従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。 原空間における複数の音源の混合特性のため、画像と分離音をノードとしてグラフ内のランダムウォークを用いた最近の研究を除いて、複数の音源を同時にローカライズするための希少なマルチソースアプローチが存在する。 有望なパフォーマンスにもかかわらず、一定の数のソースしか処理できず、個々のソースに対してコンパクトなクラス認識表現を学べない。 そこで本稿では,入力オーディオミックスと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習し,複数のソースを同時にローカライズする,新たなオーディオ視覚グループネットワークであるAVGNを提案する。 具体的には、AVGNは学習可能なオーディオ視覚クラストークンを利用して、クラス認識ソースの特徴を集約する。 次に、各ソースの集約されたセマンティック機能は、対応する視覚的領域をローカライズするためのガイダンスとして使用できる。 既存のマルチソース方式と比較して, 柔軟な音源数をローカライズし, 個々の音源に対してカテゴリ対応オーディオ・ビジュアル表現を分離できる。 MUSIC, VGGSound-Instruments, VGG-Sound Sourcesベンチマークについて広範な実験を行った。 その結果,提案したAVGNは,単一ソースと複数ソースの両方のシナリオにおいて,最先端の音像定位性能を達成できることが示唆された。 コードは \url{https://github.com/stoneMo/AVGN} で入手できる。

Sound source localization is a typical and challenging task that predicts the location of sound sources in a video. Previous single-source methods mainly used the audio-visual association as clues to localize sounding objects in each image. Due to the mixed property of multiple sound sources in the original space, there exist rare multi-source approaches to localizing multiple sources simultaneously, except for one recent work using a contrastive random walk in the graph with images and separated sound as nodes. Despite their promising performance, they can only handle a fixed number of sources, and they cannot learn compact class-aware representations for individual sources. To alleviate this shortcoming, in this paper, we propose a novel audio-visual grouping network, namely AVGN, that can directly learn category-wise semantic features for each source from the input audio mixture and image to localize multiple sources simultaneously. Specifically, our AVGN leverages learnable audio-visual class tokens to aggregate class-aware source features. Then, the aggregated semantic features for each source can be used as guidance to localize the corresponding visual regions. Compared to existing multi-source methods, our new framework can localize a flexible number of sources and disentangle category-aware audio-visual representations for individual sound sources. We conduct extensive experiments on MUSIC, VGGSound-Instruments, and VGG-Sound Sources benchmarks. The results demonstrate that the proposed AVGN can achieve state-of-the-art sounding object localization performance on both single-source and multi-source scenarios. Code is available at \url{https://github.com/stoneMo/AVGN}.
翻訳日:2023-03-31 14:52:28 公開日:2023-03-29
# 医用画像セグメンテーション用トランスダクティブスショットアダプター

Transductive few-shot adapters for medical image segmentation ( http://arxiv.org/abs/2303.17051v1 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Jose Dolz and Ismail Ben Ayed(参考訳) 近年のコンピュータビジョンとNLPの基礎モデルの増加に伴い、下流タスクで大規模モデルを微調整する事前訓練適応戦略が人気を集めている。 しかしながら、従来の微調整アプローチでは、ターゲットタスクのラベル付きデータが少ない場合、重要なリソースが必要であり、最適以下の結果が得られる可能性がある。 特に臨床場面ではそうである。 この課題に対処するために,医療画像分割のための新しい現実的な設定であるfseft( few-shot efficient fine-tuning)を定式化した。 さらに, 医用画像セグメンテーションに適したパラメータ効率の良い微調整戦略を提案する。 (a)密集した予測作業に適した空間アダプタモジュール b)タスク固有の事前知識を活用する制約付きトランスダクティブ推論。 臓器セグメンテーションのための公開CTデータセットの集合に関する包括的実験は、数ショットシナリオにおける標準的な微調整手法の限界を明らかにし、視覚アダプタやトランスダクティブ推論の可能性を示し、基礎モデルの適合性を確認する。

With the recent raise of foundation models in computer vision and NLP, the pretrain-and-adapt strategy, where a large-scale model is fine-tuned on downstream tasks, is gaining popularity. However, traditional fine-tuning approaches may still require significant resources and yield sub-optimal results when the labeled data of the target task is scarce. This is especially the case in clinical settings. To address this challenge, we formalize few-shot efficient fine-tuning (FSEFT), a novel and realistic setting for medical image segmentation. Furthermore, we introduce a novel parameter-efficient fine-tuning strategy tailored to medical image segmentation, with (a) spatial adapter modules that are more appropriate for dense prediction tasks; and (b) a constrained transductive inference, which leverages task-specific prior knowledge. Our comprehensive experiments on a collection of public CT datasets for organ segmentation reveal the limitations of standard fine-tuning methods in few-shot scenarios, point to the potential of vision adapters and transductive inference, and confirm the suitability of foundation models.
翻訳日:2023-03-31 14:52:00 公開日:2023-03-29
# GAT-COBO:Telecom Fraud Detectionのためのコスト感性グラフニューラルネットワーク

GAT-COBO: Cost-Sensitive Graph Neural Network for Telecom Fraud Detection ( http://arxiv.org/abs/2303.17334v1 )

ライセンス: Link先を確認
Xinxin Hu, Haotian Chen, Junjie Zhang, Hongchang Chen, Shuxin Liu, Xing Li, Yahui Wang, and Xiangyang Xue(参考訳) 5Gのようなモバイル通信技術の急速な進化とともに、通信詐欺が大幅に増加し、個人の財産や社会的富が著しく失われている。 近年では、グラフマイニング技術が徐々に、通信詐欺検出の主流となっている。 しかし、パレート原理によって引き起こされたグラフ不均衡問題は、グラフデータマイニングに深刻な課題をもたらす。 これは新しくて難しい問題ですが、以前の作業はほとんど注目されていません。 本稿では,グラフ不均衡問題に対するCOst-sensitive BOosting(GAT-COBO)を用いたグラフアテンションネットワークを提案する。 まず、GATベースのベース分類器を設計し、グラフ内の全てのノードの埋め込みを学習する。 そして、不均衡学習のために、よく設計されたコスト依存学習者に埋め込みをフィードする。 次に、モデルがマイノリティクラスにもっと焦点を合わせるように、誤分類コストに応じて重みを更新する。 最後に、複数のコスト依存学習者が獲得したノード埋め込みを要約し、下流異常検出タスクに使用される包括的ノード表現を得る。 2つの実世界の通信不正検出データセットの大規模な実験により,提案手法がグラフ不均衡問題に有効であることを示す。 さらに,本モデルは,gnnにおける過剰スムーシング問題の解決にも有用である。 GAT-COBOのコードとデータセットはhttps://github.com/xxhu94/GAT-COBOで公開されている。

Along with the rapid evolution of mobile communication technologies, such as 5G, there has been a drastically increase in telecom fraud, which significantly dissipates individual fortune and social wealth. In recent years, graph mining techniques are gradually becoming a mainstream solution for detecting telecom fraud. However, the graph imbalance problem, caused by the Pareto principle, brings severe challenges to graph data mining. This is a new and challenging problem, but little previous work has been noticed. In this paper, we propose a Graph ATtention network with COst-sensitive BOosting (GAT-COBO) for the graph imbalance problem. First, we design a GAT-based base classifier to learn the embeddings of all nodes in the graph. Then, we feed the embeddings into a well-designed cost-sensitive learner for imbalanced learning. Next, we update the weights according to the misclassification cost to make the model focus more on the minority class. Finally, we sum the node embeddings obtained by multiple cost-sensitive learners to obtain a comprehensive node representation, which is used for the downstream anomaly detection task. Extensive experiments on two real-world telecom fraud detection datasets demonstrate that our proposed method is effective for the graph imbalance problem, outperforming the state-of-the-art GNNs and GNN-based fraud detectors. In addition, our model is also helpful for solving the widespread over-smoothing problem in GNNs. The GAT-COBO code and datasets are available at https://github.com/xxhu94/GAT-COBO.
翻訳日:2023-03-31 13:28:13 公開日:2023-03-29
# 巨大リレーショナルイベントネットワークにおける潜時空間ダイナミクスの高速推定

Fast inference of latent space dynamics in huge relational event networks ( http://arxiv.org/abs/2303.17460v1 )

ライセンス: Link先を確認
Igor Artico and Ernst Wit(参考訳) 関係イベントは社会的相互作用の一種であり、動的ネットワークと呼ばれることもある。 その力学は一般的に、出現するパターン、いわゆる内因性変数、または外因性変数と呼ばれる外部力に依存する。 しかし、ネットワーク内のアクター、特に巨大なネットワークに関する包括的な情報は稀である。 ネットワーク解析における潜在空間アプローチは、ネットワーク構成を駆動する未測定共変量を考慮した一般的な方法である。 ベイジアンおよびem型アルゴリズムは潜在空間を推定するために提案されているが、多くのソーシャルネットワークアプリケーションのサイズとプロセスの動的性質、したがって潜在空間の両方が、計算を禁止的に高価にする。 本研究では,巨大リレーショナルイベントネットワークを扱う可能性に基づくアルゴリズムを提案する。 本稿では,解釈可能な潜在空間に埋め込まれたネットワークコミュニティダイナミクスを推論するための階層戦略を提案する。 ノードダイナミクスは滑らかなスプラインプロセスによって記述される。 大規模ネットワークでフレームワークを実現するには、機械学習最適化の方法論を借りる。 モデルに基づくクラスタリングは凸クラスタリングペナル化によって行われ、解釈が容易な共有軌道が奨励される。 本稿では,マクロマイクロ構造を分離し,階層的解析を行うためのモデルベースアプローチを提案する。 この方法は、数百万のノードを公開のColab GPUに数分で適合させることができる。 コードとチュートリアルはGithubリポジトリで公開されている。

Relational events are a type of social interactions, that sometimes are referred to as dynamic networks. Its dynamics typically depends on emerging patterns, so-called endogenous variables, or external forces, referred to as exogenous variables. Comprehensive information on the actors in the network, especially for huge networks, is rare, however. A latent space approach in network analysis has been a popular way to account for unmeasured covariates that are driving network configurations. Bayesian and EM-type algorithms have been proposed for inferring the latent space, but both the sheer size many social network applications as well as the dynamic nature of the process, and therefore the latent space, make computations prohibitively expensive. In this work we propose a likelihood-based algorithm that can deal with huge relational event networks. We propose a hierarchical strategy for inferring network community dynamics embedded into an interpretable latent space. Node dynamics are described by smooth spline processes. To make the framework feasible for large networks we borrow from machine learning optimization methodology. Model-based clustering is carried out via a convex clustering penalization, encouraging shared trajectories for ease of interpretation. We propose a model-based approach for separating macro-microstructures and perform a hierarchical analysis within successive hierarchies. The method can fit millions of nodes on a public Colab GPU in a few minutes. The code and a tutorial are available in a Github repository.
翻訳日:2023-03-31 13:12:50 公開日:2023-03-29
# 三方向因果属性部分順序構造解析

Three-way causal attribute partial order structure analysis ( http://arxiv.org/abs/2303.17482v1 )

ライセンス: Link先を確認
Xue Zaifa, Lu Huibin, Zhang Tao, Li Tao and Lu Xin(参考訳) 認知学習モデルとして、知識処理の分野では、部分順序形式構造解析(POFSA)が広く用いられている。 本稿では,モデルの解釈性と分類性能を向上させるために,pofsaを設定範囲から因果範囲に進化させる3方向因果属性部分順序構造(3wcapos)を提案する。 まず, 因果的要因(CF)の概念を, 形式的決定文脈における属性と決定属性の因果的相関性を評価するために提案する。 次に、cfと属性部分順序構造を組み合わせて因果属性部分順序構造の概念を定義し、集合カバレッジを因果カバレッジに発展させる。 最後に、3方向決定のアイデアと合わせて、3WCAPOSが形成され、構造内のノードの純度がより明確になり、レベル間の変化がより明確になる。 さらに,6つのデータセットを通して,構造体の分類能力と解釈可能性から実験を行った。 これらの実験により, 3WCAPOSの精度は分類木や回帰木と比較して1%~9%向上し, より解釈可能であり, 知識処理は属性部分順序構造よりも合理的であることがわかった。

As an emerging concept cognitive learning model, partial order formal structure analysis (POFSA) has been widely used in the field of knowledge processing. In this paper, we propose the method named three-way causal attribute partial order structure (3WCAPOS) to evolve the POFSA from set coverage to causal coverage in order to increase the interpretability and classification performance of the model. First, the concept of causal factor (CF) is proposed to evaluate the causal correlation between attributes and decision attributes in the formal decision context. Then, combining CF with attribute partial order structure, the concept of causal attribute partial order structure is defined and makes set coverage evolve into causal coverage. Finally, combined with the idea of three-way decision, 3WCAPOS is formed, which makes the purity of nodes in the structure clearer and the changes between levels more obviously. In addition, the experiments are carried out from the classification ability and the interpretability of the structure through the six datasets. Through these experiments, it is concluded the accuracy of 3WCAPOS is improved by 1% - 9% compared with classification and regression tree, and more interpretable and the processing of knowledge is more reasonable compared with attribute partial order structure.
翻訳日:2023-03-31 13:02:58 公開日:2023-03-29
# あなたが言ったこと:唇読みの専門家が指導した顔生成について語る

Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert ( http://arxiv.org/abs/2303.17480v1 )

ライセンス: Link先を確認
Jiadong Wang, Xinyuan Qian, Malu Zhang, Robby T. Tan, Haizhou Li(参考訳) トーキング・フェイス・ジェネレーション(talking face generation)は、音声入力のコヒーレントな唇に関する顔の動きを再構築する。 前報では唇音の同期と視覚的品質が重要であった。 多くの進歩にもかかわらず、彼らは唇の動きの内容、すなわち、生成品質の重要な側面である話し言葉の視覚的不明瞭さにほとんど焦点を合わせない。 そこで本研究では, 唇読解の専門家を用いて, 不正確な生成結果をペナルティ化し, 生成した唇領域の知性を向上させることを提案する。 また,データの不足を補うために,唇読取の専門家を視聴覚自己監視的に訓練する。 本稿では,唇読解の専門家とともに,音声の時間的依存を考慮しつつ,音声をビデオと同期的に符号化するトランスフォーマーを提案する。 評価のために,2つの異なる口唇読取の専門家による,生成した映像の明瞭度測定のための新しい戦略を提案する。 厳密な実験により,LRS2データセットでは38%以上のワード誤り率(WER),LRWデータセットでは27.8%の精度で,Wav2Lipのような他の最先端(SOTA)手法よりも優れた結果が得られた。 また,Lip-Speech同期におけるSOTA性能と,視覚的品質における同等の性能も達成する。

Talking face generation, also known as speech-to-lip generation, reconstructs facial motions concerning lips given coherent speech input. The previous studies revealed the importance of lip-speech synchronization and visual quality. Despite much progress, they hardly focus on the content of lip movements i.e., the visual intelligibility of the spoken words, which is an important aspect of generation quality. To address the problem, we propose using a lip-reading expert to improve the intelligibility of the generated lip regions by penalizing the incorrect generation results. Moreover, to compensate for data scarcity, we train the lip-reading expert in an audio-visual self-supervised manner. With a lip-reading expert, we propose a novel contrastive learning to enhance lip-speech synchronization, and a transformer to encode audio synchronically with video, while considering global temporal dependency of audio. For evaluation, we propose a new strategy with two different lip-reading experts to measure intelligibility of the generated videos. Rigorous experiments show that our proposal is superior to other State-of-the-art (SOTA) methods, such as Wav2Lip, in reading intelligibility i.e., over 38% Word Error Rate (WER) on LRS2 dataset and 27.8% accuracy on LRW dataset. We also achieve the SOTA performance in lip-speech synchronization and comparable performances in visual quality.
翻訳日:2023-03-31 13:02:37 公開日:2023-03-29
# 局所感度VQVAEとグローバル感度変換器を用いた教師なし異常検出

Unsupervised Anomaly Detection with Local-Sensitive VQVAE and Global-Sensitive Transformers ( http://arxiv.org/abs/2303.17505v1 )

ライセンス: Link先を確認
Mingqing Wang and Jiawei Li and Zhenyang Li and Chengxiao Luo and Bin Chen and Shu-Tao Xia and Zhi Wang(参考訳) 非教師なし異常検出(UAD)は、手動アノテーションのコストを低減し、疾患診断の効率を向上する産業や医療の分野で広く実装されている。 近年,多くの UAD シナリオにおいて,その利点が証明されている。 これらのモデルでは, 正常なデータに基づいて, 異常領域の復元誤差を通常のモデルより高め, 異常箇所の特定が期待できる。 しかし、この仮定は常に制御不能な一般化能力のために成り立つとは限らない。 そこで本研究では,ベクトル量子化可変オートエンコーダ(VQVAE)をベースとした,新たなアグリゲートコードブックと,グローバルな注目を集めたトランスフォーマーを提案する。 この研究において、VQVAEは画像の特徴抽出と再構成に重点を置いており、変換器は多様体に適合し、潜在空間内の異常を見つける。 そして, 正規分布に適合する生成エンコーディングシーケンスを利用することで, 異常の特定のためのより正確な画像の再構成を行うことができる。 各種データセットの実験により,提案手法の有効性が示された。

Unsupervised anomaly detection (UAD) has been widely implemented in industrial and medical applications, which reduces the cost of manual annotation and improves efficiency in disease diagnosis. Recently, deep auto-encoder with its variants has demonstrated its advantages in many UAD scenarios. Training on the normal data, these models are expected to locate anomalies by producing higher reconstruction error for the abnormal areas than the normal ones. However, this assumption does not always hold because of the uncontrollable generalization capability. To solve this problem, we present LSGS, a method that builds on Vector Quantised-Variational Autoencoder (VQVAE) with a novel aggregated codebook and transformers with global attention. In this work, the VQVAE focus on feature extraction and reconstruction of images, and the transformers fit the manifold and locate anomalies in the latent space. Then, leveraging the generated encoding sequences that conform to a normal distribution, we can reconstruct a more accurate image for locating the anomalies. Experiments on various datasets demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-31 12:52:41 公開日:2023-03-29
# Pgx:強化学習のためのハードウェアアクセラレーション並列ゲームシミュレーション

Pgx: Hardware-accelerated parallel game simulation for reinforcement learning ( http://arxiv.org/abs/2303.17503v1 )

ライセンス: Link先を確認
Sotetsu Koyamada, Shinri Okano, Soichiro Nishimori, Yu Murata, Keigo Habara, Haruka Kita, Shin Ishii(参考訳) JAXで書かれたボードゲームシミュレータの集合であるPgxを提案する。 自動ベクタライゼーションとJAXのJust-In-Timeコンパイルのおかげで、PgxはGPU/TPUアクセラレータ上で数千の並列実行に容易にスケールできる。 一つのA100 GPU上でのPgxのシミュレーションは、既存の強化学習ライブラリの10倍高速であることがわかった。 Pgxは、Backgammon、Shogi、Goといった人工知能研究において重要なベンチマークとなるゲームを実装している。 pgxはhttps://github.com/sotetsuk/pgxで入手できる。

We propose Pgx, a collection of board game simulators written in JAX. Thanks to auto-vectorization and Just-In-Time compilation of JAX, Pgx scales easily to thousands of parallel execution on GPU/TPU accelerators. We found that the simulation of Pgx on a single A100 GPU is 10x faster than that of existing reinforcement learning libraries. Pgx implements games considered vital benchmarks in artificial intelligence research, such as Backgammon, Shogi, and Go. Pgx is available at https://github.com/sotetsuk/pgx.
翻訳日:2023-03-31 12:51:48 公開日:2023-03-29
# 混合区間シナリオにおける意図認識意思決定

Intention-Aware Decision-Making for Mixed Intersection Scenarios ( http://arxiv.org/abs/2303.17493v1 )

ライセンス: Link先を確認
Balint Varga, Dongxu Yang, Soeren Hohmann(参考訳) 本稿では,歩行者と自動走行車(AV)との対話を,信号のない道路横断シナリオで処理するための,ホワイトボックスの意図対応意思決定手法を提案する。 さらに,意思決定の自動パラメータ化を可能にする設計フレームワークも開発されている。 この意思決定は、都市交通の歩行者を理解でき、その意図に応じて反応できるように設計されている。 このように、歩行者の行動に対する人間的な反応が保証され、AVの受け入れが高まる。 本論文の核となる概念は、歩行者の道路横断の意図予測と意思決定を2つのサブシステムに分割することである。 一方、意図検出はデータ駆動のブラックボックスモデルである。 したがって、歩行者の複雑な振る舞いをモデル化することができる。 一方、意思決定は、トレーサビリティを確保し、AVの迅速な検証と検証を可能にするためのホワイトボックスモデルである。 このホワイトボックス意思決定は、人間のような行動とデッドロックの予防を提供する。 もう一つの利点は、提案する意思決定は、実際の使用のみを可能にする計算リソースが少ないことである。 自動パラメータ化は粒子群最適化を使用し、歩行者の2つの異なるモデルである社会力モデルとマルコフ決定過程モデルを比較する。 これにより、意思決定の迅速な設計が可能となり、異なる歩行者行動を考慮することができる。 その結果,提案する意図認識意思決定の適用性が強化された。

This paper presents a white-box intention-aware decision-making for the handling of interactions between a pedestrian and an automated vehicle (AV) in an unsignalized street crossing scenario. Moreover, a design framework has been developed, which enables automated parameterization of the decision-making. This decision-making is designed in such a manner that it can understand pedestrians in urban traffic and can react accordingly to their intentions. That way, a human-like response to the actions of the pedestrian is ensured, leading to a higher acceptance of AVs. The core notion of this paper is that the intention prediction of the pedestrian to cross the street and decision-making are divided into two subsystems. On the one hand, the intention detection is a data-driven, black-box model. Thus, it can model the complex behavior of the pedestrians. On the other hand, the decision-making is a white-box model to ensure traceability and to enable a rapid verification and validation of AVs. This white-box decision-making provides human-like behavior and a guaranteed prevention of deadlocks. An additional benefit is that the proposed decision-making requires low computational resources only enabling real world usage. The automated parameterization uses a particle swarm optimization and compares two different models of the pedestrian: The social force model and the Markov decision process model. Consequently, a rapid design of the decision-making is possible and different pedestrian behaviors can be taken into account. The results reinforce the applicability of the proposed intention-aware decision-making.
翻訳日:2023-03-31 12:51:33 公開日:2023-03-29
# 極性は学習と移動を速くするために必要なもの

Polarity is all you need to learn and transfer faster ( http://arxiv.org/abs/2303.17589v1 )

ライセンス: Link先を確認
Qingyang Wang, Michael A.Powell, Ali Geisa, Eric Bridgeford, Joshua T. Vogelstein(参考訳) ナチュラルインテリジェンス(NI)は、ダイナミックな世界で成長します。 対照的に、人工知能(AI)は典型的には、違法な量のトレーニングサンプルと計算能力で学習する。 NIとAIの間にどのような設計原則の違いがあるのか? 開発プロセスは、NIsを有利な極性配置で初期化する; NIsが成長して学習するにつれて、シナプスサイズが更新されるが、極性はほとんど変化しない。 シミュレーションおよび画像分類タスクにより、重み分極が適切に$\textit{a priori}$に設定された場合、ネットワークはより少ない時間とデータで学習する。 また、重みの極性の設定がネットワークにとって不利な状況についても明確に示す。 本研究は,学習中の統計的および計算効率の観点から,重み極性の価値を示す。

Natural intelligences (NIs) thrive in a dynamic world - they learn quickly, sometimes with only a few samples. In contrast, Artificial intelligences (AIs) typically learn with prohibitive amount of training samples and computational power. What design principle difference between NI and AI could contribute to such a discrepancy? Here, we propose an angle from weight polarity: development processes initialize NIs with advantageous polarity configurations; as NIs grow and learn, synapse magnitudes update yet polarities are largely kept unchanged. We demonstrate with simulation and image classification tasks that if weight polarities are adequately set $\textit{a priori}$, then networks learn with less time and data. We also explicitly illustrate situations in which $\textit{a priori}$ setting the weight polarities is disadvantageous for networks. Our work illustrates the value of weight polarities from the perspective of statistical and computational efficiency during learning.
翻訳日:2023-03-31 12:23:53 公開日:2023-03-29
# マルチモーダル画像テキストマッチングによる検索型胸部X線レポート生成の改善

Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray Report Generation ( http://arxiv.org/abs/2303.17579v1 )

ライセンス: Link先を確認
Jaehwan Jeong, Katherine Tian, Andrew Li, Sina Hartung, Fardad Behzadi, Juan Calle, David Osayande, Michael Pohlen, Subathra Adithan, Pranav Rajpurkar(参考訳) 臨床的に正確な放射線診断レポートの自動生成は、患者のケアを改善することができる。 画像キャプションモデルに依存する従来のレポート生成方法は、関連するドメイン知識の欠如により一貫性のない不正確なテキストを生成することが多いが、検索ベースの試みは入力画像と無関係なレポートを頻繁に取り出す。 本研究では,胸部X線画像とX線画像の類似性を測定するために画像テキストマッチングスコアを用いた新しい検索用X線レポート生成モジュールであるContrastive X-Ray Report Match (X-REM)を提案する。 画像テキストマッチングスコアを言語画像モデルで計算することで、コサイン類似性を用いてしばしば失われる画像とテキストのきめ細かい相互作用を効果的に捉えることができる。 X-REMは、自然言語と臨床メトリクスの両方の観点から、複数の先行放射線学レポート生成モジュールより優れている。 X-REMはゼロエラーレポートの数を増大させ,ベースライン検索手法と比較して平均エラー重大度を低下させた。 私たちのコードは、https://github.com/rajpurkarlab/X-REMで利用可能です。

Automated generation of clinically accurate radiology reports can improve patient care. Previous report generation methods that rely on image captioning models often generate incoherent and incorrect text due to their lack of relevant domain knowledge, while retrieval-based attempts frequently retrieve reports that are irrelevant to the input image. In this work, we propose Contrastive X-Ray REport Match (X-REM), a novel retrieval-based radiology report generation module that uses an image-text matching score to measure the similarity of a chest X-ray image and radiology report for report retrieval. We observe that computing the image-text matching score with a language-image model can effectively capture the fine-grained interaction between image and text that is often lost when using cosine similarity. X-REM outperforms multiple prior radiology report generation modules in terms of both natural language and clinical metrics. Human evaluation of the generated reports suggests that X-REM increased the number of zero-error reports and decreased the average error severity compared to the baseline retrieval approach. Our code is available at: https://github.com/rajpurkarlab/X-REM
翻訳日:2023-03-31 12:22:49 公開日:2023-03-29
# ガボル畳み込みネットワーク

Gabor Convolutional Networks ( http://arxiv.org/abs/1705.01450v4 )

ライセンス: Link先を確認
Shangzhen Luan, Baochang Zhang, Chen Chen, Xianbin Cao, Jungong Han, Jianzhuang Liu(参考訳) ステアブルな特性は、例えばガボルフィルタのような伝統的なフィルタの設計を支配し、空間変換を扱う能力を持つ。 しかし、そのような優れた特性は一般的なディープ畳み込みニューラルネットワーク(dcnn)ではよく研究されていない。 本稿では,GaborフィルタをDCNNに組み込んだGabor Convolutional Networks (GCNs, Gabor CNNs) と呼ばれる新しい深層モデルを提案する。 Gaborフィルタに基づくDCNNの基本要素のみを操作することで、GCNは容易に実装でき、一般的なディープラーニングアーキテクチャと互換性がある。 実験の結果, 物体認識におけるアルゴリズムの超能力が示され, スケールや回転の変化が頻発する。 提案されたGCNは、学習可能なネットワークパラメータがはるかに少なく、エンドツーエンドのパイプラインでトレーニングしやすい。

Steerable properties dominate the design of traditional filters, e.g., Gabor filters, and endow features the capability of dealing with spatial transformations. However, such excellent properties have not been well explored in the popular deep convolutional neural networks (DCNNs). In this paper, we propose a new deep model, termed Gabor Convolutional Networks (GCNs or Gabor CNNs), which incorporates Gabor filters into DCNNs to enhance the resistance of deep learned features to the orientation and scale changes. By only manipulating the basic element of DCNNs based on Gabor filters, i.e., the convolution operator, GCNs can be easily implemented and are compatible with any popular deep learning architecture. Experimental results demonstrate the super capability of our algorithm in recognizing objects, where the scale and rotation changes occur frequently. The proposed GCNs have much fewer learnable network parameters, and thus is easier to train with an end-to-end pipeline.
翻訳日:2023-03-30 20:20:22 公開日:2023-03-29
# 単元インタラクションは成果を得られない:"Wigner's Friend"をモデル化しようとする

Unitary Interactions Do Not Yield Outcomes: Attempting to Model "Wigner's Friend" ( http://arxiv.org/abs/2105.01773v3 )

ライセンス: Link先を確認
R. E. Kastner(参考訳) ウィグナーの友人の思考実験をインスタンス化するためのproietti {\it et al}の実験について論じた。 異なる観察者による事実の不一致を疑う実験の意義は、批判的レビューを必須としていることが指摘されている。 特に、実験データによるクレーター・ホーネ・シモニーの不等式違反は、'Friends''(単体相互作用を行う内部光子によってモデル化)への測定結果の帰結が誤っていることを実際に示している。 不適切な混合物に関する初等だがしばしば見過ごされる結果が、この評価を支持するために追加される。 反例は、量子論が経験的矛盾として決して現れない「相対的な事実」につながるという一般的な概念を否定するものである。 さらに、未知のユニタリ性の仮定の下では、すべての系が不適切な混合状態のままであり、不明確な結果をもたらすため、測定相関が結果をもたらすことはない。 量子理論のオルタナティブな定式化という形では既にこの不連続に対する解が存在することが指摘されており、これは内部絡み合った光子レベルでは結果が起こらないことを示すデータであり、またこの種の実験において外部の「超オブザーバー」レベルで結果が発生し得ることを予測している。

An experiment by Proietti {\it et al} purporting to instantiate the `Wigner's Friend' thought experiment is discussed. It is pointed out that the stated implications of the experiment regarding the alleged irreconcilability of facts attributed to different observers warrant critical review. In particular, violation of a Clauser-Horne-Shimony inequality by the experimental data actually shows that the attribution of measurement outcomes to the ``Friends'' (modeled by internal photons undergoing unitary interactions) is erroneous. An elementary but often overlooked result regarding improper mixtures is adduced in support of this assessment. A counterexample is provided which refutes the popular notion that quantum theory leads to `relative facts' that never manifest as empirical inconsistencies. It is further noted that under an assumption of unbroken unitarity, no measurement correlation can ever yield an outcome, since all systems remain in improper mixtures, and attributing a definite but unknown outcome contradicts their composite pure state. It is pointed out that there already exists a solution to this conundrum in the form of an alternative formulation of quantum theory, which accounts for the data showing that no outcomes occurred at the interior entangled photon level and also predicts that outcomes can and do occur at the exterior ``super-observer'' level in this type of experiment.
翻訳日:2023-03-30 20:17:37 公開日:2023-03-29
# 量子コンピュータによる実践的ランダム性増幅と民営化

Practical randomness amplification and privatisation with implementations on quantum computers ( http://arxiv.org/abs/2009.06551v3 )

ライセンス: Link先を確認
Cameron Foreman, Sherilyn Wright, Alec Edgington, Mario Berta and Florian J. Curchod(参考訳) 本稿では,ベル試験に基づくエンドツーエンドかつ実用的なランダム性増幅・民営化プロトコルを提案する。 これにより、敵が構築する可能性のある特性のない量子デバイスを使用しても、(ほぼ)完全に偏りのない、プライベートな数値を出力するデバイス非依存な乱数生成器を構築することができる。 我々の生成速度は量子デバイスの繰り返し速度で線形であり、古典的なランダム性後処理は準線形複雑であり、標準のパーソナルラップトップでは効率が良い。 統計分析は現実世界の量子デバイスにも適している。 プロトコルはその後、いくつかの量子コンピュータに表示されます。 このタスクのために意図的に構築されたものではないが、量子コンピュータは最小限の仮定を追加することで忠実なベルテストを実行することができる。 この半デバイス非依存の方法で、今日の量子コンピュータ上で、我々のプロトコルは(ほぼ)不偏でプライベートな乱数を生成する。

We present an end-to-end and practical randomness amplification and privatisation protocol based on Bell tests. This allows the building of device-independent random number generators which output (near-)perfectly unbiased and private numbers, even if using an uncharacterised quantum device potentially built by an adversary. Our generation rates are linear in the repetition rate of the quantum device and the classical randomness post-processing has quasi-linear complexity - making it efficient on a standard personal laptop. The statistical analysis is also tailored for real-world quantum devices. Our protocol is then showcased on several different quantum computers. Although not purposely built for the task, we show that quantum computers can run faithful Bell tests by adding minimal assumptions. In this semi-device-independent manner, our protocol generates (near-)perfectly unbiased and private random numbers on today's quantum computers.
翻訳日:2023-03-30 20:17:12 公開日:2023-03-29
# 不均衡勾配:過大評価逆境ロバスト性の原因

Imbalanced Gradients: A Subtle Cause of Overestimated Adversarial Robustness ( http://arxiv.org/abs/2006.13726v4 )

ライセンス: Link先を確認
Xingjun Ma, Linxi Jiang, Hanxun Huang, Zejia Weng, James Bailey, Yu-Gang Jiang(参考訳) 防御モデルの堅牢性を評価することは、敵の堅牢性研究において難しい課題である。 難解な勾配は、以前は多くの防御法に存在し、強固さの誤った信号を引き起こすことが発見されている。 本稿では,不均衡勾配という,過度に推定された敵の強靭性も引き起こす,より微妙な状況を特定する。 不均衡勾配の現象は、マージン損失の一項の勾配が支配的となり、攻撃を準最適方向に進めるときに起こる。 不均衡勾配を利用するために、マージン分解(MD)攻撃を定式化し、各項にマージン損失を分解し、2段階のプロセスを通してこれらの項の攻撃可能性を探る。 また,md攻撃のマルチターゲット版とアンサンブル版を提案する。 2018年以降に提案された24の防御モデルを調査した結果,11のモデルが一定の不均衡勾配に影響を受けやすいこと,md攻撃が最善のベースライン攻撃によって評価されるロバスト性が1%以上低下することが判明した。 また,不均衡勾配の原因と有効な対策について詳細に検討する。 私たちのコードはhttps://github.com/HanxunH/MDAttack.comから入手可能です。

Evaluating the robustness of a defense model is a challenging task in adversarial robustness research. Obfuscated gradients have previously been found to exist in many defense methods and cause a false signal of robustness. In this paper, we identify a more subtle situation called Imbalanced Gradients that can also cause overestimated adversarial robustness. The phenomenon of imbalanced gradients occurs when the gradient of one term of the margin loss dominates and pushes the attack towards to a suboptimal direction. To exploit imbalanced gradients, we formulate a Margin Decomposition (MD) attack that decomposes a margin loss into individual terms and then explores the attackability of these terms separately via a two-stage process. We also propose a multi-targeted and ensemble version of our MD attack. By investigating 24 defense models proposed since 2018, we find that 11 models are susceptible to a certain degree of imbalanced gradients and our MD attack can decrease their robustness evaluated by the best standalone baseline attack by more than 1%. We also provide an in-depth investigation on the likely causes of imbalanced gradients and effective countermeasures. Our code is available at https://github.com/HanxunH/MDAttack.
翻訳日:2023-03-30 20:16:59 公開日:2023-03-29
# シャノン限界を超えて:量子パスによる量子通信

Beyond Shannon Limits: Quantum Communications through Quantum Paths ( http://arxiv.org/abs/1912.08575v2 )

ライセンス: Link先を確認
Marcello Caleffi, Kyrylo Simonov, Angela Sara Cacciapuoti(参考訳) ネットワークの6世代(6g)に向けた重要なステップは、シャノンの理論の限界を超えたコミュニケーションパラダイムのシフトである。 古典的なシャノン情報理論と量子的なシャノン情報理論の両方において、通信チャネルは一般に古典的な軌跡を通して結合すると仮定される。 直観的に言うと、量子力学は量子情報キャリアが量子経路、すなわち構成する通信チャネルの因果順序が無期限になる経路を通じて伝播することを可能にする。 量子パスは、古典的なパスを通して情報を送ることができない場合でも、非nullキャパシティを提供するなど驚くべき特徴を示す。 本稿では,量子パスによって実現可能な量子容量について検討し,その上と下の境界を確立する。 本研究は, 通信路の古典的な配置よりも, 通信路の量子的経路において, 到達可能な通信速度の点で有意な優位性を示すものである。 さらに、量子経路が従来の量子シャノン理論の限界を超えて伝達可能な情報の量を上回る領域を特定し、保守的な推定を通じて古典的な経路よりもこの優位性を定量化する。

A crucial step towards the 6th generation (6G) of networks would be a shift in communication paradigm beyond the limits of Shannon's theory. In both classical and quantum Shannon's information theory, communication channels are generally assumed to combine through classical trajectories, so that the associated network path traversed by the information carrier is well-defined. Counter-intuitively, quantum mechanics enables a quantum information carrier to propagate through a quantum path, i.e., through a path such that the causal order of the constituting communications channels becomes indefinite. Quantum paths exhibit astonishing features, such as providing non-null capacity even when no information can be sent through any classical path. In this paper, we study the quantum capacity achievable via a quantum path and establish upper and the lower bounds for it. Our findings reveal the substantial advantage achievable with a quantum path over any classical placements of communications channels in terms of ultimate achievable communication rates. Furthermore, we identify the region where a quantum path incontrovertibly outperforms the amount of transmissible information beyond the limits of conventional quantum Shannon's theory, and we quantify this advantage over classical paths through a conservative estimate.
翻訳日:2023-03-30 20:16:09 公開日:2023-03-29
# STEFANN:Fnt Adaptive Neural Networkを用いたシーンテキストエディタ

STEFANN: Scene Text Editor using Font Adaptive Neural Network ( http://arxiv.org/abs/1903.01192v3 )

ライセンス: Link先を確認
Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal(参考訳) キャプチャされたシーンにおけるテキスト情報は、シーンの解釈と意思決定において重要な役割を果たす。 シーンに存在する複雑なテキスト領域を検知し、解釈する手法は存在するが、私たちの知る限り、画像中のテキスト情報を修正することを目的とした重要な先行研究は存在しない。 画像に直接テキストを編集する機能には、誤り訂正、テキスト復元、画像再利用性など、いくつかの利点がある。 本稿では,画像中のテキストを文字レベルで修正する手法を提案する。 私たちはその問題を2段階にアプローチする。 当初、未観測文字(ターゲット)は、修正中の観察文字(ソース)から生成される。 我々は2つの異なるニューラルネットワークアーキテクチャを提案する。 (a)FANnetは、ソースフォントと構造整合性を達成し、 b) 原色を保存するためのカラーネット。 次に,隣接キャラクタとの幾何学的・視覚的整合性を維持するために,ソースキャラクタを生成キャラクタに置き換える。 本手法は画像中のテキストを修正する統一プラットフォームとして機能する。 本研究では,COCO-Text と ICDAR データセットの質的,定量的な評価を行った。

Textual information in a captured scene plays an important role in scene interpretation and decision making. Though there exist methods that can successfully detect and interpret complex text regions present in a scene, to the best of our knowledge, there is no significant prior work that aims to modify the textual information in an image. The ability to edit text directly on images has several advantages including error correction, text restoration and image reusability. In this paper, we propose a method to modify text in an image at character-level. We approach the problem in two stages. At first, the unobserved character (target) is generated from an observed character (source) being modified. We propose two different neural network architectures - (a) FANnet to achieve structural consistency with source font and (b) Colornet to preserve source color. Next, we replace the source character with the generated character maintaining both geometric and visual consistency with neighboring characters. Our method works as a unified platform for modifying text in images. We present the effectiveness of our method on COCO-Text and ICDAR datasets both qualitatively and quantitatively.
翻訳日:2023-03-30 20:15:48 公開日:2023-03-29
# ディープニューラルネットワークアーキテクチャにおける劣化の影響

Effects of Degradations on Deep Neural Network Architectures ( http://arxiv.org/abs/1807.10108v5 )

ライセンス: Link先を確認
Prasun Roy, Subhankar Ghosh, Saumik Bhattacharya, Umapada Pal(参考訳) 深層畳み込みニューラルネットワーク(cnn)は,近年の大規模画像分類の進歩に大きな影響を与えている。 最近では、カプセル(ニューロンのグループ)を用いた動的ルーティングアルゴリズムが最先端の認識性能を示している。 しかし、劣化信号(ノイズ)の存在下でのそのようなネットワークの挙動はほとんど解明されていない。 ノイズロバスト性に対する異なるネットワークアーキテクチャに関する分析研究は、特定のアプリケーションシナリオにおいて適切なモデルを選択するために不可欠である。 本稿では,最も一般的な6つの画像劣化モデルに基づいて,画像分類のための6つの深層アーキテクチャの性能解析を行った。 本研究では,VGG-16,VGG-19,ResNet-50,Inception-v3,MobileNet,CapsuleNetアーキテクチャをガウス色,ガウス色,ソルト・アンド・ペッパー,ガウスブラー,モーションボケ,JPEG圧縮ノイズモデルで比較した。

Deep convolutional neural networks (CNN) have massively influenced recent advances in large-scale image classification. More recently, a dynamic routing algorithm with capsules (groups of neurons) has shown state-of-the-art recognition performance. However, the behavior of such networks in the presence of a degrading signal (noise) is mostly unexplored. An analytical study on different network architectures toward noise robustness is essential for selecting the appropriate model in a specific application scenario. This paper presents an extensive performance analysis of six deep architectures for image classification on six most common image degradation models. In this study, we have compared VGG-16, VGG-19, ResNet-50, Inception-v3, MobileNet and CapsuleNet architectures on Gaussian white, Gaussian color, salt-and-pepper, Gaussian blur, motion blur and JPEG compression noise models.
翻訳日:2023-03-30 20:15:35 公開日:2023-03-29
# Ousiometrics and Telegnomics:意味の本質は、安全バイアスを示す多種多様なコーパスを持つ2次元強力弱危険安全フレームワークに適合する

Ousiometrics and Telegnomics: The essence of meaning conforms to a two-dimensional powerful-weak and dangerous-safe framework with diverse corpora presenting a safety bias ( http://arxiv.org/abs/2110.06847v2 )

ライセンス: Link先を確認
P. S. Dodds, T. Alshaabi, M. I. Fudolig, J. W. Zimmerman, J. Lovato, S. Beaulieu, J. R. Minot, M. V. Arnold, A. J. Reagan, and C. M. Danforth(参考訳) 我々は,有意義な信号が伝達される状況において,意味的な意味の研究と,遠隔で知覚された知識の研究と定義する。 20世紀半ばに出現した仕事から、意味の本質は評価、力、活性化の3つの直交次元(epa)によってよく捉えられるものとして一般に受け入れられている。 最初の型と次に英語のトークンを再検討し、自動アノテートされたヒストグラム(`ousiograms')を使用することで、次のようになる。 1.言葉によって伝えられる意味の本質は、代わりにコンパスのようなパワーダンガー(PD)フレームワークによって最もよく説明され、 2. 大規模英語コーパス(文学,ニュース,ウィキペディア,トークラジオ,ソーシャルメディア)の異種コレクションの分析は,自然言語が安全で低危険な単語に対する体系的なバイアスを示すことを示している。 両極形容積対による観測された等尺的次元の表現を正当化するために,同義語の「synousionyms」と「antousionyms」を導入するとともに,同義語の「ousiometric dimensions of synonyms」と「antonyms」を探索する。 さらに、PDフレームワークは、より一般的な精神状態モデルとして、感情の概略モデルを改訂することを示す。 最後に, 時間的コーパスの時間時系列を計測する遠隔計測装置である'ousiometer' を試作し, 試作した。 我々は, エントロピーに基づく計測の補完として, 生体・人工生命における多様なコミュニケーションの研究に有用であると主張している。

We define `ousiometrics' to be the study of essential meaning in whatever context that meaningful signals are communicated, and `telegnomics' as the study of remotely sensed knowledge. From work emerging through the middle of the 20th century, the essence of meaning has become generally accepted as being well captured by the three orthogonal dimensions of evaluation, potency, and activation (EPA). By re-examining first types and then tokens for the English language, and through the use of automatically annotated histograms -- `ousiograms' -- we find here that: 1. The essence of meaning conveyed by words is instead best described by a compass-like power-danger (PD) framework, and 2. Analysis of a disparate collection of large-scale English language corpora -- literature, news, Wikipedia, talk radio, and social media -- shows that natural language exhibits a systematic bias toward safe, low danger words -- a reinterpretation of the Pollyanna principle's positivity bias for written expression. To help justify our choice of dimension names and to help address the problems with representing observed ousiometric dimensions by bipolar adjective pairs, we introduce and explore `synousionyms' and `antousionyms' -- ousiometric counterparts of synonyms and antonyms. We further show that the PD framework revises the circumplex model of affect as a more general model of state of mind. Finally, we use our findings to construct and test a prototype `ousiometer', a telegnomic instrument that measures ousiometric time series for temporal corpora. We contend that our power-danger ousiometric framework provides a complement for entropy-based measurements, and may be of value for the study of a wide variety of communication across biological and artificial life.
翻訳日:2023-03-30 19:32:00 公開日:2023-03-29
# 深層学習推論における計算・エネルギー消費の動向

Compute and Energy Consumption Trends in Deep Learning Inference ( http://arxiv.org/abs/2109.05472v2 )

ライセンス: Link先を確認
Radosvet Desislavov, Fernando Mart\'inez-Plumed, Jos\'e Hern\'andez-Orallo(参考訳) ディープラーニングのようなAIパラダイムの進歩は、パラメータ数の指数的な増加と関連していると言われている。 これらの傾向を裏付ける研究は数多くあるが、これはエネルギー消費の指数的な増加に繋がるのだろうか? この質問に答えるために、私たちは、トレーニングコストよりも推論コストに焦点を当てています。 また、アルゴリズムの革新とは別に、通常は重要なエネルギー効率の最適化を伴う、より具体的で強力なハードウェア(より高いFLOPSに導かれる)についても説明します。 また,画期的な論文の初回実装から,1~2年後の技術統合版へと焦点を移した。 この特徴的かつ包括的な視点の下で、コンピュータビジョンと自然言語処理の領域における関連するモデルについて検討する。 唯一注意すべき点は、未来のAIが侵入を増やし、より広く普及するにつれて、乗法的要因であることだ。

The progress of some AI paradigms such as deep learning is said to be linked to an exponential growth in the number of parameters. There are many studies corroborating these trends, but does this translate into an exponential increase in energy consumption? In order to answer this question we focus on inference costs rather than training costs, as the former account for most of the computing effort, solely because of the multiplicative factors. Also, apart from algorithmic innovations, we account for more specific and powerful hardware (leading to higher FLOPS) that is usually accompanied with important energy efficiency optimisations. We also move the focus from the first implementation of a breakthrough paper towards the consolidated version of the techniques one or two year later. Under this distinctive and comprehensive perspective, we study relevant models in the areas of computer vision and natural language processing: for a sustained increase in performance we see a much softer growth in energy consumption than previously anticipated. The only caveat is, yet again, the multiplicative factor, as future AI increases penetration and becomes more pervasive.
翻訳日:2023-03-30 19:31:26 公開日:2023-03-29
# 説明的フィードバックを伴う簡単なチュートリアルからの体系的人間学習と一般化

Systematic human learning and generalization from a brief tutorial with explanatory feedback ( http://arxiv.org/abs/2107.06994v2 )

ライセンス: Link先を確認
Andrew J. Nam and James L. McClelland (Stanford University)(参考訳) ニューラルネットワークは、人間の知性をモデル化し、行動と認知の要素を捉え、その神経基盤を捉えてきた。 ディープラーニングの最近の進歩により、ニューラルネットワークモデルが多くの点で人間のレベルの知性に到達し、超越することさえ可能になったが、人間とは異なり、新しいタスクを学習する能力はすぐに挑戦的だ。 人々は慣れ親しんだドメインだけでなく、新しい問題や状況を通じて素早く推論を学ぶことができ、現代のニューラルネットワークモデルがいかに人間の知性を捉えるか、どのように分岐するかという疑問を提起する。 そこで本研究では,短い指導指導チュートリアルから,不正確な回答に対する説明的フィードバックを伴い,sudokuに基づく抽象的推論タスクを学習する成人の能力を検討することで,このギャップを探究する。 タスクをマスターする参加者は、少数の試行錯誤を経て、トレーニング範囲外のパズルにうまく一般化することが分かりました。 また,タスクを習得する者の多くは有効な解戦略を記述できるため,戦略記述が曖昧で不完全である者よりも,移行パズルをうまく表現できることがわかった。 興味深いことに、人間の半数未満が有効な解法戦略の獲得に成功しており、この能力は高校数学教育と関連している。 これらの知見は,我々の発見のあらゆる側面を捉えた計算モデルを構築する上での課題を考察し,迅速な学習と一般化を支援するために,説明に基づく推論に学習が関与する可能性のある役割を指摘する。

Neural networks have long been used to model human intelligence, capturing elements of behavior and cognition, and their neural basis. Recent advancements in deep learning have enabled neural network models to reach and even surpass human levels of intelligence in many respects, yet unlike humans, their ability to learn new tasks quickly remains a challenge. People can reason not only in familiar domains, but can also rapidly learn to reason through novel problems and situations, raising the question of how well modern neural network models capture human intelligence and in which ways they diverge. In this work, we explore this gap by investigating human adults' ability to learn an abstract reasoning task based on Sudoku from a brief instructional tutorial with explanatory feedback for incorrect responses using a narrow range of training examples. We find that participants who master the task do so within a small number of trials and generalize well to puzzles outside of the training range. We also find that most of those who master the task can describe a valid solution strategy, and such participants perform better on transfer puzzles than those whose strategy descriptions are vague or incomplete. Interestingly, fewer than half of our human participants were successful in acquiring a valid solution strategy, and this ability is associated with high school mathematics education. We consider the challenges these findings pose for building computational models that capture all aspects of our findings and point toward a possible role for learning to engage in explanation-based reasoning to support rapid learning and generalization.
翻訳日:2023-03-30 19:31:11 公開日:2023-03-29
# データ多様体上のアイデンティティ保存変換の学習

Learning Identity-Preserving Transformations on Data Manifolds ( http://arxiv.org/abs/2106.12096v2 )

ライセンス: Link先を確認
Marissa Connor, Kion Fallah, Christopher Rozell(参考訳) 多くの機械学習技術は、そのモデルにID保存変換を組み込んで、そのパフォーマンスをそれまで見つからなかったデータに一般化する。 これらの変換は通常、適用された入力のアイデンティティ(例えば、回転、変換、フリップ、スケーリング)を維持するために知られている一連の関数から選択される。 しかし、データを調べることで、監視や定義のためにラベル付けできない多くの自然変化が存在する。 多様体仮説によって示唆されるように、これらの自然変分の多くは低次元の非線形多様体上または近くに存在する。 いくつかのテクニックは、多様体上の運動方向を定義する学習されたリー群作用素の集合を通して多様体の変分を表す。 しかしながら、これらのアプローチは、モデルをトレーニングする際に変換ラベルが必要であり、各特定の演算子を適用するのに多様体のどの領域が適切かを決定する方法が欠けているため、限定的である。 本稿では,変換ラベルを必要としない学習戦略を導入し,入力のアイデンティティを保ちながら,各演算子を使用する可能性のある局所領域を学習する手法を提案する。 mnist と fashion mnist の実験では、マルチクラスデータセットでアイデンティティ保存変換を学習するモデルの能力が強調されている。 さらに、CelebAを使って、教師なしの方法で複雑なデータセット上で意味論的意味のある変換を学習するモデルの能力を示す。

Many machine learning techniques incorporate identity-preserving transformations into their models to generalize their performance to previously unseen data. These transformations are typically selected from a set of functions that are known to maintain the identity of an input when applied (e.g., rotation, translation, flipping, and scaling). However, there are many natural variations that cannot be labeled for supervision or defined through examination of the data. As suggested by the manifold hypothesis, many of these natural variations live on or near a low-dimensional, nonlinear manifold. Several techniques represent manifold variations through a set of learned Lie group operators that define directions of motion on the manifold. However, these approaches are limited because they require transformation labels when training their models and they lack a method for determining which regions of the manifold are appropriate for applying each specific operator. We address these limitations by introducing a learning strategy that does not require transformation labels and developing a method that learns the local regions where each operator is likely to be used while preserving the identity of inputs. Experiments on MNIST and Fashion MNIST highlight our model's ability to learn identity-preserving transformations on multi-class datasets. Additionally, we train on CelebA to showcase our model's ability to learn semantically meaningful transformations on complex datasets in an unsupervised manner.
翻訳日:2023-03-30 19:30:35 公開日:2023-03-29
# 量子スピン1鎖の二重性、臨界性、異常、トポロジー

Duality, Criticality, Anomaly, and Topology in Quantum Spin-1 Chains ( http://arxiv.org/abs/2203.15791v3 )

ライセンス: Link先を確認
Hong Yang, Linhao Li, Kouichi Okunishi, Hosho Katsura(参考訳) 量子スピン-1 鎖では、ケネディ・タサキ変換 $U_{\text{KT}}$ と呼ばれる非局所ユニタリ変換が存在し、これはハルダン相と$\mathbb{Z}_2 \times \mathbb{Z}_2$対称性破れ相の双対性を定義する。 本稿では、$u_{\text{kt}}$ が位相的イジング臨界位相と自明なイジング臨界位相との間の双対性を定義することを見出し、位相的臨界性に対して「隠れた対称性の破れ」解釈を与える。 さらに、双対性は物質の相が異なるため、自己双対性を持つモデル(すなわち$U_{\text{KT}}$の不変量)は臨界点または多重臨界点に自然に存在すると論じる。 この議論を実証するために具体例を考察する。 特に、$H$ がスピン-1反強磁性ハイゼンベルク鎖のハミルトニアンであるとき、自己双対モデル $H + U_{\text{KT}} H U_{\text{KT}}$ がちょうどギャップのないスピン-1/2$ XY 鎖と等価であることを示す。 一方、互いに双対である位相的かつ自明なイジング臨界が、実際は自己双対である多臨界点に一致することを示す。

In quantum spin-1 chains, there is a nonlocal unitary transformation known as the Kennedy-Tasaki transformation $U_{\text{KT}}$, which defines a duality between the Haldane phase and the $\mathbb{Z}_2 \times \mathbb{Z}_2$ symmetry-breaking phase. In this paper, we find that $U_{\text{KT}}$ also defines a duality between a topological Ising critical phase and a trivial Ising critical phase, which provides a "hidden symmetry breaking" interpretation for the topological criticality. Moreover, since the duality relates different phases of matter, we argue that a model with self-duality (i.e., invariant under $U_{\text{KT}}$) is natural to be at a critical or multicritical point. We study concrete examples to demonstrate this argument. In particular, when $H$ is the Hamiltonian of the spin-1 antiferromagnetic Heisenberg chain, we prove that the self-dual model $H + U_{\text{KT}} H U_{\text{KT}}$ is exactly equivalent to a gapless spin-$1/2$ XY chain, which also implies an emergent quantum anomaly. On the other hand, we show that the topological and trivial Ising criticalities that are dual to each other meet at a multicritical point which is indeed self-dual.
翻訳日:2023-03-30 19:22:39 公開日:2023-03-29
# 3次元透明物体再構成のためのハイブリッドメッシュニューラル表現法

Hybrid Mesh-neural Representation for 3D Transparent Object Reconstruction ( http://arxiv.org/abs/2203.12613v3 )

ライセンス: Link先を確認
Jiamin Xu, Zihan Zhu, Hujun Bao, Weiwei Xu(参考訳) 自然光条件下で手持ちの撮像画像を用いて透明物体の3次元形状を復元する新しい手法を提案する。 明示的なメッシュとハイブリッド表現であるマルチレイヤパーセプトロン(MLP)ネットワークの利点を組み合わせて、最近のコントリビューションで使用されるキャプチャ設定を簡素化する。 マルチビューシルエットを用いて初期形状を得た後,表面の細部を再構成するための頂点変位場 (VDF) を符号化する曲面型局所MLPを導入する。 ローカルMLPの設計は、最適化アルゴリズムに有利な2層MLPネットワークを用いて、VDFを断片的に表現することができる。 体積の代わりに表面上の局所的なMLPを定義することで、探索空間も減少する。 このようなハイブリッド表現は、光路制約を表す光画素対応を我々の設計した光-セル対応に緩和することを可能にし、単一画像に基づく環境マットングアルゴリズムの実装を著しく単純化する。 地上真理モデルを用いた複数の透明物体に対する表現と再構成アルゴリズムの評価を行った。 提案手法は, 簡易なデータ取得装置を用いて, 最先端の手法よりも高品質な再構成結果が得られることを示す。

We propose a novel method to reconstruct the 3D shapes of transparent objects using hand-held captured images under natural light conditions. It combines the advantage of explicit mesh and multi-layer perceptron (MLP) network, a hybrid representation, to simplify the capture setting used in recent contributions. After obtaining an initial shape through the multi-view silhouettes, we introduce surface-based local MLPs to encode the vertex displacement field (VDF) for the reconstruction of surface details. The design of local MLPs allows to represent the VDF in a piece-wise manner using two layer MLP networks, which is beneficial to the optimization algorithm. Defining local MLPs on the surface instead of the volume also reduces the searching space. Such a hybrid representation enables us to relax the ray-pixel correspondences that represent the light path constraint to our designed ray-cell correspondences, which significantly simplifies the implementation of single-image based environment matting algorithm. We evaluate our representation and reconstruction algorithm on several transparent objects with ground truth models. Our experiments show that our method can produce high-quality reconstruction results superior to state-of-the-art methods using a simplified data acquisition setup.
翻訳日:2023-03-30 19:22:10 公開日:2023-03-29
# 完全相関雑音に対する量子誤差補正方式

Quantum Error Correction Scheme for Fully Correlated Noise ( http://arxiv.org/abs/2202.12408v2 )

ライセンス: Link先を確認
Chi-Kwong Li, Yuqiao Li, Diane Christine Pelejo and Sage Stanish(参考訳) 本稿では、$n$-qubitシステム上の完全相関ノイズチャネルに対する量子誤差補正方式について検討し、エラー演算子は$W^{\otimes n}$、$W$は任意の$2\times 2$ Unitary演算子とする。 以前の文献では、再帰的量子誤差補正スキームは$(k+1)$-qubit ancillaを使って$k$ qubitsを保護するために用いられる。 我々は,この方式をIBM量子コンピュータを用いて3量子および5量子チャネル上で実装し,符号化/復号演算子を基本量子ゲートに分解する際の誤りを明らかにする。 本稿では,効率的に分解できる改良型エンコーディング/デコード演算子を提案する。 (a) \textt{qiskit}ライブラリで利用可能な標準ゲートと (b)単一ビットゲートとCNOTゲートからなる基本ゲート。 IBMの量子コンピュータは、より少ない基本ゲートで比較的よく機能するため、より効率的な分解によりより正確な結果が得られる。 本実験では,エンコーディング/復号演算子の効率的な分解の重要性を強調し,提案手法が量子誤差の補正に有効であることを示す。 さらに、sigma_x^{\otimes n}, \sigma_y^{\otimes n}$, $\sigma_z^{\otimes n}$, $\sigma_x, \sigma_y, \sigma_z$ という形のエラー演算子を持つ特別なタイプのチャネルを探索する。 これらのチャネルに対して,ibmの量子コンピュータを用いて,量子情報と古典情報の両方を保護するハイブリッド量子誤り補正スキームを実装した。 n = 3, 4, 5$の実験を行い、最近の研究に比べて大幅に改善しています。

This paper investigates quantum error correction schemes for fully-correlated noise channels on an $n$-qubit system, where error operators take the form $W^{\otimes n}$, with $W$ being an arbitrary $2\times 2$ unitary operator. In previous literature, a recursive quantum error correction scheme can be used to protect $k$ qubits using $(k+1)$-qubit ancilla. We implement this scheme on 3-qubit and 5-qubit channels using the IBM quantum computers, where we uncover an error in the previous paper related to the decomposition of the encoding/decoding operator into elementary quantum gates. Here, we present a modified encoding/decoding operator that can be efficiently decomposed into (a) standard gates available in the \texttt{qiskit} library and (b) basic gates comprised of single-qubit gates and CNOT gates. Since IBM quantum computers perform relatively better with fewer basic gates, a more efficient decomposition gives more accurate results. Our experiments highlight the importance of an efficient decomposition for the encoding/decoding operators and demonstrate the effectiveness of our proposed schemes in correcting quantum errors. Furthermore, we explore a special type of channel with error operators of the form $\sigma_x^{\otimes n}, \sigma_y^{\otimes n}$ and $\sigma_z^{\otimes n}$, where $\sigma_x, \sigma_y, \sigma_z$ are the Pauli matrices. For these channels, we implement a hybrid quantum error correction scheme that protects both quantum and classical information using IBM's quantum computers. We conduct experiments for $n = 3, 4, 5$ and show significant improvements compared to recent work.
翻訳日:2023-03-30 19:21:32 公開日:2023-03-29
# Volley Revolver: プライバシ保護ニューラルネットワークのための新しいマトリックスエンコーディング手法(推論)

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference) ( http://arxiv.org/abs/2201.12577v3 )

ライセンス: Link先を確認
John Chiang(参考訳) 本稿では,ニューラルネットワークが準同型暗号を用いて,プライバシ保存方式で予測を行うのに特に便利である行列エンコーディング法を提案する。 この符号化手法に基づいて,手書き画像分類のための畳み込みニューラルネットワークを実装した。 準同型乗算を実行するための2つの行列 $a$ と $b$ に対して、その背後にある主なアイデアは、単純なバージョンでは、行列 $a$ と行列 $b$ の変換をそれぞれ2つの暗号文に暗号化することである。 さらなる演算により、同型行列乗法は暗号化行列上で効率的に計算できる。 畳み込み処理では,各畳み込みカーネルを予め入力画像と同じ大きさの行列空間に分割し,複数の暗号文を生成する。 これらの中間結果をすべて蓄積し、畳み込み演算を完了する。 40のvCPUを持つパブリッククラウドでは、MNISTテストデータセット上の畳み込みニューラルネットワークの実装に$\sim$287秒を要し、32の暗号化画像サイズ228 \times 28$の10の確率を同時に計算します。 データ所有者は、これらの32の画像をパブリッククラウドに暗号化する1つの暗号テキスト($\sim 19.8$ MB)をアップロードするだけでよい。

In this work, we present a novel matrix-encoding method that is particularly convenient for neural networks to make predictions in a privacy-preserving manner using homomorphic encryption. Based on this encoding method, we implement a convolutional neural network for handwritten image classification over encryption. For two matrices $A$ and $B$ to perform homomorphic multiplication, the main idea behind it, in a simple version, is to encrypt matrix $A$ and the transpose of matrix $B$ into two ciphertexts respectively. With additional operations, the homomorphic matrix multiplication can be calculated over encrypted matrices efficiently. For the convolution operation, we in advance span each convolution kernel to a matrix space of the same size as the input image so as to generate several ciphertexts, each of which is later used together with the ciphertext encrypting input images for calculating some of the final convolution results. We accumulate all these intermediate results and thus complete the convolution operation. In a public cloud with 40 vCPUs, our convolutional neural network implementation on the MNIST testing dataset takes $\sim$ 287 seconds to compute ten likelihoods of 32 encrypted images of size $28 \times 28$ simultaneously. The data owner only needs to upload one ciphertext ($\sim 19.8$ MB) encrypting these 32 images to the public cloud.
翻訳日:2023-03-30 19:21:00 公開日:2023-03-29
# プライバシ保存型ロジスティック回帰トレーニングの高速化

Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant ( http://arxiv.org/abs/2201.10838v3 )

ライセンス: Link先を確認
John Chiang(参考訳) 暗号化データによるロジスティック回帰トレーニングは,セキュリティ上の懸念に対して,長年にわたって魅力的なアイデアだった。 本稿では,準同型暗号領域におけるロジスティック回帰トレーニングを実現するために,$\texttt{quadratic gradient}$と呼ばれるより高速な勾配変種を提案する。 我々は,Nesterovの加速勾配(NAG)と適応勾配アルゴリズム(Adagrad)を,この勾配変動でそれぞれ拡張し,複数のデータセット上で拡張アルゴリズムを評価する。 実験の結果, 拡張手法は一階勾配法に比べ, 収束速度において最先端の性能を示すことがわかった。 次に,準同型ロジスティック回帰トレーニングを実装するために拡張nag法を適用し,わずか3ドルの反復で同等の結果を得る。

Logistic regression training over encrypted data has been an attractive idea to security concerns for years. In this paper, we propose a faster gradient variant called $\texttt{quadratic gradient}$ to implement logistic regression training in a homomorphic encryption domain, the core of which can be seen as an extension of the simplified fixed Hessian. We enhance Nesterov's accelerated gradient (NAG) and Adaptive Gradient Algorithm (Adagrad) respectively with this gradient variant and evaluate the enhanced algorithms on several datasets. Experimental results show that the enhanced methods have a state-of-the-art performance in convergence speed compared to the naive first-order gradient methods. We then adopt the enhanced NAG method to implement homomorphic logistic regression training and obtain a comparable result by only $3$ iterations.
翻訳日:2023-03-30 19:20:35 公開日:2023-03-29
# 共有量子シークレットの回収と再構築

Revocation and Reconstruction of Shared Quantum Secrets ( http://arxiv.org/abs/2112.15556v6 )

ライセンス: Link先を確認
Prakash Mudholkar, Chiranjeevi Vanarasa, Indranil Chakrabarty and Srinathan Kannan(参考訳) 量子シークレット共有では、量子シークレットと古典シークレットの両方を量子リソースと共有できる。 本稿では,ディーラーと2人の株主が共有する量子秘密の取り消し問題について,三者シナリオで検討する。 既存のシークレット共有プロトコルでは、ディーラーがすべての株主が半正直であることを知ったら、シークレットを回収する手段はない。 この作業では、不正な株主を扱っているわけではない。 量子秘密共有プロトコルでは、半正直で不正ではない株主を明示的に扱います。 当社のプロトコルは,すべての株主や受託者が半正真正銘である最悪の状況において,秘密を戻すための戦略を設計することで,この問題を解決する上で大きな進歩を遂げます。 提案する戦略では、ディーラーは秘密の量子共有も保有しており、共有が完了した後も秘密を戻す権限をディーラーに与える。 しかし、このプロトコルは、取り消しプロセスと共に、株主が正直である場合の正常な再構成を保証する。 この利点はディーラー側で追加の1キュービットの費用がかかるため、1ディーラーと2シェアホルダーのシナリオから始めるには4キュービットのリソースが必要である。 この記事では、プロトコルの説明だけでなく、4ビットの絡み合った状態の助けを借りて、プロトコルが動作している例を示します。 また、プロトコルが成功する入力状態のパラメータの範囲を明示的に把握した。

In Quantum secret sharing we can share both quantum and classical secrets with a quantum resource. In this article we study the problem of revocation of quantum secret shared by the dealer with two shareholders in a three party scenario. In the existing secret sharing protocols there are no means by which the dealer can retrieve back the secret once he/she finds all the share holders to be semi-honest. In this work, we are not dealing with shareholders who are dishonest. We state clearly that in our quantum secret sharing protocol, we explicitly deal with shareholders who are semi-honest and not dishonest. Our protocol makes a significant advancement in solving this problem by designing strategy in bringing back the secret in the worst possible situation when all the shareholders/receivers are semi-honest. In our proposed strategy the dealer also possesses a quantum share of the secret which empowers the dealer to bring back the secret even after sharing is done. However the protocol along with the revocation process also ensures the normal reconstruction at the share holder's location when they are honest. This advantage comes with the expense of extra one qubit on dealer's side and consequently we require a four qubit resource to start with for 1-dealer and 2-share holder's scenario. Here in this article we not only give the description of our protocol but also give an example where our protocol is working with the help of a four qubit entangled state. We also explicitly found out the range of parameter for the input state for which the protocol will be successful.
翻訳日:2023-03-30 19:20:21 公開日:2023-03-29
# 固有状態熱化仮説からの高速熱化

Fast Thermalization from the Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2112.07646v3 )

ライセンス: Link先を確認
Chi-Fang Chen and Fernando G.S.L. Brand\~ao(参考訳) 固有状態熱化仮説(ETH)は閉量子系における熱力学現象を理解する上で重要な役割を果たしている。 しかし、開系力学における熱化の時間スケールとの関係はいまだ解明されていない。 本稿では,ETHと高速加熱とグローバルギブス状態との厳密な関係を確立する。 具体的には,周期的にリフレッシュする準フリーフェルミオンの浴槽に弱結合した系の高速熱分解を示す。 共同進化を説明するために、明示的な誤差境界とリソース推定を持つデイビーズ生成器の有限時間バージョンを導出する。 エネルギーベースでの演算子は、近対角帯域の独立なランダム行列によってモデル化することができる。 これにより、ハミルトニアンの近傍の固有状態における量子展開器が与えられ、エネルギー固有状態の1次元の古典的ランダムウォークに問題を還元する。 カオス的開量子システムにおける有限時間熱化を説明する。

The Eigenstate Thermalization Hypothesis (ETH) has played a major role in understanding thermodynamic phenomena in closed quantum systems. However, its connection to the timescale of thermalization for open system dynamics has remained elusive. This paper establishes a rigorous link between ETH and fast thermalization to the global Gibbs state. Specifically, we demonstrate fast thermalization for a system coupled weakly to a bath of quasi-free Fermions that we refresh periodically. To describe the joint evolution, we derive a finite-time version of Davies' generator with explicit error bounds and resource estimates. Our approach exploits a critical feature of ETH: operators in the energy basis can be modeled by independent random matrices in a near-diagonal band. This gives quantum expanders at nearby eigenstates of the Hamiltonian and reduces the problem to a one-dimensional classical random walk on the energy eigenstates. Our results explain finite-time thermalization in chaotic open quantum systems.
翻訳日:2023-03-30 19:19:59 公開日:2023-03-29
# 新型コロナウイルスにおける人工知能の優位性

The Prominence of Artificial Intelligence in COVID-19 ( http://arxiv.org/abs/2111.09537v3 )

ライセンス: Link先を確認
MD Abdullah Al Nasim, Aditi Dhali, Faria Afrin, Noshin Tasnim Zaman, Nazmul Karimm, Md Mahim Anjum Haque(参考訳) 2019年12月、新型コロナウイルス(COVID-19)と呼ばれる新型ウイルスが大量の原因となった。 新型ウイルス「コロナウイルス」との闘いは、スペイン・インフルエンザの影響で激化している。 最前線の医師や医学研究者は、高度に連続したウイルスの拡散を抑えるために大きな進歩を遂げてきたが、技術も戦闘においてその重要性を証明している。 さらに、人工知能は多くの医学的応用で多くの病気の診断に採用されている。 そこで本研究では,早期・安価な診断方法として,医師や研究者を支援する手法について検討した。 ほとんどの途上国では、従来の方法でのテストが難しいが、機械学習やディープラーニングでは重要な方法が採用できる。 一方で、さまざまな種類の医療画像へのアクセスが研究者の動機となっている。 その結果,マンモス数が多い技術が提案されている。 本稿では,人工知能分野における従来の手法の背景知識について述べる。 その後、一般的に使用されるデータセットとそのユースケースを現在まで収集します。 さらに,深層学習よりも機械学習を採用する研究者の割合も示す。 したがって、我々はこのシナリオを徹底的に分析する。 最後に、研究課題として、covid-19研究で直面する課題を詳述し、明るく健全な環境を構築するための理解の問題点について論じる。

In December 2019, a novel virus called COVID-19 had caused an enormous number of causalities to date. The battle with the novel Coronavirus is baffling and horrifying after the Spanish Flu 2019. While the front-line doctors and medical researchers have made significant progress in controlling the spread of the highly contiguous virus, technology has also proved its significance in the battle. Moreover, Artificial Intelligence has been adopted in many medical applications to diagnose many diseases, even baffling experienced doctors. Therefore, this survey paper explores the methodologies proposed that can aid doctors and researchers in early and inexpensive methods of diagnosis of the disease. Most developing countries have difficulties carrying out tests using the conventional manner, but a significant way can be adopted with Machine and Deep Learning. On the other hand, the access to different types of medical images has motivated the researchers. As a result, a mammoth number of techniques are proposed. This paper first details the background knowledge of the conventional methods in the Artificial Intelligence domain. Following that, we gather the commonly used datasets and their use cases to date. In addition, we also show the percentage of researchers adopting Machine Learning over Deep Learning. Thus we provide a thorough analysis of this scenario. Lastly, in the research challenges, we elaborate on the problems faced in COVID-19 research, and we address the issues with our understanding to build a bright and healthy environment.
翻訳日:2023-03-30 19:19:46 公開日:2023-03-29
# 視・放射・学習:ラジオ・視覚対応による自己教師あり局所化

Look, Radiate, and Learn: Self-Supervised Localisation via Radio-Visual Correspondence ( http://arxiv.org/abs/2206.06424v4 )

ライセンス: Link先を確認
Mohammed Alloulah, Maximilian Arnold(参考訳) 次世代の携帯電話ネットワークは、無線センシング機能と慣用通信を実装して、前例のない世界規模の無線センシングを屋外で実現する。 ディープラーニングはコンピュータビジョンに革命をもたらしたが、電波センシングの性能と将来性を研究するための体系的なデータセットやベンチマークが欠如していることから、電波知覚タスクに限定された応用がなされている。 このギャップに対処するために、我々は、無線の正確なターゲットローカライゼーションを容易にする合成無線視覚データセットとベンチマークであるMaxRayを提示する。 さらに,無線と視覚の対応から自己コーディネートを抽出することで,ラジオにおける目標のローカライズを学ぶことを提案する。 無線ローカライザネットワークのトレーニングには,このような自己監督座標を用いる。 我々は、多くの最先端のベースラインに対して、パフォーマンスを特徴付ける。 以上の結果から,ラベルのない無線視線データから,正確な無線目標位置推定を自動学習できることが示唆された。 これにより、膨大なデータスケーラビリティの扉が開かれ、統一された通信知覚セルインフラストラクチャ上で堅牢な無線センシングを実現するための鍵が証明される。 DatasetはIEEE DataPortでホストされる。

Next generation cellular networks will implement radio sensing functions alongside customary communications, thereby enabling unprecedented worldwide sensing coverage outdoors. Deep learning has revolutionised computer vision but has had limited application to radio perception tasks, in part due to lack of systematic datasets and benchmarks dedicated to the study of the performance and promise of radio sensing. To address this gap, we present MaxRay: a synthetic radio-visual dataset and benchmark that facilitate precise target localisation in radio. We further propose to learn to localise targets in radio without supervision by extracting self-coordinates from radio-visual correspondence. We use such self-supervised coordinates to train a radio localiser network. We characterise our performance against a number of state-of-the-art baselines. Our results indicate that accurate radio target localisation can be automatically learned from paired radio-visual data without labels, which is important for empirical data. This opens the door for vast data scalability and may prove key to realising the promise of robust radio sensing atop a unified communication-perception cellular infrastructure. Dataset will be hosted on IEEE DataPort.
翻訳日:2023-03-30 19:13:00 公開日:2023-03-29
# 過パラメータ深層平衡モデルの大域収束

Global Convergence of Over-parameterized Deep Equilibrium Models ( http://arxiv.org/abs/2205.13814v2 )

ライセンス: Link先を確認
Zenan Ling, Xingyu Xie, Qiuhao Wang, Zongpeng Zhang, Zhouchen Lin(参考訳) ディープ均衡モデル (DEQ) は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。 無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。 本研究では,過パラメータ化deqのトレーニングダイナミクスについて検討した。 初期平衡点の条件を仮定することにより,トレーニング過程中に一意な平衡点が常に存在し,勾配降下は二次損失関数の線形収束率でグローバルに最適解に収束することが証明された。 適度な過パラメータ化によって要求される初期条件が満たされることを示すために,ランダムなdeqのきめ細かな解析を行う。 無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。

A deep equilibrium model (DEQ) is implicitly defined through an equilibrium point of an infinite-depth weight-tied model with an input-injection. Instead of infinite computations, it solves an equilibrium point directly with root-finding and computes gradients with implicit differentiation. The training dynamics of over-parameterized DEQs are investigated in this study. By supposing a condition on the initial equilibrium point, we show that the unique equilibrium point always exists during the training process, and the gradient descent is proved to converge to a globally optimal solution at a linear convergence rate for the quadratic loss function. In order to show that the required initial condition is satisfied via mild over-parameterization, we perform a fine-grained analysis on random DEQs. We propose a novel probabilistic framework to overcome the technical difficulty in the non-asymptotic analysis of infinite-depth weight-tied models.
翻訳日:2023-03-30 19:12:08 公開日:2023-03-29
# ノイズチャネル存在下でのハイブリッド量子アルゴリズムによる車両ルーティング問題の解析

Analysis of The Vehicle Routing Problem Solved via Hybrid Quantum Algorithms in Presence of Noisy Channels ( http://arxiv.org/abs/2205.07630v2 )

ライセンス: Link先を確認
Nishikanta Mohanty, Bikash K. Behera and Christopher Ferrie(参考訳) 車両ルーティング問題 (VRP) は、科学と産業で何十年にもわたって研究の関心を集めてきたNPハード最適化問題である。 目標は、最適な効率で一定数の顧客に商品を届けるための車両の経路を計画することである。 古典的ツールや手法は最適大域解に到達するよい近似を与える。 量子コンピューティングと量子機械学習は、量子効果の固有のスピードアップのため、問題の組合せ最適化を高速に解くための新しいアプローチを提供する。 VRPの多くのソリューションは、量子近似最適化アルゴリズムや2次非制約バイナリ最適化のようなハイブリッドアルゴリズムを用いて、異なる量子コンピューティングプラットフォームで提供されている。 本研究では, 固定アンサッツ上の変分量子固有解法を用いて, 3都市と4都市の基本的なVRP解法を構築する。 この研究はさらに、ノイズ量子チャネルのいくつかの例で解のロバスト性を評価するために拡張されている。 量子アルゴリズムの性能は、どのノイズモデルが使われているかに大きく依存している。 一般に、ノイズは有害であるが、異なるノイズ源間で等しくそうではない。

The vehicle routing problem (VRP) is an NP-hard optimization problem that has been an interest of research for decades in science and industry. The objective is to plan routes of vehicles to deliver goods to a fixed number of customers with optimal efficiency. Classical tools and methods provide good approximations to reach the optimal global solution. Quantum computing and quantum machine learning provide a new approach to solving combinatorial optimization of problems faster due to inherent speedups of quantum effects. Many solutions of VRP are offered across different quantum computing platforms using hybrid algorithms such as quantum approximate optimization algorithm and quadratic unconstrained binary optimization. In this work, we build a basic VRP solver for 3 and 4 cities using the variational quantum eigensolver on a fixed ansatz. The work is further extended to evaluate the robustness of the solution in several examples of noisy quantum channels. We find that the performance of the quantum algorithm depends heavily on what noise model is used. In general, noise is detrimental, but not equally so among different noise sources.
翻訳日:2023-03-30 19:11:54 公開日:2023-03-29
# QPAC学習フレームワークにおける可変量子ニューラルネットワーク

Tunable Quantum Neural Networks in the QPAC-Learning Framework ( http://arxiv.org/abs/2205.01514v2 )

ライセンス: Link先を確認
Viet Pham Ngoc, David Tuckey, Herbert Wiklicky(参考訳) 本稿では,量子確率近似(QPAC)学習フレームワークにおけるチューナブル量子ニューラルネットワークの性能について検討する。 可変ニューラルネットワークは、マルチコントロールxゲートからなる量子回路である。 制御のセットをチューニングすることで、これらの回路はブール関数を近似することができる。 このアーキテクチャは、オラクルが生成した重ね合わせを処理できるため、QPAC学習フレームワークでの使用に特に適している。 ターゲット概念を近似できるようにネットワークをチューニングするために,振幅増幅に基づくアルゴリズムを考案し,実装した。 数値計算の結果,単純なクラスから概念を効率的に学習できることが示唆された。

In this paper, we investigate the performances of tunable quantum neural networks in the Quantum Probably Approximately Correct (QPAC) learning framework. Tunable neural networks are quantum circuits made of multi-controlled X gates. By tuning the set of controls these circuits are able to approximate any Boolean functions. This architecture is particularly suited to be used in the QPAC-learning framework as it can handle the superposition produced by the oracle. In order to tune the network so that it can approximate a target concept, we have devised and implemented an algorithm based on amplitude amplification. The numerical results show that this approach can efficiently learn concepts from a simple class.
翻訳日:2023-03-30 19:11:38 公開日:2023-03-29
# ブロック型ビジュアルプログラミングタスクのための {solution synthesis} から {student attempt synthesis} へ

From {Solution Synthesis} to {Student Attempt Synthesis} for Block-Based Visual Programming Tasks ( http://arxiv.org/abs/2205.01265v3 )

ライセンス: Link先を確認
Adish Singla, Nikitas Theodoropoulos(参考訳) ブロックベースのビジュアルプログラミング環境は、初心者にコンピューティングの概念を導入するためにますます使われている。 プログラミングタスクがオープンで概念的であることを考えると、初心者の学生はこれらの環境で学習する際に苦労することが多い。 AIによるプログラミングの家庭教師は、苦労している学生を自動で支援し、この可能性を実現するためにいくつかのコンポーネントを必要としている。 学生モデルの重要な構成要素,特に生徒の行動予測(合成)に対する誤解を自動的に推測する能力について検討した。 そこで,本研究では,ある学生に対して,一定の参照課題に対する学生の試みを観察した後,新たな目標課題に対する学生の試みを合成する,という課題に着目した,新しいベンチマーク「snsyn」を提案する。 この課題は、プログラム合成と類似しているが、 {solution} (すなわち、専門家が書くプログラム)を合成するのではなく、 {student attempt} (すなわち、ある学生が書くプログラム)を合成することが目的である。 まず、人間の専門家(TutorSS)がベンチマークで高いパフォーマンスを達成できることを示し、一方、単純なベースラインでは性能が低かった。 そこで我々は、TutorSSとのギャップを埋めるため、2つのニューラル/シンボリック技術(NeurSSとSymSS)を開発した。

Block-based visual programming environments are increasingly used to introduce computing concepts to beginners. Given that programming tasks are open-ended and conceptual, novice students often struggle when learning in these environments. AI-driven programming tutors hold great promise in automatically assisting struggling students, and need several components to realize this potential. We investigate the crucial component of student modeling, in particular, the ability to automatically infer students' misconceptions for predicting (synthesizing) their behavior. We introduce a novel benchmark, StudentSyn, centered around the following challenge: For a given student, synthesize the student's attempt on a new target task after observing the student's attempt on a fixed reference task. This challenge is akin to that of program synthesis; however, instead of synthesizing a {solution} (i.e., program an expert would write), the goal here is to synthesize a {student attempt} (i.e., program that a given student would write). We first show that human experts (TutorSS) can achieve high performance on the benchmark, whereas simple baselines perform poorly. Then, we develop two neuro/symbolic techniques (NeurSS and SymSS) in a quest to close this gap with TutorSS.
翻訳日:2023-03-30 19:11:28 公開日:2023-03-29
# IOP-FL:Federated Medical Image Segmentationの内面パーソナライゼーション

IOP-FL: Inside-Outside Personalization for Federated Medical Image Segmentation ( http://arxiv.org/abs/2204.08467v2 )

ライセンス: Link先を確認
Meirui Jiang, Hongzheng Yang, Chen Cheng, Qi Dou(参考訳) フェデレートラーニング(FL)は、複数の医療機関がクライアントデータを集中せずにグローバルモデルを共同で学習することを可能にする。 様々なスキャナーや患者集団の医療画像の不均一性から,グローバルモデルが各クライアントに対して一般的に最適なパフォーマンスを達成することは,可能な限り困難である。 この問題は、フェデレートトレーニング中に提示されない未知の分布を持つFL外のクライアントにグローバルモデルをデプロイする場合、さらに重要になる。 医療画像タスクにおける各クライアントの予測精度を最適化するために, FL における \textit{inside と Outside model Personalization の両面に統一されたフレームワークを提案する。 内部のパーソナライゼーションでは、共通知識のグローバル勾配とクライアント固有の最適化のローカル勾配の両方を蓄積することにより、クライアント毎の局所的適応モデルを活用する軽量な勾配ベースアプローチを採用しています。 さらに、得られたローカルパーソナライズされたモデルとグローバルモデルが多様な情報ルーティング空間を形成し、外部FLクライアント向けに適応されたモデルをパーソナライズする。 そこで我々は,テストデータによって伝達される分布情報を考慮し,モデルを動的に組み込むための形状制約付き整合損失を用いた新しいテスト時間ルーティング方式を設計する。 2つの医用画像分割作業における広範囲な実験結果から,SOTA法よりも内面および外面のパーソナライゼーションが向上し,臨床実習におけるIOP-FL法の可能性が示された。

Federated learning (FL) allows multiple medical institutions to collaboratively learn a global model without centralizing client data. It is difficult, if possible at all, for such a global model to commonly achieve optimal performance for each individual client, due to the heterogeneity of medical images from various scanners and patient demographics. This problem becomes even more significant when deploying the global model to unseen clients outside the FL with unseen distributions not presented during federated training. To optimize the prediction accuracy of each individual client for medical imaging tasks, we propose a novel unified framework for both \textit{Inside and Outside model Personalization in FL} (IOP-FL). Our inside personalization uses a lightweight gradient-based approach that exploits the local adapted model for each client, by accumulating both the global gradients for common knowledge and the local gradients for client-specific optimization. Moreover, and importantly, the obtained local personalized models and the global model can form a diverse and informative routing space to personalize an adapted model for outside FL clients. Hence, we design a new test-time routing scheme using the consistency loss with a shape constraint to dynamically incorporate the models, given the distribution information conveyed by the test data. Our extensive experimental results on two medical image segmentation tasks present significant improvements over SOTA methods on both inside and outside personalization, demonstrating the potential of our IOP-FL scheme for clinical practice.
翻訳日:2023-03-30 19:11:09 公開日:2023-03-29
# 漁業情報による(非)マルコビアン性の特徴付け

Characterizing (non-)Markovianity through Fisher Information ( http://arxiv.org/abs/2204.04072v5 )

ライセンス: Link先を確認
Paolo Abiuso, Matteo Scandi, Dario De Santis, Jacopo Surace(参考訳) 非孤立物理系は、通常、その環境に関する情報を失い、そのような損失が不可逆であれば、進化はマルコフ的であると言われる。 非マルコフ効果は、物理的状態間の距離などの情報量化器が時間とともにどのように進化するかを監視することによって研究される。 ここでは,この文脈で研究する自然な対象としてフィッシャー情報計量が出現することを示し,その収縮特性とマルコビアン性の関係を数学的および操作的観点から完全に特徴づける。 古典力学と量子力学の両方において、マルコビアン性は状態の集合のすべての点でフィッシャー計量の単調収縮と同値であることが証明される。 同時に、フィッシャー距離の伸長に基づく非マルコフ性の操作的証人は、一般に、特定の物理的後処理が力学に適用されない限り、すべての非マルコフ進化を検出できない。 最後に、任意の時刻におけるフィッシャー距離の非マルコフ的拡張は、ベイズ的回帰を通じて、時間 0 における力学の初期状態に関する情報の逆フローに対応することを示す。

A non-isolated physical system typically loses information to its environment, and when such loss is irreversible the evolution is said to be Markovian. Non-Markovian effects are studied by monitoring how information quantifiers, such as the distance between physical states, evolve in time. Here we show that the Fisher information metric emerges as a natural object to study in this context; we fully characterize the relation between its contractivity properties and Markovianity, both from the mathematical and operational point of view. We prove, both for classical and quantum dynamics, that Markovianity is equivalent to the monotonous contraction of the Fisher metric at all points of the set of states. At the same time, operational witnesses of non-Markovianity based on the dilation of the Fisher distance cannot, in general, detect all non-Markovian evolutions, unless specific physical postprocessing is applied to the dynamics. Finally, we show for the first time that non-Markovian dilations of Fisher distance between states at any time correspond to backflow of information about the initial state of the dynamics at time 0, via Bayesian retrodiction.
翻訳日:2023-03-30 19:10:41 公開日:2023-03-29
# 局所特徴マッチングを考慮した幾何学の適応的アサインメント

Adaptive Assignment for Geometry Aware Local Feature Matching ( http://arxiv.org/abs/2207.08427v3 )

ライセンス: Link先を確認
Dihe Huang, Ying Chen, Shang Xu, Yong Liu, Wenlong Wu, Yikang Ding, Chengjie Wang, Fan Tang(参考訳) 検出不要な特徴マッチングアプローチは、その優れた性能のおかげで、現在大きな注目を集めている。 However, these methods still struggle at large-scale and viewpoint variations, due to the geometric inconsistency resulting from the application of the mutual nearest neighbour criterion (\ie, one-to-one assignment) in patch-level matching.Accordingly, we introduce AdaMatcher, which first accomplishes the feature correlation and co-visible area estimation through an elaborate feature interaction module, then performs adaptive assignment on patch-level matching while estimating the scales between images, and finally refines the co-visible matches through scale alignment and sub-pixel regression module.Extensive experiments show that AdaMatcher outperforms solid baselines and achieves state-of-the-art results on many downstream tasks. さらに、アダプティブアサインとサブピクセルリファインメントモジュールは、SuperGlueなどの他のマッチングメソッドのリファインメントネットワークとして使用することで、パフォーマンスをさらに向上することができる。 コードはhttps://github.com/AbyssGaze/AdaMatcher.comで公開される。

The detector-free feature matching approaches are currently attracting great attention thanks to their excellent performance. However, these methods still struggle at large-scale and viewpoint variations, due to the geometric inconsistency resulting from the application of the mutual nearest neighbour criterion (\ie, one-to-one assignment) in patch-level matching.Accordingly, we introduce AdaMatcher, which first accomplishes the feature correlation and co-visible area estimation through an elaborate feature interaction module, then performs adaptive assignment on patch-level matching while estimating the scales between images, and finally refines the co-visible matches through scale alignment and sub-pixel regression module.Extensive experiments show that AdaMatcher outperforms solid baselines and achieves state-of-the-art results on many downstream tasks. Additionally, the adaptive assignment and sub-pixel refinement module can be used as a refinement network for other matching methods, such as SuperGlue, to boost their performance further. The code will be publicly available at https://github.com/AbyssGaze/AdaMatcher.
翻訳日:2023-03-30 19:03:22 公開日:2023-03-29
# 密度汎関数論における7つの有用な疑問

Seven Useful Questions in Density Functional Theory ( http://arxiv.org/abs/2207.05794v4 )

ライセンス: Link先を確認
Steven Crisostomo, Ryan Pederson, John Kozlowski, Bhupalee Kalita, Antonio C. Cancio, Kiril Datchev, Adam Wasserman, Suhwan Song, and Kieron Burke(参考訳) 我々は密度汎関数論において、数学者が有用であることを示す様々な未解決問題を探求する。 我々は、異なる問題の背景と背景、そしてそれらの解決に向けた進歩が、密度汎関数理論を用いて計算を行う人々に役立つ理由を与える。 対象はハートリー・フォック計算における運動エネルギーの大きさ、断熱接続曲線の形状、入力密度による制約付き探索、状態密度、半古典的エネルギー展開、リーブ・オックスフォード境界の強み、近似密度の精度の決定方法などである。

We explore a variety of unsolved problems in density functional theory, where mathematicians might prove useful. We give the background and context of the different problems, and why progress toward resolving them would help those doing computations using density functional theory. Subjects covered include the magnitude of the kinetic energy in Hartree-Fock calculations, the shape of adiabatic connection curves, using the constrained search with input densities, densities of states, the semiclassical expansion of energies, the tightness of Lieb-Oxford bounds, and how we decide the accuracy of an approximate density.
翻訳日:2023-03-30 19:02:33 公開日:2023-03-29
# ディジタル信号処理による連続モード量子鍵分布

Continuous-mode quantum key distribution with digital signal processing ( http://arxiv.org/abs/2207.04991v3 )

ライセンス: Link先を確認
Ziyang Chen, Xiangyu Wang, Song Yu, Zhengyu Li, Hong Guo(参考訳) 連続可変量子鍵分布(CVQKD)は、標準の通信コンポーネントを使用することで、リモートでキーを共有するという特定の利点を提供する。 しかし、高速スペクトル拡大の導入によりCVQKDは単一モードから連続モード領域へと押し上げられ、現代のデジタル信号処理(DSP)技術が連続モード量子状態から二次情報を復元する結果となった。 しかし、マルチポイント処理を含むDSPのセキュリティ証明が欠落している。 本稿では,時間モード理論による線形dspによる連続モード状態処理の一般化手法を提案する。 テンポラリモードの構築は、セキュリティ証明を単一モードシナリオに還元する上で鍵となる。 提案する実用性指向型セキュリティ分析手法は,古典的互換デジタルCVQKDを構築するための道筋をたどる。

Continuous-variable quantum key distribution (CVQKD) offers the specific advantage of sharing keys remotely by the use of standard telecom components, thereby promoting cost-effective and high-performance metropolitan applications. Nevertheless, the introduction of high-rate spectrum broadening has pushed CVQKD from a single-mode to a continuous-mode region, resulting in the adoption of modern digital signal processing (DSP) technologies to recover quadrature information from continuous-mode quantum states. However, the security proof of DSP involving multi-point processing is a missing step. Here, we propose a generalized method of analyzing continuous-mode state processing by linear DSP via temporal-modes theory. The construction of temporal modes is key in reducing the security proof to single-mode scenarios. The proposed practicality oriented security analysis method paves the way for building classical compatible digital CVQKD.
翻訳日:2023-03-30 19:02:22 公開日:2023-03-29
# 線形確率近似によるポリak-ruppert平均イテレートの有限時間高確率境界

Finite-time High-probability Bounds for Polyak-Ruppert Averaged Iterates of Linear Stochastic Approximation ( http://arxiv.org/abs/2207.04475v2 )

ライセンス: Link先を確認
Alain Durmus, Eric Moulines, Alexey Naumov, Sergey Samsonov(参考訳) 本稿では, 線形確率近似(LSA)アルゴリズムの有限時間解析, 統計学および機械学習における中核的手法について述べる。 LSA は、$d$-次元線型系 $\bar{\mathbf{A}} \theta = \bar{\mathbf{b}}$ の近似解を計算するのに使われ、$(\bar{\mathbf{A}}, \bar{\mathbf{b}})$ は(漸近的に)非偏見的観測 $\{(\mathbf{A}(Z_n),\mathbf{b}(Z_n))\}_{n \in \mathbb{N}}$ によってのみ推定できる。 ここでは、$\{Z_n\}_{n \in \mathbb{N}}$ が i.d. 列あるいは一様エルゴード的マルコフ連鎖である場合を考える。 lsa で定義されるイテレートとその polyak-ruppert-averaged バージョンに対する p$-th moment と高確率偏差境界を導出する。 平均化 LSA イテレートに対する有限時間インスタンス依存境界は、我々が得られる先行項が局所漸近ミニマックス極限と一致するという意味で鋭い。 さらに、境界の残りの項は、基礎となるチェーンとノイズ変数のノルムの混合時間 $t_{\operatorname{mix}}$ に強く依存していることを認めています。 我々は,問題次元が$d$の対数でのみスケールするには,SAステップサイズが必要であることを強調した。

This paper provides a finite-time analysis of linear stochastic approximation (LSA) algorithms with fixed step size, a core method in statistics and machine learning. LSA is used to compute approximate solutions of a $d$-dimensional linear system $\bar{\mathbf{A}} \theta = \bar{\mathbf{b}}$ for which $(\bar{\mathbf{A}}, \bar{\mathbf{b}})$ can only be estimated by (asymptotically) unbiased observations $\{(\mathbf{A}(Z_n),\mathbf{b}(Z_n))\}_{n \in \mathbb{N}}$. We consider here the case where $\{Z_n\}_{n \in \mathbb{N}}$ is an i.i.d. sequence or a uniformly geometrically ergodic Markov chain. We derive $p$-th moment and high-probability deviation bounds for the iterates defined by LSA and its Polyak-Ruppert-averaged version. Our finite-time instance-dependent bounds for the averaged LSA iterates are sharp in the sense that the leading term we obtain coincides with the local asymptotic minimax limit. Moreover, the remainder terms of our bounds admit a tight dependence on the mixing time $t_{\operatorname{mix}}$ of the underlying chain and the norm of the noise variables. We emphasize that our result requires the SA step size to scale only with logarithm of the problem dimension $d$.
翻訳日:2023-03-30 19:02:08 公開日:2023-03-29
# ディープリコメンデーションにおける協調レトリバーとランカ

Cooperative Retriever and Ranker in Deep Recommenders ( http://arxiv.org/abs/2206.14649v2 )

ライセンス: Link先を確認
Xu Huang, Defu Lian, Jin Chen, Zheng Liu, Xing Xie, Enhong Chen(参考訳) ディープ・レコメンダ・システム (DRS) は、現代のウェブサービスに強く適用されている。 大量のwebコンテンツを扱うために、drsは検索とランキングという2段階のワークフローを使って推薦結果を生成する。 検索者は、アイテム全体から関連する候補の小さなセットを高い効率で選択することを目的としており、ローダは、通常より正確だが時間を要するが、検索した候補から最高の候補をさらに洗練することを目的としている。 伝統的に、2つのコンポーネントは独立して、または単純なcascadingパイプライン内でトレーニングされる。 レトリバーとランチャーを共同で訓練することを示唆する最近の作品もあるが、トレーニングと推論の間のアイテムの分配シフト、偽陰性、ランキング順位の誤認など、多くの厳しい制限がある。 そのため、レトリバーとランチャーの効果的なコラボレーションを探求する。

Deep recommender systems (DRS) are intensively applied in modern web services. To deal with the massive web contents, DRS employs a two-stage workflow: retrieval and ranking, to generate its recommendation results. The retriever aims to select a small set of relevant candidates from the entire items with high efficiency; while the ranker, usually more precise but time-consuming, is supposed to further refine the best items from the retrieved candidates. Traditionally, the two components are trained either independently or within a simple cascading pipeline, which is prone to poor collaboration effect. Though some latest works suggested to train retriever and ranker jointly, there still exist many severe limitations: item distribution shift between training and inference, false negative, and misalignment of ranking order. As such, it remains to explore effective collaborations between retriever and ranker.
翻訳日:2023-03-30 19:01:37 公開日:2023-03-29
# 実演からの高速長寿命適応逆強化学習

Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2209.11908v5 )

ライセンス: Link先を確認
Letian Chen, Sravan Jayanthi, Rohan Paleja, Daniel Martin, Viacheslav Zakharov, Matthew Gombolay(参考訳) 実証から学ぶ(LfD)アプローチは、エンドユーザーに対して、望ましい振る舞いのデモを通じてロボットに新しいタスクを教えること、ロボット工学へのアクセスを民主化する。 しかしながら、現在のLfDフレームワークは、異種人間のデモへの迅速な適応や、ユビキタスなロボティクスアプリケーションへの大規模展開ができない。 本稿では,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。 提案手法は,学習した戦略を活用して,新しいデモンストレーションに迅速に適応するためのポリシミックスを構築し,エンドユーザーパーソナライズを迅速に行えるようにし,(2)デモ全体にわたって共通知識を蒸留し,正確なタスク推論を実現し,(3)生涯展開に必要な場合にのみモデルを拡張し,ポリシミックスを通じてすべての行動を近似可能な,簡潔なプロトタイプ戦略のセットを維持する。 flairが適応性(不均質なユーザ固有のタスク選択に適応するロボット)、効率性(サンプル効率の高い適応を実現するロボット)、スケーラビリティ(ハイパフォーマンスを維持しながらデモ数とサブリニアに成長するモデル)を達成することを実証的に検証する。 FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、ポリシーミックスを使用したデモモデリングに必要なエピソードが平均78%減少した。 最後に,テーブルテニスにおけるFLAIRの成功を実証し,FLAIRをより高いタスク (p<.05) とパーソナライズ性能 (p<.05) で評価した。

Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. However, current LfD frameworks are not capable of fast adaptation to heterogeneous human demonstrations nor the large-scale deployment in ubiquitous robotics applications. In this paper, we propose a novel LfD framework, Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR). Our approach (1) leverages learned strategies to construct policy mixtures for fast adaptation to new demonstrations, allowing for quick end-user personalization, (2) distills common knowledge across demonstrations, achieving accurate task inference; and (3) expands its model only when needed in lifelong deployments, maintaining a concise set of prototypical strategies that can approximate all behaviors via policy mixtures. We empirically validate that FLAIR achieves adaptability (i.e., the robot adapts to heterogeneous, user-specific task preferences), efficiency (i.e., the robot achieves sample-efficient adaptation), and scalability (i.e., the model grows sublinearly with the number of demonstrations while maintaining high performance). FLAIR surpasses benchmarks across three control tasks with an average 57% improvement in policy returns and an average 78% fewer episodes required for demonstration modeling using policy mixtures. Finally, we demonstrate the success of FLAIR in a table tennis task and find users rate FLAIR as having higher task (p<.05) and personalization (p<.05) performance.
翻訳日:2023-03-30 18:55:05 公開日:2023-03-29
# 極格子ボソンの力学における相互作用誘起トンネルの役割

The role of interaction-induced tunneling in the dynamics of polar lattice bosons ( http://arxiv.org/abs/2209.11644v4 )

ライセンス: Link先を確認
Adith Sai Aramthottil, Mateusz \L\k{a}cki, Luis Santos, and Jakub Zakrzewski(参考訳) 点間双極子相互作用は、障害がなくても、光学格子中の双極子ボソンに対する興味深い非エルゴードダイナミクスを誘導する。 双極子誘起密度依存トンネルは, 一般的に無視されるが, このダイナミクスにおいて重要な役割を担っている。 浅層格子の場合、相互作用によって引き起こされるホッピングから生じる非局在化は、サイト間相互作用によって引き起こされる局所化を克服する。 その結果、より研究されたハードコアボソンとは対照的に、双極子強度が増加すると非局在化は反故意に強化される。 さらに、素粒子と相互作用によって引き起こされるトンネルの準カプセル化は、双極子強度の格子深さ依存性の値近くで、エルゴードなハードコア状態と強い非エルゴードなソフトコア状態の間のヒルベルト空間の正確な分離に繋がる可能性がある。 その結果, 相互作用誘起ホッピングは, 極性格子気体のダイナミクスに関する将来の実験において重要な役割を担っていることが示唆された。

Inter-site dipolar interactions induce, even in absence of disorder, an intriguing non-ergodic dynamics for dipolar bosons in an optical lattice. We show that the inherent dipole-induced density-dependent tunneling, typically neglected, plays a crucial role in this dynamics. For shallow-enough lattices, the delocalization stemming from the interaction-induced hopping overcomes the localization induced by inter-site interactions. As a result, in stark contrast to the more studied case of hard-core bosons, delocalization is counter-intuitively strengthen when the dipolar strength increases. Furthermore, the quasi-cancellation between bare and interaction-induced tunneling may lead, near a lattice-depth-dependent value of the dipole strength, to an exact decoupling of the Hilbert space between ergodic hard-core states and strongly non-ergodic soft-core ones. Our results show that interaction-induced hopping should play a crucial role in future experiments on the dynamics of polar lattice gases.
翻訳日:2023-03-30 18:54:33 公開日:2023-03-29
# MIDM:Exemplar-based Image Translationのためのインターリーブ拡散モデルマッチング

MIDMs: Matching Interleaved Diffusion Models for Exemplar-based Image Translation ( http://arxiv.org/abs/2209.11047v3 )

ライセンス: Link先を確認
Junyoung Seo, Gyuseong Lee, Seokju Cho, Jiyoung Lee, Seungryong Kim(参考訳) 本稿では,MIDM(Matched Interleaved diffusion Model)と呼ばれる画像翻訳手法を提案する。 このタスクの既存のメソッドのほとんどはganベースのマッチング・ザンジェネレーションフレームワークとして定式化された。 しかし、このフレームワークでは、スケッチや写真など、クロスドメイン間のセマンティックマッチングの難しさによって引き起こされるエラーを生成ステップに容易に伝播することができ、結果として結果が劣化する。 GANの欠点を克服する拡散モデルの成功により、これらの制限を克服するために拡散モデルが組み込まれている。 具体的には、中間ワープを反復的にノージングプロセスに供給し、それを除いて変換画像を生成することで、潜在空間におけるクロスドメインマッチングと拡散ステップをインターリーブする拡散ベースのマッチング・アンド・ジェネレーションフレームワークを定式化する。 さらに, 拡散過程の信頼性を向上させるため, 周期整合性を用いた信頼度認識プロセスを構築し, 翻訳中の信頼区間のみを考える。 実験結果から,MIDMは最先端の手法よりも可塑性画像を生成することがわかった。

We present a novel method for exemplar-based image translation, called matching interleaved diffusion models (MIDMs). Most existing methods for this task were formulated as GAN-based matching-then-generation framework. However, in this framework, matching errors induced by the difficulty of semantic matching across cross-domain, e.g., sketch and photo, can be easily propagated to the generation step, which in turn leads to degenerated results. Motivated by the recent success of diffusion models overcoming the shortcomings of GANs, we incorporate the diffusion models to overcome these limitations. Specifically, we formulate a diffusion-based matching-and-generation framework that interleaves cross-domain matching and diffusion steps in the latent space by iteratively feeding the intermediate warp into the noising process and denoising it to generate a translated image. In addition, to improve the reliability of the diffusion process, we design a confidence-aware process using cycle-consistency to consider only confident regions during translation. Experimental results show that our MIDMs generate more plausible images than state-of-the-art methods.
翻訳日:2023-03-30 18:54:15 公開日:2023-03-29
# エゴセントリックrgbビデオからの3次元手ポーズ推定と動作認識のための階層的時間変換

Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB Videos ( http://arxiv.org/abs/2209.09484v4 )

ライセンス: Link先を確認
Yilin Wen, Hao Pan, Lei Yang, Jia Pan, Taku Komura, Wenping Wang(参考訳) 自我中心のRGBビデオから動的手の動きや動作を理解することは、自己排他性と曖昧さのため、基本的な課題である。 咬合と曖昧さに対処するために,時間的情報を利用してロバストな推定を行うトランスフォーマティブ・フレームワークを開発した。 手振り推定と動作認識の時間的粒度の違いと意味的相関に気付き、2つのカスケードトランスフォーマーエンコーダでネットワーク階層を構築し、まず手振り推定の短期的キューを利用し、後者はフレームごとのポーズとオブジェクト情報を長い時間をかけて集約し、その動作を認識する。 提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。 広範なアブレーション研究は 設計上の選択を検証します

Understanding dynamic hand motions and actions from egocentric RGB videos is a fundamental yet challenging task due to self-occlusion and ambiguity. To address occlusion and ambiguity, we develop a transformer-based framework to exploit temporal information for robust estimation. Noticing the different temporal granularity of and the semantic correlation between hand pose estimation and action recognition, we build a network hierarchy with two cascaded transformer encoders, where the first one exploits the short-term temporal cue for hand pose estimation, and the latter aggregates per-frame pose and object information over a longer time span to recognize the action. Our approach achieves competitive results on two first-person hand action benchmarks, namely FPHA and H2O. Extensive ablation studies verify our design choices.
翻訳日:2023-03-30 18:53:54 公開日:2023-03-29
# ディープフェイク検出用ディープ畳み込みプールトランス

Deep Convolutional Pooling Transformer for Deepfake Detection ( http://arxiv.org/abs/2209.05299v4 )

ライセンス: Link先を確認
Tianyi Wang, Harry Cheng, Kam Pui Chow, Liqiang Nie(参考訳) 近年、ソーシャルメディアデジタル法医学におけるセキュリティとプライバシーの懸念から、deepfakeが注目を集めている。 ネット上のDeepfakeビデオがますますリアルになるにつれて、従来の検出技術は本物と偽物の区別に失敗した。 既存のディープラーニング手法のほとんどは、畳み込みニューラルネットワークをバックボーンとして、顔画像内の局所的特徴と関係に焦点を当てている。 しかし,Deepfake検出に十分な一般情報を学習するには,局所的な特徴や関係が不十分である。 これにより,既存のディープフェイク検出手法がボトルネックとなり,検出性能がさらに向上した。 この問題に対処するために,ローカルおよびグローバルの両方で決定的な画像特徴を組み込む深層畳み込み変換器を提案する。 具体的には,抽出した特徴を豊かにし,有効性を高めるために畳み込みプールと再アテンションを適用する。 さらに,映像圧縮によるキーフレームと通常の画像フレーム間の特徴量差を可視化するために,モデルトレーニングにおいてほとんど議論されていない画像キーフレームを用いる。 最終的に、いくつかのdeepfakeベンチマークデータセットで広範な実験を行い、転送可能性を説明します。 提案手法は、内部および相互データセット実験において、最先端のベースラインを一貫して上回る。

Recently, Deepfake has drawn considerable public attention due to security and privacy concerns in social media digital forensics. As the wildly spreading Deepfake videos on the Internet become more realistic, traditional detection techniques have failed in distinguishing between real and fake. Most existing deep learning methods mainly focus on local features and relations within the face image using convolutional neural networks as a backbone. However, local features and relations are insufficient for model training to learn enough general information for Deepfake detection. Therefore, the existing Deepfake detection methods have reached a bottleneck to further improve the detection performance. To address this issue, we propose a deep convolutional Transformer to incorporate the decisive image features both locally and globally. Specifically, we apply convolutional pooling and re-attention to enrich the extracted features and enhance efficacy. Moreover, we employ the barely discussed image keyframes in model training for performance improvement and visualize the feature quantity gap between the key and normal image frames caused by video compression. We finally illustrate the transferability with extensive experiments on several Deepfake benchmark datasets. The proposed solution consistently outperforms several state-of-the-art baselines on both within- and cross-dataset experiments.
翻訳日:2023-03-30 18:53:37 公開日:2023-03-29
# 2次勾配:勾配アルゴリズムとニュートン法を1つに組み合わせる

Quadratic Gradient: Combining Gradient Algorithms and Newton's Method as One ( http://arxiv.org/abs/2209.03282v2 )

ライセンス: Link先を確認
John Chiang(参考訳) ニュートン法が浮動小数点数を1つだけ使うためには、行探索技術に不適当かもしれない。 勾配と同じ大きさの柱ベクトルは、単にフロート数よりも良い場合があり、それぞれの勾配要素を異なる速度で加速することができる。 さらに、ヘッセン行列と同じ順序の正方行列は、ヘッセン行列を修正するのに役立つかもしれない。 チアンは勾配を加速するために柱ベクトルと正方行列、すなわち対角行列の間に何かを適用し、さらに二次勾配と呼ばれるより高速な勾配変種を提案した。 本稿では,2次勾配の新しいバージョンを構築するための新しい方法を提案する。 この新たな二次勾配は、固定ヘッセン・ニュートン法の収束条件を満たすものではない。 しかし, 実験結果から, コンバージェンスレートにおいて, 元のものよりも優れた性能を示した。 また、Chiangは、一階勾配降下法におけるヘッセン行列と学習率の関係があるかもしれないと推測している。 浮動小数点数 $\frac{1}{\epsilon + \max \{| \lambda_i | \}}$ が勾配法のよい学習率であることを証明する。

It might be inadequate for the line search technique for Newton's method to use only one floating point number. A column vector of the same size as the gradient might be better than a mere float number to accelerate each of the gradient elements with different rates. Moreover, a square matrix of the same order as the Hessian matrix might be helpful to correct the Hessian matrix. Chiang applied something between a column vector and a square matrix, namely a diagonal matrix, to accelerate the gradient and further proposed a faster gradient variant called quadratic gradient. In this paper, we present a new way to build a new version of the quadratic gradient. This new quadratic gradient doesn't satisfy the convergence conditions of the fixed Hessian Newton's method. However, experimental results show that it sometimes has a better performance than the original one in convergence rate. Also, Chiang speculates that there might be a relation between the Hessian matrix and the learning rate for the first-order gradient descent method. We prove that the floating number $\frac{1}{\epsilon + \max \{| \lambda_i | \}}$ can be a good learning rate of the gradient methods, where $\epsilon$ is a number to avoid division by zero and $\lambda_i$ the eigenvalues of the Hessian matrix.
翻訳日:2023-03-30 18:53:19 公開日:2023-03-29
# 勾配はグラフ構造を攻撃するときに何がわかるか

What Does the Gradient Tell When Attacking the Graph Structure ( http://arxiv.org/abs/2208.12815v2 )

ライセンス: Link先を確認
Zihan Liu, Ge Wang, Yun Luo, Stan Z. Li(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)が、グラフ構造をターゲットとする敵攻撃の影響を受けやすいことが判明している。 悪意のある攻撃者は、トレーニングラベルによって限られた数のエッジを操作でき、被害者モデルのパフォーマンスを損なうことができる。 以前の実証研究は、勾配に基づく攻撃者はそれらを取り除くよりも、エッジを追加する傾向があることを示している。 本稿では,GNNのメッセージパッシング機構により,攻撃者がクラス間エッジを増大させる傾向にあることを示す理論的実証実験を示す。 異なるノードを接続することで、攻撃者はより効果的にノード機能を破損させ、そのような攻撃をより有利にする。 しかし、GNNのメッセージパッシングの本質的な滑らかさは、特徴空間におけるノードの相違を曖昧にし、前処理中に重要な情報が失われる傾向があることを示す。 この問題に対処するために,ノード異質性情報を保持するマルチレベル伝播を持つ新しいサロゲートモデルを提案する。 本モデルでは, ノード表現の相違性を高め, トポロジ的アグリゲーションから生じる滑らかさに対処するため, バッチ正規化を導入しながら, 未凝集の原特徴とマルチホップ集約特徴の伝播を並列化する。 さらに, クラス間エッジの追加が容易に観察可能な攻撃パターンとなることを理論的および実験的証拠として示唆する。 我々は,攻撃効果とインセプティビリティをバランスさせ,攻撃効果を犠牲にして高いインセプティビリティを達成する革新的な攻撃損失を提案する。 この攻撃損失によって達成された妥協性能を検証する実験も提供する。

Recent research has revealed that Graph Neural Networks (GNNs) are susceptible to adversarial attacks targeting the graph structure. A malicious attacker can manipulate a limited number of edges, given the training labels, to impair the victim model's performance. Previous empirical studies indicate that gradient-based attackers tend to add edges rather than remove them. In this paper, we present a theoretical demonstration revealing that attackers tend to increase inter-class edges due to the message passing mechanism of GNNs, which explains some previous empirical observations. By connecting dissimilar nodes, attackers can more effectively corrupt node features, making such attacks more advantageous. However, we demonstrate that the inherent smoothness of GNN's message passing tends to blur node dissimilarity in the feature space, leading to the loss of crucial information during the forward process. To address this issue, we propose a novel surrogate model with multi-level propagation that preserves the node dissimilarity information. This model parallelizes the propagation of unaggregated raw features and multi-hop aggregated features, while introducing batch normalization to enhance the dissimilarity in node representations and counteract the smoothness resulting from topological aggregation. Our experiments show significant improvement with our approach.Furthermore, both theoretical and experimental evidence suggest that adding inter-class edges constitutes an easily observable attack pattern. We propose an innovative attack loss that balances attack effectiveness and imperceptibility, sacrificing some attack effectiveness to attain greater imperceptibility. We also provide experiments to validate the compromise performance achieved through this attack loss.
翻訳日:2023-03-30 18:52:55 公開日:2023-03-29
# 量子熱力学の最初の法則の統一

Unification of the first law of quantum thermodynamics ( http://arxiv.org/abs/2208.10561v2 )

ライセンス: Link先を確認
Roie Dann and Ronnie Kosloff(参考訳) 古典的熱力学原理の基礎は、量子力学の基本公理から生じる類似の微視的法則である。 これらは量子ワークや熱のような量子力学変数を定義し、オープン量子系の変換を特徴づける。 第一の量子熱力学法則はエネルギー保存に関する単純な記述である。 それでも、量子系のエネルギー変化の運動と熱への正確な分配に関する曖昧さと不一致が存在する。 量子力学を包括的理論として扱い、ミクロ領域とマクロ領域の両方に適用し、動的対称性を用いることで、5つの一般的な熱力学的アプローチのギャップを第1法則に埋める。 これには、アンサンブル平均の観点で作業を定義する自律的および半古典的な定式化と、作業が決定論的量として定義される単発パラダイムが含まれる。

Underlying the classical thermodynamic principles are analogous microscopic laws, arising from the fundamental axioms of quantum mechanics. These define quantum thermodynamic variables such as quantum work and heat and characterize the possible transformations of open quantum systems. The foremost quantum thermodynamic law is a simple statement concerning the conservation of energy. Nevertheless, there exist ambiguity and disagreement regarding the precise partition of a quantum system's energy change to work and heat. By treating quantum mechanics as a comprehensive theory, applicable to both the micro and macroscopic domains, and employing dynamical symmetries, we bridge the gaps between five popular thermodynamic approaches to the first law. These include both autonomous and semi-classical formulations, which define work in terms of an ensemble average, as well as the single shot paradigm, where work is defined as a deterministic quantity.
翻訳日:2023-03-30 18:52:26 公開日:2023-03-29
# 二次勾配による多項ロジスティック回帰アルゴリズム

Multinomial Logistic Regression Algorithms via Quadratic Gradient ( http://arxiv.org/abs/2208.06828v2 )

ライセンス: Link先を確認
John Chiang(参考訳) 多項ロジスティック回帰(multinomial logistic regression)または多項ロジスティック回帰(multiclass logistic regression)、ソフトマックス回帰(softmax regression)は、二項ロジスティック回帰を多クラス問題に一般化する基本的な分類法である。 最近の研究では、二進ロジスティック回帰トレーニングを加速できる$\texttt{quadratic gradient}$と呼ばれるより高速な勾配を提案し、二進ロジスティック回帰のための強化ネステロフ加速勾配(nag)法を提案した。 本稿では,本手法を多クラスロジスティック回帰に拡張し,元のアダグラード法を高速化する拡張適応勾配アルゴリズム(adagrad)を提案する。 我々は、いくつかのマルチクラスプロブレムデータセット上で、拡張NAG法と拡張Adagrad法をテストする。 実験の結果, 2つの改良手法はそれぞれ, 元の手法よりも高速に収束することがわかった。

Multinomial logistic regression, also known by other names such as multiclass logistic regression and softmax regression, is a fundamental classification method that generalizes binary logistic regression to multiclass problems. A recently work proposed a faster gradient called $\texttt{quadratic gradient}$ that can accelerate the binary logistic regression training, and presented an enhanced Nesterov's accelerated gradient (NAG) method for binary logistic regression. In this paper, we extend this work to multiclass logistic regression and propose an enhanced Adaptive Gradient Algorithm (Adagrad) that can accelerate the original Adagrad method. We test the enhanced NAG method and the enhanced Adagrad method on some multiclass-problem datasets. Experimental results show that both enhanced methods converge faster than their original ones respectively.
翻訳日:2023-03-30 18:52:12 公開日:2023-03-29
# 風景変化における極端なイデオロギーの検出:自動的・文脈非依存的アプローチ

Detecting Extreme Ideologies in Shifting Landscapes: an Automatic & Context-Agnostic Approach ( http://arxiv.org/abs/2208.04097v3 )

ライセンス: Link先を確認
Rohit Ram, Emma Thomas, David Kernot and Marian-Andrei Rizoiu(参考訳) 民主主義国では、イデオロギーの風景は個人的および集団的な政治的行動の基礎であり、逆に、フリンジイデオロギーはイデオロギー的に動機づけられた暴力的過激主義(IMVE)を駆り立てる。 したがって、イデオロギーの定量化は、imveの理解と対処、偽情報キャンペーンの検出と介入、幅広い実証的意見のダイナミクスモデリングなど、下流問題の海への重要な第一歩である。 しかし、オンラインイデオロギー検出には2つの重大な障害がある。 第一に、イデオロギー検出の基礎を形成する基礎的真理は、しばしば、実践者が収集し、ドメインの専門家にアクセスし、その収集(すなわち、時間、場所、およびプラットフォーム)の文脈に特有である。 第二に、この費用を回避するために、研究者は他のイデオロギー的信号(ハッシュタグや政治家のフォローなど)を通じて根拠な真実を生成する。 しかし、このバイアスは定量化されておらず、しばしば専門家の介入を必要とする。 本研究では,大規模データセットに適用可能なエンドツーエンドイデオロギー検出パイプラインを提案する。 我々は、広く利用可能なメディアスラントデータから、文脈に依存しない、自動的なイデオロギー信号を構築し、共通のイデオロギー信号のパイプラインや最先端のベースラインと比較して、派生したパイプラインが実行可能であることを示す、左イデオロギーのパイプラインを使用し、極端なイデオロギーを検出する、推論されたイデオロギーグループの心理社会的プロファイルを生成し、そのモラルと偏見に関する洞察を生成する。

In democratic countries, the ideology landscape is foundational to individual and collective political action; conversely, fringe ideology drives Ideologically Motivated Violent Extremism (IMVE). Therefore, quantifying ideology is a crucial first step to an ocean of downstream problems, such as; understanding and countering IMVE, detecting and intervening in disinformation campaigns, and broader empirical opinion dynamics modeling. However, online ideology detection faces two significant hindrances. Firstly, the ground truth that forms the basis for ideology detection is often prohibitively labor-intensive for practitioners to collect, requires access to domain experts and is specific to the context of its collection (i.e., time, location, and platform). Secondly, to circumvent this expense, researchers generate ground truth via other ideological signals (like hashtags used or politicians followed). However, the bias this introduces has not been quantified and often still requires expert intervention. This work presents an end-to-end ideology detection pipeline applicable to large-scale datasets. We construct context-agnostic and automatic ideological signals from widely available media slant data; show the derived pipeline is performant, compared to pipelines of common ideology signals and state-of-the-art baselines; employ the pipeline for left-right ideology, and (the more concerning) detection of extreme ideologies; generate psychosocial profiles of the inferred ideological groups; and, generate insights into their morality and preoccupations.
翻訳日:2023-03-30 18:51:55 公開日:2023-03-29
# 利得切替半導体レーザーにおける光位相の分散の確率的速度方程式による発散

Divergence of the variance of the optical phase in gain-switched semiconductor lasers described by stochastic rate equations ( http://arxiv.org/abs/2210.07628v2 )

ライセンス: Link先を確認
Angel Valle(参考訳) 本稿では,ゲインスイッチング単一モード半導体レーザの位相拡散に関する理論的研究を報告する。 我々は電場に対する確率速度方程式を用いて利得スイッチングレーザーの位相統計を解析する。 それらの利用は、光子数が少ない場合に光子数と光相の速度方程式で得られる不安定性を回避する。 しかし, 場方程式と積分すると新たな問題が生じ, 光位相の分散が発散する。 このばらつきは、以前の不安定性のため、光子数と光位相の一般的な方程式の数値積分では観測できない。 位相分散のばらつきは、積分時間ステップが減少するにつれて、この量が一定値に達しないことを意味する。 積分時間ステップが小さくなるにつれて位相差が増大するが, 微小ステップにおいても飽和挙動の兆候がない。 2次元ブラウン運動で問題を類似させることにより、この発散を説明する。 2次元ブラウン運動における極角の分散が発散量であることを、1940年既にポール・L・レヴィが証明していたため、発散が現れるという事実は驚くべきことではない。 その結果,光子数と位相の確率速度方程式は,光子数が少ない場合に位相統計を記述するには適していないことがわかった。 電場に対する確率速度方程式のシミュレーションは、L\`evyの結果と一致するが、測定可能な量に対して無限値が得られるため、非物理的結果を与える。

In this paper, we report a theoretical study of the phase diffusion in a gain-switched single-mode semiconductor laser. We use stochastic rate equations for the electrical field to analyze the phase statistics of the gain-switched laser. Their use avoid the instabilities obtained with rate equations for photon number and optical phase when the photon number is small. However we show that a new problem appears when integrating with the field equations: the variance of the optical phase becomes divergent. This divergence can not be observed with the numerical integration of the commonly used equations for photon number and optical phase because of the previous instabilities. The divergence of the phase variance means that this quantity does not reach a fixed value as the integration time step is decreased. We obtain that the phase variance increases as the integration time step decreases with no sign of saturation behaviour even for tiny steps. We explain the divergence by making the analogy of our problem with the 2-dimensional Brownian motion. The fact that the divergence appears is not surprising because already in 1940 Paul L\`evy demonstrated that the variance of the polar angle in a 2-dimensional Brownian motion is a divergent quantity. Our results show that stochastic rate equations for photon number and phase are not appropriated for describing the phase statistics when the photon number is small. Simulation of the stochastic rate equations for the electrical field are consistent with L\`evy's results but gives unphysical results since an infinite value is obtained for a quantity that can be measured.
翻訳日:2023-03-30 18:45:04 公開日:2023-03-29
# コンテキスト対応ベイズ混合多重ロジットモデル

Context-aware Bayesian Mixed Multinomial Logit Model ( http://arxiv.org/abs/2210.05737v2 )

ライセンス: Link先を確認
Miros{\l}awa {\L}ukawska, Anders Fjendbo Jensen, Filipe Rodrigues(参考訳) 混合多項ロジットモデルは、選択状況の異なる意思決定者の一定の選好パラメータを仮定するが、これは特定の選択モデリングアプリケーションでは強すぎると考えられる。 本稿では,文脈依存型ベイズ混合多相ロジットモデルの概念を導入し,ニューラルネットワークが各個人の選好パラメータの解釈可能なシフトにコンテキスト情報をマッピングする手法を提案する。 提案モデルにはいくつかの利点がある。 まず、連続変数と離散変数の両方をサポートし、両方の変数タイプ間の複雑な非線形相互作用をサポートする。 第二に、各コンテキスト仕様は、独立に考慮される各変数ではなく、ニューラルネットワークによってまとめて考慮される。 最後に、ニューラルネットワークパラメータはすべての意思決定者間で共有されるため、他の意思決定者からの情報を活用して、特定のコンテキストが特定の意思決定者に与える影響を推測することができる。 コンテキスト対応のベイズ混合多重ロジットモデルでは属性間の柔軟な相互作用が可能であるが、混合マルチノミアルロジットモデルと比較して計算複雑性の増大は小さい。 シミュレーション研究において,提案モデルの概念と解釈について述べる。 さらに,8,555人のサイクリストによる119,448回の旅行を含む,大規模でクラウドソースされたGPSトラジェクトリのデータセットに基づいて,自転車経路選択モデルである旅行行動領域からの実例を提示する。

The mixed multinomial logit model assumes constant preference parameters of a decision-maker throughout different choice situations, which may be considered too strong for certain choice modelling applications. This paper proposes an effective approach to model context-dependent intra-respondent heterogeneity, thereby introducing the concept of the Context-aware Bayesian mixed multinomial logit model, where a neural network maps contextual information to interpretable shifts in the preference parameters of each individual in each choice occasion. The proposed model offers several key advantages. First, it supports both continuous and discrete variables, as well as complex non-linear interactions between both types of variables. Secondly, each context specification is considered jointly as a whole by the neural network rather than each variable being considered independently. Finally, since the neural network parameters are shared across all decision-makers, it can leverage information from other decision-makers to infer the effect of a particular context on a particular decision-maker. Even though the context-aware Bayesian mixed multinomial logit model allows for flexible interactions between attributes, the increase in computational complexity is minor, compared to the mixed multinomial logit model. We illustrate the concept and interpretation of the proposed model in a simulation study. We furthermore present a real-world case study from the travel behaviour domain - a bicycle route choice model, based on a large-scale, crowdsourced dataset of GPS trajectories including 119,448 trips made by 8,555 cyclists.
翻訳日:2023-03-30 18:44:39 公開日:2023-03-29
# 単結晶ダイヤモンド膜の走査型キャビティ顕微鏡

Scanning cavity microscopy of a single-crystal diamond membrane ( http://arxiv.org/abs/2210.05514v2 )

ライセンス: Link先を確認
Jonathan K\"orber, Maximilian Pallmann, Julia Heupel, Rainer St\"ohr, Evgenij Vasilenko, Thomas H\"ummer, Larissa Kohler, Cyril Popov and David Hunger(参考訳) 固体中のスピン保持色中心は量子ネットワークと分散量子コンピューティングの実現に有望な候補である。 残る重要な課題は、光子と効率よく信頼性の高い相互作用である。 極小処理された膜をオープンアクセス可能なマイクロキャビティに組み込むことは、プルセルエンハンスなスピン光子インタフェースにとって有望な経路である。これは、大きな発光の増強と効率的な光子収集を可能にし、量子エミッタへの影響を最小化し、完全な空間的およびスペクトル的なチューニングを可能にする。 本研究では, 走査型キャビティ顕微鏡を用いて, 単結晶ダイヤモンド膜を一体化した超微細繊維ファブリ・ピエロマイクロキャビティの特性について検討した。 キャビティ微細構造とモード構造とダイヤモンド厚みと表面トポグラフィーとの強い相関,ダイヤモンド様条件下での有意な横モード混合,モード特性依存性の偏光モード分割など,ダイヤモンド-空気界面がキャビティモード構造に与える影響を空間的に観察した。 以上の結果から,ダイヤモンド表面が達成可能なパーセルエンハンスメントに及ぼす影響が明らかとなり,スピン光子界面の最適化への道筋を明らかにした。

Spin-bearing color centers in the solid state are promising candidates for the realization of quantum networks and distributed quantum computing. A remaining key challenge is their efficient and reliable interfacing to photons. Incorporating minimally processed membranes into open-access microcavities represents a promising route for Purcellenhanced spin-photon interfaces: it enables significant emission enhancement and efficient photon collection, minimizes deteriorating influence on the quantum emitter, and allows for full spatial and spectral tunability, key for controllably addressing suitable emitters with desired optical and spin properties. Here, we study the properties of a high-finesse fiber Fabry-P\'erot microcavity with integrated single-crystal diamond membranes by scanning cavity microscopy. We observe spatially resolved the effects of the diamond-air interface on the cavity mode structure: a strong correlation of the cavity finesse and mode structure with the diamond thickness and surface topography, significant transverse-mode mixing under diamond-like conditions, and mode-character-dependent polarization-mode splitting. Our results reveal the influence of the diamond surface on the achievable Purcell enhancement, which helps to clarify the route towards optimized spin-photon interfaces.
翻訳日:2023-03-30 18:44:15 公開日:2023-03-29
# 継続学習における事前学習モデルの使用に関する簡単なベースライン

A Simple Baseline that Questions the Use of Pretrained-Models in Continual Learning ( http://arxiv.org/abs/2210.04428v2 )

ライセンス: Link先を確認
Paul Janson, Wenxuan Zhang, Rahaf Aljundi, Mohamed Elhoseiny(参考訳) 表現学習における事前学習技術の成功により,事前学習モデルに基づく連続学習手法が提案されている。 これらの方法のいくつかは、事前学習された表現の連続学習メカニズムを設計し、連続学習のトレーニング中にバックボーンモデルの最小更新や更新を許可しない。 本稿では、我々が設計した単純なベースラインと比較することにより、優れたパフォーマンスを達成するためにこれらのモデルの複雑さが必要かどうかを問う。 我々は、事前訓練された特徴抽出器自体が、Split-CIFAR100およびCoRe 50ベンチマーク上での競争力や継続学習性能を達成するのに十分な強度を持つと論じる。 これを検証するために、非常に単純なベースラインを実行します。 1) 凍結事前学習モデルを用いて、連続学習段階で遭遇したクラス毎の画像特徴を抽出し、対応する平均特徴をトレーニングデータ上で計算する。 2) 入力のクラスは、テストサンプルとクラスの平均特徴の最も近い隣り合う距離、すなわちNMC(Nearest Mean Classifier)に基づいて予測される。 このベースラインはシングルヘッドで、例外なく、(継続的に更新することで)タスクフリーになる。 このベースラインは、10-split-cifar-100で88.53%を達成し、同じ事前訓練されたトランスフォーマーモデルを用いて初期化されるほとんどの最先端の連続学習法を上回った。 トレーニング済みの重みから始めても、学習表現に継続的に品質を付加できる学習システムの設計において、私たちのベースラインが今後の進歩を促すことを期待しています。

With the success of pretraining techniques in representation learning, a number of continual learning methods based on pretrained models have been proposed. Some of these methods design continual learning mechanisms on the pre-trained representations and only allow minimum updates or even no updates of the backbone models during the training of continual learning. In this paper, we question whether the complexity of these models is needed to achieve good performance by comparing them to a simple baseline that we designed. We argue that the pretrained feature extractor itself can be strong enough to achieve a competitive or even better continual learning performance on Split-CIFAR100 and CoRe 50 benchmarks. To validate this, we conduct a very simple baseline that 1) use the frozen pretrained model to extract image features for every class encountered during the continual learning stage and compute their corresponding mean features on training data, and 2) predict the class of the input based on the nearest neighbor distance between test samples and mean features of the classes; i.e., Nearest Mean Classifier (NMC). This baseline is single-headed, exemplar-free, and can be task-free (by updating the means continually). This baseline achieved 88.53% on 10-Split-CIFAR-100, surpassing most state-of-the-art continual learning methods that are all initialized using the same pretrained transformer model. We hope our baseline may encourage future progress in designing learning systems that can continually add quality to the learning representations even if they started from some pretrained weights.
翻訳日:2023-03-30 18:43:39 公開日:2023-03-29
# セグメンテーション・地域抽出・分類パイプラインを用いたCOVID-19検出

COVID-19 Detection Using Segmentation, Region Extraction and Classification Pipeline ( http://arxiv.org/abs/2210.02992v4 )

ライセンス: Link先を確認
Kenan Morani(参考訳) 本研究の目的は,ct画像の大規模かつ難解なデータベースからcovid-19検出のためのパイプラインを開発することである。 提案パイプラインは、セグメンテーション部と、肺抽出部と、分類部とを含む。 unetに基づくスライス分割後の任意のスライス除去手法も試みられた。 セグメンテーション部で試みられた方法論は、従来のセグメンテーション法とUNetベースの方法である。 分類部では,最終的な診断判断を行うために畳み込みニューラルネットワーク(cnn)を用いた。 結果について:セグメンテーション部では、提案するセグメンテーション手法は、公開データセット上で高いdiceスコアを示す。 分類部では,スライスレベルと患者レベルでも比較した。 スライスレベルで比較し,2次元スライス予測の効率を示す高い検証精度を示した。 患者レベルでは,バリデーションセットの検証精度とマクロf1スコアの観点からも提案手法を比較した。 分類に用いられるデータセットはCOV-19CT Databaseである。 提案手法は,同じデータセット上で得られた貴重な結果から改善した。 結論として,本論文では,CT画像による新型コロナウイルスの検出と診断に臨床応用の可能性について述べる。 コードはgithubのhttps://github.com/idu-cvlab/cov19d_3rdにある。

The main purpose of this study is to develop a pipeline for COVID-19 detection from a big and challenging database of Computed Tomography (CT) images. The proposed pipeline includes a segmentation part, a lung extraction part, and a classifier part. Optional slice removal techniques after UNet-based segmentation of slices were also tried. The methodologies tried in the segmentation part are traditional segmentation methods as well as UNet-based methods. In the classification part, a Convolutional Neural Network (CNN) was used to take the final diagnosis decisions. In terms of the results: in the segmentation part, the proposed segmentation methods show high dice scores on a publicly available dataset. In the classification part, the results were compared at slice-level and at patient-level as well. At slice-level, methods were compared and showed high validation accuracy indicating efficiency in predicting 2D slices. At patient level, the proposed methods were also compared in terms of validation accuracy and macro F1 score on the validation set. The dataset used for classification is COV-19CT Database. The method proposed here showed improvement from our precious results on the same dataset. In Conclusion, the improved work in this paper has potential clinical usages for COVID-19 detection and diagnosis via CT images. The code is on github at https://github.com/IDU-CVLab/COV19D_3rd
翻訳日:2023-03-30 18:43:13 公開日:2023-03-29
# 検索エージェントとハイブリッド環境を用いたゼロショット検索

Zero-Shot Retrieval with Search Agents and Hybrid Environments ( http://arxiv.org/abs/2209.15469v2 )

ライセンス: Link先を確認
Michelle Chen Huebscher, Christian Buck, Massimiliano Ciaramita, Sascha Rothe(参考訳) 検索を学ぶことは、自律的に検索ボックスを使って情報を見つけることを学ぶ人工エージェントを構築するタスクです。 これまでのところ、現在の言語モデルは、従来の用語に基づく検索と組み合わせて、象徴的クエリ改革ポリシーを学べるが、ニューラルネットワークのレトリバーよりもパフォーマンスが低いことが示されている。 本稿では,デュアルエンコーダによる第1パス検索ステップの後に,離散的クエリリファインメント操作を受け入れるハイブリッド環境に,先行学習を検索セットアップに拡張する。 BEIRタスクの実験では、動作のクローンによって訓練された検索エージェントが、二重エンコーダレトリバーとクロスエンコーダリランカを組み合わせた検索システムより優れていることが示された。 さらに, 単純ヒューリスティックハイブリッド検索環境(HRE)は, nDCG点数点のベースライン性能を向上させることができることがわかった。 HRE(HARE)に基づく検索エージェントは、ゼロショットとドメイン内評価の両方でバランスが取れ、解釈可能な動作により2倍の速度で、最先端のパフォーマンスと一致する。

Learning to search is the task of building artificial agents that learn to autonomously use a search box to find information. So far, it has been shown that current language models can learn symbolic query reformulation policies, in combination with traditional term-based retrieval, but fall short of outperforming neural retrievers. We extend the previous learning to search setup to a hybrid environment, which accepts discrete query refinement operations, after a first-pass retrieval step via a dual encoder. Experiments on the BEIR task show that search agents, trained via behavioral cloning, outperform the underlying search system based on a combined dual encoder retriever and cross encoder reranker. Furthermore, we find that simple heuristic Hybrid Retrieval Environments (HRE) can improve baseline performance by several nDCG points. The search agent based on HRE (HARE) matches state-of-the-art performance, balanced in both zero-shot and in-domain evaluations, via interpretable actions, and at twice the speed.
翻訳日:2023-03-30 18:42:49 公開日:2023-03-29
# AIとデジタルツインの相互作用: データ駆動とモデル駆動のアプローチのギャップを埋める

The Interplay of AI and Digital Twin: Bridging the Gap between Data-Driven and Model-Driven Approaches ( http://arxiv.org/abs/2209.12423v2 )

ライセンス: Link先を確認
Lina Bariah and Merouane Debbah(参考訳) ネットワーク仮想化とネイティブ人工知能(AI)パラダイムの進化は、将来の無線ネットワークのビジョンを、デジタルプラットフォーム全体を通して操作する包括的なエンティティとして概念化し、物理的なドメインとのスマートなインタラクションによって、デジタルツイン(DT)概念の開花への道を開いた。 DTネットワークに対する最近の関心は、ネットワークのオーケストレーションとリソース管理の複雑さを悪化させる新しい無線技術とユースケースの出現によって加速されている。 AIによって駆動されるDTの主要な原則は、物理エンティティとネットワークダイナミクスのための仮想ツインを作成することであり、仮想ツインを利用して合成データを生成し、AIモデルのトレーニングのためのオンデマンドプラットフォームを提供する。 AIがDTのシードであるという一般的な理解にもかかわらず、DTとAIはそれぞれの制限を克服し、お互いの利益を補完する方法で、互いに有効になることを期待しています。 本稿では、モデル駆動型およびデータ駆動型アプローチの統合におけるDTの役割を明らかにするとともに、6Gネットワークの楽観的なビジョンを達成するために、DTが提供する機会を探る。 我々は、AIによるさらなる機会の解放における理論的基盤の役割をさらに広げ、信頼性、効率、低レイテンシDTの実現に対する彼らの重要な影響を明らかにする。

The evolution of network virtualization and native artificial intelligence (AI) paradigms have conceptualized the vision of future wireless networks as a comprehensive entity operating in whole over a digital platform, with smart interaction with the physical domain, paving the way for the blooming of the Digital Twin (DT) concept. The recent interest in the DT networks is fueled by the emergence of novel wireless technologies and use-cases, that exacerbate the level of complexity to orchestrate the network and to manage its resources. Driven by AI, the key principle of the DT is to create a virtual twin for the physical entities and network dynamics, where the virtual twin will be leveraged to generate synthetic data and offer an on-demand platform for AI model training. Despite the common understanding that AI is the seed for DT, we anticipate that the DT and AI will be enablers for each other, in a way that overcome their limitations and complement each other benefits. In this article, we dig into the fundamentals of DT, where we reveal the role of DT in unifying model-driven and data-driven approaches, and explore the opportunities offered by DT in order to achieve the optimistic vision of 6G networks. We further unfold the essential role of the theoretical underpinnings in unlocking further opportunities by AI, and hence, we unveil their pivotal impact on the realization of reliable, efficient, and low-latency DT.
翻訳日:2023-03-30 18:42:12 公開日:2023-03-29
# 動的てんかん論理におけるエージェントの変化と説明的信念

Changing agents and ascribing beliefs in dynamic epistemic logic ( http://arxiv.org/abs/2211.02452v3 )

ライセンス: Link先を確認
Shikha Singh, Kamal Lodaya and Deepak Khemani(参考訳) 動的てんかん論理(Van Ditmarsch, Van Der Hoek, & Kooi, 2008)では、アクションフレーム(Baltag & Moss, 2004; Baltag, Moss, & Solecki, 1998)を使用して単一のアクションの異なるビューを記述するのが慣例である。 本稿では、アクションフレームを拡張してエージェントの追加や削除を行い、エージェント更新フレームと呼ぶ。 これは、baltag and moss(2004年)、sakama(2015年)、van ditmarsch、van eijck、sietsma、wang(2012年)によって研究されたプライベートアップデートやデセプションなど、いくつかの興味深い例をモデル化するために使用できる。 アクションフレームによるkripkeモデルの製品更新は、アクションの実行結果である変換されたkripkeモデルを記述するための省略された方法である。 これは、新しい設定におけるエージェント更新フレームによって、クリプキモデルの総積更新に実質的に拡張される。 これらのアイデアは、ストーリーをモデル化するAI問題に適用されます。 エージェント更新フレームをベースとした動的エピステマティックロジックの更新は,引き続き健全かつ完全な証明システムを有することを示す。 モデル検査と満足度の決定手順は複雑さを期待している。 部分言語には多項式空間アルゴリズムがある。

In dynamic epistemic logic (Van Ditmarsch, Van Der Hoek, & Kooi, 2008) it is customary to use an action frame (Baltag & Moss, 2004; Baltag, Moss, & Solecki, 1998) to describe different views of a single action. In this article, action frames are extended to add or remove agents, we call these agent-update frames. This can be done selectively so that only some specified agents get information of the update, which can be used to model several interesting examples such as private update and deception, studied earlier by Baltag and Moss (2004); Sakama (2015); Van Ditmarsch, Van Eijck, Sietsma, and Wang (2012). The product update of a Kripke model by an action frame is an abbreviated way of describing the transformed Kripke model which is the result of performing the action. This is substantially extended to a sum-product update of a Kripke model by an agent-update frame in the new setting. These ideas are applied to an AI problem of modelling a story. We show that dynamic epistemic logics, with update modalities now based on agent-update frames, continue to have sound and complete proof systems. Decision procedures for model checking and satisfiability have expected complexity. For a sublanguage, there are polynomial space algorithms.
翻訳日:2023-03-30 18:36:46 公開日:2023-03-29
# ニューラルネットワークの創発的言語構造は脆弱である

Emergent Linguistic Structures in Neural Networks are Fragile ( http://arxiv.org/abs/2210.17406v7 )

ライセンス: Link先を確認
Emanuele La Malfa and Matthew Wicker and Marta Kwiatkowska(参考訳) 大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。 しかし、精度などのパフォーマンス指標は、複雑な言語構造を頑健に表現する能力の観点から、モデルの品質を測るものではない。 本稿では,構文を表現できる言語モデルの能力に着目し,言語表現の一貫性と頑健性を評価する枠組みを提案する。 そこで本研究では,近年のllmからの言語構造抽出の進歩を活かしたニューラルネットワークモデルのロバスト性評価手法,すなわち,構文再構築やルート同定などの言語モデルの単一フェセットに関する意味情報抽出に用いられている単純なタスクについて紹介する。 実験により,6つのコーパスにまたがる4つのLLMの性能を,構文保存摂動に対する性能と頑健性を分析して検討した。 文脈自由表現(例えば手袋)は、現代のllm(例えばbert)の文脈依存表現と競合するが、構文保存摂動に対して等しく不安定である証拠を提供する。 私たちのキーとなる観察は、ニューラルネットワークにおける創発的な構文表現が脆弱であることです。 LLMの能力に関する議論へのコントリビューションとして、コード、トレーニングされたモデル、ログをコミュニティに公開しています。

Large Language Models (LLMs) have been reported to have strong performance on natural language processing tasks. However, performance metrics such as accuracy do not measure the quality of the model in terms of its ability to robustly represent complex linguistic structure. In this paper, focusing on the ability of language models to represent syntax, we propose a framework to assess the consistency and robustness of linguistic representations. To this end, we introduce measures of robustness of neural network models that leverage recent advances in extracting linguistic constructs from LLMs via probing tasks, i.e., simple tasks used to extract meaningful information about a single facet of a language model, such as syntax reconstruction and root identification. Empirically, we study the performance of four LLMs across six different corpora on the proposed robustness measures by analysing their performance and robustness with respect to syntax-preserving perturbations. We provide evidence that context-free representation (e.g., GloVe) are in some cases competitive with context-dependent representations from modern LLMs (e.g., BERT), yet equally brittle to syntax-preserving perturbations. Our key observation is that emergent syntactic representations in neural networks are brittle. We make the code, trained models and logs available to the community as a contribution to the debate about the capabilities of LLMs.
翻訳日:2023-03-30 18:36:21 公開日:2023-03-29
# 受動摂動機能増強による顔認識における対向攻撃の伝達性の向上

Improving the Transferability of Adversarial Attacks on Face Recognition with Beneficial Perturbation Feature Augmentation ( http://arxiv.org/abs/2210.16117v3 )

ライセンス: Link先を確認
Fengfan Zhou, Hefei Ling, Yuxuan Shi, Jiazhong Chen, Zongyi Li, Ping Li(参考訳) 顔認識(FR)モデルは、良質な顔画像に知覚不能な摂動を加えることで、敵対的な例によって容易に騙される。 敵対的な顔の例の存在は、社会の安全に大きな脅威をもたらす。 より持続可能なデジタル国家を構築するために,本稿では,既存のfrモデルの盲点を明らかにするために,敵の顔例の転送性を向上させる。 ハードサンプルの生成は、訓練作業におけるモデルの一般化を改善する効果を示したが、このアイデアを活用して対向顔例の伝達性を向上させる効果は未解明のままである。 そこで本研究では,ハードサンプルの特性と,トレーニングタスクと対向攻撃タスクとの対称性に基づいて,対向攻撃タスクのハードサンプルと同じような効果を持つハードモデルの概念を提案する。 硬式モデルの概念を生かしたBPFA(Beeficial Perturbation Feature Augmentation Attack)と呼ばれる新たな攻撃手法を提案する。 特にバックプロパゲーションでは、bpfaは事前選択された特徴マップの勾配を記録し、入力画像の勾配を使って逆の例を作成する。 次の転送では、bpfaは記録された勾配を利用して対応する特徴マップに有益な摂動を追加し、損失を増加させる。 大規模な実験により、BPFAはFRに対する敵の攻撃の伝達可能性を大幅に向上させることが示された。

Face recognition (FR) models can be easily fooled by adversarial examples, which are crafted by adding imperceptible perturbations on benign face images. The existence of adversarial face examples poses a great threat to the security of society. In order to build a more sustainable digital nation, in this paper, we improve the transferability of adversarial face examples to expose more blind spots of existing FR models. Though generating hard samples has shown its effectiveness in improving the generalization of models in training tasks, the effectiveness of utilizing this idea to improve the transferability of adversarial face examples remains unexplored. To this end, based on the property of hard samples and the symmetry between training tasks and adversarial attack tasks, we propose the concept of hard models, which have similar effects as hard samples for adversarial attack tasks. Utilizing the concept of hard models, we propose a novel attack method called Beneficial Perturbation Feature Augmentation Attack (BPFA), which reduces the overfitting of adversarial examples to surrogate FR models by constantly generating new hard models to craft the adversarial examples. Specifically, in the backpropagation, BPFA records the gradients on pre-selected feature maps and uses the gradient on the input image to craft the adversarial example. In the next forward propagation, BPFA leverages the recorded gradients to add beneficial perturbations on their corresponding feature maps to increase the loss. Extensive experiments demonstrate that BPFA can significantly boost the transferability of adversarial attacks on FR.
翻訳日:2023-03-30 18:35:57 公開日:2023-03-29
# 一般形式制約付き変分不等式解法に対する原始双対的アプローチ

A Primal-dual Approach for Solving Variational Inequalities with General-form Constraints ( http://arxiv.org/abs/2210.15659v3 )

ライセンス: Link先を確認
Tatjana Chavdarova, Matteo Pagliardini, Tong Yang, Michael I. Jordan(参考訳) Yang et al. (2023) は最近、一階勾配法により等式と不等式制約を持つ変分不等式 (VIs) を解くという開問題に対処した。 しかし、acviと呼ばれる原始双対法が適用できるのは、その部分問題の解析解を計算できる場合であり、一般のケースは未解決のままである。 そこで本論文では,各イテレーションで各サブ問題を解き,前回のイテレーションで得られた近似解を用いて変数を初期化するウォームスタート手法を採用する。 その収束を証明し、このイレクト-アビ法の最後のイテレートのギャップ関数が、演算子が$l$-lipschitz かつ monotone であるときに $\mathcal{o}(\frac{1}{\sqrt{k}})$ の割合で減少することを示した。 興味深いことに、数値実験では、この手法は正確な手法よりも早く収束することが多い。 さらに、不等式制約が単純である場合には、P-ACVIと呼ばれるACVIの変種を提案し、その収束性を同じ条件で証明する。 さらに,提案手法の有効性を多数の実験により実証する。 また、yang 等における仮定を緩和し、我々の知識により、演算子が $l$-lipschitz であるという仮定に依存しない最初の収束結果を与える。 ソースコードは$\texttt{https://github.com/mpagli/Revisiting-ACVI}$で提供されている。

Yang et al. (2023) recently addressed the open problem of solving Variational Inequalities (VIs) with equality and inequality constraints through a first-order gradient method. However, the proposed primal-dual method called ACVI is applicable when we can compute analytic solutions of its subproblems; thus, the general case remains an open problem. In this paper, we adopt a warm-starting technique where we solve the subproblems approximately at each iteration and initialize the variables with the approximate solution found at the previous iteration. We prove its convergence and show that the gap function of the last iterate of this inexact-ACVI method decreases at a rate of $\mathcal{O}(\frac{1}{\sqrt{K}})$ when the operator is $L$-Lipschitz and monotone, provided that the errors decrease at appropriate rates. Interestingly, we show that often in numerical experiments, this technique converges faster than its exact counterpart. Furthermore, for the cases when the inequality constraints are simple, we propose a variant of ACVI named P-ACVI and prove its convergence for the same setting. We further demonstrate the efficacy of the proposed methods through numerous experiments. We also relax the assumptions in Yang et al., yielding, to our knowledge, the first convergence result that does not rely on the assumption that the operator is $L$-Lipschitz. Our source code is provided at $\texttt{https://github.com/mpagli/Revisiting-ACVI}$.
翻訳日:2023-03-30 18:35:31 公開日:2023-03-29
# 導出性バイアスブーストマシンの抽象推論能力を用いた多視点・多面評価

Multi-Viewpoint and Multi-Evaluation with Felicitous Inductive Bias Boost Machine Abstract Reasoning Ability ( http://arxiv.org/abs/2210.14914v2 )

ライセンス: Link先を確認
Qinglai Wei, Diancheng Chen, Beiming Yuan(参考訳) RAVENのプログレッシブ行列(RPM)の異なるバージョンがベンチマークとして提案されている。 これまでの研究は、高度な設計や、セマンティック情報を含む追加のメタデータがなければ、ニューラルネットワークは、絶え間ないトレーニングの後、RPMの問題に関する決定を下すのに不決定である、とインクリングしている。 徹底的な実験とアブレーション研究により、特定のバックボーンの余分なメタデータや好みを増すことなく、フェリシタンな帰納的バイアス、意図的設計、セレンディピティーに適合するエンド・ツー・エンドのニューラルネットワークがRPM問題をエレガントに解決できることを示した。 我々の研究は、多面的評価を伴うマルチ視点が推論を成功させるための重要な学習戦略であることを明らかにしている。 最後に、一般化におけるコネクショニストモデルの失敗に対する潜在的な説明を提供する。 これらの結果は、認識を超えて、抽象的推論に向けたAIの能力の検査として役立ちたいと思っています。 ソースコードはhttps://github.com/QinglaiWeiCASIA/RavenSolverにある。

Great endeavors have been made to study AI's ability in abstract reasoning, along with which different versions of RAVEN's progressive matrices (RPM) are proposed as benchmarks. Previous works give inkling that without sophisticated design or extra meta-data containing semantic information, neural networks may still be indecisive in making decisions regarding RPM problems, after relentless training. Evidenced by thorough experiments and ablation studies, we showcase that end-to-end neural networks embodied with felicitous inductive bias, intentionally design or serendipitously match, can solve RPM problems elegantly, without the augment of any extra meta-data or preferences of any specific backbone. Our work also reveals that multi-viewpoint with multi-evaluation is a key learning strategy for successful reasoning. Finally, potential explanations for the failure of connectionist models in generalization are provided. We hope that these results will serve as inspections of AI's ability beyond perception and toward abstract reasoning. Source code can be found in https://github.com/QinglaiWeiCASIA/RavenSolver.
翻訳日:2023-03-30 18:34:55 公開日:2023-03-29
# 高次元ガウスラテント混合系の補間識別関数

Interpolating Discriminant Functions in High-Dimensional Gaussian Latent Mixtures ( http://arxiv.org/abs/2210.14347v2 )

ライセンス: Link先を確認
Xin Bing and Marten Wegkamp(参考訳) 本稿では,低次元ラテントガウス混合構造と非消滅雑音を有する仮定モデルに基づく高次元特徴のバイナリ分類について考察する。 一般化された最小二乗推定器を用いて最適分離超平面の方向を推定する。 推定された超平面は、トレーニングデータに補間される。 方向ベクトルは線形回帰の最近の結果から予測されるように一貫して推定できるが、ナイーブなプラグイン推定では、インターセプトを一貫して見積もることができない。 独立したホールドアウトサンプルを必要とする単純な修正は、多くのシナリオで最小限の手順を最適にする。 後者の手続きの補間特性は保持できるが、驚くほどラベルの符号化方法に依存する。

This paper considers binary classification of high-dimensional features under a postulated model with a low-dimensional latent Gaussian mixture structure and non-vanishing noise. A generalized least squares estimator is used to estimate the direction of the optimal separating hyperplane. The estimated hyperplane is shown to interpolate on the training data. While the direction vector can be consistently estimated as could be expected from recent results in linear regression, a naive plug-in estimate fails to consistently estimate the intercept. A simple correction, that requires an independent hold-out sample, renders the procedure minimax optimal in many scenarios. The interpolation property of the latter procedure can be retained, but surprisingly depends on the way the labels are encoded.
翻訳日:2023-03-30 18:34:13 公開日:2023-03-29
# インスタンス対応画像補完

Instance-Aware Image Completion ( http://arxiv.org/abs/2210.12350v2 )

ライセンス: Link先を確認
Jinoh Cho, Minguk Kang, Vibhav Vineet and Jaesik Park(参考訳) 画像補完は、マスクされた画像の欠落領域を、妥当な内容で埋めることを目的としたタスクである。 しかし、既存の画像補完手法では、シーンのコンテキストに応じて適切な視覚的インスタンスを幻覚させるのではなく、周囲のテクスチャで不足領域を埋める傾向にある。 そこで本研究では,不完全という新しい画像補完モデルを提案する。 imcompleteはまず、可視インスタンスと欠落した領域の位置を考慮したtransformerアーキテクチャを採用する。 そして、欠落領域内のセマンティクスセグメンテーションマスクを完了させ、ピクセルレベルのセマンティクスと構造ガイダンスを提供する。 最後に、画像合成ブロックは、フォトリアリスティックコンテンツを生成する。 視覚的品質 (LPIPS, FID) と文脈保存スコア (CLIPスコア, オブジェクト検出精度) をCOCO-panoptic と Visual Genome のデータセットを用いて総合的に評価する。 実験の結果,ImCompleteの自然画像に対する優位性が示された。

Image completion is a task that aims to fill in the missing region of a masked image with plausible contents. However, existing image completion methods tend to fill in the missing region with the surrounding texture instead of hallucinating a visual instance that is suitable in accordance with the context of the scene. In this work, we propose a novel image completion model, dubbed ImComplete, that hallucinates the missing instance that harmonizes well with - and thus preserves - the original context. ImComplete first adopts a transformer architecture that considers the visible instances and the location of the missing region. Then, ImComplete completes the semantic segmentation masks within the missing region, providing pixel-level semantic and structural guidance. Finally, the image synthesis blocks generate photo-realistic content. We perform a comprehensive evaluation of the results in terms of visual quality (LPIPS and FID) and contextual preservation scores (CLIPscore and object detection accuracy) with COCO-panoptic and Visual Genome datasets. Experimental results show the superiority of ImComplete on various natural images.
翻訳日:2023-03-30 18:34:00 公開日:2023-03-29
# 拡散モデルはすでにセマンティック潜在空間を持っている

Diffusion Models already have a Semantic Latent Space ( http://arxiv.org/abs/2210.10960v2 )

ライセンス: Link先を確認
Mingi Kwon, Jaeseok Jeong, Youngjung Uh(参考訳) 拡散モデルは様々な領域において優れた生成性能を達成する。 その大きな成功にもかかわらず、生成過程を制御するのに不可欠な意味的潜在空間が欠如している。 そこで本研究では,凍結事前学習拡散モデルにおいて,非対称な逆過程(Asyrp)を提案する。 h-空間という名前のセマンティック潜在空間は、ホモジニティ、線形性、ロバスト性、時間ステップ間の一貫性といった、セマンティックなイメージ操作を調節するための優れた特性を持つ。 さらに,時間経過における間隔の編集強度と品質不足の定量化により,多目的編集と品質向上のための生成プロセスの原理的設計を導入する。 本手法は,各種アーキテクチャ (DDPM++, iD-DPM, ADM) およびデータセット (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, METFACES) に適用可能である。 プロジェクトページ: https://kwonminki.github.io/asyrp/

Diffusion models achieve outstanding generative performance in various domains. Despite their great success, they lack semantic latent space which is essential for controlling the generative process. To address the problem, we propose asymmetric reverse process (Asyrp) which discovers the semantic latent space in frozen pretrained diffusion models. Our semantic latent space, named h-space, has nice properties for accommodating semantic image manipulation: homogeneity, linearity, robustness, and consistency across timesteps. In addition, we introduce a principled design of the generative process for versatile editing and quality boost ing by quantifiable measures: editing strength of an interval and quality deficiency at a timestep. Our method is applicable to various architectures (DDPM++, iD- DPM, and ADM) and datasets (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, and METFACES). Project page: https://kwonminki.github.io/Asyrp/
翻訳日:2023-03-30 18:33:39 公開日:2023-03-29
# マルチレーベル映画トレーラージャンル分類のためのデュアルイメージとビデオトランスフォーマによる転送学習の改善

Improving Transfer Learning with a Dual Image and Video Transformer for Multi-label Movie Trailer Genre Classification ( http://arxiv.org/abs/2210.07983v4 )

ライセンス: Link先を確認
Ricardo Montalvo-Lezama, Berenice Montalvo-Lezama and Gibran Fuentes-Pineda(参考訳) 本稿では,マルチラベル映画トレーサゲンレ分類 (MTGC) への画像ネット空間空間と速度空間の時空間表現の転送可能性について検討する。 具体的には,10種類のジャンルと関連メタデータをラベル付けした12,000本の動画を手作業で編集した映画トレーラーデータセットであるImageNetとKineeticsをTraceers12kに事前訓練したConvNetとTransformerモデルの転送可能性について,広範囲に評価する。 フレームレートや入力ビデオ拡張,時空間モデリングなど,転送性に影響を与えるさまざまな側面を分析した。 本研究では,imagenet/kineticsとtreaks12kの時空間構造ギャップを低減するために,トレーラーを高度に相関したクリップに分割し,事前学習されたバックボーンに対するより結束的な入力を提供し,転送性の向上(imagenetでは1.83%,kineticsでは3.75%)を実現するために,ショット検出を行うdual image and video transformer architecture (divita)を提案する。 その結果,ImageNet あるいは Kinetics で学んだ表現は,Traceers12k に比較的転送可能であることがわかった。 さらに、両方のデータセットは、組み合わせて分類性能を向上させる(トップシングルプリトレーニングと比較して2.91%の利得)補完的な情報を提供する。 興味深いことに、プリトレーニングされたバックボーンとして軽量なconvnetを使用すると、トップトランスフォーマーに比べて分類性能が3.46%低下するだけでなく、パラメータの11.82%とフラップの0.81%しか必要としない。

In this paper, we study the transferability of ImageNet spatial and Kinetics spatio-temporal representations to multi-label Movie Trailer Genre Classification (MTGC). In particular, we present an extensive evaluation of the transferability of ConvNet and Transformer models pretrained on ImageNet and Kinetics to Trailers12k, a new manually-curated movie trailer dataset composed of 12,000 videos labeled with 10 different genres and associated metadata. We analyze different aspects that can influence transferability, such as frame rate, input video extension, and spatio-temporal modeling. In order to reduce the spatio-temporal structure gap between ImageNet/Kinetics and Trailers12k, we propose Dual Image and Video Transformer Architecture (DIViTA), which performs shot detection so as to segment the trailer into highly correlated clips, providing a more cohesive input for pretrained backbones and improving transferability (a 1.83% increase for ImageNet and 3.75% for Kinetics). Our results demonstrate that representations learned on either ImageNet or Kinetics are comparatively transferable to Trailers12k. Moreover, both datasets provide complementary information that can be combined to improve classification performance (a 2.91% gain compared to the top single pretraining). Interestingly, using lightweight ConvNets as pretrained backbones resulted in only a 3.46% drop in classification performance compared with the top Transformer while requiring only 11.82% of its parameters and 0.81% of its FLOPS.
翻訳日:2023-03-30 18:33:23 公開日:2023-03-29
# ホモフレンドリグラフとヘテロフレンドリグラフのためのシングルパスコントラスト学習

Single-Pass Contrastive Learning Can Work for Both Homophilic and Heterophilic Graph ( http://arxiv.org/abs/2211.10890v2 )

ライセンス: Link先を確認
Haonan Wang, Jieyu Zhang, Qi Zhu, Wei Huang, Kenji Kawaguchi, Xiaokui Xiao(参考訳) 既存のグラフコントラスト学習(gcl)技術では、1つのインスタンスでコントラスト損失を構築するために2つのフォワードパスが必要であり、ノードの特徴の低周波信号を捉えるのに有効である。 このような二重パス設計はホモ親和グラフにおいて経験的成功を示しているが、直結したノードが通常異なるラベルを持つヘテロ親和グラフの有効性は分かっていない。 加えて、既存のgclアプローチは強力なパフォーマンス保証を提供しない。 異種グラフに対するGCLアプローチの不予測性と相まって、実世界の文脈における適用性は限定的である。 そして、自然な疑問が生まれます: 性能保証のあるホモフィルグラフとヘテロフィルグラフの両方で機能するGCL法を設計できますか? そこで本研究では,近傍集計により得られた特徴の集中特性について理論的に検討し,その特性に基づく単パスグラフのコントラスト学習損失を導入し,下流課題における損失の最小化のための性能保証を提供する。 分析の結果,Single-Pass Graph Contrastive Learning法(SP-GCL)を実装した。 経験的に、14のベンチマークデータセットにおいて、sp-gclによって得られた機能は、既存の強力なベースラインと非常に少ない計算オーバーヘッドでマッチしたり、性能を上回ったりすることができる。

Existing graph contrastive learning (GCL) techniques typically require two forward passes for a single instance to construct the contrastive loss, which is effective for capturing the low-frequency signals of node features. Such a dual-pass design has shown empirical success on homophilic graphs, but its effectiveness on heterophilic graphs, where directly connected nodes typically have different labels, is unknown. In addition, existing GCL approaches fail to provide strong performance guarantees. Coupled with the unpredictability of GCL approaches on heterophilic graphs, their applicability in real-world contexts is limited. Then, a natural question arises: Can we design a GCL method that works for both homophilic and heterophilic graphs with a performance guarantee? To answer this question, we theoretically study the concentration property of features obtained by neighborhood aggregation on homophilic and heterophilic graphs, introduce the single-pass graph contrastive learning loss based on the property, and provide performance guarantees for the minimizer of the loss on downstream tasks. As a direct consequence of our analysis, we implement the Single-Pass Graph Contrastive Learning method (SP-GCL). Empirically, on 14 benchmark datasets with varying degrees of homophily, the features learned by the SP-GCL can match or outperform existing strong baselines with significantly less computational overhead, which demonstrates the usefulness of our findings in real-world cases.
翻訳日:2023-03-30 18:26:19 公開日:2023-03-29
# 畳み込みガウスニューラルプロセスを用いた環境センサ配置

Environmental Sensor Placement with Convolutional Gaussian Neural Processes ( http://arxiv.org/abs/2211.10381v4 )

ライセンス: Link先を確認
Tom R. Andersson, Wessel P. Bruinsma, Stratis Markou, James Requeima, Alejandro Coca-Castro, Anna Vaughan, Anna-Louise Ellis, Matthew A. Lazzara, Daniel C. Jones, J. Scott Hosking, Richard E. Turner(参考訳) 環境センサーは、気象状況や気候変動の影響を監視するために不可欠である。 しかし、特に南極のような遠隔地では、計測情報度を最大化し、センサーを効率的に配置することは困難である。 確率的機械学習モデルは、新しいセンサによって提供される不確実性低減を予測することにより、配置情報度を評価することができる。 gaussian process (gp)モデルはこの目的のために広く使われているが、複雑な非定常動作のキャプチャや大規模データセットへのスケーリングに苦労している。 本稿では,畳み込みガウス過程(convolutional gaussian neural process, convgnp)を用いてこの問題に対処する。 convgnpはニューラルネットワークを使用して、任意のターゲットロケーションでのジョイントガウス分布をパラメータ化し、柔軟性とスケーラビリティを実現する。 地上の真実として南極上空の模擬表面温度異常を用いて、ConvGNPは空間的および季節的な非定常性を学び、非定常GPベースラインを上回った。 シミュレーションされたセンサ配置実験において、ConvGNPはGPベースラインよりも新しい観測から得られる性能向上を予測し、より情報的なセンサー配置をもたらす。 本手法と物理ベースのセンサ配置手法を対比し, センサ配置レコメンデーションシステムに向けた今後の取り組みを提案する。 このシステムは環境デジタル双生児の実現に役立ち、サンプリングを活発に行い、現実のデジタル表現を改善する。

Environmental sensors are crucial for monitoring weather conditions and the impacts of climate change. However, it is challenging to maximise measurement informativeness and place sensors efficiently, particularly in remote regions like Antarctica. Probabilistic machine learning models can evaluate placement informativeness by predicting the uncertainty reduction provided by a new sensor. Gaussian process (GP) models are widely used for this purpose, but they struggle with capturing complex non-stationary behaviour and scaling to large datasets. This paper proposes using a convolutional Gaussian neural process (ConvGNP) to address these issues. A ConvGNP uses neural networks to parameterise a joint Gaussian distribution at arbitrary target locations, enabling flexibility and scalability. Using simulated surface air temperature anomaly over Antarctica as ground truth, the ConvGNP learns spatial and seasonal non-stationarities, outperforming a non-stationary GP baseline. In a simulated sensor placement experiment, the ConvGNP better predicts the performance boost obtained from new observations than GP baselines, leading to more informative sensor placements. We contrast our approach with physics-based sensor placement methods and propose future work towards an operational sensor placement recommendation system. This system could help to realise environmental digital twins that actively direct measurement sampling to improve the digital representation of reality.
翻訳日:2023-03-30 18:25:51 公開日:2023-03-29
# RIS支援MU-MISOシステムにおける深部強化学習に基づく複合ダウンリンクビームフォーミングとRIS構成

Deep Reinforcement Learning Based Joint Downlink Beamforming and RIS Configuration in RIS-aided MU-MISO Systems Under Hardware Impairments and Imperfect CSI ( http://arxiv.org/abs/2211.09702v2 )

ライセンス: Link先を確認
Baturay Saglam, Doga Gurgunoglu, Suleyman S. Kozat(参考訳) 本稿では,Multiuser multiple input single output (MU-MISO) システムにおいて,送信ビームフォーミングと再構成可能なインテリジェントサーフェス(RIS) の位相シフトを協調的に最適化し,位相依存反射振幅モデルの下での総和ダウンリンク率を最大化するための新しい深部強化学習手法を提案する。 本手法は,現実的なRIS振幅モデルを考慮した不完全チャネル状態情報(CSI)とハードウェア障害の課題に対処する。 我々は, 完全CSIと位相依存RIS振幅, 整合CSIと理想RIS反射の2つのシナリオにおいて, バニラDRLエージェントに対するアプローチの性能を比較した。 その結果,提案フレームワークは,誤一致下ではバニラdrlエージェントを著しく上回り,ゴールデンスタンダードに接近した。 我々の貢献は、送信ビームフォーミングと位相シフトの結合設計と位相依存振幅モデルに対処するためのDRLアプローチの変更を含む。 我々の知る限り,本手法はRIS支援MU-MISOシステムにおける位相依存反射振幅モデルに対するDRLに基づく最初のアプローチである。 本研究は,RIS支援無線通信システムにおけるハードウェア障害を克服する手段として,我々のアプローチの可能性を明らかにするものである。

We introduce a novel deep reinforcement learning (DRL) approach to jointly optimize transmit beamforming and reconfigurable intelligent surface (RIS) phase shifts in a multiuser multiple input single output (MU-MISO) system to maximize the sum downlink rate under the phase-dependent reflection amplitude model. Our approach addresses the challenge of imperfect channel state information (CSI) and hardware impairments by considering a practical RIS amplitude model. We compare the performance of our approach against a vanilla DRL agent in two scenarios: perfect CSI and phase-dependent RIS amplitudes, and mismatched CSI and ideal RIS reflections. The results demonstrate that the proposed framework significantly outperforms the vanilla DRL agent under mismatch and approaches the golden standard. Our contributions include modifications to the DRL approach to address the joint design of transmit beamforming and phase shifts and the phase-dependent amplitude model. To the best of our knowledge, our method is the first DRL-based approach for the phase-dependent reflection amplitude model in RIS-aided MU-MISO systems. Our findings in this study highlight the potential of our approach as a promising solution to overcome hardware impairments in RIS-aided wireless communication systems.
翻訳日:2023-03-30 18:25:05 公開日:2023-03-29
# 医用画像解析のための拡散モデル:総合的調査

Diffusion Models for Medical Image Analysis: A Comprehensive Survey ( http://arxiv.org/abs/2211.07804v2 )

ライセンス: Link先を確認
Amirhossein Kazerouni, Ehsan Khodapanah Aghdam, Moein Heidari, Reza Azad, Mohsen Fayyaz, Ilker Hacihaliloglu, Dorit Merhof(参考訳) 生成モデルの一種である分母拡散モデルは、近年、様々なディープラーニング問題に多大な関心を集めている。 拡散確率モデルは、ガウス雑音を付加することにより入力データが徐々に数段にわたって摂動する前方拡散段階を定義し、その後拡散過程を逆転してノイズのないデータをノイズデータから取得する。 拡散モデルは、既知の計算負荷にもかかわらず、強いモードカバレッジと生成サンプルの品質で広く評価されている。 コンピュータビジョンの進歩に乗じて、医療画像の分野でも拡散モデルへの関心が高まっている。 本研究は, 医用画像解析の分野における拡散モデルの概要を明らかにすることを目的としている。 具体的には,拡散モデルと拡散確率モデル,雑音条件スコアネットワーク,確率微分方程式という3つの汎用拡散モデルフレームワークの背後にある固体理論的基礎と基本概念を紹介する。 そこで我々は,医療領域における拡散モデルの系統分類を提供し,その応用,画像のモダリティ,興味の組織,アルゴリズムに基づく多視点分類を提案する。 この目的のために,医療領域における拡散モデルの広範な応用について紹介する。 さらに,いくつかのアプローチの実用化事例を強調し,医療領域における拡散モデルの限界を議論し,この分野の要求を満たすためのいくつかの方向性を提案する。 最後に、利用可能なオープンソース実装に関する概要研究をhttps://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imagingにまとめる。

Denoising diffusion models, a class of generative models, have garnered immense interest lately in various deep-learning problems. A diffusion probabilistic model defines a forward diffusion stage where the input data is gradually perturbed over several steps by adding Gaussian noise and then learns to reverse the diffusion process to retrieve the desired noise-free data from noisy data samples. Diffusion models are widely appreciated for their strong mode coverage and quality of the generated samples despite their known computational burdens. Capitalizing on the advances in computer vision, the field of medical imaging has also observed a growing interest in diffusion models. To help the researcher navigate this profusion, this survey intends to provide a comprehensive overview of diffusion models in the discipline of medical image analysis. Specifically, we introduce the solid theoretical foundation and fundamental concepts behind diffusion models and the three generic diffusion modelling frameworks: diffusion probabilistic models, noise-conditioned score networks, and stochastic differential equations. Then, we provide a systematic taxonomy of diffusion models in the medical domain and propose a multi-perspective categorization based on their application, imaging modality, organ of interest, and algorithms. To this end, we cover extensive applications of diffusion models in the medical domain. Furthermore, we emphasize the practical use case of some selected approaches, and then we discuss the limitations of the diffusion models in the medical domain and propose several directions to fulfill the demands of this field. Finally, we gather the overviewed studies with their available open-source implementations at https://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imaging.
翻訳日:2023-03-30 18:24:17 公開日:2023-03-29
# Calibrated Interpretation:Semantic Parsingにおける信頼度推定

Calibrated Interpretation: Confidence Estimation in Semantic Parsing ( http://arxiv.org/abs/2211.07443v4 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) シーケンス生成モデルは、言語を実行可能なプログラムに変換するために、すなわち実行可能なセマンティック解析を実行するために、ますます使われている。 セマンティック解析が現実の世界でアクションを実行することを目的としているという事実は、安全なシステムを開発する動機となっている。 一般的な4つのセマンティックパーシングデータセット間の共通生成モデルの校正について検討し、モデルやデータセットによって異なることを明らかにする。 次に、キャリブレーションエラーに関連する要因を分析し、2つの解析データセットの新しい信頼度に基づく課題分割をリリースする。 セマンティック解析評価にキャリブレーションを組み込むことを容易にするため,キャリブレーションメトリクスを計算するためのライブラリをリリースする。

Sequence generation models are increasingly being used to translate language into executable programs, i.e. to perform executable semantic parsing. The fact that semantic parsing aims to execute actions in the real world motivates developing safe systems, which in turn makes measuring calibration -- a central component to safety -- particularly important. We investigate the calibration of common generation models across four popular semantic parsing datasets, finding that it varies across models and datasets. We then analyze factors associated with calibration error and release new confidence-based challenge splits of two parsing datasets. To facilitate the inclusion of calibration in semantic parsing evaluations, we release a library for computing calibration metrics.
翻訳日:2023-03-30 18:23:53 公開日:2023-03-29
# 脳を越えて見る:視覚復号のためのスパースマズドモデリングを用いた条件拡散モデル

Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding ( http://arxiv.org/abs/2211.06956v3 )

ライセンス: Link先を確認
Zijiao Chen, Jiaxin Qing, Tiange Xiang, Wan Lin Yue, Juan Helen Zhou(参考訳) 脳記録からの視覚刺激の復号は、人間の視覚システムの理解を深め、Brain-Computer Interfaceを通じて人間とコンピュータの視覚をブリッジするための基盤を構築することを目的としている。 しかし、脳信号の複雑な表現とデータアノテーションの不足により、脳の記録から正しい意味を持つ高品質な画像の再構成は難しい問題である。 本稿では,人間の視覚復号のための2成分遅延拡散モデルを用いたMinD-Vis: Sparse Masked Brain Modelingを提案する。 まず,一次視覚野における情報のスパース符号化にインスパイアされた大きな潜伏空間におけるマスクモデルを用いて,fMRIデータの効果的な自己教師型表現を学習する。 次に,2つの条件付き潜伏拡散モデルを拡張することにより,MinD-Visは,非常に少ないペアアノテーションを用いて,脳の記録から意味的に一致した細部を再現できることを示す。 実験結果から,提案手法は,セマンティックマッピング(100方向意味分類)と生成品質(fid)の両方において,それぞれ66%,41%の精度で最先端を上回っていた。 網羅的アブレーション試験も実施し,我々の枠組みを解析した。

Decoding visual stimuli from brain recordings aims to deepen our understanding of the human visual system and build a solid foundation for bridging human and computer vision through the Brain-Computer Interface. However, reconstructing high-quality images with correct semantics from brain recordings is a challenging problem due to the complex underlying representations of brain signals and the scarcity of data annotations. In this work, we present MinD-Vis: Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding. Firstly, we learn an effective self-supervised representation of fMRI data using mask modeling in a large latent space inspired by the sparse coding of information in the primary visual cortex. Then by augmenting a latent diffusion model with double-conditioning, we show that MinD-Vis can reconstruct highly plausible images with semantically matching details from brain recordings using very few paired annotations. We benchmarked our model qualitatively and quantitatively; the experimental results indicate that our method outperformed state-of-the-art in both semantic mapping (100-way semantic classification) and generation quality (FID) by 66% and 41% respectively. An exhaustive ablation study was also conducted to analyze our framework.
翻訳日:2023-03-30 18:23:40 公開日:2023-03-29
# パラメータ化多可観測サム不確かさ関係

Parameterized Multi-observable Sum Uncertainty Relations ( http://arxiv.org/abs/2211.03301v2 )

ライセンス: Link先を確認
Jing-Feng Wu, Qing-Hua Zhang, Shao-Ming Fei(参考訳) 不確実性原理は量子力学の基本的な特徴の1つであり、量子情報理論において重要な役割を果たす。 任意の有限 n$ 量子可観測値の分散に基づく不確かさ関係について検討する。 パラメタライズドノルムの不等式の観点から一連のパラメータ化された不確実性関係を定式化し, 分散に基づく不確実性関係を解消する。 不確かさの不等式の下限は、測定された状態がすべての可観測値の共通の固有ベクトルでない限りゼロではない。 詳細な例は、我々の不確実性関係の厳密さを示すものである。

The uncertainty principle is one of the fundamental features of quantum mechanics and plays an essential role in quantum information theory. We study uncertainty relations based on variance for arbitrary finite $N$ quantum observables. We establish a series of parameterized uncertainty relations in terms of the parameterized norm inequalities, which improve the exiting variance-based uncertainty relations. The lower bounds of our uncertainty inequalities are non-zero unless the measured state is a common eigenvector of all the observables. Detailed examples are provided to illustrate the tightness of our uncertainty relations.
翻訳日:2023-03-30 18:23:20 公開日:2023-03-29
# 地層レベル自然言語説明のためのマルチタスク事前学習の力の調和

Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations ( http://arxiv.org/abs/2212.04231v2 )

ライセンス: Link先を確認
Bj\"orn Pl\"uster, Jakob Ambsdorf, Lukas Braach, Jae Hee Lee, Stefan Wermter(参考訳) 自然言語の説明は、最近のVL-NLEモデルで追求されているように、複雑な視覚言語タスクにおけるニューラルネットワークの決定プロセスの直感的に理解できる説明を提供する。 いくつかのモデルは、説明生成モジュールがタスク答え予測のために独立したモジュールと十分に統合されていないモジュール、限られたタスクセットでトレーニングされたバックボーンモデル、または単一のデータセットのパフォーマンス向上のためにアドホックソリューションを組み込むモジュール設計を特徴としています。 生成型トランスフォーマーモデルの大規模マルチタスク事前学習における最近の進歩をVL-NLEタスクの問題に適用することにより,これらの制限を回避することを提案する。 提案手法は, 3つの評価されたデータセットのうち2つにおいて, 人間の注釈者は, 基礎的真実よりも生成した説明を優先する。 VL-NLE研究における新たな課題として、マルチタスクVL-NLEの問題を提案し、複数のタスクの協調トレーニングが説明品質を向上させることを示す。 本稿では,近年のVL-NLE研究における高品質なNLE生成の倫理的意義について論じる。

Natural language explanations promise to offer intuitively understandable explanations of a neural network's decision process in complex vision-language tasks, as pursued in recent VL-NLE models. While current models offer impressive performance on task accuracy and explanation plausibility, they suffer from a range of issues: Some models feature a modular design where the explanation generation module is poorly integrated with a separate module for task-answer prediction, employ backbone models trained on limited sets of tasks, or incorporate ad hoc solutions to increase performance on single datasets. We propose to evade these limitations by applying recent advances in large-scale multi-task pretraining of generative Transformer models to the problem of VL-NLE tasks. Our approach outperforms recent models by a large margin, with human annotators preferring the generated explanations over the ground truth in two out of three evaluated datasets. As a novel challenge in VL-NLE research, we propose the problem of multi-task VL-NLE and show that jointly training on multiple tasks can increase the explanation quality. We discuss the ethical implications of high-quality NLE generation and other issues in recent VL-NLE research.
翻訳日:2023-03-30 18:17:40 公開日:2023-03-29
# タスク演算によるモデル編集

Editing Models with Task Arithmetic ( http://arxiv.org/abs/2212.04089v2 )

ライセンス: Link先を確認
Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi(参考訳) トレーニング済みモデル – ダウンストリームタスクのパフォーマンス向上や事前トレーニング中に学んだバイアス緩和など – の振る舞いを変えることは、マシンラーニングシステムの開発において一般的なプラクティスだ。 本研究では,ニューラルネットワークの動作を制御するための新しいパラダイムを提案する。 タスクベクトルは、事前訓練されたモデルの重量空間における方向を指定し、その方向の動きがタスクの性能を向上させる。 タスクを微調整した後、事前学習したモデルの重みを同じモデルの重みから減算してタスクベクトルを構築する。 これらのタスクベクトルをネゲーションや加算などの算術演算によって修正・結合することができ、結果として得られるモデルの振る舞いがそれに応じて制御されることを示す。 タスクベクトルのネゴシエーションは、制御タスクにおけるモデル動作の変化が少なく、ターゲットタスクのパフォーマンスを低下させる。 さらに、タスクベクトルを同時に追加することで、複数のタスクのパフォーマンスが向上する。 最後に、タスクが ``A is to B is to C is to D" 形式の類似関係でリンクされると、3つのタスクのタスクベクトルを組み合わせることで、トレーニングに第4タスクのデータを使用しなくても、第4タスクのパフォーマンスを改善することができる。 全体として、いくつかのモデル、モダリティ、タスクを用いた実験は、タスク演算がモデル編集の単純で効率的かつ効果的な方法であることを示している。

Changing how pre-trained models behave -- e.g., improving their performance on a downstream task or mitigating biases learned during pre-training -- is a common practice when developing machine learning systems. In this work, we propose a new paradigm for steering the behavior of neural networks, centered around \textit{task vectors}. A task vector specifies a direction in the weight space of a pre-trained model, such that movement in that direction improves performance on the task. We build task vectors by subtracting the weights of a pre-trained model from the weights of the same model after fine-tuning on a task. We show that these task vectors can be modified and combined together through arithmetic operations such as negation and addition, and the behavior of the resulting model is steered accordingly. Negating a task vector decreases performance on the target task, with little change in model behavior on control tasks. Moreover, adding task vectors together can improve performance on multiple tasks at once. Finally, when tasks are linked by an analogy relationship of the form ``A is to B as C is to D", combining task vectors from three of the tasks can improve performance on the fourth, even when no data from the fourth task is used for training. Overall, our experiments with several models, modalities and tasks show that task arithmetic is a simple, efficient and effective way of editing models.
翻訳日:2023-03-30 18:17:18 公開日:2023-03-29
# 位置と運動量の不確実性原理の実験的検証について

On the experimental verification of the uncertainty principle of position and momentum ( http://arxiv.org/abs/2211.14724v2 )

ライセンス: Link先を確認
Thomas Sch\"urmann, Ingo Hoffmann and Winfrid G\"orlich(参考訳) 歴史的に、ケナードは不確実性の定量的尺度として標準偏差を最初に選んだ人物であり、彼もハイゼンベルクも実験的な物理的観点からこの選択が適切である理由を明確に説明しなかった。 粒子が空間幅$\Delta x$の単一のスリットで準備されている場合、有限標準偏差$\sigma_p<\infty$は、波動関数が$\Delta x$の端でゼロである場合にのみ確保できることが示されている。 この状況下で対応するシャープ不等式は$\sigma_p \delta x\geq \pi\hbar$である。 この境界はヒルベルト空間における変分問題の観点から数学的観点から再考され、さらにレーザービームの4fシングルスリット回折実験で試験される。 我々の結果は、Fern\'andez-Guasti (2022) [9]のレーザー実験と比較される。

Historically, Kennard was the first to choose the standard deviation as a quantitative measure of uncertainty, and neither he nor Heisenberg explicitly explained why this choice should be appropriate from the experimental physical point of view. If a particle is prepared by a single slit of spatial width $\Delta x$, it has been shown that a finite standard deviation $\sigma_p<\infty$ can only be ensured if the wave-function is zero at the edge of $\Delta x$, otherwise it does not exist [8]. Under this circumstances the corresponding sharp inequality is $\sigma_p \Delta x\geq \pi\hbar$. This bound will be reconsidered from the mathematical point of view in terms of a variational problem in Hilbert space and will furthermore be tested in a 4f-single slit diffraction experiment of a laser beam. Our results will be compared with a laser-experiment recently given by Fern\'andez-Guasti (2022) [9].
翻訳日:2023-03-30 18:16:54 公開日:2023-03-29
# RbA: 未知の領域をすべて除外する

RbA: Segmenting Unknown Regions Rejected by All ( http://arxiv.org/abs/2211.14293v2 )

ライセンス: Link先を確認
Nazir Nayal, M{\i}sra Yavuz, Jo\~ao F. Henriques, Fatma G\"uney(参考訳) 標準的なセマンティックセグメンテーションモデルは、新しいカテゴリから未知のオブジェクトを識別する可能性を考慮せずに、一定のセマンティックカテゴリの集合を持つキュレートデータセットにその成功を負っている。 外乱検出の既存の手法は、ピクセル単位の分類パラダイムの制限により、予測の滑らかさと目的性の欠如に悩まされている。 さらに、異常検出のための追加トレーニングは、既知のクラスのパフォーマンスを損なう。 本稿では,未知のオブジェクトをセグメント化するために,領域レベルの分類を用いた別のパラダイムを検討する。 マスク分類におけるオブジェクトクエリは、すべての分類子を1 \vsのように振る舞う傾向がある。 この知見に基づいて,すべての既知のクラスで拒否されたアウトリアーとなるイベントを定義することで,rbaと呼ばれる新しいアウトリアースコアリング関数を提案する。 実験の結果,マスクの分類により既存の外乱検出法の性能が向上し,提案したRbAで最良の結果が得られた。 また、最小限の外部監視を用いてRbAを最適化する目的も提案する。 アウトリアーによるさらなる微調整により、未知の性能が向上し、以前の方法とは異なり、インリアー性能が劣化することはない。

Standard semantic segmentation models owe their success to curated datasets with a fixed set of semantic categories, without contemplating the possibility of identifying unknown objects from novel categories. Existing methods in outlier detection suffer from a lack of smoothness and objectness in their predictions, due to limitations of the per-pixel classification paradigm. Furthermore, additional training for detecting outliers harms the performance of known classes. In this paper, we explore another paradigm with region-level classification to better segment unknown objects. We show that the object queries in mask classification tend to behave like one \vs all classifiers. Based on this finding, we propose a novel outlier scoring function called RbA by defining the event of being an outlier as being rejected by all known classes. Our extensive experiments show that mask classification improves the performance of the existing outlier detection methods, and the best results are achieved with the proposed RbA. We also propose an objective to optimize RbA using minimal outlier supervision. Further fine-tuning with outliers improves the unknown performance, and unlike previous methods, it does not degrade the inlier performance.
翻訳日:2023-03-30 18:15:37 公開日:2023-03-29
# 深部RNNの普遍性のための最小幅

Minimal Width for Universal Property of Deep RNN ( http://arxiv.org/abs/2211.13866v2 )

ライセンス: Link先を確認
Chang hoon Song, Geonho Hwang, Jun ho Lee, Myungjoo Kang(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルデータを扱うために広く使われているディープラーニングネットワークである。 力学系をイミットすると、無限幅 RNN はコンパクト領域内の任意の開力学系を近似することができる。 一般に、境界幅の深いネットワークは、実際には広帯域ネットワークよりも効果的であるが、深い狭義構造に対する普遍近似定理はまだ広く研究されていない。 本研究では,細密なrnnの普遍性を証明し,普遍性に対する最小幅の上限がデータの長さに依存しないことを示す。 具体的には、ReLU を活性化した深い RNN が、それぞれ$d_x+d_y+2$ と $\max\{d_x+1,d_y\}$ の幅を持つ任意の連続関数や$L^p$ 関数を近似できることを示し、ターゲット関数は $\mathbb{R}^{d_x}$ のベクトルの有限列を $\mathbb{R}^{d_y}$ のベクトルの有限列にマッピングする。 また、アクティベーション関数が$\tanh$以上の場合に必要な追加の幅を計算する。 さらに、双方向RNNなどの他のリカレントネットワークの普遍性を証明する。 多層パーセプトロンとRNNを組み合わせることで、我々の理論と証明技術は深層RNNのさらなる研究に向けた最初のステップとなる。

A recurrent neural network (RNN) is a widely used deep-learning network for dealing with sequential data. Imitating a dynamical system, an infinite-width RNN can approximate any open dynamical system in a compact domain. In general, deep networks with bounded widths are more effective than wide networks in practice; however, the universal approximation theorem for deep narrow structures has yet to be extensively studied. In this study, we prove the universality of deep narrow RNNs and show that the upper bound of the minimum width for universality can be independent of the length of the data. Specifically, we show that a deep RNN with ReLU activation can approximate any continuous function or $L^p$ function with the widths $d_x+d_y+2$ and $\max\{d_x+1,d_y\}$, respectively, where the target function maps a finite sequence of vectors in $\mathbb{R}^{d_x}$ to a finite sequence of vectors in $\mathbb{R}^{d_y}$. We also compute the additional width required if the activation function is $\tanh$ or more. In addition, we prove the universality of other recurrent networks, such as bidirectional RNNs. Bridging a multi-layer perceptron and an RNN, our theory and proof technique can be an initial step toward further research on deep RNNs.
翻訳日:2023-03-30 18:15:18 公開日:2023-03-29
# ナノフォトニック導波路の存在下での双極子-双極子相互作用の修飾

Modified dipole-dipole interactions in the presence of a nanophotonic waveguide ( http://arxiv.org/abs/2211.13595v3 )

ライセンス: Link先を確認
Mathias B. M. Svendsen, Beatriz Olmos(参考訳) エミッタアンサンブルが電磁界と相互作用すると、エミッタ間で双極子-双極子相互作用が引き起こされる。 これらの相互作用の大きさと形状は電磁場モードの特定の形態によって決定される。 円筒状ナノファイバーのようなナノフォトニック導波路近傍にエミッタを配置すると、これらのモードの複雑な機能形態は双極子-双極子相互作用の解析的評価を煩雑で数値的に高価に行う。 本稿では,これらの相互作用をうまく計算する方法を詳細に説明し,他の環境や境界条件に容易に拡張できる方法を概説する。 このような正確な評価は、この種のシステムにおける相互作用と散逸の集合的な特徴のため、相互作用の小さな変更は、特にエミッターの数が増加するにつれて、実験的な観測可能性に劇的な変化をもたらす可能性がある。 本稿では, 円筒状ナノファイバーで導かれる光の伝達信号を, 近傍のエミッタ鎖の存在下で計算することによって, これを説明する。

When an emitter ensemble interacts with the electromagnetic field, dipole-dipole interactions are induced between the emitters. The magnitude and shape of these interactions are fully determined by the specific form of the electromagnetic field modes. If the emitters are placed in the vicinity of a nanophotonic waveguide, such as a cylindrical nanofiber, the complex functional form of these modes makes the analytical evaluation of the dipole-dipole interaction cumbersome and numerically costly. In this work, we provide a full detailed description of how to successfully calculate these interactions, outlining a method that can be easily extended to other environments and boundary conditions. Such exact evaluation is of importance as, due to the collective character of the interactions and dissipation in this kind of systems, any small modification of the interactions may lead to dramatic changes in experimental observables, particularly as the number of emitters increases. We illustrate this by calculating the transmission signal of the light guided by a cylindrical nanofiber in the presence of a nearby chain of emitters.
翻訳日:2023-03-30 18:14:39 公開日:2023-03-29
# 署名暗号信頼ネットワークにおける不正検出のためのモチーフ対応時間GCN

Motif-aware temporal GCN for fraud detection in signed cryptocurrency trust networks ( http://arxiv.org/abs/2211.13123v2 )

ライセンス: Link先を確認
Song Li, Jiandong Zhou, Chong MO, Jin LI, Geoffrey K. F. Tso, Yuxing Tian(参考訳) グラフ畳み込みネットワーク(Graph Convolutional Network、GCN)は、グラフとして表現可能なデータを処理するためのニューラルネットワークの一種である。 金融取引はグラフとして自然に構築できるため、GCNは金融業界、特に金融不正検出に広く適用されている。 本稿では,暗号通貨取引ネットワークにおける不正検出に焦点をあてる。 文献では、ほとんどの作品は静的ネットワークに焦点を当てている。 本研究では,暗号通貨ネットワークの進化的性質を考察し,局所構造とバランス理論を用いて学習過程の指導を行う。 より具体的には、モチーフ行列を計算して局所的なトポロジ情報をキャプチャし、GCNアグリゲーションプロセスでそれらを利用する。 各スナップショットで生成された埋め込みは、重み付けが学習可能なパラメータであるタイムウィンドウ内の重み付け平均である。 信頼ネットワークは各エッジに署名されているため、バランス理論はトレーニングプロセスのガイドに使用される。 bitcoin-alpha と bitcoin-otc データセットでの実験的結果は、提案モデルが文献のモデルよりも優れていることを示している。

Graph convolutional networks (GCNs) is a class of artificial neural networks for processing data that can be represented as graphs. Since financial transactions can naturally be constructed as graphs, GCNs are widely applied in the financial industry, especially for financial fraud detection. In this paper, we focus on fraud detection on cryptocurrency truct networks. In the literature, most works focus on static networks. Whereas in this study, we consider the evolving nature of cryptocurrency networks, and use local structural as well as the balance theory to guide the training process. More specifically, we compute motif matrices to capture the local topological information, then use them in the GCN aggregation process. The generated embedding at each snapshot is a weighted average of embeddings within a time window, where the weights are learnable parameters. Since the trust networks is signed on each edge, balance theory is used to guide the training process. Experimental results on bitcoin-alpha and bitcoin-otc datasets show that the proposed model outperforms those in the literature.
翻訳日:2023-03-30 18:14:22 公開日:2023-03-29
# CLIP Bind の概念は? 大規模画像モデルにおける構成性の探索

Does CLIP Bind Concepts? Probing Compositionality in Large Image Models ( http://arxiv.org/abs/2212.10537v2 )

ライセンス: Link先を確認
Martha Lewis, Nihal V. Nayak, Peilin Yu, Qinan Yu, Jack Merullo, Stephen H. Bach, Ellie Pavlick(参考訳) 近年,テキストと画像を組み合わせた大規模ニューラルネットワークモデルが飛躍的な進歩を遂げている。 しかし、そのようなモデルが「赤」と「キューブ」の成分を推論して「赤立方体」を正しく識別するなど、それらが作用する概念の構成表現をどの程度エンコードしているかは、未解決のままである。 本研究では,大規模事前学習型視覚・言語モデル (CLIP) が構成概念を符号化し,変数を構造に敏感な方法で結合する能力に着目した(例:'cube behind sphere' を「立方体の背後の球体」と区別する)。 CLIPの性能を検査するために,従来の構成言語構造を組込み空間内に実装しようとする研究の行であるCDSM(Composental Distributional semantics Model)の研究から,いくつかのアーキテクチャを比較した。 CLIPは単一オブジェクト設定で概念を構成することができるが、概念バインディングが必要な状況では、パフォーマンスが劇的に低下する。 同時にcdsmsはパフォーマンスが悪く、最高のパフォーマンスは偶然のレベルである。

Large-scale neural network models combining text and images have made incredible progress in recent years. However, it remains an open question to what extent such models encode compositional representations of the concepts over which they operate, such as correctly identifying ''red cube'' by reasoning over the constituents ''red'' and ''cube''. In this work, we focus on the ability of a large pretrained vision and language model (CLIP) to encode compositional concepts and to bind variables in a structure-sensitive way (e.g., differentiating ''cube behind sphere'' from ''sphere behind cube''). In order to inspect the performance of CLIP, we compare several architectures from research on compositional distributional semantics models (CDSMs), a line of research that attempts to implement traditional compositional linguistic structures within embedding spaces. We find that CLIP can compose concepts in a single-object setting, but in situations where concept binding is needed, performance drops dramatically. At the same time, CDSMs also perform poorly, with best performance at chance level.
翻訳日:2023-03-30 18:07:49 公開日:2023-03-29
# 大規模言語モデルは自己検証の根拠である

Large Language Models are reasoners with Self-Verification ( http://arxiv.org/abs/2212.09561v2 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun Zhao(参考訳) 大きな言語モデル(LLM)が思考の連鎖(CoT)によって複雑な推論を行う場合、個々のミスに対して非常に敏感である。 私たちはこの問題に対処するために検証者を訓練しなければならなかった。 誰もが知っているように、人間が結論を推測した後、しばしばそれを再検証してチェックします。 我々は,CoTの結論を新しいサンプル構築条件として用いた自己検証法を提案し,LLMにマスクされた元の条件の再予測を依頼する。 精度に基づいて説明可能な検証スコアを算出する。 本手法は,数ショット学習における複数の算術と論理推論データセットの精度を向上させることができる。 我々は, LLM が自身の結論を自己検証し, 競争力のある推論性能を発揮できることを実証した。 大規模な実験により, 自己検証を行う複数の大規模言語モデルにおいて, 誤ったCoTの干渉を回避できることが実証された。 コードは \url{https://github.com/wengsyx/self-verification} で入手できる。

When a large language model (LLM) performs complex reasoning by chain of thought (CoT), it can be highly sensitive to individual mistakes. We have had to train verifiers to address this issue. As we all know, after human inferring a conclusion, they often check it by re-verifying it, which can avoid some mistakes. We propose a new method called self-verification that uses the conclusion of the CoT as a condition to build a new sample and asks the LLM to re-predict the original conditions which be masked. We calculate an explainable verification score based on the accuracy. This method can improve the accuracy of multiple arithmetics and logical reasoning datasets when using few-shot learning. we have demonstrated that LLMs can conduct explainable self-verification of their own conclusions and achieve competitive reasoning performance. Extensive experimentals have demonstrated that our method can help multiple large language models with self-verification can avoid interference from incorrect CoT. Code is available at \url{https://github.com/WENGSYX/Self-Verification}
翻訳日:2023-03-30 18:07:30 公開日:2023-03-29
# 教師なしオブジェクトローカライゼーション:オブジェクト発見の背景を観察する

Unsupervised Object Localization: Observing the Background to Discover Objects ( http://arxiv.org/abs/2212.07834v2 )

ライセンス: Link先を確認
Oriane Sim\'eoni and Chlo\'e Sekkat and Gilles Puy and Antonin Vobecky and \'Eloi Zablocki and Patrick P\'erez(参考訳) 自己教師付きビジュアル表現学習の最近の進歩は、オブジェクト発見やインスタンスセグメンテーションのような教師なしのタスクに取り組む方法を広げている。 しかし、監視なしで画像内のオブジェクトを発見するのは、非常に難しい作業です。望みのオブジェクトは何で、いつそれらをパーツに分割するのか、いくつあるのか、どのクラスがあるのか? これらの質問に対する回答は、評価のタスクとデータセットに依存する。 この作業では、異なるアプローチを採用し、代わりに背景を探すことを提案します。 このようにして、健全なオブジェクトは、オブジェクトが何であるべきかを強く仮定することなく、副産物として現れます。 我々は,自己教師付きパッチベース表現から抽出した粗い背景マスクを初期化した,単一の$conv1\times1$の単純なモデルを発見した。 これらのシードマスクを高速にトレーニングし精錬した後、モデルは教師なしサリエンシ検出とオブジェクト発見ベンチマークに関する最先端の結果に達する。 さらに,提案手法は,教師なしセマンティクスセグメンテーション検索タスクに優れた結果をもたらすことを示す。 結果はhttps://github.com/valeoai/foundで再生できます。

Recent advances in self-supervised visual representation learning have paved the way for unsupervised methods tackling tasks such as object discovery and instance segmentation. However, discovering objects in an image with no supervision is a very hard task; what are the desired objects, when to separate them into parts, how many are there, and of what classes? The answers to these questions depend on the tasks and datasets of evaluation. In this work, we take a different approach and propose to look for the background instead. This way, the salient objects emerge as a by-product without any strong assumption on what an object should be. We propose FOUND, a simple model made of a single $conv1\times1$ initialized with coarse background masks extracted from self-supervised patch-based representations. After fast training and refining these seed masks, the model reaches state-of-the-art results on unsupervised saliency detection and object discovery benchmarks. Moreover, we show that our approach yields good results in the unsupervised semantic segmentation retrieval task. The code to reproduce our results is available at https://github.com/valeoai/FOUND.
翻訳日:2023-03-30 18:06:51 公開日:2023-03-29
# 分割プロトコルにおける連結相関--ケーススタディとそれ以降

Connected correlations in partitioning protocols: a case study and beyond ( http://arxiv.org/abs/2212.07151v2 )

ライセンス: Link先を確認
Saverio Bocini(参考訳) 不均質な量子クエンチェにおける局所緩和の仮定は、一般化された流体力学(ghd)として知られる流体力学の議論を通じて局所観測可能性の期待値を漸近的に計算することができる。 この研究では、パーティショニングプロトコルの遊び場と非相互作用時間進化を用いてGHDによって記述される観測可能が「ローカルで十分」であるかどうかという問題に対処する。 二次ハミルトニアンの下で進化する任意の状態は、それらの場の1つが根密度の時空依存性の一般化と同一視できるような分離力学場の集合を通して記述できることを示した。 これらの各場の連結スピン相関に対する寄与を独立に研究することにより、観測可能な局所性条件を根密度のみを用いて記述することができる。 これは、ghdのような根密度のみを用いて観測可能物の漸近値を記述することを目的とした流体力学アプローチの妥当性の体系と、ガウス化に必要な局所性条件の両方を示す。

The assumption of local relaxation in inhomogeneous quantum quenches allows to compute asymptotically the expectation value of local observables via hydrodynamic arguments known as generalized hydrodynamics (GHD). In this work we address formally the question of when an observable is ``local enough'' to be described by GHD using the playground of partitioning protocols and non-interacting time evolution. We show that any state evolving under a quadratic Hamiltonian can be described via a set of decoupled dynamical fields such that one of those fields can be identified with a space-time-dependent generalisation of the root density. By studying the contribution to a connected spin correlation of each of those fields independently, we derive the locality conditions under which an observable can be described using the root density only. That shows both the regime of validity for hydrodynamic approaches that aim at describing the asymptotic value of observables in term of the root density only, such as GHD, and the locality conditions necessary for Gaussianification to occur.
翻訳日:2023-03-30 18:06:36 公開日:2023-03-29
# アンダーソン絶縁体と相互作用する移動不純物のスローダイナミクス

Slow dynamics of a mobile impurity interacting with an Anderson insulator ( http://arxiv.org/abs/2212.07107v2 )

ライセンス: Link先を確認
Piotr Sierant, Titas Chanda, Maciej Lewenstein, Jakub Zakrzewski(参考訳) 本研究では,アンダーソン局在粒子の浴槽に浸漬した単一移動不純物のダイナミクスを調べ,比較的強い障害と相互作用の制御に焦点をあてる。 この体制では、システムのダイナミクスは特に遅く、短時間で多体局在が発生することを示唆している。 長い時間スケールを考えると、後者は過渡的効果であり、最終的には不純物は拡散的に拡散し、アンダーソン絶縁体の漸進的非局在化を引き起こす。 スローダイナミクスが考慮される場合のシステムの現象学は、不純物の平均平方変位の平均拡散成長、アンダーソン絶縁体の密度相関関数のパワーロー減衰、および系のエントロピーのパワーロー成長を含む。 システム内の障害が十分に強い準周期ポテンシャルに置き換わる際にも、同様のスローダイナミクスの体制が観察される。

We investigate dynamics of a single mobile impurity immersed in a bath of Anderson localized particles and focus on the regime of relatively strong disorder and interactions. In that regime, the dynamics of the system is particularly slow, suggesting, at short times, an occurrence of many-body localization. Considering longer time scales, we show that the latter is a transient effect and that, eventually, the impurity spreads sub-diffusively and induces a gradual delocalization of the Anderson insulator. The phenomenology of the system in the considered regime of slow dynamics includes a sub-diffusive growth of mean square displacement of the impurity, power-law decay of density correlation functions of the Anderson insulator and a power-law growth of entanglement entropy in the system. We observe a similar regime of slow dynamics also when the disorder in the system is replaced by a sufficiently strong quasi-periodic potential.
翻訳日:2023-03-30 18:06:16 公開日:2023-03-29
# DifFace:Diffused Error Contractionによるブラインド顔修復

DifFace: Blind Face Restoration with Diffused Error Contraction ( http://arxiv.org/abs/2212.06512v2 )

ライセンス: Link先を確認
Zongsheng Yue and Chen Change Loy(参考訳) 深層学習に基づく顔の復元は前例のない成功を収めているが、それでも2つの大きな制限に苦しめられている。 まず、トレーニングデータから複雑な劣化に直面すると、ほとんどが劣化する。 第二に、これらの手法は複数の制約(例えば、忠実さ、知覚的損失、および敵対的損失)を必要とする。 本研究では,複雑な損失設計を伴わずに,目に見えない複雑な劣化に対処できるDifFaceという新しい手法を提案する。 本手法の鍵は,観測された低品質(LQ)画像から高品質(HQ)画像への後部分布を確立することである。 特に、lq画像からプリトレーニング拡散モデルの中間状態への遷移分布を設計後、プリトレーニング拡散モデルを繰り返し適用することにより、この中間状態からhqターゲットへ徐々に伝達する。 遷移分布は、いくつかの合成データに対して$L_2$の損失でトレーニングされた復元バックボーンにのみ依存する。 さらに, 遷移分布は復元バックボーンの誤差を負うため, 未知の劣化に対してより頑健な手法となる。 総合的な実験により、DifFaceは最先端の手法よりも優れていることが示される。 コードとモデルはhttps://github.com/zsyoaoa/diffaceで入手できる。

While deep learning-based methods for blind face restoration have achieved unprecedented success, they still suffer from two major limitations. First, most of them deteriorate when facing complex degradations out of their training data. Second, these methods require multiple constraints, e.g., fidelity, perceptual, and adversarial losses, which require laborious hyper-parameter tuning to stabilize and balance their influences. In this work, we propose a novel method named DifFace that is capable of coping with unseen and complex degradations more gracefully without complicated loss designs. The key of our method is to establish a posterior distribution from the observed low-quality (LQ) image to its high-quality (HQ) counterpart. In particular, we design a transition distribution from the LQ image to the intermediate state of a pre-trained diffusion model and then gradually transmit from this intermediate state to the HQ target by recursively applying a pre-trained diffusion model. The transition distribution only relies on a restoration backbone that is trained with $L_2$ loss on some synthetic data, which favorably avoids the cumbersome training process in existing methods. Moreover, the transition distribution can contract the error of the restoration backbone and thus makes our method more robust to unknown degradations. Comprehensive experiments show that DifFace is superior to current state-of-the-art methods, especially in cases with severe degradations. Code and model are available at https://github.com/zsyOAOA/DifFace.
翻訳日:2023-03-30 18:05:59 公開日:2023-03-29
# PyPop7: 人口ベースのブラックボックス最適化のためのピュアPythonライブラリ

PyPop7: A Pure-Python Library for Population-Based Black-Box Optimization ( http://arxiv.org/abs/2212.05652v2 )

ライセンス: Link先を確認
Qiqi Duan, Guochen Zhou, Chang Shao, Zhuowei Wang, Mingyang Feng, Yijun Yang, Qi Zhao, Yuhui Shi(参考訳) 本稿では,black-box optimization(bbo)用のpypop7という純粋pythonライブラリを提案する。 bboでは人口ベースのメソッドがますます普及していますが、私たちの設計目標は統合apiとエレガントな実装を提供することです。 個体群に基づく手法は、ランダムなサンプリングの性質による不規則性(dimenisoanlity)の呪いに苦しむため、空間分解、低メモリ近似、低ランクメトリック学習、分散還元、ランダム部分空間のアンサンブル、モデル自己適応、平滑化といった可能な問題構造を利用して、この問題を緩和するために様々な改良が提案されている。 現在pypop7は、異なる研究コミュニティの13のbboアルゴリズムファミリの$72$バージョンと変種でこれらの進歩をカバーしている。 オープンソースのコードと本格的なドキュメントは、それぞれhttps://github.com/evolutionary-intelligence/pypopとhttps://pypop.readthedocs.ioで入手できる。

In this paper, we present a pure-Python library called PyPop7 for black-box optimization (BBO). As population-based methods are becoming increasingly popular for BBO, our design goal is to provide a unified API and elegant implementations for them, particularly for high-dimensional cases. Since population-based methods suffer easily from the curse of dimenisoanlity owing to their random sampling nature, various improvements have been proposed to alleviate this issue via exploiting possible problem structures: such as space decomposition, low-memory approximation, low-rank metric learning, variance reduction, ensemble of random subspaces, model self-adaptation, and smoothing. Now PyPop7 has covered these advances with $>72$ versions and variants of 13 BBO algorithm families from different research communities. Its open-source code and full-fledged documents are available at https://github.com/Evolutionary-Intelligence/pypop and https://pypop.readthedocs.io, respectively.
翻訳日:2023-03-30 18:05:34 公開日:2023-03-29
# 近代ホップフィールドネットワークから出現するボルツマンマシン群における注意

Attention in a family of Boltzmann machines emerging from modern Hopfield networks ( http://arxiv.org/abs/2212.04692v2 )

ライセンス: Link先を確認
Toshihiro Ota, Ryo Karakida(参考訳) ホップフィールドネットワークとボルツマンマシン(BM)は基本的なエネルギーベースニューラルネットワークモデルである。 最近のホップフィールドネットワークの研究はエネルギー関数のクラスを広げ、アテンションモジュールを含む一般ホップフィールドネットワークの統一的な視点をもたらした。 この書簡では、関連するエネルギー関数を用いた現代のホップフィールドネットワークのbm対応を考察し、訓練可能性の観点からそれらのサルエント特性について考察する。 特に、注意モジュールに対応するエネルギー関数は、注目BM(AttnBM)と呼ばれる新しいBMを自然に導入する。 我々は,attnbmが特定の特別な場合に対して拡張可能性関数と勾配を持ち,訓練が容易であることを検証した。 さらに,AttnBMといくつかの単層モデル,すなわちガウス・ベルヌーリ限定BMと復調スコアマッチングから生じるソフトマックスユニットによる復調オートエンコーダとの隠れ接続を明らかにする。 また,他のエネルギー関数に導入されたbmsについても検討し,密結合記憶モデルのエネルギー関数が指数関数系ハーモニウムに属するbmsを与えることを示した。

Hopfield networks and Boltzmann machines (BMs) are fundamental energy-based neural network models. Recent studies on modern Hopfield networks have broaden the class of energy functions and led to a unified perspective on general Hopfield networks including an attention module. In this letter, we consider the BM counterparts of modern Hopfield networks using the associated energy functions, and study their salient properties from a trainability perspective. In particular, the energy function corresponding to the attention module naturally introduces a novel BM, which we refer to as the attentional BM (AttnBM). We verify that AttnBM has a tractable likelihood function and gradient for certain special cases and is easy to train. Moreover, we reveal the hidden connections between AttnBM and some single-layer models, namely the Gaussian--Bernoulli restricted BM and the denoising autoencoder with softmax units coming from denoising score matching. We also investigate BMs introduced by other energy functions and show that the energy function of dense associative memory models gives BMs belonging to Exponential Family Harmoniums.
翻訳日:2023-03-30 18:05:01 公開日:2023-03-29
# 合成データ生成のための機械学習: レビュー

Machine Learning for Synthetic Data Generation: A Review ( http://arxiv.org/abs/2302.04062v2 )

ライセンス: Link先を確認
Yingzhou Lu, Huazheng Wang, Wenqi Wei(参考訳) データは機械学習において重要な役割を果たす。 しかし、現実世界のアプリケーションでは、データの品質が低い、限られた数のデータポイントが機械学習モデルの過度な適合に繋がる、プライバシー、安全性、規制上の懸念によるデータへのアクセスが困難など、データにはいくつかの問題がある。 合成データ生成は、現実世界のデータではできない方法で共有および使用することができるため、有望な新しい道を提供する。 本稿では、合成データ生成に機械学習モデルを利用する既存の作品を体系的にレビューする。 具体的には,様々な視点から合成データ生成手法について考察する。 (i) コンピュータビジョン、音声、自然言語、医療及び事業を含む出願 (二 機械学習方法、特にニューラルネットワークアーキテクチャ及び深層生成モデル (三)プライバシーと公平性の問題 さらに、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。

Data plays a crucial role in machine learning. However, in real-world applications, there are several problems with data, e.g., data are of low quality; a limited number of data points lead to under-fitting of the machine learning model; it is hard to access the data due to privacy, safety and regulatory concerns. Synthetic data generation offers a promising new avenue, as it can be shared and used in ways that real-world data cannot. This paper systematically reviews the existing works that leverage machine learning models for synthetic data generation. Specifically, we discuss the synthetic data generation works from several perspectives: (i) applications, including computer vision, speech, natural language, healthcare, and business; (ii) machine learning methods, particularly neural network architectures and deep generative models; (iii) privacy and fairness issue. In addition, we identify the challenges and opportunities in this emerging field and suggest future research directions.
翻訳日:2023-03-30 17:58:40 公開日:2023-03-29
# 動的時間ウォーピングのコスト関数のパラメータ化と時系列分類への応用

Parameterizing the cost function of Dynamic Time Warping with application to time series classification ( http://arxiv.org/abs/2301.10350v2 )

ライセンス: Link先を確認
Matthieu Herrmann, Chang Wei Tan, Geoffrey I. Webb(参考訳) ダイナミック・タイム・ワーピング (dynamic time warping, dtw) は、2シリーズの点を互いに整列させる一般的な時系列距離尺度である。 これらのアライメントは、異なる速度で展開するプロセスを可能にするために時間次元のウォーピングをサポートする。 距離は、時間次元の許容可能なワープに対して得られるアライメントの最小コストである。 2つの点のアライメントのコストは、それらの点の値の差の関数である。 原価関数はこの差の絶対値であった。 他のコスト関数も提案されている。 人気があるのは、その違いの正方形だ。 しかし、我々の知る限り、これは異なるコスト関数を使用することによる相対的な影響と、異なるタスクにコスト関数をチューニングする可能性の両方についての最初の調査である。 この論文では、パラメータ {\gamma} を持つチューナブルコスト関数 {\lambda}{\gamma} を用いることで、そうする。 高い値がより大きい対の差に重みを置くのに対し、低い値はより小さい対の差に重みを置くことを示す。 我々は、DTW近傍と近接森林分類器の両方の精度を大幅に向上させることを実証した。

Dynamic Time Warping (DTW) is a popular time series distance measure that aligns the points in two series with one another. These alignments support warping of the time dimension to allow for processes that unfold at differing rates. The distance is the minimum sum of costs of the resulting alignments over any allowable warping of the time dimension. The cost of an alignment of two points is a function of the difference in the values of those points. The original cost function was the absolute value of this difference. Other cost functions have been proposed. A popular alternative is the square of the difference. However, to our knowledge, this is the first investigation of both the relative impacts of using different cost functions and the potential to tune cost functions to different tasks. We do so in this paper by using a tunable cost function {\lambda}{\gamma} with parameter {\gamma}. We show that higher values of {\gamma} place greater weight on larger pairwise differences, while lower values place greater weight on smaller pairwise differences. We demonstrate that training {\gamma} significantly improves the accuracy of both the DTW nearest neighbor and Proximity Forest classifiers.
翻訳日:2023-03-30 17:58:28 公開日:2023-03-29
# 高知覚品質コーデック拡張のための残差拡散モデル

A Residual Diffusion Model for High Perceptual Quality Codec Augmentation ( http://arxiv.org/abs/2301.05489v3 )

ライセンス: Link先を確認
Noor Fathima Ghouse and Jens Petersen and Auke Wiggers and Tianlin Xu and Guillaume Sauti\`ere(参考訳) 拡散確率モデルは最近、高品質な画像と映像データを生成することに顕著な成功を収めている。 本研究では,このタイプの生成モデルを構築し,高分解能画像の損失圧縮法を提案する。 私たちがdirac(diffuson-based residual augmentation codec)と呼ぶこのコーデックは、ganベースの知覚品質で競合性能を得ながら、テスト時にレート・ディストリクト・パーセプショントレードオフをスムーズにトラバースできる最初のニューラルコーデックである。 また,拡散確率モデルからのサンプリングは費用がかかることで悪名高いが,圧縮設定ではステップ数を大幅に削減できることを示す。

Diffusion probabilistic models have recently achieved remarkable success in generating high quality image and video data. In this work, we build on this class of generative models and introduce a method for lossy compression of high resolution images. The resulting codec, which we call DIffuson-based Residual Augmentation Codec (DIRAC), is the first neural codec to allow smooth traversal of the rate-distortion-perception tradeoff at test time, while obtaining competitive performance with GAN-based methods in perceptual quality. Furthermore, while sampling from diffusion probabilistic models is notoriously expensive, we show that in the compression setting the number of steps can be drastically reduced.
翻訳日:2023-03-30 17:58:10 公開日:2023-03-29
# 完全正の発振子型量子井戸ポテンシャルを持つ位置依存質量schr\"odinger方程式の厳密解

Exact solution of the position-dependent mass Schr\"odinger equation with the completely positive oscillator-shaped quantum well potential ( http://arxiv.org/abs/2212.13062v2 )

ライセンス: Link先を確認
E.I. Jafarov and S.M. Nagiyev(参考訳) 完全正の振動子型量子井戸の2つの完全可解な閉じ込めモデルを提案する。 提案した量子井戸ポテンシャルに対応する位置依存質量Schr\"オーディンガー方程式の厳密解を示す。 両モデルの離散エネルギースペクトル表現は、ある正の閉じ込めパラメータに依存することが示されている。 スペクトルは、無限に高い壁のみに閉じ込められたモデルに対して正の同値な振る舞いを示し、両面から無限に高い壁に閉じ込められたモデルに対して非等価な振る舞いを示す。 建設中のモデルの定常状態の波動関数はラゲール多項式とヤコビ多項式を通して表される。 一般に、波動関数に現れるヤコビ多項式はパラメータ$a$と$b$に依存するが、ラゲール多項式はパラメータ$a$にのみ依存する。 構築したモデルの限界と特別な場合について議論する。

Two exactly-solvable confined models of the completely positive oscillator-shaped quantum well are proposed. Exact solutions of the position-dependent mass Schr\"odinger equation corresponding to the proposed quantum well potentials are presented. It is shown that the discrete energy spectrum expressions of both models depend on certain positive confinement parameters. The spectrum exhibits positive equidistant behavior for the model confined only with one infinitely high wall and non-equidistant behavior for the model confined with the infinitely high wall from both sides. Wavefunctions of the stationary states of the models under construction are expressed through the Laguerre and Jacobi polynomials. In general, the Jacobi polynomials appearing in wavefunctions depend on parameters $a$ and $b$, but the Laguerre polynomials depend only on the parameter $a$. Some limits and special cases of the constructed models are discussed.
翻訳日:2023-03-30 17:57:55 公開日:2023-03-29
# オンラインカーネル学習におけるカーネルアライメントの改善

Improved Kernel Alignment Regret Bound for Online Kernel Learning ( http://arxiv.org/abs/2212.12989v2 )

ライセンス: Link先を確認
Junfan Li and Shizhong Liao(参考訳) 本稿では,Hinge損失関数の仕組みにおいて,オンラインカーネル学習に拘束されるカーネルアライメントの後悔を改善する。 事前のアルゴリズムは、$O((\mathcal{A}_TT\ln{T})^{\frac{1}{4}})$O(\sqrt{\mathcal{A}_TT\ln{T}})$の計算複雑性(空間と単位時間)において、$O(\sqrt{\mathcal{A}_TT\ln{T}})$を後悔する。 本稿では,従来の結果よりも後悔と計算の複雑さが優れているアルゴリズムを提案する。 結果は,核行列の固有値の減衰速度に依存する。 核行列の固有値が指数関数的に減衰すると、我々のアルゴリズムは$O(\sqrt{\mathcal{A}_T})$の後悔を、$O(\ln^2{T})$の計算複雑性で楽しむ。 さもなくば、我々のアルゴリズムは$O((\mathcal{A}_TT)^{\frac{1}{4}})$の計算複雑性で$O(\sqrt{\mathcal{A}_TT})$の後悔を楽しむ。 我々はアルゴリズムをバッチ学習に拡張し、以前の$O(1/\sqrt{T})$境界を改善した$O(\frac{1}{T}\sqrt{\mathbb{E}[\mathcal{A}_T]})$余剰リスク境界を得る。

In this paper, we improve the kernel alignment regret bound for online kernel learning in the regime of the Hinge loss function. Previous algorithm achieves a regret of $O((\mathcal{A}_TT\ln{T})^{\frac{1}{4}})$ at a computational complexity (space and per-round time) of $O(\sqrt{\mathcal{A}_TT\ln{T}})$, where $\mathcal{A}_T$ is called \textit{kernel alignment}. We propose an algorithm whose regret bound and computational complexity are better than previous results. Our results depend on the decay rate of eigenvalues of the kernel matrix. If the eigenvalues of the kernel matrix decay exponentially, then our algorithm enjoys a regret of $O(\sqrt{\mathcal{A}_T})$ at a computational complexity of $O(\ln^2{T})$. Otherwise, our algorithm enjoys a regret of $O((\mathcal{A}_TT)^{\frac{1}{4}})$ at a computational complexity of $O(\sqrt{\mathcal{A}_TT})$. We extend our algorithm to batch learning and obtain a $O(\frac{1}{T}\sqrt{\mathbb{E}[\mathcal{A}_T]})$ excess risk bound which improves the previous $O(1/\sqrt{T})$ bound.
翻訳日:2023-03-30 17:57:40 公開日:2023-03-29
# 超低一様精度量子化のためのネットワーク自動適応

Automatic Network Adaptation for Ultra-Low Uniform-Precision Quantization ( http://arxiv.org/abs/2212.10878v3 )

ライセンス: Link先を確認
Seongmin Park, Beomseok Kwon, Jieun Lim, Kyuyoung Sim, Tae-Ho Kim and Jungwook Choi(参考訳) 一様精度ニューラルネットワーク量子化は、高い計算能力のために密集した演算ユニットを単純化するため、人気を集めている。 しかし、層間における量子化誤差の影響に対する不均質な感度を無視し、結果として準最適推論精度をもたらす。 本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれるニューラルアーキテクチャ探索を提案する。 提案手法は,ハードウェア制約(フロップ,パラムなど)を満たしながら,量子化センシティブ層のチャネルを選択的に拡張する。 CIFAR10 と ImageNet の2ビット量子化精度を向上させるために,提案手法がいくつかの人気ネットワークチャネルに適用可能であることを示す。 特に,2ビット ResNet50 のTop-1/Top-5 の精度は FLOP が小さく,パラメータサイズも小さい。

Uniform-precision neural network quantization has gained popularity since it simplifies densely packed arithmetic unit for high computing capability. However, it ignores heterogeneous sensitivity to the impact of quantization errors across the layers, resulting in sub-optimal inference accuracy. This work proposes a novel neural architecture search called neural channel expansion that adjusts the network structure to alleviate accuracy degradation from ultra-low uniform-precision quantization. The proposed method selectively expands channels for the quantization sensitive layers while satisfying hardware constraints (e.g., FLOPs, PARAMs). Based on in-depth analysis and experiments, we demonstrate that the proposed method can adapt several popular networks channels to achieve superior 2-bit quantization accuracy on CIFAR10 and ImageNet. In particular, we achieve the best-to-date Top-1/Top-5 accuracy for 2-bit ResNet50 with smaller FLOPs and the parameter size.
翻訳日:2023-03-30 17:56:25 公開日:2023-03-29
# ピクセルレベルでのビジュアルプロンプティングのパワーを解放する

Unleashing the Power of Visual Prompting At the Pixel Level ( http://arxiv.org/abs/2212.10556v2 )

ライセンス: Link先を確認
Junyang Wu, Xianhang Li, Chen Wei, Huiyu Wang, Alan Yuille, Yuyin Zhou, Cihang Xie(参考訳) 本稿では,事前学習したモデルを下流認識タスクに適応させるための簡易かつ効果的な視覚プロンプト手法を提案する。 提案手法には2つの重要な設計がある。 まず、プロンプトとイメージを直接追加するのではなく、プロンプトを余分で独立した学習可能なコンポーネントとして扱う。 我々は,プロンプトとイメージの調整戦略が重要であることを示し,適切に縮小された画像のまわりにプロンプトをゆがめることが経験上最も有効であることを示す。 第2に、入力の多様性と勾配正規化を視覚的プロンプトに組み込むためによく使われる2つの「古いトリック」を再導入する。 これらの手法は最適化を改善し、プロンプトをより一般化する。 本手法の有効性を示すために,広範な実験結果を提供する。 CLIPモデルを用いることで、12の一般的な分類データセットの平均精度を82.8%に設定し、それまでの技術を+5.6%上回った。 この高速化性能は、線形プローブを+2.1%上回っており、特定のデータセットで完全に微調整される可能性さえある。 さらに,提案手法は,異なるデータスケールと分散シフトに対する競合性能を示す。 コードはhttps://github.com/UCSC-VLAA/EVPで公開されている。

This paper presents a simple and effective visual prompting method for adapting pre-trained models to downstream recognition tasks. Our method includes two key designs. First, rather than directly adding together the prompt and the image, we treat the prompt as an extra and independent learnable component. We show that the strategy of reconciling the prompt and the image matters, and find that warping the prompt around a properly shrinked image empirically works the best. Second, we re-introduce two "old tricks" commonly used in building transferable adversarial examples, i.e., input diversity and gradient normalization, into visual prompting. These techniques improve optimization and enable the prompt to generalize better. We provide extensive experimental results to demonstrate the effectiveness of our method. Using a CLIP model, our prompting method sets a new record of 82.8% average accuracy across 12 popular classification datasets, substantially surpassing the prior art by +5.6%. It is worth noting that this prompting performance already outperforms linear probing by +2.1% and can even match fully fine-tuning in certain datasets. In addition, our prompting method shows competitive performance across different data scales and against distribution shifts. The code is publicly available at https://github.com/UCSC-VLAA/EVP.
翻訳日:2023-03-30 17:56:08 公開日:2023-03-29
# 結合部分微分方程式に対する結合型マルチウェーブレットニューラル演算子学習

Coupled Multiwavelet Neural Operator Learning for Coupled Partial Differential Equations ( http://arxiv.org/abs/2303.02304v2 )

ライセンス: Link先を確認
Xiongye Xiao, Defu Cao, Ruochen Yang, Gaurav Gupta, Gengshuo Liu, Chenzhong Yin, Radu Balan, Paul Bogdan(参考訳) 結合偏微分方程式(英語版)(pdes)は、多くの物理過程の複雑なダイナミクスをモデル化する上で重要なタスクである。 近年、ニューラルネットワークは、積分核を直接フーリエ/ウェーブレット空間で学習することでpdesを解く能力を示しており、結合pdesを解くのは、関数間の結合写像を扱うことに依存する。 そこで本研究では,多重ウェーブレット分解とウェーブレット空間の再構成の過程において結合された積分核を分離することにより,textit{coupled multiwavelets neural operator} (cmwno) 学習方式を提案する。 提案モデルでは,Gray-Scott (GS) 方程式や非局所平均場ゲーム (MFG) 問題を含む結合型 PDE の解法において,従来の学習ベースの解法に比べて精度が大幅に向上する。 実験結果によると, 提案モデルでは, 最先端モデルと比較すると, 相対的な$L$2の誤差に対して2\times \sim 4\times$改善率を示す。

Coupled partial differential equations (PDEs) are key tasks in modeling the complex dynamics of many physical processes. Recently, neural operators have shown the ability to solve PDEs by learning the integral kernel directly in Fourier/Wavelet space, so the difficulty for solving the coupled PDEs depends on dealing with the coupled mappings between the functions. Towards this end, we propose a \textit{coupled multiwavelets neural operator} (CMWNO) learning scheme by decoupling the coupled integral kernels during the multiwavelet decomposition and reconstruction procedures in the Wavelet space. The proposed model achieves significantly higher accuracy compared to previous learning-based solvers in solving the coupled PDEs including Gray-Scott (GS) equations and the non-local mean field game (MFG) problem. According to our experimental results, the proposed model exhibits a $2\times \sim 4\times$ improvement relative $L$2 error compared to the best results from the state-of-the-art models.
翻訳日:2023-03-30 17:49:36 公開日:2023-03-29
# gbmst:粒状球計算に基づく効率的な最小スパンディングツリークラスタリング

GBMST: An Efficient Minimum Spanning Tree Clustering Based on Granular-Ball Computing ( http://arxiv.org/abs/2303.01082v2 )

ライセンス: Link先を確認
Jiang Xie, Shuyin Xia, Guoyin Wang and Xinbo Gao(参考訳) 既存のクラスタリング手法のほとんどは、各データの距離や密度などの情報の単一の粒度に基づいている。 この最もきめ細かいアプローチは、通常非効率でノイズの影響を受けやすい。 そこで本研究では,多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。 粗粒粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装し,アウトレーラの影響を大幅に回避し,MSTの構築プロセスの高速化を図る。 いくつかのデータセットの実験結果はアルゴリズムの威力を示している。 すべてのコードはhttps://github.com/xjnine/GBMSTでリリースされた。

Most of the existing clustering methods are based on a single granularity of information, such as the distance and density of each data. This most fine-grained based approach is usually inefficient and susceptible to noise. Therefore, we propose a clustering algorithm that combines multi-granularity Granular-Ball and minimum spanning tree (MST). We construct coarsegrained granular-balls, and then use granular-balls and MST to implement the clustering method based on "large-scale priority", which can greatly avoid the influence of outliers and accelerate the construction process of MST. Experimental results on several data sets demonstrate the power of the algorithm. All codes have been released at https://github.com/xjnine/GBMST.
翻訳日:2023-03-30 17:49:17 公開日:2023-03-29
# FuNVol: 機能的主成分とニューラルSDEを用いたマルチアセットインプリッド変動市場シミュレータ

FuNVol: A Multi-Asset Implied Volatility Market Simulator using Functional Principal Components and Neural SDEs ( http://arxiv.org/abs/2303.00859v2 )

ライセンス: Link先を確認
Vedant Choudhary, Sebastian Jaimungal, Maxime Bergeron(参考訳) 本稿では,歴史的価格に忠実な複数の資産にまたがるボラティリティ(iv)表面の系列を生成する新しい手法を提案する。 機能的データ解析と神経確率微分方程式(SDE)の組み合わせと確率積分変換ペナルティを組み合わせることで、モデルの誤特定を減らすことができる。 iv曲面と価格のジョイントダイナミクスを学ぶことは、歴史的特徴と一致し、本質的に静的な仲裁のない曲面のサブマニフォールド内に存在する市場シナリオを生み出すことを実証する。 最後に,シミュレーション表面を用いたデルタヘッジが実効P&Lと整合した利益と損失(P&L)分布を生成することを示す。

Here, we introduce a new approach for generating sequences of implied volatility (IV) surfaces across multiple assets that is faithful to historical prices. We do so using a combination of functional data analysis and neural stochastic differential equations (SDEs) combined with a probability integral transform penalty to reduce model misspecification. We demonstrate that learning the joint dynamics of IV surfaces and prices produces market scenarios that are consistent with historical features and lie within the sub-manifold of surfaces that are essentially free of static arbitrage. Finally, we demonstrate that delta hedging using the simulated surfaces generates profit and loss (P&L) distributions that are consistent with realised P&Ls.
翻訳日:2023-03-30 17:48:58 公開日:2023-03-29
# すべての木の混合物

Mixtures of All Trees ( http://arxiv.org/abs/2302.14202v2 )

ライセンス: Link先を確認
Nikil Roashan Selvam, Honghua Zhang, Guy Van den Broeck(参考訳) 木型のグラフィカルモデルは、そのトラクタビリティのために広く利用されている。 しかし、特定の疎結合構造にコミットする必要があるため、残念ながら表現力がない。 我々は、すべての木々の混合と呼ばれる新しい生成モデルのクラスを提案する:すなわち、すべての可能な(n^{n-2}$)木型のグラフィカルモデルと、$n$変数の混合である。 本論文では,すべての木(moat)モデルの混合を(多項式サイズの表現を用いて)コンパクトにパラメータ化できることを示し,確率的勾配降下による可搬可能性計算と最適化を可能にする。 さらに,木形モデルのトラクタビリティを活用することで,理論解析により,MoATモデルにおける限界の正確な計算がNPハードであることを示唆するにもかかわらず,高速収束条件付きサンプリングアルゴリズムを考案した。 実証的に、MoATは、隠れたChow-Liuツリーを含む強力な確率モデルと比較した場合、密度推定ベンチマークの最先端のパフォーマンスを達成する。

Tree-shaped graphical models are widely used for their tractability. However, they unfortunately lack expressive power as they require committing to a particular sparse dependency structure. We propose a novel class of generative models called mixtures of all trees: that is, a mixture over all possible ($n^{n-2}$) tree-shaped graphical models over $n$ variables. We show that it is possible to parameterize this Mixture of All Trees (MoAT) model compactly (using a polynomial-size representation) in a way that allows for tractable likelihood computation and optimization via stochastic gradient descent. Furthermore, by leveraging the tractability of tree-shaped models, we devise fast-converging conditional sampling algorithms for approximate inference, even though our theoretical analysis suggests that exact computation of marginals in the MoAT model is NP-hard. Empirically, MoAT achieves state-of-the-art performance on density estimation benchmarks when compared against powerful probabilistic models including hidden Chow-Liu Trees.
翻訳日:2023-03-30 17:48:44 公開日:2023-03-29
# 言語誘導サンプリングによる視覚表現の学習

Learning Visual Representations via Language-Guided Sampling ( http://arxiv.org/abs/2302.12248v2 )

ライセンス: Link先を確認
Mohamed El Banani, Karan Desai, Justin Johnson(参考訳) オブジェクトは多くのコンテキストで現れるかもしれないが、我々はそれを限られた方法で記述することが多い。 言語は、概念を表現し、伝達するために視覚的なバリエーションを抽象化することができる。 この直観に基づいて,視覚的表現学習の代替手法を提案する。言語類似性と意味的に類似した画像ペアを対比学習に利用する。 本手法は,手作業による拡張や学習クラスタではなく,言語類似性を用いてビューペアをサンプリングすることで,画像に基づくコントラスト学習から分岐する。 また,本手法は,学習のガイドとして事前学習された言語モデルに頼ることで,画像テキストのコントラスト学習と異なる。 一連の実験を通して,言語誘導学習は画像ベースや画像テキスト表現学習よりも優れた特徴をもたらすことを示す。

Although an object may appear in numerous contexts, we often describe it in a limited number of ways. Language allows us to abstract away visual variation to represent and communicate concepts. Building on this intuition, we propose an alternative approach to visual representation learning: using language similarity to sample semantically similar image pairs for contrastive learning. Our approach diverges from image-based contrastive learning by sampling view pairs using language similarity instead of hand-crafted augmentations or learned clusters. Our approach also differs from image-text contrastive learning by relying on pre-trained language models to guide the learning rather than directly minimizing a cross-modal loss. Through a series of experiments, we show that language-guided learning yields better features than image-based and image-text representation learning approaches.
翻訳日:2023-03-30 17:48:28 公開日:2023-03-29
# ChatGPTのロバスト性について:敵対的・アウト・オブ・ディストリビューション的視点

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective ( http://arxiv.org/abs/2302.12095v4 )

ライセンス: Link先を確認
Jindong Wang, Xixu Hu, Wenxin Hou, Hao Chen, Runkai Zheng, Yidong Wang, Linyi Yang, Haojun Huang, Wei Ye, Xiubo Geng, Binxin Jiao, Yue Zhang, Xing Xie(参考訳) ChatGPTはOpenAIが最近リリースしたチャットボットサービスで、ここ数ヶ月で注目を集めている。 ChatGPTの様々な側面の評価は行われているが、その堅牢性、すなわち予期せぬ入力のパフォーマンスは、まだ一般には明らかではない。 ロバストネスは、特に安全クリティカルなアプリケーションにおいて、責任を負うAIにおいて特に懸念される。 本稿では,ChatGPTの強靭性について,敵対的かつアウト・オブ・ディストリビューション(OOD)の観点から徹底的に評価する。 そこで我々は,AdvGLUE と ANLI ベンチマークを用いて,敵対的堅牢性の評価を行い,Flipkart レビューと DDXPlus による OOD 評価を行った。 いくつかの一般的な基礎モデルをベースラインとして選択する。 その結果,ChatGPTは,ほとんどの対人・OOD分類・翻訳タスクにおいて一貫した優位性を示した。 しかし、絶対的な性能は完璧とは程遠いため、敵とOODの堅牢性は基礎モデルにとって重要な脅威である。 さらに,チャットgptは対話関連テキストの理解において驚くべき性能を示し,決定的な回答ではなく,医学的課題に対して非公式な提案を行う傾向がみられた。 最後に,研究の方向性について詳細な議論を行う。

ChatGPT is a recent chatbot service released by OpenAI and is receiving increasing attention over the past few months. While evaluations of various aspects of ChatGPT have been done, its robustness, i.e., the performance to unexpected inputs, is still unclear to the public. Robustness is of particular concern in responsible AI, especially for safety-critical applications. In this paper, we conduct a thorough evaluation of the robustness of ChatGPT from the adversarial and out-of-distribution (OOD) perspective. To do so, we employ the AdvGLUE and ANLI benchmarks to assess adversarial robustness and the Flipkart review and DDXPlus medical diagnosis datasets for OOD evaluation. We select several popular foundation models as baselines. Results show that ChatGPT shows consistent advantages on most adversarial and OOD classification and translation tasks. However, the absolute performance is far from perfection, which suggests that adversarial and OOD robustness remains a significant threat to foundation models. Moreover, ChatGPT shows astounding performance in understanding dialogue-related texts and we find that it tends to provide informal suggestions for medical tasks instead of definitive answers. Finally, we present in-depth discussions of possible research directions.
翻訳日:2023-03-30 17:48:08 公開日:2023-03-29
# 医用画像の深部強化学習におけるコアセットを用いた選択的リプレイ圧縮

Selective experience replay compression using coresets for lifelong deep reinforcement learning in medical imaging ( http://arxiv.org/abs/2302.11510v3 )

ライセンス: Link先を確認
Guangyao Zheng, Samson Zhou, Vishwa S. Parekh, Michael A. Jacobs, Vladimir Braverman(参考訳) 選択経験リプレイは、生涯学習と深層強化学習を統合するための一般的な戦略である。 Selective Experience Replayは、過去のタスクから選択した経験をリカウントして、破滅的な忘れ物を避けることを目的としている。 さらに、選択的なエクスペリエンスリプレイベースのテクニックはモデル非依存であり、さまざまなモデル間でエクスペリエンスを共有することができる。 しかしながら、これまでのすべてのタスクからの経験を格納することで、選択的な経験を用いた生涯学習は、タスク数の増加に伴って計算コストが非常に高く非現実的になる。 そこで我々は,選択的なエクスペリエンス再生のためのバッファを圧縮する,報酬分布保存コアセット圧縮手法を提案する。 左膝蓋,左腎,右転子,左肺,脾臓の局所化を目的として,脳腫瘍セグメント化(BRATS)データセットのコアセット圧縮技術の評価を行った。 10種類の異なる脳MR画像環境でトレーニングしたコアセット寿命学習モデルでは,10倍の圧縮率で平均画素誤差距離12.93の心室局所化性能が良好であった。 一方、従来の生涯学習モデルは、平均画素距離10.87の心室を局所化した。 同様に、全身mriで訓練されたcoreset生涯学習モデルは、10倍の圧縮コアセット生涯学習モデルと従来の生涯学習モデルとの間に有意差(p=0.28)を示さなかった。 圧縮された10xモデルの平均ピクセル距離は25.30であり、従来の生涯学習モデルでは19.24である。 その結果,coresetベースのerb圧縮方式が,性能低下を伴わずに圧縮できる可能性が示唆された。

Selective experience replay is a popular strategy for integrating lifelong learning with deep reinforcement learning. Selective experience replay aims to recount selected experiences from previous tasks to avoid catastrophic forgetting. Furthermore, selective experience replay based techniques are model agnostic and allow experiences to be shared across different models. However, storing experiences from all previous tasks make lifelong learning using selective experience replay computationally very expensive and impractical as the number of tasks increase. To that end, we propose a reward distribution-preserving coreset compression technique for compressing experience replay buffers stored for selective experience replay. We evaluated the coreset compression technique on the brain tumor segmentation (BRATS) dataset for the task of ventricle localization and on the whole-body MRI for localization of left knee cap, left kidney, right trochanter, left lung, and spleen. The coreset lifelong learning models trained on a sequence of 10 different brain MR imaging environments demonstrated excellent performance localizing the ventricle with a mean pixel error distance of 12.93 for the compression ratio of 10x. In comparison, the conventional lifelong learning model localized the ventricle with a mean pixel distance of 10.87. Similarly, the coreset lifelong learning models trained on whole-body MRI demonstrated no significant difference (p=0.28) between the 10x compressed coreset lifelong learning models and conventional lifelong learning models for all the landmarks. The mean pixel distance for the 10x compressed models across all the landmarks was 25.30, compared to 19.24 for the conventional lifelong learning models. Our results demonstrate that the potential of the coreset-based ERB compression method for compressing experiences without a significant drop in performance.
翻訳日:2023-03-30 17:47:40 公開日:2023-03-29
# データガバナンス法に関する考察

Reflections on the Data Governance Act ( http://arxiv.org/abs/2302.09944v2 )

ライセンス: Link先を確認
Jukka Ruohonen and Sini Mickelsson(参考訳) 欧州連合(EU)は、デジタル主権という傘の下に新たな戦略を模索している。 データはこの戦略の重要な要素です。 このため、2022年に特定のデータガバナンス法が制定された。 この新たな規制は、公共部門機関が保持するデータの再利用と、データ利他主義のラベルの下でのデータの自発的共有という2つの考え方に基づいている。 この短い解説は、新しい規制の主な内容についてレビューする。 レビューによると、潜在的な課題についてもいくつかのポイントが挙げられている。

The European Union (EU) has been pursuing a new strategy under the umbrella label of digital sovereignty. Data is an important element in this strategy. To this end, a specific Data Governance Act was enacted in 2022. This new regulation builds upon two ideas: reuse of data held by public sector bodies and voluntary sharing of data under the label of data altruism. This short commentary reviews the main content of the new regulation. Based on the review, a few points are also raised about potential challenges.
翻訳日:2023-03-30 17:47:12 公開日:2023-03-29
# 時間的補間は、動的ニューラルラジアンス場に必要なもの

Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2302.09311v2 )

ライセンス: Link先を確認
Sungheon Park, Minjung Son, Seokhwan Jang, Young Chun Ahn, Ji-Yeon Kim, Nahyup Kang(参考訳) 時間的補間はしばしば動的シーンにおいて意味のある表現を学ぶために重要な役割を果たす。 本稿では,特徴ベクトルの時間的補間に基づく動的シーンの時空間的神経放射場を訓練する新しい手法を提案する。 2つの特徴補間法は、基盤となる表現、ニューラルネットワークまたはグリッドに依存する。 ニューラル表現では、複数のニューラルネットワークモジュールを介して時空間入力から特徴を抽出し、時間フレームに基づいてそれらを補間する。 提案するマルチレベル特徴補間ネットワークは、短期的・長期的両方の特徴を効果的に捉える。 グリッド表現では、時空機能は4次元ハッシュグリッドを通じて学習され、トレーニング時間を著しく短縮する。 グリッド表現は、レンダリング品質を維持しながら、以前のニューラルネットベースの手法よりも100倍以上の高速なトレーニング速度を示す。 静的特徴と動的特徴を結合し、単純な滑らかさ項を追加することにより、提案モデルの性能をさらに向上させる。 モデルアーキテクチャの単純さにもかかわらず,我々はニューラルネットワークのレンダリング品質とグリッド表現のトレーニング速度の両方において最先端の性能を達成した。

Temporal interpolation often plays a crucial role to learn meaningful representations in dynamic scenes. In this paper, we propose a novel method to train spatiotemporal neural radiance fields of dynamic scenes based on temporal interpolation of feature vectors. Two feature interpolation methods are suggested depending on underlying representations, neural networks or grids. In the neural representation, we extract features from space-time inputs via multiple neural network modules and interpolate them based on time frames. The proposed multi-level feature interpolation network effectively captures features of both short-term and long-term time ranges. In the grid representation, space-time features are learned via four-dimensional hash grids, which remarkably reduces training time. The grid representation shows more than 100 times faster training speed than the previous neural-net-based methods while maintaining the rendering quality. Concatenating static and dynamic features and adding a simple smoothness term further improve the performance of our proposed models. Despite the simplicity of the model architectures, our method achieved state-of-the-art performance both in rendering quality for the neural representation and in training speed for the grid representation.
翻訳日:2023-03-30 17:47:06 公開日:2023-03-29
# Weisfeiler-Lehmanテストによる部分グラフGNNの完全表現性階層

A Complete Expressiveness Hierarchy for Subgraph GNNs via Subgraph Weisfeiler-Lehman Tests ( http://arxiv.org/abs/2302.07090v2 )

ライセンス: Link先を確認
Bohang Zhang, Guhao Feng, Yiheng Du, Di He, Liwei Wang(参考訳) 近年,GNNは表現型グラフニューラルネットワーク(GNN)を開発する上で重要な方向として現れている。 多数のアーキテクチャが提案されているが、これまでのところ、様々な設計パラダイムが表現力の観点からどのように異なるかは限定的であり、アーキテクチャの複雑さを最小限に抑えながら、設計原理が最大限表現性を達成するかは明確ではない。 これらの基本的な問題に対処するため,本論文では,SWL (Subgraph Weisfeiler-Lehman Tests) のレンズを用いた一般ノードベースサブグラフGNNの体系的研究を行う。 我々の中心的な成果は、厳密に表現性を高めたSWLの完全な階層を構築することである。 具体的には、任意のノードベースの部分グラフ GNN が6つのSWL同値類のうちの1つに該当することを証明し、その中で$\mathsf{SSWL}$ が最大表現力を達成する。 また、グラフ距離の符号化や双連結性といった実用的表現性の観点から、これらの同値類がどのように異なるかについても検討する。 さらに、WLの局所化バージョンとFolklore WL(FWL)テストとの密接な関係を確立することにより、全てのSWLアルゴリズムの厳密な表現性上限を与える。 この結果から,既存のサブグラフGNNのパワーを把握し,新しいアーキテクチャの設計を導くとともに,2-FWLテストに固有のギャップを明らかにすることで,その限界を指摘した。 最後に、$\mathsf{SSWL}$-inspired subgraph GNNsは、非常に単純であるにもかかわらず、複数のベンチマークで事前アーキテクチャを著しく上回ることを示した。

Recently, subgraph GNNs have emerged as an important direction for developing expressive graph neural networks (GNNs). While numerous architectures have been proposed, so far there is still a limited understanding of how various design paradigms differ in terms of expressive power, nor is it clear what design principle achieves maximal expressiveness with minimal architectural complexity. To address these fundamental questions, this paper conducts a systematic study of general node-based subgraph GNNs through the lens of Subgraph Weisfeiler-Lehman Tests (SWL). Our central result is to build a complete hierarchy of SWL with strictly growing expressivity. Concretely, we prove that any node-based subgraph GNN falls into one of the six SWL equivalence classes, among which $\mathsf{SSWL}$ achieves the maximal expressive power. We also study how these equivalence classes differ in terms of their practical expressiveness such as encoding graph distance and biconnectivity. Furthermore, we give a tight expressivity upper bound of all SWL algorithms by establishing a close relation with localized versions of WL and Folklore WL (FWL) tests. Our results provide insights into the power of existing subgraph GNNs, guide the design of new architectures, and point out their limitations by revealing an inherent gap with the 2-FWL test. Finally, experiments demonstrate that $\mathsf{SSWL}$-inspired subgraph GNNs can significantly outperform prior architectures on multiple benchmarks despite great simplicity.
翻訳日:2023-03-30 17:46:49 公開日:2023-03-29
# ChatGPT と GPT-4 を用いた標準言語へのラジオロジーレポートの翻訳とプロンプト学習:結果,限界,可能性

Translating Radiology Reports into Plain Language using ChatGPT and GPT-4 with Prompt Learning: Promising Results, Limitations, and Potential ( http://arxiv.org/abs/2303.09038v3 )

ライセンス: Link先を確認
Qing Lyu, Josh Tan, Michael E. Zapadka, Janardhana Ponnatapura, Chuang Niu, Kyle J. Myers, Ge Wang, Christopher T. Whitlow(参考訳) ChatGPTと呼ばれる大きな言語モデルは、人間のような表現と推論能力のために広く注目を集めている。 本研究は,ChatGPTを用いて放射線学報告を患者や医療提供者にとって平易な言語に翻訳し,医療改善のための教育を行うための実験において,ChatGPTの有効性を検討するものである。 2月上旬に62例の低用量胸部CT肺がん検診と76例の脳MRI転移検診検査を施行した。 放射線科医による評価によれば、chatgptは5点システムで平均4.27のスコアで放射線報告書を平易な言語に翻訳することに成功した。 ChatGPTの提案は、医師とのフォローアップを維持し、症状を綿密に監視するなど全般的に関係があり、ChatGPT全体の138例のうち約37%が、報告書の調査結果に基づいて具体的な提案を行っている。 ChatGPTはまた、時折単純化された情報や無視された情報によって応答のランダム性を示す。 さらに、ChatGPTの結果を、新たにリリースされた大型モデルGPT-4と比較し、GPT-4が翻訳レポートの品質を大幅に向上できることを示した。 以上の結果から, 臨床教育における大規模言語モデルの利用は可能であり, 限界に対処し, ポテンシャルを最大化するためには, さらなる努力が必要である。

The large language model called ChatGPT has drawn extensively attention because of its human-like expression and reasoning abilities. In this study, we investigate the feasibility of using ChatGPT in experiments on using ChatGPT to translate radiology reports into plain language for patients and healthcare providers so that they are educated for improved healthcare. Radiology reports from 62 low-dose chest CT lung cancer screening scans and 76 brain MRI metastases screening scans were collected in the first half of February for this study. According to the evaluation by radiologists, ChatGPT can successfully translate radiology reports into plain language with an average score of 4.27 in the five-point system with 0.08 places of information missing and 0.07 places of misinformation. In terms of the suggestions provided by ChatGPT, they are general relevant such as keeping following-up with doctors and closely monitoring any symptoms, and for about 37% of 138 cases in total ChatGPT offers specific suggestions based on findings in the report. ChatGPT also presents some randomness in its responses with occasionally over-simplified or neglected information, which can be mitigated using a more detailed prompt. Furthermore, ChatGPT results are compared with a newly released large model GPT-4, showing that GPT-4 can significantly improve the quality of translated reports. Our results show that it is feasible to utilize large language models in clinical education, and further efforts are needed to address limitations and maximize their potential.
翻訳日:2023-03-30 17:40:30 公開日:2023-03-29
# クラスガイド画像から画像への拡散:クラスラベルを用いたBrightfield画像からの細胞ペイント

Class-Guided Image-to-Image Diffusion: Cell Painting from Brightfield Images with Class Labels ( http://arxiv.org/abs/2303.08863v2 )

ライセンス: Link先を確認
Jan Oscar Cross-Zamirski and Praveen Anand and Guy Williams and Elizabeth Mouchet and Yinhai Wang and Carola-Bibiane Sch\"onlieb(参考訳) クラスラベルの形で無料または安価なメタデータを用いた画像から画像への再構成問題は、生物学的および医学的な画像領域にしばしば現れる。 既存のテキストガイドやスタイル転送によるイメージから画像へのアプローチは、追加情報が離散クラスとして提供されるデータセットには変換されない。 本稿では,イメージ・ツー・イメージとクラス誘導型拡散確率モデルを組み合わせたモデルを導入,実装する。 薬物発見に使用される顕微鏡画像の実際のデータセットに、メタデータラベルを組み込まずにモデルをトレーニングする。 関連ラベルを用いた画像から画像への拡散特性を探索することにより,クラス誘導画像から画像への拡散により,再構成画像の有意義なコンテンツが向上し,非誘導モデルに勝ることを示す。

Image-to-image reconstruction problems with free or inexpensive metadata in the form of class labels appear often in biological and medical image domains. Existing text-guided or style-transfer image-to-image approaches do not translate to datasets where additional information is provided as discrete classes. We introduce and implement a model which combines image-to-image and class-guided denoising diffusion probabilistic models. We train our model on a real-world dataset of microscopy images used for drug discovery, with and without incorporating metadata labels. By exploring the properties of image-to-image diffusion with relevant labels, we show that class-guided image-to-image diffusion can improve the meaningful content of the reconstructed images and outperform the unguided model in useful downstream tasks.
翻訳日:2023-03-30 17:40:02 公開日:2023-03-29
# 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデル

An End-to-End Multi-Task Learning Model for Image-based Table Recognition ( http://arxiv.org/abs/2303.08648v2 )

ライセンス: Link先を確認
Nam Tuan Ly and Atsuhiro Takasu(参考訳) 画像に基づくテーブル認識は、テーブルスタイルの多様性とテーブル構造の複雑さのために難しい課題である。 従来の手法のほとんどは、問題をテーブル構造認識とセルコンテント認識という2つの別々のサブプロブレムに分割する非エンドツーエンドのアプローチに焦点を合わせており、2つの別々のシステムを使って各サブプロブレムを独立して解決しようとする。 本稿では,画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。 提案モデルは、1つの共有エンコーダ、1つの共有デコーダ、3つの分離デコーダで構成され、テーブル構造認識、セル検出、セルコンテント認識の3つのサブタスクの学習に用いられる。 システム全体を簡単に訓練し、エンドツーエンドのアプローチで推測することができる。 実験では,FinTabNetとPubTabNetの2つの大規模データセットを用いて提案モデルの性能を評価する。 実験結果から,提案モデルがすべてのベンチマークデータセットにおいて最先端の手法より優れていることが示された。

Image-based table recognition is a challenging task due to the diversity of table styles and the complexity of table structures. Most of the previous methods focus on a non-end-to-end approach which divides the problem into two separate sub-problems: table structure recognition; and cell-content recognition and then attempts to solve each sub-problem independently using two separate systems. In this paper, we propose an end-to-end multi-task learning model for image-based table recognition. The proposed model consists of one shared encoder, one shared decoder, and three separate decoders which are used for learning three sub-tasks of table recognition: table structure recognition, cell detection, and cell-content recognition. The whole system can be easily trained and inferred in an end-to-end approach. In the experiments, we evaluate the performance of the proposed model on two large-scale datasets: FinTabNet and PubTabNet. The experiment results show that the proposed model outperforms the state-of-the-art methods in all benchmark datasets.
翻訳日:2023-03-30 17:39:49 公開日:2023-03-29
# オープン量子光マッター系における絡み合った時間-結晶相

Entangled time-crystal phase in an open quantum light-matter system ( http://arxiv.org/abs/2303.07725v2 )

ライセンス: Link先を確認
Robert Mattes, Igor Lesanovsky, Federico Carollo(参考訳) 時間結晶は、系の状態が極限サイクルに動的に近づく非平衡多体相である。 これらのフェーズは最近集中的な研究の焦点となっているが、量子相関をホストできるかどうかはまだはっきりしていない。 実際、ほとんどの古典的相関はこれまでに観測されており、時間結晶は実質的に古典的高エントロピー相であるように見える。 本稿では,光場を断熱的に除去した後のパラダイム的時間結晶モデルにマップする,現在の実験で実現可能な開量子光マター系の非平衡挙動について考察する。 このシステムは、2階の位相遷移線が出発する三臨界点で終端する、共存する時間結晶および定常相の双安定状態を示す。 光と物質は静止相では相関しないが、時間-結晶相は量子的および古典的両方の二部相関を特徴とする。 我々の研究は、集合的開量子系における時間結晶相は、絡み合いを含む量子相関を維持でき、従って古典的多体相以上であることを明らかにした。

Time-crystals are nonequilibrium many-body phases in which the state of the system dynamically approaches a limit cycle. While these phases are recently in the focus of intensive research, it is still far from clear whether they can host quantum correlations. In fact, mostly classical correlations have been observed so far and time-crystals appear to be effectively classical high-entropy phases. Here, we consider the nonequilibrium behavior of an open quantum light-matter system, realizable in current experiments, which maps onto a paradigmatic time-crystal model after an adiabatic elimination of the light field. The system displays a bistable regime, with coexistent time-crystal and stationary phases, terminating at a tricritical point from which a second-order phase transition line departs. While light and matter are uncorrelated in the stationary phase, the time-crystal phase features bipartite correlations, both of quantum and classical nature. Our work unveils that time-crystal phases in collective open quantum systems can sustain quantum correlations, including entanglement, and are thus more than effectively classical many-body phases.
翻訳日:2023-03-30 17:39:30 公開日:2023-03-29
# I$^2$-SDF: 内因性屋内シーンの再構築とニューラルSDFにおけるレイトレーシングによる編集

I$^2$-SDF: Intrinsic Indoor Scene Reconstruction and Editing via Raytracing in Neural SDFs ( http://arxiv.org/abs/2303.07634v2 )

ライセンス: Link先を確認
Jingsen Zhu, Yuchi Huo, Qi Ye, Fujun Luan, Jifan Li, Dianbing Xi, Lisha Wang, Rui Tang, Wei Hua, Hujun Bao, Rui Wang(参考訳) 本研究では,ニューラルサインされた距離場(SDFs)上でのモンテカルロ線トレーシングを用いた室内シーン再構成と編集のための新しい手法であるI$^2$-SDFを提案する。 我々は,多視点画像から基本形状,入射放射率,材料を総合的に復元する。 大規模屋内シーンの再現性を大幅に向上させるため,細粒度小物体に対する新しい気泡損失と誤り誘導適応サンプリング方式を導入する。 さらに, 空間的に変化するシーンの空間的変化を, 表面的, 微分可能なモンテカルロ線トレーシングとエミッタセマンティックセグメンテーションを通じて, シーンの空間的に変化する素材に分解することを提案する。 定性的かつ定量的な実験を通じて,室内のシーン再構成,新しいビュー合成,シーン編集において,最先端のベースラインに比べて優れた品質を示す。

In this work, we present I$^2$-SDF, a new method for intrinsic indoor scene reconstruction and editing using differentiable Monte Carlo raytracing on neural signed distance fields (SDFs). Our holistic neural SDF-based framework jointly recovers the underlying shapes, incident radiance and materials from multi-view images. We introduce a novel bubble loss for fine-grained small objects and error-guided adaptive sampling scheme to largely improve the reconstruction quality on large-scale indoor scenes. Further, we propose to decompose the neural radiance field into spatially-varying material of the scene as a neural field through surface-based, differentiable Monte Carlo raytracing and emitter semantic segmentations, which enables physically based and photorealistic scene relighting and editing applications. Through a number of qualitative and quantitative experiments, we demonstrate the superior quality of our method on indoor scene reconstruction, novel view synthesis, and scene editing compared to state-of-the-art baselines.
翻訳日:2023-03-30 17:39:11 公開日:2023-03-29
# システム環境量子モデルの完全ダイナミクスに対する複素離散化近似

Complex Discretization approximation for the full dynamics of system-environment quantum models ( http://arxiv.org/abs/2303.06584v2 )

ライセンス: Link先を確認
H. T. Cui, Y. A. Yan, M. Qin, and X. X. Yi(参考訳) 連続体における環境の離散化近似法は再帰性に悩まされ、開放力学のシミュレーションを非効率にする。 この問題に対処するため、複素ガウス二次方程式を導入して離散化近似を複素平面に一般化する。 結果として得られる実効ハミルトニアンは、系の散逸ダイナミクスのために非エルミート的である。 図解としては、2つの完全に解決可能なモデルにおける開力学と、一般化された Aubry-Andr\'{e}-Harper モデルにおける単励起開力学をそれぞれ方法によって検証する。 その結果,環境中の複雑な離散モードの発生により,再帰性が大幅に圧縮できることが判明した。 したがって、2つのモデルのオープンダイナミクスを高い効率と精度でシミュレートすることができる。

The method of discretization approximation for the environment in continuum suffers from the recurrence, that makes the simulation of the open dynamics inefficient. In order to tackle this problem, the discretization approximation is generalized into the complex plane by introducing complex Gauss quadratures in this paper. The resulting effective Hamiltonian is thus non-Hermitian due to the dissipative dynamics of system. As illustrations, the open dynamics in two exactly solvable models, dephasing model and the single-excitation open dynamics in the generalized Aubry-Andr\'{e}-Harper model, is checked respectively by the method. It is found that the recurrence can be compressed greatly due to the occurrence of complex discrete modes in environment. Thus, the open dynamics in the two models can be simulated in high efficiency and precision.
翻訳日:2023-03-30 17:38:47 公開日:2023-03-29
# 論理的異常検出のための意味的ボトルネックとグローバルローカル対応の学習

Learning Global-Local Correspondence with Semantic Bottleneck for Logical Anomaly Detection ( http://arxiv.org/abs/2303.05768v2 )

ライセンス: Link先を確認
Haiming Yao, Wenyong Yu, Wei Luo, Zhenfeng Qiang, Donghao Luo, Xiaotian Zhang(参考訳) 本稿では,論理的制約を伴う視覚異常検出のためのGlobal-Local Cor correspondingence Framework (GLCF) という新しいフレームワークを提案する。 視覚異常検出は、産業的異常検出や医療疾患の診断など、様々な実世界の応用において活発な研究領域となっている。 しかし、既存のほとんどの手法は局所的な構造的変性異常の同定に重点を置いており、しばしば論理的制約を含む高レベルの機能異常の検出に失敗する。 この問題に対処するために,構造異常を検出するローカルブランチと,論理異常を検出するグローバルブランチからなる2分岐方式を提案する。 局所的グローバル特徴対応を容易にするために,視覚トランスフォーマによって実現される新しい意味的ボトルネックを提案する。 さらに,各ブランチの特徴推定ネットワークを別途開発し,異常を検出する。 提案フレームワークは,産業用データセット,mvtec ad,mvtec loco ad,retinal-oct medical datasetなどのベンチマークを用いて検証を行う。 実験の結果,本手法は既存の手法,特に論理異常の検出において優れていた。

This paper presents a novel framework, named Global-Local Correspondence Framework (GLCF), for visual anomaly detection with logical constraints. Visual anomaly detection has become an active research area in various real-world applications, such as industrial anomaly detection and medical disease diagnosis. However, most existing methods focus on identifying local structural degeneration anomalies and often fail to detect high-level functional anomalies that involve logical constraints. To address this issue, we propose a two-branch approach that consists of a local branch for detecting structural anomalies and a global branch for detecting logical anomalies. To facilitate local-global feature correspondence, we introduce a novel semantic bottleneck enabled by the visual Transformer. Moreover, we develop feature estimation networks for each branch separately to detect anomalies. Our proposed framework is validated using various benchmarks, including industrial datasets, Mvtec AD, Mvtec Loco AD, and the Retinal-OCT medical dataset. Experimental results show that our method outperforms existing methods, particularly in detecting logical anomalies.
翻訳日:2023-03-30 17:38:15 公開日:2023-03-29
# 超低モード容量ピエゾ機械式量子トランスデューサの設計

Design of an ultra-low mode volume piezo-optomechanical quantum transducer ( http://arxiv.org/abs/2303.03664v2 )

ライセンス: Link先を確認
Piero Chiappina, Jash Banker, Srujan Meesala, David Lake, Steven Wood, Oskar Painter(参考訳) マイクロ波から光領域への量子状態のコヒーレント変換は、量子ネットワークと分散量子コンピューティングにおいて重要な役割を果たす。 シリコンプラットフォーム上に形成したハイブリッドニオブ酸リチウムで形成した圧電オプトメカニカルデバイスの設計について,マイクロ波-光量子トランスダクションに適した設計法を提案する。 本設計は,超低モード容積ピエゾ音響キャビティと光メカニカル結晶キャビティの音響ハイブリッド化に基づいている。 ニオブ酸リチウムの強い圧電特性は、ニオブ酸リチウムと最小限の相互作用しか持たないアコースティックモードによるトランスダクションを媒介し、電気的および音響的損失が非常に低いシリコン様である。 このトランスデューサは,超伝導トランスモン量子ビットに共振結合し,パルスモードで10kHzの繰り返し速度で動作した場合に,0.5添加ノイズ量子化で35%の固有変換効率を実現することができると推定した。 このようなハイブリッドなニオブ酸リチウム-シリコントランスデューサの性能向上は、光ファイバリンクで接続された超伝導量子プロセッサ間の量子ビットの絡み合いに適している。

Coherent transduction of quantum states from the microwave to the optical domain can play a key role in quantum networking and distributed quantum computing. We present the design of a piezo-optomechanical device formed in a hybrid lithium niobate on silicon platform, that is suitable for microwave-to-optical quantum transduction. Our design is based on acoustic hybridization of an ultra-low mode volume piezoacoustic cavity with an optomechanical crystal cavity. The strong piezoelectric nature of lithium niobate allows us to mediate transduction via an acoustic mode which only minimally interacts with the lithium niobate, and is predominantly silicon-like, with very low electrical and acoustic loss. We estimate that this transducer can realize an intrinsic conversion efficiency of up to 35% with <0.5 added noise quanta when resonantly coupled to a superconducting transmon qubit and operated in pulsed mode at 10 kHz repetition rate. The performance improvement gained in such hybrid lithium niobate-silicon transducers make them suitable for heralded entanglement of qubits between superconducting quantum processors connected by optical fiber links.
翻訳日:2023-03-30 17:37:57 公開日:2023-03-29
# PreFallKD: CNN-Vitナレッジ蒸留によるプレImpact Fall検出

PreFallKD: Pre-Impact Fall Detection via CNN-ViT Knowledge Distillation ( http://arxiv.org/abs/2303.03634v3 )

ライセンス: Link先を確認
Tin-Han Chi, Kai-Chun Liu, Chia-Yeh Hsieh, Yu Tsao, Chia-Tai Chan(参考訳) 転倒事故は高齢社会において重大な問題である。 近年,多くの研究者が,重傷の予防を目的としたウェアラブル型転倒保護システムを支援するために,ディープラーニングを用いた衝突前転倒検知システムを開発した。 しかし、ほとんどの作業では、リソース制約のあるモバイルデバイスのユーザビリティと厳格なレイテンシ要件を考慮した複雑なモデルではなく、単純なニューラルネットワークモデルのみを採用した。 本研究では,cnn-vit知識蒸留による衝突前落下検出法,すなわちprefallkdを提案し,検出性能と計算複雑性のバランスをとる。 提案するprefallkdは,事前学習した教師モデル (vision transformer) から学生モデル (lightweight convolutional neural networks) へ検出知識を伝達する。 さらに,データ不均衡問題に対処するためにデータ拡張手法を適用した。 我々は、kfall publicデータセットで実験を行い、prefallkdを他の最先端モデルと比較する。 実験の結果、PreFallKDは試験期間中に学生モデルを強化し、信頼性の高いF1スコア(92.66%)とリードタイム(551.3ms)を達成した。

Fall accidents are critical issues in an aging and aged society. Recently, many researchers developed pre-impact fall detection systems using deep learning to support wearable-based fall protection systems for preventing severe injuries. However, most works only employed simple neural network models instead of complex models considering the usability in resource-constrained mobile devices and strict latency requirements. In this work, we propose a novel pre-impact fall detection via CNN-ViT knowledge distillation, namely PreFallKD, to strike a balance between detection performance and computational complexity. The proposed PreFallKD transfers the detection knowledge from the pre-trained teacher model (vision transformer) to the student model (lightweight convolutional neural networks). Additionally, we apply data augmentation techniques to tackle issues of data imbalance. We conduct the experiment on the KFall public dataset and compare PreFallKD with other state-of-the-art models. The experiment results show that PreFallKD could boost the student model during the testing phase and achieves reliable F1-score (92.66%) and lead time (551.3 ms).
翻訳日:2023-03-30 17:37:37 公開日:2023-03-29
# NEWTON:オンザフライ大規模SLAMのためのニューラルビュー中心マッピング

NEWTON: Neural View-Centric Mapping for On-the-Fly Large-Scale SLAM ( http://arxiv.org/abs/2303.13654v2 )

ライセンス: Link先を確認
Hidenobu Matsuki, Keisuke Tateno, Michael Niemeyer, Federico Tombari(参考訳) ニューラルフィールドに基づく3d表現は最近、slamシステムを含む多くの領域で採用されている。 現在のニューラルSLAMやオンラインマッピングシステムは、単純なキャプチャの存在によって印象的な結果をもたらすが、単一のニューラルネットワークモデルのみを使用するため、世界中心のマップ表現に依存している。 このような世界中心の表現を定義するには、境界や初期カメラポーズといったシーンに関する正確で静的な事前情報が必要である。 しかし、リアルタイムおよびオンザフライのシーンキャプチャアプリケーションでは、動的に変化し、実行時の観察に基づいて重要な更新を受けるため、この事前知識を固定あるいは静的と仮定することはできない。 特に大規模マッピングの文脈では、重要なカメラポーズドリフトは避けられず、ループクロージャによる補正が必要となる。 この制限を克服するために,ランタイム観測に基づいて動的にニューラルネットワークを構築するビュー中心マッピング手法NEWTONを提案する。 先行研究とは対照的に,選択したキーフレームの局所座標系において,シーンを複数のニューラルネットワークで表現することにより,ループクロージャとシーン境界更新を用いてカメラのポーズ更新を可能にする。 実験結果は,既存の世界中心のニューラルネットワークを用いたスラムシステム,特にカメラのポーズ更新を受ける大規模シーンにおいて優れた性能を示す。

Neural field-based 3D representations have recently been adopted in many areas including SLAM systems. Current neural SLAM or online mapping systems lead to impressive results in the presence of simple captures, but they rely on a world-centric map representation as only a single neural field model is used. To define such a world-centric representation, accurate and static prior information about the scene, such as its boundaries and initial camera poses, are required. However, in real-time and on-the-fly scene capture applications, this prior knowledge cannot be assumed as fixed or static, since it dynamically changes and it is subject to significant updates based on run-time observations. Particularly in the context of large-scale mapping, significant camera pose drift is inevitable, necessitating the correction via loop closure. To overcome this limitation, we propose NEWTON, a view-centric mapping method that dynamically constructs neural fields based on run-time observation. In contrast to prior works, our method enables camera pose updates using loop closures and scene boundary updates by representing the scene with multiple neural fields, where each is defined in a local coordinate system of a selected keyframe. The experimental results demonstrate the superior performance of our method over existing world-centric neural field-based SLAM systems, in particular for large-scale scenes subject to camera pose updates.
翻訳日:2023-03-30 17:31:27 公開日:2023-03-29
# DDT:ビデオからのヒューマンメッシュ回復のための拡散駆動型トランスフォーマーベースのフレームワーク

DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh Recovery from a Video ( http://arxiv.org/abs/2303.13397v2 )

ライセンス: Link先を確認
Ce Zheng, Guo-Jun Qi, Chen Chen(参考訳) human mesh recovery(hmr)は、ゲーム、人間とコンピュータのインタラクション、仮想現実など、さまざまな現実のアプリケーションに対して、豊富な人体情報を提供する。 単一の画像ベースの手法と比較して、ビデオベースの手法は、時間的情報を利用して人体の動きの先行を取り入れることで、パフォーマンスをさらに向上させることができる。 しかし、VIBEのような多対多のアプローチは、動きの滑らかさと時間的矛盾に悩まされている。 TCMRやMPS-Netのような多くの対1のアプローチは将来のフレームに依存している。 これらの課題に対処するために、ビデオベースのHMRのためのDDT(Diffusion-Driven Transformer-based framework)を紹介した。 DDTは入力シーケンスから特定の動きパターンをデコードし、動きの滑らかさと時間的一貫性を高めるように設計されている。 多数対多のアプローチとして、私たちのDDTデコーダは、すべてのフレームのヒューマンメッシュを出力します。 広範に使われているデータセット(Human3.6M, MPI-INF-3DHP, 3DPW)を用いて, DDTの有効性と有効性を示す実験を行った。

Human mesh recovery (HMR) provides rich human body information for various real-world applications such as gaming, human-computer interaction, and virtual reality. Compared to single image-based methods, video-based methods can utilize temporal information to further improve performance by incorporating human body motion priors. However, many-to-many approaches such as VIBE suffer from motion smoothness and temporal inconsistency. While many-to-one approaches such as TCMR and MPS-Net rely on the future frames, which is non-causal and time inefficient during inference. To address these challenges, a novel Diffusion-Driven Transformer-based framework (DDT) for video-based HMR is presented. DDT is designed to decode specific motion patterns from the input sequence, enhancing motion smoothness and temporal consistency. As a many-to-many approach, the decoder of our DDT outputs the human mesh of all the frames, making DDT more viable for real-world applications where time efficiency is crucial and a causal model is desired. Extensive experiments are conducted on the widely used datasets (Human3.6M, MPI-INF-3DHP, and 3DPW), which demonstrated the effectiveness and efficiency of our DDT.
翻訳日:2023-03-30 17:31:05 公開日:2023-03-29
# 野生における視覚情報抽出のための意味ポイントとしての実体のモデリング

Modeling Entities as Semantic Points for Visual Information Extraction in the Wild ( http://arxiv.org/abs/2303.13095v2 )

ライセンス: Link先を確認
Zhibo Yang, Rujiao Long, Pengfei Wang, Sibo Song, Humen Zhong, Wenqing Cheng, Xiang Bai, Cong Yao(参考訳) 近年、視覚情報抽出(vie)は、現実世界の幅広いアプリケーションによって、学界と産業の両方でますます重要になっている。 これまで、この問題に取り組むために多くの研究が提案されてきた。 しかし、これらの手法を評価するために使われるベンチマークは比較的単純であり、現実の複雑さを持つシナリオはこれらのベンチマークで完全には表現されない。 この研究の最初の貢献として、我々はVIEの新しいデータセットをキュレートしてリリースし、文書画像は実際のアプリケーションから取り出され、ぼやけや部分閉塞、印刷のシフトといった困難がとても多いという点で、より困難である。 これらの要因は情報抽出の失敗につながる可能性がある。 そこで,第2のコントリビューションとして,このような厳しい条件下で文書画像からキー情報を正確かつ堅牢に抽出する手法を提案する。 具体的には、通常、視覚情報をマルチモーダルアーキテクチャに組み込むか、テキストスポッティングとエンドツーエンドの方法で情報抽出を訓練する以前の方法とは対照的に、エンティティの中心点は、エンティティのラベリングとリンクに大いに役立つ、異なるエンティティの属性と関係を記述したセマンティック情報によって、セマンティックポイントとして明示的にモデル化します。 この分野での標準ベンチマークと提案したデータセットの広範な実験により,提案手法は従来の最先端モデルと比較して,エンティティラベリングおよびリンクの性能を大幅に向上できることを示した。 Datasetはhttps://www.modelscope.cn/datasets/damo/SIBR/summaryで入手できる。

Recently, Visual Information Extraction (VIE) has been becoming increasingly important in both the academia and industry, due to the wide range of real-world applications. Previously, numerous works have been proposed to tackle this problem. However, the benchmarks used to assess these methods are relatively plain, i.e., scenarios with real-world complexity are not fully represented in these benchmarks. As the first contribution of this work, we curate and release a new dataset for VIE, in which the document images are much more challenging in that they are taken from real applications, and difficulties such as blur, partial occlusion, and printing shift are quite common. All these factors may lead to failures in information extraction. Therefore, as the second contribution, we explore an alternative approach to precisely and robustly extract key information from document images under such tough conditions. Specifically, in contrast to previous methods, which usually either incorporate visual information into a multi-modal architecture or train text spotting and information extraction in an end-to-end fashion, we explicitly model entities as semantic points, i.e., center points of entities are enriched with semantic information describing the attributes and relationships of different entities, which could largely benefit entity labeling and linking. Extensive experiments on standard benchmarks in this field as well as the proposed dataset demonstrate that the proposed method can achieve significantly enhanced performance on entity labeling and linking, compared with previous state-of-the-art models. Dataset is available at https://www.modelscope.cn/datasets/damo/SIBR/summary.
翻訳日:2023-03-30 17:30:40 公開日:2023-03-29
# 動的2次元イオン結晶の効率的な部位分解イメージングとスピン状態検出

Efficient site-resolved imaging and spin-state detection in dynamic two-dimensional ion crystals ( http://arxiv.org/abs/2303.10801v2 )

ライセンス: Link先を確認
Robert N. Wolf, Joseph H. Pham, Julian Y. Z. Jee, Alexander Rischka, Michael J. Biercuk(参考訳) 量子コンピューティング、シミュレーション、センシングにおいて、個々の閉じ込められたイオンのスピン状態を高い忠実度で解くことは、多くの応用において重要である。 トラップ領域に100個以上のイオンを閉じ込めた大型2次元(2次元)結晶において,新しいハードウェア検出器と人工ニューラルネットワークを組み合わせた高忠実度状態判別法について報告する。 高データ速度、空間分解性、単光子感度のタイムスタンプ検出器は、ペニングトラップにおける2d結晶の効率的な1ショット検出を実行し、約25\,\mathrm{khz}$で回転する。 次に、回転結晶の残りのフレームで蛍光光子データを処理するために人工ニューラルネットワークを訓練し、イオンの位置を90〜90〜%の精度で識別する。 最後に,時間結合状態検出法を用いて平均スピン状態検出忠実度を94(1)\%$とする。 この手法は、数百個の閉じ込められたイオン量子ビットの配列における空間的および時間的相関を分析するために使用できる。

Resolving the locations and discriminating the spin states of individual trapped ions with high fidelity is critical for a large class of applications in quantum computing, simulation, and sensing. We report on a method for high-fidelity state discrimination in large two-dimensional (2D) crystals with over 100 trapped ions in a single trapping region, combining a novel hardware detector and an artificial neural network. A high-data-rate, spatially resolving, single-photon sensitive timestamping detector performs efficient single-shot detection of 2D crystals in a Penning trap, exhibiting rotation at about $25\,\mathrm{kHz}$. We then train an artificial neural network to process the fluorescence photon data in the rest frame of the rotating crystal in order to identify ion locations with a precision of $~90\%$, accounting for substantial illumination inhomogeneity across the crystal. Finally, employing a time-binned state detection method, we arrive at an average spin-state detection fidelity of $94(1)\%$. This technique can be used to analyze spatial and temporal correlations in arrays of hundreds of trapped-ion qubits.
翻訳日:2023-03-30 17:29:41 公開日:2023-03-29
# 記憶に跳躍する: 時空深層特徴合成

Leaping Into Memories: Space-Time Deep Feature Synthesis ( http://arxiv.org/abs/2303.09941v3 )

ライセンス: Link先を確認
Alexandros Stergiou and Nikos Deligiannis(参考訳) ディープラーニングモデルの成功は、顕著なビデオ理解手法による適応と採用につながった。 これらのアプローチの大部分は、内部動作と学習された表現が視覚的に解釈するのが困難である共同時空モダリティの特徴を符号化している。 モデルの内部時空間表現から映像を合成するアーキテクチャに依存しないLEAPS(LEArned Preconscious Synthesis)を提案する。 刺激映像と対象クラスを用いて固定時空モデルを生成し,無作為な雑音により初期化された映像を反復的に最適化する。 また,合成ビデオの特徴の多様性や,フレーム間の時間的コヒーレンスを改善するために,追加のレギュレータを組み込んだ。 我々は,Kineetics-400で訓練された多種多様な時空間畳み込みおよび注意に基づくアーキテクチャを逆転させることにより,LEAPSの適用性を定量的に,質的に評価する。

The success of deep learning models has led to their adaptation and adoption by prominent video understanding methods. The majority of these approaches encode features in a joint space-time modality for which the inner workings and learned representations are difficult to visually interpret. We propose LEArned Preconscious Synthesis (LEAPS), an architecture-agnostic method for synthesizing videos from the internal spatiotemporal representations of models. Using a stimulus video and a target class, we prime a fixed space-time model and iteratively optimize a video initialized with random noise. We incorporate additional regularizers to improve the feature diversity of the synthesized videos as well as the cross-frame temporal coherence of motions. We quantitatively and qualitatively evaluate the applicability of LEAPS by inverting a range of spatiotemporal convolutional and attention-based architectures trained on Kinetics-400, which to the best of our knowledge has not been previously accomplished.
翻訳日:2023-03-30 17:29:20 公開日:2023-03-29
# 1億語で訓練されたBERTがBritish National Corpusと出会う

Trained on 100 million words and still in shape: BERT meets British National Corpus ( http://arxiv.org/abs/2303.09859v2 )

ライセンス: Link先を確認
David Samuel, Andrey Kutuzov, Lilja {\O}vrelid and Erik Velldal(参考訳) 現代のマスク付き言語モデル(LM)は、ずっと大きなコーパスで訓練されているが、ここでは、低スケールのトレーニングを、控えめながら代表的でバランスのとれた、公開の英語テキストソースであるBritish National Corpusへの効果を探る。 この厳格なコーパスの事前学習は,従来のBERTモデルよりも優れた性能が得られることを示す。 このタイプのコーパスは言語モデリングベンチマークとして大きな可能性を秘めています。 この可能性を示すために,lmsの公平で再現性が高く,データ効率の良い比較研究を行い,いくつかのトレーニング目標とモデルアーキテクチャを評価し,従来の実験結果を体系的な方法で再現する。 LTG-BERTと呼ばれる最適化されたLMアーキテクチャを提案する。

While modern masked language models (LMs) are trained on ever larger corpora, we here explore the effects of down-scaling training to a modestly-sized but representative, well-balanced, and publicly available English text source -- the British National Corpus. We show that pre-training on this carefully curated corpus can reach better performance than the original BERT model. We argue that this type of corpora has great potential as a language modeling benchmark. To showcase this potential, we present fair, reproducible and data-efficient comparative studies of LMs, in which we evaluate several training objectives and model architectures and replicate previous empirical results in a systematic way. We propose an optimized LM architecture called LTG-BERT.
翻訳日:2023-03-30 17:29:04 公開日:2023-03-29
# 自動運転のためのモーションプランニング:技術の現状と今後の展望

Motion Planning for Autonomous Driving: The State of the Art and Future Perspectives ( http://arxiv.org/abs/2303.09824v3 )

ライセンス: Link先を確認
Siyu Teng, Xuemin Hu, Peng Deng, Bai Li, Yuchen Li, Dongsheng Yang, Yunfeng Ai, Lingxi Li, Long Chen, Zhe Xuanyuan, Fenghua Zhu(参考訳) 利便性の向上、安全性の優位性、潜在的な商業価値のおかげで、Intelligent Vehicle (IV) は世界中で注目を集めている。 少数の自動運転ユニコーンは、ivsは2025年までに商業的に展開可能であると主張しているが、その実装は様々な問題により小規模の検証に限定されており、そのなかには計画手法による制御コマンドや軌道の正確な計算が依然としてivsの前提条件となっている。 本稿では,パイプライン計画やエンドツーエンド計画など,最先端の計画手法の見直しを目的とする。 パイプライン手法では,拡張と最適化のメカニズムに関する議論とともに,アルゴリズムの選択に関する調査が提供される。一方,エンドツーエンド手法では,タスクのトレーニングアプローチと検証シナリオが懸念点となっている。 実験プラットフォームをレビューし、読者が適切なトレーニングと検証方法を選択できるようにする。 最後に,現在の課題と今後の方向性について述べる。 この調査で示されたサイドバイサイド比較は、レビューされた手法の強みや限界についての洞察を得るだけでなく、システムレベルの設計選択を支援する。

Thanks to the augmented convenience, safety advantages, and potential commercial value, Intelligent vehicles (IVs) have attracted wide attention throughout the world. Although a few autonomous driving unicorns assert that IVs will be commercially deployable by 2025, their implementation is still restricted to small-scale validation due to various issues, among which precise computation of control commands or trajectories by planning methods remains a prerequisite for IVs. This paper aims to review state-of-the-art planning methods, including pipeline planning and end-to-end planning methods. In terms of pipeline methods, a survey of selecting algorithms is provided along with a discussion of the expansion and optimization mechanisms, whereas in end-to-end methods, the training approaches and verification scenarios of driving tasks are points of concern. Experimental platforms are reviewed to facilitate readers in selecting suitable training and validation methods. Finally, the current challenges and future directions are discussed. The side-by-side comparison presented in this survey not only helps to gain insights into the strengths and limitations of the reviewed methods but also assists with system-level design choices.
翻訳日:2023-03-30 17:28:49 公開日:2023-03-29
# aiの誤用から社会を守る - 能力制限はいつ保証されるのか?

Protecting Society from AI Misuse: When are Restrictions on Capabilities Warranted? ( http://arxiv.org/abs/2303.09377v3 )

ライセンス: Link先を確認
Markus Anderljung and Julian Hazell(参考訳) 人工知能(AI)システムは、より有能に成長するにつれて、ますます害をもたらすために使われるようになる。 事実、AIシステムは、不正行為の自動化、人権侵害、有害な偽画像の作成、危険な毒素の特定にすでに使われ始めている。 AIの誤用を防ぐため、特定の能力に対するターゲットの介入は保証される。 これらの制限には、特定のタイプのAIモデルにアクセス可能な人、使用可能なもの、アウトプットがフィルタリングされているか、あるいはユーザにトレース可能であるか、開発に必要なリソースを制御することが含まれる。 また、危害を引き起こすのに必要なAI以外の機能に制限を加える必要があるとも主張しています。 能力制限は誤用以上の使用を減らすリスクを負うが(好ましくない誤用トレードオフに直面している)、他の介入が不十分な場合に能力への介入が保証される。 誤用(誤用連鎖)を引き起こすのに必要な特定のステップに注目し、介入が保証されているかどうかを判断する枠組みに注目し、ai誤用を減らすための介入の分類を提供する。 この推論を,新しい毒素の予測,有害な画像の作成,槍フィッシングキャンペーンの自動化という3つの例に適用する。

Artificial intelligence (AI) systems will increasingly be used to cause harm as they grow more capable. In fact, AI systems are already starting to be used to automate fraudulent activities, violate human rights, create harmful fake images, and identify dangerous toxins. To prevent some misuses of AI, we argue that targeted interventions on certain capabilities will be warranted. These restrictions may include controlling who can access certain types of AI models, what they can be used for, whether outputs are filtered or can be traced back to their user, and the resources needed to develop them. We also contend that some restrictions on non-AI capabilities needed to cause harm will be required. Though capability restrictions risk reducing use more than misuse (facing an unfavorable Misuse-Use Tradeoff), we argue that interventions on capabilities are warranted when other interventions are insufficient, the potential harm from misuse is high, and there are targeted ways to intervene on capabilities. We provide a taxonomy of interventions that can reduce AI misuse, focusing on the specific steps required for a misuse to cause harm (the Misuse Chain), and a framework to determine if an intervention is warranted. We apply this reasoning to three examples: predicting novel toxins, creating harmful images, and automating spear phishing campaigns.
翻訳日:2023-03-30 17:28:28 公開日:2023-03-29
# 注意に基づくトランスニューラルネットワークによるインフレ予測

Inflation forecasting with attention based transformer neural networks ( http://arxiv.org/abs/2303.15364v2 )

ライセンス: Link先を確認
Maximilian Tschuchnig and Petra Tschuchnig and Cornelia Ferner and Michael Gadermayr(参考訳) インフレは割当決定の主要な決定要因であり、その予測は政府や中央銀行の基本的な目標である。 しかし、その予測は低周波で説明変数が不明な高度に変動するデータに依存するため、インフレ予測は簡単な作業ではない。 古典モデルはインフレーションを予測する可能性を示しているが、ランダムウォークベンチマークを確実に打ち負かすことは難しい。 近年、(深い)ニューラルネットワークは、多くのアプリケーションで印象的な結果を示しており、新しい最先端の設定がますます増えている。 本稿では,変圧器の深部ニューラルネットワークアーキテクチャが,異なるインフレ率を予測できる可能性について検討する。 その結果,古典的時系列モデルと機械学習モデルとの比較を行った。 適応型変圧器は、平均して16実験中6実験でベースラインを上回り、調査された4回のインフレ率のうち2回で最高のスコアを示した。 この結果から,変圧器をベースとしたニューラルネットワークは,あるインフレ率と予測地平線において,古典的回帰モデルや機械学習モデルより優れることが示された。

Inflation is a major determinant for allocation decisions and its forecast is a fundamental aim of governments and central banks. However, forecasting inflation is not a trivial task, as its prediction relies on low frequency, highly fluctuating data with unclear explanatory variables. While classical models show some possibility of predicting inflation, reliably beating the random walk benchmark remains difficult. Recently, (deep) neural networks have shown impressive results in a multitude of applications, increasingly setting the new state-of-the-art. This paper investigates the potential of the transformer deep neural network architecture to forecast different inflation rates. The results are compared to a study on classical time series and machine learning models. We show that our adapted transformer, on average, outperforms the baseline in 6 out of 16 experiments, showing best scores in two out of four investigated inflation rates. Our results demonstrate that a transformer based neural network can outperform classical regression and machine learning models in certain inflation rates and forecasting horizons.
翻訳日:2023-03-30 17:20:33 公開日:2023-03-29
# カラムローアンタングル型画素合成による高効率スケール不変発電機

Efficient Scale-Invariant Generator with Column-Row Entangled Pixel Synthesis ( http://arxiv.org/abs/2303.14157v2 )

ライセンス: Link先を確認
Thuan Hoang Nguyen, Thanh Van Le, Anh Tran(参考訳) 任意のスケールの画像合成は、任意のスケールで写真リアルな画像を合成する、効率的でスケーラブルなソリューションを提供する。 しかし、既存のGANベースのソリューションは畳み込みと階層アーキテクチャに過度に依存するため、出力解像度をスケールする際、一貫性と$``$texture sticking$"$問題が発生する。 別の観点では、inrベースのジェネレータは設計によってスケール等価であるが、その巨大なメモリフットプリントと遅い推論は、大規模またはリアルタイムシステムでこれらのネットワークを採用することを妨げている。 本研究では,空間的畳み込みや粗雑な設計を使わずに,効率的かつスケール等価な新しい生成モデルである$\textbf{c}$olumn-$\textbf{r}$ow$\textbf{e}$ntangled$\textbf{p}$ixel$\textbf{s}$ynthesis (\textbf{creps}$)を提案する。 メモリフットプリントを節約し、システムをスケーラブルにするために、レイヤ毎の機能マップを$`$thick$"$カラムと行エンコーディングに分割する、新しい双方向表現を採用しました。 FFHQ、LSUN-Church、MetFaces、Flickr-Sceneryといったさまざまなデータセットの実験では、CREPSが適切なトレーニングと推論速度で任意の解像度でスケール一貫性とエイリアスのない画像を合成する能力を確認している。 コードはhttps://github.com/VinAIResearch/CREPS.comから入手できる。

Any-scale image synthesis offers an efficient and scalable solution to synthesize photo-realistic images at any scale, even going beyond 2K resolution. However, existing GAN-based solutions depend excessively on convolutions and a hierarchical architecture, which introduce inconsistency and the $``$texture sticking$"$ issue when scaling the output resolution. From another perspective, INR-based generators are scale-equivariant by design, but their huge memory footprint and slow inference hinder these networks from being adopted in large-scale or real-time systems. In this work, we propose $\textbf{C}$olumn-$\textbf{R}$ow $\textbf{E}$ntangled $\textbf{P}$ixel $\textbf{S}$ynthesis ($\textbf{CREPS}$), a new generative model that is both efficient and scale-equivariant without using any spatial convolutions or coarse-to-fine design. To save memory footprint and make the system scalable, we employ a novel bi-line representation that decomposes layer-wise feature maps into separate $``$thick$"$ column and row encodings. Experiments on various datasets, including FFHQ, LSUN-Church, MetFaces, and Flickr-Scenery, confirm CREPS' ability to synthesize scale-consistent and alias-free images at any arbitrary resolution with proper training and inference speed. Code is available at https://github.com/VinAIResearch/CREPS.
翻訳日:2023-03-30 17:20:15 公開日:2023-03-29
# 幻想的な破片:現実世界の壊れた物体とその完全なカウンターの3Dスキャンデータ

Fantastic Breaks: A Dataset of Paired 3D Scans of Real-World Broken Objects and Their Complete Counterparts ( http://arxiv.org/abs/2303.14152v2 )

ライセンス: Link先を確認
Nikolas Lamb, Cameron Palmer, Benjamin Molloy, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) 自動形状修正アプローチは現在、現実世界の損傷した形状を記述するデータセットへのアクセスを欠いている。 https://terascale-all-sensing-research-studio.github.io/fantasticbreaks)は、150個の壊れたオブジェクトに対してスキャン、防水、クリーンな3dメッシュを含むデータセット。 Fantastic Breaksには、クラスとマテリアルラベル、壊れたメッシュに結合して完全なメッシュを生成するプロキシ修復部品、手動で注釈付き破壊境界が含まれている。 フラクチャー幾何の詳細な解析により, 幾何学的および物理学的手法で生成されたフラクチャーデータセットとファンタスティックブレイクの差異を明らかにした。 合成データセットで事前学習し,ファンタスティックブレイクのサブセットで再学習した複数の学習に基づくアプローチを用いて,ファンタスティックブレイクによる形状修復実験を行った。

Automated shape repair approaches currently lack access to datasets that describe real-world damaged geometry. We present Fantastic Breaks (and Where to Find Them: https://terascale-all-sensing-research-studio.github.io/FantasticBreaks), a dataset containing scanned, waterproofed, and cleaned 3D meshes for 150 broken objects, paired and geometrically aligned with complete counterparts. Fantastic Breaks contains class and material labels, proxy repair parts that join to broken meshes to generate complete meshes, and manually annotated fracture boundaries. Through a detailed analysis of fracture geometry, we reveal differences between Fantastic Breaks and synthetic fracture datasets generated using geometric and physics-based methods. We show experimental shape repair evaluation with Fantastic Breaks using multiple learning-based approaches pre-trained with synthetic datasets and re-trained with subset of Fantastic Breaks.
翻訳日:2023-03-30 17:19:37 公開日:2023-03-29
# イベント誘導ビデオスーパーリゾリューションのための空間的暗黙的ニューラル表現の学習

Learning Spatial-Temporal Implicit Neural Representations for Event-Guided Video Super-Resolution ( http://arxiv.org/abs/2303.13767v2 )

ライセンス: Link先を確認
Yunfan Lu, Zipeng Wang, Minjie Liu, Hongjian Wang, Lin Wang(参考訳) イベントカメラは、強度変化を非同期に検知し、高いダイナミックレンジと低レイテンシでイベントストリームを生成する。 これは、挑戦的なビデオ超解像(VSR)タスクを導くためにイベントを利用する研究にインスピレーションを与えている。 本稿では,イベントの高時間分解能の利点を生かして,ランダムスケールでのVSRの実現という新たな課題に対処する試みを行う。 これは、VSRを導く際の事象の時空間的情報を表現することが困難である。 そこで本稿では,イベントの時空間補間を統合されたフレームワークでVSRに組み込む新しいフレームワークを提案する。 我々のキーとなる考え方は、探索された時空間座標とRGBフレームとイベントの両方の特徴から暗黙の神経表現を学ぶことである。 本手法は3つの部分を含む。 具体的には、Spatial-Temporal Fusion (STF)モジュールは、まずイベントとRGBフレームから3D特徴を学習する。 そして、時間フィルタ(TF)モジュールは、クエリされたタイムスタンプ近くのイベントからより明示的な動作情報をアンロックし、2D特徴を生成する。 最後に、Spatial Temporal Implicit Representation (STIR)モジュールは、これらの2つのモジュールの出力から任意の解像度でSRフレームを復元する。 さらに、空間的に整列したイベントとRGBフレームを持つ実世界のデータセットを収集する。 大規模な実験により,本手法は先行技術を大きく上回り,ランダムスケールのVSR(例えば6.5。 コードとデータセットはhttps: //vlis2022.github.io/cvpr23/egvsrで入手できる。

Event cameras sense the intensity changes asynchronously and produce event streams with high dynamic range and low latency. This has inspired research endeavors utilizing events to guide the challenging video superresolution (VSR) task. In this paper, we make the first attempt to address a novel problem of achieving VSR at random scales by taking advantages of the high temporal resolution property of events. This is hampered by the difficulties of representing the spatial-temporal information of events when guiding VSR. To this end, we propose a novel framework that incorporates the spatial-temporal interpolation of events to VSR in a unified framework. Our key idea is to learn implicit neural representations from queried spatial-temporal coordinates and features from both RGB frames and events. Our method contains three parts. Specifically, the Spatial-Temporal Fusion (STF) module first learns the 3D features from events and RGB frames. Then, the Temporal Filter (TF) module unlocks more explicit motion information from the events near the queried timestamp and generates the 2D features. Lastly, the SpatialTemporal Implicit Representation (STIR) module recovers the SR frame in arbitrary resolutions from the outputs of these two modules. In addition, we collect a real-world dataset with spatially aligned events and RGB frames. Extensive experiments show that our method significantly surpasses the prior-arts and achieves VSR with random scales, e.g., 6.5. Code and dataset are available at https: //vlis2022.github.io/cvpr23/egvsr.
翻訳日:2023-03-30 17:19:16 公開日:2023-03-29
# 状態調製と固定計測による絡み合いの検出

Detecting Entanglement by State Preparation and a Fixed Measurement ( http://arxiv.org/abs/2303.16368v1 )

ライセンス: Link先を確認
Jaemin Kim, Anindita Bera, Joonwoo Bae, Dariusz Chruscinski(参考訳) 固定的な測定設定(例えば、計算ベースでの計測)は、ネットワーク状態と呼ばれる多部量子状態を作成することで、すべての絡み合った状態を検出することができる。 いずれの場合においても, 部分的転置基準に相当し, かつ部分転置基準を超えた不飽和な転置状態を検出する非転置型ewsを構成するネットワーク状態を提案する。 状態準備による絡み合い検出は、測定ベースの量子コンピューティングのリソースであるグラフ状態のような多部状態にまで拡張することができる。 我々の結果は、例えば超伝導量子ビットの配列のような現実的なシナリオに容易に適用できる。 中間原子(または光子)で、多粒子状態と固定された測定値の調製が実験的に可能である。

It is shown that a fixed measurement setting, e.g., a measurement in the computational basis, can detect all entangled states by preparing multipartite quantum states, called network states. We present network states for both cases to construct decomposable entanglement witnesses (EWs) equivalent to the partial transpose criteria and also non-decomposable EWs that detect undistillable entangled states beyond the partial transpose criteria. Entanglement detection by state preparation can be extended to multipartite states such as graph states, a resource for measurement-based quantum computing. Our results readily apply to a realistic scenario, for instance, an array of superconducting qubits. neutral atoms, or photons, in which the preparation of a multipartite state and a fixed measurement are experimentally feasible.
翻訳日:2023-03-30 16:35:21 公開日:2023-03-29
# 状態空間モデルにおける最大確率滑らか化推定:不完全情報に基づくアプローチ

Maximum likelihood smoothing estimation in state-space models: An incomplete-information based approach ( http://arxiv.org/abs/2303.16364v1 )

ライセンス: Link先を確認
Budhi Arta Surya(参考訳) 本稿では、rauch (1963, et al. 1965) の古典的著作を再検討し、確率的状態空間システムの不完全情報/データから推定を平滑化する新しい手法を開発した。 不完全なデータのスコア関数と条件付き観測情報行列を導入し、その分布的アイデンティティを確立する。 これらの同一性を用いて、ml smoother $\widehat{x}_{k\vert n}^s =\argmax_{x_k} \log f(x_k,\widehat{x}_{k+1\vert n}^s, y_{0:n}\vert\theta)$, $k\leq n-1$ を示す。 その結果、mlのスムース化により、ml状態推定器である$\widehat{x}_k=\argmax_{x_k} \log f(x_k,y_{0:k}\vert\theta)$が$\widehat{x}_{n\vert n}^s=\widehat{x}_n$よりも低い標準誤差を持つloglikehoodの支持度が高い状態$x_k$の推定が得られる。 再帰的推定は、ML平滑化推定のために \cite{Lange} の作業を拡張する EM-勾配粒子アルゴリズムによって与えられる。 このアルゴリズムは(\cite{ramadan})em-algorithmでスムース化ができない明示的な反復更新がある。 逐次モンテカルロ法によるスコア関数と観測情報行列の評価法を開発した。 推定誤差の共分散行列に対する再帰方程式を開発し、標準誤差を算出する。 線形系の場合、ラウチ・タング・ストリーベル(rts)は、期待情報行列の逆行列であるクイック・ラオ下界と共分散行列が一致する完全効率的な平滑化状態推定器であることを示す。 さらに、RTSスムーズ化は、共分散行列の少ないカルマンフィルタと一致する。 主な結果の正確性を確認するため、数値研究が行なわれる。

This paper revisits classical works of Rauch (1963, et al. 1965) and develops a novel method for maximum likelihood (ML) smoothing estimation from incomplete information/data of stochastic state-space systems. Score function and conditional observed information matrices of incomplete data are introduced and their distributional identities are established. Using these identities, the ML smoother $\widehat{x}_{k\vert n}^s =\argmax_{x_k} \log f(x_k,\widehat{x}_{k+1\vert n}^s, y_{0:n}\vert\theta)$, $k\leq n-1$, is presented. The result shows that the ML smoother gives an estimate of state $x_k$ with more adherence of loglikehood having less standard errors than that of the ML state estimator $\widehat{x}_k=\argmax_{x_k} \log f(x_k,y_{0:k}\vert\theta)$, with $\widehat{x}_{n\vert n}^s=\widehat{x}_n$. Recursive estimation is given in terms of an EM-gradient-particle algorithm which extends the work of \cite{Lange} for ML smoothing estimation. The algorithm has an explicit iteration update which lacks in (\cite{Ramadan}) EM-algorithm for smoothing. A sequential Monte Carlo method is developed for valuation of the score function and observed information matrices. A recursive equation for the covariance matrix of estimation error is developed to calculate the standard errors. In the case of linear systems, the method shows that the Rauch-Tung-Striebel (RTS) smoother is a fully efficient smoothing state-estimator whose covariance matrix coincides with the Cram\'er-Rao lower bound, the inverse of expected information matrix. Furthermore, the RTS smoother coincides with the Kalman filter having less covariance matrix. Numerical studies are performed, confirming the accuracy of the main results.
翻訳日:2023-03-30 16:34:57 公開日:2023-03-29
# LMDA-Net:脳-コンピュータインタフェースのパラダイムと解釈可能性のための軽量多次元アテンションネットワーク

LMDA-Net:A lightweight multi-dimensional attention network for general EEG-based brain-computer interface paradigms and interpretability ( http://arxiv.org/abs/2303.16407v1 )

ライセンス: Link先を確認
Zhengqing Miao and Xin Zhang and Meirong Zhao and Dong Ming(参考訳) eegに基づく活動と状態の認識は、bciのパフォーマンスを制限する量的脳波の特徴を生成するために、事前の神経科学知識を使用する。 ニューラルネットワークベースの手法は、効果的に特徴を抽出できるが、データセット間の一般化の低さ、高い予測ボラティリティ、低モデル解釈可能性といった問題に遭遇することが多い。 そこで,我々はlmda-netと呼ばれる新しい軽量多次元アテンションネットワークを提案する。 EEG信号用に設計された2つの新しいアテンションモジュール、チャネルアテンションモジュールとディープアテンションモジュールを組み込むことで、LMDA-Netは複数の次元の特徴を効果的に統合し、様々なBCIタスクの分類性能を向上させることができる。 LMDA-Netは、運動画像(MI)やP300-Spellerパラダイムを含む4つの高インパクトな公開データセットで評価され、他の代表モデルと比較された。 実験の結果, lmda-netは, 分類精度とボラティリティの予測において他の代表的な手法よりも優れており, 300回のトレーニング期間において, データセットの最高精度を達成した。 アブレーション実験ではさらにチャネルアテンションモジュールと深さアテンションモジュールの有効性を確認した。 LMDA-Netが抽出した特徴の深い理解を容易にするために,事象関連電位(ERP)と事象関連デ同期/同期(ERD/ERS)に適したクラス固有のニューラルネットワーク特徴解釈アルゴリズムを提案する。 lmda-netの特定の層の出力をクラスアクティベーションマップを通して時間または空間領域にマッピングすることにより、得られた特徴の可視化は解釈可能な分析を提供し、神経科学における脳波時間空間分析との接続を確立することができる。 まとめると、LMDA-Netは、様々なEEGタスクの一般的なオンラインデコーディングモデルとして大きな可能性を示している。

EEG-based recognition of activities and states involves the use of prior neuroscience knowledge to generate quantitative EEG features, which may limit BCI performance. Although neural network-based methods can effectively extract features, they often encounter issues such as poor generalization across datasets, high predicting volatility, and low model interpretability. Hence, we propose a novel lightweight multi-dimensional attention network, called LMDA-Net. By incorporating two novel attention modules designed specifically for EEG signals, the channel attention module and the depth attention module, LMDA-Net can effectively integrate features from multiple dimensions, resulting in improved classification performance across various BCI tasks. LMDA-Net was evaluated on four high-impact public datasets, including motor imagery (MI) and P300-Speller paradigms, and was compared with other representative models. The experimental results demonstrate that LMDA-Net outperforms other representative methods in terms of classification accuracy and predicting volatility, achieving the highest accuracy in all datasets within 300 training epochs. Ablation experiments further confirm the effectiveness of the channel attention module and the depth attention module. To facilitate an in-depth understanding of the features extracted by LMDA-Net, we propose class-specific neural network feature interpretability algorithms that are suitable for event-related potentials (ERPs) and event-related desynchronization/synchronization (ERD/ERS). By mapping the output of the specific layer of LMDA-Net to the time or spatial domain through class activation maps, the resulting feature visualizations can provide interpretable analysis and establish connections with EEG time-spatial analysis in neuroscience. In summary, LMDA-Net shows great potential as a general online decoding model for various EEG tasks.
翻訳日:2023-03-30 16:26:19 公開日:2023-03-29
# 階層型ビデオモーメント検索とステップキャプション

Hierarchical Video-Moment Retrieval and Step-Captioning ( http://arxiv.org/abs/2303.16406v1 )

ライセンス: Link先を確認
Abhay Zala, Jaemin Cho, Satwik Kottur, Xilun Chen, Barlas O\u{g}uz, Yasher Mehdad, Mohit Bansal(参考訳) 大規模なビデオコーパスから情報を探すことへの関心が高まっている。 従来の研究は、テキストベースのビデオ検索、モーメント検索、動画要約、動画キャプションを単独で行うなど、ビデオコーパスから共同で検索して要約を生成するエンドツーエンドのセットアップなしで、関連するタスクを研究してきた。 このようなエンドツーエンドのセットアップは、例えばビデオコーパスから関連のあるビデオを見つけ、そのビデオから最も関連性の高い瞬間を抽出し、その瞬間をキャプションで重要なステップに分割するテキストベースの検索など、多くの興味深いアプリケーションを可能にする。 そこで本研究では,ヒレスト(階層的検索とステップカプセル化)データセットを提示し,階層的情報検索と教師付きビデオコーパスからの視覚的/テキスト的ステップワイズ要約をカバーする新しいベンチマークを提案する。 HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されており、1.1Kビデオはテキストクエリに関連するモーメントのアノテーションを持ち、各モーメントをキャプションとタイムスタンプ(合計8.6Kステップキャプション)を備えたキーインストラクションステップに分解する。 階層的ベンチマークは,ビデオ検索,モーメント検索,および2つの新しいモーメントセグメンテーションとステップキャプションタスクからなる。 瞬間セグメンテーションでは、モデルはビデオモーメントを命令ステップに分解し、始末境界を識別する。 ステップキャプションでは、モデルが各ステップのテキスト要約を生成する。 また、新しいベンチマークの開始点タスク特化モデルとエンドツーエンドのジョイントベースラインモデルも提示する。 ベースラインモデルには有望な結果がいくつかあるが、コミュニティによる今後の改善の余地は大きい。 プロジェクトウェブサイト: https://hirest-cvpr2023.github.io

There is growing interest in searching for information from large video corpora. Prior works have studied relevant tasks, such as text-based video retrieval, moment retrieval, video summarization, and video captioning in isolation, without an end-to-end setup that can jointly search from video corpora and generate summaries. Such an end-to-end setup would allow for many interesting applications, e.g., a text-based search that finds a relevant video from a video corpus, extracts the most relevant moment from that video, and segments the moment into important steps with captions. To address this, we present the HiREST (HIerarchical REtrieval and STep-captioning) dataset and propose a new benchmark that covers hierarchical information retrieval and visual/textual stepwise summarization from an instructional video corpus. HiREST consists of 3.4K text-video pairs from an instructional video dataset, where 1.1K videos have annotations of moment spans relevant to text query and breakdown of each moment into key instruction steps with caption and timestamps (totaling 8.6K step captions). Our hierarchical benchmark consists of video retrieval, moment retrieval, and two novel moment segmentation and step captioning tasks. In moment segmentation, models break down a video moment into instruction steps and identify start-end boundaries. In step captioning, models generate a textual summary for each step. We also present starting point task-specific and end-to-end joint baseline models for our new benchmark. While the baseline models show some promising results, there still exists large room for future improvement by the community. Project website: https://hirest-cvpr2023.github.io
翻訳日:2023-03-30 16:25:47 公開日:2023-03-29
# 固定点経路積分による位相誤差補正過程

Topological error correcting processes from fixed-point path integrals ( http://arxiv.org/abs/2303.16405v1 )

ライセンス: Link先を確認
Andreas Bauer(参考訳) 幾何学的局所チャネルと測定の動的回路としてトポロジカル量子誤り訂正符号を解析・構築するための統一パラダイムを提案する。 この目的のために、これらの回路をユークリッド時空における離散的不動点経路積分に関連付け、その基礎となる位相順序を次のように記述する: 測定結果の履歴を固定すると、位相欠陥のパターンを含む不動点経路積分が得られる。 一例として、安定化器のトーリックコード、サブシステムのトーリックコード、CSSのフロケットコードは、異なる時空格子上で同一のコードとみなすことができ、ハニカムのフロケットコードは、基底の変化の下でCSSのフロケットコードと等価であることを示す。 また,2つの誤り訂正符号(3+1$-dimensional toric codeのFloquetバージョン)と,2次元文字列-ネットパス積分に基づくFloquetライクコード(Floquet-like code)という2つの新しい誤り訂正符号を導出する。

We propose a unifying paradigm for analyzing and constructing topological quantum error correcting codes as dynamical circuits of geometrically local channels and measurements. To this end, we relate such circuits to discrete fixed-point path integrals in Euclidean spacetime, which describe the underlying topological order: If we fix a history of measurement outcomes, we obtain a fixed-point path integral carrying a pattern of topological defects. As an example, we show that the stabilizer toric code, subsystem toric code, and CSS Floquet code can be viewed as one and the same code on different spacetime lattices, and the honeycomb Floquet code is equivalent to the CSS Floquet code under a change of basis. We also use our formalism to derive two new error-correcting codes, namely a Floquet version of the $3+1$-dimensional toric code using only 2-body measurements, as well as a Floquet-like code based on the double-semion string-net path integral.
翻訳日:2023-03-30 16:25:16 公開日:2023-03-29
# 連結車両軌道データを用いた速度効果評価

Using Connected Vehicle Trajectory Data to Evaluate the Effects of Speeding ( http://arxiv.org/abs/2303.16396v1 )

ライセンス: Link先を確認
Jorge Ugan, Mohamed Abdel-Aty and Zubayer Islam(参考訳) スピードは、交通事故の致命的な原因であり続けている。 様々な交通機関が動脈の速度低下を減らすための速度管理戦略を提案している。 速度限界を超える速度の比率の分析については様々な研究がなされているが、個人の旅への影響を考察した研究はほとんどない。 多くの研究は、ドライバーが乗った経路に関する情報がないという制限がある検出器からの速度データを利用した。 本研究は,各経路における各走行経験が速度比に及ぼす影響を検討することを目的とする。 連結された車両軌道データは、ドライバーが乗った経路と車両関連変数を識別するために利用された。 速度比のレベルは、複数の学習モデルを用いて予測される。 最高性能の極端な勾配昇圧モデルが 0.756 の精度を達成した。 提案モデルは、運転者の速度行動に環境と車両の経路がどのように影響するかを理解し、高い速度の比率の領域を予測するのに使うことができる。 その結果,運転者一人ひとりの移動,すなわち全走行時間に関連する特徴が,速度向上に大きく寄与していることがわかった。 また,各運転者の走行環境,すなわち住宅地の割合に関連する特徴は,速度の低下にも大きな影響を及ぼした。 この発見は、交通機関に個々のドライバーの移動のスピードに関する要因をより詳しく伝えるのに役立つと期待されている。

Speeding has been and continues to be a major contributing factor to traffic fatalities. Various transportation agencies have proposed speed management strategies to reduce the amount of speeding on arterials. While there have been various studies done on the analysis of speeding proportions above the speed limit, few studies have considered the effect on the individual's journey. Many studies utilized speed data from detectors, which is limited in that there is no information of the route that the driver took. This study aims to explore the effects of various roadway features an individual experiences for a given journey on speeding proportions. Connected vehicle trajectory data was utilized to identify the path that a driver took, along with the vehicle related variables. The level of speeding proportion is predicted using multiple learning models. The model with the best performance, Extreme Gradient Boosting, achieved an accuracy of 0.756. The proposed model can be used to understand how the environment and vehicle's path effects the drivers' speeding behavior, as well as predict the areas with high levels of speeding proportions. The results suggested that features related to an individual driver's trip, i.e., total travel time, has a significant contribution towards speeding. Features that are related to the environment of the individual driver's trip, i.e., proportion of residential area, also had a significant effect on reducing speeding proportions. It is expected that the findings could help inform transportation agencies more on the factors related to speeding for an individual driver's trip.
翻訳日:2023-03-30 16:24:55 公開日:2023-03-29
# 時間-最適パルスを持つ高忠実リドバーグ制御Zゲート

High-fidelity Rydberg control-Z gates with time-optimal pulses ( http://arxiv.org/abs/2303.16395v1 )

ライセンス: Link先を確認
T. H. Chang, T. N. Wang, H. H. Jen, and Y.-C. Chen(参考訳) 高忠実性制御-$z$ (c_z$) ゲートは大規模量子コンピュータを構築するのに必須で必須である。 中性原子では、リドバーグ状態間の強い双極子-双極子相互作用は、c_z$ゲートを実装した先駆的プラットフォームの一つである。 ここでは,高忠実度Rydberg $C_{Z}$ゲートを3レベルラグ型原子系で生成する時間-最適パルスを数値的に検討する。 ガウスまたは分節パルスの時間的形状を調整することにより、中間励起状態の集団は対称ゲート演算プロトコル内で抑制され、その結果、高いベル忠実度を持つC_{Z}$ゲートが0.9998$になる。 これらの最適化パルスは熱揺らぎや励起場の変動に頑健である。 以上の結果から, 有限閉塞強度下での断熱操作を超越した, 高忠実かつ高速なゲート動作を, 可愛く制御可能な実験パラメータで実現できることを確認した。

High-fidelity control-$Z$ ($C_Z$) gates are essential and mandatory to build a large-scale quantum computer. In neutral atoms, the strong dipole-dipole interactions between their Rydberg states make them one of the pioneering platforms to implement $C_Z$ gates. Here we numerically investigate the time-optimal pulses to generate a high-fidelity Rydberg $C_{Z}$ gate in a three-level ladder-type atomic system. By tuning the temporal shapes of Gaussian or segmented pulses, the populations on the intermediate excited states are shown to be suppressed within the symmetric gate operation protocol, which leads to a $C_{Z}$ gate with a high Bell fidelity up to $0.9998$. These optimized pulses are robust to thermal fluctuations and the excitation field variations. Our results promise a high-fidelity and fast gate operation under amenable and controllable experimental parameters, which goes beyond the adiabatic operation regime under a finite Blockade strength.
翻訳日:2023-03-30 16:24:36 公開日:2023-03-29
# データ駆動型説明は分散外データに対して堅牢か?

Are Data-driven Explanations Robust against Out-of-distribution Data? ( http://arxiv.org/abs/2303.16390v1 )

ライセンス: Link先を確認
Tang Li, Fengchun Qiao, Mengmeng Ma, Xi Peng(参考訳) ブラックボックスモデルがハイテイクなアプリケーションを動かすにつれて、様々なデータ駆動型説明法が導入された。 一方、機械学習モデルは分散シフトによって常に挑戦される。 データ駆動の説明は、分散データに対して堅牢か? 実験結果から,モデルが正しく予測されたとしても,分布シフト下では信頼できない説明が得られる可能性が示唆された。 分散データに対するロバストな説明を開発するにはどうすればよいか? そこで本研究では,エンドツーエンドのモデルに依存しない学習フレームワークであるDistributedally Robust Explanations (DRE)を提案する。 鍵となる考え方は、自己指導型学習にインスパイアされ、分配情報を完全に活用し、人間のアノテーションを使わずに説明の学習のための監督的な信号を提供することである。 ロバストな説明はモデルの一般化機能に役立つか? 我々は、画像および科学表データに対する分類と回帰を含む、幅広いタスクとデータタイプに関する広範な実験を行う。 提案手法は,分布変化に対する説明と予測の堅牢性の観点から,モデルの性能を著しく向上することを示す。

As black-box models increasingly power high-stakes applications, a variety of data-driven explanation methods have been introduced. Meanwhile, machine learning models are constantly challenged by distributional shifts. A question naturally arises: Are data-driven explanations robust against out-of-distribution data? Our empirical results show that even though predict correctly, the model might still yield unreliable explanations under distributional shifts. How to develop robust explanations against out-of-distribution data? To address this problem, we propose an end-to-end model-agnostic learning framework Distributionally Robust Explanations (DRE). The key idea is, inspired by self-supervised learning, to fully utilizes the inter-distribution information to provide supervisory signals for the learning of explanations without human annotation. Can robust explanations benefit the model's generalization capability? We conduct extensive experiments on a wide range of tasks and data types, including classification and regression on image and scientific tabular data. Our results demonstrate that the proposed method significantly improves the model's performance in terms of explanation and prediction robustness against distributional shifts.
翻訳日:2023-03-30 16:24:20 公開日:2023-03-29
# ARMBench: ロボット操作のためのオブジェクト中心ベンチマークデータセット

ARMBench: An Object-centric Benchmark Dataset for Robotic Manipulation ( http://arxiv.org/abs/2303.16382v1 )

ライセンス: Link先を確認
Chaitanya Mitash, Fan Wang, Shiyang Lu, Vikedo Terhuja, Tyler Garaas, Felipe Polido, Manikantan Nambi(参考訳) 本稿では,倉庫におけるロボット操作のための大規模オブジェクト中心ベンチマークデータセットであるAmazon Robotic Manipulation Benchmark(ARMBench)を紹介する。 現代の倉庫における操作の自動化には、ロボットマニピュレータがさまざまなオブジェクト、非構造化ストレージ、動的に在庫を変える必要がある。 このような設定は、操作中のオブジェクトのアイデンティティ、物理的特性、状態を認識する上で問題となる。 既存のロボット操作用のデータセットは、オブジェクトの限られたセットや、3Dモデルを使用して、さまざまなオブジェクト特性、乱雑、相互作用をキャプチャする制限のある合成シーンを生成する。 異質な内容の容器からオブジェクトを合成するロボットマニピュレータを用いて,アマゾン倉庫で収集した大規模なデータセットを提案する。 ARMBenchには、イメージ、ビデオ、メタデータが含まれており、190K以上のユニークなオブジェクト上の235K以上のピック&プレースアクティビティに対応している。 データは、操作の異なる段階、すなわち、転送中、および配置後において、キャプチャされる。 ベンチマークタスクは高品質なアノテーションによって提案され、ベースライン性能評価は3つの視覚的認識課題、すなわち3つの課題について提示される。 1)クラッタにおけるオブジェクトセグメンテーション 2)オブジェクトの識別,及び 3)欠陥検出。 ARMBenchはhttp://armbench.comでアクセスできる。

This paper introduces Amazon Robotic Manipulation Benchmark (ARMBench), a large-scale, object-centric benchmark dataset for robotic manipulation in the context of a warehouse. Automation of operations in modern warehouses requires a robotic manipulator to deal with a wide variety of objects, unstructured storage, and dynamically changing inventory. Such settings pose challenges in perceiving the identity, physical characteristics, and state of objects during manipulation. Existing datasets for robotic manipulation consider a limited set of objects or utilize 3D models to generate synthetic scenes with limitation in capturing the variety of object properties, clutter, and interactions. We present a large-scale dataset collected in an Amazon warehouse using a robotic manipulator performing object singulation from containers with heterogeneous contents. ARMBench contains images, videos, and metadata that corresponds to 235K+ pick-and-place activities on 190K+ unique objects. The data is captured at different stages of manipulation, i.e., pre-pick, during transfer, and after placement. Benchmark tasks are proposed by virtue of high-quality annotations and baseline performance evaluation are presented on three visual perception challenges, namely 1) object segmentation in clutter, 2) object identification, and 3) defect detection. ARMBench can be accessed at http://armbench.com
翻訳日:2023-03-30 16:24:01 公開日:2023-03-29
# 安定拡散に対するクエリフリー逆攻撃に関するパイロット研究

A Pilot Study of Query-Free Adversarial Attack against Stable Diffusion ( http://arxiv.org/abs/2303.16378v1 )

ライセンス: Link先を確認
Haomin Zhuang, Yihua Zhang and Sijia Liu(参考訳) 安定拡散によるテキスト・トゥ・イメージ(T2I)生成における記録破りのパフォーマンスにもかかわらず、その逆の堅牢性には研究の注意が払われていない。 本研究では,安定拡散に対する対角攻撃生成の問題について検討し,エンドツーエンドのモデルクエリがなくても,逆方向のテキストプロンプトが得られるかどうかを問う。 結果の問題を「クエリフリーアタック生成」と呼ぶ。 この問題を解決するために、T2Iモデルの脆弱性は、テキストエンコーダの堅牢性の欠如、例えば、安定拡散攻撃に使用されるCLIPテキストエンコーダに根ざしていることを示す。 このような知見に基づいて,前者がテキスト埋め込み空間において最も影響力のある次元に基づいて構築され,我々は「ステアブルキー次元」と呼んでいる,非ターゲットのクエリフリーアタックとターゲットのクエリフリーアタックの両方を提案する。 提案する攻撃を活用し,テキストプロンプトに対する5文字の摂動のみが,安定な拡散を用いて合成画像の重要コンテンツシフトを誘発できることを実証的に示す。 さらに,提案するターゲット攻撃は拡散モデルを正確に制御し,対象画像コンテンツをスクラブし,非対象画像コンテンツに大きな変化を生じさせないことを示す。

Despite the record-breaking performance in Text-to-Image (T2I) generation by Stable Diffusion, less research attention is paid to its adversarial robustness. In this work, we study the problem of adversarial attack generation for Stable Diffusion and ask if an adversarial text prompt can be obtained even in the absence of end-to-end model queries. We call the resulting problem 'query-free attack generation'. To resolve this problem, we show that the vulnerability of T2I models is rooted in the lack of robustness of text encoders, e.g., the CLIP text encoder used for attacking Stable Diffusion. Based on such insight, we propose both untargeted and targeted query-free attacks, where the former is built on the most influential dimensions in the text embedding space, which we call steerable key dimensions. By leveraging the proposed attacks, we empirically show that only a five-character perturbation to the text prompt is able to cause the significant content shift of synthesized images using Stable Diffusion. Moreover, we show that the proposed target attack can precisely steer the diffusion model to scrub the targeted image content without causing much change in untargeted image content.
翻訳日:2023-03-30 16:23:39 公開日:2023-03-29
# 不均一多殻拡散強調MRIにおける繊維配向関数推定のための統一単段階学習モデル

A Unified Single-stage Learning Model for Estimating Fiber Orientation Distribution Functions on Heterogeneous Multi-shell Diffusion-weighted MRI ( http://arxiv.org/abs/2303.16376v1 )

ライセンス: Link先を確認
Tianyuan Yao, Nancy Newlin, Praitayini Kanakaraj, Vishwesh nath, Leon Y Cai, Karthik Ramadass, Kurt Schilling, Bennett A. Landman, Yuankai Huo(参考訳) Diffusion-weighted (DW) MRIは、各ボクセルの局所拡散過程の方向とスケールを、q空間のスペクトルを通じて測定する。 近年の微細構造イメージングと多部分解は,信号の放射状b値依存性に新たな注目を集めている。 したがって、組織分類やマイクロアーキテクチャ推定における応用には、ラジアルと角領域にまたがる信号表現が必要である。 DW-MRI信号と生体組織との非線形関係をモデル化する複数の手法が提案されている。 過去数年間、従来のモデルベース手法(マルチシェルマルチトイシュー制約球面デコンボリューションなど)と比較して、推論速度の高速化とscan間一貫性の向上を目的として、多くのディープラーニングベースの手法が開発されてきた。 しかし、学習過程は単純な調和振動子再構成(shore)表現など様々な中間表現に依存するため、多段階学習戦略が求められる。 本研究では, 単一ステージの球面畳み込みニューラルネットワークを用いて, 不均一な多層拡散MRIシーケンスによる効率的な繊維配向分布関数(fODF)推定を可能にする, 統一された動的ネットワークを提案する。 我々は,ヒトコネクトームプロジェクト(hcp)の若年成人を対象に,テスト-リテストスキャンによる検討を行った。 実験結果から, 単一段法は, シェルドロップオフと単殻DW-MRIによるFODFの繰り返し推定において, 先行する複数段法よりも優れていた。

Diffusion-weighted (DW) MRI measures the direction and scale of the local diffusion process in every voxel through its spectrum in q-space, typically acquired in one or more shells. Recent developments in micro-structure imaging and multi-tissue decomposition have sparked renewed attention to the radial b-value dependence of the signal. Applications in tissue classification and micro-architecture estimation, therefore, require a signal representation that extends over the radial as well as angular domain. Multiple approaches have been proposed that can model the non-linear relationship between the DW-MRI signal and biological microstructure. In the past few years, many deep learning-based methods have been developed towards faster inference speed and higher inter-scan consistency compared with traditional model-based methods (e.g., multi-shell multi-tissue constrained spherical deconvolution). However, a multi-stage learning strategy is typically required since the learning process relied on various middle representations, such as simple harmonic oscillator reconstruction (SHORE) representation. In this work, we present a unified dynamic network with a single-stage spherical convolutional neural network, which allows efficient fiber orientation distribution function (fODF) estimation through heterogeneous multi-shell diffusion MRI sequences. We study the Human Connectome Project (HCP) young adults with test-retest scans. From the experimental results, the proposed single-stage method outperforms prior multi-stage approaches in repeated fODF estimation with shell dropoff and single-shell DW-MRI sequences.
翻訳日:2023-03-30 16:23:18 公開日:2023-03-29
# 訓練データ再構成のための非漸近下限

Non-Asymptotic Lower Bounds For Training Data Reconstruction ( http://arxiv.org/abs/2303.16372v1 )

ライセンス: Link先を確認
Prateeti Mukherjee and Satya Lokam(参考訳) 本研究では,データ再構成攻撃(dras)の学習能力に対する個人学習アルゴリズムの意味的保証について検討する。 この目的のために, 差分プライバシー (DP) とメートル法差プライバシー (mDP) を満たす学習者に対して, 敵の復元誤差の非漸近的最小限境界を導出する。 さらに,後者に対する下限解析は,入力データ次元が敵の問合せ予算よりも大きい場合の高次元構造にも適用できることを示した。 DP-SGD や Projected Noisy SGD のような一般的な深層学習アルゴリズムのプライバシー解析を拡張して,メートル法差分プライバシーのより広範な概念をカバーする。

We investigate semantic guarantees of private learning algorithms for their resilience to training Data Reconstruction Attacks (DRAs) by informed adversaries. To this end, we derive non-asymptotic minimax lower bounds on the adversary's reconstruction error against learners that satisfy differential privacy (DP) and metric differential privacy (mDP). Furthermore, we demonstrate that our lower bound analysis for the latter also covers the high dimensional regime, wherein, the input data dimensionality may be larger than the adversary's query budget. Motivated by the theoretical improvements conferred by metric DP, we extend the privacy analysis of popular deep learning algorithms such as DP-SGD and Projected Noisy SGD to cover the broader notion of metric differential privacy.
翻訳日:2023-03-30 16:22:50 公開日:2023-03-29
# TaskMatrix.AI: 数百万のAPIで基礎モデルを接続することでタスクを補完する

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs ( http://arxiv.org/abs/2303.16434v1 )

ライセンス: Link先を確認
Yaobo Liang, Chenfei Wu, Ting Song, Wenshan Wu, Yan Xia, Yu Liu, Yang Ou, Shuai Lu, Lei Ji, Shaoguang Mao, Yun Wang, Linjun Shou, Ming Gong, Nan Duan(参考訳) 人工知能(AI)は最近驚くべき進歩を遂げた。 一方、ChatGPTのような高度な基盤モデルは、幅広いオープンドメインタスクに対して強力な会話、コンテキスト内学習、コード生成機能を提供する。 また、獲得した常識知識に基づいて、ドメイン固有のタスクの高レベルのソリューション概要を生成することもできる。 しかしながら、事前トレーニング中に十分なドメイン固有のデータが不足したり、正確な実行を必要とするタスクのニューラルネットワーク計算にエラーが発生する場合が多いため、一部の特殊なタスクでは依然として困難に直面している。 一方で、いくつかのドメイン固有のタスクをうまく行うことができる既存のモデルやシステム(記号ベースまたはニューラルベース)も数多く存在する。 しかし、異なる実装や動作メカニズムのため、基盤モデルと簡単にはアクセスできないし、互換性もない。 したがって、基礎モデルを利用してタスクソリューションのアウトラインを提案し、そのアウトライン内のいくつかのサブタスクと、それを完遂する特別な機能を持つオフザシェルフモデルとシステムとを自動でマッチングできるメカニズムが明確かつ強く必要である。 これに触発されたTaskMatrix.AIは、基礎モデルと数百万のAPIを結合してタスク補完を行う新しいAIエコシステムである。 単一のAIモデルを改善することを目的とした従来の作業とは異なり、TaskMatrix.AIは、既存の基盤モデル(脳に似た中央システムとして)と、他のAIモデルやシステム(サブタスクソルバとして)のAPIを使用して、デジタルドメインと物理ドメインの両方で多様なタスクを達成することに焦点を当てている。 ポジションペーパーとして、我々は、このようなエコシステムの構築方法、各主要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。

Artificial Intelligence (AI) has made incredible progress recently. On the one hand, advanced foundation models like ChatGPT can offer powerful conversation, in-context learning and code generation abilities on a broad range of open-domain tasks. They can also generate high-level solution outlines for domain-specific tasks based on the common sense knowledge they have acquired. However, they still face difficulties with some specialized tasks because they lack enough domain-specific data during pre-training or they often have errors in their neural network computations on those tasks that need accurate executions. On the other hand, there are also many existing models and systems (symbolic-based or neural-based) that can do some domain-specific tasks very well. However, due to the different implementation or working mechanisms, they are not easily accessible or compatible with foundation models. Therefore, there is a clear and pressing need for a mechanism that can leverage foundation models to propose task solution outlines and then automatically match some of the sub-tasks in the outlines to the off-the-shelf models and systems with special functionalities to complete them. Inspired by this, we introduce TaskMatrix.AI as a new AI ecosystem that connects foundation models with millions of APIs for task completion. Unlike most previous work that aimed to improve a single AI model, TaskMatrix.AI focuses more on using existing foundation models (as a brain-like central system) and APIs of other AI models and systems (as sub-task solvers) to achieve diversified tasks in both digital and physical domains. As a position paper, we will present our vision of how to build such an ecosystem, explain each key component, and use study cases to illustrate both the feasibility of this vision and the main challenges we need to address next.
翻訳日:2023-03-30 16:16:51 公開日:2023-03-29
# EITに基づく中性原子のスケーラブルなヘテロ核構造

Scalable Heteronuclear Architecture of Neutral Atoms Based on EIT ( http://arxiv.org/abs/2303.16432v1 )

ライセンス: Link先を確認
Ahmed M. Farouk, I.I. Beterov, Peng Xu, I.I. Ryabtsev(参考訳) 最近の論文 [arxiv:2206.12176 (2022)] に基づき、量子情報処理のためのアルカリ金属中性原子配列におけるcnotゲートの並列実装のスケーラブルなヘテロ核アーキテクチャを提案する。 1つの原子種の原子配列(アンシラ量子ビット)を2Dアコスト光偏向器(AOD)によって生成された移動型双極子トラップの配列を用いてコヒーレントに搬送することで、隣り合う量子ビットのペア間で連続的にCNOTゲートを並列に実行する方式を検討した。 第2原子種の原子(データ量子ビット)は、空間光変調器(SLM)によって生成された静的光学双極子トラップの配列に保持される。 移動したアンシラはコヒーレンスを失うことなく論理的な基底状態の重ね合わせにとどまるが、移動経路はデータ原子の空間的位置と重なり合うのを避ける。 並列実装されたCNOTゲートに対して,実験可能な条件に対して$F=95\%の精度でシステムパラメータを数値的に最適化した。 本設計は, 量子誤差補正のための表面符号の実装に有用である。 ゲート性能を特徴付けるために,レニエントロピーと相互情報についても検討した。

Based on our recent paper [arXiv:2206.12176 (2022)], we propose a scalable heteronuclear architecture of parallel implementation of CNOT gates in arrays of alkali-metal neutral atoms for quantum information processing. We considered a scheme where we perform CNOT gates in a parallel manner within the array, while they are performed sequentially between the pairs of neighboring qubits by coherently transporting an array of atoms of one atomic species (ancilla qubits) using an array of mobile optical dipole traps generated by a 2D acousto-optic deflector (AOD). The atoms of the second atomic species (data qubits) are kept in the array of static optical dipole traps generated by spatial light modulator (SLM). The moving ancillas remain in the superposition of their logical ground states without loss of coherence, while their transportation paths avoid overlaps with the spatial positions of data atoms. We numerically optimized the system parameters to achieve the fidelity for parallelly implemented CNOT gates around $F=95\%$ for the experimentally feasible conditions. Our design can be useful implementation of surface codes for quantum error correction. Renyi entropy and mutual information are also investigated to characterize the gate performance.
翻訳日:2023-03-30 16:16:20 公開日:2023-03-29
# 映像・映像のリアルタイム制御可能デノイジング

Real-time Controllable Denoising for Image and Video ( http://arxiv.org/abs/2303.16425v1 )

ライセンス: Link先を確認
Zhaoyang Zhang, Yitong Jiang, Wenqi Shao, Xiaogang Wang, Ping Luo, Kaimo Lin, Jinwei Gu(参考訳) controllable image denoisingは、人間の知覚を優先したクリーンなサンプルを生成し、シャープさと滑らかさのバランスをとることを目的としている。 従来のフィルタに基づく復調法では、フィルタ強度を調整することで容易に実現できる。 しかし、NN(Neural Network)ベースのモデルでは、最終的なデノナイジング強度を調整するには、毎回ネットワーク推論を実行する必要があるため、リアルタイムのユーザインタラクションではほぼ不可能である。 本稿では,実時間ネットワーク推論のみでリアルタイムに任意の復調レベルを編集する,完全な制御可能なユーザインターフェースを提供する,最初のディープイメージ/ビデオ復調パイプラインであるReal-time Controllable Denoising (RCD)を紹介する。 複数のノイズマップとトレーニング段階を必要とする既存の制御可能なdenoisingメソッドとは異なり、RCDは既存のCNNベースのモデルの最後の出力層(通常は単一ノイズマップを出力する)を、複数のノイズマップを出力する軽量モジュールに置き換える。 ノイズマップ補間による任意のノイズレベル制御を実現するため,ノイズ特徴写像の直交性を強制する新しいノイズデコレーション法を提案する。 このプロセスはネットワークフリーであり、ネットワーク推論を必要としない。 実験の結果,rcdは実時間編集可能な画像および映像の編集が可能となり,その性能を犠牲にすることなく,既存の重み付けモデルが利用可能となった。

Controllable image denoising aims to generate clean samples with human perceptual priors and balance sharpness and smoothness. In traditional filter-based denoising methods, this can be easily achieved by adjusting the filtering strength. However, for NN (Neural Network)-based models, adjusting the final denoising strength requires performing network inference each time, making it almost impossible for real-time user interaction. In this paper, we introduce Real-time Controllable Denoising (RCD), the first deep image and video denoising pipeline that provides a fully controllable user interface to edit arbitrary denoising levels in real-time with only one-time network inference. Unlike existing controllable denoising methods that require multiple denoisers and training stages, RCD replaces the last output layer (which usually outputs a single noise map) of an existing CNN-based model with a lightweight module that outputs multiple noise maps. We propose a novel Noise Decorrelation process to enforce the orthogonality of the noise feature maps, allowing arbitrary noise level control through noise map interpolation. This process is network-free and does not require network inference. Our experiments show that RCD can enable real-time editable image and video denoising for various existing heavy-weight models without sacrificing their original performance.
翻訳日:2023-03-30 16:15:57 公開日:2023-03-29
# ProductAE: 大規模次元のディープラーニング駆動エラー訂正コードを目指して

ProductAE: Toward Deep Learning Driven Error-Correction Codes of Large Dimensions ( http://arxiv.org/abs/2303.16424v1 )

ライセンス: Link先を確認
Mohammad Vahid Jamali, Hamid Saber, Homayoon Hatami, Jung Hyun Bae(参考訳) 何十年もの理論的研究が、いくつかの誤り訂正符号の発明につながったが、そのような符号の設計は、主に人間の創造性によって、非常に困難な課題である。 近年の研究では、このような設計を機械学習(ML)のツールで効果的に自動化し、高速化できることが実証されている。 しかし、基本的な課題は、ML駆動のエンコーダとデコーダのペアを大規模なコード次元で設計し、訓練することは不可能ではないが、違法に複雑であることである。 本稿では、比較的大きなコード(エンコーダとデコーダの両方)を、管理可能なトレーニング複雑性でトレーニング可能にすることを目的とした、ディープラーニング駆動(エンコーダ、デコーダ)ペアの計算効率の高いファミリーであるproduct autoencoder(productae)を提案する。 我々は、古典的な製品コードからアイデアを構築し、より小さなコードコンポーネントを使って大きなニューラルコードを構築することを提案する。 ProductAEは、エンコーダとデコーダを、大きなコードディメンション$k$とブロック長$n$で訓練する複雑な問題を、より小さなディメンジョンとブロック長のためのトレーニングエンコーダとデコーダの、より複雑なサブプロブレムに導いてくれる。 トレーニングの結果、最先端のクラシックやニューラルデザインと比較して、k = 300$bitのトレーニングが成功し、有意義なパフォーマンス向上が得られました。 さらに,ProductAEsがトレーニングに使用するものとは異なるチャネルモデルに対して,優れた堅牢性と適応性を示す。

While decades of theoretical research have led to the invention of several classes of error-correction codes, the design of such codes is an extremely challenging task, mostly driven by human ingenuity. Recent studies demonstrate that such designs can be effectively automated and accelerated via tools from machine learning (ML), thus enabling ML-driven classes of error-correction codes with promising performance gains compared to classical designs. A fundamental challenge, however, is that it is prohibitively complex, if not impossible, to design and train fully ML-driven encoder and decoder pairs for large code dimensions. In this paper, we propose Product Autoencoder (ProductAE) -- a computationally-efficient family of deep learning driven (encoder, decoder) pairs -- aimed at enabling the training of relatively large codes (both encoder and decoder) with a manageable training complexity. We build upon ideas from classical product codes and propose constructing large neural codes using smaller code components. ProductAE boils down the complex problem of training the encoder and decoder for a large code dimension $k$ and blocklength $n$ to less-complex sub-problems of training encoders and decoders for smaller dimensions and blocklengths. Our training results show successful training of ProductAEs of dimensions as large as $k = 300$ bits with meaningful performance gains compared to state-of-the-art classical and neural designs. Moreover, we demonstrate excellent robustness and adaptivity of ProductAEs to channel models different than the ones used for training.
翻訳日:2023-03-30 16:15:34 公開日:2023-03-29
# ChatGPTは知識に乏しいが経験不足な解法:大規模言語モデルにおける常識問題の検討

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models ( http://arxiv.org/abs/2303.16421v1 )

ライセンス: Link先を確認
Ning Bian, Xianpei Han, Le Sun, Hongyu Lin, Yaojie Lu, Ben He(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。 しかし、コモンセンス知識を記憶し、表現し、活用する能力は、LLMにとってよく知られた問題点である。 1)GPTはコモンセンスな質問に効果的に答えられるか? 2)GPTは常識に通じているか? (3)GPTは特定の疑問に答える上でのコモンセンス知識を意識しているか? (4) GPTは、質問に対するコモンセンスを効果的に活用できるか? 以上のコモンセンス問題を評価するために,我々はChatGPTのコモンセンス能力を評価する一連の実験を行い,実験結果から,(1)GPTはある種の知識に苦慮しながら,コモンセンスタスクにおいて良好なQA精度を達成できることを示した。 2) ChatGPTは知識があり,知識プロンプトを用いて,常識知識の大部分を正確に生成することができる。 (3) 知識にもかかわらず、ChatGPTは未経験のコモンセンス問題解決器であり、特定の質問に答えるために必要なコモンセンス知識を正確に識別することはできない。 以上より,llmにおけるコモンセンス知識の活用メカニズム,例えば命令追従,コモンセンス指導などについて検討する必要性が示唆された。

Large language models (LLMs) such as ChatGPT and GPT-4 have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point for LLMs. It remains unclear that: (1) Can GPTs effectively answer commonsense questions? (2) Are GPTs knowledgeable in commonsense? (3) Are GPTs aware of the underlying commonsense knowledge for answering a specific question? (4) Can GPTs effectively leverage commonsense for answering questions? To evaluate the above commonsense problems, we conduct a series of experiments to evaluate ChatGPT's commonsense abilities, and the experimental results show that: (1) GPTs can achieve good QA accuracy in commonsense tasks, while they still struggle with certain types of knowledge. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense knowledge for answering a specific question, i.e., ChatGPT does not precisely know what commonsense knowledge is required to answer a question. The above findings raise the need to investigate better mechanisms for utilizing commonsense knowledge in LLMs, such as instruction following, better commonsense guidance, etc.
翻訳日:2023-03-30 16:15:05 公開日:2023-03-29
# マンモグラフィ検診における深層学習の問題点とショートカット

Problems and shortcuts in deep learning for screening mammography ( http://arxiv.org/abs/2303.16417v1 )

ライセンス: Link先を確認
Trevor Tsue, Brent Mombourquette, Ahmed Taha, Thomas Paul Matthews, Yen Nhi Truong Vu, Jason Su(参考訳) この研究は、ディープラーニングモデルの性能と一般化性に関する未解明の課題を明らかにする。 1)パフォーマンスを膨らませる可能性のあるスプリアスショートカットと評価問題を特定し,(2)それらに対処するためのトレーニングと分析方法を提案する。 2008年から2017年に獲得した120,112の米国試験(3,467のがん)と2011年から2015年に獲得した16,693の英国試験(5,655のがん)のふりかえりデータセットに基づいて、がんを分類するaiモデルをトレーニングした。 11,593試験(がん102例、女性7,594例、年齢57.1 \pm 11.0例)と1,880試験(がん590例、女性1,745例、年齢63.3 \pm 7.2)のスクリーニングマンモグラフィテストセットを評価した。 乳房のない視標のみの画像で訓練されたモデルは0.691 aucを達成した。 両データセットでトレーニングされたオリジナルのモデルは、us+ukデータセットで0.945 aucを達成したが、アメリカとイギリスのデータセットではそれぞれ0.838と0.892に過ぎなかった。 トレーニング中の両方のデータセットからがんを等しくサンプリングすることは、このショートカットを緩和した。 同様のAUCパラドックス(0.903)は、診断試験とスクリーニング試験(0.862対0.861)の評価において発生した。 トレーニング中の診断試験の削除は、このバイアスを軽減した。 最終的に、このモデルはスキャナーモデルよりもAUCパラドックスを示しなかったが、Hological Selenia (HS)試験よりもSelenia Dimension (SD)に偏っている。 分析の結果、このaucパラドックスは、データセット属性ががんの有病率が高い値(データセットバイアス)を持ち、その結果、これらの属性値(モデルバイアス)に高い確率を割り当てた時に発生する。 がんの有病率は、評価中にショートカットを緩和することができる。 データセットとモデルバイアスは、ショートカットとAUCパラドックスを導入し、医療AI分野に広く浸透する可能性がある。 我々の手法は、性能を明確に理解しながら、ショートカットの検証と緩和が可能である。

This work reveals undiscovered challenges in the performance and generalizability of deep learning models. We (1) identify spurious shortcuts and evaluation issues that can inflate performance and (2) propose training and analysis methods to address them. We trained an AI model to classify cancer on a retrospective dataset of 120,112 US exams (3,467 cancers) acquired from 2008 to 2017 and 16,693 UK exams (5,655 cancers) acquired from 2011 to 2015. We evaluated on a screening mammography test set of 11,593 US exams (102 cancers; 7,594 women; age 57.1 \pm 11.0) and 1,880 UK exams (590 cancers; 1,745 women; age 63.3 \pm 7.2). A model trained on images of only view markers (no breast) achieved a 0.691 AUC. The original model trained on both datasets achieved a 0.945 AUC on the combined US+UK dataset but paradoxically only 0.838 and 0.892 on the US and UK datasets, respectively. Sampling cancers equally from both datasets during training mitigated this shortcut. A similar AUC paradox (0.903) occurred when evaluating diagnostic exams vs screening exams (0.862 vs 0.861, respectively). Removing diagnostic exams during training alleviated this bias. Finally, the model did not exhibit the AUC paradox over scanner models but still exhibited a bias toward Selenia Dimension (SD) over Hologic Selenia (HS) exams. Analysis showed that this AUC paradox occurred when a dataset attribute had values with a higher cancer prevalence (dataset bias) and the model consequently assigned a higher probability to these attribute values (model bias). Stratification and balancing cancer prevalence can mitigate shortcuts during evaluation. Dataset and model bias can introduce shortcuts and the AUC paradox, potentially pervasive issues within the healthcare AI space. Our methods can verify and mitigate shortcuts while providing a clear understanding of performance.
翻訳日:2023-03-30 16:14:43 公開日:2023-03-29
# ChatGPTを用いたゼロショット臨床エンティティ認識

Zero-shot Clinical Entity Recognition using ChatGPT ( http://arxiv.org/abs/2303.16416v1 )

ライセンス: Link先を確認
Yan Hu, Iqra Ameer, Xu Zuo, Xueqing Peng, Yujia Zhou, Zehan Li, Yiming Li, Jianfu Li, Xiaoqian Jiang, Hua Xu(参考訳) 本研究では,2010 年の i2b2 チャレンジで定義された臨床名称のエンティティ認識タスクに対して,OpenAI が開発した大規模言語モデル ChatGPT を,2 つの異なるプロンプト戦略を持つゼロショット設定で検討した。 同様のゼロショット設定でGPT-3と比較し,MTSamplesの合成臨床ノートを用いて微調整したBioClinicalBERTモデルと比較した。 その結果,chatgpt はゼロショット設定で gpt-3 を上回り,f1 スコアは 0.418 (vs.0.250) と 0.620 (vs. 0.480) で一致した。 さらにプロンプトはChatGPTの性能に大きな影響を与え、2つの異なるプロンプト戦略に対して0.628対0.541の緩和マッチングF1スコアが与えられた。 ChatGPTの性能は、教師付きBioClinicalBERTモデル(つまり、ゆるやかなマッチングF1スコア0.628 vs. 0.870)よりも依然として低かったが、本研究では、ゼロショット設定で臨床NERタスクに対するChatGPTの大きな可能性を示した。

In this study, we investigated the potential of ChatGPT, a large language model developed by OpenAI, for the clinical named entity recognition task defined in the 2010 i2b2 challenge, in a zero-shot setting with two different prompt strategies. We compared its performance with GPT-3 in a similar zero-shot setting, as well as a fine-tuned BioClinicalBERT model using a set of synthetic clinical notes from MTSamples. Our findings revealed that ChatGPT outperformed GPT-3 in the zero-shot setting, with F1 scores of 0.418 (vs.0.250) and 0.620 (vs. 0.480) for exact- and relaxed-matching, respectively. Moreover, prompts affected ChatGPT's performance greatly, with relaxed-matching F1 scores of 0.628 vs.0.541 for two different prompt strategies. Although ChatGPT's performance was still lower than that of the supervised BioClinicalBERT model (i.e., relaxed-matching F1 scores of 0.628 vs. 0.870), our study demonstrates the great potential of ChatGPT for clinical NER tasks in a zero-shot setting, which is much more appealing as it does not require any annotation.
翻訳日:2023-03-30 16:14:03 公開日:2023-03-29
# 総合的・汎用的なマルチモーダル深層学習手法による先端材料の多様な特性の予測

A Comprehensive and Versatile Multimodal Deep Learning Approach for Predicting Diverse Properties of Advanced Materials ( http://arxiv.org/abs/2303.16412v1 )

ライセンス: Link先を確認
Shun Muroga, Yasuaki Miki, and Kenji Hata(参考訳) 本稿では,10次元アクリルポリマー複合材料の物性を物理特性と化学データを融合して予測するマルチモーダルディープラーニング(mdl)フレームワークを提案する。 mdlモデルは,材料構造評価のための3つの生成的ディープラーニングモデルと,特性予測のための4番目のモデルを含む4つのモジュールからなる。 提案手法は, 合成条件114,210において, 10個の入力と8個の特性出力を持ち, 913,680個の特性データポイントの予測に成功している。 このレベルの複雑さは計算材料科学、特に未定義の構造を持つ材料では前例がない。 本稿では, 逆材料設計のための高次元情報空間を解析し, 十分なデータがあれば, 各種材料やスケールへの柔軟性と適応性を実証する枠組みを提案する。 この研究は、様々な材料の研究とより洗練されたモデルの開発を推し進め、全ての材料の全ての特性を予測するという究極の目標に近づいている。

We present a multimodal deep learning (MDL) framework for predicting physical properties of a 10-dimensional acrylic polymer composite material by merging physical attributes and chemical data. Our MDL model comprises four modules, including three generative deep learning models for material structure characterization and a fourth model for property prediction. Our approach handles an 18-dimensional complexity, with 10 compositional inputs and 8 property outputs, successfully predicting 913,680 property data points across 114,210 composition conditions. This level of complexity is unprecedented in computational materials science, particularly for materials with undefined structures. We propose a framework to analyze the high-dimensional information space for inverse material design, demonstrating flexibility and adaptability to various materials and scales, provided sufficient data is available. This study advances future research on different materials and the development of more sophisticated models, drawing us closer to the ultimate goal of predicting all properties of all materials.
翻訳日:2023-03-30 16:13:38 公開日:2023-03-29
# マスク付きオートエンコーダのアンロックと画像再生機能

Unlocking Masked Autoencoders as Loss Function for Image and Video Restoration ( http://arxiv.org/abs/2303.16411v1 )

ライセンス: Link先を確認
Man Zhou, Naishan Zheng, Jie Huang, Chunle Guo, Chongyi Li(参考訳) 画像とビデオの復元は、ディープラーニングの出現によって目覚ましい飛躍を遂げた。 ディープラーニングのパラダイムの成功には、データ、モデル、損失という3つの重要な要素がある。 現在、最初の2つに多くの努力が注がれており、損失関数の研究はめったに行われていない。 事実上の最適化関数、例えば$l_1$, $l_2$, and 知覚的損失は最適か'という質問で、損失の可能性を探求し、「学習損失関数は画像と映像の復元のためのニューラルネットワークの学習能力を強化する」という信念を提起する。 具体的には、仮に訓練された前が画像推論の先を自然に継承していることから、マスクされたオートエンコーダ(mae)の肩の上に立ち、それを「学習損失関数」として定式化する。 信念の有効性を3つの視点から検討する。 1)タスクカスタマイズMAEからネイティブMAEへ。 2)映像タスクから映像タスクへ、そして 3)トランス構造から畳み込みニューラルネットワーク構造へ。 画像デノイング、画像スーパーレゾリューション、画像エンハンスメント、ガイド画像スーパーレゾリューション、ビデオデノイング、ビデオエンハンスメントなど、複数の画像およびビデオタスクにわたる広範な実験は、学習損失関数によって導入された一貫したパフォーマンス改善を実証している。 さらに、学習した損失関数は、推論段階の計算を伴わずに、トレーニング中に既存のネットワークに直接接続できることが好ましい。 コードは公開されます。

Image and video restoration has achieved a remarkable leap with the advent of deep learning. The success of deep learning paradigm lies in three key components: data, model, and loss. Currently, many efforts have been devoted to the first two while seldom study focuses on loss function. With the question ``are the de facto optimization functions e.g., $L_1$, $L_2$, and perceptual losses optimal?'', we explore the potential of loss and raise our belief ``learned loss function empowers the learning capability of neural networks for image and video restoration''. Concretely, we stand on the shoulders of the masked Autoencoders (MAE) and formulate it as a `learned loss function', owing to the fact the pre-trained MAE innately inherits the prior of image reasoning. We investigate the efficacy of our belief from three perspectives: 1) from task-customized MAE to native MAE, 2) from image task to video task, and 3) from transformer structure to convolution neural network structure. Extensive experiments across multiple image and video tasks, including image denoising, image super-resolution, image enhancement, guided image super-resolution, video denoising, and video enhancement, demonstrate the consistent performance improvements introduced by the learned loss function. Besides, the learned loss function is preferable as it can be directly plugged into existing networks during training without involving computations in the inference stage. Code will be publicly available.
翻訳日:2023-03-30 16:13:21 公開日:2023-03-29
# 信頼できる自律システムにおけるプライバシ保護ビジョンの必要性

The Need for Inherently Privacy-Preserving Vision in Trustworthy Autonomous Systems ( http://arxiv.org/abs/2303.16408v1 )

ライセンス: Link先を確認
Adam K. Taras, Niko Suenderhauf, Peter Corke and Donald G. Dansereau(参考訳) 視覚はロボット工学にとって人気があり効果的なセンサーであり、そこから環境に関する豊富な情報を得ることができる:シーンの幾何学と意味論、そしてそのシーンの中の人間の年齢、性別、アイデンティティ、活動、さらには感情的な状態。 これにより、この情報のリーチ、寿命、潜在的な誤用に関する重要な疑問が提起される。 本論文は,ロボットビジョンの文脈において,プライバシを考慮すべき行動である。 本稿では,リモートアクセスが完全である場合でも,画像がキャプチャされず,あるいは攻撃者が再構築できる特定の形態のプライバシー保護を提案する。 本稿では,そのようなシステムを設計できる一連の原則を提示する。ローカライゼーションにおけるケーススタディを通じて,本質的なプライバシ保護方式で重要なロボット機能を実現するための,特定の実装をシミュレーションで実証する。 これは第一歩であり、視認されたロボットシステムに開放されるアプリケーションの範囲を広げる今後の取り組みに刺激を与えたいと思っています。

Vision is a popular and effective sensor for robotics from which we can derive rich information about the environment: the geometry and semantics of the scene, as well as the age, gender, identity, activity and even emotional state of humans within that scene. This raises important questions about the reach, lifespan, and potential misuse of this information. This paper is a call to action to consider privacy in the context of robotic vision. We propose a specific form privacy preservation in which no images are captured or could be reconstructed by an attacker even with full remote access. We present a set of principles by which such systems can be designed, and through a case study in localisation demonstrate in simulation a specific implementation that delivers an important robotic capability in an inherently privacy-preserving manner. This is a first step, and we hope to inspire future works that expand the range of applications open to sighted robotic systems.
翻訳日:2023-03-30 16:12:56 公開日:2023-03-29
# 局所的一般化を満たしたグローバル適応:3次元ポーズ推定のための教師なし領域適応

Global Adaptation meets Local Generalization: Unsupervised Domain Adaptation for 3D Human Pose Estimation ( http://arxiv.org/abs/2303.16456v1 )

ライセンス: Link先を確認
Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang, and Gaoang Wang(参考訳) トレーニング済みの2D-to-3D人間のポーズリフトモデルを対象の未確認データセットに適用する場合、ドメインシフトの問題により大きなパフォーマンス劣化が発生する。 劣化は2つの要因によって引き起こされるのが観察される。 1) 異なるカメラパラメータや設定によるソースとターゲットデータセットのポーズのグローバルな位置に対する大きな分布ギャップ 2)訓練におけるポーズの局所構造の多様性の欠如。 この目的のために,3次元ポーズ推定のための教師なしドメイン適応の簡易かつ効果的なフレームワークであるtextit{PoseDA} に \textbf{global adaptation} と \textbf{local generalization} を組み合わせる。 具体的には、グローバル適応は、ソースドメインからターゲットドメインへのポーズのグローバル位置を、提案されたグローバル位置アライメント(GPA)モジュールで整列することを目的としている。 局所的な一般化は2D-3Dポーズマッピングの多様性を高めるために設計されている。 これらのモジュールは、追加の学習可能なパラメータを導入することなく、大幅なパフォーマンス改善をもたらす。 また,本研究では,3dポーズの多様性を高めるための局所的ポーズ増強(lpa)を提案する。 1)事前定義されたポーズ変換のパラメータを生成する拡張生成器 2)拡張データの現実性と品質を確保するためのアンカー識別装置。 我々のアプローチは、ほぼ全ての2D-3Dリフトモデルに適用できる。 \textit{PoseDA}は、MPI-INF-3DHP上で61.3mmのMPJPEをクロスデータセット評価設定で達成し、従来の最先端手法を10.2\%改善した。

When applying a pre-trained 2D-to-3D human pose lifting model to a target unseen dataset, large performance degradation is commonly encountered due to domain shift issues. We observe that the degradation is caused by two factors: 1) the large distribution gap over global positions of poses between the source and target datasets due to variant camera parameters and settings, and 2) the deficient diversity of local structures of poses in training. To this end, we combine \textbf{global adaptation} and \textbf{local generalization} in \textit{PoseDA}, a simple yet effective framework of unsupervised domain adaptation for 3D human pose estimation. Specifically, global adaptation aims to align global positions of poses from the source domain to the target domain with a proposed global position alignment (GPA) module. And local generalization is designed to enhance the diversity of 2D-3D pose mapping with a local pose augmentation (LPA) module. These modules bring significant performance improvement without introducing additional learnable parameters. In addition, we propose local pose augmentation (LPA) to enhance the diversity of 3D poses following an adversarial training scheme consisting of 1) a augmentation generator that generates the parameters of pre-defined pose transformations and 2) an anchor discriminator to ensure the reality and quality of the augmented data. Our approach can be applicable to almost all 2D-3D lifting models. \textit{PoseDA} achieves 61.3 mm of MPJPE on MPI-INF-3DHP under a cross-dataset evaluation setup, improving upon the previous state-of-the-art method by 10.2\%.
翻訳日:2023-03-30 16:07:15 公開日:2023-03-29
# 混合極角深部ニューラルネットワークを用いた内部測定からの導電率イメージング

Conductivity Imaging from Internal Measurements with Mixed Least-Squares Deep Neural Networks ( http://arxiv.org/abs/2303.16454v1 )

ライセンス: Link先を確認
Bangti Jin and Xiyao Li and Qimeng Quan and Zhi Zhou(参考訳) 本研究では,1つの内部計測から楕円問題の導電率分布を再構成するために,深層ニューラルネットワークを用いた新しい手法を提案する。 このアプローチは、支配方程式の混合再編成に基づいており、標準最小二乗目的を利用して導電率とフラックスを同時に近似し、ディープニューラルネットワークをアンサッツ関数として利用する。 本研究では,連続的および経験的損失に対するニューラルネットワーク近似の徹底的な解析を行い,ノイズレベル,さまざまなペナルティパラメータ,ニューラルネットワークのアーキテクチャパラメータ(深さ,幅,パラメータ境界)を明示した厳密な誤差推定を行う。 また,2次元および多次元における広範囲な数値実験を行い,データノイズに対する優れた安定性や高次元問題を解決する能力など,アプローチの特徴を明らかにした。

In this work we develop a novel approach using deep neural networks to reconstruct the conductivity distribution in elliptic problems from one internal measurement. The approach is based on a mixed reformulation of the governing equation and utilizes the standard least-squares objective to approximate the conductivity and flux simultaneously, with deep neural networks as ansatz functions. We provide a thorough analysis of the neural network approximations for both continuous and empirical losses, including rigorous error estimates that are explicit in terms of the noise level, various penalty parameters and neural network architectural parameters (depth, width and parameter bound). We also provide extensive numerical experiments in two- and multi-dimensions to illustrate distinct features of the approach, e.g., excellent stability with respect to data noise and capability of solving high-dimensional problems.
翻訳日:2023-03-30 16:06:48 公開日:2023-03-29
# protfim:タンパク質言語モデルによる中間タンパク質配列設計

ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language Models ( http://arxiv.org/abs/2303.16452v1 )

ライセンス: Link先を確認
Youhan Lee, Hasun Yu(参考訳) タンパク質配列の因果言語モデリングによって事前学習されたタンパク質言語モデル(plm)は、タンパク質配列設計の有望なツールである。 現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化される場合が多い。 残念なことに、pLMの左から右への性質のため、既存のpLMは接頭辞の残基を誘導することで接尾辞残基を修飾する。 タンパク質工学においてより効果的なpLMを見つけるため,我々は新しいベンチマークであるSecond StructureE InFilling rEcoveRy, SEIFERを設計した。 既存のモデルをベンチマークで評価することで、既存の言語モデルの弱点を明らかにし、protfimと呼ばれる中間変換で訓練された言語モデルは、タンパク質工学にもっと適していることを示す。 また,protfimはタンパク質配列を正常に表現し,徹底的な実験と可視化によって生成することを示した。

Protein language models (pLMs), pre-trained via causal language modeling on protein sequences, have been a promising tool for protein sequence design. In real-world protein engineering, there are many cases where the amino acids in the middle of a protein sequence are optimized while maintaining other residues. Unfortunately, because of the left-to-right nature of pLMs, existing pLMs modify suffix residues by prompting prefix residues, which are insufficient for the infilling task that considers the whole surrounding context. To find the more effective pLMs for protein engineering, we design a new benchmark, Secondary structureE InFilling rEcoveRy, SEIFER, which approximates infilling sequence design scenarios. With the evaluation of existing models on the benchmark, we reveal the weakness of existing language models and show that language models trained via fill-in-middle transformation, called ProtFIM, are more appropriate for protein engineering. Also, we prove that ProtFIM generates protein sequences with decent protein representations through exhaustive experiments and visualizations.
翻訳日:2023-03-30 16:06:33 公開日:2023-03-29
# 開放スピンペア系における準平衡と量子相関

Quasi-equilibrium and quantum correlation in an open spin-pair system ( http://arxiv.org/abs/2303.16451v1 )

ライセンス: Link先を確認
J.A. Taboada, H.H. Segnorile, C.E. Gonz\'alez, and R.C. Zamar(参考訳) 核磁気共鳴(NMR)技術により固体中で調製できる準平衡状態は、格子と熱力学的平衡に向かって緩やかに緩和される平衡状態である。 この研究では、量子ディスコードダイナミクスを、この種の状態における量子相関の証人として用いる。 実験系は, nmrジェナー・ブロエカートパルス配列を用いて初期状態が作製された双極子相互作用スピン対であり, 高温・高外部磁場における平衡から開始される。 次に、2つの異なる動的シナリオの中で開量子系として進化し、ペアの共通フォノン場へのカップリングによって駆動される断熱デコヒーレンスと、マルコフのマスター方程式で表されるスピン格子緩和と熱ゆらぎによって駆動されるスピン格子緩和である。 このようにして、研究モデルには現実的な固体試料の力学が与えられた。 量子不協和は初期状態の準備中に急速に増加し、室温の熱平衡と比較して数桁のエスカレートする。 デコヒーレンス中にコヒーレンスが消失したにもかかわらず、量子ディスコードはこの高い値の周りに振動し、小さな減衰を受け、初期状態と同じ等級を持つ。 最後に、量子分散はスピン格子緩和に匹敵するよりも短い時間スケールで散逸する。

Quasi-equilibrium states that can be prepared in solids through Nuclear Magnetic Resonance (NMR) techniques are out-of-equilibrium states that slowly relax towards thermodynamic equilibrium with the lattice. In this work, we use the quantum discord dynamics as a witness of the quantum correlation in this kind of state. The studied system is a dipole interacting spin pair whose initial state is prepared with the NMR Jeener-Broekaert pulse sequence, starting from equilibrium at high temperature and high external magnetic field. It then evolves as an open quantum system within two different dynamic scenarios: adiabatic decoherence driven by the coupling of the pairs to a common phonon field, described within a non-markovian approach; and spin-lattice relaxation represented by a markovian master equation, and driven by thermal fluctuations. In this way, the studied model is endowed with the dynamics of a realistic solid sample. The quantum discord rapidly increases during the preparation of the initial state, escalating several orders of magnitude compared with thermal equilibrium at room temperature. Despite the vanishing of coherences during decoherence, the quantum discord oscillates around this high value and undergoes a minor attenuation, holding the same order of magnitude as the initial state. Finally, the quantum discord dissipates within a time scale shorter than but comparable to spin-lattice relaxation.
翻訳日:2023-03-30 16:06:12 公開日:2023-03-29
# ポイントクラウド理解のための自己配置ポイントベース変圧器

Self-positioning Point-based Transformer for Point Cloud Understanding ( http://arxiv.org/abs/2303.16450v1 )

ライセンス: Link先を確認
Jinyoung Park, Sanghyeok Lee, Sihyeon Kim, Yunyang Xiong, Hyunwoo J. Kim(参考訳) トランスフォーマーは、様々なコンピュータビジョンタスクにおいて、長距離依存をキャプチャする能力で優れたパフォーマンスを示している。 成功にもかかわらず、ポイント数の2次コストのため、ポイントクラウドにTransformerを直接適用することは困難である。 本稿では,局所的およびグローバルな形状のコンテキストを複雑度を低減してキャプチャするセルフ・ポジショニング・ポイントベース変換器(SPoTr)を提案する。 具体的には、このアーキテクチャは局所的な自己着地と自己着地点に基づくグローバルな相互着地からなる。 入力形状に基づいて適応的に位置する自己位置決めポイントは,空間情報と意味情報の両方を考慮し,表現力を向上させる。 自己配置点を用いて,注目モジュールが少数の自己配置点のみを用いて注目重みを計算できるようにすることにより,グローバルな自己配置のスケーラビリティを向上させる,ポイントクラウドのための新たなグローバルな相互配置機構を提案する。 実験では,形状分類,部分分割,シーンセグメンテーションなどの3点クラウドタスクにおけるスポラの有効性を示す。 特に,ScanObjectNNを用いた形状分類では,従来の最良モデルに比べて2.6%の精度向上を実現している。 また,自己配置点の解釈可能性を示す定性解析も提供する。 SPoTrのコードはhttps://github.com/mlvlab/SPoTrで公開されている。

Transformers have shown superior performance on various computer vision tasks with their capabilities to capture long-range dependencies. Despite the success, it is challenging to directly apply Transformers on point clouds due to their quadratic cost in the number of points. In this paper, we present a Self-Positioning point-based Transformer (SPoTr), which is designed to capture both local and global shape contexts with reduced complexity. Specifically, this architecture consists of local self-attention and self-positioning point-based global cross-attention. The self-positioning points, adaptively located based on the input shape, consider both spatial and semantic information with disentangled attention to improve expressive power. With the self-positioning points, we propose a novel global cross-attention mechanism for point clouds, which improves the scalability of global self-attention by allowing the attention module to compute attention weights with only a small set of self-positioning points. Experiments show the effectiveness of SPoTr on three point cloud tasks such as shape classification, part segmentation, and scene segmentation. In particular, our proposed model achieves an accuracy gain of 2.6% over the previous best models on shape classification with ScanObjectNN. We also provide qualitative analyses to demonstrate the interpretability of self-positioning points. The code of SPoTr is available at https://github.com/mlvlab/SPoTr.
翻訳日:2023-03-30 16:05:47 公開日:2023-03-29
# 量子マスター方程式に関するチュートリアル:量子光学、量子コンピューティングなどのためのヒントとトリック

A Tutorial on Quantum Master Equations: Tips and tricks for quantum optics, quantum computing and beyond ( http://arxiv.org/abs/2303.16449v1 )

ライセンス: Link先を確認
Francesco Campaioli, Jared H. Cole and Harini Hapuarachchi(参考訳) 量子マスター方程式は、量子光学や量子情報処理、エネルギーと電荷輸送、電子と核スピン共鳴、光化学など、様々な顕微鏡システムの力学をモデル化するための貴重なツールである。 このチュートリアルは量子マスター方程式の簡潔で教育的な入門を提供し、幅広い分野にまたがる聴衆が利用できる。 読者は、複雑に構築された実例を使って、量子力学の基礎を案内される。 このチュートリアルでは、リンドブラッドマスター方程式、レッドフィールド緩和、フロケ理論などの重要な手法や、鈴木・トロッター展開やスパースソルバの数値的アプローチを取り上げている。 これらのメソッドはpythonや他の言語で実装されたコードスニペットで説明されており、一般化とより洗練された実装の出発点として使用できる。

Quantum master equations are an invaluable tool to model the dynamics of a plethora of microscopic systems, ranging from quantum optics and quantum information processing, to energy and charge transport, electronic and nuclear spin resonance, photochemistry, and more. This tutorial offers a concise and pedagogical introduction to quantum master equations, accessible to a broad, cross-disciplinary audience. The reader is guided through the basics of quantum dynamics with hands-on examples that build up in complexity. The tutorial covers essential methods like the Lindblad master equation, Redfield relaxation, and Floquet theory, as well as techniques like Suzuki-Trotter expansion and numerical approaches for sparse solvers. These methods are illustrated with code snippets implemented in python and other languages, which can be used as a starting point for generalisation and more sophisticated implementations.
翻訳日:2023-03-30 16:05:28 公開日:2023-03-29
# 接空間一貫性を利用した多視点アジマスステレオ

Multi-View Azimuth Stereo via Tangent Space Consistency ( http://arxiv.org/abs/2303.16447v1 )

ライセンス: Link先を確認
Xu Cao, Hiroaki Santo, Fumio Okura, Yasuyuki Matsushita(参考訳) キャリブレーションされた多面アジマスマップのみを用いた3次元再構成法を提案する。 本手法は,従来の多視点ステレオ法では困難であったテクスチャレス面やスペキュラ面に対して有効である。 表面点の多視点方位観測は、同じ接空間に持ち上げるべきである。 この一貫性を活かし、ニューラルネットワークの暗黙的表面表現を最適化することで形状を復元する。 本手法は,フォトメトリックステレオ法や偏光イメージングのロバストな方位推定機能を活用し,複雑なゼニス角推定をバイパスする。 各種音源からの方位マップを用いた実験では, 方位角がなくても, 精度の高い形状復元が可能である。

We present a method for 3D reconstruction only using calibrated multi-view surface azimuth maps. Our method, multi-view azimuth stereo, is effective for textureless or specular surfaces, which are difficult for conventional multi-view stereo methods. We introduce the concept of tangent space consistency: Multi-view azimuth observations of a surface point should be lifted to the same tangent space. Leveraging this consistency, we recover the shape by optimizing a neural implicit surface representation. Our method harnesses the robust azimuth estimation capabilities of photometric stereo methods or polarization imaging while bypassing potentially complex zenith angle estimation. Experiments using azimuth maps from various sources validate the accurate shape recovery with our method, even without zenith angles.
翻訳日:2023-03-30 16:05:12 公開日:2023-03-29
# より大きなプローブが異なるストーリーを語る:文脈内学習による心理的データセットの拡張

Larger Probes Tell a Different Story: Extending Psycholinguistic Datasets Via In-Context Learning ( http://arxiv.org/abs/2303.16445v1 )

ライセンス: Link先を確認
Namrata Shivagunde, Vladislav Lialin, and Anna Rumshisky(参考訳) 言語モデル探索は、しばしばこれらのモデルの特定の機能をテストするために使われる。 しかし、そのような研究の結論は、調査ベンチマークが小さく統計力が欠如している場合に限定される可能性がある。 本稿では,ネゲーション(neg-1500-simp)と役割反転(role-1500)の新たな大規模データセットを提案する。 GPT3 を用いて既存の NEG-136 と ROLE-88 ベンチマークを劇的に拡張し,それぞれ 18 と 44 の文対から 750 にサイズを拡大した。 また、テンプレートベースの生成を用いて作成した拡張否定データセット(NEG-1500-SIMP-TEMP)の別のバージョンも作成する。 770対の文からなる。 拡張したデータセット上で22モデルを評価し,モデル性能が20~57%低下した。 BERT や ALBERT のようなモデルでは,より小さなテストセットにより,以前の結果が歪んだ可能性があることを示すため,高いレベルの否定感度が観察された。 最後に、GPT3はROLE-1500の全ての例を生成しているが、探索中に24.6%しか解けない。

Language model probing is often used to test specific capabilities of these models. However, conclusions from such studies may be limited when the probing benchmarks are small and lack statistical power. In this work, we introduce new, larger datasets for negation (NEG-1500-SIMP) and role reversal (ROLE-1500) inspired by psycholinguistic studies. We dramatically extend existing NEG-136 and ROLE-88 benchmarks using GPT3, increasing their size from 18 and 44 sentence pairs to 750 each. We also create another version of extended negation dataset (NEG-1500-SIMP-TEMP), created using template-based generation. It consists of 770 sentence pairs. We evaluate 22 models on the extended datasets, seeing model performance dip 20-57% compared to the original smaller benchmarks. We observe high levels of negation sensitivity in models like BERT and ALBERT demonstrating that previous findings might have been skewed due to smaller test sets. Finally, we observe that while GPT3 has generated all the examples in ROLE-1500 is only able to solve 24.6% of them during probing.
翻訳日:2023-03-30 16:05:01 公開日:2023-03-29
# ランダム・ウェイト・ネットワークは画像復元の事前制約として機能する

Random Weights Networks Work as Loss Prior Constraint for Image Restoration ( http://arxiv.org/abs/2303.16438v1 )

ライセンス: Link先を確認
Man Zhou, Naishan Zheng, Jie Huang, Xiangyu Rui, Chunle Guo, Deyu Meng, Chongyi Li, Jinwei Gu(参考訳) 本稿では,既存のデータとモデル研究とを直交させて,新たな視点で損失関数の可能性について検討し,「ランダム重みネットワークは画像復元の損失前制約として機能できる」という信念を提示する。 関数理論に触発されて、Taylor's Unfolding Network、Invertible Neural Network、Central Different Convolution、Zero-order Filteringなどの厳密な数学的多様体に対する信念を「ランダム重み付けネットワークプロトタイプ」として実装するためのいくつかの代替ソリューションを提供する。 1) 異なるランダムウェイト戦略 2) 異なるネットワークアーキテクチャ, \emph{eg,} 純粋な畳み込み層又はトランスフォーマー 3)異なるネットワークアーキテクチャの深さ。 4)ランダム重みネットワークの組み合わせの異なる数。 さらに、ランダムに初期化された多様体の能力を拡大するために、以下の2つの変種におけるランダムウェイト法を考案する。 1) 重量は,訓練の期間中に一度だけランダムに初期化される。 2) 重みは訓練期間毎にランダムに初期化される。 提案する信念は,計算コストのトレーニングやテストを行わずに,既存のネットワークに直接挿入することができる。 画像復調,低照度画像強調,誘導画像超解像など,複数の画像復元作業における広範囲な実験により,我々の信念を取り入れた一貫した性能向上が示された。 強調するのは、損失関数の領域を刺激し、現在無視されている状態を保存することです。 コードは公開されます。

In this paper, orthogonal to the existing data and model studies, we instead resort our efforts to investigate the potential of loss function in a new perspective and present our belief ``Random Weights Networks can Be Acted as Loss Prior Constraint for Image Restoration''. Inspired by Functional theory, we provide several alternative solutions to implement our belief in the strict mathematical manifolds including Taylor's Unfolding Network, Invertible Neural Network, Central Difference Convolution and Zero-order Filtering as ``random weights network prototype'' with respect of the following four levels: 1) the different random weights strategies; 2) the different network architectures, \emph{eg,} pure convolution layer or transformer; 3) the different network architecture depths; 4) the different numbers of random weights network combination. Furthermore, to enlarge the capability of the randomly initialized manifolds, we devise the manner of random weights in the following two variants: 1) the weights are randomly initialized only once during the whole training procedure; 2) the weights are randomly initialized at each training iteration epoch. Our propose belief can be directly inserted into existing networks without any training and testing computational cost. Extensive experiments across multiple image restoration tasks, including image de-noising, low-light image enhancement, guided image super-resolution demonstrate the consistent performance gains obtained by introducing our belief. To emphasize, our main focus is to spark the realms of loss function and save their current neglected status. Code will be publicly available.
翻訳日:2023-03-30 16:04:41 公開日:2023-03-29
# 最適輸送によるドメイン適応意味セグメンテーション

Domain Adaptive Semantic Segmentation by Optimal Transport ( http://arxiv.org/abs/2303.16435v1 )

ライセンス: Link先を確認
Yaqian Guo, Xin Wang, Ce Li, Shihui Ying(参考訳) シーンセグメンテーションは、環境認識のための自律運転の分野で広く使われており、セマンティックシーンセグメンテーション(3S)は、それらに含まれるセマンティック情報の豊かさから、多くの注目を集めている。 画像中のピクセルにラベルを割り当てることを目的としており、自動ラベリングを可能にする。 現在のアプローチは主に畳み込みニューラルネットワーク(CNN)に基づいているが、多くのラベルに依存している。 そのため、ラベル付きデータの小さなサイズを使ってセマンティックセグメンテーションを実現する方法がますます重要になる。 本稿では,この問題を解決するために,最適輸送(ot)と注意機構に基づくドメイン適応(da)フレームワークを提案する。 具体的には、まず、特徴表現の優位性から、CNNを介して出力空間を生成する。 第二に、OTを用いて出力空間におけるソースドメインとターゲットドメインのより堅牢なアライメントを実現し、OTプランはモデルの適応性を改善するための注意機構を定義する。 特にOTでは、ネットワークパラメータの数が減少し、ネットワークの解釈性が向上した。 第3に,特徴のマルチスケール性を説明するため,ドメイン適応を行うマルチスケールセグメンテーションネットワークを構築した。 最後に,提案手法の性能を検証するため,3つのシーンデータセット上で3つのベンチマークと4つのSOTA手法を実験的に比較し,平均交叉和(mIOU)が大幅に改善され,複数のドメイン適応シナリオ下での可視化結果からも,提案手法がセマンティックセグメンテーション法よりも優れた性能を示した。

Scene segmentation is widely used in the field of autonomous driving for environment perception, and semantic scene segmentation (3S) has received a great deal of attention due to the richness of the semantic information it contains. It aims to assign labels to pixels in an image, thus enabling automatic image labeling. Current approaches are mainly based on convolutional neural networks (CNN), but they rely on a large number of labels. Therefore, how to use a small size of labeled data to achieve semantic segmentation becomes more and more important. In this paper, we propose a domain adaptation (DA) framework based on optimal transport (OT) and attention mechanism to address this issue. Concretely, first we generate the output space via CNN due to its superiority of feature representation. Second, we utilize OT to achieve a more robust alignment of source and target domains in output space, where the OT plan defines a well attention mechanism to improve the adaptation of the model. In particular, with OT, the number of network parameters has been reduced and the network has been better interpretable. Third, to better describe the multi-scale property of features, we construct a multi-scale segmentation network to perform domain adaptation. Finally, in order to verify the performance of our proposed method, we conduct experimental comparison with three benchmark and four SOTA methods on three scene datasets, and the mean intersection-over-union (mIOU) has been significant improved, and visualization results under multiple domain adaptation scenarios also show that our proposed method has better performance than compared semantic segmentation methods.
翻訳日:2023-03-30 16:04:15 公開日:2023-03-29
# TriVol: 3つのボリュームによるポイントクラウドレンダリング

TriVol: Point Cloud Rendering via Triple Volumes ( http://arxiv.org/abs/2303.16485v1 )

ライセンス: Link先を確認
Tao Hu, Xiaogang Xu, Ruihang Chu, Jiaya Jia(参考訳) 既存の学習ベースのポイントクラウドレンダリング手法では、さまざまな3D表現と特徴クエリ機構を採用して、ポイントクラウドのスパーシリティ問題を緩和している。 しかし、ポイントクラウドから連続的かつ差別的な3d特徴を抽出することの難しさから、レンダリング画像にはまだアーティファクトが現れる。 本稿では,細密で軽量な3d表現であるtrivolについて紹介する。これはnrfと組み合わせて,点雲からフォトリアリスティックな画像を生成することができる。 我々のTriVolは3つのスリムボリュームで構成されており、それぞれが点雲から符号化されている。 TriVolには2つの利点がある。 まず、異なるスケールで各分野を融合させ、差別表現のために局所的および非局所的特徴を抽出する。 第二に、ボリュームサイズが大幅に小さくなるため、3Dデコーダを効率よく推論することができ、3D空間の解像度を高め、より詳細な点を描画することができる。 様々なシーン/オブジェクトの異なるベンチマークに関する広範囲な実験は、現在のアプローチと比較して、フレームワークの有効性を示しています。 さらに,本フレームワークは,微調整なしでシーン/オブジェクトのカテゴリを描画できる優れた一般化機能を備えている。

Existing learning-based methods for point cloud rendering adopt various 3D representations and feature querying mechanisms to alleviate the sparsity problem of point clouds. However, artifacts still appear in rendered images, due to the challenges in extracting continuous and discriminative 3D features from point clouds. In this paper, we present a dense while lightweight 3D representation, named TriVol, that can be combined with NeRF to render photo-realistic images from point clouds. Our TriVol consists of triple slim volumes, each of which is encoded from the point cloud. TriVol has two advantages. First, it fuses respective fields at different scales and thus extracts local and non-local features for discriminative representation. Second, since the volume size is greatly reduced, our 3D decoder can be efficiently inferred, allowing us to increase the resolution of the 3D space to render more point details. Extensive experiments on different benchmarks with varying kinds of scenes/objects demonstrate our framework's effectiveness compared with current approaches. Moreover, our framework has excellent generalization ability to render a category of scenes/objects without fine-tuning.
翻訳日:2023-03-30 15:56:56 公開日:2023-03-29
# point2pix:ニューラルネットワークによるフォトリアリスティックなポイントクラウドレンダリング

Point2Pix: Photo-Realistic Point Cloud Rendering via Neural Radiance Fields ( http://arxiv.org/abs/2303.16482v1 )

ライセンス: Link先を確認
Tao Hu, Xiaogang Xu, Shu Liu, Jiaya Jia(参考訳) 点雲からのフォトリアリスティック画像の合成は、点雲表現の空間性のため困難である。 最近のニューラルラジアンス場と拡張法は、2次元入力からリアルな画像を合成するために提案されている。 本稿では,3次元スパース点雲と2次元高密度画像画素をリンクする新しいポイントレンダラとしてpoint2pixを提案する。 提案手法は,3D前の点群とNeRFレンダリングパイプラインを利用して,色付きの点群から高品質な画像を合成することができる。 レイサンプリングの効率を向上させるために,有効試料に着目した点誘導サンプリングを提案する。 また,点符号化を行い,判別可能な3次元点特徴を提供するマルチスケールラミアンスフィールドを構築する。 最後に,高品質な画像を効率よく合成するFusion Encodingを提案する。 ScanNetとArkitScenesデータセットに関する大規模な実験は、有効性と一般化を実証している。

Synthesizing photo-realistic images from a point cloud is challenging because of the sparsity of point cloud representation. Recent Neural Radiance Fields and extensions are proposed to synthesize realistic images from 2D input. In this paper, we present Point2Pix as a novel point renderer to link the 3D sparse point clouds with 2D dense image pixels. Taking advantage of the point cloud 3D prior and NeRF rendering pipeline, our method can synthesize high-quality images from colored point clouds, generally for novel indoor scenes. To improve the efficiency of ray sampling, we propose point-guided sampling, which focuses on valid samples. Also, we present Point Encoding to build Multi-scale Radiance Fields that provide discriminative 3D point features. Finally, we propose Fusion Encoding to efficiently synthesize high-quality images. Extensive experiments on the ScanNet and ArkitScenes datasets demonstrate the effectiveness and generalization.
翻訳日:2023-03-30 15:56:39 公開日:2023-03-29
# 結合共振器導波路における巨大原子による量子干渉と制御可能な魔法空洞QED

Quantum interference and controllable magic cavity QED via giant atom in coupled resonator waveguide ( http://arxiv.org/abs/2303.16480v1 )

ライセンス: Link先を確認
Xiaojun Zhang, Chengge Liu, Zhirui Gong, and Zhihai Wang(参考訳) 共振器導波路(CRW)と結合する巨大原子系におけるマルコフ力学と非マルコフ力学を遠方2箇所で検討する。 特定の条件下では、巨大原子の集団は振動する挙動を示し、光子は巨大原子系に閉じ込められる。 これらの現象は、連続体内および外部の境界状態間の干渉効果によって引き起こされる。 光子トラップの応用として、理論上は、結合部位間の距離によって、巨大原子が完全または漏れやすいキャビティとして機能する魔法のキャビティモデルを提案する。 従来のキャビティや回路QED設定では、マジックキャビティの完全から漏れへの制御性は実現できない。 予測された効果は最先端の導波路qed実験で調べることができ、異なる種類の境界状態が構造化された環境における量子オープンシステムのダイナミクスをどのように変化させるかを示す顕著な例を提供する。

We study the Markovian and Non-Markovian dynamics in a giant atom system which couples to a coupled resonator waveguide (CRW) via two distant sites. Under certain conditions, we find that the giant atom population can exhibit an oscillating behavior and the photon can be trapped in the giant atom regime. These phenomena are induced by the interference effect among the bound states both in and outside the continuum. As an application of the photon trapping, we theoretically propose a magic cavity model where the giant atom serve as either a perfect or leaky cavity, depending on the distance between the coupling sites. The controllability of the magic cavity from perfect to leaky one can not be realized in the traditional cavity or circuit QED setup. The predicted effects can be probed in state-of-the-art waveguide QED experiments and provide a striking example of how the different kinds of bound states modify the dynamics of quantum open system in a structured environment.
翻訳日:2023-03-30 15:56:24 公開日:2023-03-29
# シングルRGBカメラからの人間と物体のインタラクション追跡の可視性

Visibility Aware Human-Object Interaction Tracking from Single RGB Camera ( http://arxiv.org/abs/2303.16479v1 )

ライセンス: Link先を確認
Xianghui Xie and Bharat Lal Bhatnagar and Gerard Pons-Moll(参考訳) 人間と環境の相互作用を3dで捉えることは、ロボット工学、グラフィックス、視覚学の多くの応用において重要である。 一つのRGB画像から3次元人間と物体を再構成する最近の研究は、固定深度を仮定するため、フレーム間の相対変換が一貫しない。 さらに、オブジェクトがオクルードされるとパフォーマンスが大幅に低下する。 本研究では,1台のrgbカメラから3次元人物,物体,物体との接触,フレーム間の相対的変換を追跡する新しい手法を提案する。 我々の手法は2つの重要な洞察に基づいている。 まず、ビデオシーケンスにSMPLを予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。 これにより、神経再構成の精度が向上し、フレーム間のコヒーレントな相対変換が生成される。 第二に、目に見えるフレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。 本研究では,物体の視認性と人間の動きを明示的に利用し,隣接フレームを用いてオクルードフレームの予測を行う,トランスフォーマーベースのニューラルネットを提案する。 これらの知見に基づいて,本手法は,隠蔽下であっても,人間と物体の両方を頑健に追跡することができる。 2つのデータセットの実験により,本手法は最先端の手法よりも大幅に改善されていることが示された。 私たちのコードと事前トレーニングされたモデルは、https://virtualhumans.mpi-inf.mpg.de/vistrackerで利用可能です。

Capturing the interactions between humans and their environment in 3D is important for many applications in robotics, graphics, and vision. Recent works to reconstruct the 3D human and object from a single RGB image do not have consistent relative translation across frames because they assume a fixed depth. Moreover, their performance drops significantly when the object is occluded. In this work, we propose a novel method to track the 3D human, object, contacts between them, and their relative translation across frames from a single RGB camera, while being robust to heavy occlusions. Our method is built on two key insights. First, we condition our neural field reconstructions for human and object on per-frame SMPL model estimates obtained by pre-fitting SMPL to a video sequence. This improves neural reconstruction accuracy and produces coherent relative translation across frames. Second, human and object motion from visible frames provides valuable information to infer the occluded object. We propose a novel transformer-based neural network that explicitly uses object visibility and human motion to leverage neighbouring frames to make predictions for the occluded frames. Building on these insights, our method is able to track both human and object robustly even under occlusions. Experiments on two datasets show that our method significantly improves over the state-of-the-art methods. Our code and pretrained models are available at: https://virtualhumans.mpi-inf.mpg.de/VisTracker
翻訳日:2023-03-30 15:56:07 公開日:2023-03-29
# 限定デモによる決定論的政策による複雑な操作スキルの学習

Learning Complicated Manipulation Skills via Deterministic Policy with Limited Demonstrations ( http://arxiv.org/abs/2303.16469v1 )

ライセンス: Link先を確認
Liu Haofeng, Chen Yiwen, Tan Jiayi, Marcelo H Ang(参考訳) デモと組み合わせることで、深層強化学習はマニピュレータのポリシーを効率的に開発することができる。 しかし、実際に十分な品質のデモンストレーションを集めるには時間がかかる。 人間のデモはロボットには不向きかもしれない。 非マルコフ過程とデモへの過度信頼はさらなる課題である。 例えば、RLエージェントは、操作タスクのデモ品質に敏感であり、人間から直接のデモに適応するのに苦労している。 したがって、より良い政策を訓練する際の強化学習を支援するために、低品質で不十分なデモンストレーションを活用するのは難しい。 これらの問題を解決するために,TD3fG (TD3 Learning from a generator) という新しいアルゴリズムを提案する。 専門家からの学習から経験からの学習へとスムーズに移行します。 このイノベーションは、エージェントが事前の知識を抽出し、デモンストレーションの有害な効果を減らすのに役立つ。 Adroit のマニピュレータと MuJoCo タスクでは, 限られた実演でよく動作する。

Combined with demonstrations, deep reinforcement learning can efficiently develop policies for manipulators. However, it takes time to collect sufficient high-quality demonstrations in practice. And human demonstrations may be unsuitable for robots. The non-Markovian process and over-reliance on demonstrations are further challenges. For example, we found that RL agents are sensitive to demonstration quality in manipulation tasks and struggle to adapt to demonstrations directly from humans. Thus it is challenging to leverage low-quality and insufficient demonstrations to assist reinforcement learning in training better policies, and sometimes, limited demonstrations even lead to worse performance. We propose a new algorithm named TD3fG (TD3 learning from a generator) to solve these problems. It forms a smooth transition from learning from experts to learning from experience. This innovation can help agents extract prior knowledge while reducing the detrimental effects of the demonstrations. Our algorithm performs well in Adroit manipulator and MuJoCo tasks with limited demonstrations.
翻訳日:2023-03-30 15:55:46 公開日:2023-03-29
# NerVE:ポイントクラウドからのパラメトリック曲線抽出のためのニューラルネットワークボリュームエッジ

NerVE: Neural Volumetric Edges for Parametric Curve Extraction from Point Cloud ( http://arxiv.org/abs/2303.16465v1 )

ライセンス: Link先を確認
Xiangyu Zhu, Dong Du, Weikai Chen, Zhiyou Zhao, Yinyu Nie, Xiaoguang Han(参考訳) 点雲からパラメトリックエッジ曲線を抽出することは、3次元視覚と幾何学処理の基本的な問題である。 既存のアプローチは主にキーポイント検出に依存しており、ノイズの多い出力を生成する傾向があるため、その後のエッジ抽出エラーが発生しやすい。 そこで本研究では,従来のポイントワイズ手法の限界を回避するために,構造エッジを直接検出することを提案する。 我々は、この目標を達成するために、NerVEという、ボリューム学習フレームワークを通じて容易に学習できる新しいニューラルネットワークボリュームエッジ表現を提示する。 NerVE は、任意の種類の自由形式曲線を学習するための統一戦略を実現するために、多機能なピースワイド線形曲線表現(PWL)にシームレスに変換することができる。 さらに、NerVEがリッチな構造情報を符号化することにより、NerVEに基づくエッジ抽出を単純なグラフ探索問題に還元できることを示す。 NerVEをPWL表現に変換すると、オフザシェルフスプラインフィッティングアルゴリズムによってパラメトリック曲線が得られる。 本手法をabcデータセット上で評価する。 神経に基づく単純なネットワークが,従来の最先端の手法をはるかに上回ることができることを示す。 プロジェクトページ: https://dongdu3.github.io/projects/2023/nerve/

Extracting parametric edge curves from point clouds is a fundamental problem in 3D vision and geometry processing. Existing approaches mainly rely on keypoint detection, a challenging procedure that tends to generate noisy output, making the subsequent edge extraction error-prone. To address this issue, we propose to directly detect structured edges to circumvent the limitations of the previous point-wise methods. We achieve this goal by presenting NerVE, a novel neural volumetric edge representation that can be easily learned through a volumetric learning framework. NerVE can be seamlessly converted to a versatile piece-wise linear (PWL) curve representation, enabling a unified strategy for learning all types of free-form curves. Furthermore, as NerVE encodes rich structural information, we show that edge extraction based on NerVE can be reduced to a simple graph search problem. After converting NerVE to the PWL representation, parametric curves can be obtained via off-the-shelf spline fitting algorithms. We evaluate our method on the challenging ABC dataset. We show that a simple network based on NerVE can already outperform the previous state-of-the-art methods by a great margin. Project page: https://dongdu3.github.io/projects/2023/NerVE/.
翻訳日:2023-03-30 15:55:30 公開日:2023-03-29
# adamおよびadamwオプティマイザによる深層ニューラルネットワークの一般化性能に及ぼす損失関数のリプシッツ性の影響

Lipschitzness Effect of a Loss Function on Generalization Performance of Deep Neural Networks Trained by Adam and AdamW Optimizers ( http://arxiv.org/abs/2303.16464v1 )

ライセンス: Link先を確認
Mohammad Lashkari and Amin Gheibi(参考訳) 最適化アルゴリズムに関するディープニューラルネットワークの一般化性能は、機械学習における主要な関心事の一つである。 このパフォーマンスはさまざまな要因に影響を受けます。 本稿では,損失関数のリプシッツ定数がAdamやAdamWによって得られた出力モデルの一般化誤差を減少させる重要な要因であることを理論的に証明する。 この結果は、最適化アルゴリズムがAdamまたはAdamWであるときに損失関数を選択するためのガイドラインとして使用できる。 また,現実的な環境下での理論的境界を評価するために,コンピュータビジョンにおける年齢推定問題を選択する。 一般化をよりよく評価するために、トレーニングとテストデータセットは異なる分布から引き出される。 実験により,リプシッツ定数が低く最大値の損失関数はadamやadamwによって訓練されたモデルの一般化を改善できることを示した。

The generalization performance of deep neural networks with regard to the optimization algorithm is one of the major concerns in machine learning. This performance can be affected by various factors. In this paper, we theoretically prove that the Lipschitz constant of a loss function is an important factor to diminish the generalization error of the output model obtained by Adam or AdamW. The results can be used as a guideline for choosing the loss function when the optimization algorithm is Adam or AdamW. In addition, to evaluate the theoretical bound in a practical setting, we choose the human age estimation problem in computer vision. For assessing the generalization better, the training and test datasets are drawn from different distributions. Our experimental evaluation shows that the loss function with lower Lipschitz constant and maximum value improves the generalization of the model trained by Adam or AdamW.
翻訳日:2023-03-30 15:55:10 公開日:2023-03-29
# トポロジカル量子場理論から見た通信プロトコルと量子誤り訂正符号

Communication protocols and quantum error-correcting codes from the perspective of topological quantum field theory ( http://arxiv.org/abs/2303.16461v1 )

ライセンス: Link先を確認
Chris Fields, James F. Glazebrook and Antonino Marciano(参考訳) トポロジカル量子場理論(TQFT)は、量子状態の準備と測定を記述するための一般的な最小推定言語を提供する。 そのため、ローカル操作、古典的通信(LOCC)プロトコルなどのマルチエージェント通信プロトコルを表現する汎用言語を提供する。 ここでは、TQFTを用いてLOCCプロトコルを構築し、LOCCプロトコルがエージェント環境境界上で量子エラー訂正符号(QECC)を誘導することを示す。 そのような QECC は、そのような境界上での時空の出現を実装または誘導すると見なすことができる。 本稿では,BF理論とチャーン・サイモンズ理論を用いて,エージェント間通信と時空の関連性を検討した。

Topological quantum field theories (TQFTs) provide a general, minimal-assumption language for describing quantum-state preparation and measurement. They therefore provide a general language in which to express multi-agent communication protocols, e.g. local operations, classical communication (LOCC) protocols. Here we construct LOCC protocols using TQFT, and show that LOCC protocols induce quantum error-correcting codes (QECCs) on the agent-environment boundary. Such QECCs can be regarded as implementing, or inducing the emergence of, spacetimes on such boundaries. We investigate this connection between inter-agent communication and spacetime using BF and Chern-Simons theories, and then using topological M-theory.
翻訳日:2023-03-30 15:54:59 公開日:2023-03-29
# gnnbuilder - 汎用グラフニューラルネットワークアクセラレーション生成,シミュレーション,最適化のための自動化フレームワーク

GNNBuilder: An Automated Framework for Generic Graph Neural Network Accelerator Generation, Simulation, and Optimization ( http://arxiv.org/abs/2303.16459v1 )

ライセンス: Link先を確認
Stefan Abi-Karam, Cong Hao(参考訳) たくさんのグラフニューラルネットワーク(gnn)加速器が提案されている。 しかしながら、それらはユーザのハードウェアの専門知識に強く依存しており、通常は特定のGNNモデルに最適化されているため、実用的な利用には困難である。 そこで、本研究では、gnnbuilder を提案する。これは、最初の自動化された、汎用的な、エンドツーエンドのgnnアクセラレーター生成フレームワークである。 It features four advantages: (1) GNNBuilder can automatically generate GNN accelerators for a wide range of GNN models arbitrarily defined by users; (2) GNNBuilder takes standard PyTorch programming interface, introducing zero overhead for algorithm developers; (3) GNNBuilder supports end-to-end code generation, simulation, accelerator optimization, and hardware deployment, realizing a push-button fashion for GNN accelerator design; (4) GNNBuilder is equipped with accurate performance models of its generated accelerator, enabling fast and flexible design space exploration (DSE). 実験では、まず、我々のアクセラレータ性能モデルがレイテンシ予測で36セント、BRAMカウント予測で18セントの誤差を持つことを示した。 次に、生成したアクセラレーターはCPUを6.33\times$、GPUを6.87\times$で上回ります。 このフレームワークはオープンソースであり、コードはhttps://anonymous.4open.science/r/gnn-builder-83B4/で入手できる。

There are plenty of graph neural network (GNN) accelerators being proposed. However, they highly rely on users' hardware expertise and are usually optimized for one specific GNN model, making them challenging for practical use . Therefore, in this work, we propose GNNBuilder, the first automated, generic, end-to-end GNN accelerator generation framework. It features four advantages: (1) GNNBuilder can automatically generate GNN accelerators for a wide range of GNN models arbitrarily defined by users; (2) GNNBuilder takes standard PyTorch programming interface, introducing zero overhead for algorithm developers; (3) GNNBuilder supports end-to-end code generation, simulation, accelerator optimization, and hardware deployment, realizing a push-button fashion for GNN accelerator design; (4) GNNBuilder is equipped with accurate performance models of its generated accelerator, enabling fast and flexible design space exploration (DSE). In the experiments, first, we show that our accelerator performance model has errors within $36\%$ for latency prediction and $18\%$ for BRAM count prediction. Second, we show that our generated accelerators can outperform CPU by $6.33\times$ and GPU by $6.87\times$. This framework is open-source, and the code is available at https://anonymous.4open.science/r/gnn-builder-83B4/.
翻訳日:2023-03-30 15:54:46 公開日:2023-03-29
# グラフニューラルネットワークの事前トレーニングはいつか? データ生成の観点からの答え!

When to Pre-Train Graph Neural Networks? An Answer from Data Generation Perspective! ( http://arxiv.org/abs/2303.16458v1 )

ライセンス: Link先を確認
Yuxuan Cao, Jiarong Xu, Carl Yang, Jiaan Wang, Yunchao Zhang, Chunping Wang, Lei Chen, Yang Yang(参考訳) 近年,グラフ事前学習が注目されており,グラフデータから伝達可能な知識を学習して下流の性能を向上させることを目指している。 これらの最近の試みにもかかわらず、下流タスクにグラフ事前学習モデルを適用する場合、負の転送は大きな問題である。 既存の作業は、事前トレーニングの方法と、多数のグラフ事前トレーニングと微調整戦略を設計することで、事前トレーニングの方法の問題に多大な努力を払っていた。 しかし、戦略がどんなに進歩しても、「事前訓練と微調整」のパラダイムは依然として明確な利益を得られないケースがある。 本稿では,事前トレーニングや微調整を行う前に,事前トレーニングをいつ行うか(つまり,どのような状況でグラフ事前トレーニングを活用できるか)という重要な質問に答える汎用フレームワークw2pgnnを紹介する。 まず,新しい視点から,事前学習データから下流データへの複雑な生成メカニズムを探索する。 特に、w2pgnnは、まず事前トレーニングされたデータをgraphonベースに適合させ、graphon基底(すなわちgraphon)の各要素は、事前トレーニングされたグラフの集合によって共有される基本的な転送可能なパターンを識別する。 グラフェン塩基のすべての凸結合は生成空間を生じさせ、そこから生成されたグラフは、事前学習の恩恵を受ける下流データのための解空間を形成する。 これにより、発電機空間内の任意の発電機からの下流データの生成確率として事前学習の実現可能性を定量化することができる。 W2PGNNは、グラフ事前トレーニングモデルの適用範囲の提供、事前トレーニングの実行可能性の定量化、事前トレーニングデータの選択による下流のパフォーマンス向上など、幅広い3つのアプリケーションを提供している。 後者の2つの応用について, 理論上, 合理的な解法と広範な経験的正当性を与える。

Recently, graph pre-training has attracted wide research attention, which aims to learn transferable knowledge from unlabeled graph data so as to improve downstream performance. Despite these recent attempts, the negative transfer is a major issue when applying graph pre-trained models to downstream tasks. Existing works made great efforts on the issue of what to pre-train and how to pre-train by designing a number of graph pre-training and fine-tuning strategies. However, there are indeed cases where no matter how advanced the strategy is, the "pre-train and fine-tune" paradigm still cannot achieve clear benefits. This paper introduces a generic framework W2PGNN to answer the crucial question of when to pre-train (i.e., in what situations could we take advantage of graph pre-training) before performing effortful pre-training or fine-tuning. We start from a new perspective to explore the complex generative mechanisms from the pre-training data to downstream data. In particular, W2PGNN first fits the pre-training data into graphon bases, each element of graphon basis (i.e., a graphon) identifies a fundamental transferable pattern shared by a collection of pre-training graphs. All convex combinations of graphon bases give rise to a generator space, from which graphs generated form the solution space for those downstream data that can benefit from pre-training. In this manner, the feasibility of pre-training can be quantified as the generation probability of the downstream data from any generator in the generator space. W2PGNN provides three broad applications, including providing the application scope of graph pre-trained models, quantifying the feasibility of performing pre-training, and helping select pre-training data to enhance downstream performance. We give a theoretically sound solution for the first application and extensive empirical justifications for the latter two applications.
翻訳日:2023-03-30 15:54:26 公開日:2023-03-29
# 複数のエキスパートアノテータによる医用画像解析における物体検出の改善に関する実証的研究

Improving Object Detection in Medical Image Analysis through Multiple Expert Annotators: An Empirical Investigation ( http://arxiv.org/abs/2303.16507v1 )

ライセンス: Link先を確認
Hieu H. Pham, Khiem H. Le, Tuan V. Tran, Ha Q. Nguyen(参考訳) 本研究は,医療画像解析における異常検出における機械学習アルゴリズムの利用と,それらのアルゴリズムの性能がアノテータの数やラベルの品質にどのように依存するかを論じる。 一つの注釈子によるラベリングにおける主観性の問題に対処するために,複数の注釈子からのアノテーションを専門知識の異なるレベルに集約する,単純かつ効果的なアプローチを提案する。 次に、複数のアノテーションから隠れラベルを推定し、再重み付き損失関数を用いて検出性能を向上させることにより、異常検出タスクにおける予測モデルの効率を向上させることを目的とする。 本手法は実世界の医用画像データセットを用いて評価し,アノテータ間の不一致を考慮しない関連ベースラインよりも優れていることを示す。

The work discusses the use of machine learning algorithms for anomaly detection in medical image analysis and how the performance of these algorithms depends on the number of annotators and the quality of labels. To address the issue of subjectivity in labeling with a single annotator, we introduce a simple and effective approach that aggregates annotations from multiple annotators with varying levels of expertise. We then aim to improve the efficiency of predictive models in abnormal detection tasks by estimating hidden labels from multiple annotations and using a re-weighted loss function to improve detection performance. Our method is evaluated on a real-world medical imaging dataset and outperforms relevant baselines that do not consider disagreements among annotators.
翻訳日:2023-03-30 15:49:05 公開日:2023-03-29
# 多目的回帰のためのランダム森林の局所的解釈可能性

Local Interpretability of Random Forests for Multi-Target Regression ( http://arxiv.org/abs/2303.16506v1 )

ライセンス: Link先を確認
Avraam Bardos, Nikolaos Mylonas, Ioannis Mollas, Grigorios Tsoumakas(参考訳) 多目的回帰は多くのアプリケーションで有用である。 ランダム森林モデルはこれらのタスクでよく機能するが、しばしば解釈するのが困難である。 解釈可能性は、特に人間の幸福に直接影響を及ぼすことができる機械学習において重要である。 マルチターゲット回帰のためのモデル非依存技術は存在するが、ランダムフォレストモデルに合わせた特定の技術は利用できない。 そこで本研究では,ランダムフォレストモデルによる多目標回帰のインスタンスに対するルールベース解釈を,近年のランダムフォレスト解釈のモデル固有手法に影響を受けた手法を提案する。 提案手法は広範な実験により評価され,最新技術と比較して競争力のある解釈が得られた。

Multi-target regression is useful in a plethora of applications. Although random forest models perform well in these tasks, they are often difficult to interpret. Interpretability is crucial in machine learning, especially when it can directly impact human well-being. Although model-agnostic techniques exist for multi-target regression, specific techniques tailored to random forest models are not available. To address this issue, we propose a technique that provides rule-based interpretations for instances made by a random forest model for multi-target regression, influenced by a recent model-specific technique for random forest interpretability. The proposed technique was evaluated through extensive experiments and shown to offer competitive interpretations compared to state-of-the-art techniques.
翻訳日:2023-03-30 15:48:51 公開日:2023-03-29
# 過パラメータの指数回帰

An Over-parameterized Exponential Regression ( http://arxiv.org/abs/2303.16504v1 )

ライセンス: Link先を確認
Yeqi Gao, Sridhar Mahadevan, Zhao Song(参考訳) 過去数年間、過剰なパラメータ化によるニューラルネットワーク収束の実現を目的として、ReLUアクティベーション機能の研究に焦点をあてた研究が多数行われている。 しかし、近年のLLM(Large Language Models)分野の発展は、特に注意機構における指数的アクティベーション関数の使用への関心を喚起している。 数学的には、指数的アクティベーション関数を用いて、神経関数 $F: \mathbb{R}^{d \times m} \times \mathbb{R}^d \rightarrow \mathbb{R}$ を定義する。 ラベルが $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\} \subset \mathbb{R}^d \times \mathbb{R}$ ここで$n$ はデータの数を表す。 ここで $f(w(t),x)$ は $f(w(t),x) := \sum_{r=1}^m a_r \exp(\langle w_r, x \rangle)$ と表現できる。 文学では、$a_r$が固定重みであり、トレーニング中に変更されることはない。 w(0) \in \mathbb{r}^{d \times m}$ をランダムなガウス分布で初期化し、$w_r(0) \sim \mathcal{n}(0, i_d)$ とし、$r \in [m]$ ごとにランダム符号分布から$a_r$ を初期化する。 勾配降下アルゴリズムを用いて、$\| F(W(T, X) - y \|_2 \leq \epsilon$ が確率 $1-\delta$ で成り立つような重量 $W(T)$ を見つけることができ、$\epsilon \in (0,0.1)$ と $m = \Omega(n^{2+o(1)}\log(n/\delta))$ が成り立つ。 オーバーパラメータ化を最適化するために,従来の研究(Song arXiv 2019,Munteanu,Omlor,Song,Woodruff ICML 2022)から,いくつかの厳密な分析手法を採用した。

Over the past few years, there has been a significant amount of research focused on studying the ReLU activation function, with the aim of achieving neural network convergence through over-parametrization. However, recent developments in the field of Large Language Models (LLMs) have sparked interest in the use of exponential activation functions, specifically in the attention mechanism. Mathematically, we define the neural function $F: \mathbb{R}^{d \times m} \times \mathbb{R}^d \rightarrow \mathbb{R}$ using an exponential activation function. Given a set of data points with labels $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\} \subset \mathbb{R}^d \times \mathbb{R}$ where $n$ denotes the number of the data. Here $F(W(t),x)$ can be expressed as $F(W(t),x) := \sum_{r=1}^m a_r \exp(\langle w_r, x \rangle)$, where $m$ represents the number of neurons, and $w_r(t)$ are weights at time $t$. It's standard in literature that $a_r$ are the fixed weights and it's never changed during the training. We initialize the weights $W(0) \in \mathbb{R}^{d \times m}$ with random Gaussian distributions, such that $w_r(0) \sim \mathcal{N}(0, I_d)$ and initialize $a_r$ from random sign distribution for each $r \in [m]$. Using the gradient descent algorithm, we can find a weight $W(T)$ such that $\| F(W(T), X) - y \|_2 \leq \epsilon$ holds with probability $1-\delta$, where $\epsilon \in (0,0.1)$ and $m = \Omega(n^{2+o(1)}\log(n/\delta))$. To optimize the over-parameterization bound $m$, we employ several tight analysis techniques from previous studies [Song and Yang arXiv 2019, Munteanu, Omlor, Song and Woodruff ICML 2022].
翻訳日:2023-03-30 15:48:41 公開日:2023-03-29
# SGD型法の統一解析

Unified analysis of SGD-type methods ( http://arxiv.org/abs/2303.16502v1 )

ライセンス: Link先を確認
Eduard Gorbunov(参考訳) 本論は, sgd 型法 (gorbunov et al., 2020) の強凸最適化問題に対する統一的解析への簡単なアプローチに注目したものである。 異なる確率的一階法の解析における類似性について,既存のフレームワークの拡張とともに論じる。 分析の限界といくつかの代替アプローチも言及されている。

This note focuses on a simple approach to the unified analysis of SGD-type methods from (Gorbunov et al., 2020) for strongly convex smooth optimization problems. The similarities in the analyses of different stochastic first-order methods are discussed along with the existing extensions of the framework. The limitations of the analysis and several alternative approaches are mentioned as well.
翻訳日:2023-03-30 15:47:46 公開日:2023-03-29
# AVFormer:ゼロショットAV-ASRのための凍結音声モデルへの視覚注入

AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR ( http://arxiv.org/abs/2303.16501v1 )

ライセンス: Link先を確認
Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid(参考訳) 聴覚自動音声認識(AV-ASR)は,視覚情報を組み込んだ音声認識システムの堅牢性向上を目的としている。 しかし、このタスクのために完全に教師付きマルチモーダルモデルをスクラッチからトレーニングすることは、大きなラベル付きオーディオビジュアルデータセット(各下流ドメインの)の必要性によって制限される。 AVFormerは、視覚情報で音声のみのモデルを拡張するための簡易な手法であり、同時に軽量なドメイン適応を行う。 私たちはこれを i)軽量なトレーニング可能な適応器を用いて凍結型ASRモデルに視覚的埋め込みを注入する。 これらを,最小限のトレーニング時間とパラメータで,少量の弱いラベル付きビデオデータでトレーニングできることを実証する。 (II)学習中の簡単なカリキュラムも導入し、モデルが音声と視覚情報を効果的に処理できるようにすることが重要であることを示す。 (iii)本モデルは3種類のav-asrベンチマーク(how2, visspeech, ego4d)で技術ゼロショット結果を達成し,また従来の音声認識ベンチマーク(librispeech)でも良好な性能を保っていることを示す。 定性的な結果から,我々のモデルは視覚情報を利用して頑健な音声認識を行う。

Audiovisual automatic speech recognition (AV-ASR) aims to improve the robustness of a speech recognition system by incorporating visual information. Training fully supervised multimodal models for this task from scratch, however is limited by the need for large labelled audiovisual datasets (in each downstream domain of interest). We present AVFormer, a simple method for augmenting audio-only models with visual information, at the same time performing lightweight domain adaptation. We do this by (i) injecting visual embeddings into a frozen ASR model using lightweight trainable adaptors. We show that these can be trained on a small amount of weakly labelled video data with minimum additional training time and parameters. (ii) We also introduce a simple curriculum scheme during training which we show is crucial to enable the model to jointly process audio and visual information effectively; and finally (iii) we show that our model achieves state of the art zero-shot results on three different AV-ASR benchmarks (How2, VisSpeech and Ego4D), while also crucially preserving decent performance on traditional audio-only speech recognition benchmarks (LibriSpeech). Qualitative results show that our model effectively leverages visual information for robust speech recognition.
翻訳日:2023-03-30 15:47:41 公開日:2023-03-29
# x)aiの不信 -- 測定アーティファクトか、明確な構成か?

Distrust in (X)AI -- Measurement Artifact or Distinct Construct? ( http://arxiv.org/abs/2303.16495v1 )

ライセンス: Link先を確認
Nicolas Scharowski, Sebastian A. C. Perrig(参考訳) 信頼は説明可能な人工知能(XAI)を開発する上で重要な動機である。 しかし、AIの信頼を測ろうとする研究者は、異なる信頼概念化、信頼の前提条件として不確実性をもたらすことのない実験的なタスクの単純化、AIの文脈における検証された信頼アンケートの欠如など、多くの課題に直面している。 信頼は1つの構成として、そして、信頼から独立した第2の構成として、"emph{distrust}"は、潜在的に区別される可能性がある。 この区別と信頼の1次元と2次元の概念化の議論については長い間学術的な議論があったが、xaiでは不信感は比較的低かったようである。 本稿では,信頼と不信頼を区別する概念としての不信の理論的な議論を強調するだけでなく,信頼と不信の区別を同じく好む心理学的証拠を文脈化する。 利用可能な心理測定証拠が不信感の存在に十分か、不信感が単なる測定アーティファクトであるのかはまだ調査されていない。 それでも、XAIコミュニティは、これら2つの関連構造をより包括的に理解するために、信頼と不信を考慮すべきである。

Trust is a key motivation in developing explainable artificial intelligence (XAI). However, researchers attempting to measure trust in AI face numerous challenges, such as different trust conceptualizations, simplified experimental tasks that may not induce uncertainty as a prerequisite for trust, and the lack of validated trust questionnaires in the context of AI. While acknowledging these issues, we have identified a further challenge that currently seems underappreciated - the potential distinction between trust as one construct and \emph{distrust} as a second construct independent of trust. While there has been long-standing academic discourse for this distinction and arguments for both the one-dimensional and two-dimensional conceptualization of trust, distrust seems relatively understudied in XAI. In this position paper, we not only highlight the theoretical arguments for distrust as a distinct construct from trust but also contextualize psychometric evidence that likewise favors a distinction between trust and distrust. It remains to be investigated whether the available psychometric evidence is sufficient for the existence of distrust or whether distrust is merely a measurement artifact. Nevertheless, the XAI community should remain receptive to considering trust and distrust for a more comprehensive understanding of these two relevant constructs in XAI.
翻訳日:2023-03-30 15:47:20 公開日:2023-03-29
# AnyFlow: 意図しない神経表現を伴う任意スケール光流

AnyFlow: Arbitrary Scale Optical Flow with Implicit Neural Representation ( http://arxiv.org/abs/2303.16493v1 )

ライセンス: Link先を確認
Hyunyoung Jung, Zhuo Hui, Lei Luo, Haitao Yang, Feng Liu, Sungjoo Yoo, Rakesh Ranjan, Denis Demandolx(参考訳) 実際、光学フローを適用するには、計算コストを削減するために入力をより小さな次元にサイズ変更する必要がある。 しかし、物体と運動範囲が小さくなるため、入力の縮小により推定がより困難になる。 最近のアプローチでは、高品質なフロー推定が実証されているが、入力解像度を下げる際に小さなオブジェクトと正確な境界を正確にモデル化することができず、高解像度の入力に適用可能である。 本稿では,様々な解像度の画像から正確な流れを推定するロバストネットワークであるAnyFlowを紹介する。 光学フローを連続座標ベース表現として表現することにより、AnyFlowは低解像度入力から任意のスケールで出力を生成し、幅広いシーンで細部を保存した小さなオブジェクトをキャプチャする以前の作業よりも優れた性能を示す。 我々は、KITTIデータセット上でのクロスデータセット一般化の最先端性能を確立し、オンラインベンチマークにおいて他のSOTA手法と同等の精度を達成する。

To apply optical flow in practice, it is often necessary to resize the input to smaller dimensions in order to reduce computational costs. However, downsizing inputs makes the estimation more challenging because objects and motion ranges become smaller. Even though recent approaches have demonstrated high-quality flow estimation, they tend to fail to accurately model small objects and precise boundaries when the input resolution is lowered, restricting their applicability to high-resolution inputs. In this paper, we introduce AnyFlow, a robust network that estimates accurate flow from images of various resolutions. By representing optical flow as a continuous coordinate-based representation, AnyFlow generates outputs at arbitrary scales from low-resolution inputs, demonstrating superior performance over prior works in capturing tiny objects with detail preservation on a wide range of scenes. We establish a new state-of-the-art performance of cross-dataset generalization on the KITTI dataset, while achieving comparable accuracy on the online benchmarks to other SOTA methods.
翻訳日:2023-03-30 15:46:45 公開日:2023-03-29
# 連続超解像のための暗黙的拡散モデル

Implicit Diffusion Models for Continuous Super-Resolution ( http://arxiv.org/abs/2303.16491v1 )

ライセンス: Link先を確認
Sicheng Gao and Xuhui Liu and Bohan Zeng and Sheng Xu and Yanjing Li and Xiaoyan Luo and Jianzhuang Liu and Xiantong Zhen and Baochang Zhang(参考訳) 画像超解像(SR)はその幅広い応用により注目を集めている。 しかし、現在のsrメソッドは一般的に過剰なスムーシングとアーティファクトに苦しんでおり、ほとんどは固定された倍率でしか動作しない。 本稿では,高忠実度連続画像の超解像のための暗黙拡散モデル(idm)を提案する。 IDMは暗黙のニューラル表現と暗黙の拡散モデルを統合されたエンドツーエンドフレームワークに統合し、暗黙のニューラル表現が復号プロセスで採用され、連続的なレゾリューション表現が学習される。 さらに、低解像度(LR)コンディショニングネットワークとスケーリング係数からなるスケール制御可能なコンディショニング機構を設計する。 スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を調整し、連続分解能要件を満たすことができる。 IDMの有効性を検証し,先行技術よりも優れた性能を示した。

Image super-resolution (SR) has attracted increasing attention due to its wide applications. However, current SR methods generally suffer from over-smoothing and artifacts, and most work only with fixed magnifications. This paper introduces an Implicit Diffusion Model (IDM) for high-fidelity continuous image super-resolution. IDM integrates an implicit neural representation and a denoising diffusion model in a unified end-to-end framework, where the implicit neural representation is adopted in the decoding process to learn continuous-resolution representation. Furthermore, we design a scale-controllable conditioning mechanism that consists of a low-resolution (LR) conditioning network and a scaling factor. The scaling factor regulates the resolution and accordingly modulates the proportion of the LR information and generated features in the final output, which enables the model to accommodate the continuous-resolution requirement. Extensive experiments validate the effectiveness of our IDM and demonstrate its superior performance over prior arts.
翻訳日:2023-03-30 15:46:14 公開日:2023-03-29
# 自己重力系の無衝突ボルツマンシミュレーションのための量子アルゴリズム

Quantum algorithm for collisionless Boltzmann simulation of self-gravitating systems ( http://arxiv.org/abs/2303.16490v1 )

ライセンス: Link先を確認
Soichiro Yamazaki, Fumio Uchida, Kotaro Fujisawa and Naoki Yoshida(参考訳) 衝突のないボルツマン方程式(英: Collingless Boltzmann equation, CBE)は、宇宙プラズマから星団、銀河まで幅広い天体物理学系の力学を規定する基礎方程式である。 位相空間に直接CBEを統合するのは計算コストがかかるため、現実的な天体物理学問題への応用は制限されている。 近年、Todorova \&Steijl (2020) は計算複雑性を著しく低減した CBE を解くための効率的な量子アルゴリズムを提案した。 自己重力系の進化を追従する量子シミュレーションを行う手法を拡張した。 まず,13個のシミュレーション量子ビットを用いて64$\times$64グリッド上で自由ストリーミング動作の1+1次元テスト計算を行い,その検証を行った。 次に,ジーンズの崩壊シミュレーションを行い,解析的および線形理論計算と比較する。 本稿では,初期条件を生成するための直接的手法と,複数のキュービットのレジスタから必要な情報を取得する方法を提案する。 我々のシミュレーションスキームは、従来の手法よりも計算の複雑さが小さい$\mathcal{O}(N_v^3)を達成し、そこでは、N_v$は次元ごとの離散速度格子の数である。 これにより、将来の量子コンピュータで大規模cbeシミュレーションを行うことができる。

The collisionless Boltzmann equation (CBE) is a fundamental equation that governs the dynamics of a broad range of astrophysical systems from space plasma to star clusters and galaxies. It is computationally expensive to integrate the CBE directly in a phase space, and thus the applications to realistic astrophysical problems have been limited so far. Recently, Todorova \& Steijl (2020) proposed an efficient quantum algorithm for solving the CBE with a significantly reduced computational complexity. We extend the method to perform quantum simulations that follow the evolution of self-gravitating systems. We first run a 1+1 dimensional test calculation of free streaming motion on 64$\times$64 grids using 13 simulated qubits and validate our method. We then perform simulations of Jeans collapse, and compare the result with analytic and linear theory calculations. We propose a direct method to generate initial conditions as well as a method to retrieve necessary information from a register of multiple qubits. Our simulation scheme achieves $\mathcal{O}(N_v^3)$ less computational complexity than the classical method, where $N_v$ is the number of discrete velocity grids per dimension. It will thus allow us to perform large-scale CBE simulations on future quantum computers.
翻訳日:2023-03-30 15:45:48 公開日:2023-03-29
# 量子臨界点近傍のキャビティ光力学系における量子センシングの促進

Enhancement of Quantum Sensing in a Cavity Optomechanical System around Quantum Critical Point ( http://arxiv.org/abs/2303.16486v1 )

ライセンス: Link先を確認
Shao-Bo Tang, Hao Qin, Bing-Bing Liu, D.-Y. Wang, Kaifeng Cui, S.-L. Su, L.-L. Yan, Gang Chen(参考訳) 量子センシングの精度は、システムが量子臨界点に近づいているときに物理量がばらつきがちな量子相転移を利用して改善することができる。 この臨界エンハンスメント現象は、動的フレームワークにおける量子ラビモデルに適用され、複雑な初期状態の準備なしで有望なエンハンスメントを示す。 本研究では,結合強度が臨界点を越えるとき,キャビティとメカニカルモードの周波数の有効デチューニングによって決定される,結合キャビティ-メカニカル振動子系の量子相転移を求める。 この臨界現象を利用して、機械振動子の位置や運動量などの量子センシングの顕著な向上が得られる。 この結果は、質量、電荷、弱い力などのいくつかの物理量の量子センシングを、大規模な質量系において強化する別の方法を提供する。

The precision of quantum sensing could be improved by exploiting quantum phase transitions, where the physical quantity tends to diverge when the system is approaching the quantum critical point. This critical enhancement phenomenon has been applied to the quantum Rabi model in a dynamic framework, showing a promising sensing enhancement without the complex initial state preparation. In this work, we find a quantum phase transition in the coupling cavity-mechanical oscillator system when the coupling strength crosses a critical point, determined by the effective detuning of cavity and frequency of mechanical mode. By utilizing this critical phenomenon, we obtain a prominent enhancement of quantum sensing, such as the position and momentum of the mechanical oscillator. This result provides an alternative method to enhance the quantum sensing of some physical quantities, such as mass, charge, and weak force, in a large mass system.
翻訳日:2023-03-30 15:45:25 公開日:2023-03-29
# 深層機能マップで学んだ機能の理解と改善

Understanding and Improving Features Learned in Deep Functional Maps ( http://arxiv.org/abs/2303.16527v1 )

ライセンス: Link先を確認
Souhaib Attaiki and Maks Ovsjanikov(参考訳) 深部関数写像は,最近,非剛性3次元形状対応タスクのパラダイムとして成功した。 このパイプラインの重要なステップは、ネットワーク内の関数マップを解決するための制約として使用される機能関数の学習である。 しかし、これらの機能で学習・蓄積された情報の正確な性質はまだよく分かっていない。 特に大きな疑問は、函数写像行列の解法における純粋に代数的な役割とは別に、これらの特徴が他の目的に利用できるかどうかである。 本稿では,いくつかの穏やかな条件下では,深層機能マップのアプローチで得られた特徴を,ポイント・アズ・デリプタとして用いることができ,テスト時に機能マップを解く必要がなくても,異なる形状と直接比較できることを示す。 さらに,本解析により,学習特徴の構造的特性を促進させ,マッチング結果を大幅に向上させる標準深層機能マップパイプラインの効果的な修正を提案する。 最後に,本研究で提案する理論的特性を奨励する単純なアーキテクチャ変更により,機能マップの深層抽出に従来未成功であった拡張的アーキテクチャの利用を改善できることを実証する。 そこで本研究では,内在的および外在的表面ベース学習のギャップを橋渡しし,形状マッチングを成功させるために必要かつ十分な条件を提案する。 私たちのコードはhttps://github.com/pvnieo/cloverで利用可能です。

Deep functional maps have recently emerged as a successful paradigm for non-rigid 3D shape correspondence tasks. An essential step in this pipeline consists in learning feature functions that are used as constraints to solve for a functional map inside the network. However, the precise nature of the information learned and stored in these functions is not yet well understood. Specifically, a major question is whether these features can be used for any other objective, apart from their purely algebraic role in solving for functional map matrices. In this paper, we show that under some mild conditions, the features learned within deep functional map approaches can be used as point-wise descriptors and thus are directly comparable across different shapes, even without the necessity of solving for a functional map at test time. Furthermore, informed by our analysis, we propose effective modifications to the standard deep functional map pipeline, which promote structural properties of learned features, significantly improving the matching results. Finally, we demonstrate that previously unsuccessful attempts at using extrinsic architectures for deep functional map feature extraction can be remedied via simple architectural changes, which encourage the theoretical properties suggested by our analysis. We thus bridge the gap between intrinsic and extrinsic surface-based learning, suggesting the necessary and sufficient conditions for successful shape matching. Our code is available at https://github.com/pvnieo/clover.
翻訳日:2023-03-30 15:38:53 公開日:2023-03-29
# HybridPoint: ハイブリッドポイントサンプリングとマッチングに基づくポイントクラウド登録

HybridPoint: Point Cloud Registration Based on Hybrid Point Sampling and Matching ( http://arxiv.org/abs/2303.16526v1 )

ライセンス: Link先を確認
Yiheng Li, Canhui Tang, Runzhao Yao, Aixue Ye, Feng Wen and Shaoyi Du(参考訳) パッチツーポイントマッチングは、ポイントクラウド登録の堅牢な方法となっている。 しかし、従来のパッチマッチング手法では、ノードとしてローカライズ精度の低いスーパーポイントを採用しており、不明瞭なパッチ分割につながる可能性がある。 本稿では,より堅牢で正確な対応を見つけるためのHybridPointベースのネットワークを提案する。 まず,局所的な特徴を持つサルエントポイントをノードとして使用してパッチの再現性を高め,ポイントクラウドを完備するための一様分散ポイントを導入することで,ハイブリッドポイントを構成することを提案する。 ハイブリッドポイントは、ローカライズ精度が向上するだけでなく、ポイントクラウド全体の全体像も提供します。 さらに,ハイブリッド点の特性に基づいて,正解点の整合性を利用して非正則点の整合性ノイズをフィルタするデュアルクラスパッチマッチングモジュールを提案する。 実験の結果,3DMatch,3DLoMatch,KITTI odometry,特に3DMatchデータセットの93.0%レジストレーションリコールにおいて,我々のモデルは最先端の性能を達成することがわかった。 私たちのコードとモデルはhttps://github.com/liyih/hybridpointで利用可能です。

Patch-to-point matching has become a robust way of point cloud registration. However, previous patch-matching methods employ superpoints with poor localization precision as nodes, which may lead to ambiguous patch partitions. In this paper, we propose a HybridPoint-based network to find more robust and accurate correspondences. Firstly, we propose to use salient points with prominent local features as nodes to increase patch repeatability, and introduce some uniformly distributed points to complete the point cloud, thus constituting hybrid points. Hybrid points not only have better localization precision but also give a complete picture of the whole point cloud. Furthermore, based on the characteristic of hybrid points, we propose a dual-classes patch matching module, which leverages the matching results of salient points and filters the matching noise of non-salient points. Experiments show that our model achieves state-of-the-art performance on 3DMatch, 3DLoMatch, and KITTI odometry, especially with 93.0% Registration Recall on the 3DMatch dataset. Our code and models are available at https://github.com/liyih/HybridPoint.
翻訳日:2023-03-30 15:38:31 公開日:2023-03-29
# 石炭柱安定度分類のためのニューラルネットワークバックプロパゲーション(ANN-BP)アーキテクチャのアンサンブル学習モデル

Ensemble Learning Model on Artificial Neural Network-Backpropagation (ANN-BP) Architecture for Coal Pillar Stability Classification ( http://arxiv.org/abs/2303.16524v1 )

ライセンス: Link先を確認
G. Aileen Mendrofa, Gatot Fatwanto Hertono, Bevina Desjwiandara Handari(参考訳) 柱は地下ハードロック鉱山の鉱業安全を確保するために使用される重要な構造単位である。 そのため,地下柱の安定性に関する正確な予測が必要である。 柱の安定性を評価するのによく使われる指標は安全因子(SF)である。 残念なことに、SFを用いた柱安定性評価におけるこのような鮮明な境界は信頼できない。 本稿では,ニューラルネットワーク-バックプロパゲーション(ANN-BP)とDeep Ensemble Learningの柱安定性分類への応用について述べる。 ANN-BP ReLU, ANN-BP ELU, ANN-BP GELUの3種類がある。 本研究は、SFに対する適合性を考慮して、柱安定性のための新しいラベリング代替案を提案する。 これにより、柱の安定性は、適切な安全要因で失敗し、適切な安全要素で失敗し、適切な安全要素で失敗し、適切な安全要素なくして、4つのカテゴリに拡張される。 各モデルに使用される入力は、柱幅、鉱業高さ、ボード幅、深さと床、および比率の5つである。 その結果、アンサンブルラーニングを用いたANN-BPモデルでは、平均精度86.48%、F_2スコア96.35%のANN-BP性能が向上し、適切な安全因子が与えられた。

Pillars are important structural units used to ensure mining safety in underground hard rock mines. Therefore, precise predictions regarding the stability of underground pillars are required. One common index that is often used to assess pillar stability is the Safety Factor (SF). Unfortunately, such crisp boundaries in pillar stability assessment using SF are unreliable. This paper presents a novel application of Artificial Neural Network-Backpropagation (ANN-BP) and Deep Ensemble Learning for pillar stability classification. There are three types of ANN-BP used for the classification of pillar stability distinguished by their activation functions: ANN-BP ReLU, ANN-BP ELU, and ANN-BP GELU. This research also presents a new labeling alternative for pillar stability by considering its suitability with the SF. Thus, pillar stability is expanded into four categories: failed with a suitable safety factor, intact with a suitable safety factor, failed without a suitable safety factor, and intact without a suitable safety factor. There are five inputs used for each model: pillar width, mining height, bord width, depth to floor, and ratio. The results showed that the ANN-BP model with Ensemble Learning could improve ANN-BP performance with an average accuracy of 86.48% and an F_2-score of 96.35% for the category of failed with a suitable safety factor.
翻訳日:2023-03-30 15:38:09 公開日:2023-03-29
# 創傷分類支援のための深層学習ツールの開発

Development of a deep learning-based tool to assist wound classification ( http://arxiv.org/abs/2303.16522v1 )

ライセンス: Link先を確認
Po-Hsuan Huang, Yi-Hsiang Pan, Ying-Sheng Luo, Yi-Fan Chen, Yu-Cheng Lo, Trista Pei-Chun Chen, Cherng-Kang Perng(参考訳) 本報告では, 医療従事者を対象とした創傷分類ツールとして, 深部創, 感染傷, 動脈傷, 静脈傷, 圧傷の5つの重要な創傷条件を, 容易に撮影できるカラー画像から分類する。 適切な創傷管理には分類の精度が不可欠である。 創傷分類手法は,創傷分類アーキテクチャの統一化のために,5つの鍵創傷条件間の関係を利用したマルチタスク深層学習フレームワークを採用する。 提案したモデルと人間を比較した指標としてコーエンのカッパ係数に違いがあるため、我々のモデルの性能は、すべての医療従事者よりも優れていた。 我々の畳み込みニューラルネットワークに基づくモデルは、深部、感染、動脈、静脈、および圧傷の5つのタスクを精度良く同時に分類する最初のモデルである。 提案モデルはコンパクトで、ヒトの医師や看護師のパフォーマンスに匹敵する、あるいは超えている。 創傷ケアを専門としない医療従事者は、提案した深層学習モデルを備えたアプリから恩恵を受ける可能性がある。

This paper presents a deep learning-based wound classification tool that can assist medical personnel in non-wound care specialization to classify five key wound conditions, namely deep wound, infected wound, arterial wound, venous wound, and pressure wound, given color images captured using readily available cameras. The accuracy of the classification is vital for appropriate wound management. The proposed wound classification method adopts a multi-task deep learning framework that leverages the relationships among the five key wound conditions for a unified wound classification architecture. With differences in Cohen's kappa coefficients as the metrics to compare our proposed model with humans, the performance of our model was better or non-inferior to those of all human medical personnel. Our convolutional neural network-based model is the first to classify five tasks of deep, infected, arterial, venous, and pressure wounds simultaneously with good accuracy. The proposed model is compact and matches or exceeds the performance of human doctors and nurses. Medical personnel who do not specialize in wound care can potentially benefit from an app equipped with the proposed deep learning model.
翻訳日:2023-03-30 15:37:44 公開日:2023-03-29
# データ拡張を伴わないオンライン深層クラスタリングの崩壊防止のためのハード・レギュライゼーション

Hard Regularization to Prevent Collapse in Online Deep Clustering without Data Augmentation ( http://arxiv.org/abs/2303.16521v1 )

ライセンス: Link先を確認
Louis Mahon, Thomas Lukasiewicz(参考訳) オンラインディープクラスタリング(英語: online deep clustering)とは、特徴抽出ネットワークとクラスタモデルを併用して、処理される各新しいデータポイントまたはバッチにクラスタラベルを割り当てることである。 オフラインメソッドよりも高速で汎用性は高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマップし、すべてひとつのクラスタに配置する、崩壊したソリューションに容易に到達できる。 既存のモデルの成功例では、この問題を回避するためにさまざまなテクニックを採用しており、そのほとんどがデータ拡張を必要とするか、あるいはクラスタ毎に平均的なソフト割り当てを同じものにすることを目的としている。 本研究では,データ拡張を必要とせず,既存の手法と異なり,ハード代入を規則化する手法を提案する。 ベイズフレームワークを用いることで、エンコーダネットワークのトレーニングに簡単に組み込むことができる直感的な最適化目標を導出する。 4つのイメージデータセットでテストした結果、他の方法よりも一貫して崩壊を回避し、より正確なクラスタリングにつながることが示された。 また、ハードクラスタ割り当てを規則化する選択を正当化するさらなる実験や分析も行います。

Online deep clustering refers to the joint use of a feature extraction network and a clustering model to assign cluster labels to each new data point or batch as it is processed. While faster and more versatile than offline methods, online clustering can easily reach the collapsed solution where the encoder maps all inputs to the same point and all are put into a single cluster. Successful existing models have employed various techniques to avoid this problem, most of which require data augmentation or which aim to make the average soft assignment across the dataset the same for each cluster. We propose a method that does not require data augmentation, and that, differently from existing methods, regularizes the hard assignments. Using a Bayesian framework, we derive an intuitive optimization objective that can be straightforwardly included in the training of the encoder network. Tested on four image datasets, we show that it consistently avoids collapse more robustly than other methods and that it leads to more accurate clustering. We also conduct further experiments and analyses justifying our choice to regularize the hard cluster assignments.
翻訳日:2023-03-30 15:37:25 公開日:2023-03-29
# クライアント貢献度推定によるフェアフェデレーション医用画像セグメンテーション

Fair Federated Medical Image Segmentation via Client Contribution Estimation ( http://arxiv.org/abs/2303.16520v1 )

ライセンス: Link先を確認
Meirui Jiang, Holger R Roth, Wenqi Li, Dong Yang, Can Zhao, Vishwesh Nath, Daguang Xu, Qi Dou, Ziyue Xu(参考訳) 公平性を保証する方法は、連合学習(fl)において重要なトピックである。 近年の研究では、顧客への貢献(コラボレーションフェアネス)と、顧客間のパフォーマンスの均一性(パフォーマンスフェアネス)を両立させる方法について研究されている。 どちらも進歩しているにもかかわらず、より多様なクライアントをFLに参加させ、モチベーションを高め、高品質なグローバルモデルを生み出すためには、これらを一緒に考えることが重要であると我々は主張する。 本研究では,両種類の公平性を同時に最適化する新しい手法を提案する。 具体的には,勾配とデータ空間におけるクライアント貢献度を推定する。 勾配空間では、各クライアントの他のクライアントに対する勾配方向の差をモニターする。 そして、データ空間において、補助モデルを用いてクライアントデータの予測誤差を測定する。 本研究では,この貢献度推定に基づいて,グローバルモデル集約重みとして推定を用いた貢献度推定(fedce)によるフェデレーショントレーニングを提案する。 本手法を理論的に解析し,実世界の2つの医療データを用いて実証的に評価した。 提案手法の有効性は,大幅な性能向上,コラボレーションフェアネスの向上,パフォーマンスフェアネスの向上,総合的な分析研究などで検証されている。

How to ensure fairness is an important topic in federated learning (FL). Recent studies have investigated how to reward clients based on their contribution (collaboration fairness), and how to achieve uniformity of performance across clients (performance fairness). Despite achieving progress on either one, we argue that it is critical to consider them together, in order to engage and motivate more diverse clients joining FL to derive a high-quality global model. In this work, we propose a novel method to optimize both types of fairness simultaneously. Specifically, we propose to estimate client contribution in gradient and data space. In gradient space, we monitor the gradient direction differences of each client with respect to others. And in data space, we measure the prediction error on client data using an auxiliary model. Based on this contribution estimation, we propose a FL method, federated training via contribution estimation (FedCE), i.e., using estimation as global model aggregation weights. We have theoretically analyzed our method and empirically evaluated it on two real-world medical datasets. The effectiveness of our approach has been validated with significant performance improvements, better collaboration fairness, better performance fairness, and comprehensive analytical studies.
翻訳日:2023-03-30 15:37:07 公開日:2023-03-29
# グラフ上の公理からベクトルへ、そして再び、グラフに基づくオントロジー埋め込みの性質を評価する

From axioms over graphs to vectors, and back again: evaluating the properties of graph-based ontology embeddings ( http://arxiv.org/abs/2303.16519v1 )

ライセンス: Link先を確認
Fernando Zhapa-Camacho, Robert Hoehndorf(参考訳) 記述論理オントロジーの埋め込みを生成し、機械学習にこれらの埋め込みを使用するいくつかのアプローチが開発されている。 オントロジーを生成する1つのアプローチは、まずオントロジーをグラフ構造に埋め込み、すなわち名前付きエンティティと論理公理のためのノードとエッジの集合を導入し、次にグラフ埋め込みを適用することで、グラフを$\mathbb{r}^n$に埋め込む。 グラフ(グラフ射影)にオントロジーを埋め込む方法は、それらが活用できる公理の種類、射影が可逆であるかどうか、あるいは主張された公理に応用できるかどうか、あるいはその帰納的閉包に関して異なる形式的性質を持つ。 オントロジーの埋め込みに用いられてきた複数のグラフ投影法を定量的・定量的に分析し,オントロジー埋め込みによる公理予測の性能に及ぼすグラフ投影の性質の影響を実証した。 予測法には相違があり, ノードとエッジへの公理の投射と知識の表現における存在論的選択の両方が, 公理の予測にオントロジー埋め込みを用いることの成功に影響を及ぼすことがわかった。

Several approaches have been developed that generate embeddings for Description Logic ontologies and use these embeddings in machine learning. One approach of generating ontologies embeddings is by first embedding the ontologies into a graph structure, i.e., introducing a set of nodes and edges for named entities and logical axioms, and then applying a graph embedding to embed the graph in $\mathbb{R}^n$. Methods that embed ontologies in graphs (graph projections) have different formal properties related to the type of axioms they can utilize, whether the projections are invertible or not, and whether they can be applied to asserted axioms or their deductive closure. We analyze, qualitatively and quantitatively, several graph projection methods that have been used to embed ontologies, and we demonstrate the effect of the properties of graph projections on the performance of predicting axioms from ontology embeddings. We find that there are substantial differences between different projection methods, and both the projection of axioms into nodes and edges as well ontological choices in representing knowledge will impact the success of using ontology embeddings to predict axioms.
翻訳日:2023-03-30 15:36:48 公開日:2023-03-29
# 任意スケール超解像用カスケード局部インシシシット変圧器

Cascaded Local Implicit Transformer for Arbitrary-Scale Super-Resolution ( http://arxiv.org/abs/2303.16513v1 )

ライセンス: Link先を確認
Hao-Wei Chen and Yu-Syuan Xu and Min-Fong Hong and Yi-Min Tsai and Hsien-Kai Kuo and Chun-Yi Lee(参考訳) 暗黙の神経表現は、任意の解像度で画像を表現できる有望な能力を示している。 本稿では、注意機構と周波数符号化技術を局所暗黙画像関数に統合したローカルインプリシット変換器(LIT)を提案する。 我々は,局所的特徴を効果的に集約する,大規模ローカルアテンションブロックを設計する。 代表的パワーをさらに向上するために,マルチスケール機能を利用するカスケードLIT(CLIT)と,トレーニング中のアップサンプリングスケールを徐々に増加させる累積的トレーニング戦略を提案する。 我々は,これらの構成要素の有効性を検証し,様々なトレーニング戦略を解析するための広範囲な実験を行った。 定性的かつ定量的な結果は、LITとCLITが好意的な結果を達成し、任意の超解像タスクにおいて先行研究より優れていることを示す。

Implicit neural representation has recently shown a promising ability in representing images with arbitrary resolutions. In this paper, we present a Local Implicit Transformer (LIT), which integrates the attention mechanism and frequency encoding technique into a local implicit image function. We design a cross-scale local attention block to effectively aggregate local features. To further improve representative power, we propose a Cascaded LIT (CLIT) that exploits multi-scale features, along with a cumulative training strategy that gradually increases the upsampling scales during training. We have conducted extensive experiments to validate the effectiveness of these components and analyze various training strategies. The qualitative and quantitative results demonstrate that LIT and CLIT achieve favorable results and outperform the prior works in arbitrary super-resolution tasks.
翻訳日:2023-03-30 15:36:25 公開日:2023-03-29
# 直交制約下での最適化のための決定論的、確率的、分散還元アルゴリズム

Infeasible Deterministic, Stochastic, and Variance-Reduction Algorithms for Optimization under Orthogonality Constraints ( http://arxiv.org/abs/2303.16510v1 )

ライセンス: Link先を確認
Pierre Ablin, Simon Vary, Bin Gao, P.-A. Absil(参考訳) 直交性制約は、主成分分析からロバストニューラルネットワークトレーニングまで、多くの機械学習問題に自然に現れる。 これらは通常、制約を強制しながら目的関数を最小化するリーマン最適化アルゴリズムを用いて解かれる。 しかし、直交制約を強制することはそのようなアルゴリズムにおいて最も時間がかかる操作である。 最近、ablin & peyr\'e (2022) は、直交性制約を強制しないが滑らかな方法で多様体に惹きつけられる安価な反復法であるランディングアルゴリズムを提案した。 本稿では,着陸アルゴリズムの実用化と理論的展開について述べる。 まず、この方法は長方形直交行列の集合であるスティーフェル多様体に拡張される。 また、コスト関数が多くの関数の平均である場合、確率的および分散還元アルゴリズムも検討する。 これらの手法はすべて、制約を厳密に強制するリーマン法と同じ収束率を持つことを実証する。 最後に,本実験は,直交性制約を伴う機械学習問題に対する我々のアプローチの可能性を実証する。

Orthogonality constraints naturally appear in many machine learning problems, from Principal Components Analysis to robust neural network training. They are usually solved using Riemannian optimization algorithms, which minimize the objective function while enforcing the constraint. However, enforcing the orthogonality constraint can be the most time-consuming operation in such algorithms. Recently, Ablin & Peyr\'e (2022) proposed the Landing algorithm, a method with cheap iterations that does not enforce the orthogonality constraint but is attracted towards the manifold in a smooth manner. In this article, we provide new practical and theoretical developments for the landing algorithm. First, the method is extended to the Stiefel manifold, the set of rectangular orthogonal matrices. We also consider stochastic and variance reduction algorithms when the cost function is an average of many functions. We demonstrate that all these methods have the same rate of convergence as their Riemannian counterparts that exactly enforce the constraint. Finally, our experiments demonstrate the promise of our approach to an array of machine-learning problems that involve orthogonality constraints.
翻訳日:2023-03-30 15:36:11 公開日:2023-03-29
# HOLODIFFUSION:2次元画像を用いた3次元拡散モデルの訓練

HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images ( http://arxiv.org/abs/2303.16509v1 )

ライセンス: Link先を確認
Animesh Karnewar, Andrea Vedaldi, David Novotny, Niloy Mitra(参考訳) 拡散モデルは2次元画像の生成的モデリングの最良のアプローチとして現れてきた。 彼らの成功の一部は、安定的な学習目標を持つ何十億もの画像でトレーニングできることによる。 しかし、2つの理由からこれらのモデルを3Dに拡張することは難しい。 まず、大量の3Dトレーニングデータを見つけることは、2D画像よりもはるかに複雑である。 第二に、2Dグリッドではなく3Dで動くようにモデルを拡張することは概念的には自明であるが、それに伴うメモリと計算の複雑さは、これを実現できない。 第1の課題は、トレーニング可能なエンドツーエンドの2d画像のみを監視可能な新しい拡散設定を導入すること、第2の課題は、モデルメモリと空間記憶を分離する画像形成モデルを提案することである。 本研究では,これまで3次元生成モデルのトレーニングに用いられていなかったco3dデータセットを用いて,実世界のデータに対する評価を行う。 我々の拡散モデルはスケーラブルで、堅牢に訓練されており、既存の3次元生成モデリング手法に対するサンプル品質と忠実さの点で競争力があることを示す。

Diffusion models have emerged as the best approach for generative modeling of 2D images. Part of their success is due to the possibility of training them on millions if not billions of images with a stable learning objective. However, extending these models to 3D remains difficult for two reasons. First, finding a large quantity of 3D training data is much more complex than for 2D images. Second, while it is conceptually trivial to extend the models to operate on 3D rather than 2D grids, the associated cubic growth in memory and compute complexity makes this infeasible. We address the first challenge by introducing a new diffusion setup that can be trained, end-to-end, with only posed 2D images for supervision; and the second challenge by proposing an image formation model that decouples model memory from spatial memory. We evaluate our method on real-world data, using the CO3D dataset which has not been used to train 3D generative models before. We show that our diffusion models are scalable, train robustly, and are competitive in terms of sample quality and fidelity to existing approaches for 3D generative modeling.
翻訳日:2023-03-30 15:35:56 公開日:2023-03-29
# 流体力学シミュレーションのためのポテンシャル量子優位性

Potential quantum advantage for simulation of fluid dynamics ( http://arxiv.org/abs/2303.16550v1 )

ライセンス: Link先を確認
Xiangyu Li, Xiaolong Yin, Nathan Wiebe, Jaehun Chun, Gregory K. Schenter, Margaret S. Cheung, and Johannes M\"ulmenst\"adt(参考訳) 乱流力学の数値シミュレーションでは、大きな不確実性をもたらす乱流をパラメータ化するか、最小のスケールを明示的に解決する必要がある。 ここでは解析的境界と数値的研究を通じて、量子計算を用いて乱流を支配するナビエ・ストークス方程式をシミュレートするために潜在的な量子指数の速度アップが達成できることを示す。 具体的には、格子ボルツマン方程式の定式化を行い、これらの系に対して以前に信じられていたよりも低次カールマン線型化の方がはるかに正確であることを示す。 これは非線形性を再構成し、動的方程式を正確に線形化し、量子ソルバに不要な費用を加えるような自由度で非線形性を効果的に交換することで達成される。 これに基づいて、カールマン線形格子ボルツマン方程式をシミュレートする量子アルゴリズムを適用し、そのコストが既知の古典的アルゴリズムの多項式スケーリングと比較してシステムサイズと対数的にスケールすることを示す。 この研究は、指数関数的量子優位性が流体力学をシミュレートするために存在し、量子コンピューティングを用いて幅広い分野の非線形多スケール輸送現象をシミュレートする方法であることを示唆している。

Numerical simulation of turbulent fluid dynamics needs to either parameterize turbulence-which introduces large uncertainties-or explicitly resolve the smallest scales-which is prohibitively expensive. Here we provide evidence through analytic bounds and numerical studies that a potential quantum exponential speedup can be achieved to simulate the Navier-Stokes equations governing turbulence using quantum computing. Specifically, we provide a formulation of the lattice Boltzmann equation for which we give evidence that low-order Carleman linearization is much more accurate than previously believed for these systems and that for computationally interesting examples. This is achieved via a combination of reformulating the nonlinearity and accurately linearizing the dynamical equations, effectively trading nonlinearity for additional degrees of freedom that add negligible expense in the quantum solver. Based on this we apply a quantum algorithm for simulating the Carleman-linerized lattice Boltzmann equation and provide evidence that its cost scales logarithmically with system size, compared to polynomial scaling in the best known classical algorithms. This work suggests that an exponential quantum advantage may exist for simulating fluid dynamics, paving the way for simulating nonlinear multiscale transport phenomena in a wide range of disciplines using quantum computing.
翻訳日:2023-03-30 15:29:23 公開日:2023-03-29
# ランダムパラメータを持つ離散時間線形二次レギュレータのポリシー勾配法

Policy Gradient Methods for Discrete Time Linear Quadratic Regulator With Random Parameters ( http://arxiv.org/abs/2303.16548v1 )

ライセンス: Link先を確認
Deyue Li(参考訳) 本稿では,離散時間線形システムと二次基準に対する無限大地平線最適制御問題と,時間に対して独立かつ同一に分布するランダムパラメータについて検討する。 この一般的な設定では,強化学習手法であるポリシー勾配法を適用し,パラメータの統計情報の知識を必要とせずに最適制御を探索する。 本研究では,既存の結果よりも弱く,検証しやすい仮定に基づいて,状態プロセスの準ゲージ性を調査し,このアプローチに対する大域的線形収束保証を確立する。 この結果を示すために数値実験を行った。

This paper studies an infinite horizon optimal control problem for discrete-time linear system and quadratic criteria, both with random parameters which are independent and identically distributed with respect to time. In this general setting, we apply the policy gradient method, a reinforcement learning technique, to search for the optimal control without requiring knowledge of statistical information of the parameters. We investigate the sub-Gaussianity of the state process and establish global linear convergence guarantee for this approach based on assumptions that are weaker and easier to verify compared to existing results. Numerical experiments are presented to illustrate our result.
翻訳日:2023-03-30 15:28:59 公開日:2023-03-29
# sounding video generator: テキスト誘導型音声ビデオ生成のための統一フレームワーク

Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation ( http://arxiv.org/abs/2303.16541v1 )

ライセンス: Link先を確認
Jiawei Liu, Weining Wang, Sihan Chen, Xinxin Zhu, Jing Liu(参考訳) 視覚信号と音声信号の組み合わせとして、ビデオは本質的にマルチモーダルである。 しかし,既存の映像生成手法は主に映像フレームの合成を目的としており,現実的な映像の音声信号は無視されている。 本研究では,テキスト誘導型映像生成の稀な問題に注目し,音声信号と共に現実的な映像を生成するための統一フレームワークであるsvg(sounding video generator)を提案する。 具体的には,SVG-VQGANを用いて,視覚フレームと音声メロメログラムを離散トークンに変換する。 svg-vqganは新しいハイブリッドコントラスト学習法を適用し、モーダル間一貫性とモーダル内一貫性をモデル化し、量子化表現を改善する。 コントラスト学習のための視覚フレームと音声信号の関連特徴を抽出するためにクロスモーダルアテンションモジュールを用いる。 次に、トランスフォーマーベースのデコーダを用いて、自動回帰音声生成のためのトークンレベルでテキスト、ビジュアルフレーム、音声信号の関連をモデル化する。 SVGをトレーニングするために、人間のアノテーション付きテキスト-ビデオ-オーディオペアデータセットであるAudioSetCapが生成される。 実験により,既存のテキスト・ビデオ生成手法や,KineticsおよびVASデータセットの音声生成手法と比較して,本手法が優れていることを示す。

As a combination of visual and audio signals, video is inherently multi-modal. However, existing video generation methods are primarily intended for the synthesis of visual frames, whereas audio signals in realistic videos are disregarded. In this work, we concentrate on a rarely investigated problem of text guided sounding video generation and propose the Sounding Video Generator (SVG), a unified framework for generating realistic videos along with audio signals. Specifically, we present the SVG-VQGAN to transform visual frames and audio melspectrograms into discrete tokens. SVG-VQGAN applies a novel hybrid contrastive learning method to model inter-modal and intra-modal consistency and improve the quantized representations. A cross-modal attention module is employed to extract associated features of visual frames and audio signals for contrastive learning. Then, a Transformer-based decoder is used to model associations between texts, visual frames, and audio signals at token level for auto-regressive sounding video generation. AudioSetCap, a human annotated text-video-audio paired dataset, is produced for training SVG. Experimental results demonstrate the superiority of our method when compared with existing textto-video generation methods as well as audio generation methods on Kinetics and VAS datasets.
翻訳日:2023-03-30 15:28:49 公開日:2023-03-29
# LMExplainer: 言語モデルのための知識強化型説明器

LMExplainer: a Knowledge-Enhanced Explainer for Language Models ( http://arxiv.org/abs/2303.16537v1 )

ライセンス: Link先を確認
Zichen Chen, Ambuj K Singh, Misha Sra(参考訳) GPT-4のような大規模言語モデル(LM)は非常に強力であり、異なる種類の自然言語処理(NLP)タスクを処理できる。 しかし、多層非線形モデル構造と数百万のパラメータによる結果の解釈は困難である。 モデルがどのように機能するか理解できないため、モデルは現実のシナリオにおいて日々のユーザにとって信頼できない、危険なものになる。 最近の研究は注意の重みを利用してモデル予測の説明を提供している。 しかし、純粋な注意に基づく説明は、モデルの複雑さの増加を支持することができず、意思決定プロセスについて説明できない。 そこで本研究では,言語モデルのための知識エンハンスド解釈モジュールlmexplainerを提案する。 我々は、知識グラフ(KG)とグラフ注意ニューラルネットワークを用いて、LMの重要な決定信号を抽出する。 私たちはさらに、解釈がaiがタスクをよりよく理解するのに役立つかどうかを探ります。 実験の結果,LMExplainer は CommonsenseQA と OpenBookQA で既存の LM+KG 法より優れていることがわかった。 また,説明結果と人手による説明方法とを比較した。 比較の結果,より包括的かつ明確な説明が得られた。 LMExplainerは、モデルの性能を高め、自然言語におけるモデルの推論プロセスを説明する可能性を実証する。

Large language models (LMs) such as GPT-4 are very powerful and can process different kinds of natural language processing (NLP) tasks. However, it can be difficult to interpret the results due to the multi-layer nonlinear model structure and millions of parameters. Lack of understanding of how the model works can make the model unreliable and dangerous for everyday users in real-world scenarios. Most recent works exploit the weights of attention to provide explanations for model predictions. However, pure attention-based explanation is unable to support the growing complexity of the models, and cannot reason about their decision-making processes. Thus, we propose LMExplainer, a knowledge-enhanced interpretation module for language models that can provide human-understandable explanations. We use a knowledge graph (KG) and a graph attention neural network to extract the key decision signals of the LM. We further explore whether interpretation can also help AI understand the task better. Our experimental results show that LMExplainer outperforms existing LM+KG methods on CommonsenseQA and OpenBookQA. We also compare the explanation results with generated explanation methods and human-annotated results. The comparison shows our method can provide more comprehensive and clearer explanations. LMExplainer demonstrates the potential to enhance model performance and furnish explanations for the reasoning processes of models in natural language.
翻訳日:2023-03-30 15:28:28 公開日:2023-03-29
# 教師なし深層学習における原理不等角化の非線形独立成分分析

Nonlinear Independent Component Analysis for Principled Disentanglement in Unsupervised Deep Learning ( http://arxiv.org/abs/2303.16535v1 )

ライセンス: Link先を確認
Aapo Hyvarinen, Ilyes Khemakhem, Hiroshi Morioka(参考訳) 教師なしディープラーニングにおける中心的な問題は、高次元データの有用な表現を見つける方法である。 ほとんどのアプローチはヒューリスティックであり、適切な理論基盤を欠いている。 線形表現学習では、独立成分分析(ICA)は多くの応用分野で成功しており、その原理は、よく定義された確率モデルに基づくものである。 しかし、ICAの非線形ケースへの拡張は、識別可能性の欠如、すなわち表現の特異性のために問題となっている。 近年,時間構造や補助情報を利用した非線形拡張が提案されている。 このようなモデルは実際に識別可能であり、その結果、アルゴリズムの数が増加している。 特に、いくつかの自己教師付きアルゴリズムは、当初はヒューリスティックな観点から提案されたものの、非線形ICAを推定することができる。 本稿では非線形ICA理論とアルゴリズムの現状を概観する。

A central problem in unsupervised deep learning is how to find useful representations of high-dimensional data, sometimes called "disentanglement". Most approaches are heuristic and lack a proper theoretical foundation. In linear representation learning, independent component analysis (ICA) has been successful in many applications areas, and it is principled, i.e. based on a well-defined probabilistic model. However, extension of ICA to the nonlinear case has been problematic due to the lack of identifiability, i.e. uniqueness of the representation. Recently, nonlinear extensions that utilize temporal structure or some auxiliary information have been proposed. Such models are in fact identifiable, and consequently, an increasing number of algorithms have been developed. In particular, some self-supervised algorithms can be shown to estimate nonlinear ICA, even though they have initially been proposed from heuristic perspectives. This paper reviews the state-of-the-art of nonlinear ICA theory and algorithms.
翻訳日:2023-03-30 15:28:10 公開日:2023-03-29
# マルチマグニフィケーションアンサンブルによる粗アノテーションによるロバスト腫瘍検出

Robust Tumor Detection from Coarse Annotations via Multi-Magnification Ensembles ( http://arxiv.org/abs/2303.16533v1 )

ライセンス: Link先を確認
Mehdi Naouar, Gabriel Kalweit, Ignacio Mastroleo, Philipp Poxleitner, Marc Metzger, Joschka Boedecker, Maria Kalweit(参考訳) 染色組織標本のギガピクセル全スライド画像からの癌検出と分類は、近年、計算病理学において大きな進歩を遂げている。 腫瘍の局所化から,局所がん検出の臨床的重要性にもかかわらず,利用可能な画素単位のアノテートスキャンの限界は,多点学習に基づくグローバルスライドレベル分類へと焦点を移した。 しかし、完全に監督された方法と比較して、これらの手法の悪い性能は、がんのような生命を脅かす疾患の領域における診断的介入のために、これまでの使用を制限している。 本研究は,パッチレベルの分類タスクとして腫瘍の局所化に焦点を合わせ,いわゆる粗いアノテーションの設定を行い,臨床的な見地から可能でありながら,さらなる訓練監督を提供する。 そこで本研究では,乳がん患者のセンチネルリンパ節のオープンなCAMELYON16データセットの転移検出精度を向上するだけでなく,粗いアノテーションをトレーニングしながら,その雑音に対する堅牢性を大幅に向上させる新しいアンサンブル法を提案する。 以上の結果から, 癌診断や翻訳・臨床研究への新たな道を開くために, 臨床的に有用となる技術により, よりよい結果が得られた。

Cancer detection and classification from gigapixel whole slide images of stained tissue specimens has recently experienced enormous progress in computational histopathology. The limitation of available pixel-wise annotated scans shifted the focus from tumor localization to global slide-level classification on the basis of (weakly-supervised) multiple-instance learning despite the clinical importance of local cancer detection. However, the worse performance of these techniques in comparison to fully supervised methods has limited their usage until now for diagnostic interventions in domains of life-threatening diseases such as cancer. In this work, we put the focus back on tumor localization in form of a patch-level classification task and take up the setting of so-called coarse annotations, which provide greater training supervision while remaining feasible from a clinical standpoint. To this end, we present a novel ensemble method that not only significantly improves the detection accuracy of metastasis on the open CAMELYON16 data set of sentinel lymph nodes of breast cancer patients, but also considerably increases its robustness against noise while training on coarse annotations. Our experiments show that better results can be achieved with our technique making it clinically feasible to use for cancer diagnosis and opening a new avenue for translational and clinical research.
翻訳日:2023-03-30 15:27:57 公開日:2023-03-29
# 不均一連続グラフニューラルネットワークによる将来的定量投資

Futures Quantitative Investment with Heterogeneous Continual Graph Neural Network ( http://arxiv.org/abs/2303.16532v1 )

ライセンス: Link先を確認
Zhizhong Tan, Min Hu, Yixuan Wang, Lu Wei, Bin Liu(参考訳) 従来の計量モデルでは、過去のデータだけでなく、異なる先物間の相関も考慮する必要があるため、先物価格の傾向を予測することは難しい問題である。 時空間グラフニューラルネットワーク(STGNN)はそのような時空間データを扱う上で大きな利点がある。 しかし、将来の投資家は意思決定を行う際に長期的な特性と短期的な特性の両方を考慮する必要があるため、stgnnを高周波データに直接適用することはできない。 長期的・短期的両方の特徴を捉えるため,価格回帰,価格移動平均回帰,価格ギャップ回帰(短時間),長期的・短期的な場面を含む変更点検出という4つの異種タスクを設計することで,ラベル情報を活用する。 これらのラベルをフルに利用するために、継続的な方法でモデルをトレーニングします。 伝統的な連続的なGNNは、価格の勾配を破滅的忘れ(CF)を克服するために重要なパラメータとして定義している。 残念ながら、4つの異種タスクの損失は異なる空間にある。 したがって、パラメータの重要性とその損失を計算するのは不適切である。 本稿では,オリジナル観測と抽出した特徴の相互情報を用いてパラメータの重要度を算出することを提案する。 49の商品先物に基づく実験結果から, 長期的・短期的な動的変化の予測性能が高いことが示された。

It is a challenging problem to predict trends of futures prices with traditional econometric models as one needs to consider not only futures' historical data but also correlations among different futures. Spatial-temporal graph neural networks (STGNNs) have great advantages in dealing with such kind of spatial-temporal data. However, we cannot directly apply STGNNs to high-frequency future data because future investors have to consider both the long-term and short-term characteristics when doing decision-making. To capture both the long-term and short-term features, we exploit more label information by designing four heterogeneous tasks: price regression, price moving average regression, price gap regression (within a short interval), and change-point detection, which involve both long-term and short-term scenes. To make full use of these labels, we train our model in a continual manner. Traditional continual GNNs define the gradient of prices as the parameter important to overcome catastrophic forgetting (CF). Unfortunately, the losses of the four heterogeneous tasks lie in different spaces. Hence it is improper to calculate the parameter importance with their losses. We propose to calculate parameter importance with mutual information between original observations and the extracted features. The empirical results based on 49 commodity futures demonstrate that our model has higher prediction performance on capturing long-term or short-term dynamic change.
翻訳日:2023-03-30 15:27:37 公開日:2023-03-29
# RusTitW: 視覚テキスト認識のためのロシア語テキストデータセット

RusTitW: Russian Language Text Dataset for Visual Text in-the-Wild Recognition ( http://arxiv.org/abs/2303.16531v1 )

ライセンス: Link先を確認
Igor Markov, Sergey Nesteruk, Andrey Kuznetsov, Denis Dimitrov(参考訳) 情報は現代生活の人々を囲んでいる。 テキストは、何世紀にもわたって人々がコミュニケーションに使っている非常に効率的な情報である。 しかし、自動テキスト・イン・ザ・ワイルド認識は依然として難しい問題である。 DLシステムの大きな制限は、トレーニングデータの欠如である。 競争力のあるパフォーマンスのためには、トレーニングセットには現実世界のケースを再現する多くのサンプルが含まれなければならない。 英語のテキスト認識には高品質なデータセットが多数あるが、ロシア語用のデータセットは存在しない。 本稿では,ロシア文字認識のための大規模人間ラベルデータセットを提案する。 また、生成過程を再現するための合成データセットとコードも公開します。

Information surrounds people in modern life. Text is a very efficient type of information that people use for communication for centuries. However, automated text-in-the-wild recognition remains a challenging problem. The major limitation for a DL system is the lack of training data. For the competitive performance, training set must contain many samples that replicate the real-world cases. While there are many high-quality datasets for English text recognition; there are no available datasets for Russian language. In this paper, we present a large-scale human-labeled dataset for Russian text recognition in-the-wild. We also publish a synthetic dataset and code to reproduce the generation process
翻訳日:2023-03-30 15:27:13 公開日:2023-03-29
# 深部ニューラルネットワークにおける確率的勾配Descenceの重要サンプリング

Importance Sampling for Stochastic Gradient Descent in Deep Neural Networks ( http://arxiv.org/abs/2303.16529v1 )

ライセンス: Link先を確認
Thibault Lahire(参考訳) 確率的勾配降下サンプルは、限られたサンプル数で偏りのない勾配推定を構築するためのトレーニングセットを均一に設定する。 しかし、トレーニングプロセスの所定のステップでは、学習を続けるために他のデータよりも役に立つデータもある。 深層ニューラルネットワークのトレーニングにおける重要サンプリングは、一様サンプリング方式よりも優れた性能を示すサンプリングスキームを提案するために広く研究されている。 深層学習における重要度サンプリング理論を想起した後,本研究の課題を概観する。 特に,与えられたサンプリングスキームの品質を評価するための指標を提案し,サンプリングスキームと使用するオプティマイザの相互作用について検討する。

Stochastic gradient descent samples uniformly the training set to build an unbiased gradient estimate with a limited number of samples. However, at a given step of the training process, some data are more helpful than others to continue learning. Importance sampling for training deep neural networks has been widely studied to propose sampling schemes yielding better performance than the uniform sampling scheme. After recalling the theory of importance sampling for deep learning, this paper reviews the challenges inherent to this research area. In particular, we propose a metric allowing the assessment of the quality of a given sampling scheme; and we study the interplay between the sampling scheme and the optimizer used.
翻訳日:2023-03-30 15:27:06 公開日:2023-03-29
# 分散型Ledger技術の知識グラフの構築

Building a Knowledge Graph of Distributed Ledger Technologies ( http://arxiv.org/abs/2303.16528v1 )

ライセンス: Link先を確認
Lukas K\"onig and Sebastian Neumaier(参考訳) 近年、分散型台帳システムは、ブロックチェーンや暗号通貨を中心に、より顕著で成功している。 多くの場合、ブロックチェーンと暗号通貨は同義語として使われ、他のアプリケーションは見過ごされがちである。 したがって、ブロックチェーンや仮想通貨以外の分散台帳技術の観点は、全体として非常に限られている。 既存の語彙やオントロジーは、しばしば技術の単一側面に焦点を当てる。 これにより、他のタイプの分散台帳やそれらのユースケースが無視される可能性がある。 本稿では,分散台帳技術に関する知識グラフとオントロジーを提示し,脅威や脆弱性,アプリケーションドメイン,関連する標準や規制といった側面をモデル化するためのセキュリティ上の考慮事項について述べる。 このような知識グラフは、分散台帳の全体的な理解を改善し、その強みを明らかにし、セキュリティ担当者、すなわちアナリストやシステムアーキテクトの仕事を支援する。 我々は、オントロジーと知識グラフの評価と公開のために、セマンティックウェブのベストプラクティスの潜在的な利用と追跡について論じる。

Distributed ledger systems have become more prominent and successful in recent years, with a focus on blockchains and cryptocurrency. This has led to various misunderstandings about both the technology itself and its capabilities, as in many cases blockchain and cryptocurrency is used synonymously and other applications are often overlooked. Therefore, as a whole, the view of distributed ledger technology beyond blockchains and cryptocurrencies is very limited. Existing vocabularies and ontologies often focus on single aspects of the technology, or in some cases even just on one product. This potentially leads to other types of distributed ledgers and their possible use cases being neglected. In this paper, we present a knowledge graph and an ontology for distributed ledger technologies, which includes security considerations to model aspects such as threats and vulnerabilities, application domains, as well as relevant standards and regulations. Such a knowledge graph improves the overall understanding of distributed ledgers, reveals their strengths, and supports the work of security personnel, i.e. analysts and system architects. We discuss potential uses and follow semantic web best practices to evaluate and publish the ontology and knowledge graph.
翻訳日:2023-03-30 15:26:56 公開日:2023-03-29
# 変圧器追跡のための一般化関係モデリング

Generalized Relation Modeling for Transformer Tracking ( http://arxiv.org/abs/2303.16580v1 )

ライセンス: Link先を確認
Shenyuan Gao, Chunluan Zhou, Jun Zhang(参考訳) 以前の2ストリームトラッカーと比較して、テンプレートと検索領域の早期インタラクションを可能にする最近のワンストリームトラッキングパイプラインは、目覚ましいパフォーマンス向上を達成した。 しかし、既存のワンストリームトラッカーは、常にテンプレートをエンコーダ層全体の検索領域内のすべての部分と相互作用させる。 これは、抽出された特徴表現が十分に識別できない場合に、ターゲットと背景の混乱を引き起こす可能性がある。 そこで本研究では,適応トークン分割に基づく一般化関係モデリング手法を提案する。 提案手法は,テンプレートトークンと対話する適切な検索トークンを選択することで,よりフレキシブルな関係モデリングを実現するとともに,従来の2ストリームパイプラインと1ストリームパイプラインの両方の利点を継承する。 トークン分割モジュールの並列計算とエンドツーエンド学習を容易にするために,注意マスキング戦略とgumbel-softmax手法を導入した。 大規模実験により,本手法は2ストリームと1ストリームのパイプラインよりも優れており,実時間実行速度の6つのベンチマークにおいて最先端の性能が得られることを示した。

Compared with previous two-stream trackers, the recent one-stream tracking pipeline, which allows earlier interaction between the template and search region, has achieved a remarkable performance gain. However, existing one-stream trackers always let the template interact with all parts inside the search region throughout all the encoder layers. This could potentially lead to target-background confusion when the extracted feature representations are not sufficiently discriminative. To alleviate this issue, we propose a generalized relation modeling method based on adaptive token division. The proposed method is a generalized formulation of attention-based relation modeling for Transformer tracking, which inherits the merits of both previous two-stream and one-stream pipelines whilst enabling more flexible relation modeling by selecting appropriate search tokens to interact with template tokens. An attention masking strategy and the Gumbel-Softmax technique are introduced to facilitate the parallel computation and end-to-end learning of the token division module. Extensive experiments show that our method is superior to the two-stream and one-stream pipelines and achieves state-of-the-art performance on six challenging benchmarks with a real-time running speed.
翻訳日:2023-03-30 15:20:01 公開日:2023-03-29
# WordStylist: 潜時拡散モデルを用いたスタイルのVerbatim手書きテキスト生成

WordStylist: Styled Verbatim Handwritten Text Generation with Latent Diffusion Models ( http://arxiv.org/abs/2303.16576v1 )

ライセンス: Link先を確認
Konstantina Nikolaidou, George Retsinas, Vincent Christlein, Mathias Seuret, Giorgos Sfikas, Elisa Barney Smith, Hamam Mokayed, Marcus Liwicki(参考訳) テキストから画像への合成は、特定のテキスト記述に従って画像を生成するタスクである。 生成的逆ネットワークは、導入以来、事実上画像合成の標準的な方法と見なされてきたが、今日では拡散確率モデルの拡張が、テキストから画像への合成の顕著な結果を含む、新しいベースラインを設定している。 その有用性は別として、他の文書画像処理タスクのトレーニングモデルを支援するためのデータ拡張ツールとして特に関係がある。 本稿では,単語レベルでテキストからテキストへのテキスト画像生成のための潜在拡散に基づく手法を提案する。 提案手法は,学習や文字認識,テキスト認識を必要とせずに,クラスインデックススタイルやテキストコンテンツプロンプトを用いて,異なる書き手スタイルから現実的な単語画像を生成する。 本稿では,Frechet Inception Distance,ライター認識精度,ライター検索によるシステム性能評価を行う。 提案モデルでは, 美的満足度の高いサンプルを作成し, テキスト認識性能の向上に寄与し, 類似の文字検索スコアを実データとして得られることを示す。

Text-to-Image synthesis is the task of generating an image according to a specific text description. Generative Adversarial Networks have been considered the standard method for image synthesis virtually since their introduction; today, Denoising Diffusion Probabilistic Models are recently setting a new baseline, with remarkable results in Text-to-Image synthesis, among other fields. Aside its usefulness per se, it can also be particularly relevant as a tool for data augmentation to aid training models for other document image processing tasks. In this work, we present a latent diffusion-based method for styled text-to-text-content-image generation on word-level. Our proposed method manages to generate realistic word image samples from different writer styles, by using class index styles and text content prompts without the need of adversarial training, writer recognition, or text recognition. We gauge system performance with Frechet Inception Distance, writer recognition accuracy, and writer retrieval. We show that the proposed model produces samples that are aesthetically pleasing, help boosting text recognition performance, and gets similar writer retrieval score as real data.
翻訳日:2023-03-30 15:19:41 公開日:2023-03-29
# 雑音非エルミタン量子センシングの指数感度回復とロバスト安定性

Exponential Sensitivity Revival and Robust Stability of Noisy non-Hermitian Quantum Sensing ( http://arxiv.org/abs/2303.16575v1 )

ライセンス: Link先を確認
Liying Bao, Bo Qi, Franco Nori, Daoyi Dong(参考訳) マルチモード非エルミタン(NH)格子力学の特異性を利用して指数関数的に感度の高いセンサを構築することができる。 しかし、ノイズの影響はまだ不明であり、小さなパラメータの変化を検出する能力は大きく低下する可能性がある。 我々は、損失と利得の構造がNH量子センサの感度と安定性に与える影響を解析的に特徴付け、強調する。 対意的に、損失構造を適切に調整するだけで、感覚力学が安定しているときに指数感度が驚くほど回復できることが分かる。 さらに、損失と利得のバランスをとることにより、NHセンサの安定性を確保するためには、利得が不可欠であることを示す。 非平衡雑音に対しては,感度向上とロバスト安定性の指数的低下との間に大きなトレードオフがあることを実証する。 この研究は、NH量子センサの感度と安定性に対するノイズの影響を明確に示し、量子センシングや量子工学に応用できる可能性を示している。

Unique properties of multimode non-Hermitian (NH) lattice dynamics can be utilized to construct exponentially sensitive sensors. The impact of noise however remains unclear, which may greatly degrade the ability to detect small parameter changes. We analytically characterize and highlight the impact of the structure of loss and gain on the sensitivity and stability of NH quantum sensors. Counter-intuitively, we find that by only tuning the loss structure properly, the exponential sensitivity can be surprisingly regained when the sensing dynamics is stable. Furthermore, we prove that the gain is crucial to ensure the stability of the NH sensor by making a balanced loss and gain. For unbalanced noise, we demonstrate that there is a striking tradeoff between the enhancement of the sensitivity and the exponential decrement of the robust stability. This work demonstrates a clear signature about the impact of noise on the sensitivity and stability of NH quantum sensors, and has potential applications in quantum sensing and quantum engineering.
翻訳日:2023-03-30 15:19:22 公開日:2023-03-29
# FEND: 長期軌道予測のための分散型コントラスト学習フレームワーク

FEND: A Future Enhanced Distribution-Aware Contrastive Learning Framework for Long-tail Trajectory Prediction ( http://arxiv.org/abs/2303.16574v1 )

ライセンス: Link先を確認
Yuning Wang, Pu Zhang, Lei Bai, Jianru Xue(参考訳) 交通機関の将来の軌跡を予測することは、自動運転におけるゴーディアン技術である。 しかし、軌道予測は一般的なデータセットでのデータ不均衡に苦しめられ、尾付きデータはより複雑で安全性にクリティカルであることが多い。 本稿では,軌道予測における長い尾現象の扱いに焦点をあてる。 従来の長尾データ処理手法では,尾尾データの動作パターンの多様性は考慮されなかった。 本稿では,末尾の軌跡パターンを認識し,個別のパターンクラスタで特徴空間を形成するための拡張型コントラスト学習フレームワークを提案する。 さらに、分布認識ハイパー予測器を作成し、形状特徴空間をより有効活用する。 我々の手法はモデルに依存しないフレームワークであり、よく知られたベースラインにプラグインすることができる。 実験結果から,本フレームワークの精度はADEで9.5%,FDEで8.5%向上し,平均性能はわずかに向上した。 また,提案手法は軌道予測タスクにおいて,多くのロングテール技術を超えている。

Predicting the future trajectories of the traffic agents is a gordian technique in autonomous driving. However, trajectory prediction suffers from data imbalance in the prevalent datasets, and the tailed data is often more complicated and safety-critical. In this paper, we focus on dealing with the long-tail phenomenon in trajectory prediction. Previous methods dealing with long-tail data did not take into account the variety of motion patterns in the tailed data. In this paper, we put forward a future enhanced contrastive learning framework to recognize tail trajectory patterns and form a feature space with separate pattern clusters. Furthermore, a distribution aware hyper predictor is brought up to better utilize the shaped feature space. Our method is a model-agnostic framework and can be plugged into many well-known baselines. Experimental results show that our framework outperforms the state-of-the-art long-tail prediction method on tailed samples by 9.5% on ADE and 8.5% on FDE, while maintaining or slightly improving the averaged performance. Our method also surpasses many long-tail techniques on trajectory prediction task.
翻訳日:2023-03-30 15:19:06 公開日:2023-03-29
# 点雲上の自己教師あり表現学習のためのpoint2vec

Point2Vec for Self-Supervised Representation Learning on Point Clouds ( http://arxiv.org/abs/2303.16570v1 )

ライセンス: Link先を確認
Karim Abou Zeid and Jonas Schult and Alexander Hermans and Bastian Leibe(参考訳) 近年,自己教師型学習フレームワークであるData2vecは,マスマスキング学習者のアプローチを用いて,様々なモダリティのパフォーマンス向上を図っている。 しかし、そのようなフレームワークが3Dポイントクラウドのユニークな課題に一般化するかどうかはまだ明らかではない。 この質問に答えるために、data2vecをpoint cloudドメインに拡張し、いくつかのダウンストリームタスクの結果を奨励する結果を報告します。 詳細な分析により,位置情報の漏洩により,マスキングが重かった場合でも学生の全体像が明らかとなり,データ2vecを阻害し,ポイントクラウドの強い表現を学習できることが判明した。 我々は、この3D特有の欠点に、ポイントクラウド上でData2vecのような事前学習の可能性を解放するPoint2vecを提案する。 実験の結果, ModelNet40 や ScanObjectNN では, 形状分類や少数ショット学習において他の自己指導手法よりも優れており, 形状分割における競合的な結果が得られている。 これらの結果から,学習された表現は強く伝達可能であることが示唆され,ポイントクラウド表現の自己教師型学習の有望な方向として2vecが強調された。

Recently, the self-supervised learning framework data2vec has shown inspiring performance for various modalities using a masked student-teacher approach. However, it remains open whether such a framework generalizes to the unique challenges of 3D point clouds. To answer this question, we extend data2vec to the point cloud domain and report encouraging results on several downstream tasks. In an in-depth analysis, we discover that the leakage of positional information reveals the overall object shape to the student even under heavy masking and thus hampers data2vec to learn strong representations for point clouds. We address this 3D-specific shortcoming by proposing point2vec, which unleashes the full potential of data2vec-like pre-training on point clouds. Our experiments show that point2vec outperforms other self-supervised methods on shape classification and few-shot learning on ModelNet40 and ScanObjectNN, while achieving competitive results on part segmentation on ShapeNetParts. These results suggest that the learned representations are strong and transferable, highlighting point2vec as a promising direction for self-supervised learning of point cloud representations.
翻訳日:2023-03-30 15:18:47 公開日:2023-03-29
# PMAA:マルチ時間衛星画像からの高速クラウド除去のためのプログレッシブなマルチスケールアテンションオートエンコーダモデル

PMAA: A Progressive Multi-scale Attention Autoencoder Model for High-Performance Cloud Removal from Multi-temporal Satellite Imagery ( http://arxiv.org/abs/2303.16565v1 )

ライセンス: Link先を確認
Xuechao Zou, Kai Li, Junliang Xing, Pin Tao, Yachao Cui(参考訳) 衛星画像解析はリモートセンシングにおいて重要な役割を果たすが、雲による情報損失は、その応用を著しく阻害する。 本研究では,グローバルおよびローカル情報を同時に活用するPMAA(Progressive Multi-scale Attention Autoencoder)と呼ばれる高性能クラウド除去アーキテクチャを提案する。 主にクラウド検出バックボーンとクラウド削除モジュールで構成されている。 クラウド検出バックボーンはクラウドマスクを使用してクラウド領域を強化し、クラウド削除モジュールを起動する。 クラウド除去モジュールは主に、新しいマルチスケールアテンションモジュール(MAM)とローカルインタラクションモジュール(LIM)で構成される。 PMAAは、MAMを用いてマルチスケール特徴の長距離依存性を確立し、LIMを用いて細粒度詳細の再構築を調整し、細粒度と粗粒度の同時表現を可能にする。 多様なマルチスケールの特徴表現の助けを借りて、PMAAは、Sen2_MTC_OldとSen2_MTC_Newデータセット上で、従来の最先端モデルCTGANを一貫して上回る。 さらに、PMAAは、それぞれCTGANのパラメータと計算複雑性の0.5%と14.6%しかなく、かなりの効率性を持っている。 これらの広範な結果は、エッジデバイスへのデプロイメントに適した軽量クラウド除去ネットワークとしてのPMAAの可能性を強調している。 この方向の研究を促進するために、コードとトレーニングされたモデルをリリースします。

Satellite imagery analysis plays a vital role in remote sensing, but the information loss caused by cloud cover seriously hinders its application. This study presents a high-performance cloud removal architecture called Progressive Multi-scale Attention Autoencoder (PMAA), which simultaneously leverages global and local information. It mainly consists of a cloud detection backbone and a cloud removal module. The cloud detection backbone uses cloud masks to reinforce cloudy areas to prompt the cloud removal module. The cloud removal module mainly comprises a novel Multi-scale Attention Module (MAM) and a Local Interaction Module (LIM). PMAA establishes the long-range dependency of multi-scale features using MAM and modulates the reconstruction of the fine-grained details using LIM, allowing for the simultaneous representation of fine- and coarse-grained features at the same level. With the help of diverse and multi-scale feature representation, PMAA outperforms the previous state-of-the-art model CTGAN consistently on the Sen2_MTC_Old and Sen2_MTC_New datasets. Furthermore, PMAA has a considerable efficiency advantage, with only 0.5% and 14.6% of the parameters and computational complexity of CTGAN, respectively. These extensive results highlight the potential of PMAA as a lightweight cloud removal network suitable for deployment on edge devices. We will release the code and trained models to facilitate the study in this direction.
翻訳日:2023-03-30 15:18:23 公開日:2023-03-29
# ベイズ型ニューラルネットワークの後方推定シャープ化による暗黙的視覚バイアス軽減

Implicit Visual Bias Mitigation by Posterior Estimate Sharpening of a Bayesian Neural Network ( http://arxiv.org/abs/2303.16564v1 )

ライセンス: Link先を確認
Rebecca S Stone, Nishant Ravikumar, Andrew J Bulpitt, David C Hogg(参考訳) ディープニューラルネットワークの公平性は、データセットバイアスとスプリアス相関に強く影響され、どちらも現代の機能豊富な複雑なビジュアルデータセットに通常存在する。 タスクの難易度と可変性のため、単一の脱バイアス手法は一般には成功していない。 特に、バイアス変数の明示的な知識を必要としない暗黙的手法は、実世界のアプリケーションにとって特に関係がある。 そこで本研究では,ベイズ型ニューラルネットワークを用いた暗黙的緩和法を提案する。 提案手法は,高い不確実性に寄与しないコア機能にネットワークを集中させることを奨励するものである。 3つのベンチマークデータセットによる実験結果から, ベイジアンネットワークは従来の手法と相容れない性能を示し, さらなる探索にふさわしい可能性が示唆された。

The fairness of a deep neural network is strongly affected by dataset bias and spurious correlations, both of which are usually present in modern feature-rich and complex visual datasets. Due to the difficulty and variability of the task, no single de-biasing method has been universally successful. In particular, implicit methods not requiring explicit knowledge of bias variables are especially relevant for real-world applications. We propose a novel implicit mitigation method using a Bayesian neural network, allowing us to leverage the relationship between epistemic uncertainties and the presence of bias or spurious correlations in a sample. Our proposed posterior estimate sharpening procedure encourages the network to focus on core features that do not contribute to high uncertainties. Experimental results on three benchmark datasets demonstrate that Bayesian networks with sharpened posterior estimates perform comparably to prior existing methods and show potential worthy of further exploration.
翻訳日:2023-03-30 15:17:57 公開日:2023-03-29
# plan4mc: スキル強化学習とオープンワールドマインクラフトタスクの計画

Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks ( http://arxiv.org/abs/2303.16563v1 )

ライセンス: Link先を確認
Haoqi Yuan, Chi Zhang, Hongcheng Wang, Feiyang Xie, Penglin Cai, Hao Dong, Zongqing Lu(参考訳) 我々はminecraftでマルチタスクエージェントを構築することを学ぶ。 人間の実演がなければ、強化学習(RL)を用いたこのオープンエンド環境での長期的タスクの解決は極めて非効率である。 この課題に取り組むために、Minecraftのタスクを分解して基本的なスキルを学び、スキルを計画する。 本稿では,Minecraftにおける3種類の基礎スキルを提案し,本質的な報酬でRLを用いて,高い成功率で基礎スキルを実現する。 スキルプランニングには、大きな言語モデルを使用してスキル間の関係を見つけ、事前にスキルグラフを構築する。 エージェントがタスクを解くとき、スキル検索アルゴリズムはスキルグラフの上を歩き、エージェントの適切なスキルプランを生成する。 実験では、多数のタスクが10以上のスキルで順次実行する必要がある24の多様なminecraftタスクを実現する。 提案手法は,ほとんどのタスクにおけるベースラインを大きなマージンで上回っている。 プロジェクトのWebサイトとコードはhttps://sites.google.com/view/plan4mc.comにある。

We study building a multi-task agent in Minecraft. Without human demonstrations, solving long-horizon tasks in this open-ended environment with reinforcement learning (RL) is extremely sample inefficient. To tackle the challenge, we decompose solving Minecraft tasks into learning basic skills and planning over the skills. We propose three types of fine-grained basic skills in Minecraft, and use RL with intrinsic rewards to accomplish basic skills with high success rates. For skill planning, we use Large Language Models to find the relationships between skills and build a skill graph in advance. When the agent is solving a task, our skill search algorithm walks on the skill graph and generates the proper skill plans for the agent. In experiments, our method accomplishes 24 diverse Minecraft tasks, where many tasks require sequentially executing for more than 10 skills. Our method outperforms baselines in most tasks by a large margin. The project's website and code can be found at https://sites.google.com/view/plan4mc.
翻訳日:2023-03-30 15:17:42 公開日:2023-03-29
# Sauvegrain 法による骨年齢評価のための自己累積視覚変換器

Self-accumulative Vision Transformer for Bone Age Assessment Using the Sauvegrain Method ( http://arxiv.org/abs/2303.16557v1 )

ライセンス: Link先を確認
Hong-Jun Choi, Dongbin Na, Kyungjin Cho, Byunguk Bae, Seo Taek Kong, Hyunjoon Ah(参考訳) 本研究では,Sauvegrain法に基づく多視点マルチタスク分類モデルを用いた骨年齢評価(BAA)に対する新しいアプローチを提案する。 肘のそれぞれのランドマークの成熟度を評価し骨年齢を予測するSauvegrain法を自動化するための簡単な解決策は、興味のある各領域(RoI)を評価するために個別に分類器を訓練することであるが、このアプローチはアクセス可能な情報をローカルな形態に制限し、計算コストを増大させる。 本研究は,多視点多タスク問題において発生する異方性挙動を緩和し,トークン再生と局所的注意バイアスを適用して視覚変換器の有効性を制限する自己累積視覚変換器(SAT)を提案する。 いくつかの実験では、SATはランドマーク間の関係をうまく利用し、グローバルな形態的特徴を学習し、その結果、以前の研究よりも0.11低いBAAの平均的な絶対誤差をもたらすことを示した。 さらに、提案したSATは、前の作業の個々の分類器のアンサンブルよりも4倍のパラメータを持つ。 最後に、この研究は、青年期における異常成長の診断におけるbaaの正確性と効率を改善する、臨床実践に有益な意味を与えている。

This study presents a novel approach to bone age assessment (BAA) using a multi-view, multi-task classification model based on the Sauvegrain method. A straightforward solution to automating the Sauvegrain method, which assesses a maturity score for each landmark in the elbow and predicts the bone age, is to train classifiers independently to score each region of interest (RoI), but this approach limits the accessible information to local morphologies and increases computational costs. As a result, this work proposes a self-accumulative vision transformer (SAT) that mitigates anisotropic behavior, which usually occurs in multi-view, multi-task problems and limits the effectiveness of a vision transformer, by applying token replay and regional attention bias. A number of experiments show that SAT successfully exploits the relationships between landmarks and learns global morphological features, resulting in a mean absolute error of BAA that is 0.11 lower than that of the previous work. Additionally, the proposed SAT has four times reduced parameters than an ensemble of individual classifiers of the previous work. Lastly, this work also provides informative implications for clinical practice, improving the accuracy and efficiency of BAA in diagnosing abnormal growth in adolescents.
翻訳日:2023-03-30 15:17:25 公開日:2023-03-29
# 2レベルボソニックモデルの励起状態量子相転移の縮退と系動力学への影響

Degeneracy in excited state quantum phase transitions of two-level bosonic models and its influence on system dynamics ( http://arxiv.org/abs/2303.16551v1 )

ライセンス: Link先を確認
J. Khalouf-Rivera, Qian Wang, Lea F. Santos, J.E. Garc\'ia Ramos, M. Carvajal, F. P\'erez-Bernal(参考訳) 集合多体量子系の励起状態量子相転移は、異なる相における縮退パターンの変化によって系のスペクトル特性に影響を与える。 ボソン2レベルモデルの縮退性の性質は,モデルが定義された空間の次元によって根本的に異なる。 結果を説明するために,各モデルにおける励起状態量子相転移の順序演算子として,時間外相関器の有効性を評価する。

Excited state quantum phase transitions in collective many-body quantum systems influence the system spectral properties due to changing degeneracy patterns in different phases. We report a fundamental difference in the nature of the degeneracy for boson two-level models, depending on the dimension of the space where the models were defined. To illustrate the consequences, we assess the validity of an out-of-time-order correlator as a possible order operator for excited state quantum phase transitions in different models.
翻訳日:2023-03-30 15:17:03 公開日:2023-03-29
# 古典的な紡糸粒子のクーロン問題

Coulomb problem for classical spinning particle ( http://arxiv.org/abs/2303.16614v1 )

ライセンス: Link先を確認
Dmitry S. Kaparulin and Nikita A. Sinelnikov(参考訳) 我々は古典力学の観点から中央ポテンシャル $e/r$ の任意のスピンを持つ弱相対論的荷電粒子の運動を考える。 スピン軌道と軌道の相互作用は、全角運動量ベクトルの周りの軌道面の傾きを引き起こすことを示した。 偏差の角速度は、中心からの粒子の距離に依存する。 面内運動の有効ポテンシャルは中心であり、スピン-軌道相互作用による項のクーロン補正を行う。 量子粒子の軌道はボーア・ソマーフェルト量子化則によって決定される。 運動方程式の数値積分によって得られた、小さな量子数に対応する軌道の例を示す。 静止状態のエネルギーはスピン軌道相互作用によって決定される。

We consider a motion of a weakly relativistic charged particle with an arbitrary spin in central potential $e/r$ in terms of classical mechanics. We show that the spin-orbital interaction causes the precession of the plane of orbit around the vector of total angular momentum. The angular velocity of precession depends on the distance of the particle from the center. The effective potential for in-plane motion is central, with the corrections to Coulomb terms coming from spin-orbital interaction. The possible orbits of a quantum particle are determined by the Bohr-Sommerfeld quantization rule. We give examples of orbits corresponding to small quantum numbers, which were obtained by numerical integration of equations of motion. The energies of stationary states are determined by spin-orbital interaction.
翻訳日:2023-03-30 15:10:32 公開日:2023-03-29
# 4次元表情拡散モデル

4D Facial Expression Diffusion Model ( http://arxiv.org/abs/2303.16611v1 )

ライセンス: Link先を確認
Kaifeng Zou, Sylvain Faisan, Boyang Yu, S\'ebastien Valette, Hyewon Seo(参考訳) 表情生成は文字アニメーションの最も挑戦的で長い側面の1つであり、多くの興味深い応用がある。 伝統的にデジタル職人に大きく依存していた挑戦的な仕事は、まだ探求されていない。 本稿では,任意の3次元顔メッシュをアニメーション化するために,異なる入力に条件付け可能な3次元表情シーケンス(すなわち4次元顔)を生成するための生成フレームワークを提案する。 本研究は,(1)3次元ランドマーク配列を用いて訓練された生成モデルを学習し,(2)生成されたランドマークシーケンスによって駆動される入力顔メッシュの3次元メッシュシーケンスを生成する2つのタスクから構成される。 生成モデルは、他のドメインの生成タスクにおいて顕著な成功を収めたDDPM(Denoising Diffusion Probabilistic Model)に基づいている。 無条件に訓練できるが、その逆過程は様々な条件信号によって制御される。 これにより、表現ラベル、テキスト、部分配列、あるいは単に顔形状を用いて、様々な条件生成を含む下流タスクを効率的に開発することができる。 メッシュ全体の変形を得るために,所定のメッシュ上にランドマークに埋め込まれた幾何学的変形を適用するランドマーク誘導エンコーダデコーダを開発した。 実験の結果,本モデルは,比較的小さいサイズのデータセットのみから,現実的な品質表現を生成できることが判明した。 他の方法とビデオや定性的比較はhttps://github.com/ZOUKaifeng/4DFMで見ることができる。 受け入れ次第、コードとモデルは利用可能になる。

Facial expression generation is one of the most challenging and long-sought aspects of character animation, with many interesting applications. The challenging task, traditionally having relied heavily on digital craftspersons, remains yet to be explored. In this paper, we introduce a generative framework for generating 3D facial expression sequences (i.e. 4D faces) that can be conditioned on different inputs to animate an arbitrary 3D face mesh. It is composed of two tasks: (1) Learning the generative model that is trained over a set of 3D landmark sequences, and (2) Generating 3D mesh sequences of an input facial mesh driven by the generated landmark sequences. The generative model is based on a Denoising Diffusion Probabilistic Model (DDPM), which has achieved remarkable success in generative tasks of other domains. While it can be trained unconditionally, its reverse process can still be conditioned by various condition signals. This allows us to efficiently develop several downstream tasks involving various conditional generation, by using expression labels, text, partial sequences, or simply a facial geometry. To obtain the full mesh deformation, we then develop a landmark-guided encoder-decoder to apply the geometrical deformation embedded in landmarks on a given facial mesh. Experiments show that our model has learned to generate realistic, quality expressions solely from the dataset of relatively small size, improving over the state-of-the-art methods. Videos and qualitative comparisons with other methods can be found at https://github.com/ZOUKaifeng/4DFM. Code and models will be made available upon acceptance.
翻訳日:2023-03-30 15:10:24 公開日:2023-03-29
# 複雑な光学コヒーレンス断層画像のセグメンテーションのための修正流域アプローチ

Modified watershed approach for segmentation of complex optical coherence tomographic images ( http://arxiv.org/abs/2303.16609v1 )

ライセンス: Link先を確認
Maryam Viqar, Violeta Madjarova, Elena Stoykova(参考訳) 流域分割法は様々な用途で用いられている。 しかし、多くの場合、過剰なセグメンテーション属性のため、ノイズが支配的なソースであるいくつかのタスクで過小評価される。 本研究では,オプティカルコヒーレンス・トモグラフィー画像を取得し,レモン中の液体充填嚢の異なる領域を解析するためのセグメンテーションを行った。 内部レモン構造のセグメンテーションに有望な結果をもたらす改良型流域アルゴリズムが提案されている。

Watershed segmentation method has been used in various applications. But many a times, due to its over-segmentation attributes, it underperforms in several tasks where noise is a dominant source. In this study, Optical Coherence Tomography images have been acquired, and segmentation has been performed to analyse the different regions of fluid filled sacs in a lemon. A modified watershed algorithm has been proposed which gives promising results for segmentation of internal lemon structures.
翻訳日:2023-03-30 15:09:59 公開日:2023-03-29
# ネイティブ2光子励起を用いたrydberg量子ゲートの提案

Proposal for practical Rydberg quantum gates using a native two-photon excitation ( http://arxiv.org/abs/2303.16605v1 )

ライセンス: Link先を確認
Rui Li, Jing Qian and Weiping Zhang(参考訳) Rydbergの量子ゲートは、中性原子量子計算に必要な計算ユニットとして機能し、過去10年間、激しい研究努力を惹きつけてきた。 しかし、最先端の実験は、ライドバーグと中間状態が予期せぬ大きな損失のために、ほとんどの理論で予測されるような高いゲート忠実性に達していない。 本稿では,パルス最適化に基づくネイティブ2ビット制御NOTゲートの構築について報告する。 実験では,スムースに調整されたガウスパルスを用いた2光子ライドバーグ励起法に注目する。 最適化されたパルス形状を利用することで、rydbergおよび中間状態からの減衰の著しい減少と、原子の残留熱運動に対する高い耐性を示す。 実験不完全性を考慮してゲート忠実度$\geq 0.9903$ の保守的下限を抽出する。 本研究は,実験と理論的予測のギャップを低減させるだけでなく,大規模原子配列におけるマルチキュービット量子計算の開発を約束する強い遮断の要求を低減し,より大きな原子配列における遠方の原子量子ビットの接続を容易にする。

Rydberg quantum gate serving as an indispensable computing unit for neutral-atom quantum computation, has attracted intense research efforts for the last decade. However the state-of-the-art experiments have not reached the high gate fidelity as predicted by most theories due to the unexpected large loss remaining in Rydberg and intermediate states. In this paper we report our findings in constructing a native two-qubit controlled-NOT gate based on pulse optimization. We focus on the method of commonly-used two-photon Rydberg excitation with smoothly-tuned Gaussian pulses which is straightforward for experimental demonstration. By utilizing optimized pulse shapes the scheme reveals a remarkable reduction in the decays from Rydberg and intermediate states, as well as a high-tolerance to the residual thermal motion of atoms. We extract a conservative lower bound on the gate fidelity $\geq 0.9903$ after taking into account the experimental imperfections. Our results not only reduce the gap between experiment and theoretical prediction because of the optimal control, but also facilitate the connectivity of distant atomic qubits in a larger atom array by reducing the requirement of strong blockade, which is promising for developing multiqubit quantum computation in large-scale atomic arrays.
翻訳日:2023-03-30 15:09:49 公開日:2023-03-29
# テキストプロンプト学習による合成画像検索のための双方向学習

Bi-directional Training for Composed Image Retrieval via Text Prompt Learning ( http://arxiv.org/abs/2303.16604v1 )

ライセンス: Link先を確認
Zheyuan Liu, Weixuan Sun, Yicong Hong, Damien Teney, Stephen Gould(参考訳) 合成画像検索は、参照画像と所望の変化を記述した修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。 この困難なタスクを解決する既存のアプローチは、(参照画像、変更テキスト)ペアから大きなイメージコーパスにマッチする画像埋め込みへのマッピングを学ぶ。 まだ調査されていない領域の1つは逆方向であり、テキストによって記述されたように修正されたとき、与えられたターゲット画像を生成する参照画像について質問する。 本研究では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。 双方向クエリをエンコードするには、クエリの方向を指定する修正テキストに学習可能なトークンを必須として、テキスト埋め込みモジュールのパラメータを微調整します。 ネットワークアーキテクチャに他の変更は行いません。 2つの標準データセットに対する実験により、我々の新しいアプローチは、既に最先端のパフォーマンスを達成しているベースラインBLIPベースのモデルよりも、改善された性能を実現することを示す。

Composed image retrieval searches for a target image based on a multi-modal user query comprised of a reference image and modification text describing the desired changes. Existing approaches to solving this challenging task learn a mapping from the (reference image, modification text)-pair to an image embedding that is then matched against a large image corpus. One area that has not yet been explored is the reverse direction, which asks the question, what reference image when modified as describe by the text would produce the given target image? In this work we propose a bi-directional training scheme that leverages such reversed queries and can be applied to existing composed image retrieval architectures. To encode the bi-directional query we prepend a learnable token to the modification text that designates the direction of the query and then finetune the parameters of the text embedding module. We make no other changes to the network architecture. Experiments on two standard datasets show that our novel approach achieves improved performance over a baseline BLIP-based model that itself already achieves state-of-the-art performance.
翻訳日:2023-03-30 15:09:29 公開日:2023-03-29
# MIMO衛星放送システムにおけるフェデレーション学習

Federated Learning in MIMO Satellite Broadcast System ( http://arxiv.org/abs/2303.16603v1 )

ライセンス: Link先を確認
Raphael Pinard, Mitra Hassani, Wayne Lemieux(参考訳) フェデレーション・ラーニング(federated learning, fl)は、無線エッジにおける分散機械学習の一種で、クライアントのデータを敵や中央サーバから保護する。 既存の連合学習のアプローチは (i)推論に弱い多人数計算(smc)をセキュアにすること。 (ii)差分プライバシーは、相対的に少ないデータを持つ多数の当事者に対してテスト精度を低下させる可能性がある。 そこで本研究では,MIMOシステムの内部作業における統合学習の導入について紹介する。

Federated learning (FL) is a type of distributed machine learning at the wireless edge that preserves the privacy of clients' data from adversaries and even the central server. Existing federated learning approaches either use (i) secure multiparty computation (SMC) which is vulnerable to inference or (ii) differential privacy which may decrease the test accuracy given a large number of parties with relatively small amounts of data each. To tackle the problem with the existing methods in the literature, In this paper, we introduce incorporate federated learning in the inner-working of MIMO systems.
翻訳日:2023-03-30 15:09:15 公開日:2023-03-29
# Poster: トレーニングDNNにおけるバイアス、ノード感度、ロングテール分布の関連性

Poster: Link between Bias, Node Sensitivity and Long-Tail Distribution in trained DNNs ( http://arxiv.org/abs/2303.16589v1 )

ライセンス: Link先を確認
Mahum Naseer and Muhammad Shafique(参考訳) 優れた学習(と再学習)能力のため、ディープニューラルネットワーク(DNN)は多くの現実世界のアプリケーションで使われている。 しかし、これらのデータ駆動機械学習モデルの学習は、トレーニングで利用できるデータと同じくらい一般的に優れている。 したがって、長いテール分布を持つトレーニングデータセットは、異なる出力クラス間で異なるレベルの分類性能を提供する可能性があるため、dnnにとって課題となる。 このようなネットワークの全体的なバイアスはすでに既存の研究で強調されているが、この研究は異なる出力クラスに対するノードの感度の変化につながるノードバイアスを特定する。 私たちの知る限りでは、これはDNNにおけるこのユニークな課題を強調し、その可能性について議論し、この新しい研究の方向性にオープンな課題を提供する最初の作品です。 実世界のデータセットでトレーニングされたネットワークの実証的なケーススタディを用いて、推論を支援する。

Owing to their remarkable learning (and relearning) capabilities, deep neural networks (DNNs) find use in numerous real-world applications. However, the learning of these data-driven machine learning models is generally as good as the data available to them for training. Hence, training datasets with long-tail distribution pose a challenge for DNNs, since the DNNs trained on them may provide a varying degree of classification performance across different output classes. While the overall bias of such networks is already highlighted in existing works, this work identifies the node bias that leads to a varying sensitivity of the nodes for different output classes. To the best of our knowledge, this is the first work highlighting this unique challenge in DNNs, discussing its probable causes, and providing open challenges for this new research direction. We support our reasoning using an empirical case study of the networks trained on a real-world dataset.
翻訳日:2023-03-30 15:09:05 公開日:2023-03-29
# 時間進化確率ネットワークの誤差緩和による量子振幅推定

Quantum amplitude estimation with error mitigation for time-evolving probabilistic networks ( http://arxiv.org/abs/2303.16588v1 )

ライセンス: Link先を確認
M.C. Braun, T. Decker, N. Hegemann, S.F. Kerstan, C. Maier, J. Ulmanis(参考訳) 本稿では,ゲート型量子コンピュータにおける確率ネットワークの離散化時間発展をモデル化する手法を提案する。 ノードのネットワークを考慮し、各ノードは2つの状態の1つにすることができる。 各タイムステップでは、各ノードが失敗(善から失敗への切り替え)または回復(失敗から善への切り替え)する確率が割り当てられる。 さらに、他のよいノードの障害を引き起こすために、失敗したノードに確率が割り当てられる。 提案手法は任意の時間ステップで任意のネットワークトポロジを評価できる。 したがって、金融ネットワーク、決済・サプライチェーンネットワーク、電力グリッド、通信ネットワークなど固有のカスケード障害や雪崩効果などのイベントをモデル化することができる。 量子振幅推定手法を用いることで、任意のノードの任意の構成の確率を時間とともに推定することができる。 これにより、例えば、中間状態を追跡する必要なしに、最後のステップ後に最初のノードが良い状態になる確率を決定することができる。 本稿では,現実的なノイズモデルを持つシミュレータ上での低深さ量子振幅推定結果を示す。 また、AQT量子コンピュータシステムPINEでこの例を実行する結果を示す。 最後に,シミュレーションとPINEシステム実験の結果を改善するためのエラーモデルを提案する。

We present a method to model a discretized time evolution of probabilistic networks on gate-based quantum computers. We consider networks of nodes, where each node can be in one of two states: good or failed. In each time step, probabilities are assigned for each node to fail (switch from good to failed) or to recover (switch from failed to good). Furthermore, probabilities are assigned for failing nodes to trigger the failure of other, good nodes. Our method can evaluate arbitrary network topologies for any number of time steps. We can therefore model events such as cascaded failure and avalanche effects which are inherent to financial networks, payment and supply chain networks, power grids, telecommunication networks and others. Using quantum amplitude estimation techniques, we are able to estimate the probability of any configuration for any set of nodes over time. This allows us, for example, to determine the probability of the first node to be in the good state after the last time step, without the necessity to track intermediate states. We present the results of a low-depth quantum amplitude estimation on a simulator with a realistic noise model. We also present the results for running this example on the AQT quantum computer system PINE. Finally, we introduce an error model that allows us to improve the results from the simulator and from the experiments on the PINE system.
翻訳日:2023-03-30 15:08:51 公開日:2023-03-29
# 量子ディープヘッジ

Quantum Deep Hedging ( http://arxiv.org/abs/2303.16585v1 )

ライセンス: Link先を確認
El Amine Cherrat, Snehal Raj, Iordanis Kerenidis, Abhishek Shekhar, Ben Wood, Jon Dee, Shouvanik Chakrabarti, Richard Chen, Dylan Herman, Shaohan Hu, Pierre Minssen, Ruslan Shaydulin, Yue Sun, Romina Yalovetzky, Marco Pistoia(参考訳) 量子機械学習は、業界、特に金融分野での変革的な影響の可能性を秘めている。 私たちの仕事では、深層強化学習が実際の市場に対して強力なフレームワークを提供するため、ヘッジの問題に目を向けています。 本研究では,ポリシと値関数に直交層と複合層を持つ量子ニューラルネットワークアーキテクチャを用いた,ポリシー探索および分布型アクタクリティカルアルゴリズムに基づく量子強化学習法を開発した。 我々は、我々が使用する量子ニューラルネットワークが学習可能であることを証明し、量子モデルが学習可能なパラメータの数を減少させながら同等の性能を達成し、分布アプローチが古典的および量子的手法よりも優れた性能が得られることを示す広範なシミュレーションを行う。 トラップイオン量子プロセッサ上で提案したモデルの実装に成功し、最大16ドルキュービットの回路を活用し、ノイズレスシミュレーションによく適合する性能を観測した。 我々の量子技術は一般的なものであり、ヘッジ以外の強化学習問題にも適用できる。

Quantum machine learning has the potential for a transformative impact across industry sectors and in particular in finance. In our work we look at the problem of hedging where deep reinforcement learning offers a powerful framework for real markets. We develop quantum reinforcement learning methods based on policy-search and distributional actor-critic algorithms that use quantum neural network architectures with orthogonal and compound layers for the policy and value functions. We prove that the quantum neural networks we use are trainable, and we perform extensive simulations that show that quantum models can reduce the number of trainable parameters while achieving comparable performance and that the distributional approach obtains better performance than other standard approaches, both classical and quantum. We successfully implement the proposed models on a trapped-ion quantum processor, utilizing circuits with up to $16$ qubits, and observe performance that agrees well with noiseless simulation. Our quantum techniques are general and can be applied to other reinforcement learning problems beyond hedging.
翻訳日:2023-03-30 15:08:30 公開日:2023-03-29
# PPLN導波路を用いた光子対源による光子吸収

Photon Pair Source based on PPLN-Waveguides for Entangled Two-Photon Absorption ( http://arxiv.org/abs/2303.16584v1 )

ライセンス: Link先を確認
Tobias Bernd G\"abler and Patrick Hendra and Nitish Jain and Markus Gr\"afe(参考訳) 絡み合った光子対の吸収による蛍光励起は、光毒性の低減とともに低励起力での信号レベルの上昇のような古典的なイメージング技術の欠点を減少させる。 しかし、現在の絡み合った光子対源は蛍光検出には信頼できない。 この問題を解決するために、非線形導波路に基づく超明るい光子対源が、光子絡み合いによる蛍光励起を可能にする候補として望ましい。 本稿では, 周期的極性窒化リチウム導波管からなる光源を開発し, その特性を分析した。 CdSe/ZnS量子ドット溶液の絡み合った2光子吸収挙動を実験的に検討した。

Fluorescence excitation by absorption of entangled photon pairs can reduce disadvantages of classical imaging techniques, like higher signal levels at low excitation power with simultaneous reduction of phototoxicity. However, current entangled photon pair sources are unreliable for fluorescence detection. To overcome this issue, ultra bright entangled photon pair source are desirable to based on nonlinear waveguides are promising candidates to enable fluorescence excitation by entangled photons. In this paper, a source consisting of a periodically poled lithium niobate waveguide was developed and its key characteristics analysed. To demonstrate its suitability as key component for imaging experiments, the entangled two-photon absorption behavior of CdSe/ZnS quantum dot solutions was experimentally investigated.
翻訳日:2023-03-30 15:08:13 公開日:2023-03-29
# 風力発電予測に対する敵攻撃の標的

Targeted Adversarial Attacks on Wind Power Forecasts ( http://arxiv.org/abs/2303.16633v1 )

ライセンス: Link先を確認
Ren\'e Heinrich, Christoph Scholz, Stephan Vogt, Malte Lehna(参考訳) 近年、研究者は風力予測のための様々なディープラーニングモデルを提案した。 これらのモデルは、従来の機械学習アルゴリズムや物理モデルよりも正確に風力発電所や地域全体の風力発電を予測する。 しかし、最近の研究では、ディープラーニングモデルがしばしば敵の攻撃によって操作されることが示されている。 風力予測は現代の電力システムの安定性に不可欠であるため、これらの脅威から保護することが重要である。 本研究では,攻撃対象,準目標,未目標の2種類の予測モデルの脆弱性について検討する。 風力発電所の発電予測のためのlong short-term memory(lstm)ネットワークと,ドイツ全土の風力発電を予測するconvolutional neural network(cnn)について考察した。 さらに,攻撃対象および半標的攻撃に対する回帰モデルのロバスト性を定量化するための評価指標であるTtal Adversarial Robustness Score (TARS)を提案する。 攻撃がモデルのパフォーマンスに与える影響と、攻撃者の目標が達成された程度を評価し、0(非常に脆弱)と1(非常に堅牢)の間のスコアを割り当てる。 実験では,LSTM予測モデルはかなり頑健であり,全敵攻撃に対するTARS値が0.81以上に達した。 CNN予測モデルは通常の訓練では0.06未満のTARS値しか達成せず、非常に脆弱であった。 しかし、その頑健さは敵対的な訓練によって著しく向上する可能性があり、常に 0.46 を上回った。

In recent years, researchers proposed a variety of deep learning models for wind power forecasting. These models predict the wind power generation of wind farms or entire regions more accurately than traditional machine learning algorithms or physical models. However, latest research has shown that deep learning models can often be manipulated by adversarial attacks. Since wind power forecasts are essential for the stability of modern power systems, it is important to protect them from this threat. In this work, we investigate the vulnerability of two different forecasting models to targeted, semitargeted, and untargeted adversarial attacks. We consider a Long Short-Term Memory (LSTM) network for predicting the power generation of a wind farm and a Convolutional Neural Network (CNN) for forecasting the wind power generation throughout Germany. Moreover, we propose the Total Adversarial Robustness Score (TARS), an evaluation metric for quantifying the robustness of regression models to targeted and semi-targeted adversarial attacks. It assesses the impact of attacks on the model's performance, as well as the extent to which the attacker's goal was achieved, by assigning a score between 0 (very vulnerable) and 1 (very robust). In our experiments, the LSTM forecasting model was fairly robust and achieved a TARS value of over 0.81 for all adversarial attacks investigated. The CNN forecasting model only achieved TARS values below 0.06 when trained ordinarily, and was thus very vulnerable. Yet, its robustness could be significantly improved by adversarial training, which always resulted in a TARS above 0.46.
翻訳日:2023-03-30 15:00:54 公開日:2023-03-29
# $XXZ$-スピン鎖ダイナミクス下におけるスピンヘリックスの緩和における普遍性

Universality in relaxation of spin helices under the $XXZ$- spin chain dynamics ( http://arxiv.org/abs/2303.16632v1 )

ライセンス: Link先を確認
Vladislav Popkov, Marko \v{Z}nidari\v{c} and Xin Zhang(参考訳) 異方性ハイゼンベルクスピン鎖進化下での回転磁化を伴う生成状態である横スピンヘリックス状態(shs)のダイナミクスについて述べる。 実験的な関連性から,特に磁化ダイナミクスに注目する。 長い時間に、ハミルトニアンの$U(1)$対称性が復元され、空間調和プロファイルの指数減衰として記述できる横磁化の崩壊へと繋がる。 本研究では, 初期ヘリックスの波動ベクトル, 異方性など, 原理的にすべてのパラメータに依存する短時間および中間時間の減衰時間スケールの依存性を, 単一スケーリング関数でうまく記述できることを述べる。 また、磁化電流の進化についても簡単に論じる。

We describe dynamics of transverse spin-helix state (SHS) -- a product state with spatially rotating magnetization -- under anisotropic Heisenberg spin chain evolution. Due to experimental relevance we especially focus on magnetization dynamics. At long times the $U(1)$ symmetry of the Hamiltonian is restored, leading to the decay of transverse magnetization, which can be described as an exponential decay of a spatially harmonic profile. We show that the dependence of the short and intermediate-time decay timescale, which in principle depends on all different parameters, like the wavevector of the initial helix, the anisotropy, etc., can be described well by a single scaling function. We also briefly discuss the evolution of magnetization current.
翻訳日:2023-03-30 15:00:31 公開日:2023-03-29
# DORT:マルチカメラ3次元物体検出・追跡のためのリカレント動的物体モデリング

DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object Detection and Tracking ( http://arxiv.org/abs/2303.16628v1 )

ライセンス: Link先を確認
Qing Lian, Tai Wang, Dahua Lin, Jiangmiao Pang(参考訳) 最近のマルチカメラ3Dオブジェクト検出器は通常、時間的情報を利用して、不適切な深さ推定を緩和する多視点ステレオを構築する。 しかし、通常は全てのオブジェクトが静的であり、フレーム間で直接集約されていると仮定する。 この研究は、運動物体の運動を無視した理論的および経験的な分析から始まり、深刻な局所化バイアスをもたらす。 そこで本稿では,RecurrenT (DORT) における動的オブジェクトをモデル化してこの問題に対処する。 従来のグローバルなBird-Eye-View (BEV) 法とは対照的に,DORT はオブジェクトワイドな局所ボリュームを抽出し,計算負荷を軽減する。 推定対象運動と位置を反復的に精製することにより、上記の悪影響を軽減するために、上記特徴を電流フレームに正確に集約することができる。 simple frameworkには2つの大きな魅力がある。 フレキシブルで実用的で、ほとんどのカメラベースの3dオブジェクト検出器に接続できる。 ループ内に物体の動きの予測があるため、最寄りの中心距離に応じてフレームを横切る物体を容易に追跡することができる。 ベルとホイッスルがなければ、DORTは、それぞれ 62.5\% NDS と 57.6\% AMOTA の nuScenes 検出および追跡ベンチマークにおいて、すべての従来の手法より優れている。 ソースコードはリリースされます。

Recent multi-camera 3D object detectors usually leverage temporal information to construct multi-view stereo that alleviates the ill-posed depth estimation. However, they typically assume all the objects are static and directly aggregate features across frames. This work begins with a theoretical and empirical analysis to reveal that ignoring the motion of moving objects can result in serious localization bias. Therefore, we propose to model Dynamic Objects in RecurrenT (DORT) to tackle this problem. In contrast to previous global Bird-Eye-View (BEV) methods, DORT extracts object-wise local volumes for motion estimation that also alleviates the heavy computational burden. By iteratively refining the estimated object motion and location, the preceding features can be precisely aggregated to the current frame to mitigate the aforementioned adverse effects. The simple framework has two significant appealing properties. It is flexible and practical that can be plugged into most camera-based 3D object detectors. As there are predictions of object motion in the loop, it can easily track objects across frames according to their nearest center distances. Without bells and whistles, DORT outperforms all the previous methods on the nuScenes detection and tracking benchmarks with 62.5\% NDS and 57.6\% AMOTA, respectively. The source code will be released.
翻訳日:2023-03-30 15:00:19 公開日:2023-03-29
# fairlearn: aiシステムの公正性の評価と改善

Fairlearn: Assessing and Improving Fairness of AI Systems ( http://arxiv.org/abs/2303.16626v1 )

ライセンス: Link先を確認
Hilde Weerts, Miroslav Dud\'ik, Richard Edgar, Adrin Jalali, Roman Lutz, Michael Madaio(参考訳) fairlearnは、人工知能(ai)システムの公正性の評価と改善を支援するオープンソースプロジェクトである。 関連するPythonライブラリである Fairlearn は、影響を受けた集団間でモデルの出力の評価をサポートし、フェアネス問題を緩和するためのアルゴリズムを含んでいる。 公平性が社会技術的課題であるという理解に根ざしたこのプロジェクトは、より広い社会的な文脈を考慮した実践者を支援する学習資源を統合する。

Fairlearn is an open source project to help practitioners assess and improve fairness of artificial intelligence (AI) systems. The associated Python library, also named fairlearn, supports evaluation of a model's output across affected populations and includes several algorithms for mitigating fairness issues. Grounded in the understanding that fairness is a sociotechnical challenge, the project integrates learning resources that aid practitioners in considering a system's broader societal context.
翻訳日:2023-03-30 14:59:56 公開日:2023-03-29
# 局所特徴マッチングのための適応スポットガイド変換器

Adaptive Spot-Guided Transformer for Consistent Local Feature Matching ( http://arxiv.org/abs/2303.16624v1 )

ライセンス: Link先を確認
Jiahuan Yu, Jiahao Chang, Jianfeng He, Tianzhu Zhang, Feng Wu(参考訳) 局所特徴マッチングは、画像間の対応を見つけることを目的としている。 現在の検出不要な手法はTransformerアーキテクチャを活用して優れた性能を得るが、局所的な一貫性を維持することを検討する研究はほとんどない。 一方、ほとんどの方法は大規模なバリエーションに苦しむ。 上記の問題に対処するため,局所的特徴マッチングのための適応型スポットガイド変換器 (ASTR) を提案する。 提案されたASTRにはいくつかのメリットがある。 まず,特徴集約中に無関係領域との干渉を避けるために,スポット誘導アグリゲーションモジュールを設計する。 第2に,計算された細部情報に応じてグリッドサイズを調整可能な適応型スケーリングモジュールを設計した。 5つの標準ベンチマークの大規模な実験結果から、ASTRは最先端の手法に対して好適に機能することが示された。 私たちのコードはhttps://astr2023.github.ioでリリースします。

Local feature matching aims at finding correspondences between a pair of images. Although current detector-free methods leverage Transformer architecture to obtain an impressive performance, few works consider maintaining local consistency. Meanwhile, most methods struggle with large scale variations. To deal with the above issues, we propose Adaptive Spot-Guided Transformer (ASTR) for local feature matching, which jointly models the local consistency and scale variations in a unified coarse-to-fine architecture. The proposed ASTR enjoys several merits. First, we design a spot-guided aggregation module to avoid interfering with irrelevant areas during feature aggregation. Second, we design an adaptive scaling module to adjust the size of grids according to the calculated depth information at fine stage. Extensive experimental results on five standard benchmarks demonstrate that our ASTR performs favorably against state-of-the-art methods. Our code will be released on https://astr2023.github.io.
翻訳日:2023-03-30 14:59:47 公開日:2023-03-29
# トランスモンカプラによるKerr-cat量子ビット間のZZ$結合の制御

Control of the $ZZ$ coupling between Kerr-cat qubits via transmon couplers ( http://arxiv.org/abs/2303.16622v1 )

ライセンス: Link先を確認
Takaaki Aoki, Taro Kanao, Hayato Goto, Shiro Kawabata, and Shumpei Masuda(参考訳) kerr-cat 量子ビットは誤りの偏りがあるため、フォールトトレラント量子コンピュータの有望な候補である。 キュービット間の$zz$結合は、2キュービットのエンタングゲートで使用できるが、残差結合は不要な常時オンゲートとクロストークを引き起こす。 この問題を解決するために、2つのトランスモンカプラを用いた$ZZ$-couplingスキームを提案する。 2つのカプラーのデチューニングを反対の値に設定することで、2つのカプラーによる残りの$zz$カップリングが互いにキャンセルされる。 また、我々のスキームを2量子エンタングルゲートの1つである$R_{zz}(\Theta)$ gate(ZZ$ rotation with angle $\Theta$)に適用する。 r_{zz}(-\pi/2)$ゲートの忠実度は、16nsのゲート時間の場合で99.9%以上であり、デコヒーレンスがないことを数値的に示す。

Kerr-cat qubits are a promising candidate for fault-tolerant quantum computers owing to the biased nature of errors. The $ZZ$ coupling between the qubits can be utilized for a two-qubit entangling gate, but the residual coupling causes unnecessary always-on gates and crosstalk. In order to resolve this problem, we propose a tunable $ZZ$-coupling scheme using two transmon couplers. By setting the detunings of the two couplers at opposite values, the residual $ZZ$ couplings via the two couplers cancel each other out. We also apply our scheme to the $R_{zz}(\Theta)$ gate ($ZZ$ rotation with angle $\Theta$), one of the two-qubit entangling gates. We numerically show that the fidelity of the $R_{zz}(-\pi/2)$ gate is higher than 99.9% in a case of 16 ns gate time and without decoherence.
翻訳日:2023-03-30 14:59:31 公開日:2023-03-29
# AraSpot:アラビアの音声コマンドスポッティング

AraSpot: Arabic Spoken Command Spotting ( http://arxiv.org/abs/2303.16621v1 )

ライセンス: Link先を確認
Mahmoud Salhab and Haidar Harmanani(参考訳) 音声キーワードスポッティング(kws)は、音声ストリーム内のキーワードを識別するタスクであり、音声アシスタントを起動し、ハンズフリーなタスクを実行するために、エッジのスマートデバイスで広く使われている。 このタスクは、高い精度を実現する必要性がある一方で、低消費電力と限られた計算能力デバイス上で、そのようなシステムが効率的に動作し続けることを保証するためである。 この研究は、40のアラビア語キーワードで訓練されたアラビア語キーワードスポッティングのためのAraSpotを紹介し、異なるオンラインデータ拡張を使用し、ConformerGRUモデルアーキテクチャを導入した。 最後に、合成データ生成のためのテキスト音声モデルの訓練により、モデルの性能をさらに向上する。 AraSpotはステート・オブ・ザ・アーツのSOTA 99.59%を達成し、以前のアプローチより優れていた。

Spoken keyword spotting (KWS) is the task of identifying a keyword in an audio stream and is widely used in smart devices at the edge in order to activate voice assistants and perform hands-free tasks. The task is daunting as there is a need, on the one hand, to achieve high accuracy while at the same time ensuring that such systems continue to run efficiently on low power and possibly limited computational capabilities devices. This work presents AraSpot for Arabic keyword spotting trained on 40 Arabic keywords, using different online data augmentation, and introducing ConformerGRU model architecture. Finally, we further improve the performance of the model by training a text-to-speech model for synthetic data generation. AraSpot achieved a State-of-the-Art SOTA 99.59% result outperforming previous approaches.
翻訳日:2023-03-30 14:59:13 公開日:2023-03-29
# リッチメタデータアノテーションを用いた文字のパーソナライズド言語モデリング

Personalised Language Modelling of Screen Characters Using Rich Metadata Annotations ( http://arxiv.org/abs/2303.16618v1 )

ライセンス: Link先を確認
Sebastian Vincent, Rowanne Sumner, Alice Dowek, Charlotte Blundell, Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton(参考訳) 対話のための言語モデルのパーソナライゼーションは、特定の特徴を持つ人々の話し方や、特定の環境における話し方をよりよく捉える。 しかし、リッチな文字アノテーションを使うのは難しく、うまく活用するのは難しい。 本稿では,人気映画コーネル・ムービー・ダイアログ・コーパスの853名の話者に対して,特徴的引用やキャラクタ記述などの特徴を含む新しいマニュアルアノテーションと,95%以上の映画に対して自動抽出されたメタデータを6セット公開・記述する。 2つのコーパスに対して広範な実験を行い、このようなアノテーションを言語モデルのパーソナライズに効果的に利用し、パープレキシティを最大8.5%削減できることを示す。 本手法は,事前の学習データがない話者に対して,文字の人口特性の組み合わせを頼りに,ゼロショットでも適用することができる。 このようなメタデータの収集はコストがかかるため、どのアノテーションが最もコスト効果が高いかを示すコスト便益分析にも貢献する。

Personalisation of language models for dialogue sensitises them to better capture the speaking patterns of people of specific characteristics, and/or in specific environments. However, rich character annotations are difficult to come by and to successfully leverage. In this work, we release and describe a novel set of manual annotations for 863 speakers from the popular Cornell Movie Dialog Corpus, including features like characteristic quotes and character descriptions, and a set of six automatically extracted metadata for over 95% of the featured films. We perform extensive experiments on two corpora and show that such annotations can be effectively used to personalise language models, reducing perplexity by up to 8.5%. Our method can be applied even zero-shot for speakers for whom no prior training data is available, by relying on combinations of characters' demographic characteristics. Since collecting such metadata is costly, we also contribute a cost-benefit analysis to highlight which annotations were most cost-effective relative to the reduction in perplexity.
翻訳日:2023-03-30 14:58:54 公開日:2023-03-29
# nefii:近距離場インダイレクト照明による反射分解の逆レンダリング

NeFII: Inverse Rendering for Reflectance Decomposition with Near-Field Indirect Illumination ( http://arxiv.org/abs/2303.16617v1 )

ライセンス: Link先を確認
Haoqian Wu, Zhipeng Hu, Lincheng Li, Yongqiang Zhang, Changjie Fan, Xin Yu(参考訳) 逆レンダリング手法は、多視点RGB画像から幾何学、材料、照明を推定することを目的としている。 より優れた分解を達成するために、近年のアプローチでは、球状ガウス(SG)を介して異なる材料から反射される間接的な照度をモデル化しようとしている。 本稿では,多視点画像から材料や照明を分解し,近接場間接照明を考慮しながら,エンドツーエンドの逆レンダリングパイプラインを提案する。 一言で言えば、モンテカルロサンプリングに基づく経路追跡を導入し、間接照明を神経放射としてキャッシュし、物理学的不完全で最適化が容易な逆レンダリング法を可能にする。 効率と実用性を高めるため,sgを用いて円滑な環境照度を表現し,重要サンプリング技術を適用する。 本研究では,非可観測方向からの間接的照度を監督するため,暗黙のニューラル放射率と非可観測光の経路追尾結果と,材料と照明の連成最適化を両立させ,分解性能を著しく向上させる手法を開発した。 広範な実験により,本手法は複数の合成データセット,実データ,特に反射間分解において最先端の手法よりも優れていることが証明された。

Inverse rendering methods aim to estimate geometry, materials and illumination from multi-view RGB images. In order to achieve better decomposition, recent approaches attempt to model indirect illuminations reflected from different materials via Spherical Gaussians (SG), which, however, tends to blur the high-frequency reflection details. In this paper, we propose an end-to-end inverse rendering pipeline that decomposes materials and illumination from multi-view images, while considering near-field indirect illumination. In a nutshell, we introduce the Monte Carlo sampling based path tracing and cache the indirect illumination as neural radiance, enabling a physics-faithful and easy-to-optimize inverse rendering method. To enhance efficiency and practicality, we leverage SG to represent the smooth environment illuminations and apply importance sampling techniques. To supervise indirect illuminations from unobserved directions, we develop a novel radiance consistency constraint between implicit neural radiance and path tracing results of unobserved rays along with the joint optimization of materials and illuminations, thus significantly improving the decomposition performance. Extensive experiments demonstrate that our method outperforms the state-of-the-art on multiple synthetic and real datasets, especially in terms of inter-reflection decomposition.
翻訳日:2023-03-30 14:58:37 公開日:2023-03-29
# リモートセンシングシーン分類における近距離近傍の分布外検出

Nearest Neighbor Based Out-of-Distribution Detection in Remote Sensing Scene Classification ( http://arxiv.org/abs/2303.16616v1 )

ライセンス: Link先を確認
Dajana Dimitri\'c, Mitar Simi\'c, Vladimir Risojevi\'c(参考訳) 画像分類のためのディープラーニングモデルは、通常、「クローズドワールド」の仮定の下で事前定義された画像クラスで訓練される。 しかし、モデルがデプロイされると、トレーニング中に遭遇したクラスに属さない入力イメージに直面する可能性がある。 この種のシナリオは、異なる地理的領域、センサー、撮像条件から画像がやってくるリモートセンシング画像分類において一般的である。 本稿では,異なる分布からのリモートセンシング画像を検出する問題を,分布画像から抽出したトレーニングデータと比較して扱う。 本研究では,リモートセンシングシーン分類における分布検出の指標を提案し,最大ソフトマックス確率と最寄り近傍に基づく検出器の評価を行う。 実験の結果,最寄りの近傍に基づく方法の説得力のあるアドバンテージが得られた。

Deep learning models for image classification are typically trained under the "closed-world" assumption with a predefined set of image classes. However, when the models are deployed they may be faced with input images not belonging to the classes encountered during training. This type of scenario is common in remote sensing image classification where images come from different geographic areas, sensors, and imaging conditions. In this paper we deal with the problem of detecting remote sensing images coming from a different distribution compared to the training data - out of distribution images. We propose a benchmark for out of distribution detection in remote sensing scene classification and evaluate detectors based on maximum softmax probability and nearest neighbors. The experimental results show convincing advantages of the method based on nearest neighbors.
翻訳日:2023-03-30 14:58:10 公開日:2023-03-29
# クライアント更新における行列自己回帰による連合学習のためのビザンチン・レジリエントアグリゲーション

A Byzantine-Resilient Aggregation Scheme for Federated Learning via Matrix Autoregression on Client Updates ( http://arxiv.org/abs/2303.16668v1 )

ライセンス: Link先を確認
Gabriele Tolomei and Edoardo Gabrielli and Dimitri Belli and Vittorio Miori(参考訳) 本研究では,ビザンチン攻撃に頑健な新しい連邦学習(FL)アグリゲーションスキームであるFLANDERSを提案する。 FLANDERSは各FLラウンドでクライアントが送ったローカルモデル更新を行列値の時系列とみなしている。 次に,悪意のあるクライアントを,行列自己回帰予測モデルにより推定された実測値と比較することにより,この時系列の外れ値と同定する。 異なるFL設定下でいくつかのデータセットで実施された実験は、FLANDERSがビザンツのクライアントに対して最も強力なベースラインの堅牢性と一致することを示した。 さらに、フランドルは既存の防衛戦略とは対照的に、非常に厳しい攻撃シナリオでも非常に効果的である。

In this work, we propose FLANDERS, a novel federated learning (FL) aggregation scheme robust to Byzantine attacks. FLANDERS considers the local model updates sent by clients at each FL round as a matrix-valued time series. Then, it identifies malicious clients as outliers of this time series by comparing actual observations with those estimated by a matrix autoregressive forecasting model. Experiments conducted on several datasets under different FL settings demonstrate that FLANDERS matches the robustness of the most powerful baselines against Byzantine clients. Furthermore, FLANDERS remains highly effective even under extremely severe attack scenarios, as opposed to existing defense strategies.
翻訳日:2023-03-30 14:52:00 公開日:2023-03-29
# 原子キャビティ系を用いた光学フォック状態の蒸留

Distillation of optical Fock-states using atom-cavity systems ( http://arxiv.org/abs/2303.16667v1 )

ライセンス: Link先を確認
G. P. Teja and Chanchal(参考訳) フォック状態は電磁波の量子化された状態であり、量子光学や量子通信に様々な応用がある。 しかし、任意の光フォック状態の生成はいまだ解明されていない。 fock状態生成の提案の大部分は、原子-キャビティ相互作用を正確に制御し、実験的に挑戦している。 本稿では,光フォック状態をコヒーレント状態から蒸留する手法を提案する。 任意の位相を持つ条件相フリップ(CPF)を原子と光の間に実装する。 CPFと原子の単位回転と測定により、必要なフォック状態の除去が可能となる。 一例として、Fock-sate $\ket{100}$の蒸留を示す。

Fock states are quantized states of electromagnetic waves with diverse applications in quantum optics and quantum communication. However, generation of arbitrary optical Fock states still remains elusive. Majority of Fock state generation proposals rely on precisely controlling the atom-cavity interactions and are experimentally challenging. We propose a scheme to distill an optical Fock state from a coherent state. A conditional phase flip (CPF) with arbitrary phase is implemented between the atom and light. The CPF along with the unitary rotations and measurements on the atoms enables us to distil required Fock-state. As an example, we show the distillation of Fock-sate $\ket{100}$.
翻訳日:2023-03-30 14:51:48 公開日:2023-03-29
# SC-VAE:スパース符号化に基づく変分オートエンコーダ

SC-VAE: Sparse Coding-based Variational Autoencoder ( http://arxiv.org/abs/2303.16666v1 )

ライセンス: Link先を確認
Pan Xiao, Peijie Qiu, Aristeidis Sotiras(参考訳) ラベルのないデータからリッチなデータ表現を学ぶことは、下流の教師付きタスクにディープラーニングアルゴリズムを適用するための重要な課題である。 低次元空間に高次元データを符号化することでコンパクトなデータ表現を学習するために、変分オートエンコーダのいくつかの変種が提案されている。 VAEメソッドの2つの主要なクラスは、表現学習ステップで強制されるメタプライヤの特性によって区別することができる。 第一級のメソッドは、潜在空間における静的事前分布を仮定して連続符号化を導出する。 2つ目のクラスは、コードブックとともにベクトル量子化(VQ)を用いて離散潜在表現を学ぶ。 しかし,どちらの手法も特定の課題に悩まされており,画像再構成の結果が得られうる。 第1級のメソッドは後部崩壊に悩まされ、第2級のメソッドはコードブック崩壊に悩まされる。 これらの課題に対処するため,我々は,変分オートエンコーダフレームワークにスパース符号化を統合するsc-vae (sparse coding-based vae)と呼ばれる新しいvae変種を導入する。 連続的あるいは離散的な潜在表現を学習する代わりに、より少ない数の学習原子の線形結合からなるスパースデータ表現を学習する。 反復収縮しきい値アルゴリズム(ISTA)の学習可能なバージョンを用いてスパース符号化問題を解く。 2つの画像データセットを用いた実験により,本モデルが最先端手法と比較して画像再構成精度の向上を実現した。 さらに、学習したスパースコードベクトルを使用することで、クラスタリングイメージパッチを通じて粗いイメージセグメンテーションのような下流タスクを実行できる。

Learning rich data representations from unlabeled data is a key challenge towards applying deep learning algorithms in downstream supervised tasks. Several variants of variational autoencoders have been proposed to learn compact data representaitons by encoding high-dimensional data in a lower dimensional space. Two main classes of VAEs methods may be distinguished depending on the characteristics of the meta-priors that are enforced in the representation learning step. The first class of methods derives a continuous encoding by assuming a static prior distribution in the latent space. The second class of methods learns instead a discrete latent representation using vector quantization (VQ) along with a codebook. However, both classes of methods suffer from certain challenges, which may lead to suboptimal image reconstruction results. The first class of methods suffers from posterior collapse, whereas the second class of methods suffers from codebook collapse. To address these challenges, we introduce a new VAE variant, termed SC-VAE (sparse coding-based VAE), which integrates sparse coding within variational autoencoder framework. Instead of learning a continuous or discrete latent representation, the proposed method learns a sparse data representation that consists of a linear combination of a small number of learned atoms. The sparse coding problem is solved using a learnable version of the iterative shrinkage thresholding algorithm (ISTA). Experiments on two image datasets demonstrate that our model can achieve improved image reconstruction results compared to state-of-the-art methods. Moreover, the use of learned sparse code vectors allows us to perform downstream task like coarse image segmentation through clustering image patches.
翻訳日:2023-03-30 14:51:41 公開日:2023-03-29
# 多言語トランスフォーマーモデルを用いたインドの言語要約

Summarizing Indian Languages using Multilingual Transformers based Models ( http://arxiv.org/abs/2303.16657v1 )

ライセンス: Link先を確認
Dhaval Taunk and Vasudeva Varma(参考訳) mBART、mT5、IndicBARTなどの多言語モデルの出現に伴い、低リソースのインドの言語における要約が、今や注目を集めている。 しかし、それでもデータセットの数は少ない。 本研究では,これらの多言語モデルが,インド語を原文とするデータセット上でどのように機能するかを,要約を行いながら検討する。 IndicBARTおよびmT5モデルを用いて実験を行い, ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4のスコアを評価指標として報告する。

With the advent of multilingual models like mBART, mT5, IndicBART etc., summarization in low resource Indian languages is getting a lot of attention now a days. But still the number of datasets is low in number. In this work, we (Team HakunaMatata) study how these multilingual models perform on the datasets which have Indian languages as source and target text while performing summarization. We experimented with IndicBART and mT5 models to perform the experiments and report the ROUGE-1, ROUGE-2, ROUGE-3 and ROUGE-4 scores as a performance metric.
翻訳日:2023-03-30 14:51:13 公開日:2023-03-29
# 非線形振動子を用いたデータからのフロー関数の学習

Learning Flow Functions from Data with Applications to Nonlinear Oscillators ( http://arxiv.org/abs/2303.16656v1 )

ライセンス: Link先を確認
Miguel Aguiar, Amritam Das and Karl H. Johansson(参考訳) 軌道データから因果的・時間不変・連続時間制御系の流れ関数を学習するためのリカレントニューラルネットワーク(RNN)に基づくアーキテクチャについて述べる。 制御入力のクラスを一括定数関数に制限することにより、フロー関数の学習は離散時間力学系の入力状態マップの学習と等価であることを示す。 これにより、RNNをエンコーダとデコーダネットワークと共に使用し、システムの状態をRNNとバックの隠された状態にマッピングする。 提案手法は,システムの因果性と時間不変性を生かしてフロー関数を近似できることを示す。 学習したフロー関数モデルの出力はいつでもいつでも問い合わせることができる。 Van der Pol と FitzHugh Nagumo 振動子のモデルを用いて提案手法を実験的に検証した。 どちらの場合も、アーキテクチャがこれらの2つのシステムの軌跡を忠実に再現できることを示す。 さらに,van der pol 発振器では,トレーニングモデルがシステムの応答を長期予測時間軸で一般化し,トレーニング分布外の入力を制御することを示す。 フィッツヒュー・ナグモ発振器については、モデルが励起性の入力依存現象を正確に捉えていることを示す。

We describe a recurrent neural network (RNN) based architecture to learn the flow function of a causal, time-invariant and continuous-time control system from trajectory data. By restricting the class of control inputs to piecewise constant functions, we show that learning the flow function is equivalent to learning the input-to-state map of a discrete-time dynamical system. This motivates the use of an RNN together with encoder and decoder networks which map the state of the system to the hidden state of the RNN and back. We show that the proposed architecture is able to approximate the flow function by exploiting the system's causality and time-invariance. The output of the learned flow function model can be queried at any time instant. We experimentally validate the proposed method using models of the Van der Pol and FitzHugh Nagumo oscillators. In both cases, the results demonstrate that the architecture is able to closely reproduce the trajectories of these two systems. For the Van der Pol oscillator, we further show that the trained model generalises to the system's response with a prolonged prediction time horizon as well as control inputs outside the training distribution. For the FitzHugh-Nagumo oscillator, we show that the model accurately captures the input-dependent phenomena of excitability.
翻訳日:2023-03-30 14:51:00 公開日:2023-03-29
# 光アシストトンネル法によるナノデバイス中の電子のコヒーレント振動のリアルタイム追跡

Real-Time Tracking of Coherent Oscillations of Electrons in a Nanodevice by Photo-assisted Tunnelling ( http://arxiv.org/abs/2303.16647v1 )

ライセンス: Link先を確認
Yang Luo, Frank Neubrech, Alberto Martin-Jimenez, Na Liu, Klaus Kern, Manish Garg(参考訳) 金属ナノ構造(局在表面プラズモン)に励起される電子のコヒーレントな集合振動は、入射光を原子スケールに閉じ込め、局所場に依存しない強い光-物質相互作用を可能にする。 このような電子振動をリアルタイムで直接サンプリングすることは、量子ナノデバイスでペタヘルツスケールの光変調、制御、読み出しを行うのに不可欠である。 本稿では,このような振動によって発生する光アシストトンネル電流をこの量子ナノデバイスに記録することにより,auボウティーナノアンテナにおける集合電子振動のリアルタイム追跡を示す。 集団電子振動は、約10フェムト秒の減衰時間を持つ駆動レーザー場に対する非瞬時応答を示す。 ナノデバイスのコヒーレント非線形光学応答による非線形電子振動の時間的変化もリアルタイムに追跡された。 ナノデバイス中の発生したトンネル電流における線形および非線形電子振動の寄与を精密に決定した。 ナノデバイスにおける電子振動のコヒーレント制御は、時間領域で直接図示される。 環境条件において、励起、コヒーレント制御、およびコヒーレント電子振動の読み出しは、量子ナノデバイスにおけるオンチップ光波エレクトロニクスへの道を開く。

Coherent collective oscillations of electrons excited in metallic nanostructures (localized surface plasmons) can confine incident light to atomic scales and enable strong light-matter interactions, which depend nonlinearly on the local field. Direct sampling of such collective electron oscillations in real-time is crucial to performing petahertz scale optical modulation, control, and readout in a quantum nanodevice. Here, we demonstrate real-time tracking of collective electron oscillations in an Au bowtie nanoantenna, by recording photo-assisted tunnelling currents generated by such oscillations in this quantum nanodevice. The collective electron oscillations show a noninstantaneous response to the driving laser fields with a decay time of nearly 10 femtoseconds. The temporal evolution of nonlinear electron oscillations resulting from the coherent nonlinear optical response of the nanodevice were also traced in real-time. The contributions of linear and nonlinear electron oscillations in the generated tunnelling currents in the nanodevice were precisely determined. A coherent control of electron oscillations in the nanodevice is illustrated directly in the time domain. Functioning in ambient conditions, the excitation, coherent control, and read-out of coherent electron oscillations pave the way toward on-chip light-wave electronics in quantum nanodevices.
翻訳日:2023-03-30 14:50:43 公開日:2023-03-29
# 局所特徴マッチングのための構造付きエピポーラマッチング

Structured Epipolar Matcher for Local Feature Matching ( http://arxiv.org/abs/2303.16646v1 )

ライセンス: Link先を確認
Jiahao Chang, Jiahuan Yu(参考訳) 局所的な特徴マッチングは、テクスチャがなく反復的なパターンのため難しい。 既存の手法では、外観特徴やグローバルインタラクションやマッチングに焦点をあてているが、局所的特徴マッチングに先立つ幾何学の重要性は十分に活用されていない。 これらの手法と異なり、本論文では、幾何の重要さを掘り下げ、局所的特徴マッチングのための構造的エピポーラマッチング(SEM)を提案し、幾何情報を反復的マッチング方式で活用する。 提案モデルはいくつかのメリットを享受する。 まず,提案する構造化特徴抽出器は,画素と高信頼アンカー点間の相対的な位置関係をモデル化することができる。 第二に、提案したエピポーラ注意とマッチングは、エピポーラ制約を利用して無関係な領域をフィルタリングすることができる。 5つの標準ベンチマークの大規模な実験結果は、最先端の手法と比較してSEMの優れた性能を示している。

Local feature matching is challenging due to the textureless and repetitive pattern. Existing methods foucs on using appearance features and global interaction and matching, while the importance of geometry prior in local feature matching has not been fully exploited. Different from these methods, in this paper, we delve into the importance of geometry prior and propose Structured Epipolar Matcher (SEM) for local feature matching, which can leverage the geometric information in a iterative matching way. The proposed model enjoys several merits. First, our proposed Structured Feature Extractor can model the relative positional relationship between pixels and high-confidence anchor points. Second, our proposed Epipolar Attention and Matching can filter out irrelevant areas by utilizing the epipolar constraint. Extensive experimental results on five standard benchmarks demonstrate the superior performance of our SEM compared to state-of-the-art methods.
翻訳日:2023-03-30 14:50:23 公開日:2023-03-29
# MuRAL: オブジェクト検出のためのマルチスケール領域ベースアクティブラーニング

MuRAL: Multi-Scale Region-based Active Learning for Object Detection ( http://arxiv.org/abs/2303.16637v1 )

ライセンス: Link先を確認
Yi-Syuan Liou, Tsung-Han Wu, Jia-Fong Yeh, Wen-Chin Chen, Winston H. Hsu(参考訳) 大規模なラベル付きオブジェクト検出データセットを得ることは、バウンディングボックスとクラスラベルでイメージに注釈を付けることを伴うため、コストと時間がかかる。 そこで,ラベル付されていないデータから粗粒サンプルか細粒インスタンスを選択することで,コストを削減するための専門的なアクティブラーニング手法が提案されている。 しかしながら、前者のアプローチは冗長なラベル付けに苦しむ一方で、後者の手法は一般的にトレーニングの不安定性とサンプリングバイアスにつながる。 これらの課題に対処するために、オブジェクト検出のためのマルチスケール領域ベースアクティブラーニング(MuRAL)と呼ばれる新しいアプローチを提案する。 MuRALは、様々なスケールの情報領域を特定し、よく学習されたオブジェクトのアノテーションコストを削減し、トレーニング性能を向上させる。 informative region scoreは、インスタンスの予測された信頼性と各オブジェクトのカテゴリの分布の両方を考慮し、より検出の難しいクラスに集中できるように設計されている。 さらに,多様な地域をラベル付けや下流の微調整のために選択し,トレーニング安定性を高めるためのスケールアウェア選択戦略も採用している。 提案手法は,Cityscapes および MS COCO データセットの粗粒度および細粒度ベースラインを網羅し,難カテゴリー性能の大幅な向上を示す。

Obtaining large-scale labeled object detection dataset can be costly and time-consuming, as it involves annotating images with bounding boxes and class labels. Thus, some specialized active learning methods have been proposed to reduce the cost by selecting either coarse-grained samples or fine-grained instances from unlabeled data for labeling. However, the former approaches suffer from redundant labeling, while the latter methods generally lead to training instability and sampling bias. To address these challenges, we propose a novel approach called Multi-scale Region-based Active Learning (MuRAL) for object detection. MuRAL identifies informative regions of various scales to reduce annotation costs for well-learned objects and improve training performance. The informative region score is designed to consider both the predicted confidence of instances and the distribution of each object category, enabling our method to focus more on difficult-to-detect classes. Moreover, MuRAL employs a scale-aware selection strategy that ensures diverse regions are selected from different scales for labeling and downstream finetuning, which enhances training stability. Our proposed method surpasses all existing coarse-grained and fine-grained baselines on Cityscapes and MS COCO datasets, and demonstrates significant improvement in difficult category performance.
翻訳日:2023-03-30 14:49:52 公開日:2023-03-29
# GPTEval:GPT-4による人体アライメント改善によるNLG評価

GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment ( http://arxiv.org/abs/2303.16634v1 )

ライセンス: Link先を確認
Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu and Chenguang Zhu(参考訳) 自然言語生成システム(NLG)が生成するテキストの品質を自動測定することは困難である。 BLEUやROUGEのような従来の基準ベースのメトリクスは、人間の判断、特に創造性と多様性を必要とするタスクに対して、相対的に低い相関があることが示されている。 近年の研究では、人間の参照を欠く新しいタスクに適用できるという利点がある、NLG評価のための基準のない指標として、大規模言語モデル(LLM)を使用することが提案されている。 しかしながら、これらのLDMベースの評価器は、中規模の神経評価器よりも人間との対応が低い。 本研究では,大規模言語モデルとチェーン・オブ・シント(CoT)とフォームフィリング・パラダイムを用いて,NLG出力の品質を評価するためのGPTEvalを提案する。 テキスト要約と対話生成という2つの世代タスクを実験する。 gpt-4 をバックボーンモデルとしたgpteval は, 総和作業において0.514 のスピアマン相関を達成し, 従来の手法を大差で上回った。 また, LLM に基づく評価器の挙動を予備解析し, LLM 生成テキストに対するバイアスを有する LLM に基づく評価器の可能性を明らかにする。

The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present GPTEval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that GPTEval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts.
翻訳日:2023-03-30 14:49:27 公開日:2023-03-29
# 微分可能なヒルベルト値パラメータのワンステップ推定

One-Step Estimation of Differentiable Hilbert-Valued Parameters ( http://arxiv.org/abs/2303.16711v1 )

ライセンス: Link先を確認
Alex Luedtke and Incheoul Chung(参考訳) 本稿では,滑らか性が経路的微分可能性条件によって特徴づけられる滑らかなヒルベルト値パラメータに対する推定子を提案する。 パラメータ空間が再生核ヒルベルト空間であるとき、効率的なルートnレート推定子と対応する信頼度集合を得る手段を提供する。 これらの推定器はヒルベルト値の効率的な影響関数に基づくクロスフィットワンステップ推定器の一般化に対応する。 機械学習技術に基づくものを含む,任意のニュアンス関数推定器を用いた場合においても理論的保証を与える。 これらの結果は、パラメータが効率的な影響関数を持つ限り、再生カーネルを持たないヒルベルト空間に自然に拡張されることを示す。 しかし、再生カーネルがない場合には、パスワイズ微分可能であっても、多くの興味深いパラメータが効率的な影響関数を持たないという不運な事実も明らかになった。 これらのケースに対処するために、正規化された一段階推定子と関連する信頼セットを提案する。 また、我々のアプローチの中心的な要件であるパスワイズ微分可能性が、多くの場合に成り立つことを示す。 具体的には、経路微分可能なパラメータの複数の例を示し、対応する推定器と信頼セットを開発する。 これらの例のうち4つは、因果推論コミュニティによる進行中の研究に特に関係しており、反事実密度関数、線量応答関数、条件平均処理効果関数、反事実カーネル平均埋め込みである。

We present estimators for smooth Hilbert-valued parameters, where smoothness is characterized by a pathwise differentiability condition. When the parameter space is a reproducing kernel Hilbert space, we provide a means to obtain efficient, root-n rate estimators and corresponding confidence sets. These estimators correspond to generalizations of cross-fitted one-step estimators based on Hilbert-valued efficient influence functions. We give theoretical guarantees even when arbitrary estimators of nuisance functions are used, including those based on machine learning techniques. We show that these results naturally extend to Hilbert spaces that lack a reproducing kernel, as long as the parameter has an efficient influence function. However, we also uncover the unfortunate fact that, when there is no reproducing kernel, many interesting parameters fail to have an efficient influence function, even though they are pathwise differentiable. To handle these cases, we propose a regularized one-step estimator and associated confidence sets. We also show that pathwise differentiability, which is a central requirement of our approach, holds in many cases. Specifically, we provide multiple examples of pathwise differentiable parameters and develop corresponding estimators and confidence sets. Among these examples, four are particularly relevant to ongoing research by the causal inference community: the counterfactual density function, dose-response function, conditional average treatment effect function, and counterfactual kernel mean embedding.
翻訳日:2023-03-30 14:42:36 公開日:2023-03-29
# 環境認識のためのモジュール型リアルタイム視覚システム

An intelligent modular real-time vision-based system for environment perception ( http://arxiv.org/abs/2303.16710v1 )

ライセンス: Link先を確認
Amirhossein Kazerouni, Amirhossein Heydarian, Milad Soltany, Aida Mohammadshahi, Abbas Omidi and Saeed Ebadollahi(参考訳) 運転障害のかなりの部分は、人的ミスと局所運転規制の無視によって引き起こされるため、インテリジェントな補助システムが有用である。 本稿では,環境を把握して運転者の安全を確保するための,新しいビジョンベースのモジュールパッケージを提案する。 各モジュールは、精度と推論時間に基づいて設計され、リアルタイムパフォーマンスを提供する。 その結果、提案システムは、最小限のハードウェア要件で、幅広い車両に実装できる。 モジュールパッケージは,レーン検出,オブジェクト検出,セグメンテーション,単眼深度推定の4つの主セクションからなる。 各セクションには、システム全体とともに他の人の精度を向上させる新しいテクニックが付属している。 さらに、ドライバに認識情報を表示するGUIを開発する。 BDD100Kのような公開データセットの使用に加えて、システムの微調整と評価に使用するローカルデータセットの収集とアノテーションも行っています。 すべてのセクションにおいて,システムの精度が80%以上であることを示す。 私たちのコードとデータはhttps://github.com/Pandas-Team/Autonomous-Vehicle-Environment-Perceptionで公開されています。

A significant portion of driving hazards is caused by human error and disregard for local driving regulations; Consequently, an intelligent assistance system can be beneficial. This paper proposes a novel vision-based modular package to ensure drivers' safety by perceiving the environment. Each module is designed based on accuracy and inference time to deliver real-time performance. As a result, the proposed system can be implemented on a wide range of vehicles with minimum hardware requirements. Our modular package comprises four main sections: lane detection, object detection, segmentation, and monocular depth estimation. Each section is accompanied by novel techniques to improve the accuracy of others along with the entire system. Furthermore, a GUI is developed to display perceived information to the driver. In addition to using public datasets, like BDD100K, we have also collected and annotated a local dataset that we utilize to fine-tune and evaluate our system. We show that the accuracy of our system is above 80% in all the sections. Our code and data are available at https://github.com/Pandas-Team/Autonomous-Vehicle-Environment-Perception
翻訳日:2023-03-30 14:42:14 公開日:2023-03-29
# TraVaG:GANを用いた個人用トレースバリアント生成

TraVaG: Differentially Private Trace Variant Generation Using GANs ( http://arxiv.org/abs/2303.16704v1 )

ライセンス: Link先を確認
Majid Rafiei, Frederik Wangelik, Mahsa Pourbafrani, Wil M.P. van der Aalst(参考訳) 産業ではプロセスマイニングが急速に成長している。 その結果、プロセスマイニングアルゴリズムが使用するイベントデータに含まれる機密情報やプライベート情報に関するプライバシの懸念が高まっている。 最先端の研究は主に、例えば、プロセス発見などの主要なプロセスマイニング技術で使用されるトレース変種に対して、差分プライバシーなどのプライバシー保証を提供することに焦点を当てている。 しかしながら、トレースの変種をリリースするためのプライバシ保護技術は、まだ産業規模での利用要件をすべて満たしていない。 さらに、低頻度のトレース変異が存在する場合に、プライバシの保証を提供することは依然として課題である。 本稿では,業界規模のメリットを提供し,頻繁な変動率が存在する場合のプライバシ保証のレベルを向上する, \text{Generative Adversarial Networks} (GANs) に基づく,微分プライベートなトレース変種をリリースするための新しいアプローチとしてTraVaGを紹介する。 さらに、TraVaGは、変種の長さの制限や偽変種の導入など、従来のプライバシー保護技術の欠点を克服している。 実生活イベントデータを用いた実験結果から, プライバシー保証, 基本データ保護, 実用性保全の観点から, 最先端技術よりも優れた手法が得られた。

Process mining is rapidly growing in the industry. Consequently, privacy concerns regarding sensitive and private information included in event data, used by process mining algorithms, are becoming increasingly relevant. State-of-the-art research mainly focuses on providing privacy guarantees, e.g., differential privacy, for trace variants that are used by the main process mining techniques, e.g., process discovery. However, privacy preservation techniques for releasing trace variants still do not fulfill all the requirements of industry-scale usage. Moreover, providing privacy guarantees when there exists a high rate of infrequent trace variants is still a challenge. In this paper, we introduce TraVaG as a new approach for releasing differentially private trace variants based on \text{Generative Adversarial Networks} (GANs) that provides industry-scale benefits and enhances the level of privacy guarantees when there exists a high ratio of infrequent variants. Moreover, TraVaG overcomes shortcomings of conventional privacy preservation techniques such as bounding the length of variants and introducing fake variants. Experimental results on real-life event data show that our approach outperforms state-of-the-art techniques in terms of privacy guarantees, plain data utility preservation, and result utility preservation.
翻訳日:2023-03-30 14:41:57 公開日:2023-03-29
# 非線型部分可観測系に対する局所線形化による確率的逆最適制御

Probabilistic inverse optimal control with local linearization for non-linear partially observable systems ( http://arxiv.org/abs/2303.16698v1 )

ライセンス: Link先を確認
Dominik Straub, Matthias Schultheis, Heinz Koeppl, Constantin A. Rothkopf(参考訳) 逆最適制御法は、シーケンシャルな意思決定タスクの振る舞いを特徴づけるために用いられる。 しかし、既存の作業の多くは制御信号を知っておくか、完全に観測可能なシステムや線形システムに限られている。 本稿では,制御信号の欠如と既存手法を統一する部分可観測性を有する確率的非線形系の逆最適制御に対する確率論的アプローチを提案する。 エージェントの知覚・制御系のノイズ特性の明示的なモデルと局所線形化手法を併用することにより,モデルパラメータの近似的近似を導出し,単一のフォワードパス内で計算できる。 本稿では,従来の制御タスク,ナビゲーションタスク,手動到達タスクの確率的かつ部分的に観測可能なバージョンについて評価する。 提案手法は、模倣学習から感覚運動神経科学まで幅広い応用性を有する。

Inverse optimal control methods can be used to characterize behavior in sequential decision-making tasks. Most existing work, however, requires the control signals to be known, or is limited to fully-observable or linear systems. This paper introduces a probabilistic approach to inverse optimal control for stochastic non-linear systems with missing control signals and partial observability that unifies existing approaches. By using an explicit model of the noise characteristics of the sensory and control systems of the agent in conjunction with local linearization techniques, we derive an approximate likelihood for the model parameters, which can be computed within a single forward pass. We evaluate our proposed method on stochastic and partially observable version of classic control tasks, a navigation task, and a manual reaching task. The proposed method has broad applicability, ranging from imitation learning to sensorimotor neuroscience.
翻訳日:2023-03-30 14:41:32 公開日:2023-03-29
# 可逆的ロバスト性に対する潜在的特徴関係一貫性

Latent Feature Relation Consistency for Adversarial Robustness ( http://arxiv.org/abs/2303.16697v1 )

ライセンス: Link先を確認
Xingbin Liu, Huafeng Kuang, Hong Liu, Xianming Lin, Yongjian Wu, Rongrong Ji(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンタスクに適用され、最先端のパフォーマンスを達成した。 しかし、DNNが自然の例に人間に知覚できない敵対的ノイズを加える敵の例を予測すると、誤分類が起こる。 これはセキュリティクリティカルな分野におけるdnnの適用を制限する。 この問題を緩和するために、我々はまず、逆例と自然例の両方の潜伏特徴の実証分析を行い、自然例の類似性行列が逆例よりもコンパクトであることを発見した。 この観測に動機づけられて、潜在空間における逆例の関係を制約し、自然例と整合性を持つような \textbf{L}atent \textbf{F}eature \textbf{R}elation \textbf{C}onsistency (\textbf{LFRC}) を提案する。 LFRCは従来の手法と直交しており,それらと容易に組み合わせてさらなる改善を図ることができる。 LFRCの有効性を示すために、ベンチマークデータセット上で異なるニューラルネットワークを用いて広範な実験を行う。 例えば、LFRC は AT に比べて 0.78 % 改善され、TRADES に比べて 1.09 % 改善され、CIFAR10 では AutoAttack に対抗できる。 コードはhttps://github.com/liuxingbin/lfrcで入手できる。

Deep neural networks have been applied in many computer vision tasks and achieved state-of-the-art performance. However, misclassification will occur when DNN predicts adversarial examples which add human-imperceptible adversarial noise to natural examples. This limits the application of DNN in security-critical fields. To alleviate this problem, we first conducted an empirical analysis of the latent features of both adversarial and natural examples and found the similarity matrix of natural examples is more compact than those of adversarial examples. Motivated by this observation, we propose \textbf{L}atent \textbf{F}eature \textbf{R}elation \textbf{C}onsistency (\textbf{LFRC}), which constrains the relation of adversarial examples in latent space to be consistent with the natural examples. Importantly, our LFRC is orthogonal to the previous method and can be easily combined with them to achieve further improvement. To demonstrate the effectiveness of LFRC, we conduct extensive experiments using different neural networks on benchmark datasets. For instance, LFRC can bring 0.78\% further improvement compared to AT, and 1.09\% improvement compared to TRADES, against AutoAttack on CIFAR10. Code is available at https://github.com/liuxingbin/LFRC.
翻訳日:2023-03-30 14:41:17 公開日:2023-03-29
# 意味的類似性とテキスト埋め込みを用いた戦略的コミュニケーションのソーシャルメディアエコーの測定

Using Semantic Similarity and Text Embedding to Measure the Social Media Echo of Strategic Communications ( http://arxiv.org/abs/2303.16694v1 )

ライセンス: Link先を確認
Tristan J.B. Cann, Ben Dennes, Travis Coan, Saffron O'Neill, Hywel T.P. Williams (University of Exeter)(参考訳) オンライン談話は幅広いトピックをカバーし、多くの俳優は、注意深く制作されたメッセージやターゲットキャンペーンを通じてオンラインの議論に影響を与えるよう、コンテンツを調整している。 しかし、オンラインメディアコンテンツの規模と多様性は、特定のメッセージの影響を評価するのを難しくしている。 本稿では,特定のメッセージが公開された後,意味的類似性を利用して議論の変化を定量化する手法を提案する。 われわれは、環境機関からの一連のプレスリリースと気候変動に関する議論のツイートを使って、我々の新しいアプローチが、戦略的コミュニケーションに対するオンラインの談話における反応の激しい分布を明らかにしていることを示す。

Online discourse covers a wide range of topics and many actors tailor their content to impact online discussions through carefully crafted messages and targeted campaigns. Yet the scale and diversity of online media content make it difficult to evaluate the impact of a particular message. In this paper, we present a new technique that leverages semantic similarity to quantify the change in the discussion after a particular message has been published. We use a set of press releases from environmental organisations and tweets from the climate change debate to show that our novel approach reveals a heavy-tailed distribution of response in online discourse to strategic communications.
翻訳日:2023-03-30 14:40:51 公開日:2023-03-29
# 協調システムにおけるループとのオブジェクトインタラクションのための未音プロセスモデルのオブジェクト指向発見防止:拡張バージョン

Preventing Object-centric Discovery of Unsound Process Models for Object Interactions with Loops in Collaborative Systems: Extended Version ( http://arxiv.org/abs/2303.16680v1 )

ライセンス: Link先を確認
Janik-Vasily Benzin, Gyunam Park, Stefanie Rinderle-Ma(参考訳) オブジェクト指向プロセス発見(OCPD)はプロセスマイニングにおけるパラダイムシフトを構成する。 イベントログに存在する単一のケース概念を仮定するのではなく、ocpdは単一のケース概念を使わずにイベントを処理することができる。 オブジェクト型は複数の相互作用するケース概念を構成する。 OCPDの出力は、オブジェクト中心のペトリネット、すなわち、オブジェクトタイプに対応する複数の実行フローの並列実行を表すオブジェクト型のあるペトリネットである。 古典的なプロセス発見と同様、OCPDでは行動論的なプロセスモデルを目指しており、結果のオブジェクト中心のペトリネットの健全性を目指しています。 しかし、既存のOCPDアプローチは音質に反する可能性がある。 以下に示すように、協調システムで発生するループと複数の相互作用するオブジェクトタイプに対して、1つの違反が発生する。 本稿では, 拡張したocpdアプローチを提案し, 結果として生じる対象中心ペトリネットの健全性に支障を来さないことを証明した。 また、発見対象中心のペトリネットにおいて、OCPDアプローチが突発的な相互作用をもたらすのを防ぐ方法を示す。 提案するフレームワークはプロトタイプで実装されている。

Object-centric process discovery (OCPD) constitutes a paradigm shift in process mining. Instead of assuming a single case notion present in the event log, OCPD can handle events without a single case notion, but that are instead related to a collection of objects each having a certain type. The object types constitute multiple, interacting case notions. The output of OCPD is an object-centric Petri net, i.e. a Petri net with object-typed places, that represents the parallel execution of multiple execution flows corresponding to object types. Similar to classical process discovery, where we aim for behaviorally sound process models as a result, in OCPD, we aim for soundness of the resulting object-centric Petri nets. However, the existing OCPD approach can result in violations of soundness. As we will show, one violation arises for multiple interacting object types with loops that arise in collaborative systems. This paper proposes an extended OCPD approach and proves that it does not suffer from this violation of soundness of the resulting object-centric Petri nets. We also show how we prevent the OCPD approach from introducing spurious interactions in the discovered object-centric Petri net. The proposed framework is prototypically implemented.
翻訳日:2023-03-30 14:40:38 公開日:2023-03-29
# 有限次元量子系における精度とゆらぎのトレードオフ

Trade-offs between precision and fluctuations in charging finite-dimensional quantum systems ( http://arxiv.org/abs/2303.16676v1 )

ライセンス: Link先を確認
Faraj Bakhshinezhad, Beniamin R. Jablonski, Felix C. Binder, Nicolai Friis(参考訳) 量子熱力学において、多くのタスクは、しばしば量子バッテリと呼ばれる平衡外量子系で表される仕事の源を必要とするプロセスによってモデル化される。 ここでは, 循環ハミルトニアン過程を通じて荷電される熱平衡において, 有限次元量子系としてモデル化した量子電池を考える。 同一の2レベルシステムと個別のd$レベルシステムに対して、充電精度と充電中の動作変動の点で等間隔のエネルギーギャップを持つ最適または至近のプロトコルを提案する。 我々は、これらのメリットの数字と、地域およびグローバルオペレーションのパフォーマンスのトレードオフを分析する。

Within quantum thermodynamics, many tasks are modelled by processes that require work sources represented by out-of-equilibrium quantum systems, often dubbed quantum batteries, in which work can be deposited or from which work can be extracted. Here we consider quantum batteries modelled as finite-dimensional quantum systems initially in thermal equilibrium that are charged via cyclic Hamiltonian processes. We present optimal or near-optimal protocols for $N$ identical two-level systems and individual $d$-level systems with equally spaced energy gaps in terms of the charging precision and work fluctuations during the charging process. We analyze the trade-off between these figures of merit as well as the performance of local and global operations.
翻訳日:2023-03-30 14:40:19 公開日:2023-03-29
# 実世界の分類課題におけるニューロシンボリックルール学習

Neuro-symbolic Rule Learning in Real-world Classification Tasks ( http://arxiv.org/abs/2303.16674v1 )

ライセンス: Link先を確認
Kexin Gu Baugh, Nuri Cingillioglu, Alessandra Russo(参考訳) ニューロシンボリックルール学習は、純粋なニューラルモデルよりも優れた解釈可能性を提供し、シンボリックルール学習よりもスケールを提供するため、多くの注目を集めている。 pix2ruleという最近のアプローチでは、フィードフォワード層でシンボリックルールを学習するためのニューラルディジャンクティブ正規形(neural DNF)モジュールが提案されている。 pix2ruleは合成二進分類において有効であることが証明されたが、実世界データに対するマルチラベルやマルチクラス分類のようなより困難なタスクには適用されていない。 本稿では、ニューラルDNFモジュールを拡張することによって、この制限に対処する。 (i)実世界のマルチクラス・マルチラベル分類タスクにおけるルール学習のサポート (二)多クラス分類において相互排他性(即ち正確に一類を予測すること)の象徴的性質を強制し、 (iii)大規模なインプットやアウトプットに対するスケーラビリティを探求する。 pix2ruleのneural dnfモジュールに類似した多段分類を訓練し,多段分類において相互排他性を強制するneural dnf-eo (exactly one) と呼ばれる新しい拡張モデルを提案する。 我々は、ニューラルネットワークdnfベースのモデルの分類性能、拡張性、解釈性を評価し、純粋なニューラルネットワークモデルとfastlasという最先端のシンボリックルール学習者と比較する。 ニューラルdnfモデルがニューラルネットワークと同様に動作するが、論理規則の抽出を可能にすることにより、より優れた解釈性が得られることを示す。 ルール検索スペースが大きくなると、200クラスとすべてのマルチラベル設定のマルチクラス分類タスクで学習できないfastlasとは対照的に、モデルもうまくスケールします。

Neuro-symbolic rule learning has attracted lots of attention as it offers better interpretability than pure neural models and scales better than symbolic rule learning. A recent approach named pix2rule proposes a neural Disjunctive Normal Form (neural DNF) module to learn symbolic rules with feed-forward layers. Although proved to be effective in synthetic binary classification, pix2rule has not been applied to more challenging tasks such as multi-label and multi-class classifications over real-world data. In this paper, we address this limitation by extending the neural DNF module to (i) support rule learning in real-world multi-class and multi-label classification tasks, (ii) enforce the symbolic property of mutual exclusivity (i.e. predicting exactly one class) in multi-class classification, and (iii) explore its scalability over large inputs and outputs. We train a vanilla neural DNF model similar to pix2rule's neural DNF module for multi-label classification, and we propose a novel extended model called neural DNF-EO (Exactly One) which enforces mutual exclusivity in multi-class classification. We evaluate the classification performance, scalability and interpretability of our neural DNF-based models, and compare them against pure neural models and a state-of-the-art symbolic rule learner named FastLAS. We demonstrate that our neural DNF-based models perform similarly to neural networks, but provide better interpretability by enabling the extraction of logical rules. Our models also scale well when the rule search space grows in size, in contrast to FastLAS, which fails to learn in multi-class classification tasks with 200 classes and in all multi-label settings.
翻訳日:2023-03-30 14:40:08 公開日:2023-03-29
# 責任ある量子技術, 安全保護, 関与, 進歩する量子研究開発に向けて

Towards responsible quantum technology, safeguarding, engaging and advancing Quantum R&D ( http://arxiv.org/abs/2303.16671v1 )

ライセンス: Link先を確認
Mauritz Kop, Mateo Aboy, Eline De Jong, Urs Gasser, Timo Minssen, I. Glenn Cohen, Mark Brongersma, Teresa Quintel, Luciano Floridi, Raymond Laflamme(参考訳) 量子技術(qt)の期待される社会的な影響は、責任を持って前進し、革新することを促します。 本稿では,倫理的,法的,社会的,政策的含意(elspi)を量子r&dに統合し,期待,包含,反省,応答性といった責任ある研究とイノベーションの側面に対応することを目的とした,責任あるqtの概念的枠組みを提案する。 QTの独自性を検証した結果、量子イノベーションは、積極的に対処し、イノベーションプロセスに利害関係者を巻き込み、QT(SEA)の進展を継続することで、リスクに対して共同で保護することを目的とした、レスポンシブルQTの方法論的枠組みによってガイドされるべきである、と論じる。 さらに、量子固有の導出原理を確立することで、SEAフレームワークの運用を提案する。 量子コンピューティングが情報セキュリティに与える影響は、(1)応答性QTをガイドするフレームワークの必要性、(2)一般にQTのためのSEAフレームワークの有用性を示すケーススタディとして用いられる。 さらに,本提案手法がqtに影響を及ぼす創発的な規制状況にどのように影響を与えるかを検証し,qtの基盤技術としての規制介入を設計・文脈化・調整し,政策介入の意図しない非生産的非生産的影響のリスクを低減できる可能性について展望する。 責任ある量子エコシステムの基盤として、研究コミュニティと他のステークホルダーは、推奨される指針原則をさらに発展させ、ベストプラクティスや実世界のアプリケーションへの運用について議論するよう求められている。 提案するフレームワークは、これらの非常に必要で学際的な取り組みの出発点とすべきである。

The expected societal impact of quantum technologies (QT) urges us to proceed and innovate responsibly. This article proposes a conceptual framework for Responsible QT that seeks to integrate considerations about ethical, legal, social, and policy implications (ELSPI) into quantum R&D, while responding to the Responsible Research and Innovation dimensions of anticipation, inclusion, reflection and responsiveness. After examining what makes QT unique, we argue that quantum innovation should be guided by a methodological framework for Responsible QT, aimed at jointly safeguarding against risks by proactively addressing them, engaging stakeholders in the innovation process, and continue advancing QT (SEA). We further suggest operationalizing the SEA-framework by establishing quantum-specific guiding principles. The impact of quantum computing on information security is used as a case study to illustrate (1) the need for a framework that guides Responsible QT, and (2) the usefulness of the SEA-framework for QT generally. Additionally, we examine how our proposed SEA-framework for responsible innovation can inform the emergent regulatory landscape affecting QT, and provide an outlook of how regulatory interventions for QT as base-layer technology could be designed, contextualized, and tailored to their exceptional nature in order to reduce the risk of unintended counterproductive effects of policy interventions. Laying the groundwork for a responsible quantum ecosystem, the research community and other stakeholders are called upon to further develop the recommended guiding principles, and discuss their operationalization into best practices and real-world applications. Our proposed framework should be considered a starting point for these much needed, highly interdisciplinary efforts.
翻訳日:2023-03-30 14:39:40 公開日:2023-03-29
# NLGシステムの評価 : 簡単な紹介

Evaluating NLG systems: A brief introduction ( http://arxiv.org/abs/2303.16742v1 )

ライセンス: Link先を確認
Emiel van Miltenburg(参考訳) 今年の国際自然言語生成会議(INLG)では、最高の評価を得た論文を受賞する予定である。 この賞の目的は、nlg研究者がシステムのアウトプットを評価する方法にもっと注意を払うことへのインセンティブを提供することである。 このエッセイは、NLGにおける評価に関する短い紹介を提供し、重要な用語と区別を説明する。

This year the International Conference on Natural Language Generation (INLG) will feature an award for the paper with the best evaluation. The purpose of this award is to provide an incentive for NLG researchers to pay more attention to the way they assess the output of their systems. This essay provides a short introduction to evaluation in NLG, explaining key terms and distinctions.
翻訳日:2023-03-30 14:33:52 公開日:2023-03-29
# 遊び方に影響する人: 時間的畳み込みを伴うグラフアテンションネットワークによるスポーツパフォーマンスの予測

Who You Play Affects How You Play: Predicting Sports Performance Using Graph Attention Networks With Temporal Convolution ( http://arxiv.org/abs/2303.16741v1 )

ライセンス: Link先を確認
Rui Luo and Vikram Krishnamurthy(参考訳) 本研究では,スポーツにおける選手のパフォーマンスを予測するための新しい深層学習手法であるGATv2-GCNを提案する。 動的プレイヤーインタラクショングラフを構築するために,ゲームプレイ中のプレイヤー統計とその相互作用を利用する。 我々はグラフアテンションネットワークを用いて、各プレイヤーが互いに支払う注意を捉え、動的プレイヤーの相互作用をより正確にモデリングすることができる。 多変量プレイヤー統計時系列を扱うために、時間的畳み込み層(temporal convolution layer)を組み込んでモデルに時間的予測力を与える。 実世界スポーツデータを用いたモデルの性能評価を行い,選手のパフォーマンス予測の有効性を実証した。 さらに,スポーツ賭けの文脈におけるモデルの利用可能性を検討し,予測能力を活用した収益戦略への洞察を提供する。 提案手法は,選手のパフォーマンス予測の最先端を推し進め,スポーツ分析や賭け業界に貴重な洞察を与える可能性がある。

This study presents a novel deep learning method, called GATv2-GCN, for predicting player performance in sports. To construct a dynamic player interaction graph, we leverage player statistics and their interactions during gameplay. We use a graph attention network to capture the attention that each player pays to each other, allowing for more accurate modeling of the dynamic player interactions. To handle the multivariate player statistics time series, we incorporate a temporal convolution layer, which provides the model with temporal predictive power. We evaluate the performance of our model using real-world sports data, demonstrating its effectiveness in predicting player performance. Furthermore, we explore the potential use of our model in a sports betting context, providing insights into profitable strategies that leverage our predictive power. The proposed method has the potential to advance the state-of-the-art in player performance prediction and to provide valuable insights for sports analytics and betting industries.
翻訳日:2023-03-30 14:33:46 公開日:2023-03-29
# 不確実性誘導型Next-Best-View最適化を用いたアクティブインシシットオブジェクト再構成

Active Implicit Object Reconstruction using Uncertainty-guided Next-Best-View Optimziation ( http://arxiv.org/abs/2303.16739v1 )

ライセンス: Link先を確認
Dongyu Yan, Jianheng Liu, Fengyu Quan, Haoyao Chen and Mengmeng Fu(参考訳) 自律移動ロボットには,物体再構成時のセンサビューのアクティブな計画が不可欠である。 このタスクは通常、明示的な不確実性マップからの情報ゲインを評価することで実行される。 既存のアルゴリズムは、プリセット候補ビューのセットでオプションを比較し、それらから次のベストビューを選択する。 これとは対照的に、オブジェクトモデルとして暗黙の表現が出現し、アクティブな再構築タスクとシームレスに結合する。 観測情報をモデルに完全に統合するために,有効かつ自由な空間を考慮したオブジェクトレベルの再構築のための監視手法を提案する。 さらに,暗黙的オブジェクトモデルからの視点情報を直接評価するために,サンプルベース不確実性評価手法を提案する。 オブジェクトモデルから直接線上の点をサンプリングし、不確かさのメトリクスとして暗黙の関数推論のバリエーションを使用し、ボクセルトラバーサルや追加の情報マップは不要である。 メトリクスの微分可能性を活用することで、不確実性を継続的に最大化することで、次のベストビューを最適化することが可能になります。 これは、従来使用されていた候補ビュー設定を廃止する。 シミュレーションおよび実世界のシーンにおける実験により,本手法はアクティブな再構成作業の再現精度とビュープランニング効率を効果的に向上することを示した。 提案されたシステムはhttps://github.com/HITSZ-NRSL/ActiveImplicitRecon.gitでオープンソース化される。

Actively planning sensor views during object reconstruction is essential to autonomous mobile robots. This task is usually performed by evaluating information gain from an explicit uncertainty map. Existing algorithms compare options among a set of preset candidate views and select the next-best-view from them. In contrast to these, we take the emerging implicit representation as the object model and seamlessly combine it with the active reconstruction task. To fully integrate observation information into the model, we propose a supervision method specifically for object-level reconstruction that considers both valid and free space. Additionally, to directly evaluate view information from the implicit object model, we introduce a sample-based uncertainty evaluation method. It samples points on rays directly from the object model and uses variations of implicit function inferences as the uncertainty metrics, with no need for voxel traversal or an additional information map. Leveraging the differentiability of our metrics, it is possible to optimize the next-best-view by maximizing the uncertainty continuously. This does away with the traditionally-used candidate views setting, which may provide sub-optimal results. Experiments in simulations and real-world scenes show that our method effectively improves the reconstruction accuracy and the view-planning efficiency of active reconstruction tasks. The proposed system is going to open source at https://github.com/HITSZ-NRSL/ActiveImplicitRecon.git.
翻訳日:2023-03-30 14:33:29 公開日:2023-03-29
# UAV対応モバイル通信のためのアクションマスキングを用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Action Masking for UAV-enabled Mobile Communications ( http://arxiv.org/abs/2303.16737v1 )

ライセンス: Link先を確認
Danish Rizvi, David Boyle(参考訳) 無人航空機(UAV)は、アドホックな通信インフラを提供するために、航空基地局としてますます使われている。 本稿では, 静的ノード, 2次元軌道, 単一UAVシステムのいずれかを検討する先行研究に基づいて, 地上通信インフラのないモバイルユーザへの無線通信に複数のUAVを使用することに焦点を当てる。 特に,UAV3DトラジェクトリとNOMAパワーアロケーションを共同で最適化し,システムスループットを最大化する。 まず,重み付きk平均に基づくクラスタリングアルゴリズムにより,uavユーザアソシエーションを一定間隔で確立する。 次に、アクションマスキングによる新しい共有深度ネットワーク(SDQN)のトレーニングの有効性について検討する。 DQNを使用して個別にUAVを訓練するのとは異なり、SDQNは単一のエージェントではなく複数のUAVの経験を利用することでトレーニング時間を短縮する。 また,sdqnは異なる動作空間を持つマルチエージェントシステムのトレーニングに使用できることを示した。 シミュレーションの結果は以下のとおりである。 1)共有DQNのトレーニングは、最大システムスループット(20%)とトレーニング時間(-10%)で従来のDQNよりも優れている。 2)異なる動作空間を持つエージェントに対して収束し,相互学習アルゴリズムと比較してスループットが9%向上する。 3) NOMA と SDQN アーキテクチャを組み合わせることで,既存のベースライン方式と比較して,ネットワークの総和率が向上する。

Unmanned Aerial Vehicles (UAVs) are increasingly used as aerial base stations to provide ad hoc communications infrastructure. Building upon prior research efforts which consider either static nodes, 2D trajectories or single UAV systems, this paper focuses on the use of multiple UAVs for providing wireless communication to mobile users in the absence of terrestrial communications infrastructure. In particular, we jointly optimize UAV 3D trajectory and NOMA power allocation to maximize system throughput. Firstly, a weighted K-means-based clustering algorithm establishes UAV-user associations at regular intervals. The efficacy of training a novel Shared Deep Q-Network (SDQN) with action masking is then explored. Unlike training each UAV separately using DQN, the SDQN reduces training time by using the experiences of multiple UAVs instead of a single agent. We also show that SDQN can be used to train a multi-agent system with differing action spaces. Simulation results confirm that: 1) training a shared DQN outperforms a conventional DQN in terms of maximum system throughput (+20%) and training time (-10%); 2) it can converge for agents with different action spaces, yielding a 9% increase in throughput compared to mutual learning algorithms; and 3) combining NOMA with an SDQN architecture enables the network to achieve a better sum rate compared with existing baseline schemes.
翻訳日:2023-03-30 14:33:06 公開日:2023-03-29
# TTA-COPE:カテゴリーレベルオブジェクト位置推定のためのテスト時間適応

TTA-COPE: Test-Time Adaptation for Category-Level Object Pose Estimation ( http://arxiv.org/abs/2303.16730v1 )

ライセンス: Link先を確認
Taeyeop Lee, Jonathan Tremblay, Valts Blukis, Bowen Wen, Byeong-Uk Lee, Inkyu Shin, Stan Birchfield, In So Kweon, Kuk-Jin Yoon(参考訳) 近年,ターゲットデータのラベルを必要とせず,段階的にモデルを更新することで,ソース・ターゲット領域間のギャップに対処する実用的な手法として,テスト時間適応手法が注目されている。 本稿では,TTA-COPEと呼ばれるカテゴリーレベルのオブジェクトポーズ推定のためのテスト時間適応手法を提案する。 ポーズ認識信頼度を用いて,自己学習損失を伴うポーズアンサンブルアプローチをデザインする。 従来のカテゴリレベルのオブジェクトポーズ推定のための教師なしドメイン適応手法とは異なり、このアプローチはテストデータをシーケンシャルでオンラインな方法で処理し、実行時にソースドメインにアクセスする必要はない。 実験結果から,半教師なしと教師なしの両方条件下で,提案したポーズアンサンブルと自己学習損失により,テスト期間中のカテゴリーレベルのオブジェクトポーズ性能が向上することが示された。 プロジェクトページ: https://taeyeop.com/ttacope

Test-time adaptation methods have been gaining attention recently as a practical solution for addressing source-to-target domain gaps by gradually updating the model without requiring labels on the target data. In this paper, we propose a method of test-time adaptation for category-level object pose estimation called TTA-COPE. We design a pose ensemble approach with a self-training loss using pose-aware confidence. Unlike previous unsupervised domain adaptation methods for category-level object pose estimation, our approach processes the test data in a sequential, online manner, and it does not require access to the source domain at runtime. Extensive experimental results demonstrate that the proposed pose ensemble and the self-training loss improve category-level object pose performance during test time under both semi-supervised and unsupervised settings. Project page: https://taeyeop.com/ttacope
翻訳日:2023-03-30 14:32:41 公開日:2023-03-29
# VideoMAE V2:Dual Maskingで自動エンコーダをスケール

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking ( http://arxiv.org/abs/2303.16727v1 )

ライセンス: Link先を確認
Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, Yu Qiao(参考訳) スケールは、様々な下流タスクをうまく一般化できる強力な基盤モデルを構築するための主要な要因です。 しかし、数十億のパラメータを持つビデオ基礎モデルのトレーニングは依然として困難である。 本稿では,ビデオマスク付きオートエンコーダ(VideoMAE)が,ビデオファウンデーションモデル構築のための,スケーラブルで汎用的な自己指導型プレトレーニングであることを示す。 ビデオメイをモデルとデータの両方でコアデザインでスケールします。 具体的には,ビデオトークンのサブセットで動作するエンコーダと,ビデオトークンのサブセットを処理するデコーダを備えた,効果的な事前学習のための二重マスキング戦略を提案する。 エンコーダのマスキング比が高いため、ビデオMAEは非常に効率的であるが、マスキングデコーダは計算コストをさらに削減することができる。 これにより、ビデオ中の10億レベルのモデルの効率的な事前トレーニングが可能になる。 また、さまざまなマルチソースのラベル付きデータセットの初期トレーニングと、混合ラベル付きデータセットの事前トレーニングを含む、プログレッシブトレーニングパラダイムも使用しています。 最後に10億のパラメータを持つビデオvitモデルのトレーニングに成功し,k400では90.0%,k600では89.9%,v1では68.7%,v2では77.0%という,新たな最先端性能を実現しました。 さらに,様々な下流タスクで事前学習されたビデオvitモデルの検証を行い,一般的な映像表現学習者としての有効性を実証した。

Scale is the primary factor for building a powerful foundation model that could well generalize to a variety of downstream tasks. However, it is still challenging to train video foundation models with billions of parameters. This paper shows that video masked autoencoder (VideoMAE) is a scalable and general self-supervised pre-trainer for building video foundation models. We scale the VideoMAE in both model and data with a core design. Specifically, we present a dual masking strategy for efficient pre-training, with an encoder operating on a subset of video tokens and a decoder processing another subset of video tokens. Although VideoMAE is very efficient due to high masking ratio in encoder, masking decoder can still further reduce the overall computational cost. This enables the efficient pre-training of billion-level models in video. We also use a progressive training paradigm that involves an initial pre-training on a diverse multi-sourced unlabeled dataset, followed by a post-pre-training on a mixed labeled dataset. Finally, we successfully train a video ViT model with a billion parameters, which achieves a new state-of-the-art performance on the datasets of Kinetics (90.0% on K400 and 89.9% on K600) and Something-Something (68.7% on V1 and 77.0% on V2). In addition, we extensively verify the pre-trained video ViT models on a variety of downstream tasks, demonstrating its effectiveness as a general video representation learner.
翻訳日:2023-03-30 14:32:17 公開日:2023-03-29
# 科学書記支援におけるテキスト改訂 : 概観

Text revision in Scientific Writing Assistance: An Overview ( http://arxiv.org/abs/2303.16726v1 )

ライセンス: Link先を確認
L\'eane Jourdan, Florian Boudin, Richard Dufour, Nicolas Hernandez(参考訳) 科学的記事を書くことは、高度に体系化されたジャンルであるため、難しい作業である。 優れた執筆スキルは、研究成果やアイデアを適切に伝えるために不可欠である。 現在、ほとんどの科学論文は英語で書かれているので、このエクササイズは非ネイティブの英語話者にとっては、言語問題に直面することが困難である。 本稿は、科学分野における文章作成支援におけるテキスト改訂の概要について述べる。 研究論文でよく用いられる形式や慣例を含む,科学的著作の特異性について検討する。 さらに、この概要は、テキストリビジョンで利用可能な様々な種類の書き込み支援ツールについて検討する。 これらのツールの背後にある技術は長年にわたって進化してきたが、ルールベースのアプローチからディープニューラルベースのものまで、課題はまだ存在する(ツールのアクセシビリティ、コンテキストの限定的な考慮、不正確な情報の使用など)。

Writing a scientific article is a challenging task as it is a highly codified genre. Good writing skills are essential to properly convey ideas and results of research work. Since the majority of scientific articles are currently written in English, this exercise is all the more difficult for non-native English speakers as they additionally have to face language issues. This article aims to provide an overview of text revision in writing assistance in the scientific domain. We will examine the specificities of scientific writing, including the format and conventions commonly used in research articles. Additionally, this overview will explore the various types of writing assistance tools available for text revision. Despite the evolution of the technology behind these tools through the years, from rule-based approaches to deep neural-based ones, challenges still exist (tools' accessibility, limited consideration of the context, inexplicit use of discursive information, etc.)
翻訳日:2023-03-30 14:31:33 公開日:2023-03-29
# 空間トランスクリプトミクスデータから生物学的洞察を明らかにするための機械学習

Machine Learning for Uncovering Biological Insights in Spatial Transcriptomics Data ( http://arxiv.org/abs/2303.16725v1 )

ライセンス: Link先を確認
Alex J. Lee, Robert Cahill, Reza Abbasi-Asl(参考訳) マルチセルシステムの開発とホメオスタシスはどちらも空間的分子パターンの形成と維持に精巧な制御を必要とする。 マルチプレックス免疫蛍光法や空間転写学(st)などの空間分解・高スループット分子イメージング法の進歩は、健康や疾患におけるこれらのプロセスの基本的な理解を強化するエキサイティングな新しい機会を提供する。 これらの技術、特にSTから得られた大規模で複雑なデータセットは、主にディープラーニング技術に基づく革新的な機械学習(ML)ツールの急速な開発に繋がった。 これらのmlツールは、複雑な生体システムにおけるノイズから信号を引き離すための実験と計算の統合ワークフローにますます注目されている。 しかし、stで急速に拡大する分析ツールのツールボックスの異なる暗黙の仮定と方法論を理解しバランスをとることは困難であり、これに対処するために、mlが現在の分析トレンドに対処するのに役立つ主要なst分析目標をまとめる。 また,4つの主要なデータサイエンス概念と関連するヒューリスティックについて述べることで,適切な生物学的質問に対する適切なツールの選択を実践者に指導することができる。

Development and homeostasis in multicellular systems both require exquisite control over spatial molecular pattern formation and maintenance. Advances in spatially-resolved and high-throughput molecular imaging methods such as multiplexed immunofluorescence and spatial transcriptomics (ST) provide exciting new opportunities to augment our fundamental understanding of these processes in health and disease. The large and complex datasets resulting from these techniques, particularly ST, have led to rapid development of innovative machine learning (ML) tools primarily based on deep learning techniques. These ML tools are now increasingly featured in integrated experimental and computational workflows to disentangle signals from noise in complex biological systems. However, it can be difficult to understand and balance the different implicit assumptions and methodologies of a rapidly expanding toolbox of analytical tools in ST. To address this, we summarize major ST analysis goals that ML can help address and current analysis trends. We also describe four major data science concepts and related heuristics that can help guide practitioners in their choices of the right tools for the right biological questions.
翻訳日:2023-03-30 14:31:09 公開日:2023-03-29
# kullback-leibler divergence と performance-guaranteed regularization における最大度法の再検討

Maximum likelihood method revisited: Gauge symmetry in Kullback -- Leibler divergence and performance-guaranteed regularization ( http://arxiv.org/abs/2303.16721v1 )

ライセンス: Link先を確認
Akihisa Ichiki(参考訳) 最大確率法はデータの背後にある確率を推定する最もよく知られた方法である。 しかし,従来の手法では経験的分布に最も近い確率モデルが得られ,過度に適合する。 その後、正規化法はモデルが間違った確率に過度に近づくのを防ぐが、その性能について体系的にはほとんど知られていない。 正規化の考え方は誤り訂正符号と似ており、最適復号法は最適解と誤受信符号を混合することで得られる。 誤差訂正符号の最適復号はゲージ対称性に基づいて達成される。 そこで本稿では,Kulback のゲージ対称性に着目し,最大極大法の正規化を理論的に保証する。 本手法では,正規化に頻繁に現れるハイパーパラメータを探索することなく最適なモデルを得る。

The maximum likelihood method is the best-known method for estimating the probabilities behind the data. However, the conventional method obtains the probability model closest to the empirical distribution, resulting in overfitting. Then regularization methods prevent the model from being excessively close to the wrong probability, but little is known systematically about their performance. The idea of regularization is similar to error-correcting codes, which obtain optimal decoding by mixing suboptimal solutions with an incorrectly received code. The optimal decoding in error-correcting codes is achieved based on gauge symmetry. We propose a theoretically guaranteed regularization in the maximum likelihood method by focusing on a gauge symmetry in Kullback -- Leibler divergence. In our approach, we obtain the optimal model without the need to search for hyperparameters frequently appearing in regularization.
翻訳日:2023-03-30 14:30:50 公開日:2023-03-29
# トポロジカルポイントクラウドクラスタリング

Topological Point Cloud Clustering ( http://arxiv.org/abs/2303.16716v1 )

ライセンス: Link先を確認
Vincent P. Grande and Michael T. Schaub(参考訳) 我々は,グローバルトポロジカル機能への貢献に基づいて任意のポイントクラウドにポイントをクラスタリングする新しい手法であるtopological point cloud clustering (tpcc)を提案する。 TPCCは、スペクトルクラスタリングとトポロジカルデータ解析から望ましい特徴を合成し、考慮された点雲に付随する単体錯体のスペクトル特性を考慮した。 スパース固有ベクトル計算を考えることから、tpccも同様にスペクトルクラスタリングとして解釈および実装が容易である。 しかし、点クラウドデータから生成されたグラフに付随する1つの行列に焦点をあてるだけでなく、適切に構築された単純複体に関連付けられたホッジ・ラプラシアン全体の集合に焦点を合わせることで、よりリッチな位相的特徴集合を利用して点クラウド内のデータポイントを特徴づけ、雑音に対するトポロジ的手法の相対ロバスト性から恩恵を受けることができる。 合成データと実データの両方でtpccの性能をテストし,従来のスペクトルクラスタリングと比較した。

We present Topological Point Cloud Clustering (TPCC), a new method to cluster points in an arbitrary point cloud based on their contribution to global topological features. TPCC synthesizes desirable features from spectral clustering and topological data analysis and is based on considering the spectral properties of a simplicial complex associated to the considered point cloud. As it is based on considering sparse eigenvector computations, TPCC is similarly easy to interpret and implement as spectral clustering. However, by focusing not just on a single matrix associated to a graph created from the point cloud data, but on a whole set of Hodge-Laplacians associated to an appropriately constructed simplicial complex, we can leverage a far richer set of topological features to characterize the data points within the point cloud and benefit from the relative robustness of topological techniques against noise. We test the performance of TPCC on both synthetic and real-world data and compare it with classical spectral clustering.
翻訳日:2023-03-30 14:30:35 公開日:2023-03-29
# MDP:拡散経路の操作によるテキストガイド画像編集のための汎用フレームワーク

MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path ( http://arxiv.org/abs/2303.16765v1 )

ライセンス: Link先を確認
Qian Wang, Biao Zhang, Michael Birsak, Peter Wonka(参考訳) 拡散を利用した画像生成は複数の方法で制御できる。 本稿では,現代的な生成拡散ネットワークの方程式を体系的に解析し,適切な操作の設計空間を説明するmdpと呼ばれる枠組みを提案する。 我々は,中間潜伏,条件埋め込み,クロスアテンションマップ,ガイダンス,予測ノイズを含む5つの異なる操作を同定する。 これらの操作の対応するパラメータと操作スケジュールを解析する。 従来の編集手法が私たちのフレームワークにうまく適合していることを示します。 特に,予測ノイズを操作することで,従来よりも高品質な編集を行うことができる新しいタイプの制御方法として,特定の構成を同定した。

Image generation using diffusion can be controlled in multiple ways. In this paper, we systematically analyze the equations of modern generative diffusion networks to propose a framework, called MDP, that explains the design space of suitable manipulations. We identify 5 different manipulations, including intermediate latent, conditional embedding, cross attention maps, guidance, and predicted noise. We analyze the corresponding parameters of these manipulations and the manipulation schedule. We show that some previous editing methods fit nicely into our framework. Particularly, we identified one specific configuration as a new type of control by manipulating the predicted noise, which can perform higher-quality edits than previous work for a variety of local and global edits.
翻訳日:2023-03-30 14:23:12 公開日:2023-03-29
# 半負のテンソル因子分解によるマルチビュークラスタリング

Multi-View Clustering via Semi-non-negative Tensor Factorization ( http://arxiv.org/abs/2303.16748v1 )

ライセンス: Link先を確認
Jing Li, Quanxue Gao, Qianqian Wang, Wei Xia, Xinbo Gao(参考訳) 非負の行列因数分解(NMF)に基づくマルチビュークラスタリング(MVC)とその変種は、クラスタリングの解釈可能性の優位性から近年大きな注目を集めている。 しかし、既存のNMFベースのマルチビュークラスタリング手法は、それぞれのビューデータに対してそれぞれNMFを実行し、ビュー間の影響を無視する。 したがって、ビュー内空間構造とビュー間補完情報をうまく活用することはできない。 この問題を解決するために,半非負のテンソル因子分解(Semi-NTF)を提案し,一方の直交制約を持つSemi-NTFに基づく新しいマルチビュークラスタリングを開発する。 我々のモデルは、ビューのアンカーグラフからなる3階テンソル上でSemi-NTFを直接実行する。 したがって、このモデルは視点間の関係を直接考慮する。 さらに,マルチビューデータのクラスター構造を特徴付ける3次テンソルのランク近似としてテンソルシャッテンpノルム正則化を用い,ビュー間補完情報を利用する。 さらに,提案手法の最適化アルゴリズムを提案し,そのアルゴリズムが常に定常KKT点に収束することを数学的に証明する。 ベンチマークデータセットの広範囲な実験は,提案手法がクラスタ化性能を満足できることを示す。

Multi-view clustering (MVC) based on non-negative matrix factorization (NMF) and its variants have received a huge amount of attention in recent years due to their advantages in clustering interpretability. However, existing NMF-based multi-view clustering methods perform NMF on each view data respectively and ignore the impact of between-view. Thus, they can't well exploit the within-view spatial structure and between-view complementary information. To resolve this issue, we present semi-non-negative tensor factorization (Semi-NTF) and develop a novel multi-view clustering based on Semi-NTF with one-side orthogonal constraint. Our model directly performs Semi-NTF on the 3rd-order tensor which is composed of anchor graphs of views. Thus, our model directly considers the between-view relationship. Moreover, we use the tensor Schatten p-norm regularization as a rank approximation of the 3rd-order tensor which characterizes the cluster structure of multi-view data and exploits the between-view complementary information. In addition, we provide an optimization algorithm for the proposed method and prove mathematically that the algorithm always converges to the stationary KKT point. Extensive experiments on various benchmark datasets indicate that our proposed method is able to achieve satisfactory clustering performance.
翻訳日:2023-03-30 14:20:36 公開日:2023-03-29
# モジュールベース正規化によるノイズデータ観測時のガウスグラフィカルモデルの改善

Module-based regularization improves Gaussian graphical models when observing noisy data ( http://arxiv.org/abs/2303.16796v1 )

ライセンス: Link先を確認
Magnus Neuman, Joaqu\'in Calatayud, Viktor Tasselius, Martin Rosvall(参考訳) 研究者はしばしばガウス図形モデルを用いて多変量相関データで関係を表現する。 推論されたネットワークのモジュラ構造をよく研究していることを認識し、正規化強度のクロスバリデーションに組み込んでアンダーフィッティングとオーバーフィッティングのバランスをとることを提案する。 合成および実データを用いることで,正規化強度をクロスバリデーションする場合のガウス対類似性を用いた標準的なアプローチであるグラフィカルラスソに比べて,ノイズデータにおけるモジュラー構造の復元と推定が容易になることを示す。

Researchers often represent relations in multi-variate correlational data using Gaussian graphical models, which require regularization to sparsify the models. Acknowledging that they often study the modular structure of the inferred network, we suggest integrating it in the cross-validation of the regularization strength to balance under- and overfitting. Using synthetic and real data, we show that this approach allows us to better recover and infer modular structure in noisy data compared with the graphical lasso, a standard approach using the Gaussian log-likelihood when cross-validating the regularization strength.
翻訳日:2023-03-30 14:14:37 公開日:2023-03-29
# 純二量子状態のベル非局所性の量子化とその絡み合い

Quantifying Bell nonlocality of a pure two-qudit state via its entanglement ( http://arxiv.org/abs/2303.16794v1 )

ライセンス: Link先を確認
Elena R. Loubenets, Sergey Kuznetsov and Louis Hanotel(参考訳) 任意の次元の任意の純粋2量子状態によるベルの不等式の最大違反に対して、この純粋状態の収束によって表現される新しい下界を導出する。 j. phys. a: math. theor. 55, 285301 (2022)] で発見されたこの新しい下限と上限は、帰属を通じて表現され、その絡み合いを通じて純粋な2つの量子状態のベル非局所性を解析的に定量化するものであり、特に、純粋な2つの量子状態の絡み合いがベル非局所性に必要かつ十分であることを明確に証明する。 純粋2量子状態の再検討により、任意の純粋2量子状態の相関特性に関する新しい結果を発見し、厳密に証明する。

For the maximal violation of all Bell inequalities by an arbitrary pure two-qudit state of any dimension, we derive a new lower bound expressed via the concurrence of this pure state. This new lower bound and the upper bound on the maximal Bell violation, found in [J. Phys. A: Math. Theor. 55, 285301 (2022)] and also expressed via the concurrence, analytically quantify Bell nonlocality of a pure two-qudit state via its entanglement, in particular, prove explicitly that entanglement of a pure two-qudit state is necessary and sufficient for its Bell nonlocality. By re-visiting the pure two-qubit case, we also find and rigorously prove the new results on the correlation properties of an arbitrary pure two-qubit state.
翻訳日:2023-03-30 14:14:25 公開日:2023-03-29
# 実世界シナリオにおける自己監督型デノナイジングのための非対称可変ブラインドスポットの探索

Exploring Asymmetric Tunable Blind-Spots for Self-supervised Denoising in Real-World Scenarios ( http://arxiv.org/abs/2303.16783v1 )

ライセンス: Link先を確認
Shiyan Chen, Jiyuan Zhang, Zhaofei Yu, and Tiejun Huang(参考訳) 自己監督型聴覚障害者は、クリーンなイメージなしで訓練できるため、広く注目を集めている。 しかし、実世界のシナリオにおけるノイズはしばしば空間的に相関しており、画素単位の独立なノイズ仮定に基づく多くの自己教師型アルゴリズムが実世界の画像に悪影響を及ぼす。 近年,ノイズの空間相関を乱すために非対称画素シャッフルダウンサンプリング(ap)が提案されている。 しかし、ダウンサンプリングはエイリアス効果をもたらし、これらの効果を除去するための後処理は、時間を要するだけでなく、画像の空間構造と高周波の詳細を破壊する。 本稿では,ダウンサンプリングに基づく手法を体系的に解析し,非対称可変ブラインドスポットネットワーク(at-bsn)を提案する。 学習中に大きなブラインドスポットを使用して,局所的な空間相関ノイズを抑制するとともに,グローバル構造への損傷を最小限に抑え,情報損失を最小限に抑えるために,自由に調整可能なブラインドスポットサイズを持つブラインドスポットネットワークを設計した。 さらに,非盲点ネットワークの自己アンサンブルと蒸留を提案し,性能の向上と計算複雑性の低減を図る。 実験により,画像テクスチャの維持,パラメータ数,計算コスト,推測時間といった点で,他の自己管理手法を総合的に上回りながら,最先端の手法が実現された。

Self-supervised denoising has attracted widespread attention due to its ability to train without clean images. However, noise in real-world scenarios is often spatially correlated, which causes many self-supervised algorithms based on the pixel-wise independent noise assumption to perform poorly on real-world images. Recently, asymmetric pixel-shuffle downsampling (AP) has been proposed to disrupt the spatial correlation of noise. However, downsampling introduces aliasing effects, and the post-processing to eliminate these effects can destroy the spatial structure and high-frequency details of the image, in addition to being time-consuming. In this paper, we systematically analyze downsampling-based methods and propose an Asymmetric Tunable Blind-Spot Network (AT-BSN) to address these issues. We design a blind-spot network with a freely tunable blind-spot size, using a large blind-spot during training to suppress local spatially correlated noise while minimizing damage to the global structure, and a small blind-spot during inference to minimize information loss. Moreover, we propose blind-spot self-ensemble and distillation of non-blind-spot network to further improve performance and reduce computational complexity. Experimental results demonstrate that our method achieves state-of-the-art results while comprehensively outperforming other self-supervised methods in terms of image texture maintaining, parameter count, computation cost, and inference time.
翻訳日:2023-03-30 14:14:07 公開日:2023-03-29
# GRAF: Graph Attention-aware Fusion Networks

GRAF: Graph Attention-aware Fusion Networks ( http://arxiv.org/abs/2303.16781v1 )

ライセンス: Link先を確認
Ziynet Nesibe Kesimoglu, Serdar Bozdag(参考訳) 現実世界のネットワークには、複数のタイプのノードとエッジが含まれる。 グラフニューラルネットワーク(GNN)は、グラフ構造化データのノード機能を利用するディープラーニングフレームワークとして登場した。 しかし、人気のあるGNNベースのアーキテクチャは1つの均一ネットワークで動作する。 複数のネットワークで作業できるようにすることは、ネットワークの多様性と既存のアソシエーションの重複により、さらなる課題をもたらす。 本研究では,複数のネットワークにGNNベースのアプローチを適用し,アテンション機構とネットワーク融合の助けを借りてGRAFという計算手法を提案する。 GRAFは、注意に基づく近隣の集約を用いて、ノードごとの隣人の重要性(ノードレベルアテンションと呼ばれる)と、階層的な方法での関連(アソシエーションレベルアテンションと呼ばれる)の重要性を学習する。 そして、GRAFは学習ノードレベルおよび関連レベルの注意に従って各エッジを計測するネットワーク融合ステップを処理し、融合されたネットワークを生成する。 融合ネットワークは入力ネットワークによって多くの弱いエッジを持つ高密度ネットワークである可能性があることを考慮し、エッジの重みに関してエッジ除去ステップを組み込んだ。 最後に、GRAFは融合ネットワーク上のグラフ畳み込みネットワーク(GCN)を利用し、予測タスクや他の下流分析のためのグラフ構造化データ上のノード特徴を組み込む。 異なる領域から予測タスクを広範囲に評価した結果,grafは最先端手法よりも優れていた。 学習ノードレベルとアソシエーションレベルの注意を利用すれば、エッジを適切に優先順位付けすることができます。 私たちのツールのソースコードはhttps://github.com/bozdaglab/GRAF.comで公開されています。

A large number of real-world networks include multiple types of nodes and edges. Graph Neural Network (GNN) emerged as a deep learning framework to utilize node features on graph-structured data showing superior performance. However, popular GNN-based architectures operate on one homogeneous network. Enabling them to work on multiple networks brings additional challenges due to the heterogeneity of the networks and the multiplicity of the existing associations. In this study, we present a computational approach named GRAF utilizing GNN-based approaches on multiple networks with the help of attention mechanisms and network fusion. Using attention-based neighborhood aggregation, GRAF learns the importance of each neighbor per node (called node-level attention) followed by the importance of association (called association-level attention) in a hierarchical way. Then, GRAF processes a network fusion step weighing each edge according to learned node- and association-level attention, which results in a fused enriched network. Considering that the fused network could be a highly dense network with many weak edges depending on the given input networks, we included an edge elimination step with respect to edges' weights. Finally, GRAF utilizes Graph Convolutional Network (GCN) on the fused network and incorporates the node features on the graph-structured data for the prediction task or any other downstream analysis. Our extensive evaluations of prediction tasks from different domains showed that GRAF outperformed the state-of-the-art methods. Utilization of learned node-level and association-level attention allowed us to prioritize the edges properly. The source code for our tool is publicly available at https://github.com/bozdaglab/GRAF.
翻訳日:2023-03-30 14:13:42 公開日:2023-03-29
# Sketch-an-Anchor:Zero-shot Sketch-based Image Retrievalのためのサブエピック高速モデル適応

Sketch-an-Anchor: Sub-epoch Fast Model Adaptation for Zero-shot Sketch-based Image Retrieval ( http://arxiv.org/abs/2303.16769v1 )

ライセンス: Link先を確認
Leo Sampaio Ferraz Ribeiro, Moacir Antonelli Ponti(参考訳) sketch-an-anchorは、最先端のゼロショットスケッチベース画像検索(zssbir)モデルを画期的に訓練する新しい手法である。 ZSSBIRの問題は、SBIRから継承された画像とスケッチのドメインアライメントと、ゼロショットプロトコル固有の見えないデータへの一般化の2つの部分に分けられる。 これらの問題の1つは、既に探索されているZero-shot Image-based Retrievalのパフォーマンスに関するZSSBIR問題を大幅に単純化し、再構成することができると我々は主張する。 高速収束モデルでは,スケッチからの類似表現抽出を学習しながら,単一ドメインのパフォーマンスを維持している。 この目的のために、セマンティックアンカー (Semantic Anchors) -- 単語ベースのセマンティックスペースから学んだ埋め込みと、既成のモデルからの特徴 -- を導入し、それらを私たちの小説Anchored Contrastive Lossと組み合わせます。 実証的な証拠は、すべてのベンチマークデータセットで最先端のパフォーマンスを達成でき、他の方法よりも100倍少ないイテレーションをトレーニングできることを示している。

Sketch-an-Anchor is a novel method to train state-of-the-art Zero-shot Sketch-based Image Retrieval (ZSSBIR) models in under an epoch. Most studies break down the problem of ZSSBIR into two parts: domain alignment between images and sketches, inherited from SBIR, and generalization to unseen data, inherent to the zero-shot protocol. We argue one of these problems can be considerably simplified and re-frame the ZSSBIR problem around the already-stellar yet underexplored Zero-shot Image-based Retrieval performance of off-the-shelf models. Our fast-converging model keeps the single-domain performance while learning to extract similar representations from sketches. To this end we introduce our Semantic Anchors -- guiding embeddings learned from word-based semantic spaces and features from off-the-shelf models -- and combine them with our novel Anchored Contrastive Loss. Empirical evidence shows we can achieve state-of-the-art performance on all benchmark datasets while training for 100x less iterations than other methods.
翻訳日:2023-03-30 14:11:45 公開日:2023-03-29
# 信頼度の高い6次元オブジェクトポース推定のためのマルチビューキーポイント

Multi-View Keypoints for Reliable 6D Object Pose Estimation ( http://arxiv.org/abs/2303.16833v1 )

ライセンス: Link先を確認
Alan Li and Angela P. Schoellig(参考訳) 6Dオブジェクトのポーズ推定は、環境との効率的な相互作用を可能にするロボット工学の基本コンポーネントである。 多くのオブジェクトが低機能で反射的であり、同じタイプのオブジェクト間の自己閉塞が一般的であるビンピッキングアプリケーションでは特に困難である。 本稿では,3次元空間上の確率密度マップにヘアマップとキーポイントの推定値を組み合わせるために,手近な設定から既知のカメラ変換を利用する新しいマルチビュー手法を提案する。 その結果、ビューの数でスケーラブルな堅牢なアプローチが実現しました。 これはキーポイント確率とポイントクラウドアライメントエラーからなる信頼スコアに依存しており、偽陽性を確実に拒否することができる。 ROBIデータセットの様々な難易度・反射性物体に対して, 約0.5mm, 2°のポーズ推定誤差を平均して示すとともに, ADD誤差の10%の物体径閾値を用いて, 最先端の精度検出率を上回った。

6D Object pose estimation is a fundamental component in robotics enabling efficient interaction with the environment. It is particularly challenging in bin-picking applications, where many objects are low-feature and reflective, and self-occlusion between objects of the same type is common. We propose a novel multi-view approach leveraging known camera transformations from an eye-in-hand setup to combine heatmap and keypoint estimates into a probability density map over 3D space. The result is a robust approach that is scalable in the number of views. It relies on a confidence score composed of keypoint probabilities and point-cloud alignment error, which allows reliable rejection of false positives. We demonstrate an average pose estimation error of approximately 0.5mm and 2 degrees across a variety of difficult low-feature and reflective objects in the ROBI dataset, while also surpassing the state-of-art correct detection rate, measured using the 10% object diameter threshold on ADD error.
翻訳日:2023-03-30 14:05:33 公開日:2023-03-29
# コンテキストエキスパートによる低リソース言語におけるヘイトスピーチの処理

Tackling Hate Speech in Low-resource Languages with Context Experts ( http://arxiv.org/abs/2303.16828v1 )

ライセンス: Link先を確認
Daniel Nkemelu, Harshil Shah, Irfan Essa, Michael L. Best(参考訳) ミャンマーの歴史的・社会政治的文脈を考えると、ソーシャルメディアに広まったヘイトスピーチは、オフラインの不安と暴力へとエスカレートしている。 本稿では,ミャンマーにおけるヘイトスピーチの自動検出に関する遠隔研究の結果を報告する。 この問題に効果的に対処するには、コンテキストエキスパートの知識と大量のデータを分析する機械学習ツールを組み合わせた、コミュニティベースのアプローチが必要である、と我々は主張する。 この目的のために,データ収集,アノテーション,モデル検証戦略といった重要な側面をカバーする,このコラボレーションを促進するための体系的なプロセスを開発する。 この分野の課題は、小さくてバランスの取れていないデータセット、非グラモラスなデータワークとステークホルダーの優先順位のバランスを取る必要性、データ共有のプラクティスのクローズドな実行などです。 これらの結果から,低リソース言語を対象としたヘイトスピーチ検出システムの開発と展開に向けたさらなる取り組みについて論じる。

Given Myanmars historical and socio-political context, hate speech spread on social media has escalated into offline unrest and violence. This paper presents findings from our remote study on the automatic detection of hate speech online in Myanmar. We argue that effectively addressing this problem will require community-based approaches that combine the knowledge of context experts with machine learning tools that can analyze the vast amount of data produced. To this end, we develop a systematic process to facilitate this collaboration covering key aspects of data collection, annotation, and model validation strategies. We highlight challenges in this area stemming from small and imbalanced datasets, the need to balance non-glamorous data work and stakeholder priorities, and closed data-sharing practices. Stemming from these findings, we discuss avenues for further work in developing and deploying hate speech detection systems for low-resource languages.
翻訳日:2023-03-30 14:05:15 公開日:2023-03-29
# マイクロ波光子と一重項量子ビットの強い結合

Strong coupling between a microwave photon and a singlet-triplet qubit ( http://arxiv.org/abs/2303.16825v1 )

ライセンス: Link先を確認
Jann H. Ungerer, Alessia Pally, Artem Kononov, Sebastian Lehmann, Joost Ridderbos, Claes Thelander, Kimberly A. Dick, Ville F. Maisi, Pasquale Scarlino, Andreas Baumgartner, Christian Sch\"onenberger(参考訳) 近年, ゲート電圧定義された量子ドットに結合した超伝導共振器を用いて, 数量子量子処理の急激な進歩が達成されている。 奇電荷パリティフラップモードスピン量子ビットでは、最近強い結合状態が実証されているが、最初に共振器を荷電パリティ一重項三重項スピン量子ビットに結合しようとする試みは、スピン-光子結合強度が弱かっただけである。 ここでは、亜鉛ブレンドInAsナノワイヤ二重量子ドットと強いスピン軌道相互作用を磁場抵抗性、高品質共振器に統合する。 従来の戦略とは対照的に、量子閉じ込めは電気ゲートを使わずに決定論的に成長したヴルツ石トンネル障壁を用いて達成される。 電荷パリティ状態や大きな磁場における実験は、関連するスピン状態を特定し、スピンのデコヒーレンス率とスピン光子結合強度を測定することができる。 最も重要なことは、特定の磁場において、単一光子限界における共振器モードと電子スピン-光子結合強度が114 \pm 9$ mhzの単子三重項量子ビットとの間の反交差を見つけ、コヒーレントカップリングが量子ビットと共振器線幅の合計を超える強結合状態に達することである。

Tremendous progress in few-qubit quantum processing has been achieved lately using superconducting resonators coupled to gate voltage defined quantum dots. While the strong coupling regime has been demonstrated recently for odd charge parity flopping mode spin qubits, first attempts towards coupling a resonator to even charge parity singlet-triplet spin qubits have resulted only in weak spin-photon coupling strengths. Here, we integrate a zincblende InAs nanowire double quantum dot with strong spin-orbit interaction in a magnetic-field resilient, high-quality resonator. In contrast to conventional strategies, the quantum confinement is achieved using deterministically grown wurtzite tunnel barriers without resorting to electrical gating. Our experiments on even charge parity states and at large magnetic fields, allow us to identify the relevant spin states and to measure the spin decoherence rates and spin-photon coupling strengths. Most importantly, at a specific magnetic field, we find an anti-crossing between the resonator mode in the single photon limit and a singlet-triplet qubit with an electron spin-photon coupling strength of $g = 114 \pm 9$ MHz, reaching the strong coupling regime in which the coherent coupling exceeds the combined qubit and resonator linewidth.
翻訳日:2023-03-30 14:05:00 公開日:2023-03-29
# 直流合成最適化問題のクラスに対する不正確な線形化近似アルゴリズムとその応用

An inexact linearized proximal algorithm for a class of DC composite optimization problems and applications ( http://arxiv.org/abs/2303.16822v1 )

ライセンス: Link先を確認
Ting Tao, Ruyu Liu, Lianghai Xiao, Shaohua Pan(参考訳) 本稿では, 凸合成最適化問題と非スムース成分を含むdcプログラムの拡張として, 低ランク行列回復のロバストな因子分解モデルから生じる場合が多い直流複合最適化問題について述べる。 この非凸問題と非滑らかな問題に対して、各ステップで目的関数の偏線型化によって構成される強凸大化の不正確な最小化を演算する不正確な線形化近似アルゴリズム(iLPA)を提案する。 生成した反復列は、ポテンシャル関数のクルディカ-{\L}ojasiewicz (KL) の性質の下で収束することが示され、この収束は、ポテンシャル関数が極限点において指数1/2$のKL特性を持つとき、局所的なR-線型速度を認める。 後者の仮定では,複合構造を利用して検証可能な条件を提供し,凸合成最適化に用いる正則性との関係を明らかにする。 最後に,本手法は,異常値を持つ行列補完のためのロバストな因子分解モデル,非スムース成分を持つdcプログラム,dc制約付きプログラムの$\ell_1$-norm完全ペナルティに適用され,既存のアルゴリズムとの比較により,計算時間と解の質においてilpaの優位が確認された。

This paper is concerned with a class of DC composite optimization problems which, as an extension of the convex composite optimization problem and the DC program with nonsmooth components, often arises from robust factorization models of low-rank matrix recovery. For this class of nonconvex and nonsmooth problems, we propose an inexact linearized proximal algorithm (iLPA) which in each step computes an inexact minimizer of a strongly convex majorization constructed by the partial linearization of their objective functions. The generated iterate sequence is shown to be convergent under the Kurdyka-{\L}ojasiewicz (KL) property of a potential function, and the convergence admits a local R-linear rate if the potential function has the KL property of exponent $1/2$ at the limit point. For the latter assumption, we provide a verifiable condition by leveraging the composite structure, and clarify its relation with the regularity used for the convex composite optimization. Finally, the proposed iLPA is applied to a robust factorization model for matrix completions with outliers, DC programs with nonsmooth components, and $\ell_1$-norm exact penalty of DC constrained programs, and numerical comparison with the existing algorithms confirms the superiority of our iLPA in computing time and quality of solutions.
翻訳日:2023-03-30 14:04:32 公開日:2023-03-29
# 対話型マージシナリオにおける学習ベース予測による自律運転の意思決定

Decision Making for Autonomous Driving in Interactive Merge Scenarios via Learning-based Prediction ( http://arxiv.org/abs/2303.16821v1 )

ライセンス: Link先を確認
Salar Arbabi, Davide Tavernini, Saber Fallah, Richard Bowden(参考訳) 人間のドライバーと共有する道路を走行する自律エージェントは、交通参加者間のニュアンス的相互作用を考慮しなければならない。 これは、人間の行動は、モデル化が難しいさまざまな要因(例えば、人間の意図や感情)に影響されるため、非常に難しい意思決定問題を引き起こす。 本稿では,他の運転者の行動から不確実性が生ずる交通と不完全なセンサ測定を融合させる複雑な作業に焦点をあて,自律運転における意思決定手法を提案する。 この問題を部分的に観測可能なマルコフ決定プロセス(POMDP)とみなし、モンテカルロ木探索でオンラインに解決する。 POMDPの解決策は、接近する車に道を譲る、前方の車から安全な距離を維持する、あるいは交通に合流するといった、高いレベルの運転操作を行う政策である。 本手法は,データから学習したモデルを利用してトラフィックの将来状態を予測し,周囲のエージェント間のインタラクションを明示的に考慮する。 これらの予測から、自動運転車は環境に対する行動の将来の影響を予測し、それに応じて軌道を最適化することができる。 我々はシミュレーションでこのアプローチを徹底的にテストし、自動運転車が異なる状況に適応できることを示した。 また、他の手法と比較し、考慮されたパフォーマンス指標に関して改善を示す。

Autonomous agents that drive on roads shared with human drivers must reason about the nuanced interactions among traffic participants. This poses a highly challenging decision making problem since human behavior is influenced by a multitude of factors (e.g., human intentions and emotions) that are hard to model. This paper presents a decision making approach for autonomous driving, focusing on the complex task of merging into moving traffic where uncertainty emanates from the behavior of other drivers and imperfect sensor measurements. We frame the problem as a partially observable Markov decision process (POMDP) and solve it online with Monte Carlo tree search. The solution to the POMDP is a policy that performs high-level driving maneuvers, such as giving way to an approaching car, keeping a safe distance from the vehicle in front or merging into traffic. Our method leverages a model learned from data to predict the future states of traffic while explicitly accounting for interactions among the surrounding agents. From these predictions, the autonomous vehicle can anticipate the future consequences of its actions on the environment and optimize its trajectory accordingly. We thoroughly test our approach in simulation, showing that the autonomous vehicle can adapt its behavior to different situations. We also compare against other methods, demonstrating an improvement with respect to the considered performance metrics.
翻訳日:2023-03-30 14:04:07 公開日:2023-03-29
# BEVSimDet:多視点3次元物体検出のためのバードアイビューにおけるマルチモーダル蒸留のシミュレーション

BEVSimDet: Simulated Multi-modal Distillation in Bird's-Eye View for Multi-view 3D Object Detection ( http://arxiv.org/abs/2303.16818v1 )

ライセンス: Link先を確認
Haimei Zhao, Qiming Zhang, Shanshan Zhao, Jing Zhang, Dacheng Tao(参考訳) マルチビューカメラベースの3dオブジェクト検出は低コストで人気を集めている。 しかし、カメラデータのみから正確な3D形状を推定することは、モデルの性能に影響を及ぼす。 この問題に対処する1つの有望なアプローチは、LiDARデータから正確な3D幾何学的知識を抽出することである。 しかし、異なるセンサモダリティ間の知識の伝達は、重要なモダリティギャップによって妨げられる。 本稿では,建築設計と知識蒸留の両面からこの課題に取り組み,BEVSimDetという新しいシミュレーション型マルチモーダル3Dオブジェクト検出手法を提案する。 まず,lidarとカメラ融合による教師とシミュレートされたマルチモーダル学習者を含む新しいフレームワークを紹介し,学生は画像のみの入力でマルチモーダル機能をシミュレートする。 有効蒸留を容易にするため, モダル内, クロスモーダル, マルチモーダル蒸留を同時に支援するマルチモーダル蒸留方式を提案する。 bevsimdetはそれらを組み合わせて、3dオブジェクト検出のための優れた機能表現を学習し、費用対効果の高いカメラのみのデプロイを享受できる。 挑戦的なnuScenesベンチマークの実験結果は、最近の代表法よりもBEVSimDetの有効性と優位性を示している。 ソースコードはリリースされます。

Multi-view camera-based 3D object detection has gained popularity due to its low cost. But accurately inferring 3D geometry solely from camera data remains challenging, which impacts model performance. One promising approach to address this issue is to distill precise 3D geometry knowledge from LiDAR data. However, transferring knowledge between different sensor modalities is hindered by the significant modality gap. In this paper, we approach this challenge from the perspective of both architecture design and knowledge distillation and present a new simulated multi-modal 3D object detection method named BEVSimDet. We first introduce a novel framework that includes a LiDAR and camera fusion-based teacher and a simulated multi-modal student, where the student simulates multi-modal features with image-only input. To facilitate effective distillation, we propose a simulated multi-modal distillation scheme that supports intra-modal, cross-modal, and multi-modal distillation simultaneously. By combining them together, BEVSimDet can learn better feature representations for 3D object detection while enjoying cost-effective camera-only deployment. Experimental results on the challenging nuScenes benchmark demonstrate the effectiveness and superiority of BEVSimDet over recent representative methods. The source code will be released.
翻訳日:2023-03-30 14:03:45 公開日:2023-03-29
# セマンティックセグメンテーションにおける能動学習のための適応スーパーピクセル

Adaptive Superpixel for Active Learning in Semantic Segmentation ( http://arxiv.org/abs/2303.16817v1 )

ライセンス: Link先を確認
Hoyoung Kim, Minhyeon Oh, Sehyun Hwang, Suha Kwak, Jungseul Ok(参考訳) 意味のセグメンテーションを学ぶにはピクセル単位でのアノテーションが必要です。 アノテーションのコストを削減するため,スーパーピクセル単位の上位ラベルを収集する,スーパーピクセルベースのアクティブラーニング(AL)フレームワークを提案する。 具体的には、al専用の適応型スーパーピクセルとシービング機構で構成されている。 ALの各ラウンドで、類似の学習特徴の隣接画素をスーパーピクセルに適応的にマージする。 次に、一様スーパーピクセルサイズを仮定した取得関数を用いて、選択されたスーパーピクセルのサブセットをクエリする。 このアプローチは既存の手法よりも効率的であり、RGB色のような固有の特徴にのみ依存し、均一なスーパーピクセルサイズを仮定する。 スーパーピクセルごとに支配的なラベルを得ると、クリック数が少なくなるため、アノテーションの負担が劇的に軽減される。 しかし、スーパーピクセルとグランド真実セグメンテーションのミスマッチにより、必然的に騒がしい注釈を導入する。 この問題に対処するため、私たちはさらに、潜在的に騒がしいアノテーションを学習から識別し排除するシービングメカニズムを考案します。 都市景観とPASCALVOCデータセットを用いた実験により,適応型スーパーピクセルとシービング機構の有効性が示された。

Learning semantic segmentation requires pixel-wise annotations, which can be time-consuming and expensive. To reduce the annotation cost, we propose a superpixel-based active learning (AL) framework, which collects a dominant label per superpixel instead. To be specific, it consists of adaptive superpixel and sieving mechanisms, fully dedicated to AL. At each round of AL, we adaptively merge neighboring pixels of similar learned features into superpixels. We then query a selected subset of these superpixels using an acquisition function assuming no uniform superpixel size. This approach is more efficient than existing methods, which rely only on innate features such as RGB color and assume uniform superpixel sizes. Obtaining a dominant label per superpixel drastically reduces annotators' burden as it requires fewer clicks. However, it inevitably introduces noisy annotations due to mismatches between superpixel and ground truth segmentation. To address this issue, we further devise a sieving mechanism that identifies and excludes potentially noisy annotations from learning. Our experiments on both Cityscapes and PASCAL VOC datasets demonstrate the efficacy of adaptive superpixel and sieving mechanisms.
翻訳日:2023-03-30 14:03:26 公開日:2023-03-29
# 経験的損失から入力したlti-ss学習のためのpac-ベイズ境界

PAC-Bayesian bounds for learning LTI-ss systems with input from empirical loss ( http://arxiv.org/abs/2303.16816v1 )

ライセンス: Link先を確認
Deividas Eringis, John Leth, Zheng-Hua Tan, Rafael Wisniewski, Mihaly Petreczky(参考訳) 本稿では,線形時間不変量(LTI)確率力学系に対して入力を持つ確率近似的誤差を導出する。 このような境界は機械学習に広く浸透しており、有限個のデータポイントから学習したモデルの予測力を特徴づけるのに有用である。 特に,本論文の導出した境界は,学習に使用するデータ上でモデルが生成した予測誤差と将来の平均予測誤差を関連付ける。 これにより、幅広い学習・システム識別アルゴリズムに対して有限サンプル誤差境界を提供することができる。 さらに、LTIシステムはリカレントニューラルネットワーク(RNN)のサブクラスであるため、これらのエラー境界は、RNNのPAC-ベイジアン境界への第一歩となる可能性がある。

In this paper we derive a Probably Approxilmately Correct(PAC)-Bayesian error bound for linear time-invariant (LTI) stochastic dynamical systems with inputs. Such bounds are widespread in machine learning, and they are useful for characterizing the predictive power of models learned from finitely many data points. In particular, with the bound derived in this paper relates future average prediction errors with the prediction error generated by the model on the data used for learning. In turn, this allows us to provide finite-sample error bounds for a wide class of learning/system identification algorithms. Furthermore, as LTI systems are a sub-class of recurrent neural networks (RNNs), these error bounds could be a first step towards PAC-Bayesian bounds for RNNs.
翻訳日:2023-03-30 14:03:07 公開日:2023-03-29
# 浅い複素数値ニューラルネットワークを用いた$C^k$関数の最適近似

Optimal approximation of $C^k$-functions using shallow complex-valued neural networks ( http://arxiv.org/abs/2303.16813v1 )

ライセンス: Link先を確認
Paul Geuchen, Felix Voigtlaender(参考訳) 複素立方体 $\omega_n := [-1,1]^n +i[-1,1]^n\subseteq \mathbb{c}^n$ 上で定義される正則性 $c^k$(実変数という意味で)の近似の定量的な結果を示す。 正確には、1つの隠れた層と$m$のニューロンを持つニューラルネットワーク、すなわち $z \mapsto \sum_{j=1}^m \sigma_j \cdot \phi\big(\rho_j^T z + b_j\big)$ の形のネットワークを考えると、$C^k \left( \Omega_n; \mathbb{C}\right)$ の全ての関数が$m^{-k/(2n)} の順序の誤差を持つ形式の関数を使用することを示す。 さらに、重み $\sigma_j, b_j \in \mathbb{C}$ と $\rho_j \in \mathbb{C}^n$ の選択が$f$ に対して連続であることを示し、この連続性仮定の下で近似の導出率が最適であることを証明する。 また、重量の不連続な選択に対する結果の最適性についても論じる。

We prove a quantitative result for the approximation of functions of regularity $C^k$ (in the sense of real variables) defined on the complex cube $\Omega_n := [-1,1]^n +i[-1,1]^n\subseteq \mathbb{C}^n$ using shallow complex-valued neural networks. Precisely, we consider neural networks with a single hidden layer and $m$ neurons, i.e., networks of the form $z \mapsto \sum_{j=1}^m \sigma_j \cdot \phi\big(\rho_j^T z + b_j\big)$ and show that one can approximate every function in $C^k \left( \Omega_n; \mathbb{C}\right)$ using a function of that form with error of the order $m^{-k/(2n)}$ as $m \to \infty$, provided that the activation function $\phi: \mathbb{C} \to \mathbb{C}$ is smooth but not polyharmonic on some non-empty open set. Furthermore, we show that the selection of the weights $\sigma_j, b_j \in \mathbb{C}$ and $\rho_j \in \mathbb{C}^n$ is continuous with respect to $f$ and prove that the derived rate of approximation is optimal under this continuity assumption. We also discuss the optimality of the result for a possibly discontinuous choice of the weights.
翻訳日:2023-03-30 14:02:54 公開日:2023-03-29
# 特権情報を用いた回帰における選択バイアスと欠落応答の補正

Correcting for Selection Bias and Missing Response in Regression using Privileged Information ( http://arxiv.org/abs/2303.16800v1 )

ライセンス: Link先を確認
Philip Boeken, Noud de Kroon, Mathijs de Jong, Joris M. Mooij, Onno Zoeter(参考訳) 回帰モデルを推定する場合、ラベルが欠落しているデータや、選択メカニズムに偏っているデータがあるかもしれません。 応答または選択機構が無視可能である場合(つまり、特徴が与えられた応答変数とは独立である)、オフ・ザ・シェルフ回帰法(英語版)を用いることができる。 特権データ(すなわちトレーニング中にのみ使用可能なデータ)は無視できない選択メカニズムを無視する可能性があることを観察し、このシナリオを無作為に欠落している(pmar)と表現する。 本稿では,pmarに適した新しい帰納的回帰法である反復回帰法を提案する。 また,重み付き回帰法と2つの組み合わせを二重に頑健に検討した。 提案手法は,最も一般的な回帰アルゴリズムを用いて容易に実装できる。 提案手法の性能をシミュレーション実験と合成拡張実世界データセットを用いて実験的に評価した。 繰り返しの回帰はバイアスに対して適切に正し、特に応答が観測されない特徴空間の領域を外挿する場合、重み付き回帰よりもかなりの利点があると結論づける。

When estimating a regression model, we might have data where some labels are missing, or our data might be biased by a selection mechanism. When the response or selection mechanism is ignorable (i.e., independent of the response variable given the features) one can use off-the-shelf regression methods; in the nonignorable case one typically has to adjust for bias. We observe that privileged data (i.e. data that is only available during training) might render a nonignorable selection mechanism ignorable, and we refer to this scenario as Privilegedly Missing at Random (PMAR). We propose a novel imputation-based regression method, named repeated regression, that is suitable for PMAR. We also consider an importance weighted regression method, and a doubly robust combination of the two. The proposed methods are easy to implement with most popular out-of-the-box regression algorithms. We empirically assess the performance of the proposed methods with extensive simulated experiments and on a synthetically augmented real-world dataset. We conclude that repeated regression can appropriately correct for bias, and can have considerable advantage over weighted regression, especially when extrapolating to regions of the feature space where response is never observed.
翻訳日:2023-03-30 14:02:13 公開日:2023-03-29
# 安全保証に向けた物理的深層強化学習

Physical Deep Reinforcement Learning Towards Safety Guarantee ( http://arxiv.org/abs/2303.16860v1 )

ライセンス: Link先を確認
Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo(参考訳) 深部強化学習(DRL)は、高次元状態および/または行動空間を持つ自律システムの多くの複雑な意思決定タスクにおいて大きな成功を収めた。 しかし、安全と安定性は依然としてDRLの安全クリティカルな自律システムへの適用を妨げる主要な関心事である。 そこで我々はPhy-DRL(物理深部強化学習フレームワーク)を提案した。 Phy-DRLは2つのアーキテクチャ設計で新しい。 一 リャプノフ様の報酬及び 二 残留制御(物理モデルに基づく制御とデータ駆動制御の統合) 物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。 逆振り子を用いた実験により,Phy-DRLは安全性と安定性が保証され,頑健性が向上し,トレーニングが著しく加速し,報酬が増大した。

Deep reinforcement learning (DRL) has achieved tremendous success in many complex decision-making tasks of autonomous systems with high-dimensional state and/or action spaces. However, the safety and stability still remain major concerns that hinder the applications of DRL to safety-critical autonomous systems. To address the concerns, we proposed the Phy-DRL: a physical deep reinforcement learning framework. The Phy-DRL is novel in two architectural designs: i) Lyapunov-like reward, and ii) residual control (i.e., integration of physics-model-based control and data-driven control). The concurrent physical reward and residual control empower the Phy-DRL the (mathematically) provable safety and stability guarantees. Through experiments on the inverted pendulum, we show that the Phy-DRL features guaranteed safety and stability and enhanced robustness, while offering remarkably accelerated training and enlarged reward.
翻訳日:2023-03-30 13:56:17 公開日:2023-03-29
# あなたは...? セマンティックパーシングにおける信頼に基づくトレードオフ

Did You Mean...? Confidence-based Trade-offs in Semantic Parsing ( http://arxiv.org/abs/2303.16857v1 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) 調整されたモデルがタスク指向構文解析における共通のトレードオフのバランスにどのように役立つかを説明します。 シミュレート・アノテータ・イン・ザ・ループ実験において,信頼度スコアが十分に調整されたことにより,アノテータ負荷とコストのバランスが取れ,少数のインタラクションで精度が向上することを示した。 次に,信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上でどのように役立つかを検討する。 信頼性に基づくしきい値設定は, 不正な低信頼プログラムの実行回数を大幅に削減できることを示すが, ユーザビリティにはコストがかかる。 ユーザビリティと安全性のバランスを良くする DidYouMean システムを提案する。

We illustrate how a calibrated model can help balance common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that well-calibrated confidence scores allow us to balance cost with annotator load, improving accuracy with a small number of interactions. We then examine how confidence scores can help optimize the trade-off between usability and safety. We show that confidence-based thresholding can substantially reduce the number of incorrect low-confidence programs executed; however, this comes at a cost to usability. We propose the DidYouMean system which better balances usability and safety.
翻訳日:2023-03-30 13:56:04 公開日:2023-03-29
# ロバストダンサー:非ペアデータを用いた長期3dダンス合成

Robust Dancer: Long-term 3D Dance Synthesis Using Unpaired Data ( http://arxiv.org/abs/2303.16856v1 )

ライセンス: Link先を確認
Bin Feng, Tenglong Ao, Zequn Liu, Wei Ju, Libin Liu, Ming Zhang(参考訳) 自然に見えたダンスの動きを音楽に基づいて自動で合成する方法は、徐々に人気を集めつつも挑戦的な課題だ。 既存のデータ駆動型アプローチでは、ペア化の難しいトレーニングデータが必要であり、自動回帰構造のエラー蓄積による長い動き列の生成に失敗する。 本稿では,学習に不自由なデータしか必要とせず,同時に現実的な長期動作を生成できる新しい3Dダンス合成システムを提案する。 非ペアデータトレーニングでは,ビートとスタイルの不整合を調査し,ペアデータに依存しないトランスフォーマモデルを提案する。 長期的運動の合成のために,我々は新しい長期的注意戦略を考案する。 まず、注意力計算を通じて長い歴史の埋め込みをクエリし、それからマルチモーダル適応ゲート(mag)を介して生成パイプラインに明示的に組み込む。 対象的および主観的評価は,2つの学習データを必要としないにもかかわらず,我々の結果が強いベースライン法に匹敵することを示す。 最善の知識として、私たちは、非ペアデータトレーニングを初めて達成しました - データの制限を効果的に緩和する能力です。 私たちのコードはhttps://github.com/BFeng14/RobustDancerでリリースされています。

How to automatically synthesize natural-looking dance movements based on a piece of music is an incrementally popular yet challenging task. Most existing data-driven approaches require hard-to-get paired training data and fail to generate long sequences of motion due to error accumulation of autoregressive structure. We present a novel 3D dance synthesis system that only needs unpaired data for training and could generate realistic long-term motions at the same time. For the unpaired data training, we explore the disentanglement of beat and style, and propose a Transformer-based model free of reliance upon paired data. For the synthesis of long-term motions, we devise a new long-history attention strategy. It first queries the long-history embedding through an attention computation and then explicitly fuses this embedding into the generation pipeline via multimodal adaptation gate (MAG). Objective and subjective evaluations show that our results are comparable to strong baseline methods, despite not requiring paired training data, and are robust when inferring long-term music. To our best knowledge, we are the first to achieve unpaired data training - an ability that enables to alleviate data limitations effectively. Our code is released on https://github.com/BFeng14/RobustDancer
翻訳日:2023-03-30 13:55:51 公開日:2023-03-29
# annollm: クラウドソースアノテータになるような大規模言語モデルの構築

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators ( http://arxiv.org/abs/2303.16854v1 )

ライセンス: Link先を確認
Xingwei He, Zhenghao Lin, Yeyun Gong, A-Long Jin, Hang Zhang, Chen Lin, Jian Jiao, Siu Ming Yiu, Nan Duan, Weizhu Chen(参考訳) 多くの自然言語処理(NLP)タスクは、高性能を達成するために機械学習モデルをトレーニングするためにラベル付きデータに依存している。 しかし、特にタスクが大量のデータや特別なドメインを必要とする場合、データアノテーションは時間がかかり、コストがかかるプロセスになり得る。 近年、gpt-3.5シリーズは様々なnlpタスクにおいて顕著な少数ショットとゼロショットの能力を示している。 本稿では,GPT-3.5のような大規模言語モデル(LLM)が,十分なガイダンスを提供し,実例を示すことによって,優れたクラウドソースアノテータとして機能することを示す。 LLMをより良いアノテータにするために、我々は2段階のアプローチである「説明-then-annotate」を提案する。 より正確に言うと、まず実例ごとにプロンプトを作成し、次に LLM にその具体例に具体的真理回答/ラベルが選ばれた理由を説明するために活用する。 これに続いて、自己生成的説明を伴う数発の連鎖プロンプトを構築し、未ラベルデータに注釈をつける。 ユーザ入力とキーワード関連性評価,BoolQ,WiCの3つのタスクについて実験を行った。 GPT-3.5のアノテーションは、ユーザ入力とキーワード関連性評価のためのクラウドソースアノテーションよりも優れている。 さらに、他の2つのタスクでは、GPT-3.5はクラウドソースアノテーションで得られたものと同等の結果が得られる。

Many natural language processing (NLP) tasks rely on labeled data to train machine learning models to achieve high performance. However, data annotation can be a time-consuming and expensive process, especially when the task involves a large amount of data or requires specialized domains. Recently, GPT-3.5 series models have demonstrated remarkable few-shot and zero-shot ability across various NLP tasks. In this paper, we first claim that large language models (LLMs), such as GPT-3.5, can serve as an excellent crowdsourced annotator by providing them with sufficient guidance and demonstrated examples. To make LLMs to be better annotators, we propose a two-step approach, 'explain-then-annotate'. To be more precise, we begin by creating prompts for every demonstrated example, which we subsequently utilize to prompt a LLM to provide an explanation for why the specific ground truth answer/label was chosen for that particular example. Following this, we construct the few-shot chain-of-thought prompt with the self-generated explanation and employ it to annotate the unlabeled data. We conduct experiments on three tasks, including user input and keyword relevance assessment, BoolQ and WiC. The annotation results from GPT-3.5 surpasses those from crowdsourced annotation for user input and keyword relevance assessment. Additionally, for the other two tasks, GPT-3.5 achieves results that are comparable to those obtained through crowdsourced annotation.
翻訳日:2023-03-30 13:55:31 公開日:2023-03-29
# Diffusion Schr\"odinger Bridge Matching

Diffusion Schr\"odinger Bridge Matching ( http://arxiv.org/abs/2303.16852v1 )

ライセンス: Link先を確認
Yuyang Shi, Valentin De Bortoli, Andrew Campbell, Arnaud Doucet(参考訳) 輸送問題の解決、すなわちある分布を別の分布に輸送する地図を見つけることは、機械学習に多くの応用がある。 生成的モデルに動機づけられた新しい質量移動法が最近提案されており、例えば、分極拡散モデル(ddms)とフローマッチングモデル(fmms)は、そのような移動を確率微分方程式(sde)または常微分方程式(ode)で実装している。 しかし、多くの応用において、魅力的な特性を持つ決定論的動的最適輸送(OT)マップを近似することが望ましいが、DDMとFMMはOTマップに近い輸送を提供することが保証されていない。 対照的に、Schr\"odinger bridges (SBs) は OT のエントロピー規則化されたバージョンを復元する確率的動的写像を計算する。 残念なことに、SBを近似する既存の数値法は、次元のスケールが低かったり、繰り返しにまたがってエラーを蓄積する。 本稿では,SB問題を解決するための新しい手法であるIterative Markovian Fittingと,IMFの反復計算のための新しい数値アルゴリズムであるDiffusion Schr\"odinger Bridge Matching (DSBM)を紹介する。 DSBMは従来のSB数値よりも大幅に改善され、様々な最近の輸送方法の特殊な/制限ケースとして回復する。 様々な問題についてDSBMの性能を実証する。

Solving transport problems, i.e. finding a map transporting one given distribution to another, has numerous applications in machine learning. Novel mass transport methods motivated by generative modeling have recently been proposed, e.g. Denoising Diffusion Models (DDMs) and Flow Matching Models (FMMs) implement such a transport through a Stochastic Differential Equation (SDE) or an Ordinary Differential Equation (ODE). However, while it is desirable in many applications to approximate the deterministic dynamic Optimal Transport (OT) map which admits attractive properties, DDMs and FMMs are not guaranteed to provide transports close to the OT map. In contrast, Schr\"odinger bridges (SBs) compute stochastic dynamic mappings which recover entropy-regularized versions of OT. Unfortunately, existing numerical methods approximating SBs either scale poorly with dimension or accumulate errors across iterations. In this work, we introduce Iterative Markovian Fitting, a new methodology for solving SB problems, and Diffusion Schr\"odinger Bridge Matching (DSBM), a novel numerical algorithm for computing IMF iterates. DSBM significantly improves over previous SB numerics and recovers as special/limiting cases various recent transport methods. We demonstrate the performance of DSBM on a variety of problems.
翻訳日:2023-03-30 13:55:08 公開日:2023-03-29
# ボソニック双極子状態分子の衝突安定ガス

Collisionally Stable Gas of Bosonic Dipolar Ground State Molecules ( http://arxiv.org/abs/2303.16845v1 )

ライセンス: Link先を確認
Niccol\`o Bigagli, Claire Warner, Weijun Yuan, Siwei Zhang, Ian Stevenson, Tijs Karman, and Sebastian Will(参考訳) 双極子分子の安定な超低温アンサンブルは多体量子物理学にとって大きな期待を抱いているが、高い非弾性損失率は長年の課題である。 近年, フェルミオン分子のガスは外部磁場によって効果的に安定化できることが示されている。 しかし、多くの量子応用はボゾン統計を持つ分子アンサンブルの恩恵を受ける。 ここでは、マイクロ波遮蔽による非弾性損失に対して、強双極性nacs分子のボソニックガスを安定化し、損失を200倍以上減少させ、1秒スケールで寿命に達する。 また,強い双極子相互作用の結果である高い弾性散乱速度を測定し,双極子衝突の異方性を観察した。 最後に, ボゾン分子ガスの36(5)nK温度への蒸発冷却を実証し, 相空間密度を20倍に向上させた。 この研究は、双極子分子のボース=アインシュタイン凝縮体を作るための重要なステップである。

Stable ultracold ensembles of dipolar molecules hold great promise for many-body quantum physics, but high inelastic loss rates have been a long-standing challenge. Recently, it was shown that gases of fermionic molecules can be effectively stabilized through external fields. However, many quantum applications will benefit from molecular ensembles with bosonic statistics. Here, we stabilize a bosonic gas of strongly dipolar NaCs molecules against inelastic losses via microwave shielding, decreasing losses by more than a factor of 200 and reaching lifetimes on the scale of 1 second. We also measure high elastic scattering rates, a result of strong dipolar interactions, and observe the anisotropic nature of dipolar collisions. Finally, we demonstrate evaporative cooling of a bosonic molecular gas to a temperature of 36(5) nK, increasing its phase-space density by a factor of 20. This work is a critical step towards the creation of a Bose-Einstein condensate of dipolar molecules.
翻訳日:2023-03-30 13:54:44 公開日:2023-03-29
# ランダムに予測された凸クラスタリングモデル:モチベーション、実現、クラスタ回収保証

Randomly Projected Convex Clustering Model: Motivation, Realization, and Cluster Recovery Guarantees ( http://arxiv.org/abs/2303.16841v1 )

ライセンス: Link先を確認
Ziwen Wang, Yancheng Yuan, Jiaming Ma, Tieyong Zeng, Defeng Sun(参考訳) 本稿では,$n$の高次元データポイントの集合を,$K$の隠れクラスタで$\mathbb{R}^d$でクラスタリングするための,ランダムに投影された凸クラスタリングモデルを提案する。 0 < \epsilon < 1$ が与えられたパラメータであるような次元$m = o(\epsilon^{-2}\log(n))$ を持つランダムに投影された凸クラスタリングモデルによって、いくつかの穏やかな条件下では、凸クラスタリングモデルのクラスタメンバーシップ割り当ての完全な回復が保存可能であることが証明される。 さらに、埋め込み次元はデータ点の数に依存しない$o(\epsilon^{-2}\log(k))$ に改善できることも証明する。 本稿では,ランダムに投影された凸クラスタリングモデルのロバスト性と優れた性能を示すため,数値実験を行った。 本稿では, ランダムに投影された凸クラスタリングモデルが, ランダムに投影されたk平均モデルよりも優れることを示す。

In this paper, we propose a randomly projected convex clustering model for clustering a collection of $n$ high dimensional data points in $\mathbb{R}^d$ with $K$ hidden clusters. Compared to the convex clustering model for clustering original data with dimension $d$, we prove that, under some mild conditions, the perfect recovery of the cluster membership assignments of the convex clustering model, if exists, can be preserved by the randomly projected convex clustering model with embedding dimension $m = O(\epsilon^{-2}\log(n))$, where $0 < \epsilon < 1$ is some given parameter. We further prove that the embedding dimension can be improved to be $O(\epsilon^{-2}\log(K))$, which is independent of the number of data points. Extensive numerical experiment results will be presented in this paper to demonstrate the robustness and superior performance of the randomly projected convex clustering model. The numerical results presented in this paper also demonstrate that the randomly projected convex clustering model can outperform the randomly projected K-means model in practice.
翻訳日:2023-03-30 13:54:26 公開日:2023-03-29
# MaMMUT:マルチモーダルタスクのための共同学習のためのシンプルなアーキテクチャ

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks ( http://arxiv.org/abs/2303.16839v1 )

ライセンス: Link先を確認
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova(参考訳) 言語モデルの開発は、エンコーダデコーダからデコーダのみの設計に移行した。 加えて、一般的な知識では、生成的タスクとコントラスト的タスクという2つの最も一般的なマルチモーダルタスクは、互いに衝突しがちであり、一つのアーキテクチャでは適合しにくく、さらに下流タスクに複雑な適応を必要とする。 マルチモーダルタスクのためのデコーダのみのモデルを用いた新しい学習パラダイムを提案し,これらの異なる視覚言語タスクの協調学習に驚くほど効果的である。 これは、MaMMUTと呼ばれる単純なモデルで実現される。 単一の視覚エンコーダとテキストデコーダで構成されており、テキストデコーダに対する新しい2パスアプローチによって、対照的で生成的な学習を許容することができる。 これらの多目的タスクの共同トレーニングは単純で効果的であり、モデルの重量共有を最大化する。 さらに、同じアーキテクチャにより、オープン語彙オブジェクト検出やビデオ言語タスクへの簡単な拡張が可能になる。 モデルは多種多様なタスクに取り組み、キャパシティは控えめである。 本モデルは,画像・テキスト・テキスト検索,ビデオ質問応答,オープンボキャブラリ検出タスクにおいて,より大きく,より広範囲に訓練された基礎モデルに匹敵するsotaを実現する。 VQAとビデオキャプションで、特にそのサイズを考えると、競合する結果を示している。 アブレーションは我々のアプローチの柔軟性と利点を確認する。

The development of language models have moved from encoder-decoder to decoder-only designs. In addition, the common knowledge has it that the two most popular multimodal tasks, the generative and contrastive tasks, tend to conflict with one another, are hard to accommodate in one architecture, and further need complex adaptations for downstream tasks. We propose a novel paradigm of training with a decoder-only model for multimodal tasks, which is surprisingly effective in jointly learning of these disparate vision-language tasks. This is done with a simple model, called MaMMUT. It consists of a single vision encoder and a text decoder, and is able to accommodate contrastive and generative learning by a novel two-pass approach on the text decoder. We demonstrate that joint training of these diverse-objective tasks is simple, effective, and maximizes the weight-sharing of the model. Furthermore, the same architecture enables straightforward extensions to open-vocabulary object detection and video-language tasks. The model tackles a diverse range of tasks, while being modest in capacity. Our model achieves the SOTA on image-text and text-image retrieval, video question answering and open-vocabulary detection tasks, outperforming much larger and more extensively trained foundational models. It shows competitive results on VQA and Video Captioning, especially considering its size. Ablations confirm the flexibility and advantages of our approach.
翻訳日:2023-03-30 13:54:02 公開日:2023-03-29
# 非パウリ誤差は、qudit曲面符号で効率的にサンプリングできる

Non-Pauli errors can be efficiently sampled in qudit surface codes ( http://arxiv.org/abs/2303.16837v1 )

ライセンス: Link先を確認
Yue Ma, Michael Hanks, M. S. Kim(参考訳) 表面符号はフォールトトレラント量子計算の最も有望な候補である。 単一キュートエラーは一般にパウリ演算子としてモデル化され、一般的なエラーはランダム化法によって変換される。 本文では,非パウリ誤差を受ける2次元曲面符号のシンドローム測定後の残差を定量化する。 信念の伝播とパーコレーション理論を用いて、格子上のループと相関関係を関連付ける。 誤差補正しきい値以下では、残余の相関はスパースで局所的に制約される。 したがって、qudit曲面符号のシンドロームは、エラーとデコーダの正確な形式によらず、非Pauliエラーに対して効率的にサンプリング可能である。

Surface codes are the most promising candidates for fault-tolerant quantum computation. Single qudit errors are typically modelled as Pauli operators, to which general errors are converted via randomizing methods. In this Letter, we quantify remaining correlations after syndrome measurement for a qudit 2D surface code subject to non-Pauli errors. Using belief propagation and percolation theory, we relate correlations to loops on the lattice. Below the error correction threshold, remaining correlations are sparse and locally constrained. Syndromes for qudit surface codes are therefore efficiently samplable for non-Pauli errors, independent of the exact forms of the error and decoder.
翻訳日:2023-03-30 13:53:40 公開日:2023-03-29
# 実証AI研究のためのリーダーボードのゼロショット化

Zero-shot Entailment of Leaderboards for Empirical AI Research ( http://arxiv.org/abs/2303.16835v1 )

ライセンス: Link先を確認
Salomon Kabongo, Jennifer D'Souza and S\"oren Auer(参考訳) 実験AI研究のためのリーダーボードの自動マイニングという,特定認識テキストエンターメント(RTE)タスクカテゴリにおいて,ゼロショット学習現象を大規模に調査する。 以前報告されたrteタスクとして定式化されたリーダボード抽出の最先端モデルは、非ゼロショット設定で90%以上のパフォーマンスが報告されている。 しかし、研究の中心となる疑問は、まだ解明されていない。 そこで本研究では,従来報告されていた2つの最先端モデルを用いて,トレーニング中に見つからなかったリーダボードラベルを前提として,一般化能力やエンテインメント能力の検証を行った。 モデルがエンテーメントを学習すれば、ゼロショットのパフォーマンスは適度に高くなり、おそらく、具体的には、偶然よりも優れていると仮定する。 この結果、リーダボード抽出rteタスクを定式化した遠方ラベリングにより、ゼロショットラベル付きデータセットが作成される。

We present a large-scale empirical investigation of the zero-shot learning phenomena in a specific recognizing textual entailment (RTE) task category, i.e. the automated mining of leaderboards for Empirical AI Research. The prior reported state-of-the-art models for leaderboards extraction formulated as an RTE task, in a non-zero-shot setting, are promising with above 90% reported performances. However, a central research question remains unexamined: did the models actually learn entailment? Thus, for the experiments in this paper, two prior reported state-of-the-art models are tested out-of-the-box for their ability to generalize or their capacity for entailment, given leaderboard labels that were unseen during training. We hypothesize that if the models learned entailment, their zero-shot performances can be expected to be moderately high as well--perhaps, concretely, better than chance. As a result of this work, a zero-shot labeled dataset is created via distant labeling formulating the leaderboard extraction RTE task.
翻訳日:2023-03-30 13:53:31 公開日:2023-03-29
# 原子運動を伴う局所回転のプログラミングによるマルチセンスメトロロジー

Multi-ensemble metrology by programming local rotations with atom movements ( http://arxiv.org/abs/2303.16885v1 )

ライセンス: Link先を確認
Adam L. Shaw, Ran Finkelstein, Richard Bing-Shiun Tsai, Pascal Scholl, Tai Hyun Yoon, Joonhee Choi, Manuel Endres(参考訳) 現在の光学原子時計はその資源を最適に利用していない。 特に、複数のアトミックアンサンブルを個別に制御したり、絡み合わずに読み出したりすると指数関数的なゲインが得られる。 しかし、光遷移を局所的に制御することは、中性原子ベースの時計と量子コンピューティングプラットフォームにとって大きな課題である。 ここでは、ツイーザートリップされた原子のサブ波長制御による光転移に対する任意の単一サイトアドレスを示し、99.84(5)\%$忠実度と0.1(2)\%$非吸着原子とのクロストークで実行する。 このスキームはtweezersの相対的な位置変更のみに依存しており、追加のアドレスビームを必要としないため、非常に堅牢である。 この手法を用いて,2つのアトミックアンサンブルを用いて,ラムゼイ干渉計の1ショット2量子読み出しを並列に実装し,所定の位相スリップ誤差確率で使用可能な問合せ時間を向上させ,標準の1センス法よりも2.55(9)db利得が得られることを示した。 最後に,ramsey進化中に局所的な動的デカップリングを行うシーケンスをプログラムし,最適なクロック問合せの重要な要素である可変位相感度を持つ3つのアンサンブルを進化させる。 以上の結果は、絡み合いがなくても完全にプログラム可能な量子光時計の可能性を示し、将来、メトロロジー的に有用な絡み合い状態と組み合わせることができることを示した。

Current optical atomic clocks do not utilize their resources optimally. In particular, an exponential gain could be achieved if multiple atomic ensembles were to be controlled or read-out individually, even without entanglement. However, controlling optical transitions locally remains an outstanding challenge for neutral atom based clocks and quantum computing platforms. Here we show arbitrary, single-site addressing for an optical transition via sub-wavelength controlled moves of tweezer-trapped atoms, which we perform with $99.84(5)\%$ fidelity and with $0.1(2)\%$ crosstalk to non-addressed atoms. The scheme is highly robust as it relies only on relative position changes of tweezers and requires no additional addressing beams. Using this technique, we implement single-shot, dual-quadrature readout of Ramsey interferometry using two atomic ensembles simultaneously, and show an enhancement of the usable interrogation time at a given phase-slip error probability, yielding a 2.55(9) dB gain over standard, single-ensemble methods. Finally, we program a sequence which performs local dynamical decoupling during Ramsey evolution to evolve three ensembles with variable phase sensitivities, a key ingredient of optimal clock interrogation. Our results demonstrate the potential of fully programmable quantum optical clocks even without entanglement and could be combined with metrologically useful entangled states in the future.
翻訳日:2023-03-30 13:46:33 公開日:2023-03-29
# インスタント・ニューラル・ラジアンス・フィールドスタイライゼーション

Instant Neural Radiance Fields Stylization ( http://arxiv.org/abs/2303.16884v1 )

ライセンス: Link先を確認
Shaoxu Li and Ye Pan(参考訳) Instant Neural Radiance Fields Stylizationは3Dシーンのマルチビュー画像スタイリングのための新しいアプローチである。 我々のアプローチは、位置埋め込みにハッシュテーブルベースの位置エンコーダを使用するニューラルネットワークプリミティブに基づく神経放射場をモデル化する。 位置エンコーダをコンテンツとスタイルのサブブランチの2つの部分に分割し、コンテンツとスタイルのターゲットで通常の新しいビュー画像合成のためにネットワークをトレーニングした。 推論段階では、位置エンコーダの出力特徴に対してAdaINを実行し、コンテンツとスタイルのボクセルグリッドを参照として表示する。 調整された特徴により、新しいビューイメージのスタイライゼーションが得られる。 本手法は,スタイルイメージからシーンのイメージセットへスタイルターゲットを拡張し,スタイライゼーションのための追加ネットワークトレーニングを必要としない。 3Dシーンのセットとスタイルターゲット(スタイルイメージまたは他の3Dシーンのセット)が与えられた場合、最新のGPUハードウェア上で10分以内で、様々な角度で一貫した外観でスタイリングされた斬新なビューを生成できる。 広範な実験結果から,本手法の有効性と優越性が示された。

We present Instant Neural Radiance Fields Stylization, a novel approach for multi-view image stylization for the 3D scene. Our approach models a neural radiance field based on neural graphics primitives, which use a hash table-based position encoder for position embedding. We split the position encoder into two parts, the content and style sub-branches, and train the network for normal novel view image synthesis with the content and style targets. In the inference stage, we execute AdaIN to the output features of the position encoder, with content and style voxel grid features as reference. With the adjusted features, the stylization of novel view images could be obtained. Our method extends the style target from style images to image sets of scenes and does not require additional network training for stylization. Given a set of images of 3D scenes and a style target(a style image or another set of 3D scenes), our method can generate stylized novel views with a consistent appearance at various view angles in less than 10 minutes on modern GPU hardware. Extensive experimental results demonstrate the validity and superiority of our method.
翻訳日:2023-03-30 13:46:05 公開日:2023-03-29
# 隠れた多様体ホップフィールドモデルと学習相転移

The Hidden-Manifold Hopfield Model and a learning phase transition ( http://arxiv.org/abs/2303.16880v1 )

ライセンス: Link先を確認
Matteo Negri, Clarissa Lauditi, Gabriele Perugini, Carlo Lucibello, Enrico Malatesta(参考訳) ホップフィールドモデルは統計物理学における長年の伝統を持ち、理論が利用できる数少ないニューラルネットワークの1つである。 相関データに対するホップフィールドモデルの理論を拡張することで、ディープニューラルネットワークの成功を理解することができる。 これを動機として、Hidden-Manifold Hopfield Model と呼ぶ一般化ホップフィールドモデルを提案し、検討する:我々は、$P=\alpha N$ と Hebb の規則とのカップリングを、D=\alpha_D N$ の非線型変換を用いて生成する。 レプリカ法を用いて、例に隠された因子が力学の誘引者となる相転移を示すモデルのための相図を得る。この相は、臨界値$\alpha$ と臨界値$\alpha_d$ よりも上に存在する。 この行動を学習の移行と呼びます

The Hopfield model has a long-standing tradition in statistical physics, being one of the few neural networks for which a theory is available. Extending the theory of Hopfield models for correlated data could help understand the success of deep neural networks, for instance describing how they extract features from data. Motivated by this, we propose and investigate a generalized Hopfield model that we name Hidden-Manifold Hopfield Model: we generate the couplings from $P=\alpha N$ examples with the Hebb rule using a non-linear transformation of $D=\alpha_D N$ random vectors that we call factors, with $N$ the number of neurons. Using the replica method, we obtain a phase diagram for the model that shows a phase transition where the factors hidden in the examples become attractors of the dynamics; this phase exists above a critical value of $\alpha$ and below a critical value of $\alpha_D$. We call this behaviour learning transition.
翻訳日:2023-03-30 13:45:45 公開日:2023-03-29
# 光度LiDARとRGB-Dバンドル調整

Photometric LiDAR and RGB-D Bundle Adjustment ( http://arxiv.org/abs/2303.16878v1 )

ライセンス: Link先を確認
Luca Di Giammarino and Emanuele Giacomini and Leonardo Brizi and Omar Salem and Giorgio Grisetti(参考訳) センサ軌道と3次元マップの協調最適化は,同時局在マッピングシステム (slam) の重要な特徴である。 これを実現するため、金本位制はバンドル調整(BA)である。 現代の3D LiDARは、従来のカメラと類似した点雲画像の作成を可能にする高解像度を維持している。 しかしながら、RGB-Dセンサーに使用される典型的なグローバルリファインメント技術は、LiDARには広く適用されていない。 本稿では,RGB-DとLiDARの両方を併用した新しいBA測光方式を提案する。 我々の研究は、SLAM/GNSSの推定値を使って初期軌道を改善し、改善することができる。 我々はこれらの2つの深度センサを公開ベンチマークで異なる実験を行った。 その結果,本システムは他の最先端のアドホックスラム/ba戦略と同等かそれ以上の性能を示し,データアソシエーションは不要であり,環境を前提にしない。 さらに,RGB-D と LiDAR を併用した統合手法の利点を示す。 ついにオープンソースCUDA/C++実装をリリースしました。

The joint optimization of the sensor trajectory and 3D map is a crucial characteristic of Simultaneous Localization and Mapping (SLAM) systems. To achieve this, the gold standard is Bundle Adjustment (BA). Modern 3D LiDARs now retain higher resolutions that enable the creation of point cloud images resembling those taken by conventional cameras. Nevertheless, the typical effective global refinement techniques employed for RGB-D sensors are not widely applied to LiDARs. This paper presents a novel BA photometric strategy that accounts for both RGB-D and LiDAR in the same way. Our work can be used on top of any SLAM/GNSS estimate to improve and refine the initial trajectory. We conducted different experiments using these two depth sensors on public benchmarks. Our results show that our system performs on par or better compared to other state-of-the-art ad-hoc SLAM/BA strategies, free from data association and without making assumptions about the environment. In addition, we present the benefit of jointly using RGB-D and LiDAR within our unified method. We finally release an open-source CUDA/C++ implementation.
翻訳日:2023-03-30 13:45:23 公開日:2023-03-29
# レーザー駆動型分子ロータの簡単な解析的アライメントモデル

A simple analytical alignment model for laser-kicked molecular rotors ( http://arxiv.org/abs/2303.16877v1 )

ライセンス: Link先を確認
A. L\"ohr, M. Ivanov and M. Khokhlova(参考訳) 線形分子の熱的アンサンブルの単パルス非共鳴インダクティブアライメントに対する数学的に単純かつ正確なモデルを開発した。 2次元ロータをベースとした分子アライメントモデルでは,解析計算や数値計算の単純化だけでなく,温度やパルス強度などのシステムパラメータと時間的分子アライメントの形状との直感的な接続も実現している。

We develop a mathematically simple yet accurate model for the single-pulse non-resonant impulsive alignment of thermal ensembles of linear molecules. We find that our molecular alignment model, which is based on the 2D rotor, not only provides a simplification for analytical and numerical calculations, but also establishes intuitive connections between system parameters, such as temperature and pulse intensity, and the resulting shape of the temporal molecular alignment.
翻訳日:2023-03-30 13:45:07 公開日:2023-03-29
# 2種ボソニックハバードモデルにおける多体局在近接効果

Many-body localization proximity effect in two-species bosonic Hubbard model ( http://arxiv.org/abs/2303.16876v1 )

ライセンス: Link先を確認
Pietro Brighi, Marko Ljubotina, Dmitry A. Abanin and Maksym Serbyn(参考訳) 多体局所化(MBL)は、熱浴が乱れたシステムとの相互作用によって局所化する興味深い現象である。 これらの系における熱的および非エルゴード的挙動の相互作用は、探索が研究の活発な分野である豊富な位相図を生み出す。 本研究では,浴槽と不規則系の2つの粒子種を特徴とするボソニックハバードモデルについて検討した。 本研究では, 混合強度と浴槽径の関数として仮位相図を得る手法として, 異なる状況下でのモデルの動的特性について検討する。 浴槽が単一粒子からなる場合, MBL近接効果から非局在化相への遷移の明確なシグネチャを観察する。 しかし, 浴槽サイズを増大させると, 加熱効果が強くなり, 最終的には系全体が中程度の相互作用強度の範囲で非局在化する。 本研究では, 粒子輸送を特徴付け, もともと局在した粒子の拡散挙動を明らかにする。

The many-body localization (MBL) proximity effect is an intriguing phenomenon where a thermal bath localizes due to the interaction with a disordered system. The interplay of thermal and non-ergodic behavior in these systems gives rise to a rich phase diagram, whose exploration is an active field of research. In this work, we study a bosonic Hubbard model featuring two particle species representing the bath and the disordered system. Using state of the art numerical techniques, we investigate the dynamics of the model in different regimes, based on which we obtain a tentative phase diagram as a function of coupling strength and bath size. When the bath is composed of a single particle, we observe clear signatures of a transition from an MBL proximity effect to a delocalized phase. Increasing the bath size, however, its thermalizing effect becomes stronger and eventually the whole system delocalizes in the range of moderate interaction strengths studied. In this regime, we characterize particle transport, revealing diffusive behavior of the originally localized bosons.
翻訳日:2023-03-30 13:44:58 公開日:2023-03-29
# CheckerPose: グラフニューラルネットワークを用いたオブジェクトポス推定のためのプログレッシブディエンスキーポイント位置決め

CheckerPose: Progressive Dense Keypoint Localization for Object Pose Estimation with Graph Neural Network ( http://arxiv.org/abs/2303.16874v1 )

ライセンス: Link先を確認
Ruyi Lian, Haibin Ling(参考訳) 単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。 近年の研究では、密接な対応に基づくソリューションの可能性を秘めているが、実用的展開には改善が必要である。 本稿では,3つの面を改良した新しいポーズ推定アルゴリズムであるcheckerposeを提案する。 第一に、CheckerPoseは3Dオブジェクトの表面から3Dキーポイントを密にサンプリングし、2D画像に徐々に2D対応を見出す。 画像空間で高密度サンプリングを行う従来のソリューションと比較して、我々の戦略は2次元グリッド(ピクセル座標)での対応探索を可能にする。 次に,2次元画像位置のためのコンパクトなバイナリコード表現を設計する。 この表現はプログレッシブ対応の洗練を可能にするだけでなく、対応回帰をより効率的な分類問題に変換する。 第3に,サンプリングされた3dキーポイント間のインタラクションを明示的にモデル化するグラフニューラルネットワークを採用することで,対応の信頼性と精度をさらに向上させる。 これらの新しいコンポーネントは、CheckerPoseを強力なポーズ推定アルゴリズムにする。 一般的なLinemod、Linemod-O、YCB-Vオブジェクトポーズ推定ベンチマークで評価すると、CheckerPoseは対応ベースのメソッドの精度を高め、最先端のパフォーマンスを達成する。

Estimating the 6-DoF pose of a rigid object from a single RGB image is a crucial yet challenging task. Recent studies have shown the great potential of dense correspondence-based solutions, yet improvements are still needed to reach practical deployment. In this paper, we propose a novel pose estimation algorithm named CheckerPose, which improves on three main aspects. Firstly, CheckerPose densely samples 3D keypoints from the surface of the 3D object and finds their 2D correspondences progressively in the 2D image. Compared to previous solutions that conduct dense sampling in the image space, our strategy enables the correspondence searching in a 2D grid (i.e., pixel coordinate). Secondly, for our 3D-to-2D correspondence, we design a compact binary code representation for 2D image locations. This representation not only allows for progressive correspondence refinement but also converts the correspondence regression to a more efficient classification problem. Thirdly, we adopt a graph neural network to explicitly model the interactions among the sampled 3D keypoints, further boosting the reliability and accuracy of the correspondences. Together, these novel components make our CheckerPose a strong pose estimation algorithm. When evaluated on the popular Linemod, Linemod-O, and YCB-V object pose estimation benchmarks, CheckerPose clearly boosts the accuracy of correspondence-based methods and achieves state-of-the-art performances.
翻訳日:2023-03-30 13:44:41 公開日:2023-03-29
# 乳幼児の無栄養吸引行動認識とセグメンテーションのためのビデオベースエンド・ツー・エンドパイプライン

A Video-based End-to-end Pipeline for Non-nutritive Sucking Action Recognition and Segmentation in Young Infants ( http://arxiv.org/abs/2303.16867v1 )

ライセンス: Link先を確認
Shaotong Zhu, Michael Wan, Elaheh Hatamimajoumerd, Kashish Jain, Samuel Zlota, Cholpady Vikram Kamath, Cassandra B. Rowan, Emma C. Grace, Matthew S. Goodwin, Marie J. Hayes, Rebecca A. Schwartz-Mette, Emily Zimmerman, Sarah Ostadabbas(参考訳) 乳児の非栄養吸引パターンである非栄養吸引(NNS)を検出するエンドツーエンドのコンピュータビジョンパイプラインを、市販のベビーモニター映像を用いて、発達遅延の潜在的なバイオマーカーとして提示する。 NNSの臨床的(あるいはアルゴリズム的な)評価の障壁の1つは、その空白さに起因し、専門家は関連する活動の数分を何時間も経過観察する必要がある。 当社のnnsアクティビティセグメンテーションアルゴリズムは、平均精度94.0\%、平均リコール84.9\%のnns期間を、乳幼児19人の乳児モニター映像183時間の手作業によるnnsクリニカル・イン・クリブ・データセットから抽出した30の異種60sクリップで特定することで、この問題を解決します。 提案手法は, 時空間深層学習ネットワークと幼児固有のポーズ推定を用いて, 960 2.5 s/非NNSクリップのバイナリ分類において94.9 %の精度を達成し, NNSの行動認識アルゴリズムに基づく。 第2、独立、およびパブリックのnns in-the-wildデータセットでテストした結果、nnsの認識分類は92.3\%の精度に達し、nnsのセグメンテーションは90.8\%の精度と84.2\%のリコールを達成している。

We present an end-to-end computer vision pipeline to detect non-nutritive sucking (NNS) -- an infant sucking pattern with no nutrition delivered -- as a potential biomarker for developmental delays, using off-the-shelf baby monitor video footage. One barrier to clinical (or algorithmic) assessment of NNS stems from its sparsity, requiring experts to wade through hours of footage to find minutes of relevant activity. Our NNS activity segmentation algorithm solves this problem by identifying periods of NNS with high certainty -- up to 94.0\% average precision and 84.9\% average recall across 30 heterogeneous 60 s clips, drawn from our manually annotated NNS clinical in-crib dataset of 183 hours of overnight baby monitor footage from 19 infants. Our method is based on an underlying NNS action recognition algorithm, which uses spatiotemporal deep learning networks and infant-specific pose estimation, achieving 94.9\% accuracy in binary classification of 960 2.5 s balanced NNS vs. non-NNS clips. Tested on our second, independent, and public NNS in-the-wild dataset, NNS recognition classification reaches 92.3\% accuracy, and NNS segmentation achieves 90.8\% precision and 84.2\% recall.
翻訳日:2023-03-30 13:44:18 公開日:2023-03-29
# ALUM:潜在モデル不確実性補償による逆データ不確実性モデリング

ALUM: Adversarial Data Uncertainty Modeling from Latent Model Uncertainty Compensation ( http://arxiv.org/abs/2303.16866v1 )

ライセンス: Link先を確認
Wei Wei, Jiahuan Zhou, Hongze Li, Ying Wu(参考訳) モデルは精度だけでなく、予測の確実性にも注意を払うことが重要である。 ノイズデータによる深いモデルの不確定な予測は、信頼できるai分野に大きな懸念を生じさせる。 固有データノイズによる不確かさを探索し,対処するために,モデル不確かさとデータ不確かさを統一方式で同時に処理するALUM法を提案する。 ランダムに選択されたトレーニングデータに基づく深層モデルの究極の層におけるデータ不確実性のみをモデル化する代わりに、不確実性モデリングと非パラメトリック不確実性推定を容易にするために採掘された逆三重項を探索し、不十分に訓練された潜在モデル層を補償する。 これにより、モデルロバスト性を改善するために、ノイズデータによる臨界データ不確実性とモデル不確実性を容易に定量化することができる。 提案するALUMはモデルに依存しないため,計算オーバーヘッドが少なく,既存のディープモデルに容易に実装できる。 各種雑音学習タスクの広範囲な実験により,本手法の優れた頑健性と一般化能力が検証された。 コードはhttps://github.com/wwzjer/alumでリリースされる。

It is critical that the models pay attention not only to accuracy but also to the certainty of prediction. Uncertain predictions of deep models caused by noisy data raise significant concerns in trustworthy AI areas. To explore and handle uncertainty due to intrinsic data noise, we propose a novel method called ALUM to simultaneously handle the model uncertainty and data uncertainty in a unified scheme. Rather than solely modeling data uncertainty in the ultimate layer of a deep model based on randomly selected training data, we propose to explore mined adversarial triplets to facilitate data uncertainty modeling and non-parametric uncertainty estimations to compensate for the insufficiently trained latent model layers. Thus, the critical data uncertainty and model uncertainty caused by noisy data can be readily quantified for improving model robustness. Our proposed ALUM is model-agnostic which can be easily implemented into any existing deep model with little extra computation overhead. Extensive experiments on various noisy learning tasks validate the superior robustness and generalization ability of our method. The code is released at https://github.com/wwzjer/ALUM.
翻訳日:2023-03-30 13:43:31 公開日:2023-03-29
# 経験的リスク最小化を超えて:敵のロバスト性を改善するための局所構造保存規則化

Beyond Empirical Risk Minimization: Local Structure Preserving Regularization for Improving Adversarial Robustness ( http://arxiv.org/abs/2303.16861v1 )

ライセンス: Link先を確認
Wei Wei, Jiahuan Zhou, Ying Wu(参考訳) 深層ニューラルネットワークは、人間に受容できない摂動を伴う敵の例に騙されやすいことが広く知られている。 敵の強靭性を改善するために様々な防御策が提案されている。 しかしながら、これらの手法のほとんどは、独立してトレーニングサンプルを処理し、堅牢なネットワークをトレーニングするために膨大な量のサンプルを要求するが、これらのサンプル間の潜在構造情報は無視する。 本研究では,学習埋め込み空間における入力空間の局所構造を保存することを目的とした,新しい局所構造保存(lsp)正則化を提案する。 このようにして、クリーンサンプル近傍に横たわる対向サンプルの攻撃効果を緩和することができる。 本手法は, 対人訓練の有無にかかわらず, ベースラインや最先端アプローチと比較して, 画像分類データセット上での対人ロバスト性を常に向上させ, 今後の研究に有望な方向性をもたらすことを示す。

It is broadly known that deep neural networks are susceptible to being fooled by adversarial examples with perturbations imperceptible by humans. Various defenses have been proposed to improve adversarial robustness, among which adversarial training methods are most effective. However, most of these methods treat the training samples independently and demand a tremendous amount of samples to train a robust network, while ignoring the latent structural information among these samples. In this work, we propose a novel Local Structure Preserving (LSP) regularization, which aims to preserve the local structure of the input space in the learned embedding space. In this manner, the attacking effect of adversarial samples lying in the vicinity of clean samples can be alleviated. We show strong empirical evidence that with or without adversarial training, our method consistently improves the performance of adversarial robustness on several image classification datasets compared to the baselines and some state-of-the-art approaches, thus providing promising direction for future research.
翻訳日:2023-03-30 13:43:11 公開日:2023-03-29
# InceptionNeXt: インセプションがConvNeXtに出会ったとき

InceptionNeXt: When Inception Meets ConvNeXt ( http://arxiv.org/abs/2303.16900v1 )

ライセンス: Link先を確認
Weihao Yu, Pan Zhou, Shuicheng Yan, Xinchao Wang(参考訳) ViTの長距離モデリング能力にインスパイアされた大規模なカーネルの畳み込みは,近年広く研究され,7x7奥行き畳み込みを用いた注目すべきConvNeXtのような受容場の拡大とモデル性能の向上のために採用されている。 このような深層演算子は数個のFLOPしか消費しないが、メモリアクセスコストが高いため、強力なコンピューティングデバイス上でのモデル効率に大きなダメージを与える。 例えば、ConvNeXt-TはResNet-50と同じようなFLOPを持つが、完全な精度でA100 GPUでトレーニングすると、60%のスループットしか達成できない。 ConvNeXtのカーネルサイズを減らすことで速度が向上するが、性能は大幅に低下する。 性能を保ちながら、大規模なカーネルベースのCNNモデルを高速化する方法はまだ不明である。 この問題に取り組むために, インセプションに触発されて, チャネル次元に沿った4つの平行枝(すなわち, 小さい正方形カーネル, 2つの直交バンドカーネル, および恒等写像)に大カーネルの深さ方向畳み込みを分解する。 この新しいInception Deepwise Convolutionでは、IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持する。 例えば、InceptionNeXt-TはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。 InceptionNeXtは、炭素フットプリントを減らすための将来のアーキテクチャ設計のための経済的なベースラインとして機能すると予想する。 コードはhttps://github.com/sail-sg/inceptionnextで入手できる。

Inspired by the long-range modeling ability of ViTs, large-kernel convolutions are widely studied and adopted recently to enlarge the receptive field and improve model performance, like the remarkable work ConvNeXt which employs 7x7 depthwise convolution. Although such depthwise operator only consumes a few FLOPs, it largely harms the model efficiency on powerful computing devices due to the high memory access costs. For example, ConvNeXt-T has similar FLOPs with ResNet-50 but only achieves 60% throughputs when trained on A100 GPUs with full precision. Although reducing the kernel size of ConvNeXt can improve speed, it results in significant performance degradation. It is still unclear how to speed up large-kernel-based CNN models while preserving their performance. To tackle this issue, inspired by Inceptions, we propose to decompose large-kernel depthwise convolution into four parallel branches along channel dimension, i.e. small square kernel, two orthogonal band kernels, and an identity mapping. With this new Inception depthwise convolution, we build a series of networks, namely IncepitonNeXt, which not only enjoy high throughputs but also maintain competitive performance. For instance, InceptionNeXt-T achieves 1.6x higher training throughputs than ConvNeX-T, as well as attains 0.2% top-1 accuracy improvement on ImageNet-1K. We anticipate InceptionNeXt can serve as an economical baseline for future architecture design to reduce carbon footprint. Code is available at https://github.com/sail-sg/inceptionnext.
翻訳日:2023-03-30 13:37:58 公開日:2023-03-29
# AutoAD: コンテキストでの映画記述

AutoAD: Movie Description in Context ( http://arxiv.org/abs/2303.16899v1 )

ライセンス: Link先を確認
Tengda Han, Max Bain, Arsha Nagrani, G\"ul Varol, Weidi Xie, Andrew Zisserman(参考訳) 本論文の目的は,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルである。 高品質映画ADの生成は、コンテキスト記述の依存性と利用可能なトレーニングデータの限られた量により困難である。 本研究は,GPTやCLIPなどの事前訓練された基礎モデルのパワーを活用し,2つのモデルを視覚条件付きテキスト生成のためにブリッジするマッピングネットワークのみを訓練する。 高品質ADを得るためには、以下の4つの貢献を行う。 (i)映画クリップからのコンテクスト、前回のクリップからの広告、副タイトルを組み込んでいます。 (ii)映画のないテキストのみの広告や、文脈のないビジュアルキャプションデータセットなど、視覚情報や文脈情報が利用できない大規模データセットを事前トレーニングすることにより、トレーニングデータの欠如に対処する。 (iii)現在利用可能なADデータセットを改善し、MADデータセットのラベルノイズを除去し、文字名情報を追加する。 (iv)従来の手法と比較して,映画広告の課題に対して強い結果が得られる。

The objective of this paper is an automatic Audio Description (AD) model that ingests movies and outputs AD in text form. Generating high-quality movie AD is challenging due to the dependency of the descriptions on context, and the limited amount of training data available. In this work, we leverage the power of pretrained foundation models, such as GPT and CLIP, and only train a mapping network that bridges the two models for visually-conditioned text generation. In order to obtain high-quality AD, we make the following four contributions: (i) we incorporate context from the movie clip, AD from previous clips, as well as the subtitles; (ii) we address the lack of training data by pretraining on large-scale datasets, where visual or contextual information is unavailable, e.g. text-only AD without movies or visual captioning datasets without context; (iii) we improve on the currently available AD datasets, by removing label noise in the MAD dataset, and adding character naming information; and (iv) we obtain strong results on the movie AD task compared with previous methods.
翻訳日:2023-03-30 13:37:27 公開日:2023-03-29
# ビデオからの衝撃音合成のための物理駆動拡散モデル

Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos ( http://arxiv.org/abs/2303.16897v1 )

ライセンス: Link先を確認
Kun Su, Kaizhi Qian, Eli Shlizerman, Antonio Torralba, Chuang Gan(参考訳) 実世界と仮想世界の没入的知覚経験には,物理物体の相互作用から発生する音のモデル化が重要である。 従来の衝撃音合成法では、物理シミュレーションを用いて音を表現・合成できる物理パラメータのセットを得る。 しかし、それらは実際の世界ではほとんど利用できず、一般的なビデオからの衝撃音の合成にも適用できない、物体のジオメトリと衝撃位置の両方の詳細な詳細を必要とする。 一方、既存のビデオ駆動深層学習に基づくアプローチは、物理知識が不足しているため、視覚内容と衝撃音との弱い対応を捉えることしかできなかった。 本研究では,サイレントビデオクリップに対して高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。 ビデオコンテンツに加えて, 衝撃音合成手順を導くために, 追加の物理計算を優先して用いることを提案する。 物理学の優先事項には、ノイズの多い実世界の衝撃音例から直接推定される物理パラメータと、ニューラルネットワークを介して音環境を解釈する学習された残留パラメータが含まれている。 さらに,物理の優先順位と視覚情報を結合して音響合成を行うための,具体的な学習と推論戦略を備えた新しい拡散モデルの実装を行った。 実験の結果, 本モデルが既存のシステムよりも現実的な衝撃音の生成に優れていることがわかった。 さらに重要なことに、物理ベースの表現は完全に解釈可能で透明なので、音の編集を柔軟に行える。

Modeling sounds emitted from physical object interactions is critical for immersive perceptual experiences in real and virtual worlds. Traditional methods of impact sound synthesis use physics simulation to obtain a set of physics parameters that could represent and synthesize the sound. However, they require fine details of both the object geometries and impact locations, which are rarely available in the real world and can not be applied to synthesize impact sounds from common videos. On the other hand, existing video-driven deep learning-based approaches could only capture the weak correspondence between visual content and impact sounds since they lack of physics knowledge. In this work, we propose a physics-driven diffusion model that can synthesize high-fidelity impact sound for a silent video clip. In addition to the video content, we propose to use additional physics priors to guide the impact sound synthesis procedure. The physics priors include both physics parameters that are directly estimated from noisy real-world impact sound examples without sophisticated setup and learned residual parameters that interpret the sound environment via neural networks. We further implement a novel diffusion model with specific training and inference strategies to combine physics priors and visual information for impact sound synthesis. Experimental results show that our model outperforms several existing systems in generating realistic impact sounds. More importantly, the physics-based representations are fully interpretable and transparent, thus enabling us to perform sound editing flexibly.
翻訳日:2023-03-30 13:37:10 公開日:2023-03-29
# ViewRefer: GPTとプロトタイプガイダンスによる3次元視覚グラウンドの多視点知識

ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance ( http://arxiv.org/abs/2303.16894v1 )

ライセンス: Link先を確認
Ziyu Guo, Yiwen Tang, Renrui Zhang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) マルチビュー入力からの3dシーンの理解は、3dビジュアルグラウンドにおけるビューの不一致を緩和することが証明されている。 しかし、既存の手法は通常、テキストモダリティに埋め込まれたビューキューを無視し、異なるビューの相対的な重要性を測ることに失敗する。 本稿では,テキストと3Dモダリティの両方からビュー知識を把握する方法を探索する3次元視覚基盤のための多視点フレームワークであるViewReferを提案する。 テキストブランチでは、ViewReferはGPTのような大規模言語モデルの多様な言語知識を活用して、単一の基底テキストを複数の幾何学的記述に拡張する。 一方、3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。 さらに,様々な視点からシーン非依存の知識を記憶し,より堅牢なテキスト機能を備えたビューガイド付アテンションモジュールと,最終予測時のビューガイド付スコアリング戦略という2つの視点からフレームワークを強化する,学習可能なマルチビュープロトタイプのセットも提示する。 設計したパラダイムでは、ViewReferは3つのベンチマークで優れたパフォーマンスを達成し、Sr3D、Nr3D、ScanReferでは+2.8%、+1.2%、+0.73%という2番目のベットを上回ります。 コードはhttps://github.com/ZiyuGuo99/ViewRefer3Dでリリースされる。

Understanding 3D scenes from multi-view inputs has been proven to alleviate the view discrepancy issue in 3D visual grounding. However, existing methods normally neglect the view cues embedded in the text modality and fail to weigh the relative importance of different views. In this paper, we propose ViewRefer, a multi-view framework for 3D visual grounding exploring how to grasp the view knowledge from both text and 3D modalities. For the text branch, ViewRefer leverages the diverse linguistic knowledge of large-scale language models, e.g., GPT, to expand a single grounding text to multiple geometry-consistent descriptions. Meanwhile, in the 3D modality, a transformer fusion module with inter-view attention is introduced to boost the interaction of objects across views. On top of that, we further present a set of learnable multi-view prototypes, which memorize scene-agnostic knowledge for different views, and enhance the framework from two perspectives: a view-guided attention module for more robust text features, and a view-guided scoring strategy during the final prediction. With our designed paradigm, ViewRefer achieves superior performance on three benchmarks and surpasses the second-best by +2.8%, +1.2%, and +0.73% on Sr3D, Nr3D, and ScanRefer. Code will be released at https://github.com/ZiyuGuo99/ViewRefer3D.
翻訳日:2023-03-30 13:36:47 公開日:2023-03-29
# 情報量による変動量子ランドスケープの解析

Analyzing variational quantum landscapes with information content ( http://arxiv.org/abs/2303.16893v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Salinas, Hao Wang, Xavier Bonet-Monroig(参考訳) 変分量子アルゴリズムにおける量子回路のパラメータは、タスクを解くのに有用な情報を含む風景を誘導する。 本研究では,パラメータ空間内の点間の変動を計測する情報コンテンツレンズを用いて,そのような景観を考察する。 我々の主要な貢献は、情報内容と勾配の平均的なノルムを結びつけ、その推定器に堅牢な解析的境界を提供する。 この結果は、いかなる(古典的または量子的な)変動風景にも当てはまる。 本研究では,バレン高原問題の場合の勾配のスケーリングを数値解析して検証する。 分析的な理解により、この問題の勾配における事前因子のスケーリングが可能になる。 我々の研究は、短期量子コンピュータを用いて、データ駆動型で変動量子アルゴリズムの限界を研究する新しい方法を開く。

The parameters of the quantum circuit in a variational quantum algorithm induce a landscape that contains useful information to solve the task. In this work we investigate such landscape through the lens of information content which measures the variability between points in the parameter space. Our major contribution connects the information content to the average norm of the gradient, where we provide robust analytical bounds on its estimators. This result holds for any (classical or quantum) variational landscape. We validate this by numerically studying the scaling of the gradient in an instance of the barren plateau problem. With our analytical understanding we are able to the scaling pre-factors in the gradient of this problem. Our work opens a new way to investigate the limits of variational quantum algorithms in a data-driven fashion with near-term quantum computers.
翻訳日:2023-03-30 13:36:20 公開日:2023-03-29
# 医用画像セグメンテーションのためのカスケード注意デコードを有するマルチスケール階層視覚トランス

Multi-scale Hierarchical Vision Transformer with Cascaded Attention Decoding for Medical Image Segmentation ( http://arxiv.org/abs/2303.16892v1 )

ライセンス: Link先を確認
Md Mostafijur Rahman and Radu Marculescu(参考訳) トランスフォーマーは医用画像のセグメンテーションで大きな成功を収めている。 しかし、トランスフォーマーは、基礎となるシングルスケールセルフアテンション(sa)機構のため、限定的な一般化能力を示す可能性がある。 本稿では,マルチスケール階層型vIsion Transformer(MERIT)バックボーンネットワークを導入し,SAを複数スケールで計算することでモデルの一般化性を向上させる。 また、MERITが生成するマルチステージ機能のさらなる改善のために、注意に基づくデコーダ、すなわちCascaded Attention Decoding (CASCADE)を組み込んだ。 最後に,暗黙のアンサンブルによるモデル学習に有効なマルチステージ機能混合損失アグリゲーション(MUTATION)法を提案する。 医用画像セグメンテーションベンチマーク(synapse multi-organ, acdc)を2つ実施し, 最先端手法よりも優れた評価性能を示した。 我々のMERITアーキテクチャとMUTATION損失集約は、下流の医療画像とセマンティックセグメンテーションタスクで利用できる。

Transformers have shown great success in medical image segmentation. However, transformers may exhibit a limited generalization ability due to the underlying single-scale self-attention (SA) mechanism. In this paper, we address this issue by introducing a Multi-scale hiERarchical vIsion Transformer (MERIT) backbone network, which improves the generalizability of the model by computing SA at multiple scales. We also incorporate an attention-based decoder, namely Cascaded Attention Decoding (CASCADE), for further refinement of multi-stage features generated by MERIT. Finally, we introduce an effective multi-stage feature mixing loss aggregation (MUTATION) method for better model training via implicit ensembling. Our experiments on two widely used medical image segmentation benchmarks (i.e., Synapse Multi-organ, ACDC) demonstrate the superior performance of MERIT over state-of-the-art methods. Our MERIT architecture and MUTATION loss aggregation can be used with downstream medical image and semantic segmentation tasks.
翻訳日:2023-03-30 13:36:09 公開日:2023-03-29
# マスクのないOVIS:手動マスク注釈のないオープン語彙インスタンスセグメンテーション

Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask Annotations ( http://arxiv.org/abs/2303.16891v1 )

ライセンス: Link先を確認
Vibashan VS, Ning Yu, Chen Xing, Can Qin, Mingfei Gao, Juan Carlos Niebles, Vishal M. Patel, Ran Xu(参考訳) 既存のインスタンスセグメンテーションモデルは、ベース(トレーニング)カテゴリから手動マスクアノテーションを使用してタスク固有の情報を学ぶ。 これらのマスクアノテーションは、新しい(新しい)カテゴリのアノテートにスケーラビリティを制限し、多大な人的努力を必要とする。 この問題を軽減するために、Open-Vocabulary (OV) 法は大規模な画像キャプチャペアと視覚言語モデルを利用して新しいカテゴリを学習する。 要約すると、OV法は、ベースアノテーションから強い監督力と、イメージキャプションペアから弱い監督力を用いた新しいカテゴリ情報を用いてタスク固有の情報を学ぶ。 この強い監督と弱い監督の違いは、基本カテゴリに過度に適合し、新しいカテゴリへの一般化が不十分になる。 本研究では,視覚言語モデルが生成する擬似マスクアノテーションを,提案したマスクフリーOVISパイプラインを用いて弱教師付きで学習することにより,この問題を克服する。 画像キャプチャーペアに存在するオブジェクトに対する事前学習された視覚言語モデルの局所化能力を利用して擬似マスクアノテーションを自動生成する。 生成された擬似マスクアノテーションは、インスタンスセグメンテーションモデルを監督するために使用され、強制的にインスタンスレベルのアノテーションや過剰適合からパイプライン全体を解放する。 提案手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを,手動マスクでトレーニングした最近の最先端手法と比較して有意に改善することを示す。 コードとモデルはhttps://vibashan.github.io/ovis-web/で提供される。

Existing instance segmentation models learn task-specific information using manual mask annotations from base (training) categories. These mask annotations require tremendous human effort, limiting the scalability to annotate novel (new) categories. To alleviate this problem, Open-Vocabulary (OV) methods leverage large-scale image-caption pairs and vision-language models to learn novel categories. In summary, an OV method learns task-specific information using strong supervision from base annotations and novel category information using weak supervision from image-captions pairs. This difference between strong and weak supervision leads to overfitting on base categories, resulting in poor generalization towards novel categories. In this work, we overcome this issue by learning both base and novel categories from pseudo-mask annotations generated by the vision-language model in a weakly supervised manner using our proposed Mask-free OVIS pipeline. Our method automatically generates pseudo-mask annotations by leveraging the localization ability of a pre-trained vision-language model for objects present in image-caption pairs. The generated pseudo-mask annotations are then used to supervise an instance segmentation model, freeing the entire pipeline from any labour-expensive instance-level annotations and overfitting. Our extensive experiments show that our method trained with just pseudo-masks significantly improves the mAP scores on the MS-COCO dataset and OpenImages dataset compared to the recent state-of-the-art methods trained with manual masks. Codes and models are provided in https://vibashan.github.io/ovis-web/.
翻訳日:2023-03-30 13:35:51 公開日:2023-03-29
# DPF:弱スーパービジョンによる深度予測分野の学習

DPF: Learning Dense Prediction Fields with Weak Supervision ( http://arxiv.org/abs/2303.16890v1 )

ライセンス: Link先を確認
Xiaoxue Chen, Yuhang Zheng, Yupeng Zheng, Qiang Zhou, Hao Zhao, Guyue Zhou, Ya-Qin Zhang(参考訳) 現在、多くの視覚シーン理解問題は、密集した予測ネットワークによって解決されている。 しかし、ピクセル単位の高密度アノテーションは非常に高価(シーン解析など)で、あるいは不可能(本質的な画像分解など)であり、安価な点レベルの弱い監視を活用する動機となっている。 しかし、既存のポイント管理手法は、完全な監視のために設計された同じアーキテクチャを使っている。 それらとは対照的に,距離や放射場といった近年の暗黙の表現の成功に触発されて,点座標クエリの予測を行う新しいパラダイムを提案する。 したがって、この方法は密度予測場(dpfs)と呼ばれる。 DPFは連続したサブピクセル位置に対して表現的な中間特徴を生成し、任意の解像度の出力を可能にする。 DPFはポイントレベルの監視と自然に互換性がある。 高レベル意味解析と低レベル固有画像分解の2つのタスクを用いてDPFの有効性を示す。 これら2つのケースでは、監督は、それぞれ1点意味圏と2点相対反射の形で行われる。 PASCALContext、ADE20K、IIWの3つの大規模パブリックデータセットによってベンチマークされたDPFは、これらすべてに対して、最先端のパフォーマンスを大きなマージンで設定した。 コードはhttps://github.com/cxx226/DPFでアクセスできる。

Nowadays, many visual scene understanding problems are addressed by dense prediction networks. But pixel-wise dense annotations are very expensive (e.g., for scene parsing) or impossible (e.g., for intrinsic image decomposition), motivating us to leverage cheap point-level weak supervision. However, existing pointly-supervised methods still use the same architecture designed for full supervision. In stark contrast to them, we propose a new paradigm that makes predictions for point coordinate queries, as inspired by the recent success of implicit representations, like distance or radiance fields. As such, the method is named as dense prediction fields (DPFs). DPFs generate expressive intermediate features for continuous sub-pixel locations, thus allowing outputs of an arbitrary resolution. DPFs are naturally compatible with point-level supervision. We showcase the effectiveness of DPFs using two substantially different tasks: high-level semantic parsing and low-level intrinsic image decomposition. In these two cases, supervision comes in the form of single-point semantic category and two-point relative reflectance, respectively. As benchmarked by three large-scale public datasets PASCALContext, ADE20K and IIW, DPFs set new state-of-the-art performance on all of them with significant margins. Code can be accessed at https://github.com/cxx226/DPF.
翻訳日:2023-03-30 13:35:27 公開日:2023-03-29
# ラベル粒度事前学習の効果の解明に向けて

Towards Understanding the Effect of Pretraining Label Granularity ( http://arxiv.org/abs/2303.16887v1 )

ライセンス: Link先を確認
Guan Zhe Hong, Yin Cui, Ariel Fuxman, Stanley H. Chan, Enming Luo(参考訳) 本稿では,ラベルの粒度の事前学習が,画像分類タスクにおけるディープニューラルネットワークの一般化に与える影響について検討する。 我々は,事前学習ラベルが対象問題よりもきめ細かい「きめ細かい」転向学習設定に注目した。 我々は,iNaturalist 2021のラベル階層を用いて実験を行い,ベースライン上の誤差率の8.76%を相対的に改善した。 改善の鍵となる条件は以下のとおりである。 1)プリトレーニングデータセットは、強力で有意義なラベル階層を有する。 2)そのラベル関数は,目的タスクのラベル関数と強く一致している。 3)事前学習ラベルの粒度の適切なレベルを選択する。 ImageNetの転送学習実験では,ラベルの粒度を事前学習することが重要である。 最も顕著なことは、ImageNet21kの葉ラベルでの事前学習は、他の粗粒度レベルでの事前学習よりも、ImageNet1kでの転送結果がより優れていることである。 理論的には、2層畳み込みreluネットワークの解析により、以下のことが証明される。 1)粗粒ラベルを訓練したモデルは,共通又は「分かり易い」特徴にのみ強く反応する。 2) データセットが適切な条件を満たしている場合, きめ細かい事前学習は, 希少な特徴や"より困難"な特徴も学習させることを奨励し, モデルの一般化を改善する。

In this paper, we study how pretraining label granularity affects the generalization of deep neural networks in image classification tasks. We focus on the "fine-to-coarse" transfer learning setting where the pretraining label is more fine-grained than that of the target problem. We experiment with this method using the label hierarchy of iNaturalist 2021, and observe a 8.76% relative improvement of the error rate over the baseline. We find the following conditions are key for the improvement: 1) the pretraining dataset has a strong and meaningful label hierarchy, 2) its label function strongly aligns with that of the target task, and most importantly, 3) an appropriate level of pretraining label granularity is chosen. The importance of pretraining label granularity is further corroborated by our transfer learning experiments on ImageNet. Most notably, we show that pretraining at the leaf labels of ImageNet21k produces better transfer results on ImageNet1k than pretraining at other coarser granularity levels, which supports the common practice. Theoretically, through an analysis on a two-layer convolutional ReLU network, we prove that: 1) models trained on coarse-grained labels only respond strongly to the common or "easy-to-learn" features; 2) with the dataset satisfying the right conditions, fine-grained pretraining encourages the model to also learn rarer or "harder-to-learn" features well, thus improving the model's generalization.
翻訳日:2023-03-30 13:35:02 公開日:2023-03-29
# 薬物併用療法のためのエンドツーエンド$n$-ary関係抽出法

End-to-End $n$-ary Relation Extraction for Combination Drug Therapies ( http://arxiv.org/abs/2303.16886v1 )

ライセンス: Link先を確認
Yuhang Jiang and Ramakanth Kavuluru(参考訳) 組み合わせ薬物療法は、がん、HIV、マラリア、結核患者に対してより一般的に投与される2つ以上の薬物を含む治療薬である。 pubmedには、過去20年間で年間に少なくとも10万記事が発行されている、"結合薬物療法"メッシュを使用する350万以上の記事がある。 科学文献から組み合わせ療法を抽出することは本質的に$n$-ary関係抽出問題を構成する。 一般的な$n$-ary設定とは異なり、$n$は固定(例えば、$n=3$の薬物遺伝子変異関係)であり、組み合わせ療法の抽出は、各インスタンスに応じて$n \geq 2$が動的である特別な設定である。 最近、Tiktinsky et al. (NAACL 2022) は、この種の治療法を文献から抽出するための最初のデータセットCombDrugExtを導入した。 ここではシーケンス・ツー・シーケンス方式のエンドツーエンド抽出手法を用いて,正(あるいは有効)の組み合わせに対してCombDrugExtテストセット上でF1スコア6.7\%のF1スコアを実現する。 これは、斑点のある薬物(エンドツーエンドではなく、エンドツーエンド)との以前の最高の関係分類スコアよりも、絶対的に$\$5\%$ f1-scoreの改善である。 そこで本研究では,従来の非エンドツーエンドモデルよりもすでに優れているエンドツーエンド抽出のための最先端ファーストモデルを提案する。 本モデルでは, 薬物の実体と関係を1パスでシームレスに抽出し, 動的$n$-ary抽出シナリオに非常に適している。

Combination drug therapies are treatment regimens that involve two or more drugs, administered more commonly for patients with cancer, HIV, malaria, or tuberculosis. Currently there are over 350K articles in PubMed that use the "combination drug therapy" MeSH heading with at least 10K articles published per year over the past two decades. Extracting combination therapies from scientific literature inherently constitutes an $n$-ary relation extraction problem. Unlike in the general $n$-ary setting where $n$ is fixed (e.g., drug-gene-mutation relations where $n=3$), extracting combination therapies is a special setting where $n \geq 2$ is dynamic, depending on each instance. Recently, Tiktinsky et al. (NAACL 2022) introduced a first of its kind dataset, CombDrugExt, for extracting such therapies from literature. Here, we use a sequence-to-sequence style end-to-end extraction method to achieve an F1-Score of $66.7\%$ on the CombDrugExt test set for positive (or effective) combinations. This is an absolute $\approx 5\%$ F1-score improvement even over the prior best relation classification score with spotted drug entities (hence, not end-to-end). Thus our effort introduces a state-of-the-art first model for end-to-end extraction that is already superior to the best prior non end-to-end model for this task. Our model seamlessly extracts all drug entities and relations in a single pass and is highly suitable for dynamic $n$-ary extraction scenarios.
翻訳日:2023-03-30 13:34:38 公開日:2023-03-29
# 生成逆数ネットワークとコントラスト学習を用いた顕微鏡画像の一般化

Generalizable Denoising of Microscopy Images using Generative Adversarial Networks and Contrastive Learning ( http://arxiv.org/abs/2303.15214v2 )

ライセンス: Link先を確認
Felix Fuentes-Hurtado, Jean-Baptiste Sibarita, Virgile Viasnoff(参考訳) 顕微鏡画像は、しばしば高レベルのノイズに悩まされ、さらなる分析と解釈を妨げる。 コンテンツ対応画像復元法(CARE)はこの問題に対処するために提案されているが、大量のトレーニングデータを必要とし、過度に適合する。 これらの課題を克服するために,数発の顕微鏡画像復調のための新しいフレームワークを提案する。 提案手法では,比較学習(CL)を用いて学習した生成逆数ネットワーク(GAN)と損失項を保存する2つの構造(構造的類似度指数とトータル変量損失)を組み合わせることにより,画像の画質を向上する。 本手法は,3つのよく知られた顕微鏡画像データセット上での有効性を実証し,ノイズ品質を維持しつつトレーニングデータの量を大幅に削減でき,ペアデータ取得の負担を軽減し,少ない学習を可能にする。 提案するフレームワークは他の画像復元タスクにも容易に拡張でき、顕微鏡画像解析の分野を著しく前進させる可能性がある。

Microscopy images often suffer from high levels of noise, which can hinder further analysis and interpretation. Content-aware image restoration (CARE) methods have been proposed to address this issue, but they often require large amounts of training data and suffer from over-fitting. To overcome these challenges, we propose a novel framework for few-shot microscopy image denoising. Our approach combines a generative adversarial network (GAN) trained via contrastive learning (CL) with two structure preserving loss terms (Structural Similarity Index and Total Variation loss) to further improve the quality of the denoised images using little data. We demonstrate the effectiveness of our method on three well-known microscopy imaging datasets, and show that we can drastically reduce the amount of training data while retaining the quality of the denoising, thus alleviating the burden of acquiring paired data and enabling few-shot learning. The proposed framework can be easily extended to other image restoration tasks and has the potential to significantly advance the field of microscopy image analysis.
翻訳日:2023-03-30 11:23:13 公開日:2023-03-29
# 拡散分別平滑化によるロバスト外分布検出法の検討

Diffusion Denoised Smoothing for Certified and Adversarial Robust Out-Of-Distribution Detection ( http://arxiv.org/abs/2303.14961v2 )

ライセンス: Link先を確認
Nicola Franco, Daniel Korth, Jeanette Miriam Lorenz, Karsten Roscher, Stephan Guennemann(参考訳) 機械学習の利用が拡大するにつれて、安全性の確保の重要性は過大評価されない。 この点において重要な関心事は、与えられたサンプルがトレーニング分布からのものであるか、あるいは"Out-Of-Distribution"(OOD)サンプルであるかどうかを識別する能力である。 さらに、敵はOODサンプルを分類器を確実に予測するための方法で操作することができる。 本研究では,ネットワークアーキテクチャによらず,特定のコンポーネントや追加のトレーニングを必要とせず,入力周辺の$\ell_2$-norm内でOOD検出の堅牢性を証明する新しい手法を提案する。 さらに,oodサンプルに対する敵意攻撃を検出する現在の手法を改良し,分散サンプルに対して高いレベルの認証と敵意のロバスト性を提供する。 CIFAR10/100におけるOOD検出指標の平均値は、以前のアプローチと比較して$\sim 13 \% / 5\%$の増加を示している。

As the use of machine learning continues to expand, the importance of ensuring its safety cannot be overstated. A key concern in this regard is the ability to identify whether a given sample is from the training distribution, or is an "Out-Of-Distribution" (OOD) sample. In addition, adversaries can manipulate OOD samples in ways that lead a classifier to make a confident prediction. In this study, we present a novel approach for certifying the robustness of OOD detection within a $\ell_2$-norm around the input, regardless of network architecture and without the need for specific components or additional training. Further, we improve current techniques for detecting adversarial attacks on OOD samples, while providing high levels of certified and adversarial robustness on in-distribution samples. The average of all OOD detection metrics on CIFAR10/100 shows an increase of $\sim 13 \% / 5\%$ relative to previous approaches.
翻訳日:2023-03-30 11:22:54 公開日:2023-03-29
# DBLP-QuAD:DBLP Scholarly Knowledge Graph上の質問応答データセット

DBLP-QuAD: A Question Answering Dataset over the DBLP Scholarly Knowledge Graph ( http://arxiv.org/abs/2303.13351v3 )

ライセンス: Link先を確認
Debayan Banerjee, Sushil Awale, Ricardo Usbeck, Chris Biemann(参考訳) 本研究では,DBLP学術知識グラフ(KG)上で質問応答データセットを作成する。 dblpは、2200万以上の著者が出版した440万以上の出版物をインデックス化する主要なコンピュータサイエンス出版物の書誌情報のオンラインリファレンスである。 我々のデータセットは1万の質問応答対と対応するSPARQLクエリで構成されており、DBLP KG上で実行して正しい回答を取得することができる。 DBLP-QuADは学術的な質問応答データセットとしては最大である。

In this work we create a question answering dataset over the DBLP scholarly knowledge graph (KG). DBLP is an on-line reference for bibliographic information on major computer science publications that indexes over 4.4 million publications published by more than 2.2 million authors. Our dataset consists of 10,000 question answer pairs with the corresponding SPARQL queries which can be executed over the DBLP KG to fetch the correct answer. DBLP-QuAD is the largest scholarly question answering dataset.
翻訳日:2023-03-30 11:22:40 公開日:2023-03-29
# オープン語彙オブジェクト検出のための検出とセグメントの学習

Learning to Detect and Segment for Open Vocabulary Object Detection ( http://arxiv.org/abs/2212.12130v4 )

ライセンス: Link先を確認
Tao Wang and Nan Li(参考訳) オープンボキャブラリのオブジェクト検出は,最近開発された視覚言語事前学習モデルによって,意味カテゴリーのみを持つ新規なオブジェクトの認識を支援することで,大きく進歩している。 先行研究は、主にオブジェクト提案分類への知識伝達に焦点をあて、クラスに依存しないボックスとマスク予測を採用する。 本研究では,オープン語彙設定のためのボックス回帰とマスクセグメンテーションをより一般化する,原理的動的ネットワーク設計であるCondHeadを提案する。 中心となる考え方は、セマンティック埋め込みに基づいてネットワークヘッドを条件付きパラメータ化することで、新しいカテゴリをよりよく検出するために、クラス固有の知識でモデルが導かれることである。 特に、condheadは、動的に集約されたヘッドと動的に生成されたヘッドの2つのネットワークヘッドからなる。 前者は条件付き集約された静的なヘッドでインスタンス化され、これらのヘッドはエキスパートとして最適化され、洗練された予測を学ぶことが期待されている。 後者は動的に生成されたパラメータでインスタンス化し、一般的なクラス固有の情報をエンコードする。 このような条件付き設計により、検出モデルは意味埋め込みによって橋渡しされ、強い一般化可能なクラスワイズボックスとマスク予測を提供する。 提案手法は,最先端のオープンボキャブラリオブジェクト検出手法に非常に小さなオーバーヘッドで大幅な改善をもたらす。例えば,新しいカテゴリのAPを3.0で検出し,計算量はわずか1.1%に留まる。

Open vocabulary object detection has been greatly advanced by the recent development of vision-language pretrained model, which helps recognize novel objects with only semantic categories. The prior works mainly focus on knowledge transferring to the object proposal classification and employ class-agnostic box and mask prediction. In this work, we propose CondHead, a principled dynamic network design to better generalize the box regression and mask segmentation for open vocabulary setting. The core idea is to conditionally parameterize the network heads on semantic embedding and thus the model is guided with class-specific knowledge to better detect novel categories. Specifically, CondHead is composed of two streams of network heads, the dynamically aggregated head and the dynamically generated head. The former is instantiated with a set of static heads that are conditionally aggregated, these heads are optimized as experts and are expected to learn sophisticated prediction. The latter is instantiated with dynamically generated parameters and encodes general class-specific information. With such a conditional design, the detection model is bridged by the semantic embedding to offer strongly generalizable class-wise box and mask prediction. Our method brings significant improvement to the state-of-the-art open vocabulary object detection methods with very minor overhead, e.g., it surpasses a RegionClip model by 3.0 detection AP on novel categories, with only 1.1% more computation.
翻訳日:2023-03-30 11:22:31 公開日:2023-03-29
# プロンプト学習による伝播構造によるゼロショット騒音検出

Zero-Shot Rumor Detection with Propagation Structure via Prompt Learning ( http://arxiv.org/abs/2212.01117v4 )

ライセンス: Link先を確認
Hongzhan Lin, Pengyao Yi, Jing Ma, Haiyun Jiang, Ziyang Luo, Shuming Shi, Ruifang Liu(参考訳) 噂の広まりと破壊的な出来事は、ソーシャルメディア時代の真実を著しく妨げている。 以前の研究では、注釈付きリソースがないため、マイノリティ言語で提示される噂は検出しにくいことが示されている。 さらに、昨日のニュースに関わらない予期せぬ破壊的な出来事は、データリソースの不足を悪化させる。 本研究では,異なるドメインで発生する噂や異なる言語で提示される噂を早期に検出するためのゼロショットフレームワークを提案する。 より具体的には,まずソーシャルメディア上で拡散する噂を多様な伝搬スレッドとして表現し,その上で,プロンプトと噂データの両方に対する言語に依存しない文脈表現を学習するための階層的なプロンプトエンコーディング機構を設計する。 ドメイン適応をさらに強化するため,伝播スレッドからドメイン不変な構造特徴をモデル化し,コミュニティ応答の構造的位置表現を組み込む。 さらに、モデルトレーニングを改善するために、新しい仮想応答拡張法が使用される。 3つの実世界のデータセットで行った広範囲な実験により,提案モデルが最先端の手法よりも優れた性能を実現し,早期の噂検出に優れた能力を示すことを示した。

The spread of rumors along with breaking events seriously hinders the truth in the era of social media. Previous studies reveal that due to the lack of annotated resources, rumors presented in minority languages are hard to be detected. Furthermore, the unforeseen breaking events not involved in yesterday's news exacerbate the scarcity of data resources. In this work, we propose a novel zero-shot framework based on prompt learning to detect rumors falling in different domains or presented in different languages. More specifically, we firstly represent rumor circulated on social media as diverse propagation threads, then design a hierarchical prompt encoding mechanism to learn language-agnostic contextual representations for both prompts and rumor data. To further enhance domain adaptation, we model the domain-invariant structural features from the propagation threads, to incorporate structural position representations of influential community response. In addition, a new virtual response augmentation method is used to improve model training. Extensive experiments conducted on three real-world datasets demonstrate that our proposed model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2023-03-30 11:22:05 公開日:2023-03-29
# 自動エンコーダを用いたアウト・オブ・ディストリビューション検出の再考

Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection ( http://arxiv.org/abs/2203.02194v5 )

ライセンス: Link先を確認
Yibo Zhou(参考訳) いくつかのシナリオでは、分類器はトレーニングデータから遠く離れた分散サンプルを検出する必要がある。 レコンストラクションオートエンコーダベースの手法は望ましい特性を持つため、入力再構成誤差をノベルティとノーマルの指標として用いることでこの問題に対処している。 このようなアプローチの本質を,条件付きデータの不確かさのプロキシに対してのみ問い合わせるために,内在的なバイアスを持つ4重項領域変換として定式化する。 これにより、自己エンコーダの潜伏空間を最大圧縮し、記述されたドメイントランスレータとして動作するための再構成力を確保して改善方向を定式化する。 これによって、cifar-100 の fpr@95%tpr と wide-resnet の tinyimagenet-crop は 0.2% である。 重要なことは、我々の方法は追加のデータや実装が難しい構造、時間を要するパイプライン、既知のクラスの分類精度を損なうことさえなく機能する。

In some scenarios, classifier requires detecting out-of-distribution samples far from its training data. With desirable characteristics, reconstruction autoencoder-based methods deal with this problem by using input reconstruction error as a metric of novelty vs. normality. We formulate the essence of such approach as a quadruplet domain translation with an intrinsic bias to only query for a proxy of conditional data uncertainty. Accordingly, an improvement direction is formalized as maximumly compressing the autoencoder's latent space while ensuring its reconstructive power for acting as a described domain translator. From it, strategies are introduced including semantic reconstruction, data certainty decomposition and normalized L2 distance to substantially improve original methods, which together establish state-of-the-art performance on various benchmarks, e.g., the FPR@95%TPR of CIFAR-100 vs. TinyImagenet-crop on Wide-ResNet is 0.2%. Importantly, our method works without any additional data, hard-to-implement structure, time-consuming pipeline, and even harming the classification accuracy of known classes.
翻訳日:2023-03-30 11:21:45 公開日:2023-03-29
# 臨界パラメトリック量子センシング

Critical parametric quantum sensing ( http://arxiv.org/abs/2107.04503v3 )

ライセンス: Link先を確認
R. Di Candia, F. Minganti, K. V. Petrovnin, G. S. Paraoanu and S. Felicetti(参考訳) 臨界量子システム(Critical quantum systems)は、相転移に近接して発達する拡散感受性のため、量子力学応用の有望な資源である。 ここでは、駆動散逸位相遷移中のパラメトリックカー共振器のメトロジーパワーを評価する。 周波数推定のための量子フィッシャー情報と周波数識別のためのヘルストロムバウンドを完全に特徴付ける。 漸近的な状態を超えて、実験的な到達可能なパラメータでハイゼンベルク精度を達成できることが示される。 我々は、非線形共振器の臨界挙動を利用して量子磁気センサの精度と超伝導量子ビット読み出しの忠実性を高めるプロトコルを設計する。

Critical quantum systems are a promising resource for quantum metrology applications, due to the diverging susceptibility developed in proximity of phase transitions. Here, we assess the metrological power of parametric Kerr resonators undergoing driven-dissipative phase transitions. We fully characterize the quantum Fisher information for frequency estimation, and the Helstrom bound for frequency discrimination. By going beyond the asymptotic regime, we show that the Heisenberg precision can be achieved with experimentally reachable parameters. We design protocols that exploit the critical behavior of nonlinear resonators to enhance the precision of quantum magnetometers and the fidelity of superconducting qubit readout.
翻訳日:2023-03-30 11:21:27 公開日:2023-03-29
# 誤り訂正による機械学習PDEソルバの不変保存

Invariant preservation in machine learned PDE solvers via error correction ( http://arxiv.org/abs/2303.16110v2 )

ライセンス: Link先を確認
Nick McGreivy, Ammar Hakim(参考訳) 機械学習偏微分方程式(PDE)は、標準数値法の信頼性を精度および/または速度の潜在的な利得と交換する。 解法が正確な解を出力することを保証する唯一の方法は、グリッドが$\Delta x$ と timestep $\Delta t$ approach zero に間隔をおいて収束する手法を使用することである。 大規模な$\Delta x$と/または$\Delta t$でソリューションを更新する機械学習ソルバは、完全な正確性を保証することはできない。 マシン学習した問題解決者に対して、許容したい種類のエラーを与えるよう、どうやって制約すればよいのか? 本稿では,基礎となるPDEの連続不変量の離散的なアナログを保存し,より信頼性の高いPDEソルバを設計する。 そのような不変量の例としては、質量の保存、エネルギーの保存、熱力学の第2法則、および/または非負密度がある。 不変量を保存するために、各タイムステップでエラー訂正アルゴリズムを更新ルールに適用します。 この戦略は、標準ソルバが不変量を保存する方法とは異なるが、機械学習ソルバが大きな$\Delta x$および/または$\Delta t$で正確であることを保証する柔軟性を維持する必要がある。 この戦略は任意の境界条件を持つ任意の測地における時間依存PDEに対する任意の自己回帰解法に適用できる。 この戦略は非常に一般的なものであるが、特定の誤り訂正アルゴリズムは、基礎となる方程式の不変量や解の表現と時間ステップスキームに合わせて調整する必要がある。 誤り訂正アルゴリズムには2つの重要な特性がある。 まず、正しい不変量を保存することにより、数値安定性が保証される。 第二に、閉じたシステムや周期的なシステムでは、既に正確な解法の精度を損なうことなくそれを行ないます。

Machine learned partial differential equation (PDE) solvers trade the reliability of standard numerical methods for potential gains in accuracy and/or speed. The only way for a solver to guarantee that it outputs the exact solution is to use a convergent method in the limit that the grid spacing $\Delta x$ and timestep $\Delta t$ approach zero. Machine learned solvers, which learn to update the solution at large $\Delta x$ and/or $\Delta t$, can never guarantee perfect accuracy. Some amount of error is inevitable, so the question becomes: how do we constrain machine learned solvers to give us the sorts of errors that we are willing to tolerate? In this paper, we design more reliable machine learned PDE solvers by preserving discrete analogues of the continuous invariants of the underlying PDE. Examples of such invariants include conservation of mass, conservation of energy, the second law of thermodynamics, and/or non-negative density. Our key insight is simple: to preserve invariants, at each timestep apply an error-correcting algorithm to the update rule. Though this strategy is different from how standard solvers preserve invariants, it is necessary to retain the flexibility that allows machine learned solvers to be accurate at large $\Delta x$ and/or $\Delta t$. This strategy can be applied to any autoregressive solver for any time-dependent PDE in arbitrary geometries with arbitrary boundary conditions. Although this strategy is very general, the specific error-correcting algorithms need to be tailored to the invariants of the underlying equations as well as to the solution representation and time-stepping scheme of the solver. The error-correcting algorithms we introduce have two key properties. First, by preserving the right invariants they guarantee numerical stability. Second, in closed or periodic systems they do so without degrading the accuracy of an already-accurate solver.
翻訳日:2023-03-30 11:16:10 公開日:2023-03-29
# あなたの拡散モデルは密かにゼロショット分類器です

Your Diffusion Model is Secretly a Zero-Shot Classifier ( http://arxiv.org/abs/2303.16203v2 )

ライセンス: Link先を確認
Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak(参考訳) 近年の大規模テキスト・画像拡散モデルにより,テキストベースの画像生成能力は劇的に向上した。 これらのモデルは、停滞する様々なプロンプトに対して現実的な画像を生成し、印象的な合成一般化能力を示す。 これまでのほとんどのユースケースはサンプリングのみに重点を置いているが、拡散モデルは画像生成以外のタスクに有用な条件付き密度推定を提供することもできる。 本稿では,Stable Diffusionのような大規模テキスト・画像拡散モデルからの密度推定を,追加の訓練を伴わずにゼロショット分類を行うことができることを示す。 拡散分類器とよばれる分類法は,様々なベンチマークで強い結果を得て,拡散モデルから知識を抽出する代替手法よりも優れている。 ゼロショット認識タスクにおける生成的アプローチと差別的アプローチの間にはギャップが残っているが、我々の拡散に基づくアプローチは、競合する差別的アプローチよりも強いマルチモーダルリレーショナル推論能力を有する。 最後に、Diffusion Classifierを用いて、ImageNetで訓練されたクラス条件拡散モデルから標準分類器を抽出する。 これらのモデルは、弱い拡張と正規化を伴わずに訓練されるが、SOTA識別分類器の性能にアプローチする。 全体としては,下流タスクの識別モデルよりもジェネレーティブを使うための一歩である。 https://diffusion-classifier.github.io/における結果と視覚化

The recent wave of large-scale text-to-image diffusion models has dramatically increased our text-based image generation abilities. These models can generate realistic images for a staggering variety of prompts and exhibit impressive compositional generalization abilities. Almost all use cases thus far have solely focused on sampling; however, diffusion models can also provide conditional density estimates, which are useful for tasks beyond image generation. In this paper, we show that the density estimates from large-scale text-to-image diffusion models like Stable Diffusion can be leveraged to perform zero-shot classification without any additional training. Our generative approach to classification, which we call Diffusion Classifier, attains strong results on a variety of benchmarks and outperforms alternative methods of extracting knowledge from diffusion models. Although a gap remains between generative and discriminative approaches on zero-shot recognition tasks, we find that our diffusion-based approach has stronger multimodal relational reasoning abilities than competing discriminative approaches. Finally, we use Diffusion Classifier to extract standard classifiers from class-conditional diffusion models trained on ImageNet. Even though these models are trained with weak augmentations and no regularization, they approach the performance of SOTA discriminative classifiers. Overall, our results are a step toward using generative over discriminative models for downstream tasks. Results and visualizations at https://diffusion-classifier.github.io/
翻訳日:2023-03-30 11:14:46 公開日:2023-03-29
# 産業異常検出のためのハードノミナル例認識テンプレート相互マッチング

Hard Nominal Example-aware Template Mutual Matching for Industrial Anomaly Detection ( http://arxiv.org/abs/2303.16191v2 )

ライセンス: Link先を確認
Zixuan Chen, Xiaohua Xie, Lingxiao Yang, jianhuang Lai(参考訳) 異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業生産で広く使われている。 これらの検出器は名目上の画像で訓練され、ほとんどの正常なサンプルから異常を区別することに成功した。 しかし、ハード・ノミナルな例は散在しており、ほとんどの正常さとはかけ離れており、しばしば既存の異常検出器によって異常と誤認される。 この問題に対処するために、単純で効率的な方法を提案する: \textbf{H}ard Nominal \textbf{E}xample-aware \textbf{T}emplate \textbf{M}utual \textbf{M}atching (HETMM)。 具体的には、‘textit{HETMM} は、厳密なプロトタイプベースの決定境界を構築することを目的としている。 さらに、\textit{hetmm} はクエリとテンプレートセットの間の2方向の異常を相互に探索するので、論理的な異常を捉えることができる。 これは、しばしば論理的な異常を検出するのに失敗するほとんどの異常検出器に対する大きな利点である。 さらに、速度精度の要求を満たすために、元のテンプレートセットを合理化するために、さらに \textbf{P}ixel-level \textbf{T}emplate \textbf{S}election (PTS)を提案する。 \textit{PTS} はクラスタセンターとハードノミナルな例を選択して小さな集合を形成し、元の決定境界を維持する。 5つの実世界のデータセットに関する包括的実験は、我々の手法が、リアルタイム推論速度の下で既存の進歩よりも性能が劣ることを示している。 さらに、新しいサンプルを挿入することで、 \textit{hetmm} をホットアップデートすることができる。

Anomaly detectors are widely used in industrial production to detect and localize unknown defects in query images. These detectors are trained on nominal images and have shown success in distinguishing anomalies from most normal samples. However, hard-nominal examples are scattered and far apart from most normalities, they are often mistaken for anomalies by existing anomaly detectors. To address this problem, we propose a simple yet efficient method: \textbf{H}ard Nominal \textbf{E}xample-aware \textbf{T}emplate \textbf{M}utual \textbf{M}atching (HETMM). Specifically, \textit{HETMM} aims to construct a robust prototype-based decision boundary, which can precisely distinguish between hard-nominal examples and anomalies, yielding fewer false-positive and missed-detection rates. Moreover, \textit{HETMM} mutually explores the anomalies in two directions between queries and the template set, and thus it is capable to capture the logical anomalies. This is a significant advantage over most anomaly detectors that frequently fail to detect logical anomalies. Additionally, to meet the speed-accuracy demands, we further propose \textbf{P}ixel-level \textbf{T}emplate \textbf{S}election (PTS) to streamline the original template set. \textit{PTS} selects cluster centres and hard-nominal examples to form a tiny set, maintaining the original decision boundaries. Comprehensive experiments on five real-world datasets demonstrate that our methods yield outperformance than existing advances under the real-time inference speed. Furthermore, \textit{HETMM} can be hot-updated by inserting novel samples, which may promptly address some incremental learning issues.
翻訳日:2023-03-30 11:14:25 公開日:2023-03-29
# 再現性は正確さなしでは何もない - NLPにおけるテストコードの重要性

Reproducibility is Nothing without Correctness: The Importance of Testing Code in NLP ( http://arxiv.org/abs/2303.16166v2 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri(参考訳) 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の認識された品質に基づいてのみ推測されることが多い。 これは誤った結果と潜在的に誤解を招く結果のリスクを伴う。 この問題に対処するため、私たちは、結果の再現性に現在焦点を合わせ、ベストプラクティスのコーディングに重点を置くべきであると仮定します。 我々は,最先端のコンフォーメータアーキテクチャのオープンソース実装で広く使用されている3つのバグを識別(かつ正しい)するケーススタディを提供することで,nlpコミュニティへの呼びかけを強化した。 各種言語における自動音声認識と翻訳の比較実験を通じて,バグの存在は善良かつ再現可能な結果の達成を妨げず,将来研究を誤った結果に導く可能性があることを実証する。 これに対応するため,本研究は,開発ソフトウェアの品質向上と正確性向上を目的としたコーディングベストプラクティスの採用に向けた取り組みである。

Despite its pivotal role in research experiments, code correctness is often presumed only on the basis of the perceived quality of the results. This comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on result reproducibility should go hand in hand with the emphasis on coding best practices. We bolster our call to the NLP community by presenting a case study, in which we identify (and correct) three bugs in widely used open-source implementations of the state-of-the-art Conformer architecture. Through comparative experiments on automatic speech recognition and translation in various language settings, we demonstrate that the existence of bugs does not prevent the achievement of good and reproducible results and can lead to incorrect conclusions that potentially misguide future research. In response to this, this study is a call to action toward the adoption of coding best practices aimed at fostering correctness and improving the quality of the developed software.
翻訳日:2023-03-30 11:13:46 公開日:2023-03-29
# 大規模事前学習モデルの創発的新発見は驚くほど強力である

Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery ( http://arxiv.org/abs/2303.15975v2 )

ライセンス: Link先を確認
Mingxuan Liu, Subhankar Roy, Zhun Zhong, Nicu Sebe, Elisa Ricci(参考訳) ラベルのないデータから新しい概念を連続的に発見することは、生涯学習者にとって重要なデシドラタムである。 文献では、そのような問題は、新しい概念(例えば、NCD)を発見するためにラベル付きデータへのアクセスを提供するか、限られた段階(例えば、クラス-iNCD)で学習を行う、非常に制限された設定の下で部分的に解決されている。 本研究では,現状に挑戦し,msc-incdと呼ばれる,大規模事前学習モデルからの豊富な事前知識を活用しながら,継続的にかつ教師なしに学習を行う,より挑戦的で実践的な学習パラダイムを提案する。 この目的のために,より長い学習シナリオ下ではレジリエンスであるだけでなく,高度な最先端手法と比較して驚くほど強い,シンプルなベースラインを提案する。 我々は、多数のベンチマークで広範な実験的な評価を行い、提案したベースラインの有効性を示し、バーを著しく高めている。

Discovering novel concepts from unlabelled data and in a continuous manner is an important desideratum of lifelong learners. In the literature such problems have been partially addressed under very restricted settings, where either access to labelled data is provided for discovering novel concepts (e.g., NCD) or learning occurs for a limited number of incremental steps (e.g., class-iNCD). In this work we challenge the status quo and propose a more challenging and practical learning paradigm called MSc-iNCD, where learning occurs continuously and unsupervisedly, while exploiting the rich priors from large-scale pre-trained models. To this end, we propose simple baselines that are not only resilient under longer learning scenarios, but are surprisingly strong when compared with sophisticated state-of-the-art methods. We conduct extensive empirical evaluation on a multitude of benchmarks and show the effectiveness of our proposed baselines, which significantly raises the bar.
翻訳日:2023-03-30 11:13:31 公開日:2023-03-29
# Unify, Align and Refine:マルチレベルセマンティックアライメントによる放射線診断レポート生成

Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation ( http://arxiv.org/abs/2303.15932v2 )

ライセンス: Link先を確認
Yaowei Li, Bang Yang, Xuxin Cheng, Zhihong Zhu, Hongxiang Li, Yuexian Zou(参考訳) 自動放射線学レポート生成は, 放射線技師の作業負荷軽減の実践的価値から, 膨大な研究関心を集めている。 しかし、画像(例えば、Chest X-ray)とその関連レポートと画像パッチとキーワードの局所的なアライメントのグローバルな対応を同時に確立することは困難である。 この目的のために,多段階のクロスモーダルアライメントを学習し,LSU(Latent Space Unifier),CRA(Cross-modal Representation Aligner),TIR(Text-to-Image Refiner)の3つの新しいモジュールを導入するためのUnify,Align, then Refine (UAR)アプローチを提案する。 特に、LSUはマルチモーダルデータを離散トークンに統一し、共有ネットワークを用いてモダリティ間の共通知識を学習する。 モダリティ非依存 cra は、まず正規直交基底と双対ゲート機構のセットを通して識別的特徴を学習し、次に三重項コントラスト損失の下で視覚的およびテキスト的表現をグローバルに調整する。 TIRは、学習可能なマスクでテキストと画像の注意を校正することでトークンレベルの局所アライメントを高める。 さらに,2段階の学習手順をデザインし,uarが様々なレベルにおけるクロスモーダルアライメントを徐々に把握できるようにし,放射線科医のワークフローを模倣した。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの大規模な実験と解析により、UARの様々な最先端手法に対する優位性を示す。

Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods.
翻訳日:2023-03-30 11:13:14 公開日:2023-03-29
# マルチビュー監視蒸留による深部完備化

Enhancing Depth Completion with Multi-View Monitored Distillation ( http://arxiv.org/abs/2303.15840v2 )

ライセンス: Link先を確認
Jia-Wei Guo, Cong Li, Sen-Hua Zhu, Chang-Zheng Zhang, Ming Ouyang, Ning Ding, Hung-Chyun Chou(参考訳) 本稿では,多視点改良型監視蒸留を用いて深度マップを作成できる新しい深度補完法を提案する。 提案手法は,教師モデルとしてステレオモデルを導入し,学生モデルの深度補修精度を向上する,最先端のアンサンブル蒸留法に基づいている。 アンサンブル蒸留中の画像の再構成誤差を最小化することにより、完備型教師の固有の誤りモードの学習を回避できる。 自己教師型情報提供には,多視点深度整合性やマルチスケールの最小再計画も活用する。 これらの手法は、既存の構造制約を利用して、学生モデルトレーニングのための教師付き信号を得る。 提案手法は, ベースライン監視蒸留法の精度を著しく向上することを示した。

This paper presents a novel method for depth completion, which leverages multi-view improved monitored distillation to generate more precise depth maps. Our approach builds upon the state-of-the-art ensemble distillation method, in which we introduce a stereo-based model as a teacher model to improve the accuracy of the student model for depth completion. By minimizing the reconstruction error for a given image during ensemble distillation, we can avoid learning inherent error modes of completion-based teachers. To provide self-supervised information, we also employ multi-view depth consistency and multi-scale minimum reprojection. These techniques utilize existing structural constraints to yield supervised signals for student model training, without requiring costly ground truth depth information. Our extensive experimental evaluation demonstrates that our proposed method significantly improves the accuracy of the baseline monitored distillation method.
翻訳日:2023-03-30 11:12:44 公開日:2023-03-29
# 流体力学実験のための機械学習の変換可能性

The transformative potential of machine learning for experiments in fluid mechanics ( http://arxiv.org/abs/2303.15832v2 )

ライセンス: Link先を確認
Ricardo Vinuesa, Steven L. Brunton and Beverley J. McKeon(参考訳) 機械学習の分野は、初期のビッグデータ分野の一つである実験流体力学を含む、科学と工学の多くの分野において、急速に技術の現状を進歩させてきた。 この視点は、機械学習の進歩の恩恵を受けるための実験流体力学のいくつかの側面を強調します。 1)測定技術の忠実度と質を高めること。 2 実験設計の改善及びデジタル双対モデルのサロゲート 3)リアルタイム推定と制御を可能にする。 いずれの場合も、近年の成功談や進行中の課題について、注意点や限界とともに論じ、ML強化およびML対応実験流体力学の新しい手法の可能性について概説する。

The field of machine learning has rapidly advanced the state of the art in many fields of science and engineering, including experimental fluid dynamics, which is one of the original big-data disciplines. This perspective will highlight several aspects of experimental fluid mechanics that stand to benefit from progress advances in machine learning, including: 1) augmenting the fidelity and quality of measurement techniques, 2) improving experimental design and surrogate digital-twin models and 3) enabling real-time estimation and control. In each case, we discuss recent success stories and ongoing challenges, along with caveats and limitations, and outline the potential for new avenues of ML-augmented and ML-enabled experimental fluid mechanics.
翻訳日:2023-03-30 11:12:29 公開日:2023-03-29
# HOICLIP:視覚言語モデルを用いたHOI検出のための効率的な知識伝達

HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models ( http://arxiv.org/abs/2303.15786v2 )

ライセンス: Link先を確認
Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He(参考訳) human-object interaction(hoi)検出は、人間とオブジェクトのペアをローカライズし、それらの相互作用を認識することを目的としている。 近年,コントラスト言語-画像事前学習 (CLIP) は,知識蒸留によるHOI検出器の操作に先立って大きな可能性を示している。 しかしながら、このようなアプローチは大規模トレーニングデータに依存することが多く、少数/ゼロショットのシナリオではパフォーマンスが劣る。 本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。 具体的には,まず,クロスアテンション機構を介してクリップの視覚特徴マップから情報領域を抽出する新しいインタラクションデコーダを導入し,より正確な人間と対象のペア検出のための知識統合ブロックによって検出バックボーンと融合する。 さらに、CLIPテキストエンコーダの事前知識を利用して、HOI記述を埋め込んで分類器を生成する。 詳細なインタラクションを識別するために,視覚的意味演算と軽量動詞表現アダプタを用いて,訓練データから動詞分類器を構築する。 さらに,CLIPのグローバルHOI予測を利用した学習自由化を提案する。 HICO-Det上の+4.04 mAPなど,様々な設定において,本手法が最先端の手法であることを示す。 ソースコードはhttps://github.com/Artanic30/HOICLIPで入手できる。

Human-Object Interaction (HOI) detection aims to localize human-object pairs and recognize their interactions. Recently, Contrastive Language-Image Pre-training (CLIP) has shown great potential in providing interaction prior for HOI detectors via knowledge distillation. However, such approaches often rely on large-scale training data and suffer from inferior performance under few/zero-shot scenarios. In this paper, we propose a novel HOI detection framework that efficiently extracts prior knowledge from CLIP and achieves better generalization. In detail, we first introduce a novel interaction decoder to extract informative regions in the visual feature map of CLIP via a cross-attention mechanism, which is then fused with the detection backbone by a knowledge integration block for more accurate human-object pair detection. In addition, prior knowledge in CLIP text encoder is leveraged to generate a classifier by embedding HOI descriptions. To distinguish fine-grained interactions, we build a verb classifier from training data via visual semantic arithmetic and a lightweight verb representation adapter. Furthermore, we propose a training-free enhancement to exploit global HOI predictions from CLIP. Extensive experiments demonstrate that our method outperforms the state of the art by a large margin on various settings, e.g. +4.04 mAP on HICO-Det. The source code is available in https://github.com/Artanic30/HOICLIP.
翻訳日:2023-03-30 11:12:16 公開日:2023-03-29
# TFS-ViT:ドメイン一般化のためのトークンレベル機能スティル化

TFS-ViT: Token-Level Feature Stylization for Domain Generalization ( http://arxiv.org/abs/2303.15698v2 )

ライセンス: Link先を確認
Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Gustavo A. Vargas Hakim, David Osowiechi, Ismail Ben Ayed, Christian Desrosiers(参考訳) 畳み込みニューラルネットワーク(cnns)のような標準的なディープラーニングモデルは、トレーニング中に見られない領域に一般化する能力がない。 この問題は、ソースとターゲットデータが同一の i.d. 分布から来るようなモデルの一般的な仮定がしばしば間違っているためである。 近年、視覚変換器(ViT)は幅広いコンピュータビジョンタスクにおいて優れた性能を示している。 しかし、新しい領域に一般化する能力についての研究はほとんどない。 本稿では,新たなドメインを合成することで,vitsの性能を向上し,データを非認識化するための第1のトークンレベル特徴スタイライゼーション(tfs-vit)手法を提案する。 本手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。 さらに,クラス (cls) トークンのアテンションマップを用いて,異なる画像領域に対応するトークンの正規化統計の計算と混合を行う,アテンションアウェアスタイライゼーションの新たな戦略により,このアプローチをさらに改善する。 提案手法はバックボーンモデルの選択に柔軟であり、計算複雑性が無視できる任意のvitベースのアーキテクチャに容易に適用できる。 総合的な実験により、ドメイン一般化のための5つの挑戦的なベンチマークにおいて、我々のアプローチが最先端のパフォーマンスを達成できることを示し、異なるタイプのドメインシフトに対処する能力を示す。 実装は以下の通りである。 https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization。

Standard deep learning models such as convolutional neural networks (CNNs) lack the ability of generalizing to domains which have not been seen during training. This problem is mainly due to the common but often wrong assumption of such models that the source and target data come from the same i.i.d. distribution. Recently, Vision Transformers (ViTs) have shown outstanding performance for a broad range of computer vision tasks. However, very few studies have investigated their ability to generalize to new domains. This paper presents a first Token-level Feature Stylization (TFS-ViT) approach for domain generalization, which improves the performance of ViTs to unseen data by synthesizing new domains. Our approach transforms token features by mixing the normalization statistics of images from different domains. We further improve this approach with a novel strategy for attention-aware stylization, which uses the attention maps of class (CLS) tokens to compute and mix normalization statistics of tokens corresponding to different image regions. The proposed method is flexible to the choice of backbone model and can be easily applied to any ViT-based architecture with a negligible increase in computational complexity. Comprehensive experiments show that our approach is able to achieve state-of-the-art performance on five challenging benchmarks for domain generalization, and demonstrate its ability to deal with different types of domain shifts. The implementation is available at: https://github.com/Mehrdad-Noori/TFS-ViT_Token-level_Feature_Stylization.
翻訳日:2023-03-30 11:11:53 公開日:2023-03-29
# TextMI:事前学習言語モデルにおける非言語キューの統合のためのマルチモーダル情報のテキスト化

TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models ( http://arxiv.org/abs/2303.15430v2 )

ライセンス: Link先を確認
Md Kamrul Hasan, Md Saiful Islam, Sangwu Lee, Wasifur Rahman, Iftekhar Naim, Mohammed Ibrahim Khan, Ehsan Hoque(参考訳) 事前学習された大規模言語モデルは最近、さまざまな言語理解タスクにおいて画期的なパフォーマンスを達成している。 しかし、非言語的特徴(例えば音響的特徴と視覚的特徴)が言語と統合されない限り、同じモデルはマルチモーダルな行動理解タスク(例えば、ビデオ感情/ハンプター検出)には適用できない。 複数のモダリティを共同でモデリングすることで、モデルの複雑さが大幅に向上し、トレーニングプロセスがデータ格納化される。 大量のテキストデータはWebから入手できるが、時間とお金の両面で、大規模なマルチモーダルな行動ビデオデータセットの収集は非常に高価である。 本稿では,テキスト形式で提示された場合,大規模言語モデルだけで非言語情報を取り込むことができるか検討する。 本稿では,音声情報と視覚情報を対応するテキスト記述に変換し,音声テキストと結合する手法を提案する。 我々は、この強化された入力を事前訓練されたBERTモデルに入力し、3つの下流マルチモーダルタスク(感情、ユーモア、皮肉検出)で微調整する。 提案手法であるtextmiは,モデルの複雑さを著しく低減し,モデルの判断に解釈性を高めるとともに,優れた(マルチモーダル・サーカズム検出)やsoma(multimodal sentiment analysis and multimodal humor detection)性能を実現しながら,さまざまなタスクに適用することができる。 本稿では,マルチモーダル行動分析タスク,特に低リソース環境における全般的かつ競争力の高いベースラインとしてtextmiを提案する。

Pre-trained large language models have recently achieved ground-breaking performance in a wide variety of language understanding tasks. However, the same model can not be applied to multimodal behavior understanding tasks (e.g., video sentiment/humor detection) unless non-verbal features (e.g., acoustic and visual) can be integrated with language. Jointly modeling multiple modalities significantly increases the model complexity, and makes the training process data-hungry. While an enormous amount of text data is available via the web, collecting large-scale multimodal behavioral video datasets is extremely expensive, both in terms of time and money. In this paper, we investigate whether large language models alone can successfully incorporate non-verbal information when they are presented in textual form. We present a way to convert the acoustic and visual information into corresponding textual descriptions and concatenate them with the spoken text. We feed this augmented input to a pre-trained BERT model and fine-tune it on three downstream multimodal tasks: sentiment, humor, and sarcasm detection. Our approach, TextMI, significantly reduces model complexity, adds interpretability to the model's decision, and can be applied for a diverse set of tasks while achieving superior (multimodal sarcasm detection) or near SOTA (multimodal sentiment analysis and multimodal humor detection) performance. We propose TextMI as a general, competitive baseline for multimodal behavioral analysis tasks, particularly in a low-resource setting.
翻訳日:2023-03-30 11:11:09 公開日:2023-03-29